Vorrei portare un piccolo contributo ricordando alcuni elementi interessanti emersi quando la creatura di DeepMind si confrontò con alcuni giocatori umani a StarCraft II invece che a giochi più "rigidi" come quelli menzionati; la differenza in questo caso è che il giocatore deve agire su due livelli distinti: una microgestione delle proprie pedine che è un frenetico gioco di riflessi e una macrogestione della partita che è invece incentrata sul raccogliere risorse naturali, costruire un esercito e manutenerlo al meglio in attesa di trovare il momento opportuno per annientare l'esercito avversario.
Se non ricordo male, la versione finale di "AlphaStar" (questo il nome dell'IA) si dimostrò ovviamente fortissima: capace di microgestire ogni singola pedina e ovviamente di rendere massimamente efficiente la gestione dell'economia; allo stesso tempo, però, ricordo che DeepMind non riuscì a far imparare per apprendimento rinforzato ad AlphaStar alcuno schema vincente come invece accade nelle classiche "gym" in cui il pupazzo deve evitare di finire nel fosso o la macchina deve parcheggiare senza fare il paraurti agli altri autoveicoli.
Alla fine DeepMind fu costretta a ricorrere a una tecnica diversa: invece di lasciare che l'IA imparasse in autonomia come affrontare un gioco con fin troppi gradi di libertà, AlphaStar fu addestrata su una enorme base dati di partite giocate da giocatori umani, quindi di fatto imparando da essi regole non scritte e che difficilmente potevano essere codificate allo stesso modo con cui si codificano quelle di giochi da tavolo tradizionali.
Questo può dirci qualcosa sui limiti dell'applicazione alla Borsa: per quanto l'apprendimento per rinforzo possa approssimare meravigliosamente bene tabelle di stato-azione-ricompensa su sistemi molto complessi, è pur sempre richiesto che delle regole esistano e siano definite; dopodiché la complessità del sistema può essere gestita mediante deep learning invece di codificare una enorme quantità di scenari e combinazioni di stato-azione-ricompensa come avviene nelle catene di Markov o di invetare funzioni da interpolare nei problemi economici classici di Value Function Iteration.
Ma, quando nemmeno le regole di base esistono, trovare una policy comportamentale ottimale non è banale.
A mio modesto avviso la Borsa non è troppo diversa da un gioco come StarCraft II: la microgestione degli ingressi e delle uscite deve andare a braccetto con la "comprensione" del contesto in cui queste avvengono se non ci sono vantaggi iniqui e tecnologici come la colocazione; una IA può imparare e migliore schemi vincenti di terzi a patto di poterli apprendere, eppure è proprio la ricerca di quegli schemi a essere il vero obiettivo... come una IA lasciata a se stessa non è stata in grado di capire come giocare a un gioco senza regole prima di aver potuto copiare gli esseri umani, allo stesso modo mi chiedo se una IA lasciata a se stessa possa capire delle regole "nascoste" nei mercati a forza di prendere ricompense sbagliando ingressi e uscite.
Con la differenza che in Borsa di umani capaci di prevedere ingressi e uscite da cui copiare non ce ne sono.