Apprentissage automatique et contrôle stochastique

H. Pham

Ce cours présentera quelques développements récents sur l’interaction entre le contrôle et l’apprentissage automatique. Plus précisément, nous aborderons les sujets suivants :

Partie I : Algorithmes de réseaux de neurones pour les EDP et le contrôle stochastique. L’apprentissage profond basé sur la capacité d’approximation des réseaux neuronaux et l’efficacité des optimiseurs de descente du gradient a montré un succès remarquable ces dernières années pour résoudre les équations aux dérivées partielles (EDP) de grande dimension qui apparaissent notamment dans le contrôle optimal stochastique en finance. Nous présentons les différentes méthodes qui ont été développées dans la littérature reposant sur des approches déterministes ou probabilistes : - Deep Galerkin, - Deep BSDE, Deep backward BSDE, - Apprentissage de contrôle et itération de la fonction de valeur. Ces résultats seront illustrés par plusieurs tests numériques.

Partie II : Apprentissage par renforcement profond. La deuxième partie du cours portera sur la résolution des problèmes de contrôle stochastique lorsque l’environnement et les coefficients du modèle sont inconnus et que les stratégies optimales sont apprises à partir d’échantillons d’observation de l’état et de la récompense par tâtonnement. C’est le principe de l’apprentissage par renforcement (RL), un sujet classique de l’apprentissage automatique, qui a suscité un intérêt croissant dans la communauté de l’analyse/contrôle stochastique. Nous passerons en revue les bases de la théorie de l’apprentissage par renforcement et présenterons les derniers développements sur les gradients de politique, les algorithmes acteurs/critiques et les méthodes d’apprentissage en temps continu.

Partie III : Modèles génératifs pour les séries temporelles. La simulation des séries temporelles est utile en finance pour tester la robustesse des stratégies systématiques, pour générer des scénarios de stress-test dans la mesure des risques de marché, pour la prédiction et pour l’apprentissage de stratégies optimales. Nous présenterons des modèles génératifs basés sur les processus de diffusion et l’approche du transport optimal pour simuler de nouveaux échantillons de la distribution des données des séries temporelles.

Bibliographie

  • [1] M. Germain, H. Pham, X. Warin: Neural networks-based algorithms for stochastic control and PDEs in finance, Machine Learning and Data Sciences for Financial Markets: a guide to contemporary practices, Cambridge University Press, 2023, Editors: A. Capponi and C. A. Lehalle

  • [2] M. Hamdouche, P. Henry-Labordère, H. Pham: Generative modeling for time series via Schrödinger bridge, 2023.

  • [3] Y. Jia and X.Y. Zhou: Policy gradient and Actor-Critic learning in continuous time and space: theory and algorithms, 2022, Journal of Machine Learning and Research.

  • [4] Y. Jia and X.Y. Zhou: q-Learning in continuous time, 2023, Journal of Machine Learning and Research.

  • [5] C. Remlinger, J. Mikael, R. Elie: Conditional loss and deep Euler scheme for time series generation, 2021, AAAI Conference on Artificial Intelligence.

  • [6] R. Sutton and A. Barto: Introduction to reinforcement learning, second edition 2016,

  • [7] M. Xia, X. Li, Q. Shen, T. Chou: Squared Wasserstein-2 distance for efficient reconstruction of stochastic differential equations, 2024, arXiv:2401.11354