Apprentissage automatique et contrôle stochastique
H. Pham
TP: Samy Mekkaoui et Alexandre Alouadi
Ce cours présente des développements récents à l’interface entre le contrôle stochastique et l’apprentissage automatique. Il s’articule autour de trois grands axes:
Partie I : Algorithmes de réseaux de neurones pour les EDP et le contrôle stochastique
L’approximation par réseaux neuronaux, combinée à l’efficacité des algorithmes de descente de gradient, a récemment permis des avancées remarquables dans la résolution d’équations aux dérivées partielles (EDP) de haute dimension, notamment issues du contrôle optimal en finance. Nous présenterons les principales méthodes développées dans la littérature, reposant sur des formulations déterministes ou probabilistes : - Deep Galerkin, - Deep BSDE, - Deep backward BSDE, - Apprentissage de contrôle et itération de la fonction de valeur. Ces résultats seront illustrés par plusieurs tests numériques.
Partie II : Apprentissage par renforcement profond
Lorsque les dynamiques du système sont inconnues, les stratégies optimales peuvent être apprises directement à partir d’interactions avec l’environnement. C’est le principe de l’apprentissage par renforcement (RL), une approche de plus en plus utilisée dans le cadre du contrôle stochastique. Nous passerons en revue les fondements du RL ainsi que ses extensions en temps continu : gradients de politique, méthodes acteur-critique, Q-learning, et algorithmes adaptés aux espaces d’états et d’actions continus.
Partie III : Modèles génératifs de diffusion et applications aux données séquentielles
Cette partie introduit les méthodes de modélisation générative fondées sur le transport optimal dynamique et les ponts de Schrödinger, au cœur des nouveaux modèles de type diffusion. Nous détaillerons les fondements théoriques (transport optimal statique vs dynamique, régularisation entropique), les algorithmes associés (ponts de Schrödinger via Sinkhorn, simulation de trajectoires stochastiques contrôlées), et leurs applications récentes à la génération de séries temporelles, e.g. financières.
Des séances pratiques seront consacrées à l’implémentation et à la mise en œuvre des algorithmes étudiés, avec des cas concrets de contrôle optimal ou de génération de séquences temporelles.
Bibliographie
[1] M. Germain, H. Pham, X. Warin: Neural networks-based algorithms for stochastic control and PDEs in finance, Machine Learning and Data Sciences for Financial Markets: a guide to contemporary practices, Cambridge University Press, 2023, Editors: A. Capponi and C. A. Lehalle
[2] B. Hambly, R. Xu: Recent advances in reinforcement learning in finance, Mathematical Finance, 2023
[3] M. Hamdouche, P. Henry-Labordère, H. Pham: Generative modeling for time series via Schrödinger bridge, 2023.
[3] Y. Jia and X.Y. Zhou: Policy gradient and Actor-Critic learning in continuous time and space: theory and algorithms, 2022, Journal of Machine Learning and Research.
[4] Y. Jia and X.Y. Zhou: q-Learning in continuous time, Journal of Machine Learning and Research, 2023.
[6] R. Sutton and A. Barto: Introduction to reinforcement learning, second edition 2016,
[7] V. De Bortoli, J. Thornton, J. Heng, A. Doucet: Diffusion Schrödinger bridge with applications to score-based generative modeling, 2021, NeurIPS.