Compressibilité des algorithmes d’apprentissage statistique pour l’analyse du pouvoir de généralisation. Est-il nécessaire de mémoriser pour apprendre ? – Laboratoire d'Informatique Gaspard-Monge UMR 8049

Cet exposé est composé de deux parties. Dans la première, je présente un nouveau cadre d’étude de l’erreur de généralisation des algorithmes d’apprentissage statistique, à travers un nouveau prisme de compressibilité de taille variable des algorithmes que j’introduis.

Dans ce cadre, l’erreur de généralisation d’un algorithme est liée au taux de compression de ses données d’entrée. Je montrerai que : (i) cela permet d’obtenir des bornes qui dépendent de la mesure statistique empirique des données plutôt que de leur distribution inconnue, (ii) que ces bornes englobent et améliorent plusieurs bornes existantes de type PAC-BAYES, ou obtenues par approche théorie de l’information comme celle de Xu-Raginsky ou encore fondées sur la dimension intrinsèque de la structure fractale sous-jacente de l’algorithme, révélant ainsi le caractère unificateur de l’approche. Il sera aussi montré que l’on peut utiliser ce cadre pour développer de nouvelles bornes plus fines sur la généralisation.

Dans la seconde partie de l’exposé, j’aborde la question importante du rapport entre pouvoir de généralisation et faculté de mémoire des algorithmes d’apprentissage statistique, question qui est encore à élucider.

En effet, l’intuition selon laquelle les bons algorithmes devraient extraire uniquement les informations pertinentes et écarter les informations superflues, intuition étayée par certains travaux théoriques, est remise en question par le succès retentissant des réseaux de neurones profonds sur-paramétrés modernes. Je montrerai comment le cadre de compressibilité introduit dans la première partie de l’exposé permet de déterminer si la mémorisation est une composante nécessaire a la généralisation, comme cela a été récemment affirmé dans certains travaux.

Data-dependent generalization bounds via variable-size compressibility, IEEE Transactions on Information Theory, vol. 70, no. 9, p. 6572-6595, Sept. 2024, disponible sur https://arxiv.org/abs/2303.05369,
Tighter CMI-Based Generalization Bounds via Stochastic Projection and Quantization, NeurIPS 2025, disponible sur https://arxiv.org/abs/2510.23

Localisation

Salle de séminaire 4B125 (bâtiment Copernic)

5 Boulevard Descartes 77420 Champs-sur-Marne

Contact

Informations réglementaires

Le laboratoire