Université Paris-Est Université Paris-Est - Marne-la-Vallée Université Paris-Est - Créteil Val-de-Marne Centre National de la Recherche Scientifique

Moments aléatoires pour l’apprentissage compressé

Site: 
Date: 
21/06/2017 - 15:00 - 16:00
Salle: 
P1 P15
Orateur: 
GRIBONVAL Rémi
Localisation: 
INRIA
Localisation: 
France
Résumé: 

Un enjeu fondamental de l’apprentissage automatique est d’extraire de l’information de grandes collections de données avec des techniques efficaces tant du point algorithmique que statistique. Les volumes des collections disponibles dans certains domaines, combinées aux ressources de calcul conséquentes offertes par les GPUs, ont mené à des résultats spectaculaires par exemple en reconnaissance de la parole ou en analyse de scènes visuelles. Mais comment exploiter les opportunités offertes par les grands volumes de données lorsque les ressources de calcul et de mémoire sont limitées, par exemple à bord de dispositifs autonomes, avares en énergie ? Peut-on compresser drastiquement une collection d’entraînement avant apprentissage, tout en préservant la capacité à exploiter l’information qu’elle contient ?

L’exposé donnera un aperçu d’une approche appelée apprentissage compressé, inspirée de l’échantillonnage compressé issu du traitement du signal. Un unique vecteur de petite dimension, appelé sketch, capture l’information de toute la collection d’entraînement sous la forme de quelques moments empiriques aléatoires calculés en une unique passe sur les données. A partir du seul sketch, l’enjeu est de pouvoir calculer un quasi-minimiseur du risque statistique associé à la tâche d’apprentissage considérée.

Plusieurs cas d’étude seront évoqués: de l’analyse en composante principale aux k-moyennes et à l’estimation de mélanges de Gaussiennes. L’apprentissage compressé s’apparente sur ces exemples à une méthode des moments généralisée, et fonctionne à budget mémoire constant indépendant de la taille de la collection. A performance égale, des gains en temps de calcul de deux ordres de grandeur ont été observés sur des grandes collections avec des algorithmes inspirés du Matching Pursuit. On prouve également que l’excès de risque est contrôlé pour un sketch de dimension bornée par une mesure de ”complexité” de
la tâche d’apprentissage considérée. Les techniques de preuve combinent des outils venant de l’échantillonnage compressé aléatoire et du transport optimal.

Collaboration avec Gilles Blanchard, Nicolas Keriven, et Yann Traonmilin.