Qui ? Christine Kéribin, professeure au Laboratoire de Mathématique d'Orsay,
Quoi ? Classification non supervisée sous contrainte de mémoire de très grands jeux de données déséquilibrés à partir de comptages marginaux.
En classification non supervisée de grands volumes de données, il est intéressant de pouvoir détecter de petites classes qui peuvent avoir une grande valeur. Nous nous plaçons dans un cadre où la taille mémoire est limitée et le jeu de données ne peut être chargé en mémoire. Il est alors courant de recourir au sous-échantillonnage, mais sa capacité à détecter les petites classes est limitée. Considérant la classification non supervisée par modèle de mélange gaussien, nous proposons une approche de réduction de taille par comptages marginaux. Nous en établissons les propriétés théoriques, définissons un algorithme d’estimation et illustrons sa plus-value par rapport au sous-échantillonnage pour la détection de petits clusters.
Antonazzo, Filippo, Christophe Biernacki, and Christine Keribin. "Frugal Gaussian clustering of huge imbalanced datasets through a bin-marginal approach." Statistics and Computing 33.3 (2023): 60. https://doi.org/10.1007/s11222-023-10221-7
Quand ? jeudi 13 mars 2025 de 13h30 à 15h (45' de présentation suivie de 45' max d'échanges)
