Mes recherches se situent à l'intersection du Traitement Automatique des Langues (TAL),
de l'Intelligence Artificielle (IA) et de l'ingénierie des données textuelles.
Le cœur de ma démarche est le pipeline complet de construction et d'exploitation de corpus :
collecte, filtrage, annotation, création du gold standard, entraînement de modèles et évaluation.
Je construis des corpus et des jeux de données de A à Z — multilingues, thématiquement
spécialisés, issus du web ou de domaines spécifiques. Une conviction centrale guide ce travail :
même en utilisant de grands modèles de langue, la qualité des résultats dépend des données
qu'on leur fournit. Être auteure de ses propres données, et non simple
consommatrice de benchmarks existants, est à la fois un choix méthodologique et une posture
scientifique. J'automatise chaque étape du pipeline autant que possible, en développant
des scripts sur mesure pour rendre l'annotation robuste et reproductible — en utilisant
et promouvant toujours les logiciels libres.
Je suis membre de l'association APRIL,
pour la promotion et la défense du logiciel libre.
J'ai appliqué cette approche à de nombreuses tâches : fouille d'opinions, analyse de sentiment,
détection d'aspects explicites et implicites, construction de lexiques spécialisés pour de nouveaux concepts et analyse de corpus de presse (les métiers des femmes dans le cinéma français, par exemple).
Au-delà du pipeline, je m'interroge activement sur les méthodologies d'annotation :
qu'est-ce qui fait un bon gold standard ? Quand l'expertise humaine devient-elle irremplaçable —
ou pas tout à fait ? Comment choisit-on et justifie-t-on les métriques d'évaluation ?
Ces questions sont au cœur de ma délégation CNRS à
l'IRIT, où mes collègues de l'équipe
ADRIA
m'aident à explorer des formalismes — fonctions de croyance, raisonnement non monotone —
pour ancrer et valider ces choix méthodologiques.
Je suis profondément attachée à la recherche interdisciplinaire, convaincue que l'informatique — et en particulier le TAL, l'IA et la fouille de données — peut servir de partenaire méthodologique pour les sciences humaines, sociales et les arts.
Des projets comme Litte_Bot, MoliAIre et BrAIcht explorent
le potentiel créatif des modèles de langue dans les domaines littéraire et théâtral.
En 2023, j'ai co-fondé le groupe de recherche interdisciplinaire
GLAÇON
avec mes collègues
R. Kyriakoglou
et A. Millour.
L'enseignement de l'informatique et de la culture numérique me tient également à cœur.
Depuis fin 2023, j'ai développé des cours et ateliers pour initier les étudiant-e-s en informatique comme en SHS et en arts — aux outils d'IA générative : comment ils fonctionnent,
comment les utiliser de façon critique et éthique, et pourquoi ils peuvent être des
assistants/collaborateurs, et jamais des remplaçants. Parce qu'enseigner l'informatique, c'est aussi
former des esprits responsables et critiques.
J'ai donné des séminaires grand public lors des éditions annuelles de la Fête des Sciences et participe
à un groupe de travail national sur l'usage des LLMs dans l'enseignement supérieur en France,
pour anticiper les impacts et adapter nos pratiques pédagogiques à l'ère de l'IA générative.