Anna Pappa
AP
TAL Création & Annotation de corpus IA générative Apprentissage automatique Enseignement de l'informatique Logiciels libres

Anna Pappa

Professeure des Universités · Informatique · Université Paris 8 Vincennes–Saint-Denis
Responsable de l'équipe PASTIS · LIASD
Délégation CNRS · IRIT (Toulouse) ★ Membre du CA, CAP Digital — 2026

Mes recherches se situent à l'intersection du Traitement Automatique des Langues (TAL), de l'Intelligence Artificielle (IA) et de l'ingénierie des données textuelles. Le cœur de ma démarche est le pipeline complet de construction et d'exploitation de corpus : collecte, filtrage, annotation, création du gold standard, entraînement de modèles et évaluation.

Je construis des corpus et des jeux de données de A à Z — multilingues, thématiquement spécialisés, issus du web ou de domaines spécifiques. Une conviction centrale guide ce travail : même en utilisant de grands modèles de langue, la qualité des résultats dépend des données qu'on leur fournit. Être auteure de ses propres données, et non simple consommatrice de benchmarks existants, est à la fois un choix méthodologique et une posture scientifique. J'automatise chaque étape du pipeline autant que possible, en développant des scripts sur mesure pour rendre l'annotation robuste et reproductible — en utilisant et promouvant toujours les logiciels libres. Je suis membre de l'association APRIL, pour la promotion et la défense du logiciel libre.

J'ai appliqué cette approche à de nombreuses tâches : fouille d'opinions, analyse de sentiment, détection d'aspects explicites et implicites, construction de lexiques spécialisés pour de nouveaux concepts et analyse de corpus de presse (les métiers des femmes dans le cinéma français, par exemple).

Au-delà du pipeline, je m'interroge activement sur les méthodologies d'annotation : qu'est-ce qui fait un bon gold standard ? Quand l'expertise humaine devient-elle irremplaçable — ou pas tout à fait ? Comment choisit-on et justifie-t-on les métriques d'évaluation ? Ces questions sont au cœur de ma délégation CNRS à l'IRIT, où mes collègues de l'équipe ADRIA m'aident à explorer des formalismes — fonctions de croyance, raisonnement non monotone — pour ancrer et valider ces choix méthodologiques.

Je suis profondément attachée à la recherche interdisciplinaire, convaincue que l'informatique — et en particulier le TAL, l'IA et la fouille de données — peut servir de partenaire méthodologique pour les sciences humaines, sociales et les arts. Des projets comme Litte_Bot, MoliAIre et BrAIcht explorent le potentiel créatif des modèles de langue dans les domaines littéraire et théâtral. En 2023, j'ai co-fondé le groupe de recherche interdisciplinaire GLAÇON avec mes collègues R. Kyriakoglou et A. Millour.

L'enseignement de l'informatique et de la culture numérique me tient également à cœur. Depuis fin 2023, j'ai développé des cours et ateliers pour initier les étudiant-e-s en informatique comme en SHS et en arts — aux outils d'IA générative : comment ils fonctionnent, comment les utiliser de façon critique et éthique, et pourquoi ils peuvent être des assistants/collaborateurs, et jamais des remplaçants. Parce qu'enseigner l'informatique, c'est aussi former des esprits responsables et critiques. J'ai donné des séminaires grand public lors des éditions annuelles de la Fête des Sciences et participe à un groupe de travail national sur l'usage des LLMs dans l'enseignement supérieur en France, pour anticiper les impacts et adapter nos pratiques pédagogiques à l'ère de l'IA générative.

Université Paris 8 Des Créations LIASD Groupe GLAÇON

Je suis actuellement en délégation CNRS à l'IRIT, au sein de l'équipe ADRIA (Toulouse).

Postes & Réseaux de recherche

Postes actuels

  • Professeure des universités, Université Paris 8
  • Responsable de l'équipe PASTIS (LIASD)
  • Délégation CNRS à l'IRIT, Toulouse
  • Membre du CA, CAP Digitalnouveau 2026
  • Co-directrice (avec P. Rauzy) de la Licence Informatique

Groupes & réseaux de recherche

Responsabilités pédagogiques
Responsabilités administratives
En cours & récent
  • Membre du CA, CAP Digital2026
  • Membre élue du Conseil documentaire, Université Paris 8 · 2025–
  • Membre élue du Bureau de l'EUR ArTeC · 2021–
  • Membre élue du CNESER & Commission disciplinaire du CNESER · 2022–2025
  • Membre élue du CNU, section 27 (Informatique) · 2020–2025
  • Membre élue du Commission de la Recherche (CR) et Académique (CAC) , Université Paris 8 · 2025
Passé
  • Membre élue du Conseil d'administration de l'Université Paris Lumières (UPL) · 2020–2023
  • Membre élue du Conseil de l'UFR MITSIC / STN, Université Paris 8 · 2015–2023
  • Membre élue du Conseil d'orientation (dérogations), Université Paris 8 · 2012–2022
  • Membre élue de la CFVU, Université Paris 8 · 2008–2012