Proposition de Projet Étudiant:

Apprentissage non supervisé pour étiqueteur automatique de phrases


Responsables

Chappelier Jean-Cédric
Bureau: INR 232
Tel: 021 / 693.66.83
Email: Jean-Cedric.Chappelier@epfl.ch
  Rajman Martin
Bureau: INR 233
Tel: 021 / 693.52.77
Email: Martin.Rajman@epfl.ch

Description

C'est un euphémisme que de dire que les moteurs de recherche sur le Web sont peu performants en termes de requêtes exprimées en langage humain. Un des principaux problèmes est en effet de reconnaitre les mots en dépit de leur variété de formes.

Si par exemple la requête contient "définition de la brise (vent)", il ne faudra surtout pas retourner des textes du genre "La pratique trop précosse de certains sports brise la croissance de l'enfant"

Un des moyens de diminuer les variations de forme des mots est de représenter les textes de façon normalisée. Pour ce faire, une étape importante consiste à étiqueter chaque mot par sa catégorie grammaticale, en vue de désambuigüiser les (nombreuses) formes ambigües.

Le but de ce projet est précisément d'implémenter un algorithme d'apprentissage non-supervisé (c-à-d partant de texte brut non étiqueté) pour un étiqueteur automatique de mots à base de chaînes de Markov chachée (algorithme Baum-Welch).

Connaissances requises

Langage C.

Environnement

Station Unix

Last modified: Tue May 16 17:21:34 2000
Webmaster