Proposition de Projet de Diplôme

Classification et catégorisation hiérarchique de documents


Responsables

Martin Rajman
Tel: +41 21 693 52 77
Email: martin.rajman@epfl.ch
  Éric Gaussier (Xerox Research Centre Europe)
Tel: +33 4 76 61 50 13
Email: Eric.Gaussier@xrce.xerox.com

Description

XRCE (Xerox Research Centre Europe), en collaboration avec PARC (Palo Alto Research Centre), a développé un système de classification et catégorisation hiérarchique de documents, fondé sur une
série de modèles mixtes (l'articlede T. Hofmann "Statistical models fo co-occurrence data", télédéchargeable depuis  Hofmann, fournit une bonne description de ces modèles).

Ces modèles peuvent être utilisés pour induire des hiérarchies de concepts qui permettent de représenter et/ou d'avoir un meilleur accès à des collections de documents.

Les objectifs principaux de ce travail de diplôme sont les suivants:

  1. implantation d'une version accélérée de l'algorithme utilisé pour induire les hiérarchies; formalisation et implantation d'une procédure pour sélectionner de façon automatique le nombre de classes;
  2. la recherche d'information s'appuie bien souvent sur un modèle vectoriel ou chaque terme d'indexation constitue une dimension de l'espace. Dans la mesure où nous disposons de classes de documents et de distributions de probabilité des termes sur l'ensemble de ces classes, il est naturel de vouloir s'appuyer sur un nombre réduit de dimensions, celui correspondant aux classes obtenues. Un certain nombre de décompositions sur des espaces à dimension réduite existent pour différents modèles et l'objectif est ici de produire une telle décomposition pour les modèles proposés, ainsi que de tester ces décompositions dans le cadre de la recherche d'information;
  3. comparer l'approche proposée pour la catégorisation de documents à d'autres approches (SVM, réseaux bayésiens, ...).

Le projet sera réalisé au centre européen de recherche de Xerox, à Grenoble. La rémunération dépendra de la qualification (en général, les stagiaires sont payés aux environs de 5000 FF par mois).

Connaissances requises

Suivant les compétences du candidat, l'accent sera plutôt mis sur les aspects informatiques ou mathématiques des objectifs proposés.

Environnement

UNIX

Last modified: Thu May 11 13:56:27 2000
Webmaster