15 October: fyi -- multilingual information retrieval, France
Index of October 2010 | Index of year: 2010 | Full index
recherche d'information cross-lingue (CLIR).
Lieu : France Telecom Orange Labs ? Lannion (Bretagne).
Date : d?s que possible en fin 2010.
Dur?e : 12 mois.
Sujet du postdoc :
Approches hybrides de traitement des requ?tes pour la recherche d'information cross-lingue
Contexte de recherche :
Certains choix techniques ou m?thodologiques en recherche d'information multilingue
n'ont pas encore atteint un niveau de consensus. Par exemple, il n'est pas trivial
d'opter pour la traduction des requ?tes ou la traduction des contenus. Toutefois,
il nous semble d'ores et d?j? acceptable que la traduction des contenus est plus
optimale lorsque la quantit? d'informations ? indexer ainsi que le nombre de langues
concern?es ne sont pas tr?s ?lev?s. Dans le cas contraire, la traduction pr?alable
de tous les contenus index?s dans toutes les langues peut poser de r?els probl?mes d'?conomie.
En effet, une petite partie seulement des informations traduites pourrait ?tre r?ellement exploit?e.
Activit? du postdoc :
Cette activit? s'inscrit dans le cadre d'un projet de R&D dans le domaine de la recherche
d'information multim?dia et multilingue. Il est propos? d'explorer, mettre en oeuvre
et ?valuer une ou des m?thodes hybrides pour le traitement des requ?tes en vue d'une recherche cross-lingue.
Contrairement ? une traduction brute de la requ?te, qui peut ?chouer compte tenu
de sa pauvret? syntaxique et contextuelle, ce travail consiste ? explorer diff?rentes
approches dont la combinaison permettrait d'effectuer des pr?-traitements ou des
post-traitements moins syst?matiques et mieux r?fl?chis sur les requ?tes :
- Identification dans le requ?te des composants invariants, traduisibles, translit?rables, etc.
- Prise en compte de scores de confiance et post-?dition de la traduction automatique.
- Exploitation de ressources linguistiques : Wikip?dia, entit?s nomm?es, lexiques multilingues, th?saurus, etc.
- Utilisation de l'expansion de requ?tes pour la compensation de la couverture lexicale issue de la traduction.
- Choix et usage de techniques appropri?es de traduction pour les diff?rents composants de la requ?te.
- Etc.
Profil recherch? :
- Doctorat en informatique ou en linguistique, ayant ?t? soutenu de pr?f?rence depuis moins de 18 mois.
- Bonnes connaissances en TALN et des diff?rentes approches en traduction automatique.
- Connaissances en recherche d'information et en CLIR.
- Ma?trise de Linux, Python ou Java, langage de script (bash), C++ serait un plus.
- Langues : fran?ais et anglais (la connaissance d'autres langues serait un atout).
- Motivation pour la R&D dans un milieu industriel.
Contact :
Malek Boualem
France Telecom Orange Labs
T?l. 02 96 05 29 83
Email. malek.boualem [ ? ] orange-ftgroup.com
Merci de mettre comme objet du message : candidature au postdoc CLIR
Malek Boualem
Chef de projet R&D
France Telecom Orange Labs
Site de Lannion
T?l. 02 96 05 29 83
Mobile. 06 85 71 40 63
malek.boualem@orange-ftgroup.com
Index of October 2010 | Index of year: 2010 | Full index