10 April: fyi -- speech, France

Index of April 2008 | Index of year: 2008 | Full index

* Domaine de recherche : synthèse vocale, modélisation prosodique
* Lieu : Orange Labs, Lannion, France
* Date de début: 2008

* Sujet:
Les technologies de synthèse vocale du marché sont basées sur l'approche dite de Synthèse par Corpus (SPC). Mettant à profit la puissance croissante des ordinateurs, ces systèmes reposent avant tout sur une algorithmique de sélection de séquences d'unités acoustiques issues d'une base de données de parole de grande taille (plusieurs heures de parole produites par un locuteur donné, porteuse d'une grande diversité tant phonétique que prosodique). Le signal de synthèse est généré par sélection puis concaténation de segments de parole naturelle [Sag88, Bla97].

Permettant ainsi à un utilisateur expert de restituer une parole très naturelle, le nouvel enjeu concerne l'aptitude à fournir des moyens de contrôle explicites de la forme prosodique restituée, véhicule fondamental de l'intentionnalité du message. Des progrès sont ainsi attendus afin d'optimiser l'utilisabilité de cette brique technologique dans des contextes Opérateur tels que les Services Vocaux Interactifs dédiés à la Relation Client (support ventes, assistance, ...).

Le travail de thèse envisagé s'attachera à caractériser les éléments prosodiques essentiels à la synthèse expressive au sens de la cible applicative. La typologie choisie devra s'accorder aussi précisément que possible avec le contenu des bases, à travers un jeu de primitives prosodiques concis et pertinent. Elle devra par ailleurs permettre une annotation automatique robuste des bases, condition sine qua non à l'applicabilité industrielle du procédé.

De cette typologie seront déduites des stratégies de spécification par l'utilisateur puis de restitution par le système, ces dernières pouvant s'appuyer sur des techniques adaptées de sélection et/ou de modification prosodique.
De manière générale, ces travaux seront en grande partie conditionnés par les attentes des utilisateurs, pour lesquels les concepts introduits devront rester intuitifs, en vue d'une intégration aisée dans les outils de synthèse assistée par opérateur.

* Equipe:
Le travail de thèse s'effectuera dans l'équipe Synthèse Vocale d'Orange Labs, à Lannion. L'équipe développe un logiciel de synthèse vocale par corpus (démonstrateur disponible sur http://tts.elibel.tm.fr) et mène des activités de recherche dans le domaine.

* Pré-requis:
Le candidat possède un master recherche en informatique, en intelligence artificielle ou dans un domaine proche. Un goût prononcé pour la recherche, un bon niveau d'anglais ainsi qu'une maîtrise des outils de programmation sont indispensables. Des connaissances en traitement de la parole, en apprentissage ou classification automatique seraient un plus.

* Contacts:
Pour plus d'informations, contactez:
- Cedric Boidin, cedric.boidin@orange-ftgroup.com, +33 2 96 05 33 53
- Thierry Moudenc, thierry.moudenc@orange-ftgroup.com, +33 2 96 05 16 59

* References:
[Bla97] Black A., Automatically clustering similar units for unit selection in speech synthesis, in Proc. European Conference on Speech Communication and Technology
[Sag88] Sagisaka Y., Speech synthesis by rules using an optimal selection of non-uniform synthesis units, in Proc. IEEE International Conference on Acoustic Speech and Signal Processing (ICASSP'88), pp. 679-682, 1988

****************************************************
English version

* Position : PhD, 3 years
* Research Area : speech synthesis, prosody modelling
* Location : Orange Labs, Lannion, France
* Start date: Openings Immediate.

* Summary:
The emergence of corpus-based technologies allowed major improvements in Text-to-Speech (TTS) during the last decade. Such systems can produce very natural synthetic sentences, almost undistinguishable from natural speech. Synthetic prompts can now replace human recordings in some commercial applications, like IVR services. However their use remains delicate due to the lack of prosody control (intonation, rhythm...). The aim of the project is to provide the user with a support tool for easily specifying the prosody of the synthesized speech.

The work will focus on characterising essential prosodic elements needed for expressive speech synthesis, possibly restricted to a specific application domain. The chosen typology will have to match the prosody of the TTS corpora as accurately as possible, through a relevant set of prosodic primitives. The robustness of the topology is critical for automatic annotation of the databases.
The work will also address ergonomics -how to propose to the user a convenient way to specify prosody- and will be closely related to the signal production techniques -signal processing and/or unit selection.

* Research Lab:
The PhD will be hosted in the Speech Synthesis team at Orange Labs. Orange Labs develop a state-of-the-art corpus-based speech synthesizer (demonstrator available on http://tts.elibel.tm.fr).

* Requirements:
The candidate has a (research) master in Computer Science or Electrical Engineering. The candidate has a strong interest in doing research, excellent writing skills in French or English and good programming skills. Knowledge in speech processing or automatic classification is a plus.

* Contacts:
For more information please contact:
- Cedric Boidin, cedric.boidin@orange-ftgroup.com, +33 2 96 05 33 53
- Thierry Moudenc, thierry.moudenc@orange-ftgroup.com, +33 2 96 05 16 59

Index of April 2008 | Index of year: 2008 | Full index