Post Doc Audio distribué dans un contexte d'assistant vocal F/H



Référence : 26731811
Date de dépot : 13/07/2018
Entreprise : Orange

Descriptif
Description : Vous travaillerez au sein de l'équipe de traitement de la parole et du son. Vous serez amené(e) à échanger avec les différents membres de l'équipe, experts sur les domaines de la spatialisation sonore, l'annulation d'écho, le développement informatique lié à l'audio, l'intelligence artificielle.
Qu'est ce qui fait la valeur ajoutée de cette offre ?
Vous contribuerez à la Recherche dans un domaine en plein essor, au sein d'une équipe motivée. Vous pourrez valoriser cette Recherche à travers l'intégration des résultats de vos travaux dans un démonstrateur.


Votre rôle est d'effectuer un travail de post-doc sur l'« Audio distribué dans un contexte d'assistant vocal ».
Contexte : La maison s'étoffe de plus en plus d'objets connectés (thermomètres, détecteurs de présence, enceintes, mobiles, tablettes, TV…). Orange a l'ambition de devenir un acteur majeur dans le domaine des services connectés à la maison. En effet, le contrôle de ces objets et de leur interconnexion lui permettrait d'offrir une qualité de bout en bout optimale de ses services. Les périphériques audio connectés sont actuellement encore assez simples et dédiés à des usages spécifiques (webcam pour la surveillance) ou liés à une plateforme donnée, comme la commande vocale et l'écoute musicale (Amazon Echo, Google Home) ou l'écoute multi haut-parleurs sans fils (Sonos). Cependant ils possèdent un potentiel applicatif qui dépasse leurs fonctionnalités actuelles : demain, on pourra peut-être localiser, suivre, voire identifier une personne dans la maison grâce aux sons qu'elle génère, créer un système home-cinéma à partir de haut-parleurs hétérogènes (de marques différentes) en se situant en permanence au centre du « sweet spot » (lieu privilégié) pour une expérience immersive optimisée, analyser l'état de santé d'un sujet par sa voix, détecter des intrusions dans une maison avec de nouveaux capteurs…
Etat de l'art :
Orange étudie actuellement ce sujet, en identifiant, par des informations acoustiques, la position de haut-parleurs, de microphones, et de personnes au sein d'un lieu (pièce, voire maison). Pour cela, il s'avère nécessaire de synchroniser et syntoniser les différents éléments (micros/haut-parleurs) par une étape de calibration, avant de pouvoir réaliser une cartographie des éléments sonores (micros/haut-parleurs, mais aussi locuteurs). Tous ces éléments sont connectés à un hub audio, centre névralgique du système.
Les applications associées sont entre autre :
• Un rendu multi haut-parleurs de type home-cinéma sur la base d'enceintes connectées hétérogènes
• L'amélioration du rendu audio 3D multi haut-parleurs (adaptation du « sweet spot »)
Ces applications sont actuellement en cours d'implémentation et d'évaluation dans le cadre d'un partenariat avec un équipementier audio/video de réputation internationale.
C'est dans ce contexte que trouve l'origine de ce sujet de recherche, dont le but est d'aller un cran plus loin, en étudiant l'extension à un fonctionnement avec annulation d'écho, notamment afin de pouvoir adresser à terme les applications suivantes :
• Un assistant vocal domestique présent dans toute la maison (sélection du meilleur couple micro/haut-parleur), capable d'atténuer, voire supprimer, les sons provenant des autres éléments acoustiques afin d'améliorer le taux de reconnaissance (par exemple quand la TV ou la radio fonctionnent)
• Une communication mains-libres, qui nécessite en plus de l'application précédente d'adresser la problématique de la faible latence.
Se référer à la section 3 « Le plus de l'offre » pour des informations détaillées sur la mission scientifique et les principales activités associées au post doc.


Profil recherché
Profil recherché : Titulaire d'une thèse, vous possédez les compétences et qualités personnelles suivantes :
Pré-requis techniques :
- Maîtrise du traitement du signal audio.
- Connaissances en prise de son, transport (codage), restitution spatialisée (acoustique et psycho-acoustique) appréciées
- Maîtrise de langages de programmation (Matlab, C/C++, Python … outils d'Intelligence Artificielle appréciés)
Aptitudes personnelles :
- Forte sensibilité à l'audio
- Autonomie et prise d'initiatives
- Goût pour le travail en équipe

Le plus de l'offre :
Principal verrou à lever :
Le verrou sous-jacent principal réside dans l'annulation d'écho centralisée pour un système hétérogène: Chacun des éléments sonores contrôlés par le hub audio est susceptible d'émettre du son (TV, musique, radio, voire un correspondant en communication…), alors considéré comme du bruit pour le système de reconnaissance vocal de l'assistant vocal. Or, en principe le hub audio a connaissance de tous ces signaux, un traitement d'annulation d'écho devrait donc être possible car tous les devices sont synchronisés. On suppose que les transports des media en local se font sans compression audio.
La connaissance de la distance de propagation entre chaque haut-parleur et chaque microphone devrait permettre à la fois une estimation plus fiable du filtre à mettre en œuvre, ainsi que la réduction de sa taille. En effet, lors de la phase de calibration du système, la réponse impulsionnelle caractérisant les trajets acoustiques entre chaque couple micro/haut-parleur peut être stockée, et servir de base pour le filtrage d'annulation d'écho ; tout écart par rapport à ce filtre (le résidu) pourrait être pris en charge par un algorithme d'annulation d'écho dont le but est d'estimer un filtre résiduel, par une approche classique basée sur un filtre de Wiener, ou exploitant une estimation de masque par réseau de neurones.
L'application principale de cette recherche vise l'assistant vocal domestique, mais en fonction de l'avancement des travaux, l'application de communication (incluant donc la contrainte de faible latence) pourrait être également abordée. L'annulation d'écho étant d'une importance primordiale dans ces 2 applications, l'objectif principal de ce post-doc se concentrera donc en priorité sur cette problématique. En effet, la réduction de la latence ne sera utile pour une communication en mains-libres que si l'annulation d'écho est réalisée avec une qualité correcte.
Références :
J. Benesty, T. Gaensler, D. R. Morgan, M. M. Sondhi, and S. L. Gay, Advances in Network and Acoustic Echo Cancellation. Springer-Verlag, Berlin, Germany, 2001.
J. Benesty, C. Paleologu, T. Gaensler, and S. Ciochina, A Perspective on Stereophonic Acoustic Echo Cancellation. Springer-Verlag, Berlin, Germany, 2011.
Generalized multichannel frequency-domain adaptive filtering: efficient realization and application to hands-free speech communication H Buchner, J Benesty, W Kellermann - Signal Processing, 2005
Acoustic Echo Control, Gerald Enzner, Herbert Buchner, Alexis Favrot and Fabian Kuech [http://www.buchner-net.com/chap_elsevier2013_e-offprint_16227_10030.pdf]
Planning
• T0+3mois : Etat de l'art : Rapport d'étude théorique sur l'annulation d'écho dans un contexte réparti (haut-parleur et micro éloignés l'un de l'autre)
• T0+4mois : Prise en main des outils développés en interne (synchro, synto, carto…)
• T0+5mois : Captations réelles pour simuler diverses scènes audio
• T0+9mois : Développement/intégration/validation d'un annuleur d'écho dans le hub audio
• T0+12mois : Prototype mettant en œuvre l'annulation d'écho dans un contexte distribué

Niveau d'étude : Bac + 3 : licence
Expérience : Entre 1 et 3 ans d'expérience
Lieu de la mission : Bretagne - Cesson Sévigné
Poste(s) disponible(s) : 1
Poste de cadre : Suivant Profil
Contrat : CDD
Durée du contrat : for 6 to 12 months
Début de la mission : 16/07/2018

Entreprise
Nom de l'entreprise : Orange
Site Web : http://www.orange.jobs
Contact : Monsieur Service Recrutement
Adresse : 78-84 rue Olivier de Serres
75015 Paris
France


Vous devez être connecté pour postuler à cette offre.

Connectez vous maintenant




Ou inscrivez vous

C'est simple et totalement gratuit






 


Valid XHTML 1.0 Transitional   CSS Valide !