GEPETO

GEsture for the PEdagogie of InTOnation

logo_LAM logo_LPP logo_GIPSA logo_CNRS logo_ANR logo_SU

IHM et contrôle gestuel pour l'éducation et la rééducation de la maîtrise phonatoire

L'objectif du projet GEPETO est d'étudier l'utilisation de gestes chironomiques, médiatisés par de nouvelles interfaces homme-machine (IHM), pour concevoir des outils et des méthodes innovants pour l'éducation (entrainement) et la rééducation (réentraînement) de l'intonation. Le contrôle d'une voix synthétisée par des gestes chironomiques est un nouveau paradigme de recherche dans le domaine de l'interaction homme-machine, avec des applications dans les nouveaux instruments de musique et la recherche sur la parole (Feugère et al., 2017, Delalez et d'Alessandro, 2017). Comme dans un instrument de musique, la prosodie de la parole est " jouée " ou contrôlée par les mains (chironomie, du grec " gouverné par la main (mouvement) "). Des études antérieures ont démontré que l'intonation chironomique utilisant des gestes d'écriture manuelle sur une tablette graphique, peut être encore plus précise et exacte que la voix naturelle dans des tâches d'imitation (d'Alessandro et al., 2011, 2014). La haute performance de la chironomie pour la synthèse vocale performative (c'est-à-dire contrôlée par des gestes en temps réel) peut être attribuée à son intégration multimodale intrinsèque (vision, kinesthésie et audition (Perrotin et d'Alessandro, 2016)), ainsi qu'à la dextérité existante des mouvements d'écriture manuscrite (tels qu'ils sont utilisés pour écrire et dessiner), qui ont été réaffectés à une nouvelle tâche.

Initialement développée comme outil de recherche prosodique et comme une nouvelle famille d'instruments musicaux numériques, il apparaît que la synthèse vocale performative pourrait également favoriser de nouvelles applications importantes dans l'acquisition du langage et la substitution vocale. Le projet proposé explore de nouveaux paradigmes IHM selon deux axes : l'éducation et la rééducation de la fonction phonatoire. Le premier objectif est de développer un programme éducatif basé sur la chironomie et de le tester dans des classes de langues. Le second objectif est de développer des outils basés sur la chironomie pour l'assistance aux déficients vocaux. Dans le cas d'une atteinte de la fonction phonatoire, le contrôle gestuel peut améliorer l'intonation expressive dans un paradigme de réalité augmentée : la phonation est contrôlée ou améliorée par la chironomie et l'articulation est contrôlée par le véritable conduit vocal. Un cas extrême est celui de la substitution vocale. Dans le cas d'une laryngectomie entrainant une perte de voix, le contrôle gestuel de l'intonation doit permettre la restauration de l'intonation linguistique et expressive (Crevier-Buchman et al., 1998).

Hypothèses de recherche

Sur la base des résultats obtenus pour la synthèse performative du chant, le projet GEPETO est un projet innovant, utilisant pour la première fois la chironomie (médiée par une IHM) comme moyen de soutenir l'apprentissage de tâches linguistiques et phonatoires expressives difficiles. Ce programme de travail a été exploré par des études préliminaires sur la synthèse vocale expressive contrôlée par le geste (Evrard et al., 2015) et des études sur l'identification et la production de tons mandarins - des apprenants naïfs ont fait des progrès comparables lorsque la chironomie a remplacé la voix naturelle dans des tâches d'imitation (Xiao et al. 2019). Le projet GEPETO repose sur trois hypothèses principales :

  1. Hypothèse des schémas d'intonation centraux.Les schémas mélodiques et rythmiques peuvent être considérés comme des gestes d'intonation. Ces gestes d'intonation véhiculent des informations linguistiques et expressives. L'intonation, tant sur ses aspects perceptifs que de production motrice, est représentée et incarnée à un niveau cognitif relativement élevé, et elle est en quelque sorte indépendante de la modalité effectivement utilisée pour la reproduire. Ensuite, l'intonation peut être transférée de l'appareil vocal à d'autres modalités (dans notre cas, les gestes de la main).
  2. Hypothèse de substitution.La précision et la qualité du contrôle de la synthèse vocale performative sont suffisantes pour reproduire des modèles d'intonation chironomiques indiscernables des modèles d'intonation de la parole. Ensuite, l'intonation peut être transférée de l'appareil vocal à d'autres modalités, dans notre cas les gestes de la main. Cela permet le contrôle par la main d'une source vocale artificielle, ou la substitution d'intonation (rééducation) et la manipulation de détails fins de la parole enregistrée dans l'acquisition de l'accent d'une langue étrangère (éducation).
  3. Hypothèse du renforcement multimodal.La composante gestuelle, tant en production qu'en perception, est une dimension fondamentale de l'apprentissage : faire ou percevoir un geste renforce l'acquisition du schéma intonatif correspondant. La synthèse performative des détails fins de la parole enregistrée implique les modalités auditives, visuelles et kinesthésiques, permettant un renforcement multimodal.

Le processus d'apprentissage de la production d'un son peut être résumé par la boucle de rétroaction suivante (représentée sur la figure 1) :

  • Entendre un son cible, qu'il soit externe ou interne.
  • Tenter de recréer le son à l'aide de mouvements du corps.
  • Détecter la différence entre le son cible et le son produit.
  • Faire des ajustements dans les mouvements du corps afin de réduire la différence.
process_of_intonation_learning
Figure 1: principe de l'apprentissage de l'intonation

Ce phénomène est commun à l'apprentissage de la musique, à l'apprentissage des langues et à la thérapie/réhabilitation de la voix et de la parole. Le manque de réussite dans ces tâches peut être attribué soit à un manque de conscience de la boucle de rétroaction, soit à des problèmes de réalisation de la boucle de rétroaction (en rouge sur la figure 1) :

  1. Manque de la sensibilité auditive pour percevoir les différences entre les sons.
  2. Pas suffisamment de contrôle corporel ou de mémoire pour ajuster les mouvements produisant des sons.
  3. Tenter de répéter des phrases trop longues - ne disposant pas d'une capacité de mémoire de travail suffisante pour les garder à l'esprit assez longtemps pour trouver des mouvements permettant de les recréer.

Le projet GEPETO fournira un outil qui cible explicitement ces problèmes. Notre hypothèse est que, si ces problèmes sont correctement traités, toute personne ayant des capacités normales d'audition et de voix/main peut apprendre des tâches traditionnellement considérées comme difficiles.

Pour le problème 1 : La correspondance des modalités visuelles et kinesthésiques avec l'auditif peut guider l'oreille vers des caractéristiques saillantes dans les sons. Aussi, le système sera conçu pour donner un retour visuel. Pour le problème 2 : La chironomie utilise une modalité où les gens ont plus de dextérité. Il faut donc utiliser la main pour "enseigner" la voix, dans la tâche d'apprentissage, et pour piloter la voix dans la tâche de rééducation. Pour le problème 3 : concevoir les applications pour augmenter progressivement la longueur des phrases, et surtout, renforcer et compléter la mémoire auditive par des modalités kinesthésiques et visuelles.

Positionnement du projet par rapport à l'état de l'art.

Le projet GEPETO vise à apporter des avancées significatives par rapport à l'état de l'art dans trois domaines : les instruments vocaux, l'utilisation du geste en pédagogie, l'utilisation du geste en rééducation.

Instruments vocaux

Les instruments de synthèse vocale performative ont été initialement développés pour étudier la parole expressive. Bien que la synthèse vocale automatique ait atteint un niveau élevé de naturel et d'intelligibilité, son expressivité (capacité à transmettre des nuances d'expression ou de contenu émotionnel) reste faible. Cela est dû au fait que l'expressivité dépend de la situation de communication, des intentions du locuteur et de la réaction de l'auditeur, des choses qu'une machine peut difficilement gérer. Au contraire, la synthèse vocale performative est le processus qui consiste à jouer des voix synthétiques, comme un instrument de musique. Dans ce cas, l'expression est donnée par le joueur, et la seule limite est sa capacité à jouer de l'instrument. Dans un paradigme d'imitation de l'intonation de la parole, il a été démontré que les contours d'intonation stylisés utilisant la chironomie semblent perceptiblement indiscernables des contours naturels (d'Alessandro et al., 2011). Cela indique que la stylisation chironomique est efficace, et que les mouvements de la main peuvent être analogues aux mouvements d'intonation. Ce principe a été appliqué au développement d'instruments de musique. Cantor Digitalis, un synthétiseur par formants en temps réel contrôlé par une tablette graphique et un stylet, a été utilisé pour évaluer la précision mélodique et l'exactitude de la synthèse du chant. Les résultats montrent une précision et une exactitude élevées obtenues par tous les sujets pour le contrôle chironomique de la synthèse du chant (d'Alessandro et al., 2014). Certains sujets ont obtenu des résultats significativement meilleurs dans le chant chironomique par rapport au chant naturel, et cette étude a démontré les capacités de la chironomie comme un moyen précis et exact pour contrôler l'intonation dans la synthèse du chant. L'expressivité de la synthèse vocale performative a été reconnue dans la communauté musicale, puisque Cantor Digitalis a remporté le 1er prix du concours d'instruments de musique Margaret Guthman en 2015. Ces instruments utilisaient initialement une tablette graphique. Cependant, ils peuvent être adaptés à d'autres types d'interfaces : Clavier expressif multi polyphonique (MPE) comme le Seaboard Roli. Deux instruments permettant le reséquençage en temps réel et le contrôle de l'intonation de la parole préenregistrée ont également été démontrés : Vokinesis et Voks. Ils sont contrôlés par une tablette, un clavier MPE, ou un instrument à main libre comme le Theremin (Xiao et al. 2019b), et avec une interface de contrôle tactile (bouton, Touché, MetaTouche). Le contrôle chironomique de l'intonation peut également être considéré comme le processus d'ajout d'un retour auditif au geste, ou sonification du geste, où les caractéristiques sonores sont représentatives des composants de l'intonation (par exemple, f0, motifs rythmiques, etc.). C'est la création de ce nouveau lien entre les perceptions kinesthésiques et visuelles du geste et la perception auditive de la sonification qui constitue l'hypothèse de renforcement multimodal qui est au cœur du projet. De plus, la nature du retour auditif peut conduire à de multiples scénarios :

  • Le retour auditif (variations des caractéristiques d'intonation) peut être joué à travers la modification de la voix d'une autre personne (naturelle ou synthétique, mais différente de l'utilisateur). Nous appelons ce scénario sonification externe de l'intonation gestuelle. Il est mis en œuvre à travers nos instruments vocaux.
  • Le retour auditif peut être joué par une source d'excitation artificielle située à l'intérieur du conduit vocal de l'utilisateur. Ainsi, cette source d'excitation est naturellement combinée avec l'articulation de l'utilisateur pour produire une voix semi-synthétique intégrée. Nous appelons ce scénario sonification interne de l'intonation gestuelle.

Ensuite, ces retours auditifs contrôlés par le geste de l'utilisateur peuvent être produits soit à la place de la voix naturelle de l'utilisateur (conditions "Instrument vocal" et "Substitution vocale" pour la sonification externe et interne, respectivement), soit en simultané (conditions "Double voix" et "Voix augmentée" pour la sonification externe et interne, respectivement). Ces combinaisons des deux retours auditifs avec ou sans voix naturelle conduisent à 4 conditions expérimentales qui sont résumées dans le tableau 1, et qui seront étudiées au cours de ce projet. Plus précisément, le paradigme de la sonification externe sera au centre du processus d'éducation de l'intonation, tandis que le paradigme de la sonification interne constituera la base du processus de rééducation de l'intonation.

table1
Table 1: Description des sources utilisées pour chaque condition de contrôle chironomique

Le projet GEPETO vise donc à apporter des progrès significatifs au-delà de l'état de l'art pour les instruments vocaux. Les instruments vocaux sont actuellement limités à la sonification gestuelle externe. La sonification gestuelle interne sera développée et testée pour la première fois. La sonification gestuelle externe et interne sera adaptée aux plateformes personnelles : elle est aujourd'hui utilisée sur les ordinateurs portables. Le projet offrira la possibilité de diffuser les instruments vocaux dans d'autres domaines de l'apprentissage des langues et de la phonétique clinique (en plus du domaine musical plus évident).

Utilisation des gestes dans la pédagogie de la langue étrangère

Plusieurs auteurs ont montré que l'utilisation de gestes a des effets bénéfiques potentiels dans l'apprentissage des langues étrangères : les gestes de hauteur (ou gestes qui imitent la mélodie dans la parole) favorisent l'apprentissage des mots en russe L2 (Kushch et al., 2018) ainsi que la reconnaissance des modèles d'intonation en anglais L2 (Crison et al., 2018) ; les gestes de battement rythmique semblent améliorer significativement l'accentuation des apprenants espagnols en anglais L2 (Gluhareva et Prieto, 2017). Le codage des informations à travers différentes modalités (auditives, visuelles, kinesthésiques) laisse une trace plus riche en mémoire. "S'engager physiquement (mimer une action, faire un geste) a un effet plus fort sur la mémorisation à court terme. Dans l'enseignement des langues étrangères, les enfants qui reproduisent des gestes en répétant des mots nouveaux sont capables de mémoriser plus d'éléments. Il est donc important d'encourager la reproduction des gestes pédagogiques en classe. " (Tellier, 2010, p.11). Le geste pédagogique de l'enseignant, " fédérateur d'informations " (Tellier, 2010, p.4) allège le cadre formel de la classe de langue et a une fonction linguistique informative en fournissant à l'élève des indications lexicales, phonologiques et/ou grammaticales. "Ainsi, la voix devient visible, le mouvement entendu". (Llorca, 2008).

Le projet GEPETO proposera et testera des méthodes innovantes pour l'utilisation des gestes dans la pédagogie des langues étrangères. On s'efforcera d'utiliser les outils IHM et le contrôle gestuel de l'intonation dans ce domaine, et l'objectif du projet est de présenter des preuves convaincantes de ce concept.

Utilisation des gestes dans la réhabilitation

Au cours de la thérapie par intonation mélodique, il a été prouvé que l'utilisation du geste, associée à une stimulation avec des intonations codées, pouvait aider certains participants aphasiques à retrouver une expression orale. "Le fait de tapoter la main gauche peut engager un réseau sensorimoteur de l'hémisphère droit qui contrôle à la fois les mouvements de la main et de la bouche" (Norton et al., 2009, p.4).

En cas de laryngectomies, l'excitation à la source du signal vocal porteur d'informations d'intonation est absente. Les solutions actuelles pour la réhabilitation de la voix incluent la combinaison de l'articulation naturelle du locuteur avec une source d'excitation artificielle injectée par le cou ou dans la bouche (Liu & Ng, 2007). Cependant, ces systèmes génèrent souvent des excitations stationnaires qui ont une intonation relativement constante et conduisent à des voix extrêmement robotiques (Kaye et al., 2017). Quelques solutions ont été proposées pour un contrôle gestuel de l'intonation de l'électrolarynx en utilisant soit un contrôle de pression (TruTone&trade ;, (Takahashi et al., 2005)) ou des accéléromètres (Matsui et al. 2013), mais aucune n'a donné lieu à une véritable évaluation de l'utilisabilité. Nous observons donc un contraste majeur entre les études précédentes sur le contrôle chironomique de l'intonation (d'Alessandro et al., 2011, 2014), et le peu de solutions proposées pour le contrôle de l'intonation en substitution vocale. Ce contraste motive donc l'exploitation du potentiel du contrôle chironomique de l'intonation pour la substitution de voix. Le succès du projet GEPETO dans cette recherche constituerait une étape substantielle dans l'amélioration de l'expressivité de la sortie du système de substitution vocale.