Le laboratoire Microsoft Research Asia travaille actuellement à la reconnaissance de la langue des signes américaine en utilisant son produit Kinect, avec l’aide de l’Institute of Computing Technology à la Chinese Academy. Le but premier de ces recherches est que les sourds signant puissent interagir avec leur ordinateur.
L’équipe de recherche aurait déjà produit une démonstration permettant de décoder les signes un par un pour les traduire en mots. On est tout de même loin d’un interprétation intégrale – ceci étant très difficile puisque la grammaire est complétement différente.
Source : site Engadget.
Consultez la page dédiée au projet et la vidéo de démonstration chez Microsoft : Digital Assistance for Sign-Language Users.
Un document intéressant sur la reconnaissance gestuelle : « Sign Language Recognition and Translation with Kinect« .
Bonjour,
Il faut, bien sur, saluer ce projet : non seulement il cherche à améliorer la communication entre sourds et entendants mais surtout il consacre la valeur des langues des signes, leur capacité à transmettre des messages, des idées, des concepts. Il les considère comme de vraies langues qu’on peut traiter et traduire comme d’autres langues orales telles que l’anglais, le chinois, l’espagnol…
[Je préfère d’ailleurs ce type de recherches à celles sur la « réparation » de l’oreille via les implants cochléaires qui à l’inverse nient tout intérêt aux langues des signes, se focalisant sur l’oreille cassée et le nécessaire passage par l’oralisme pour communiquer.]
Néanmoins l’efficacité de ces technologies est encore limitée et je doute que ce système puisse traduire fidèlement et agréablement un long discours.
En effet les langues des signes sont vivantes, complexes. Elles ne sont pas qu’une succession de signes. Elles possèdent leur propre syntaxe qui est intimement liée à la perception visuelle, puisque cette langue répond à une logique visuelle et non auditive. Ainsi la grammaire de la LSF n’est pas identique à celle du français (par exemple la place des mots dans la phrase n’est pas la même). Elle se construit comme un plan au cinéma. D’abord le temps (passé-présent-futur), ensuite le lieu (où cela se passe-t-il ? ), puis les acteurs (qui ? ) et enfin l’action (le verbe).
Les signes sont basés sur l’utilisation des mains mais aussi du regard et de l’espace, des expressions du visage (il est admis que les langues des signes sont composées de 5 paramètres) : les configurations des mains, leurs emplacements, leurs orientations et leurs mouvements forment des signes équivalents à des mots disposés devant soi comme sur une scène de théâtre. Les emplacements de ces signes, ainsi que la direction du regard, permettent de visualiser les relations (actif, passif ?), le temps (signes tournés vers l’arrière pour le passé, vers l’avant pour le futur). Le visage et le mouvement des épaules servent aussi à exprimer les nuances du discours par exemple l’ironie, le doute, la fermeté…
Les caméras ont-elles aujourd’hui la précision et la finesse nécessaires pour détecter tous ces paramètres ? Les algorithmes sont-ils assez élaborés pour déterminer avec exactitude l’intention du locuteur ? A voir…
Au mieux, aujourd’hui ce système pourrait sans doute traduire quelques signes simples en mots, quelques phrases basiques (sujet/verbe/complément).
Stéphan Barrère
Interprète F/LSF
http://interpretelsf.fr