Langue_ :

Acapela TV ou le laboratoire d’idées parlantes

logo acapelaLa voix est encore aujourd’hui le principal outil de communication interpersonnelle. La fabriquer à partir du texte  (synthèse vocale), voilà le métier de Acapela Group. Quelques temps après le lancement d’Acapela TV, le cluster TWIST s’est penché sur cette société qui décortique le texte pour mieux recréer les syllabes et les phonèmes, les consonnes et les voyelles, les timbres et les tonalités … et transformer le texte en parole.


Acapela Group est le fruit de l’obstination de chercheurs passionnés par les technologies vocales. En 1997, ces ingénieurs fraichement sortis de la Faculté Polytechnique de Mons se lancent dans la création d'une spin off, Babel Technologies, un nom à la hauteur de l’ambition de ses fondateurs. Quelques années plus tard, en 2001, la société rachète Infovox, une filiale du groupe Télécom suédois Telia. Cette société, créée en 1987, est elle aussi dédiée à la synthèse vocale  et permet à Babel Technologies de bénéficier d’un second site à Stockholm. Enfin, en 2003,  Babel Technologies fusionne avec Elan Speech, société française crée en 1980 à Toulouse et spécialisée dans la synthèse vocale.

En 2004, établi sur ces trois sites (Mons, Stockholm et Toulouse), le groupe décide alors d’adopter un nouveau nom : Acapela Group.

Quelques chiffres

Acapela Group, c’est aujourd’hui plus de 500 clients actifs à travers le monde (essentiellement Europe, Etats-Unis et Middle East), une cinquantaine de travailleurs, 3 millions de licences vendues et, surtout,  25 langues développées.

"Ce qui va déterminer l’orientation de  notre activité", nous explique Antoine Kauffeisen, Vice President Marketing Director, "c’est la compréhension globale de l’activité de nos clients ou de nos partenaires." Ainsi les applications développées ont été reparties en 7 segments d’activités, l’objectif étant de mieux définir les champs d’action de la société. "Les trois secteurs principaux sont le Télécom (la vocalisation des serveurs, SMS2voice, etc), l’automobile (GPS on board et off board, etc.) et l’Accessibilité (pour les personnes malvoyantes avec le Screen Reader, par exemple)", continue Olivier Deroo, Administrateur et Responsable projets Européens chez Acapela Group. "Les 4 autres sont la Mobilité (synthèse et reconnaissance vocale sur des appareils comme des GSM, etc.), l’Industrie, le Multimédia (apprentissage des langues, etc.) et le l'Electronique Grand Public."

De l’adaptation à l’évolution

acapela activitésAu delà de ces secteurs d’activité, de nouvelles applications pour les solutions vocales sont régulièrement découvertes. "Pour mieux comprendre l’évolution, il faut retourner à l’origine du développement de ces technologies. Au départ, la synthèse vocale a été initiée pour permettre une meilleure intégration des personnes malvoyantes. En travaillant avec des utilisateurs finalement très exigeants, nous avons appris à développer des produits spécifiques répondant réellement à des besoins tout aussi spécifiques." Et le Vice-président d’ajouter que le simple fait de travailler avec près  de 25 langues différentes oblige Acapela à rencontrer les cultures des pays où la société est active. "La mentalité et les méthodes varient souvent en fonction de l’emplacement géographique. Sans compter que les législations diffèrent également d’un pays à l’autre. Par exemple, les pays nordiques encouragent largement l’intégration de la personne à mobilité réduite dans les sociétés privées. Nous avons ainsi pu y valoriser certains services plus facilement." Parallèlement, les produits sur lesquels Acapela adjoint sa technologie évoluent également de leur côté. "En travaillant pour les systèmes de navigation, on peut se rendre compte que les cycles de production pour une voiture (plus de 3 ans) ou pour des GPS (environ 6 mois) ne sont pas comparables. Or nous devons nous adapter à l’un comme à l’autre."


Si le secteur connaît aujourd’hui une certaine émergence, cela s’explique par deux phénomènes. D’une part, la digitalisation globale de la communication et du contenu. "Les solutions vocales sont finalement des vecteurs entre l’écrit et l’orale." D’autre part, l’évolution de l’interface homme/machine tend à être de plus en plus intuitive. Les mouvements et les gestes de l’utilisateur sont mieux intégrés dans les systèmes de commandes. "La voix est une "commande" naturelle. Il est finalement logique qu’elle soit intégrée de la même façon dans les futures interfaces."

Parallèlement au secteur, les techniques liées à la synthèse vocale ont également évolué. "On pourrait résumer en disant qu’il y a eu 4 générations de synthèse vocale", explique encore Antoine Kauffeisen.
  • Première génération : les voix étaient recomposées par juxtaposition de formants. "Elles étaient donc totalement synthétiques. Le résultat était compréhensible, mais robotique et peu naturel."
  • Deuxième génération : un nombre précis de diphones (petit morceau de voix faisant la transition entre deux phonèmes) étaient échantillonnés. "Avec environ 10 minutes d’échantillons, on reconstruit à peu près tous les mots."
  • Troisième génération : l’échantillonnage est élargi pour rendre les voix plus naturelles. Le collage bout à bout pour recomposer les phrases est beaucoup plus élaboré. Il tient compte par exemple de l’emplacement du mot dans la phrase, de l’intension, etc.  "L’évolution de la synthèse vocale va de pair avec l’évolution des supports de diffusion et ses capacités de stockage. Aujourd’hui il est possible de stocker un bien plus grand nombre de sons."
  • Enfin, quatrième génération : place aux émotions. "Pour faciliter la compréhension du texte, il faut y ajouter une intention. Cette nouvelle façon d’envisager les choses nous encouragent à faire appel à des compétences beaucoup plus larges (cognition, science du comportement, etc.) puisque nous devons à présent comprendre le texte. Soit le texte est "taggé" avec des indications d’intention, soit il faut utiliser un outil de décodage et d’analyse du texte.


Autre évolution, les habitudes de consommation de l’utilisateur. Jusqu’à présent, Acapela vendait pour l’essentiel des logiciels. Depuis 6 mois, le groupe met également certaines applications en ligne offrant ainsi la possibilité à ses clients d’accéder à leur technologie en ligne et, donc, avec plus de souplesse tant sur le plan de l’équipement que sur le plan de l’utilisation (formule de location temporaire, abonnement, etc.).

Acapela TV : un Serious Game pour une communauté d’utilisateurs

TV acapela"Ce portail est un peu la démonstration de notre savoir-faire," nous expliquent encore Antoine Kauffeisen et Olivier Deroo. Proposant à la fois des jeux simples qui utilisent la synthèse vocale ou des cartes "postales électroniques" parlantes personnalisables (près de 3 millions envoyées par mois), acapela.tv tend à développer une communauté d’utilisateurs.

Les applications présentes sont généralement développées en deux ou trois semaines. "Nous  envisageons de les décliner dans près de 19 langues. Une nouvelle version est d’ailleurs en route et devrait être disponible à partir de mi-2009."

 

 

 

Laboratoire d’idées parlantes

La voix est un véhicule tellement fréquemment usité qu’il est facile d’oublier que nos guides vocaux de GPS ou à l’autre bout du fil ont nécessité un développement technologique pointu avant de faire partie de notre quotidien. Au-delà de la technologie, ce secteur et ses champs d’application demeurent fascinants parce qu’ils font sans cesse appel à une part de notre identité qu’est la voix. Antoine Kauffeisen nous donnait l’image d’un "laboratoire d’idées parlantes" en évoquant acapela.tv. Et ces idées qui parlent en valent la peine puisqu’à travers la synthèse vocale ou la création de voix, ces produits se mettent tantôt au service de la communication entre les hommes, tantôt au service de cultures.



Propos recueillis par VBdT