Table of content

Transcription temps réel humain-robots

Objectifs du service

Les appels entrant des marques, avant prise en charge par un conseiller client, peuvent faire l'objet d'une demande de qualification d'intentions, voir d'un apport de réponses immédiates à la demande, au travers d'un Serveur Vocal Interactif. Utilisant historiquement des fonctionnalités DTMF pour recueillir le besoin de l'appelant, l'amélioration des capacités en langage naturel permet aujourd'hui de laisser l'appelant s'exprimer, pour en déterminer ensuite la meilleure réponse et / ou actions. Ainsi, la marque utilise un voicebot en langage naturel, utilisant une brique de transcription de la parole de l'appelant en texte, pour être ensuite traitée par un moteur de dialogues.

Pour pouvoir traiter efficacement l'intention client, la transcription en langage naturel se doit d'être qualitative (comprendre les phrases courtes ou longues, comprendre les acronymes ou le jargon de la marque, comprendre les différentes variations des prononciations - les accents, ou les habitudes locales), performante (assurer le minimum de latence pour assurer un dialogue des plus fluides), et intelligente (afin d'interpréter, dès la transcription, le bon contexte pour assurer une transcription exploitable immédiatement).

Réponse Allo-Media

Pour permettre une capacité de traitement de ces appels, et une amélioration de l'expérience client par un échange des plus naturels, Allo-Media propose un service par API appelé Stream Transcription for Bots, permettant à toute marque de retranscrire les intentions énoncées par les appelants, afin de nourrir un moteur de dialogue, qui assurera l'interprétation et l'animation du dialogue. Pour ce faire, Allo-Media utilise une brique technique propriétaire de reconnaissance vocale en langage naturel spontané, assurant une transcription adaptée aux contraintes techniques spécifiques à l'environnement téléphonique : qualité sonore dégradée, prise de parole spontanée, coupures de paroles, accents régionaux, nationaux et internationaux divers, etc...

Afin d'accélérer davantage l'exploitabilité de ces données, Allo-Media propose également l'ajout d'éléments d'enrichissement de la transcription, pour à la fois proposer une interprétation de l'intention énoncée ("lundi prochain" = telle date), et favoriser un formatage qui accélère le traitement de l'étape suivante du dialogue. Ainsi, l'API d'Allo-Media met à disposition des paramètres permettant d'influer sur le format de la réponse. De même, Allo-Media propose plusieurs modèles de langages appliqués à certains contextes de conversations, afin d'améliorer la capacité à transcrire des mots d'un univers connu :

modèles noms/prénoms, basé sur des couples statistiques développés par Allo-Media (modèle noms/prénoms aux données réelles d'une MARQUE disponible en option)
modèles adresses postales, basé sur la base de données INSEE
modèle sur mesure, adapté au contexte et jargon de la marque

Détails et précisions

Vue d'ensemble de la chaine de traitement

Protocoles d'entrée de la donnée

Pour permettre une transcription des intentions dictées par l'appelant, Allo-Media offre plusieurs protocoles de captation des flux audios d'entrée :

Du MRCP as a Service, permettant de traiter des flux selon les standards du protocole utilisé aujourd'hui par les systèmes de téléphonie.
- Pour toute demande d'accès, merci de formuler votre demande à : support@allo-media.fr
- Les modalités de connexion seront précisées en retour de cette demande d'accès.

Tous les détails techniques liés à ce protocole d'entrée sont disponibles sur la documentation technique Allo-Media.

une API WebSocket, permettant une intégration rapide et une accessibilité à une plus large communauté de développeurs. Nous mettons à disposition un SDK (Python) afin de faciliter l'intégration de l'API.
- Pour toute demande d'accès, merci de formuler votre demande à : support@allo-media.fr
- Les modalités de connexion seront précisées en retour de cette demande d'accès.

Tous les détails techniques liés à ce protocole d'entrée sont disponibles sur la documentation technique Allo-Media.

un orchestrateur de callbot, permettant de confier à Allo-Media un flux d'appels, qui prend en charge l'animation des tours de paroles, et les appels aux ressources médias nécessaires au dialogue (transcription, moteur de dialoge, synthèse vocale).
- Pour toute demande d'accès, merci de formuler votre demande à : support@allo-media.fr
- Les modalités de connexion seront précisées en retour de cette demande d'accès.

Tous les détails techniques liés à ce protocole d'entrée sont disponibles sur la documentation technique Allo-Media.

Traitements effectués

Dès lors que des segments d'audios sont transmis par la MARQUE aux APIs Allo-Media, un processus de traitement automatisé s'enclenche.

Selon les options de traitement choisies, les segments d'audios transmis par la MARQUE font l'objet :

d'une transcription (obligatoire), dans la langue choisie et définie au sein de la configuration du traitement (détail au sein de la documentation technique)
d'un enrichissement en matière d'interprétation du résultat de la transcription (selon le contexte d'usage)

Protocoles de sortie de la donnée

Dès que les traitements effectués par l'infrastructure Allo-Media sont terminés, la transcription est fournie en instantané, selon le format adapté à chacun des protocoles décrits précédemment.

Spécificités réglementaires

Allo-Media agissant en qualité de prestataire, il est nécessaire d'établir avec la marque, seule responsable de traitements des données, un paramétrage adapté à chacun des traitements effectués. Ainsi, sont paramétrables les éléments suivants, agissant sur la disponibilité de la demande au sein des serveurs Allo-Media :

la durée de rétention des transcriptions (Par défaut, la transcription des interactions de l'appelant n'est pas stocké. En option, un stockage peut être défini de manière temporaire, afin d'adresser des besoins en améliorations continues des performances, ou de mesurer les performances de retranscription)