Table of content

Language Model Factory

Objectif du service

Chaque client, voire chaque cas d’usage d’un même client, a besoin qu’un certain type de vocabulaire, souvent peu commun dans le langage courant, soit correctement reconnu lors des transcriptions :

Verbiage propre à l’activité
Noms de produits
Noms de marques

En adaptant un modèle de langage à ces spécificités, on peut donc offrir une meilleure transcription. Cet ensemble de données est couramment appelé “corpus”.

Réponse d’Allo-Media

Afin de facilement créer un modèle de langage adapté à une situation donnée, Allo-Media a développé la Language Model Factory (LM Factory, ou LMF). Cet outil permet à des utilisateurs sans connaissances techniques ou linguistiques particulières de produire des modèles de langage qui peuvent ensuite être utilisés sur l’ensemble de notre plateforme. En ajoutant en entrée des extraits de phrases courantes du cas d’usage considéré, ainsi que des noms propres (marques, produits), un modèle spécialisé est créé en sortie. Il est bien plus performant qu’un modèle généraliste sur les thématiques pour lesquelles il a été renforcé. Ce nouveau modèle de langage peut ensuite être utilisé sur l’ensemble de nos API :

Détails et précisions

Vue d'ensemble de la chaîne de traitement

Entrée : expressions, verbiage, noms propres
Traitement : Par la LM Factory
Sortie : Modèle de langage adapté, vers les API et les différents produits

Protocoles d'entrée de la donnée

A l’heure actuelle, l’échange de données se fait directement avec le responsable client chez Allo-Media. Nous envisageons d’ouvrir une interface (API et via notre webapp) pour faciliter ces échanges. Pour faciliter le traitement des données, ces dernières doivent être préparées selon des règles décrites dans la documentation technique. Il s’agit de règles d’orthographe, d’utilisation d'abréviations, de conventions d’écriture, etc.

Traitements effectués

Après validation avec le responsable de compte chez Allo-Media, les données sont envoyées en traitement pour construire le modèle de langage. En plus de votre corpus, sont inclues les améliorations continues venant de notre R&D, de nos linguistes, et plus généralement de nos retours d’expériences. La construction en elle-même ne prend que quelques dizaines de minutes. Une session de test spécifique au modèle construit peut-être ensuite effectuée. Elle dépend, pour ce faire, de la mise à disposition d’un corpus d’audios de référence.

Protocoles de sortie de la donnée

Une fois le modèle construit, il peut être mis à disposition sur l’ensemble de nos produits et API.

Spécificités réglementaires

Par défaut le corpus donné en entrée est conservé dans notre plateforme, ceci afin de faciliter sa mise à jour et son évolution, et donc celle de vos modèles de langage.