Blog
KUMAvoixMinaLoméIA

Pourquoi j'ai construit une API vocale pour que ma mère puisse commander un taxi à Lomé

L'histoire derrière KUMA — une API de détection d'intention vocale en Mina et Ewe. Pas une idée de startup. Une frustration réelle, observée dans ma propre famille.

·3 min read

Quand je vais à Lomé, je me déplace avec Gozem — l'application de mobilité la plus utilisée en ville. Ma mère, elle, a un taxi attitré. Quand il n'est pas disponible, elle marche jusqu'à la voie principale pour en trouver un autre.

Je lui ai installé Gozem, je l'ai encouragée à l'utiliser. Mais elle ne peut pas. Elle ne sait pas lire le français, elle en connaît quelques mots mais pas assez pour naviguer dans l'application. Alors c'est moi qui commande pour elle quand je suis là.

De retour en France, j'ai demandé à ma petite sœur de prendre le relais. Mais ça m'a fait réfléchir. Pourquoi ma mère ne peut pas simplement commander un taxi dans sa propre langue — le Mina ou l'Ewe ?


Le Mina, une langue vivante et ignorée

Le Mina — aussi appelé Gengbe — est parlé par environ 1,5 million de personnes au Togo et au Bénin. L'Ewe, sa langue sœur, par plusieurs millions de plus au Ghana, au Togo et au Bénin.

Ce sont des langues tonales, riches, avec une grammaire complexe et une littérature orale dense. Elles ne sont pas "primitives" ou "simples". Elles sont juste absentes des datasets d'entraînement des grands modèles de langage.

Parce que personne n'a jugé utile de les collecter.


L'idée de KUMA

Je me suis dit que si je pouvais créer une plateforme capable de détecter l'intention dans un enregistrement vocal en Mina ou Ewe, il me suffirait de mettre en place une API et de la proposer à Gozem.

Pas une transcription complète. Pas un assistant vocal général. Juste : détecter l'intention.

Si quelqu'un dit "M'amener Tokoin, akpe" — "Emmène-moi à Tokoin, s'il te plaît" — l'API doit retourner :

{
  "intent": "book_ride",
  "destination": "Tokoin",
  "language": "mina",
  "confidence": 0.94
}

C'est tout. Le reste, c'est l'application qui s'en charge.

Cette approche a un avantage énorme : elle est intégrable dans n'importe quelle app existante. Gozem n'a pas besoin de refaire son interface. Il suffit d'ajouter un bouton micro, d'appeler l'API KUMA, et de traiter la réponse comme n'importe quelle autre entrée utilisateur.


Ce que ça a demandé

J'ai commencé mes recherches. Il existait des datasets Ewe, mais je voulais quelque chose de plus proche de la réalité — les gens qui commandent un taxi ne parlent pas comme dans un corpus académique, ils parlent naturellement.

J'ai mandaté mon grand frère pour m'aider à constituer un dataset. Nous avons aujourd'hui près de 3000 enregistrements. Les entraînements commencent bientôt.


Maman n'a pas encore commandé son taxi. Vivement ce jour-là.

Retour au blog