La question qu'on nous pose chaque semaine
Depuis l'explosion des voicebots ChatGPT et la sortie de GPT-4o Voice, chaque dirigeant sénégalais nous pose la même question : "Mohamed, est-ce que je peux avoir un robot qui répond aux appels de mes clients en wolof ?" La réponse honnête en 2026 est : oui, partiellement, et il faut savoir où sont les limites.
Nous avons benchmarké les principaux moteurs sur 200 minutes d'enregistrements réels — appels SAV télécoms, demandes de devis dans le bâtiment, prises de RDV en clinique — moitié wolof, moitié français wolofisé. Voici la vérité du terrain.
Le maillon faible : la reconnaissance vocale (STT)
Un voicebot a trois briques : écouter (STT, speech-to-text), comprendre/répondre (LLM), parler (TTS, text-to-speech). Le maillon faible pour le wolof est aujourd'hui le STT. OpenAI Whisper large-v3 a quelques heures de wolof dans son corpus d'entraînement, mais c'est marginal face aux centaines de milliers d'heures d'anglais. Résultat sur nos tests : un taux d'erreur (WER) de 38 % sur du wolof pur, contre 9 % sur du français standard.
AssemblyAI ne supporte pas officiellement le wolof. Deepgram non plus. Google Speech-to-Text annonce un support "Wolof (Senegal)" depuis fin 2025 — nos tests donnent un WER de 31 %, c'est mieux que Whisper mais pas encore production-ready pour un SAV exigeant. Microsoft Azure Cognitive Services arrive en dernière position.
Le tableau honnête
| Moteur STT | Wolof | Français | Code-switching FR+WO | Prix |
|---|---|---|---|---|
| OpenAI Whisper large-v3 | WER 38 % | WER 9 % | Médiocre | $0,006/min |
| Google Speech-to-Text | WER 31 % | WER 7 % | Bon | $0,016/min |
| AssemblyAI | Non supporté | WER 8 % | N/A | $0,015/min |
| Deepgram Nova-2 | Non supporté | WER 6 % | N/A | $0,012/min |
Le code-switching — ce mélange typique sénégalais où on saute du français au wolof dans la même phrase — reste le vrai défi. Aucun moteur ne le gère parfaitement. Google s'en sort le mieux parce qu'il accepte un paramètre "alternative languages" qu'on configure à 'wo-SN,fr-SN'.
La brique LLM est facile, la brique TTS aussi
Une fois la transcription faite, Claude ou GPT-4 répondent très bien en wolof écrit — y compris en wolof latin (orthographe standardisée). Le coût LLM est négligeable : 30 à 50 FCFA par conversation de 3 minutes.
Pour la voix de sortie (TTS), ElevenLabs ne propose pas de wolof natif mais on peut cloner une voix sénégalaise pour 50 USD une fois, puis générer en français wolofisé acceptable. Coût mensuel ElevenLabs Creator : 11 USD soit environ 7 000 FCFA. Google Cloud TTS propose des voix françaises africaines correctes à 16 USD par million de caractères.
Le voicebot qui tient la route en 2026
Ce qu'on déploie réellement chez nos PME, c'est un voicebot bilingue qui assume sa limite : il dit dès le départ "Bienvenue, je vous réponds en français — pour parler en wolof, dites 'humain' et je vous transfère". 80 % des appels passent en français, 20 % basculent en humain. Le résultat est un déflecteur d'appels qui économise 60 à 70 % du temps standard sans frustrer les clients wolofophones.
Besoin d'un site web professionnel ?
Kolonell crée des sites web qui attirent des clients, optimisés pour le marché sénégalais. Devis gratuit en 2 minutes.
Budget réaliste : 450 000 FCFA de setup (design des flux, intégration CRM, voix clonée), 75 000 FCFA par mois en fonctionnement (Twilio + Google STT + Claude + ElevenLabs + maintenance Kolonell).
Quand attendre
Si votre PME fait du SAV technique pointu, ou si 90 % de votre clientèle parle wolof exclusivement, attendez 12 à 18 mois. Les laboratoires d'IA africains (Lelapa AI à Cape Town, Lesan AI à Addis-Abeba) entraînent des modèles wolof natifs. Sonatel finance discrètement un projet similaire. La performance va monter de 30 à 65 % d'ici fin 2027.
FAQ
Un voicebot wolof peut-il prendre un rendez-vous médical ?
Oui en français, et avec confirmation SMS/WhatsApp en wolof traduit. En wolof oral pur, pas encore avec une fiabilité acceptable.
Combien coûte un POC voicebot bilingue ?
180 000 FCFA pour un POC sur 50 appels et une décision go/no-go.
Le voicebot peut-il détecter qu'il parle à une personne âgée et adapter son ton ?
Oui, via prosodie (vitesse, hésitations, débit). On programme une bascule vers humain en cas de doute.
Quels secteurs sénégalais sont prêts pour un voicebot en 2026 ?
Cliniques (prise de RDV), e-commerce (suivi de commande), microfinance (solde et échéances), agences immobilières (qualification leads).
---
POC voicebot bilingue : WhatsApp +221 77 596 93 33 ou devis.
Mohamed Bah
Fondateur, Kolonell
Passionné par le digital et l'entrepreneuriat en Afrique, Mohamed accompagne les entreprises sénégalaises dans leur transformation digitale depuis 2020. Fondateur de Kolonell, il croit que chaque PME mérite une présence en ligne professionnelle et accessible.
