Voicebank : vraies voix françaises (CML-TTS) + pool anonyme + garde-fou Qwen3

Remplace la voicebank générée par Kokoro (timbre anglais sur français phonémisé -> accent que Qwen3 clonait) par 41 vraies voix FR issues de CML-TTS (livres audio studio) : 1 narrateur dédié, 18F/14M nommées, 4F/4M anonymes réservées. - scripts/import_voices.py : import multi-shards parquet, 1 clip/locuteur (le plus propre via levenshtein), genre estimé par F0 (YIN, anti-octave), filtre débit de parole (ref_text aligné sur l'audio). - VoiceEntry.anonymous + assign_voices : les figurants « anonyme (...) » tirent dans un pool réservé, jamais mélangé avec les voix nommées ; narrateur dédié (fr_narrator remplace fr_f_siwis). - dedup._anon_attrs : genre/âge déduits du nom anonyme (bon genre de voix). - tts/qwen3.py : garde-fou anti-dérive (rejette/réessaie les sorties en boucle ou coupées en estimant la durée plausible du chunk). Limite connue : Qwen3 ne sait pas synthétiser les fragments d'1-2 mots (incises, titres) -> trous ; à traiter (repli Kokoro ou fusion des incises). Inclut aussi du travail en cours antérieur (refacto backend LLM pluggable mlx/lmstudio, benchmark, ajustements frontend/API). Claude-Session: https://claude.ai/code/session_01XSVvcy1mfb4k1xDgib9vVU
2026-06-21 21:32:31 +02:00
parent 141df5f04e
commit ba1813c583
91 changed files with 2558 additions and 442 deletions
--- a/backend/inkflow/pipeline/render.py
+++ b/backend/inkflow/pipeline/render.py
@@ -45,12 +45,22 @@ def make_voice_resolver(cast, voicebank, engine: str) -> VoiceResolver:

    Replie sur la voix du narrateur si le locuteur n'a pas de voix attribuee.
    """
+    import logging
+
    from ..casting.assign import resolve_speaker_voice
    from ..casting.voicebank import voice_spec_for

+    logger = logging.getLogger(__name__)
+    warned: set[str] = set()  # 1 warning par locuteur et par chapitre (resolver local)
+
    def resolve(speaker: str):
        vid = resolve_speaker_voice(speaker, cast, voicebank)
        if vid is None:
+            if speaker != "narrateur" and speaker not in warned:
+                warned.add(speaker)
+                logger.warning(
+                    "Locuteur sans voix attribuee, repli sur le narrateur: %r",
+                    speaker)
            vid = cast.narrator_voice_id
        entry = voicebank.by_id(vid) if vid else None
        if entry is None: