Voicebank : vraies voix françaises (CML-TTS) + pool anonyme + garde-fou Qwen3

Remplace la voicebank générée par Kokoro (timbre anglais sur français phonémisé -> accent que Qwen3 clonait) par 41 vraies voix FR issues de CML-TTS (livres audio studio) : 1 narrateur dédié, 18F/14M nommées, 4F/4M anonymes réservées. - scripts/import_voices.py : import multi-shards parquet, 1 clip/locuteur (le plus propre via levenshtein), genre estimé par F0 (YIN, anti-octave), filtre débit de parole (ref_text aligné sur l'audio). - VoiceEntry.anonymous + assign_voices : les figurants « anonyme (...) » tirent dans un pool réservé, jamais mélangé avec les voix nommées ; narrateur dédié (fr_narrator remplace fr_f_siwis). - dedup._anon_attrs : genre/âge déduits du nom anonyme (bon genre de voix). - tts/qwen3.py : garde-fou anti-dérive (rejette/réessaie les sorties en boucle ou coupées en estimant la durée plausible du chunk). Limite connue : Qwen3 ne sait pas synthétiser les fragments d'1-2 mots (incises, titres) -> trous ; à traiter (repli Kokoro ou fusion des incises). Inclut aussi du travail en cours antérieur (refacto backend LLM pluggable mlx/lmstudio, benchmark, ajustements frontend/API). Claude-Session: https://claude.ai/code/session_01XSVvcy1mfb4k1xDgib9vVU
2026-06-21 21:32:31 +02:00
parent 141df5f04e
commit ba1813c583
91 changed files with 2558 additions and 442 deletions
--- a/backend/inkflow/casting/assign.py
+++ b/backend/inkflow/casting/assign.py
@@ -1,10 +1,12 @@
 """Auto-casting : attribue une voix distincte a chaque personnage.

 Strategie deterministe :
- Narrateur : voix FR native par defaut (ff_siwis), sinon premiere voix.
- Personnages : voix du meme genre, distinctes tant qu'il en reste ; au-dela on
-  recycle en repartissant le plus equitablement possible. Genre inconnu -> pool
-  mixte. L'ordre (tri par nom) garantit la reproductibilite.
+- Narrateur : voix dediee de la voicebank (PREFERRED_NARRATOR), sinon 1re voix.
+- Personnages nommes : voix du meme genre dans le pool *nomme* (anonymous=False),
+  distinctes tant qu'il en reste ; au-dela recyclage equitable.
+- Figurants anonymes ("anonyme (...)") : voix du meme genre dans le pool *reserve*
+  (anonymous=True), pour ne pas consommer les voix des personnages nommes.
+Genre inconnu -> pool mixte. L'ordre (tri par nom) garantit la reproductibilite.
 L'utilisateur pourra surcharger ces choix dans l'UI.
 """
 from __future__ import annotations
@@ -14,18 +16,29 @@ from typing import Optional

 from ..models import Cast, Character, Voicebank

-# Voix narrateur preferee (FR native).
-PREFERRED_NARRATOR = "fr_f_siwis"
+# Voix narrateur preferee (voix dediee de la voicebank CML).
+PREFERRED_NARRATOR = "fr_narrator"


-def _pick_pool(vb: Voicebank, gender: Optional[str], narrator_id: str) -> list[str]:
-    """Voix candidates : on privilegie STRICTEMENT le genre (quitte a reutiliser).
+def _is_anonymous(name: str) -> bool:
+    """Un figurant anonyme ("anonyme (homme)", "anonyme (femme, vieux)", ...)."""
+    return name.strip().lower().startswith("anonyme")

-    On ne croise le genre que si aucune voix du bon genre n'existe. Le narrateur
-    est exclu tant qu'il reste d'autres options, pour le distinguer.
+
+def _pick_pool(vb: Voicebank, gender: Optional[str], narrator_id: str,
+               *, anonymous: bool) -> list[str]:
+    """Voix candidates : genre STRICT et pool reserve selon `anonymous`.
+
+    Les figurants anonymes tirent dans le sous-ensemble `anonymous=True`, les
+    personnages nommes dans le sous-ensemble `anonymous=False` — les deux ne se
+    melangent pas. On ne croise (tag puis genre) qu'en dernier recours si le pool
+    cible est vide. Le narrateur est exclu tant qu'il reste d'autres options.
    """
-    same = [e.id for e in vb.by_gender(gender)] if gender in ("male", "female") else []
-    pool = same if same else [e.id for e in vb.entries]
+    genders = (gender,) if gender in ("male", "female") else ("male", "female")
+    # 1) genre + tag exacts ; 2) genre seul ; 3) tout.
+    same_tag = [e.id for g in genders for e in vb.by_gender(g, anonymous=anonymous)]
+    same_gender = [e.id for g in genders for e in vb.by_gender(g)]
+    pool = same_tag or same_gender or [e.id for e in vb.entries]
    non_narrator = [vid for vid in pool if vid != narrator_id]
    return non_narrator or pool  # garde le narrateur seulement s'il est seul

@@ -55,7 +68,7 @@ def assign_voices(
        if respect_existing and ch.voice_id and vb.by_id(ch.voice_id):
            usage[ch.voice_id] += 1
            continue  # respecte une attribution existante (override utilisateur)
-        pool = _pick_pool(vb, ch.gender, narrator_id)
+        pool = _pick_pool(vb, ch.gender, narrator_id, anonymous=_is_anonymous(ch.name))
        # Choisit la voix la moins utilisee du pool (donc une voix neuve d'abord).
        best = min(pool, key=lambda vid: (usage[vid], pool.index(vid)))
        ch.voice_id = best