In [3]:
# Test Jupyter pour vérifier la translittération uroman et la similarité
# Cas : מהללאל → 瑪勒列

# 1. Test uroman
try:
    import uroman as ur
    uroman_instance = ur.Uroman()
    hebrew_word = "מהללאל"
    uroman_result = uroman_instance.romanize_string(hebrew_word)
    print(f"1. Translittération uroman:")
    print(f"   Hébreu: {hebrew_word}")
    print(f"   Uroman: {uroman_result}")
except Exception as e:
    print(f"❌ Erreur uroman: {e}")

# 2. Test pinyin (simulé - remplacez par votre vraie fonction)
def get_pinyin_mock(chinese_word, pinyin_dict=None):
    """Mock de get_pinyin - remplacez par votre vraie fonction"""
    pinyin_map = {
        "瑪勒列": "Ma3 Le4 Lie4",
        # Ajoutez d'autres si nécessaire
    }
    return pinyin_map.get(chinese_word, chinese_word)

chinese_word = "瑪勒列"
pinyin_result = get_pinyin_mock(chinese_word)
print(f"\n2. Pinyin chinois:")
print(f"   Chinois: {chinese_word}")
print(f"   Pinyin: {pinyin_result}")

# 3. Test similarité (simulé - remplacez par votre vraie fonction)
def calculate_name_similarity(english_name, pinyin):
    """
    Calcule la similarité phonétique pour noms propres anglais-chinois
    """
    
    # Nettoyer le pinyin (enlever les tons et espaces)
    clean_pinyin = re.sub(r'[0-9]', '', pinyin.lower()).replace(' ', '')
    english_clean = english_name.lower()
    
    # Longueur minimale de correspondance
    # Rejeter si les noms sont trop courts pour être fiables
    if len(english_clean) < 3 or len(clean_pinyin) < 2:
        return 0.0
    
    # 1. CORRESPONDANCES PHONÉTIQUES
    phonetic_map = {
        
        # Consonnes de base
        'br': 'bo',
        'ham': 'han',
        'a': 'ya',
        'e': 'yi',
        
        # Phonétique générale
        'j': 'y',           # Jacob → Ya
        'c': 'k',           # Isaac → Yi-sak (mais 'k' souvent omis)
        'ch': 'ke',         # Michael → Mi-ke
        'ck': 'ke',         # Jack → Ya-ke
        'x': 'kesi',        # Alexander → A-li-shan-de
        'th': 't',          # Matthew → Ma-tai
        'ph': 'f',          # Philip → Fei-li
        
        # Groupes consonantiques simplifiés
        'br': 'bo',         # Abraham → A-bo-la-han
        'gr': 'ge',         # Grace → Ge-rui-si
        'pr': 'pu',         # Peter → Pu-de
        'tr': 'te',         # Patrick → Pa-te-li
        'dr': 'de',         # Andrew → An-de-lu
        'fr': 'fu',         # Francis → Fu-lan-xi
        'cr': 'ke',         # Chris → Ke-li-si
        
        # Voyelles adaptées
        'aa': 'a',          # Isaac → Yi-sa
        'ee': 'i',          # Lee → Li
        'oo': 'u',          # Book → Bu-ke
        'ou': 'ao',         # House → Hao-si
        'ow': 'ao',         # Brown → Bu-lao-en
        'ey': 'ei',         # Grey → Ge-lei
        'ay': 'ai',         # David → Da-wei (approximatif)
        'oy': 'ao',         # Troy → Te-lao-yi
        
        # Sons difficiles
        'v': 'w',         # David → Da-wei (v → w → wei)
        
        # Simplifications
        'bb': 'b', 'cc': 'k', 'dd': 'd', 'ff': 'f', 'gg': 'g',
        'll': 'l', 'mm': 'm', 'nn': 'n', 'pp': 'p', 'rr': 'r',
        'ss': 's', 'tt': 't'
    }
    
    # 2. RÈGLES POSITIONNELLES
    def apply_smart_mapping(text):
        """Applique des règles intelligentes selon la position"""
        result = text
        
        # Préfixes silencieux
        if result.startswith('kn'):    result = result[2:]      # Knight → ight
        if result.startswith('ps'):    result = result[1:]      # Psalm → salm
        if result.startswith('wr'):    result = result[1:]      # Wright → right
        
        # Suffixes simplifiés
        if result.endswith('mb'):      result = result[:-1]     # Lamb → Lam
        if result.endswith('gn'):      result = result[:-2] + 'n'  # Sign → Sin
        if result.endswith('bt'):      result = result[:-2] + 't'  # Debt → Det
        
        return result
    
    # 3. GÉNÉRER DES VARIANTES DE TRANSCRIPTION POSSIBLES
    mapped_english = apply_smart_mapping(english_clean)
    
    # Générer plusieurs variantes possibles
    def generate_transcription_variants(text, phonetic_map, max_variants=5):
        """Génère plusieurs variantes de transcription possibles"""
        variants = [text]  # Commencer avec le texte original
        
        # Pour chaque règle phonétique, créer des variantes
        for eng_sound, chi_sound in sorted(phonetic_map.items(), key=len, reverse=True):
            if eng_sound in text:
                new_variants = []
                for variant in variants[:max_variants]:  # Limiter pour éviter explosion combinatoire
                    # Garder la variante originale
                    new_variants.append(variant)
                    # Ajouter la variante avec remplacement
                    new_variant = variant.replace(eng_sound, chi_sound)
                    if new_variant != variant:  # Éviter les doublons
                        new_variants.append(new_variant)
                variants = new_variants[:max_variants]  # Garder les N meilleures
        
        return variants
    
    english_variants = generate_transcription_variants(mapped_english, phonetic_map)
    
    # 4. CALCUL DE SIMILARITÉ MULTI-VARIANTES
    
    # Fonction utilitaire pour les syllabes
    def get_syllables(text, min_len=2):
        """Extraire des syllabes approximatives"""
        syllables = []
        for i in range(len(text) - min_len + 1):
            for length in [3, 2]:  # Priorité aux syllabes de 3 puis 2 caractères
                if i + length <= len(text):
                    syl = text[i:i+length]
                    syllables.append(syl)
        return set(syllables)
    
    # Tester chaque variante anglaise contre le pinyin chinois
    best_scores = {
        'direct': 0.0,
        'syllable': 0.0,
        'length_ratio': 0.0
    }
    
    for variant in english_variants:
        # A. Similarité directe après mapping
        direct_sim = difflib.SequenceMatcher(None, variant, clean_pinyin).ratio()
        
        # B. Correspondances syllabiques
        variant_syllables = get_syllables(variant)
        pinyin_syllables = get_syllables(clean_pinyin)
        
        syllable_intersection = len(variant_syllables & pinyin_syllables)
        syllable_union = len(variant_syllables | pinyin_syllables)
        syllable_sim = syllable_intersection / syllable_union if syllable_union > 0 else 0
        
        # C. Ratio de longueur pour cette variante
        length_ratio = min(len(variant), len(clean_pinyin)) / max(len(variant), len(clean_pinyin))
        
        # Garder les meilleurs scores
        best_scores['direct'] = max(best_scores['direct'], direct_sim)
        best_scores['syllable'] = max(best_scores['syllable'], syllable_sim)
        best_scores['length_ratio'] = max(best_scores['length_ratio'], length_ratio)
    
    # Utiliser les meilleurs scores obtenus
    direct_similarity = best_scores['direct']
    syllable_similarity = best_scores['syllable']
    length_ratio = best_scores['length_ratio']
    
    # NOUVEAU : Pénalité forte si différence de longueur trop importante
    length_penalty = 1.0
    # Calculer sur la base de la meilleure variante (plus court chemin)
    min_length_diff = min(abs(len(variant) - len(clean_pinyin)) for variant in english_variants)
    
    if min_length_diff > 3:  # Plus de 3 caractères de différence
        length_penalty = 0.5
    elif min_length_diff > 5:  # Plus de 5 caractères
        length_penalty = 0.2
    
    # D. NOUVEAU : Vérification de cohérence phonétique minimale
    # Au moins 30% de correspondance directe OU 40% syllabique requis
    min_phonetic_threshold = max(direct_similarity, syllable_similarity * 1.2)
    if min_phonetic_threshold < 0.25:
        return 0.0  # Rejet immédiat
    
    # 5. SCORE FINAL AVEC PONDÉRATION AJUSTÉE
    final_score = (
        direct_similarity * 0.5 +           # Correspondance directe (50%)
        syllable_similarity * 0.3 +         # Correspondance syllabique (30%)
        length_ratio * 0.1 +                # Ratio de longueur (10%)
        min_phonetic_threshold * 0.1        # Bonus cohérence (10%)
    ) * length_penalty  # Appliquer la pénalité
    
    return min(1.0, final_score)  # Cap à 1.0

try:
    similarity = calculate_name_similarity(uroman_result, pinyin_result)
    print(f"\n3. Calcul de similarité:")
    print(f"   Uroman: '{uroman_result}'")
    print(f"   Pinyin: '{pinyin_result}'")
    print(f"   Similarité: {similarity:.3f}")
    
    # Bonus longueur chinoise (2-4 caractères)
    chinese_length = len(chinese_word)
    bonus = 0.2 if 2 <= chinese_length <= 4 else 0
    final_score = similarity + bonus
    
    print(f"   Bonus longueur (+0.2): {bonus}")
    print(f"   Score final: {final_score:.3f}")
    
    # Test seuil
    threshold = 0.56
    passes_threshold = final_score >= threshold
    print(f"   Seuil: {threshold}")
    print(f"   Passe le seuil: {'✅ OUI' if passes_threshold else '❌ NON'}")
    
except Exception as e:
    print(f"❌ Erreur calcul similarité: {e}")

# 4. Test avec vos vraies fonctions (décommentez si disponibles)
"""
# Remplacez par vos vraies fonctions
from utils.pinyin_functions import get_pinyin, calculate_name_similarity

try:
    real_pinyin = get_pinyin(chinese_word, None)  # Votre pinyin_dictionary
    real_similarity = calculate_name_similarity(uroman_result, real_pinyin)
    
    print(f"\n4. Test avec vraies fonctions:")
    print(f"   Vrai pinyin: {real_pinyin}")
    print(f"   Vraie similarité: {real_similarity:.3f}")
    
    real_final = real_similarity + (0.2 if 2 <= len(chinese_word) <= 4 else 0)
    print(f"   Score final réel: {real_final:.3f}")
    print(f"   Passe le seuil: {'✅ OUI' if real_final >= 0.56 else '❌ NON'}")
    
except Exception as e:
    print(f"❌ Erreur fonctions réelles: {e}")
"""

❌ Erreur calcul similarité: name 'uroman_result' is not defined


'\n# Remplacez par vos vraies fonctions\nfrom utils.pinyin_functions import get_pinyin, calculate_name_similarity\n\ntry:\n    real_pinyin = get_pinyin(chinese_word, None)  # Votre pinyin_dictionary\n    real_similarity = calculate_name_similarity(uroman_result, real_pinyin)\n\n    print(f"\n4. Test avec vraies fonctions:")\n    print(f"   Vrai pinyin: {real_pinyin}")\n    print(f"   Vraie similarité: {real_similarity:.3f}")\n\n    real_final = real_similarity + (0.2 if 2 <= len(chinese_word) <= 4 else 0)\n    print(f"   Score final réel: {real_final:.3f}")\n    print(f"   Passe le seuil: {\'✅ OUI\' if real_final >= 0.56 else \'❌ NON\'}")\n\nexcept Exception as e:\n    print(f"❌ Erreur fonctions réelles: {e}")\n'