Soundex
=======

Réouvrir la page principale
---------------------------

[Cliquer ici](../main.ipynb)



À vous de jouer : coder un mot sans lettre accentuée
----------------------------------------------------

Rappelons que l'énoncé donnait les exemples suivants de code.
<table style="font-weight:bold;">
  <tr style="background-color: lightgrey;">
    <th>Mot</th> <th>Soundex</th>
  </tr>
  <tr>
    <td>Robert</td> <td>R163</td>
  </tr>
  <tr>
    <td>Rupert</td> <td>R163</td>
  </tr>
  <tr>
    <td>Rubin</td> <td>R150</td>
  </tr>
  <tr>
    <td>ah</td> <td>A000</td>
  </tr>
  <tr>
    <td>mammifère</td> <td>M596</td>
  </tr>
  <tr>
    <td>animalité</td> <td>A543</td>
  </tr>
</table>


Dans le programme qui va suivre, la seule réelle nouveauté se trouve dans les lignes suivantes.

-----------------------------------------
```
LETTRE_VERS_CODE = {
    une_lettre: code
    for code, des_lettres in table.items()
    for une_lettre in des_lettres
}
```
-----------------------------------------

Ceci est un raccourci "pythonien" pour les lignes de code ci-dessous.

------------------------------------------
```
LETTRE_VERS_CODE = {}

for code, deslettres in table.items():
    for une_lettre in des_lettres:
        LETTRE_VERS_CODE[une_lettre] = code
```
------------------------------------------

Rien ne vous oblige à utiliser cette "pythonnerie" mais sachez au moins que cela existe.

In [3]:
# ---------------- #
# -- LE SOUNDEX -- #
# ---------------- #

TABLE = {
    "1": "BP",
    "2": "CKQ",
    "3": "DT",
    "4": "L",
    "5": "MN",
    "6": "R",
    "7": "GJ",
    "8": "XZS",
    "9": "FV"
}

LETTRE_VERS_CODE = {
    une_lettre: code
    for code, des_lettres in TABLE.items()
    for une_lettre in des_lettres
}


def soundex(mot):
    """
Cette fonction renvoie le code Soundex d'un mot.
    """
    global LETTRE_VERS_CODE
    
    mot = mot.upper()

    # Gestion des caractères spéciaux (non accentués).
    mot = mot.replace("Ç", "S")
    mot = mot.replace("Œ", "E")
    mot = mot.replace("OE", "E")

    # On isole la première lettre et on travaillera sur 
    # le reste du mot.
    lettre_debut = mot[0]
    mot_restant  = mot[1:]

    # On retire les lettres jugées non pertinentes.
    for lettre_non_gardee in "AEHIOUWY":
        if lettre_non_gardee in mot_restant:
            mot_restant = mot_restant.replace(lettre_non_gardee, "")

    # On applique le codage Soundex.
    code_soundex    = ""
    dernier_chiffre = None

    for cara in mot_restant:
        chiffre = LETTRE_VERS_CODE[cara]

        if chiffre != dernier_chiffre:
            # x += a est un raccourci pour x = x + a.
            code_soundex   += chiffre
            dernier_chiffre = chiffre

    code_soundex = lettre_debut + code_soundex
    
    # Il reste éventuellement soit à ajouter des zéros finaux,
    # soit au contraire à retirer des codes en trop à droite.
    taille = len(code_soundex)

    if taille < 4:
        code_soundex += "0"*(4 - taille)
    else:
        code_soundex = code_soundex[:4]

    return code_soundex


# ----------------- #
# -- APPLICATION -- #
# ----------------- #

# Robert    ---> R163
# Rupert    ---> R163
# Rubin     ---> R150
# ah        ---> A000
# mammifère ---> M596
# animalité ---> A543

des_mots = [
    "Robert",
    "Rupert",
    "Rubin",
    "ah",
    "mammifere",   # Pas d'accent ici !
    "animalite"    # Pas d'accent ici !
]

for un_mot in des_mots:
    print("{0} <--- {1}".format(soundex(un_mot), un_mot))

R163 <--- Robert
R163 <--- Rupert
R150 <--- Rubin
A000 <--- ah
M596 <--- mammifere
A543 <--- animalite


Pour les plus rapides : proposer des corrections orthographiques
----------------------------------------------------------------

Le code suivant ne fait que traduire la méthode qui était proposée.

In [4]:
# ------------------------------------------- #
# -- GESTION DES ACCENTS (cf "Palindrome") -- #
# ------------------------------------------- #

ASCII_VERS_SPECIAL = {
    '': "-",
    'A':"ÀÂÄ",
    'E': "ÈÉÊË",
    'I': "ÎÏ",
    'O': "ÔÖ",
    'U': "ÙÛÜ"
}

SPECIAL_VERS_ASCII = {
    une_lettre_speciale: lettre_ascii
    for lettre_ascii, lettres_speciales in ASCII_VERS_SPECIAL.items()
    for une_lettre_speciale in lettres_speciales
}


def nettoie_mot(mot):
    global SPECIAL_VERS_ASCII
    
    mot = mot.upper()

    mot_propre = ""
    
    for cara in mot:
        mot_propre += SPECIAL_VERS_ASCII.get(cara, cara)
        
    return mot_propre


# --------------------------- #
# -- SOUNDEX D'UN SEUL MOT -- #
# --------------------------- #

TABLE = {
    "1": "BP",
    "2": "CKQ",
    "3": "DT",
    "4": "L",
    "5": "MN",
    "6": "R",
    "7": "GJ",
    "8": "XZS",
    "9": "FV"
}

LETTRE_VERS_CODE = {
    une_lettre: code
    for code, des_lettres in TABLE.items()
    for une_lettre in des_lettres
}


def soundex(mot):
    """
Cette fonction renvoie le code Soundex d'un mot.
    """
    global LETTRE_VERS_CODE
    
    mot = nettoie_mot(mot)

    mot = mot.replace("Ç", "S")
    mot = mot.replace("Œ", "E")
    mot = mot.replace("OE", "E")

    lettre_debut = mot[0]
    mot_restant  = mot[1:]

    for lettre_non_gardee in "AEHIOUWY":
        if lettre_non_gardee in mot_restant:
            mot_restant = mot_restant.replace(lettre_non_gardee, "")

    code_soundex    = ""
    dernier_chiffre = None

    for cara in mot_restant:
        chiffre = LETTRE_VERS_CODE[cara]

        if chiffre != dernier_chiffre:
            code_soundex   += chiffre
            dernier_chiffre = chiffre

    code_soundex = lettre_debut + code_soundex
    
    taille = len(code_soundex)

    if taille < 4:
        code_soundex += "0"*(4 - taille)
    else:
        code_soundex = code_soundex[:4]

    return code_soundex


# ------------------------------------ #
# -- CODES SOUNDEX DE TOUS NOS MOTS -- #
# ------------------------------------ #

MOTS_CONNUS    = []
SOUNDEX_CONNUS = {}

with open("motsfrancais_frgut.txt", encoding="iso-8859-1") as fichier:
    for ligne in fichier:
        mot = ligne.strip()
        mot = mot.lower()

        MOTS_CONNUS.append(mot)

        soundex_mot = soundex(mot)
        
        if soundex_mot in SOUNDEX_CONNUS:
            SOUNDEX_CONNUS[soundex_mot].append(mot)
        
        else:
            SOUNDEX_CONNUS[soundex_mot] = [mot]


def correction_soundex(mot):
    """
Cette fonction renvoie une lise de corrections orthographiques en
se basant sur le code Soundex. Cette liste sera vide en cas d'échec.
    """
    global MOTS_CONNUS, SOUNDEX_CONNUS
   
    # On utilise des minuscules pour les mots connus car ce sera plus
    # beau pour l'affichage.
    mot = mot.lower()
    
    if mot in MOTS_CONNUS:
        corrections = [mot]

    else:
        soundex_mot = soundex(mot)
        
        if soundex_mot in SOUNDEX_CONNUS:
            corrections = SOUNDEX_CONNUS[soundex_mot]
            
        else:
            corrections = []
    
    return corrections


def affiche_corrections(mot_mal_tape, corrections):
    """
Cette fonction permet d'obtenir un affichage des corrections trouvées.
    """
    if corrections == []:
        print('Aucune correction trouvée pour le mot "{0}"!'.format(mot_mal_tape))

    elif corrections == [mot_mal_tape]:
        print("Mot bien tapé.")

    elif len(corrections) == 1:
        print('Une seule correction trouvée pour le mot "{0}".'.format(mot_mal_tape))
        print("    * {0}".format(corrections[0]))

    else:
        print('Plusieurs corrections trouvées pour le mot "{0}".'.format(mot_mal_tape))
        
        for i, mot in enumerate(corrections):
            print("    {0}) {1}".format(i+1, mot))


# ----------------- #
# -- APPLICATION -- #
# ----------------- #

mot_mal_tape = "orttografe"

corrections = correction_soundex(mot_mal_tape)
affiche_corrections(mot_mal_tape, corrections)    

Plusieurs corrections trouvées pour le mot "orttografe".
    1) orthogenèse
    2) orthogenèses
    3) orthogénie
    4) orthogénies
    5) orthogonal
    6) orthogonale
    7) orthogonalement
    8) orthogonales
    9) orthogonaux
    10) orthographe
    11) orthographes
    12) orthographia
    13) orthographiai
    14) orthographiaient
    15) orthographiais
    16) orthographiait
    17) orthographiâmes
    18) orthographiant
    19) orthographias
    20) orthographiasse
    21) orthographiassent
    22) orthographiasses
    23) orthographiassiez
    24) orthographiassions
    25) orthographiât
    26) orthographiâtes
    27) orthographie
    28) orthographié
    29) orthographiée
    30) orthographiées
    31) orthographient
    32) orthographier
    33) orthographiera
    34) orthographierai
    35) orthographieraient
    36) orthographierais
    37) orthographierait
    38) orthographieras
    39) orthographièrent
    40) orthographierez
    41) orthographieriez
    42) orthogra

On peut noter que dans les 53 propositions faites il n'y en a que neuf qui sont au final peu pertinentes comme le montre le code ci-dessous.

In [5]:
# On suppose que la cellule précédente a été exécutée par IPython.

mot_mal_tape = "orttografe"

corrections = correction_soundex(mot_mal_tape)
i_mauvais   = 0

for une_correction in corrections:
    if not une_correction.startswith("orthograph"):
        i_mauvais += 1
        print("{0}) {1}".format(i_mauvais, une_correction))

1) orthogenèse
2) orthogenèses
3) orthogénie
4) orthogénies
5) orthogonal
6) orthogonale
7) orthogonalement
8) orthogonales
9) orthogonaux


À mieux y regarder, d'un point de vue sémantique nous n'avons que trois sens éloignés du mot "orthographe" attendu, à savoir "orthogenèse", "orthogénie" et "orthogonal". Pas si mauvais que cela ! Il faudrait bien entendu faire bien plus de tests pour juger sérieusement de l'efficacité ou non du code Soundex.