Soundex
=======

Réouvrir la page principale
---------------------------

[Cliquer ici](../main.ipynb)



Mise en contexte
----------------

Soundex est un algorithme phonétique permettant d'associer un code à des mots **sans trait d'union** en essayant de faire en sorte que des mots ayant une prononciation similaire soient codés de la même façon. L'algorithme procède comme suit sur un mot donné *(référence utilisée : [l'article de Wikipédia](https://fr.wikipedia.org/wiki/Soundex))*.

1. Supprimer tous les accents du mot.
1. Mettre le mot tout en majuscule.
1. Transformer chaque "Ç" en "S", et "Œ" ou "OE" en "E".
1. Supprimer du mot toutes les occurences des lettres A, E, H, I, O, U, W et Y, **sauf** si c'est la première lettre du mot.
1. La première lettre du mot est le début du code Soundex.
1. Pour les lettres restantes, à partir de la deuxième poisigton, attribuer la valeur numérique qui lui est associée dans le tableau suivant *(voir [cette page](http://www-info.univ-lemans.fr/~carlier/recherche/soundex.html#L2) qui permet de comprendre les choix ci-dessous)*.
<table style="font-weight:bold;">
  <tr style="background-color: lightgrey;">
    <th>Lettre(s)</th> <th>Valeur</th>
  </tr>
  <tr>
    <td>B , P</td> <td>1</td>
  </tr>
  <tr>
    <td>C , K , Q</td> <td>2</td>
  </tr>
  <tr>
    <td>D , T</td> <td>3</td>
  </tr>
  <tr>
    <td>L</td> <td>4</td>
  </tr>
  <tr>
    <td>M , N</td> <td>5</td>
  </tr>
  <tr>
    <td>R</td> <td>6</td>
  </tr>
  <tr>
    <td>G , J</td> <td>7</td>
  </tr>
  <tr>
    <td>X , Z , S</td> <td>8</td>
  </tr>
  <tr>
    <td>F , V</td> <td>9</td>
  </tr>
</table>
1. Si un chiffre est répété plusieurs fois de suite, alors on ne retient que la première occurence de ce chiffre. Par exemple, `1122223335222` devient `12352`. 
1. La fin du code Soundex est formé des trois premiers chiffres obtenus à l'étape précédente. S'il manque des chiffres, on rajoute des zéros.

En appliquant cet algorithme, on obtient pour *"Robert"* et *"Rupert"* le même code `R163`, tandis que *"Rubin"* aboutit à `R150`, alors que pour *"ah"*, *"mammifère"* et *"animalité"*, on obtient `A000`, `M596` et `A543` respectivement.

**Remarque 1 :** le Soundex a la particularité d'associer à tout mot un code court de quatre caractères. On retrouve ce principe dans ce que l'on nomme des tables de hashage. Ces tables sont généralement utilisées pour vérifier la validité d'un mot de passe sans stocker ce dernier. 

**Remarque 2 :** on peut voir le Soundex comme un algorithme de compression avec perte d'information car tout mot de plus de quatre lettres sera codé avec seulement quatre caractères, d'où la compression, mais plusieurs mots peuvent avoir le même code Soundex, d'où la perte d'information *(voir "Robert" et "Rupert" ci-dessus)*. 


À vous de jouer : coder un mot sans lettre accentuée
----------------------------------------------------

Implémenter les actions nécessaires pour obtenir le code Soundex d'un mot **supposé ici sans lettre "spéciale"**, c'est à dire ne contenant que des lettres ASCII. Ce mot sera stocké dans la variable `mot`. Nous avons mis `mot = "animalits"`, sans accent, à titre de test.


Le début de code qui vous est fourni utilise le type de variable `dict`, c'est à dire le type dictionnaire de Python. Ceci permet d'associer des clés à des valeurs. Indiquons aussi que `lettre_vers_code = {}` définit un dictionnaire vide qui pourra ensuite être rempli pas à pas.

In [None]:
# ----------------------- #
# -- À VOUS DE JOUER ! -- #
# ----------------------- #

# Compléter les points de suspension.


# --------------------------------------------------- #
# -- DICTIONNAIRE ASSIOCIANT UNE LETTRE À SON CODE -- #
# --------------------------------------------------- #

table = {
    "1": "BP",
    "2": "CKQ",
    "3": "DT",
    "4": "L",
    "5": "MN",
    "6": "R",
    "7": "GJ",
    "8": "XZS",
    "9": "FV"
}

lettre_vers_code = {}

# La ligne suivante permet de parcourir un dictionnaire en obtenant
# conjointement une clé et sa valeur. C'est le rôle de la méthode `items`.
for code, deslettres in table.items():
# Pour chaque code, on extrait chaque caractère ayant ce code, créant
# ainsi un nouveau dictionnaire dont les clés sont des lettres et les
# valeurs des codes.
    for unelettre in deslettres:
        lettre_vers_code[unelettre] = code

# `lettre_vers_code` est un dictionnaire du type suivant :
# {
#     'B': '1',
#     'C': '2',
#     'G': '7',
#     'K': '2',
#     ... etc.


# ----------------------------------- #
# -- FABRICATION D'UN CODE SOUNDEX -- #
# ----------------------------------- #

def soundex(mot):
    ...
    

# ----------------- #
# -- APPLICATION -- #
# ----------------- #

# Robert    ---> R163
# Rupert    ---> R163
# Rubin     ---> R150
# ah        ---> A000
# mammifère ---> M596
# animalité ---> A543

des_mots = [
    "Robert",
    "Rupert",
    "Rubin",
    "ah",
    "mammifere",   # Pas d'accent ici !
    "animalite"    # Pas d'accent ici !
]

for un_mot in des_mots:
    print("{0} <--- {1}".format(soundex(un_mot), un_mot))

Pour les plus rapides : proposer des corrections orthographiques
----------------------------------------------------------------

On peut ensuite utiliser les codes Soundex pour proposer des corrections orthographiques, plus ou moins pertinentes, en procédant comme suit.

1. Fabriquer un dictionnaire Python `SOUNDEX_CONNUS` qui à un code Soundex associe tous les mots connus ayant ce code Soundex. Les mots connus viendront ici de la grande liste présentée dans la section ["Palindromes"](palindrome.ipynb).
1. Pour chaque mot à vérifier, on fera ce qui suit.
    - Si le mot est connu, aucune correction n'est à proposer.
    - Dans le cas contraire, on calcule le code Soundex de ce mot, puis on propose la liste de tous les mots connus ayant aussi ce code si possible, sinon on indique que nous n'avons rien à proposer. 
    

Compléter le programme ci-dessous pour proposer des corrections relativement au mot contenu dans la variable `mot_mal_tape`. Nous redonnons en début de code le moyen de récupérer tous les mots contenus dans le fichier `motsfrancais_frgut.txt` *(cf. la section ["Palindromes"](palindrome.ipynb))*. Tous ces mosts sont stockés dans la liste `mots_connus`.

**Remarque :** si vous souhaitez aussi gérer les lettres accentuées, nous redonnons les caractères spéciaux obtenus dans la section ["Palindromes"](palindrome.ipynb) : `àâäçèéêëîïôöùûü`.

In [None]:
# ----------------------- #
# -- À VOUS DE JOUER ! -- #
# ----------------------- #

# Compléter les points de suspension.


# --------------------------------- #
# -- UNE LISTE DE MOTS EXISTANTS -- #
# --------------------------------- #

mots_connus    = []
soundex_connus = {}

with open("motsfrancais_frgut.txt", encoding="iso-8859-1") as fichier:
    for ligne in fichier:
        mot = ligne.strip()
        mot = mot.lower()
        
        mots_connus.append(mot)


# ---------------------------------------------- #
# -- CORRECTION ORTHOGRAPHIQUE VIA LE SOUNDEX -- #
# ---------------------------------------------- #

...


# ----------------- #
# -- APPLICATION -- #
# ----------------- #

mot_mal_tape = "orttografe"

...