# TP n° 9

## Retour aux bases

On redonne les fonctions de tris (étudiées précédemment) qui pourront servir en cas de besoin:

In [1]:
def tri_sélection(t, croissant=True, clé_de_tri=None):
    """Trie le tableau t.
    
    Le paramètre optionnel croissant est un booléen indiquant s'il faut trier dans l'ordre
    croissant ou non. Par défaut (si le paramètre n'est pas inclus), le tri se fera dans
    l'ordre croissant.
    
    Le paramètre optionnel clé_de_tri doit être None (s'il n'y en a pas) ou bien une fonction
    renvoyant une valeur qui servira à la comparaison des données. En cas d'absence 
    (c'est-à-dire si clé_de_tri == None), l'ordre lexicographique standard sera utilisé
    """
    
    for i in range(len(t)):
        if clé_de_tri is None:
            m = t[i]
        else:
            m = clé_de_tri(t[i])
        indice_m = i
        for j in range(i + 1, len(t)):
            # Selon la valeur de croissant, il faut tester une inégalité ou l'autre: selon le cas,
            # on recherchera donc le minimum (si croissant est True) ou le maximum sur
            # la partie non triée
            if clé_de_tri is None:
                valeur = t[j]
            else:
                valeur = clé_de_tri(t[j])
            if (croissant is True and valeur < m) or (croissant is False and valeur > m):
                m = valeur
                indice_m = j
        t[i], t[indice_m] = t[indice_m], t[i]

In [2]:
def copie_triée(t, croissant=True, clé_de_tri=None):
    """Copie le tableau t, puis le trie par ordre croissant ou décroissant, selon
    la valeur du booléen 'croissant' passé en paramètre. Une fonction clé_de_tri 
    optionnelle permettant de calculer les valeurs à comparer peut être incluse.
    """
    
    # On commence par créer une copie du tableau:
    n = len(t)
    copie = [0] * n
    
    for i in range(n):
        copie[i] = t[i]
        
    # puis on la trie (le tableau 'copie' sera modifié en place)
    tri_sélection(copie, croissant, clé_de_tri)
    
    # Enfin, on renvoie la copie
    return copie

---
### Exercice  - Statistiques I

Écrire une fonction ```regroupe_valeurs(t)``` prenant en entrée un tableau ```t``` de nombres (avec potentiellement des répétitions), et renvoyant en sortie deux tableaux:
* un tableau contenant exactement un seul exemplaire de chaque valeur présente dans le tableau ```t```, dans un ordre quelconque.
* un tableau des effectifs (c'est-à-dire du nombre d'occurences) de ces valeurs dans le tableau ```t```. Il va sans dire que l'effectif pour un indice donné doit correspondre à la valeur du premier tableau au même indice.

In [3]:
def regroupe_valeurs(t):
    """Regroupe la série de nombres dans le tableau t en deux tableaux:
    - un tableau de valeurs, où chaque valeur est représentée une unique fois;
    - un tableau des effectifs correspondants.
    """
    
    # On utilise un dictionnaire pour compter les occurences
    occurences = {}
    for nombre in t:
        if nombre in occurences:
            occurences[nombre] = occurences[nombre] + 1
        else:
            occurences[nombre] = 1
            
    # Puis on crée les deux tableaux demandés:
    valeurs = []
    effectifs = []
    for v in occurences:
        valeurs.append(v)
        effectifs.append(occurences[v])
        
    return valeurs, effectifs

Testez votre fonction:

In [4]:
from random import randint

try:
    for N in range(20):
        longueur = randint(0, 100)
        t = [randint(-longueur // 10, longueur // 10) for _ in range(longueur)]
        valeurs, effectifs = regroupe_valeurs(t)
        assert len(valeurs) == len(effectifs)
        for i in range(len(valeurs)):
            assert effectifs[i] == t.count(valeurs[i])
        print("Test", N+1, "passé avec succès sur un tableau de longueur", longueur)
except AssertionError as e:
    raise e
else:
    print("Tous les tests ont été passés avec succès")

Test 1 passé avec succès sur un tableau de longueur 32
Test 2 passé avec succès sur un tableau de longueur 44
Test 3 passé avec succès sur un tableau de longueur 71
Test 4 passé avec succès sur un tableau de longueur 87
Test 5 passé avec succès sur un tableau de longueur 86
Test 6 passé avec succès sur un tableau de longueur 10
Test 7 passé avec succès sur un tableau de longueur 41
Test 8 passé avec succès sur un tableau de longueur 52
Test 9 passé avec succès sur un tableau de longueur 53
Test 10 passé avec succès sur un tableau de longueur 49
Test 11 passé avec succès sur un tableau de longueur 13
Test 12 passé avec succès sur un tableau de longueur 15
Test 13 passé avec succès sur un tableau de longueur 72
Test 14 passé avec succès sur un tableau de longueur 53
Test 15 passé avec succès sur un tableau de longueur 52
Test 16 passé avec succès sur un tableau de longueur 3
Test 17 passé avec succès sur un tableau de longueur 10
Test 18 passé avec succès sur un tableau de longueur 25
Te

---
### Exercice - Statistiques II

Reprendre l'exercice précédent, mais trier les valeurs à la sortie de la fonction par ordre croissant.

**Attention:** les effectifs devront impérativement être triés dans le même ordre puisqu'ils doivent toujours correspondre aux mêmes indices.

In [5]:
def regroupe_valeurs_triées(t):
    """Regroupe la série de nombres dans le tableau t en deux tableaux:
    - un tableau de valeurs, où chaque valeur est représentée une unique fois, triées
    dans l'ordre croissant;
    - un tableau des effectifs correspondants.
    """
    
    # On utilise un dictionnaire pour compter les occurences
    occurences = {}
    for nombre in t:
        if nombre in occurences:
            occurences[nombre] = occurences[nombre] + 1
        else:
            occurences[nombre] = 1
            
    # Puis on crée les deux tableaux demandés.
    # Plutôt que de créer d'abord les tableaux et de les trier ensuite (ce qui 
    # est compliqué car le second tableau doit se trier exactement dans le
    # même ordre que le premier), on crée d'abord le premier, on le trie, puis
    # on crée le tableau des effectifs dans le même ordre.
    valeurs = []
    for v in occurences:
        valeurs.append(v)
        
    tri_sélection(valeurs)
    
    effectifs = []
    for v in valeurs:
        effectifs.append(occurences[v])
        
    return valeurs, effectifs

La procédure de test est quasiment identique à la précédente:

In [6]:
from random import randint

try:
    for N in range(20):
        longueur = randint(0, 100)
        t = [randint(-longueur // 10, longueur // 10) for _ in range(longueur)]
        valeurs, effectifs = regroupe_valeurs_triées(t)
        assert len(valeurs) == len(effectifs)
        if len(valeurs) > 0:
            v = valeurs[0]
            for i in range(1, len(valeurs)):
                assert valeurs[i] > v
        for i in range(len(valeurs)):
            assert effectifs[i] == t.count(valeurs[i])
        print("Test", N+1, "passé avec succès sur un tableau de longueur", longueur)
except AssertionError as e:
    raise e
else:
    print("Tous les tests ont été passés avec succès")

Test 1 passé avec succès sur un tableau de longueur 86
Test 2 passé avec succès sur un tableau de longueur 47
Test 3 passé avec succès sur un tableau de longueur 72
Test 4 passé avec succès sur un tableau de longueur 88
Test 5 passé avec succès sur un tableau de longueur 57
Test 6 passé avec succès sur un tableau de longueur 53
Test 7 passé avec succès sur un tableau de longueur 26
Test 8 passé avec succès sur un tableau de longueur 90
Test 9 passé avec succès sur un tableau de longueur 100
Test 10 passé avec succès sur un tableau de longueur 96
Test 11 passé avec succès sur un tableau de longueur 28
Test 12 passé avec succès sur un tableau de longueur 24
Test 13 passé avec succès sur un tableau de longueur 22
Test 14 passé avec succès sur un tableau de longueur 7
Test 15 passé avec succès sur un tableau de longueur 35
Test 16 passé avec succès sur un tableau de longueur 60
Test 17 passé avec succès sur un tableau de longueur 35
Test 18 passé avec succès sur un tableau de longueur 91
T

---
### Exercice - Statistiques III

Écrire une fonction ```médiane(t)``` prenant en entrée un tableau de nombres, et renvoyant en sortie la médiane de cette série de nombres.

In [7]:
def médiane(t):
    """Calcule la médiane de la série de données stockée dans le tableau t.
    
    Le tableau t n'est pas modifié par l'opération.
    """
    
    rangé = copie_triée(t)
    N = len(t)
    
    if N % 2 == 1: 
        # effectif impair, la médiane est la valeur du milieu
        milieu = (N // 2) + 1
        return rangé[milieu]
    else:
        # effectif impair, la médiane est la moyenne des deux valeurs centrales
        milieu = N // 2
        return (rangé[milieu] + rangé[milieu + 1]) / 2

---
### Exercice - Statistiques IV

Reprendre et améliorer la fonction précédente afin qu'elle renvoie trois nombres: $\text{Q}_1, \text{Me}$ et $\text{Q}_3$, c'est-à-dire le premier quartile, la médiane, et le troisième quartile.

In [8]:
def quartiles(t):
    """Calcule et renvoie (dans cet ordre) le premier quartile, la médiane et
    le troisième quartile de la série de nombres passés en paramètres"""
    
    rangé = copie_triée(t)
    N = len(t)
    
    Q1 = rangé[N // 4]
    
    if N % 2 == 1: 
        # effectif impair, la médiane est la valeur du milieu
        milieu = (N // 2) + 1
        Me = rangé[milieu]
    else:
        # effectif impair, la médiane est la moyenne des deux valeurs centrales
        milieu = N // 2
        Me =  (rangé[milieu] + rangé[milieu + 1]) / 2
    
    Q3 = rangé[3*(N // 4)]
    
    return Q1, Me, Q3 

---
### Exercice - Dictionnaire français

La cellule suivante charge un fichier contenant une liste de mots de la langue française:

In [9]:
with open("mots.txt", "r") as fichier:
    mots = []
    for ligne in fichier:
        mots.append(ligne.strip()) # La fonction strip retire les espaces autour de la ligne

In [10]:
len(mots)

175693

Apparemment ce fichier contient de nombreux mots: en effet, toutes les conjugaisons possibles des verbes sont incluses, ce qui augmente énormément la taille du fichier.

#### Question 1 - Longueurs minimales et maximales

Écrire une fonction ```minmax(t)``` prenant en entrée un tableau de mots, et renvoyant en sortie la longueur minimale ainsi que la longueur maximale de chaînes dans le tableau.

In [11]:
def minmax(liste_mots):
    """Calcule les longueurs minimales et maximales des mots présents dans la liste
    passée en paramètres."""
    
    mot = liste_mots[0]
    mini = len(mot)
    maxi = len(mot)
    
    for m in liste_mots:
        if len(m) < mini:
            mini = len(m)
        if len(m) > maxi:
            maxi = len(m)
            
    return mini, maxi

Pensez à tester sur la longue liste de mots chargée précédemment !

In [12]:
minmax(mots)

(2, 25)

#### Question 2 - Regroupements par tailles de mots

Écrire une fonction ```regroupe_tailles(t)``` prenant en entrée un tableau de mots, et renvoyant en sortie un dictionnaire associant à un nombre entier la liste des mots de la longueur correspondante. Par exemple, on associera à 6 la liste de tous les mots de 6 caractères. 

In [13]:
def regroupe_tailles(liste_mots):
    """Prend en paramètre une liste de mots, et renvoie un dictionnaire assoçiant 
    à un nombre entier la liste des mots de la longueur correspondante. Seuls les mots
    effectivements présents dans la liste sont associés à des longueurs.
    """
    
    dico = {}
    for mot in liste_mots:
        longueur = len(mot)
        if longueur in dico:
            dico[longueur].append(mot)
        else:
            dico[longueur] = [mot]
            
    return dico

Pensez à tester sur la liste de mots:

In [14]:
dico = regroupe_tailles(mots)

In [15]:
# On affiche le nombre de mots pour chaque longueur
a, b = minmax(mots)
[(i, len(dico[i])) for i in range(a, b) if i in dico]

[(2, 84),
 (3, 335),
 (4, 1330),
 (5, 3942),
 (6, 8985),
 (7, 15575),
 (8, 22562),
 (9, 26833),
 (10, 27464),
 (11, 24051),
 (12, 18462),
 (13, 12125),
 (14, 7105),
 (15, 3727),
 (16, 1765),
 (17, 792),
 (18, 336),
 (19, 137),
 (20, 55),
 (21, 19),
 (22, 6),
 (23, 2)]

#### Question 3 - Anagrammes

Écrire une fonction ```anagrammes(m1, m2)``` renvoyant ```True``` si les deux mots ```m1``` et ```m2``` sont des anagrammes l'un de l'autre, ```False``` sinon.

In [16]:
def anagramme(m1, m2):
    """Teste si m1 et m2 sont des anagrammes l'un de l'autre"""
    
    # Deux mots sont des anagrammes s'ils contiennent les mêmes lettres, mais
    # pas forcément dans le même ordre. 
    
    # Une astuce consiste à comparer les mots triés:
    
    if len(m1) != len(m2):
        return False
    else:
        mt1 = copie_triée(m1)
        mt2 = copie_triée(m2)
        if mt1 == mt2:
            return True
        else:
            return False

In [17]:
anagramme("parisien", "aspirine")

True

In [18]:
anagramme("parisien", "aspirant")

False

#### Question 4 - Une recherche par anagrames

Écrire une fonction ```recherche(lettres, liste_mots)``` prenant en paramètre une liste de lettres (par exemple les lettres que l'on doit placer au Scrabble) et recherchant tous les mots de la liste de mots passée en paramètres qui sont des anagrammes de ces lettres.

In [19]:
def recherche(lettres, liste_mots):
    """Recherche tous les mots de la liste fournie qui sont des anagrammes du mot
    donné par le paramètre lettres"""
    
    anagrammes = []
    
    longueur = len(lettres)
    for m in liste_mots:
        if len(m) == longueur and anagramme(lettres, m):
            anagrammes.append(m)
            
    return anagrammes          

In [20]:
recherche("frais", mots)

['frais', 'frisa']

#### Question 5 - Une recherche plus souple

Reprendre la fonction précédente et l'améliorer de la façon suivante: on rajoute un paramètre optionnel ```dépassement``` indiquant le nombre de lettre supplémentaires que l'on autorise dans le mot trouvé. Ces lettres supplémentaires peuvent être absolument quelconques.

In [21]:
def distance_mots(m1, m2):
    """Calcule une distance entre 2 mots, de la manière suivante: toute différence
    d'une lettre (sans tenir compte de l'ordre) augmente la distance de 1."""
    
    # On calcule des dictionnaires des occurences des lettres pour les deux mots
    # On initialise une entrée pour chaque lettre de l'alphabet, avec un effectif nul.
    
    d1 = {}
    d2 = {}
    
    for lettre in "abcdefghijklmnopqrstuvwxyz":
        d1[lettre] = 0
        d2[lettre] = 0
        
    for lettre in m1:
        # Inutile de tester la présence de lettre dans d1, elle y est forcément à cause
        # de l'initialisation précédente.
        d1[lettre] = d1[lettre] + 1
        
    for lettre in m2:
        d2[lettre] = d2[lettre] + 1
        
    # À présent, on parcourt toutes les lettres de l'alphabet et on compte les différences
    # entre les deux mots, que l'on accumule pour calculer la distance demandée:
    distance = 0
    for lettre in "abcdefghijklmnopqrstuvwxyz":
        distance = distance + abs(d1[lettre] - d2[lettre])
        
    return distance

In [22]:
def recherche_améliorée(lettres, liste_mots, dépassement=0):
    """Écrire la documentation de la fonction ici"""
    
    résultat = []
    for m in liste_mots:
        if distance_mots(lettres, m) <= dépassement:
            résultat.append(m)
            
    return résultat

In [23]:
recherche_améliorée("parisien", mots)

['aspirine', 'parisien']

In [24]:
recherche_améliorée("parisien", mots, dépassement=1)

['aspirine',
 'aspirines',
 'epinais',
 'epinerais',
 'inserai',
 'inspira',
 'inspire',
 'inspirera',
 'nierais',
 'opinerais',
 'paierions',
 'pairies',
 'paniers',
 'parisien',
 'parisiens',
 'peinais',
 'peindrais',
 'peinerais',
 'pharisien',
 'pincerais',
 'prenais',
 'prisaient',
 'rapines',
 'reniais',
 'repincais',
 'sapiniere']

In [25]:
recherche_améliorée("cthulhu", mots, dépassement=3)

['chahut', 'chalut', 'chut', 'luth']

Remarquons que cela ne répond pas exactement au cahier des charges: on autorise en effet des mots plus courts (mais pas trop), alors que l'énoncé ne demandait que des mots potentiellement plus long. Il faudrait pour cela corriger la fonction de distance afin qu'un mot plus courts soit automatiquement refusé.

In [26]:
def distance_mots(m1, m2):
    """Calcule une distance entre 2 mots, de la manière suivante: toute différence
    d'une lettre (sans tenir compte de l'ordre) augmente la distance de 1.
    
    Si une lettre de m1 n'est pas dans m2 (ou avec un effectif moindre), alors
    on renvoie une distance négative égale à -1."""
    
    # On calcule des dictionnaires des occurences des lettres pour les deux mots
    # On initialise une entrée pour chaque lettre de l'alphabet, avec un effectif nul.
    
    d1 = {}
    d2 = {}
    
    for lettre in "abcdefghijklmnopqrstuvwxyz":
        d1[lettre] = 0
        d2[lettre] = 0
        
    for lettre in m1:
        # Inutile de tester la présence de lettre dans d1, elle y est forcément à cause
        # de l'initialisation précédente.
        d1[lettre] = d1[lettre] + 1
        
    for lettre in m2:
        d2[lettre] = d2[lettre] + 1
        
    # À présent, on parcourt toutes les lettres de l'alphabet et on compte les différences
    # entre les deux mots, que l'on accumule pour calculer la distance demandée:
    distance = 0
    for lettre in "abcdefghijklmnopqrstuvwxyz":
        if d2[lettre] > d1[lettre]:
            distance = distance + d2[lettre] - d1[lettre]
        elif d2[lettre] < d1[lettre]:
            return -1
        
    return distance

In [27]:
def recherche_améliorée(lettres, liste_mots, dépassement=0):
    """Écrire la documentation de la fonction ici"""
    
    résultat = []
    for m in liste_mots:
        distance = distance_mots(lettres, m)
        if 0 <= distance <= dépassement:
            résultat.append(m)
            
    return résultat

In [28]:
recherche_améliorée("parisien", mots)

['aspirine', 'parisien']

In [29]:
recherche_améliorée("parisien", mots, dépassement=1)

['aspirine',
 'aspirines',
 'epinerais',
 'inspirera',
 'opinerais',
 'paierions',
 'parisien',
 'parisiens',
 'peindrais',
 'peinerais',
 'pharisien',
 'pincerais',
 'prisaient',
 'repincais',
 'sapiniere']

In [30]:
recherche_améliorée("cthulhu", mots, dépassement=3)

[]

In [31]:
recherche_améliorée("kog", mots, dépassement=10)

['folksong',
 'folksongs',
 'kangourou',
 'kangourous',
 'kilogramme',
 'kilogrammes',
 'kilometrage',
 'kilometrages',
 'smoking',
 'smokings',
 'stockage']