# TP : Complexité et validité des algorithmes

Dans ce TP, nous allons :
- traduire des algorithmes simples donnés en pseudo-langage vers Python ;
- vérifier la **validité** de nos implémentations (fonctionnent-elles correctement ?) ;
- analyser leur **complexité théorique** (combien d'accès à chaque élément ?) ;
- mesurer leur **temps d'exécution** pour comparer théorie et pratique.

## Exercice 1 : Somme des `n` premiers entiers

**Pseudo-langage :**
```
Fonction(n):
    s <- 0
    pour i de 1 à n:
        s <- s + i
    retourner s
```

### Questions :
1. Expliquez selon vos propres mots ce que fait cet algorithme.
2. Implémentez et testez cet algorithme en Python sous le nom de fonction `somme`.
3. Vérifiez sa validité sur un petit exemple (`n=5`).
4. Calculez sa complexité théorique (nombre d’opérations en fonction de `n`).
5. Donnez une solution mathématique directe (formule de Gauss, voir [ici](https://jcresson.perso.univ-pau.fr/preuves.pdf)) et donnez sa complexité.
6. Implémentez cette solution en Python en lui donnant le nom de function `somme_gauss`.
7. Mesurez le temps d’exécution des fonctions `somme` et `somme_gauss` pour `n = 10^4`, `10^5`, `10^6` à l'aide du module Python `time`.
    - Que constatez-vous ?
    - La théorie est-elle confirmée par la pratique ?
8. Ré-écrivez la fonction à l'aide d'une boucle `while` plutôt qu'une boucle `for`.

1. Cette fonction calcule la somme de tous les entiers entre 1 et n.

In [5]:
#2.
def somme(n):
    s = 0
    for i in range(1, n + 1):
        s += i
    return s

#3.
print(somme(5))

#4. Complexité linéaire en O(n) -> On parcourt toute les entiers entre 1 et n une fois.

#5. Formule de Gauss : la somme des n premiers entiers est égale à S = n × (n + 1) / 2. On est donc sur une complexité en 0(1).

# 6.
def somme_gauss(n):
    return n * (n + 1) // 2

#7.
import time

def mesure_temps():
    valeurs_n = [10**4, 10**5, 10**6]
    
    for n in valeurs_n:
        # Mesure pour somme
        debut = time.time()
        result1 = somme(n)
        temps_somme = time.time() - debut
        
        # Mesure pour somme_gauss
        debut = time.time()
        result2 = somme_gauss(n)
        temps_gauss = time.time() - debut
        
        print(f"n = {n}:")
        print(f"  somme: {temps_somme:.6f}s")
        print(f"  gauss: {temps_gauss:.6f}s")
        print(f"  résultats égaux: {result1 == result2}")

mesure_temps()
# On voit donc bien que la fonction somme, qui a une complexité linéaire met plus de temps à s'exécuter.

#8.
def somme_while(n):
    s = 0
    i = 1
    while i <= n:
        s += i
        i += 1
    return s


15
n = 10000:
  somme: 0.000270s
  gauss: 0.000001s
  résultats égaux: True
n = 100000:
  somme: 0.002990s
  gauss: 0.000002s
  résultats égaux: True
n = 1000000:
  somme: 0.026175s
  gauss: 0.000002s
  résultats égaux: True


## Exercice 2 : Recherche d'un élément dans une liste

**Pseudo-langage :**
```
Fonction(L, x):
    pour i de 0 à longueur(L)-1:
        si L[i] = x:
            retourner i
    retourner -1
```

### Questions :
1. Expliquez avec vos propres mots ce que fait cette fonction.
2. Implémentez et testez la fonction en Python.
3. Vérifiez sa validité.
4. Analysez la complexité **au pire cas**, **au meilleur cas**, et **en moyenne**.
5. Vérifiez en pratique à l'aide du module `time` que les temps du pire et du meilleur des cas encadre bien le temps d'exécution moyen.

In [None]:
#1. Cette fonction recherche un élément dans une liste et retourne son indice

#2. Implémentation et test de la fonction
def recherche_lineaire(L, x):
    for i in range(len(L)):
        if L[i] == x:
            return i
    return -1
print(recherche_lineaire([5,3,8,1,2], 2))

#3. Pour vérifier sa validité, on pose l'invariant suivant:
# P[1]: trivial.
# P[i]: Au début de chaque itération i, l'élément x n'est pas présent dans le sous-tableau L[0..i-1]
# P[i+1] est vrai si P[i] l'est : car soit i+1 est égal à x, et dans ce cas on sort et la fonction retourne bien l'index. 
# Soit i+1 =/= x, dt donc x n'est pas présent dans le sous-tableau L[0..i]. CQFD.
#4. On a la complexité : O(1) = c'est le premier élément; O(n) c'est le dernier élément; O(n/2) pour l'élément du milieu.

#5.
import time

def mesure_temps_recherche():
    n = 1000000
    L = list(range(n))  # Liste [0, 1, 2, ..., n-1]
    
    # Meilleur cas : recherche du premier élément
    debut = time.time()
    recherche_lineaire(L, 0)
    temps_meilleur = time.time() - debut
    
    # Pire cas : recherche d'un élément absent
    debut = time.time()
    recherche_lineaire(L, -1)
    temps_pire = time.time() - debut
    
    # Cas moyen : recherche d'un élément au milieu
    debut = time.time()
    recherche_lineaire(L, n // 2)
    temps_moyen = time.time() - debut
    
    print("Temps d'exécution :")
    print(f"Meilleur cas (premier élément): {temps_meilleur:.6f}s")
    print(f"Cas moyen (élément milieu)   : {temps_moyen:.6f}s") 
    print(f"Pire cas (élément absent)    : {temps_pire:.6f}s")

mesure_temps_recherche()
# On confirme donc nos calculs de complexité

4
Temps d'exécution :
Meilleur cas (premier élément): 0.000007s
Cas moyen (élément milieu)   : 0.008843s
Pire cas (élément absent)    : 0.019429s


## Exercice 3 : Recherche dichotomique dans une liste

**Pseudo-langage :**
```
Fonction(L triée, x):
    gauche <- 0
    droite <- longueur(L)-1
    tant que gauche <= droite:
        milieu <- (gauche+droite)//2
        si L[milieu] = x:
            retourner milieu
        sinon si L[milieu] < x:
            gauche <- milieu+1
        sinon:
            droite <- milieu-1
    retourner -1
```

### Questions :
1. Expliquez avec vos propres mots ce que fait cette fonction.
2. Implémentez cette fonction en Python.
3. Vérifiez la validité.
4. Analysez sa complexité théorique en O.
5. Implémentez la fonction `recherche_lineaire` qui cherche linéairement si la valeur `x` est présente dans la liste triée L. 
6. Analysez la complexité de la fonction `recherche_lineaire`.
7. Comparez expérimentalement la recherche linéaire et la recherche dichotomique.

In [27]:
#1. Cette fonction recherche un élément x dans une liste triée L en utilisant le principe "diviser pour régner". À chaque étape, elle compare l'élément du milieu avec x et élimine la moitié du tableau où x ne peut pas se trouver.

#2. 
def recherche_dichotomique(L, x):
    gauche = 0
    droite = len(L) - 1
    
    while gauche <= droite:
        milieu = (gauche + droite) // 2
        if L[milieu] == x:
            return milieu
        elif L[milieu] < x:
            gauche = milieu + 1
        else:
            droite = milieu - 1
    return -1

#3. On pose l'invariant de boucle suivant:
"""
    P[i]: "À chaque début itération i, si x est présent dans L, alors il se trouve dans l'intervalle [gauche, droite]"
    
    Preuve de correction :
    1. P[1] : gauche=0, droite=len(L)-1 → intervalle couvre toute la liste
    2. P[i] => P[i+1]:
       - Si L[milieu] = x → trouvé, retour correct
       - Si L[milieu] < x → x ne peut être que dans [milieu+1, droite] (liste triée, gauche < milieu+1) => donc P[i+1] est vrai
       - Si L[milieu] > x → x ne peut être que dans [gauche, milieu-1] (liste triée, droite > milieu-1) => donc P[i+1] est vrai
    3. Terminaison :
       - Si retour dans boucle → x trouvé (correct)
       - Si gauche > droite → intervalle vide, x absent (correct)
"""

#4. Complexité : O(log n)
# À chaque itération, la taille de la zone de recherche est divisée par 2
# Nombre maximum d'itérations : log₂(n)

#5. Il s'agit de la fonction précédente, soit que cette fois on fait l'hypothèse
# d'une liste triée pour être à "égalité" lors de la comparaison avec le tri dichotomique.
def recherche_lineaire_triee(L, x):
    for i in range(len(L)):
        if L[i] == x:
            return i
        # si on dépasse x, on peut arrêter
        elif L[i] > x:
            return -1
    return -1

#6. Sa complexité est en O(n) dans le pire des cas (on parcourt toute la liste) et le cas moyen (on parcourt la moitié de la liste, soit n/2), en O(1) sinon.
import time
import random

def comparaison_recherches():
    # Création d'une grande liste triée
    n = 10000000
    L = sorted(random.sample(range(n * 2), n))
    
    # Différents cas de test
    cas_test = [
        ("meilleur", L[0]),           # Premier élément
        ("moyen", L[n // 2]),         # Élément milieu
        ("pire", L[-1]),              # Dernier élément
    ]
    
    print("Comparaison recherche linéaire vs dichotomique:")
    print(f"Taille liste: {n} éléments")
    print("-" * 60)
    
    for nom, x in cas_test:
        # Recherche linéaire
        debut = time.time()
        result_lin = recherche_lineaire_triee(L, x)
        temps_lin = time.time() - debut
        
        # Recherche dichotomique
        debut = time.time()
        result_dich = recherche_dichotomique(L, x)
        temps_dich = time.time() - debut
        
        print(f"{nom:8} | linéaire: {temps_lin:.6f}s | dichotomique: {temps_dich:.6f}s | Différence temporelle (linéaire-dichotomique): {temps_lin-temps_dich}")

comparaison_recherches()

# On trouve des résultats très cohérents : on a la recherche linéaire plus performante dans le cas meilleur (O(1)).
# On a des résultats meilleurs avec la recherche dichotomique dans le pire et le cas moyen.


Comparaison recherche linéaire vs dichotomique:
Taille liste: 10000000 éléments
------------------------------------------------------------
meilleur | linéaire: 0.000002s | dichotomique: 0.000014s | Différence temporelle (linéaire-dichotomique): -1.1682510375976562e-05
moyen    | linéaire: 0.102902s | dichotomique: 0.000010s | Différence temporelle (linéaire-dichotomique): 0.10289192199707031
pire     | linéaire: 0.195191s | dichotomique: 0.000006s | Différence temporelle (linéaire-dichotomique): 0.19518542289733887


## Exercice 4 : Maximum d'une liste

**Pseudo-langage :**
```
Fonction(L):
    max <- L[0]
    pour i de 1 à longueur(L)-1:
        si L[i] > max:
            max <- L[i]
    retourner max
```

### Questions :
1. Expliquez avec vos propres mots ce que fait cette fonction.
2. Implémentez et testez la fonction en Python.
2. Vérifiez la validité de la fonction.
3. Analysez la complexité théorique.
4. Comparez expérimentalement l'efficacité de cette fonction avec celle de la fonction Python `max()`.

In [28]:
#1. Cette fonction parcourt la liste et maintient la valeur maximale rencontrée.
#  Elle compare chaque élément avec le maximum courant et le met à jour si nécessaire (c'est à dire si on trouve un élément plus grand).

#2. 
def maximum_liste(L):
    if len(L) == 0:
        raise ValueError("La liste ne peut pas être vide")
    
    max_val = L[0]
    for i in range(1, len(L)):
        if L[i] > max_val:
            max_val = L[i]
    return max_val

#3. On pose l'invariant de boucle suivant:
"""
P[i] = "Au début de chaque itération i, max_val contient le maximum du sous-tableau L[0..i-1]"

P[1] : max_val = L[0] → maximum de L[0..0]

P[i] => P[i+1]:
    Si L[i] > max_val, alors max_val = L[i] → maximum de L[0..i]
    Sinon, max_val reste inchangé → maximum de L[0..i]

Terminaison: max_val contient le maximum de L[0..len(L)-1]
"""

#4. La complexité théorique est en O(n), car on parcourt l'ensemble des éléments dans la liste.

#5. Comparaison avec la fonction built-in Python
import time
import random

def comparaison_max():
    tailles = [10**3, 10**4, 10**5, 10**6]
    
    print("Comparaison recherche linéaire vs max() natif:")
    print("Taille | Notre max | max() natif | Différence (linéaire-natif)")
    print("-" * 50)
    
    for taille in tailles:
        # Création d'une liste aléatoire
        L = [random.randint(-1000000, 1000000) for _ in range(taille)]
        
        # Notre implémentation
        debut = time.time()
        result1 = maximum_liste(L)
        temps_notre = time.time() - debut
        
        # max() natif de Python
        debut = time.time()
        result2 = max(L)
        temps_natif = time.time() - debut
        
        # Vérification que les résultats sont identiques
        assert result1 == result2, "Résultats différents!"
        
        diff = (temps_notre - temps_natif) if temps_natif > 0 else float('inf')
        
        print(f"{taille:7} | {temps_notre:.6f}s | {temps_natif:.6f}s | {diff:.3f}")

comparaison_max()
# On voit que plus la liste est grande, plus l'approche naïve devient inefficace face à la méthode implémentée par Python

Comparaison recherche linéaire vs max() natif:
Taille | Notre max | max() natif | Différence (linéaire-natif)
--------------------------------------------------
   1000 | 0.000025s | 0.000010s | 0.000
  10000 | 0.000217s | 0.000083s | 0.000
 100000 | 0.002350s | 0.000985s | 0.001
1000000 | 0.015775s | 0.006967s | 0.009


## Bonus: Exercice 5 : Comptage de fréquences de mots

**Pseudo-langage :**
```
Fonction(texte):
    dictionnaire <- vide
    pour chaque mot dans texte:
        si mot dans dictionnaire:
            dictionnaire[mot] <- dictionnaire[mot] + 1
        sinon:
            dictionnaire[mot] <- 1
    retourner dictionnaire
```

### Questions :
1. Expliquez avec vos propres mots ce que fait cette fonction. 
2. Implémentez et testez cette fonction en Python.
2. Vérifiez la validité sur un petit texte.
3. Analysez la complexité théorique (en fonction du nombre de mots).
4. Comparez les performances de cette fonction avec la fonction `collections.Counter` ([documentation ici](https://docs.python.org/3/library/collections.html#collections.Counter)).