# <center> TP : Complexité - Correction <center>

In [None]:
from random import randint
from time import time

# Pour dessiner des courbes
from matplotlib.pyplot import plot, show, legend, xlabel, ylabel

Un tableau `tab1` est inclus dans un tableau `tab2` si tous les éléments de `tab1` sont aussi des éléments de `tab2`. 

Par exemple, `[1, 2, 3]` est inclus dans  `[3, 2, 1]`, mais
`[1, 1, 2, 1, 2]` est aussi inclus `[3, 2, 1]`, alors que `[4]`n'est pas inclus dans `[3,2,1]`.

Le but de ce TP est d'implémenter deux algorithmes permettant de déterminer, étant donnés deux tableaux `tab1`et `tab2`, si `tab1` est inclus dans `tab2`.

## Exercice 1 : Appartenance d'un élément à un tableau

### Question 1

Définir la fonction `appartient` prenant en paramètres une valeur `val` et un tableau `tab` et retournant `True` si la valeur `val` est dans le tableau `tab`, et `False` sinon.

In [None]:
##################
#   Correction   #
##################


def appartient(val, tab):
    """Retourne True si val est une valeur du tableau tab, False sinon."""
    i = 0
    while i < len(tab) and tab[i] != val:
        i += 1
    return i < len(tab)

### Question 2

Définir une fonction de tests unitaires de la fonction `appartient`.

In [None]:
##################
#   Correction   #
##################


def test_appartient():
    assert appartient(3, [1, 2, 3, 4])
    assert appartient(10, [10, 20, 30, 40, 50])
    assert appartient(7, [1, 2, 3, 4, 5, 6, 7])
    assert appartient(42, [42])
    assert not appartient(6, [1, 2, 3, 4, 5])
    assert not appartient(6, [])
    print("test de la fonction appartient : ok")


test_appartient()

### Question 3

Quelle est la complexité asymptotique de la fonction `appartient` ?

**CORRECTION :**


La fonction a une complexité linéaire dans le pire des cas.

En effet, dans le pire cas, on parcourt tous les éléments du tableau. Pour chaque élément/itération, on fait 5 opérations élémentaires (2 comparaisons, un opérateur logique `and`, une addition et une affectation). 

Dans le pire cas, la complexité asymptotique de la fonction `appartient` est donc bien en $O(n)$ où $n$ est la taille du tableau.

## Exercice 2 : Générateur aléatoire de tableaux

Définir une fonction `gen_tab_int(n, mini, maxi)` retournant un tableau de `n` nombres entiers aléatoires compris entre `mini` et `maxi` inclus. La fonction doit vérifier les tests unitaires ci-dessous.

In [None]:
##################
#   Correction   #
##################


def gen_tab_int(n, mini, maxi):
    """Retourne un tableau de n cases contenant des nombres entiers aléatoires 
    compris entre min et max inclus.
    """
    t = []
    i = 0
    while i < n:
        t.append(randint(mini, maxi))
        i += 1
    return t

In [None]:
def test_gen_tab_int():
    assert gen_tab_int(0, 1, 10) == []
    assert gen_tab_int(1, 1, 1) == [1]
    assert gen_tab_int(6, 4, 4) == [4, 4, 4, 4, 4, 4]
    tab = gen_tab_int(400, 0, 1)
    assert len(tab) == 400
    i = 0
    while i < 400:
        assert tab[i] == 0 or tab[i] == 1
        i += 1

    print("Test de la fonction gen_tab_int : ok")


test_gen_tab_int()

## Exercice 3 : Courbes de performance de tests d'appartenance d'un élément à un tableau

Le but de cet exercice est de mesurer le temps d'exécution nécessaire pour déterminer si un élément appartient à un tableau. 

On souhaite déterminer ce temps pour différentes tailles de tableaux et différents cas : 
* pire cas : quand l'algorithme met le plus de temps (à vous de déterminer ce pire cas) ;
* lorsque l'on cherche la valeur $1$ dans un tableau aléatoire contenant uniquement des entiers entre $1$ et $100$ ;
* lorsque l'on cherche la valeur $1$ dans un tableau aléatoire contenant uniquement des entiers entre $1$ et $1\,000\,000$.

On souhaite ensuite dessiner les courbes de temps d'exécution en fonction de la taille de l'instance pour visualiser plus facilement les résultats.

### Question 1

Définir la fonction `mesure_appartient` prenant en paramètres 4 entiers `n`, `val`, `mini` et `maxi`. La fonction retournera le temps d'exécution nécessaire pour déterminer si la valeur `val` appartient au tableau généré aléatoirement avec la fonction `gen_tab_int` pour les valeurs `n`, `mini` et `maxi`.

**Attention :** La fonction calculera le temps moyen de recherche sur 20 mesures. Chaque mesure se fera sur un tableau aléatoire différent (un appel de `gen_tab_int` doit être fait pour chaque mesure). De plus, elle ne prendra pas en compte le temps nécessaire pour la création du tableau.

In [None]:
##################
#   Correction   #
##################


def mesure_appartient(n, val, mini, maxi):
    """Retourne le temps d'exécution en ms de la fonction appartient.
    Les mesures se font sur des tableaux de taille n avec des entiers 
    aléatoires compris entre mini et maxi.
    Le temps retournée est une moyenne de 20 mesures.
    """
    tps = 0.  # temps d'exécutions cumulés
    nb_mesures = 20 
    i = 0
    while i < nb_mesures:
        # on engendre un tableau aléatoire
        tab = gen_tab_int(n, mini, maxi)
        
        # on calcule le temps de cette exécution de appartient
        depart = time()
        appartient(val, tab)
        fin=time()
        
        #on ajoute au total des temps d'exécution 
        tps += fin - depart
        i += 1
        
    #on retourne la moyenne arrondie au millière de ms
    return round(1000 * tps / nb_mesures, 3)

print(mesure_appartient(1000,1,1,1000))

### Question 2

Définir la fonction `mesure_appartient_multiples` prenant en paramètres un tableau d'entiers `taille` et 3 entiers `val`, `mini` et `maxi`. Le tableau `taille` contiendra les différentes tailles de tableaux pour lesquelles on souhaite mesurer le temps d'exécution de la fonction `appartiennt`. 

La fonction retournera un tableau contenant les mesures pour les différentes tailles (la `i`-ème case du tableau retourné contiendra le temps d'exécution pour tester l'appartenance de `val` pour un tableau avec `taille[i]` éléments).

On utilisera pour cela la fonction `mesure_appartient` définie à la question précédente.

In [None]:
##################
#   Correction   #
##################


def mesure_appartient_multiples(tailles, val, mini, maxi):
    """Mesure les temps d'exécution de la fonction appartient 
    pour toutes les tailles de tableaux indiquées dans tailles. 
    Retourne un tableau tel que la ième valeur correspond à l
    a mesure du temps d'exécution pour un tableau de taille tailles[i]
    
    :param tailles: tableau contenant les tailles de tableaux à tester    
    """
    temps = []
    i = 0
    while i < len(tailles):
        temps.append(mesure_appartient(tailles[i], val, mini, maxi))
        i += 1
    return temps

### Question 3 : Courbes des temps d'exécution. 

On teste la fonction `appartient` pour les tailles de tableaux suivantes : $100$, $1\,000$, $10\,000$, $20\,000$, $50\,000$. 
On cherche toujours la valeur $1$ dans le tableau. On teste $4$ cas  de figure: 
* pire cas (que vous devez déterminer),
* facile : le tableau contient des nombres aléatoires entre $1$ et $100$,
* moyen : le tableau contient des nombres aléatoires entre $1$ et $10\,000$,
* difficile : le tableau contient des nombres aléatoires entre $1$ et $100\,000$.

L'objectif est de tracer les courbes d'exécution dans ces différents cas pour les tableaux décrits.

Pour tracer un graphique, on utilise la fonction `plot` comme dans l'exemple ci-dessous.

In [None]:
%matplotlib inline

x = [1, 2, 3, 4, 5, 6, 7, 8]
y1 = [10, 20, 30, 20, 10, 20, 30, 20]
y2 = [15, 25, 15, 25, 15, 25, 15, 25]
plot(x, y1, "b", label="Courbe y1")
plot(x, y2, "g", label="Courbe y2")
xlabel("Valeurs de x")
ylabel("Valeurs de y")
legend()

In [None]:
##################
#   Correction   #
##################
%matplotlib inline

tailles = [100, 1000, 10000, 20000, 50000]

pire_cas = mesure_appartient_multiples(tailles, 1, 2, 2)
tab_1_100 = mesure_appartient_multiples(tailles, 1, 1, 100)
tab_1_10000 = mesure_appartient_multiples(tailles, 1, 1, 10000)
tab_1_100000 = mesure_appartient_multiples(tailles, 1, 1, 100000)

plot(tailles, pire_cas, "r", label="pire cas")
plot(tailles, tab_1_100, "g", label="Valeurs entre 1 et 100")
plot(tailles, tab_1_10000, "b", label="Valeurs entre 1 et 10000")
plot(tailles, tab_1_100000, "m", label="Valeurs entre 1 et 100000")
xlabel("Taille du tableau")
ylabel("Temps en millisecondes pour l'appartenance")
legend()

## Exercice 4 : Inclusion de tableaux

### Question 1

Définir la fonction `inclus` prenant en paramètres deux tableaux `tab1` et `tab2` et retournant `True` si `tab1` est inclus dans `tab2`, et `False` sinon (au sens de l'inclusion définie tout au début du TP).

La fonction doit vérifier les tests unitaires définis ci-dessous.

In [None]:
##################
#   Correction   #
##################

def inclus(tab1, tab2):
    """Retourne True si tous les éléments de tab1 sont 
    aussi des éléments de tab2, et False sinon."""
    i = 0
    while i < len(tab1) and appartient(tab1[i], tab2):
        i += 1
    return i == len(tab1)

In [None]:
def test_inclus():
    assert inclus([1, 2, 3], [3, 2, 1])
    assert inclus([], [])
    assert inclus([1, 1, 2, 1, 2], [3, 2, 1])
    assert not inclus([1], [2, 3, 4, 5, 6])
    assert not inclus([1, 10, 19, 20], [1, 19, 20, 19, 1, 20])
    print("Test de la fonction inclus : ok")


test_inclus()

### Question 2

Quelle est la complexité asymptotique de la fonction `inclus` ?

**CORRECTION :**


Pour chaque valeur de `tab1`, on parcourt dans le pire des cas toutes les valeurs de `tab2`. On a donc une complexité $O(n*m)$ si $n$ et $m$ sont respectivement les tailles de `tab1` et `tab2`. On a donc une complexité quadratique dans le pire cas. 

### Question 3

Définir les fonctions `mesure_inclus` et `mesure_inclus_multiples` en vous aidant des définitions des fonctions `mesure_appartient` et `mesure_appartient_multiples`. Chaque mesure sera faite avec deux  tableaux de même taille contenant des entiers aléatoires entre `mini` et `maxi`.

Afficher les courbes de temps d'exécution pour les tailles de tableaux $100$, $1\,000$, $2\,000$, $5\,000$, $7\,500$.
On testera 4 cas : 
* les tableaux contiennent des nombres aléatoires entre $1$ et $100$,
* les tableaux contiennent des nombres aléatoires entre $1$ et $500$,
* les tableaux contiennent des nombres aléatoires entre $1$ et $1\,000$,
* les tableaux contiennent des nombres aléatoires entre $1$ et $2\,000$.

In [None]:
##################
#   Correction   #
##################


def mesure_inclus(n, mini, maxi):
    """Retourne le temps d'exécution en ms de la fonction inclus.
    Les mesures se font sur des tableaux de taille n avec des entiers 
    aléatoires compris entre mini et maxi.
    Le temps retournée est une moyenne de 20 mesures.
    """
    tps = 0.
    nb_mesures = 20
    i = 0
    while i < nb_mesures:
        tab1 = gen_tab_int(n, mini, maxi)
        tab2 = gen_tab_int(n, mini, maxi)
        depart = time()
        inclus(tab1, tab2)
        fin=time()
        tps += fin - depart
        i += 1
    return round(1000 * tps / nb_mesures, 3)

In [None]:
##################
#   Correction   #
##################

def mesure_inclus_multiples(tailles, mini, maxi):
    temps = []
    i = 0
    while i < len(tailles):
        temps.append(mesure_inclus(tailles[i], mini, maxi))
        i += 1
    return temps

In [None]:
##################
#   Correction   #
##################

%matplotlib inline

tailles = [100, 1000, 2000, 5000, 7500]

tab_1_100 = mesure_inclus_multiples(tailles, 1, 100)
tab_1_500 = mesure_inclus_multiples(tailles, 1, 500)
tab_1_1000 = mesure_inclus_multiples(tailles, 1, 1000)
tab_1_2000 = mesure_inclus_multiples(tailles, 1, 2000)

plot(tailles, tab_1_100, "g", label="Valeurs entre 1 et 100")
plot(tailles, tab_1_500, "b", label="Valeurs entre 1 et 500")
plot(tailles, tab_1_1000, "m", label="Valeurs entre 1 et 1000")
plot(tailles, tab_1_2000, "y", label="Valeurs entre 1 et 2000")
xlabel("Taille du tableau")
ylabel("Temps en millisecondes pour l'inclusion")
legend()

## Exercice 5 : Test d'inclusion lorsque le nombre de valeurs distinctes est faible

Lorsque les tableaux contiennent peu de valeurs distinctes, on peut définir un algorithme plus rapide pour tester l'inclusion.
Pour simplifier, on suppose que les deux tableaux contiennent uniquement des nombres entiers aléatoires entre $1$ et $1\,000$ inclus.

L'algorithme "rapide" est le suivant : 
1. Créer un tableau auxiliaire `aux` de $1\,001$ cases contenant toutes la valeur `False`. 
2. Parcourir le tableau `tab2` pour mettre à jour le tableau `aux` : à la fin du parcours, `aux[i]` doit être égal à `True` si `i` est un entier de `tab2`, et `False` sinon.
3. Déterminer grâce au tableau `aux` si `tab1` est inclus dans `tab2`.

### Question 1

Définir la fonction `inclus_rapide` implémentant l'algorithme "rapide" de test d'inclusion. (On suppose que les tableaux contiennent des entiers entre $1$ et $1\,000$). 

La fonction doit vérifier les tests unitaires ci-dessous.

In [None]:
##################
#   Correction   #
##################


def inclus_rapide(tab1, tab2):
    """Retourne True si tab1 est inclus dans tab2.
    L'algorithme utilise un tableau auxiliaire pour accélérer 
    la recherche.
    
    Attention : les tableaux tab1 et tab2 doivent uniquement contenir des entiers entre 1 et 1000.
    """
    # Initialisation du tableau aux
    aux = []
    i = 0
    while i <= 1000:
        aux.append(False)
        i += 1

    # Parcours de tab2 et mise à jour du tableau aux en fonction
    i = 0
    while i < len(tab2):
        aux[tab2[i]] = True
        i += 1

    # Test de l'inclusion grâce au tableau aux
    i = 0
    while i < len(tab1) and aux[tab1[i]]:
        i += 1
    return i == len(tab1)

In [None]:
def test_inclus_rapide():
    assert inclus_rapide([1, 2, 3], [3, 2, 1])
    assert inclus_rapide([], [])
    assert inclus_rapide([1, 1, 2, 1, 2], [3, 2, 1])
    assert not inclus_rapide([1], [2, 3, 4, 5, 6])
    assert not inclus_rapide([1, 10, 19, 20], [1, 19, 20, 19, 1, 20])
    print("Test de la fonction inclus_rapide : ok")


test_inclus_rapide()

### Question 2

Quelle est la complexité asymptotique de l'inclusion "rapide" ?

**CORRECTION :**

L'algorithme a une complexité linéaire : 
1. La création d'un tableau contenant $1\,001$ cases initialisées à `False` se fait en temps constant (On fait un nombre constant d'appels à la fonction `append` qui peut être considérée comme une opération élémentaire).
2. La mise à jour du tableau `aux` se fait en temps linéaire. On parcourt toutes les cases du tableau `tab2`. Pour chaque case, on fait un nombre constant d'opérations élémentaires.
3. Le test consiste à parcourir le tableau `tab1` et à vérifier que `aux[tab[i]]` vaut `True`. Le test se fait en temps constant donc cette étape se fait en temps linéaire.

### Question 3

Définir les fonctions `mesure_inclus_rapide` et `mesure_inclus_rapide_multiples` puis afficher les courbes des temps d'exécution des deux algorithmes de test d'inclusion. 

Les mesures seront faites pour des tableaux de taille $100$, $200$, $500$, $1\,000$, $5\,000$ et $7\,500$.

In [None]:
##################
#   Correction   #
##################


def mesure_inclus_rapide(n):
    """Retourne le temps d'exécution en ms de la fonction inclus_rapide.
    Les mesures se font sur des tableaux de taille n avec des entiers aléatoires compris 
    entre mini et maxi.
    Le temps retournée est une moyenne de 20 mesures.
    """
    tps = 0.
    nb_mesures = 20
    i = 0
    while i < nb_mesures:
        tab1 = gen_tab_int(n, 1, 1000)
        tab2 = gen_tab_int(n, 1, 1000)
        depart = time()
        inclus_rapide(tab1, tab2)
        fin=time()
        tps += fin - depart
        i += 1
    return round(1000 * tps / nb_mesures, 3)


def mesure_inclus_rapide_multiples(tailles):
    temps = []
    i = 0
    while i < len(tailles):
        temps.append(mesure_inclus_rapide(tailles[i]))
        i += 1
    return temps

In [None]:
##################
#   Correction   #
##################
%matplotlib inline

tailles = [100, 200, 500, 1000, 5000, 7500]

tab_classique = mesure_inclus_multiples(tailles, 1, 1000)
tab_fast = mesure_inclus_rapide_multiples(tailles)

plot(tailles, tab_classique, "g", label="Inclusion classique")
plot(tailles, tab_fast, "b", label="Inclusion rapide")

xlabel("Taille du tableau")
ylabel("Temps en millisecondes pour l'inclusion")
legend()