# <center> Chapitre 1 : Complexité </center>

De manière générale, un algorithme effectue un traitement sur des données.

S'il produit le résultat escompté, on dit que l'algorithme est *correct*.

Mais cela ne suffit pas. On veut que l'algorithme soit *efficace*, c'est-à-dire
que le temps de calcul du résultat soit raisonnable.

## Plusieurs chemins mènent à Rome, mais...

Il y a toujours plusieurs façons d'arriver au résultat ; ou dit autrement,
plusieurs stratégies pour résoudre un problème.

Prenons un exemple simple.
On veut prendre le premier élément d'un tableau et le mettre à la fin.
C'est ce qu'on appelle un décalage circulaire.

Si le tableau de départ est $[1, 2, 3, 4, 5]$ le résultat voulu est donc
$[2, 3, 4, 5, 1]$.

On peut imaginer la stratégie suivante : on échange les 1er et 2e éléments,
les 2e et 3e, les 3e et 4e, et ainsi de suite jusqu'au dernier.

In [None]:
t = [1,2,3,4,5]

i = 0
while i < len(t)-1:
    tmp = t[i]
    t[i] = t[i+1]
    t[i+1] = tmp
    i += 1
    
print(t)

Une deuxième méthode est de sauver le premier élément dans une variable,
décaler tous les éléments d'une case vers la gauche, et écrire l'élément
sauvé en dernière position.

In [None]:
t = [1,2,3,4,5]

tmp = t[0]
i = 0
while i < len(t)-1:
    t[i] = t[i+1]
    i += 1
t[len(t)-1] = tmp

print(t)

Les deux programmes sont corrects ; lequel est le plus rapide ?

## Mesure des performances avec `time`

La bibliothèque `time` fournit un chronomètre qui permet de
mesurer le temps de calcul. Il suffit d'inclure dans le programme
la ligne

In [1]:
from time import time

lancer le chrono au début du programme et l'arrêter à la fin.
On fait ensuite la différence entre les temps de départ et d'arrivée.

On va chronométrer par exemple la création d'un tableau.

In [211]:
n = 10000              # la taille du tableau voulu
tic = time()           # top départ

t = []
i = 0
while i < n:
    t.append(i)
    i+=1
    
tac = time()           # arrêt du chrono

#print(tac-tic)                    # en secondes
print(round(1000*(tac-tic),2))     # on convertit en ms et on arrondit au centième

1.74


En exécutant plusieurs fois, on constate que le temps n'est pas toujours
le même. En effet, plusieurs processus sont actifs en permanence sur la
machine (applications en tâche de fond, interface graphique, réseau...)
et peuvent mobiliser le processeur.

Néanmoins, après plusieurs essais on peut se faire une idée du temps
d'exécution du programme. Il faut sinon lancer plusieurs l'algorithme et faire la moyenne des temps d'exécution.

## Nombre d'opérations et taille des données

Mettons que l'on veuille créer un tableau dix fois plus gros, de 100 000
éléments. Comment le temps de calcul va s'en ressentir ? (essayer ci-dessus)

Le temps est approximativement multiplié par 10.
Pouvait-on le prévoir ?
Oui, en comptant le *nombre d'opérations* que le programme doit effectuer.
Il y a $n$ itérations et on fait 3 opérations dans la boucle (test, ajout, incrément).
On fait donc 3*n opérations au total. Soit 30 000 opérations quand $n$ = 10 000,
et 300 000 quand $n$ = 100 000. Dix fois plus d'opérations donc dix fois plus
de temps.

**Remarque :** on ne compte pas les 2 initialisations qui sont faites une fois,
car 2 est négligeable devant 3*$n$ quand $n$ est grand.

Et c'est le cas $n$ grand qui nous intéresse, parce qu'en pratique les données
sont de grande taille, et parce qu'on veut prévoir l'évolution des performances
quand cette taille augmente.

L'estimation du nombre d'opérations en fonction de la taille des données $n$
pour $n$ grand s'appelle aussi *performance asymptotique* ou **complexité**
de l'algorithme.

## Retour au décalage circulaire

Appliquons au tableau que l'on vient de créer nos deux stratégies
de décalage circulaire.

Pour calculer la complexité, comptons le nombre d'opérations dans
la boucle :

- 6 dans le premier cas (comparaison, 3 affectations, calcul de $i+1$ et incrément)
- 4 dans le deuxième (deux affectations en moins)

Le nombre d'opérations sera respectivement 6$n$ et 4$n$ et on
prévoit que la deuxième méthode est plus efficace.

In [188]:
n = len(t)
tic = time()

i=0
while i < n-1:
    tmp = t[i]
    t[i] = t[i+1]
    t[i+1] = tmp
    i+=1

tac = time()

print(round(1000*(tac-tic),2))

4.45


In [216]:

tic = time()

tmp = t[0]
i=0
while i < n-1 :
    t[i] = t[i+1]
    i+=1
t[len(t)-1] = tmp
    
tac = time()

print(round(1000*(tac-tic),2))

2.58


Comme prévu, le second est un peu plus rapide.
Toutefois, ces deux programmes ont quelque chose en commun.

## Complexité linéaire
 
Les programmes, comme ci-dessus, qui comportent une boucle simple avec un
nombre constant $C$ d'opérations dans la boucle (pas de boucles imbriquées
ou d'appels de fonction), font en tout $Cn$ opérations. Le temps de calcul
est donc proportionnel à $n$, autrement dit, dépend linéairement de $n$.

On dit qu'ils ont une *complexité linéaire*, ou une complexité en $O(n)$,
prononcé *grand Ô de n*.

## Complexité quadratique

Considérons maintenant le cas d'une boucle imbriquée.

Par exemple, une fonction qui calcule les tables de multiplication
jusqu'à $n*n$ et les écrit dans un tableau $t$.

In [197]:
n = 100
t = []

def tables(n,t):
    i = 1
    while i < n:
        j = 1
        while j < n:
            res = i*j
            t.append(str(i) + "*" + str(j) + "=" + str(res))
            j += 1
        i += 1
        
tic = time()
tables(n,t)
tac = time()
print(round(1000*(tac-tic),2))

15.9


Ici, il faut déjà faire $Cn$ opérations pour remplir la table de $i$
(d' $i*1$ à $i*n$), et cela $n$ fois pour aller jusqu'à la table de $n$.
 
Le nombre d'opérations est donc $Cn^2$.
Et en effet, quand on multiplie $n$ par 10, le temps est multiplié par 100 !
 
On dit que la complexité est *quadratique* ou en $O(n^2)$.

## Complexité dans le pire des cas

En général, le nombre d'opérations dépend non seulement de la taille des données,
mais des données elles-mêmes (on dit aussi : de l'instance).

Supposons par exemple qu'on recherche un élément particulier dans un tableau de taille $n$.
Avec de la chance, c'est-à-dire sur un jeu de données particulièrement heureux,
l'élément est trouvé du premier coup et le programme s'arrête après une opération.

Mais il est plus intéressant de prévoir la performance pour un jeu de données
défavorable ou *complexité dans le pire des cas*. Dans l'exemple de la recherche,
le pire des cas se produit quand l'élément n'est pas trouvé ou trouvé en dernier,
ce qui oblige à parcourir le tableau entier ; la complexité est donc $O(n)$.