# Introduction à l'optimisation du code

L'optimisation du code vise à améliorer son efficacité, principalement en réduisant le temps d'exécution ou la consommation de ressources (mémoire). Pour un développeur débutant, l'objectif n'est pas de réaliser des micro-optimisations complexes, mais de comprendre les principes fondamentaux qui peuvent avoir un impact significatif sur la performance.

**Principe Clé :** La lisibilité et la correction du code priment sur l'optimisation prématurée. N'optimisez que lorsque des goulots d'étranglement de performance ont été identifiés.

## 1. Utilisation des fonctions intégrées (`built-in`)

Python propose de nombreuses fonctions intégrées (`built-in`) qui sont implémentées en C et sont hautement optimisées. Leur utilisation est généralement plus performante et plus concise que l'implémentation manuelle de la même logique.

*Exemple : La fonction `sum()` pour calculer la somme des éléments d'une liste est plus rapide et plus lisible qu'une boucle `for` manuelle.*

In [None]:
from time import time

liste_test = range(1000000) # Grande liste pour observer les différences de performance

def calculer_somme_manuelle(liste):
    """Calcule la somme des éléments d'une liste avec une boucle for."""
    somme = 0
    for element in liste:
        somme += element
    return somme

temps_debut = time()
resultat_lent = calculer_somme_manuelle(liste_test)
temps_fin = time()
print(f"Somme manuelle: {resultat_lent}")
print(f"Temps d'exécution (manuel): {(temps_fin - temps_debut) * 1000:.2f} ms\n")

def calculer_somme_builtin(liste):
    """Calcule la somme des éléments en utilisant la fonction intégrée sum()."""
    return sum(liste)

temps_debut = time()
resultat_rapide = calculer_somme_builtin(liste_test)
temps_fin = time()
print(f"Somme via built-in: {resultat_rapide}")
print(f"Temps d'exécution (built-in): {(temps_fin - temps_debut) * 1000:.2f} ms")

## 2. Choix approprié des structures de données

La sélection de la structure de données adéquate a un impact considérable sur la performance des opérations, notamment la recherche d'éléments.

-   **Recherche dans une `list`** : L'opération `element in ma_liste` implique une recherche linéaire (complexité O(n)), où chaque élément est potentiellement examiné. Le temps de recherche est proportionnel à la taille de la liste.
-   **Recherche dans un `set`** : Un `set` utilise une table de hachage, permettant une recherche quasi instantanée (complexité O(1)). Le temps de recherche est indépendant de la taille de l'ensemble.

In [None]:
from time import time

taille_donnees = 10000000
element_a_rechercher = taille_donnees - 1 # Recherche du dernier élément

# Création des structures de données
liste_elements = [i for i in range(taille_donnees)]
ensemble_elements = {i for i in range(taille_donnees)}

# --- Recherche dans la liste ---
temps_debut = time()
resultat_liste = element_a_rechercher in liste_elements
temps_fin = time()
print(f"Élément trouvé dans la liste: {resultat_liste}")
print(f"Temps de recherche (liste): {(temps_fin - temps_debut) * 1000:.2f} ms\n")

# --- Recherche dans l'ensemble (set) ---
temps_debut = time()
resultat_ensemble = element_a_rechercher in ensemble_elements
temps_fin = time()
print(f"Élément trouvé dans l'ensemble: {resultat_ensemble}")
print(f"Temps de recherche (ensemble): {(temps_fin - temps_debut) * 1000:.2f} ms")

print("\nObservation : La recherche dans un ensemble est significativement plus rapide.")

## 3. Optimisation des algorithmes

L'amélioration de la logique sous-jacente d'un algorithme peut générer des gains de performance considérables. Une modification astucieuse de l'approche peut surpasser les optimisations de bas niveau.

*Exemple : Tester la primalité d'un nombre en ne vérifiant les diviseurs que jusqu'à sa racine carrée, plutôt que jusqu'à `n-1`.*

In [None]:
from time import time
import math

def est_premier_naif(n):
    """Teste la primalité en vérifiant tous les diviseurs jusqu'à n-1."""
    if n < 2: return False
    for i in range(2, n):
        if n % i == 0:
            return False
    return True

def est_premier_optimise_sqrt(n):
    """Teste la primalité en vérifiant les diviseurs jusqu'à la racine carrée de n."""
    if n < 2: return False
    for i in range(2, int(math.sqrt(n)) + 1):
        if n % i == 0:
            return False
    return True

def est_premier_optimise_final(n):
    """Version optimisée : gère les cas pairs et s'arrête dès qu'un diviseur est trouvé."""
    if n < 2: return False
    if n == 2: return True
    if n % 2 == 0: return False
    for i in range(3, int(math.sqrt(n)) + 1, 2): # Ne teste que les diviseurs impairs
        if n % i == 0:
            return False
    return True

nombre_a_tester = 104743 # Un grand nombre premier

temps_debut = time()
print(f"Version naïve ({nombre_a_tester}): {est_premier_naif(nombre_a_tester)}")
temps_fin = time()
print(f"Temps d'exécution : {(temps_fin - temps_debut) * 1000:.2f} ms\n")

temps_debut = time()
print(f"Version optimisée (sqrt) ({nombre_a_tester}): {est_premier_optimise_sqrt(nombre_a_tester)}")
temps_fin = time()
print(f"Temps d'exécution : {(temps_fin - temps_debut) * 1000:.2f} ms\n")

temps_debut = time()
print(f"Version optimisée (finale) ({nombre_a_tester}): {est_premier_optimise_final(nombre_a_tester)}")
temps_fin = time()
print(f"Temps d'exécution : {(temps_fin - temps_debut) * 1000:.2f} ms")

## 4. Ne pas réinventer la roue

Avant d'implémenter une fonctionnalité complexe, vérifiez toujours si une solution n'existe pas déjà dans la bibliothèque standard de Python ou dans des bibliothèques tierces populaires. Ces implémentations sont souvent hautement optimisées et testées.

*Exemple : Utiliser la fonction `sorted()` de Python pour le tri, plutôt que d'implémenter un algorithme de tri manuel.*

In [None]:
import random
from time import time
from operator import itemgetter

# --- Préparation des données ---
noms = ['Dave', 'Mike', 'Steve', 'Kevin', 'Roger', 'Blanche', 'Rose', 'Violette', 'Ginette', 'Sarah', 'Julie', 'Arthur', 'Lucie', 'Marie']
random.seed(42)
donnees = []
for nom in noms:
    age = random.randint(18, 90)
    richesse = random.randint(-50000, 500000)
    donnees.append([nom, age, richesse])

def tri_par_selection_manuel(liste_de_listes, colonne=0, inverse=False):
    """Trie une liste de listes en utilisant un algorithme de tri par sélection."""
    liste_trie = []
    copie_donnees = list(liste_de_listes)
    while copie_donnees:
        element_min = copie_donnees[0]
        for item in copie_donnees:
            if item[colonne] < element_min[colonne]:
                element_min = item
        liste_trie.append(element_min)
        copie_donnees.remove(element_min)
    return list(reversed(liste_trie)) if inverse else liste_trie

# --- Tri manuel ---
temps_debut = time()
resultat_manuel = tri_par_selection_manuel(donnees, colonne=1) # Tri par âge
temps_fin = time()
print("Tri manuel terminé.")
print(f"Temps de calcul : {(temps_fin - temps_debut) * 1000:.2f} ms\n")

# --- Tri avec la fonction intégrée sorted() ---
temps_debut = time()
# itemgetter(1) est utilisé pour spécifier la colonne de tri (ici, l'âge)
resultat_sorted = sorted(donnees, key=itemgetter(1))
temps_fin = time()
print("Tri avec sorted() terminé.")
print(f"Temps de calcul : {(temps_fin - temps_debut) * 1000:.2f} ms\n")

# Vérification de l'égalité des résultats
print(f"Les résultats des deux méthodes sont-ils identiques ? {resultat_manuel == resultat_sorted}")

## 5. Mesurer avant d'optimiser

Il est crucial d'identifier les véritables goulots d'étranglement de performance avant d'entreprendre des optimisations. L'utilisation d'outils de profilage (comme le module `timeit` ou `cProfile` en Python) permet de mesurer précisément le temps d'exécution des différentes parties de votre code et de concentrer vos efforts là où ils auront le plus d'impact.


---

# Exercices pratiques

Il est toujours important d'avoir une bonne mémoire, car comme lorsqu'on apprend une langue il faut pouvoir rapidement se souvenir de plusieurs concepts, et il faut aussi bien lire les instructions car dans les fait nous convertissons des instructions sous forme de texte en Python. Il y a plusieurs façon d'atteindre une bonne réponse, l'important c'est que le code soit clair et qu'il fasse la bonne chose.

**Exercice 0 : Amélioration simple de performance (Démonstration)**

Comparez l'efficacité de deux façons de faire la même chose.

1. **Recherche dans une liste vs ensemble:**
   - Créez une liste de 10000 nombres
   - Créez un ensemble avec les mêmes nombres
   - Mesurez le temps de recherche d'un nombre dans chacune

2. **Concaténation de chaînes:**
   - Écrivez une fonction qui concatène 1000 chaînes en utilisant `+=`
   - Écrivez une fonction qui concatène 1000 chaînes en utilisant `"".join()`
   - Comparez les temps d'exécution

3. **Listes vs générateurs:**
   - Créez une liste avec 100000 éléments
   - Créez un générateur équivalent (avec une compréhension de générateur)
   - Comparez la mémoire utilisée (taille en octets)

4. **Optimisation d'une boucle:**
   - Trouvez le code inefficace fourni dans les exercices précédents
   - Proposez une version optimisée


In [None]:
# Exercice 0: Code template for simple performance improvements
import time



List search: 0.020216s, Set search: 0.000075s



**Exercice 1 : Choisir la bonne structure de données**

Créer deux fonctions:
1. `rechercher_dans_liste(liste, element)` : Cherche un élément dans une liste
2. `rechercher_dans_set(ensemble, element)` : Cherche un élément dans un set

Comparez le temps d'exécution pour une recherche sur 100,000 éléments. Expliquez pourquoi l'une est plus rapide que l'autre.

In [None]:

from time import time

# Votre code ici
# Créer les deux fonctions
# Créer une liste et un set de 100,000 éléments
# Mesurer le temps de recherche pour chacun
# Afficher les résultats


<details>
 <summary>Voir réponse</summary>
<br />

```python
def rechercher_dans_liste(lst, element):
    return element in lst

def rechercher_dans_set(s, element):
    return element in s

# Préparation
taille = 100000
ma_liste = list(range(taille))
mon_set = set(range(taille))
element_recherche = taille - 1

# Test liste
debut = time()
rechercher_dans_liste(ma_liste, element_recherche)
temps_liste = (time() - debut) * 1000

# Test set
debut = time()
rechercher_dans_set(mon_set, element_recherche)
temps_set = (time() - debut) * 1000

print(f"Temps liste: {temps_liste:.4f} ms")
print(f"Temps set: {temps_set:.4f} ms")
print(f"Ratio: {temps_liste/temps_set:.1f}x")
print("\nExplication: Set utilise une table de hash (O(1)) vs liste utilise recherche linéaire (O(n))")
```

</details>


**Exercice 2 : Composition d'éléments**
Même si du code a parfois l'air complexe, il faut être capable de comprendre l'essence des opérations. Même si vous ne seriez pas capable de l'écrire, vous devriez être capable de fouiller dans vos notes, les jupyter-notebook passés ou sur le web et finalement executer les code pour le comprendre.

Voici un exemple de code potentiellement mélangeant !

In [None]:

resultats = sum([x**2 for x in range(1, 6) if x % 2 == 0])

# Que sera la valeur de resultats et que fait cette ligne dans vos mots?


<details>
 <summary>Voir réponse</summary>
<br />

```python
# range(1, 6) génère [1, 2, 3, 4, 5]
# La list comprehension filtre seulement les nombres pairs (x % 2 == 0): [2, 4]
# Puis élève chacun au carré: [2**2, 4**2] = [4, 16]
# sum() additionne les résultats: 4 + 16 = 20

# resultats = 20

# Cette ligne utilise plusieurs concepts d'optimisation:
# - sum() est une fonction built-in optimisée
# - List comprehension est plus performante qu'une boucle
# - On ne crée que les éléments nécessaires (filtrage avant transformation)
```

</details>

# Exercice 3 : Mini-devoir

**Exercice 3 : Optimisation de Projet (Mini-devoir)**

Optimisez le code fourni ci-dessous de trois façons différentes et comparez les performances.

**Code original à optimiser:**
```python
def find_duplicates(numbers):
    duplicates = []
    for i in range(len(numbers)):
        for j in range(i + 1, len(numbers)):
            if numbers[i] == numbers[j]:
                if numbers[i] not in duplicates:
                    duplicates.append(numbers[i])
    return duplicates
```

**Tâches:**

1. **Optimisez `find_duplicates()`:**
   - Version 1: Utilisez un ensemble pour O(n²) → O(n)
   - Version 2: Utilisez `Counter` de collections

2. **Optimisez `count_words()`:**
   - Version 1: Utilisez un dictionnaire
   - Version 2: Utilisez `collections.Counter`



In [None]:
# Exercice 3: Code template for optimization project
import timeit
from collections import Counter

# ORIGINAL CODE (INEFFICIENT)
def find_duplicates_original(numbers):
    duplicates = []
    for i in range(len(numbers)):
        for j in range(i + 1, len(numbers)):
            if numbers[i] == numbers[j]:
                if numbers[i] not in duplicates:
                    duplicates.append(numbers[i])
    return duplicates

# TASK 1: Optimize find_duplicates()
# Version 1: Using sets (O(n) approach)
def find_duplicates_v1(numbers):
    # TODO: Implement using sets
    pass

# Version 2: Using Counter
def find_duplicates_v2(numbers):
    # TODO: Implement using Counter
    pass

# Measure and compare performance (Do not modify this part)
test_data = list(range(100)) + list(range(50))  # Create duplicates

time_original = timeit.timeit(lambda: find_duplicates_original(test_data), number=100)
time_v1 = timeit.timeit(lambda: find_duplicates_v1(test_data), number=100)
time_v2 = timeit.timeit(lambda: find_duplicates_v2(test_data), number=100)

print(f"Original: {time_original:.6f}s, V1: {time_v1:.6f}s, V2: {time_v2:.6f}s")


Original: 0.014322s, V1: 0.000003s, V2: 0.000006s
