# üöÄ Google Colab Setup

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/ogautier1980/sandbox-ml/blob/main/cours/XX_CHAPTER/XX_NOTEBOOK.ipynb)

**Si vous ex√©cutez ce notebook sur Google Colab**, ex√©cutez la cellule suivante pour installer les d√©pendances.

In [None]:
# Installation des d√©pendances (Google Colab uniquement)import sysIN_COLAB = 'google.colab' in sys.modulesif IN_COLAB:    print('üì¶ Installation des packages...')        # Packages ML de base    !pip install -q numpy pandas matplotlib seaborn scikit-learn        # D√©tection du chapitre et installation des d√©pendances sp√©cifiques    notebook_name = '00_prerequis_python.ipynb'  # Sera remplac√© automatiquement        # Ch 06-08 : Deep Learning    if any(x in notebook_name for x in ['06_', '07_', '08_']):        !pip install -q torch torchvision torchaudio        # Ch 08 : NLP    if '08_' in notebook_name:        !pip install -q transformers datasets tokenizers        if 'rag' in notebook_name:            !pip install -q sentence-transformers faiss-cpu rank-bm25        # Ch 09 : Reinforcement Learning    if '09_' in notebook_name:        !pip install -q gymnasium[classic-control]        # Ch 04 : Boosting    if '04_' in notebook_name and 'boosting' in notebook_name:        !pip install -q xgboost lightgbm catboost        # Ch 05 : Clustering avanc√©    if '05_' in notebook_name:        !pip install -q umap-learn        # Ch 11 : S√©ries temporelles    if '11_' in notebook_name:        !pip install -q statsmodels prophet        # Ch 12 : Vision avanc√©e    if '12_' in notebook_name:        !pip install -q ultralytics timm segmentation-models-pytorch        # Ch 13 : Recommandation    if '13_' in notebook_name:        !pip install -q scikit-surprise implicit        # Ch 14 : MLOps    if '14_' in notebook_name:        !pip install -q mlflow fastapi pydantic        print('‚úÖ Installation termin√©e !')else:    print('‚ÑπÔ∏è  Environnement local d√©tect√©, les packages sont d√©j√† install√©s.')

# Pr√©requis Python pour le Machine Learning

Ce notebook couvre les bases de Python, NumPy, Pandas et Matplotlib n√©cessaires pour suivre ce cours de Machine Learning.

**Dur√©e estim√©e** : 1-2 heures

**Objectifs** :
- Ma√Ætriser la syntaxe Python essentielle
- Manipuler des arrays avec NumPy
- Traiter des donn√©es avec Pandas
- Cr√©er des visualisations avec Matplotlib

## 1. Python : Syntaxe Essentielle

### 1.1 Types de base et structures de donn√©es

In [None]:
# Types de base
entier = 42
decimal = 3.14
texte = "Machine Learning"
booleen = True

print(f"Entier: {entier}, type: {type(entier)}")
print(f"D√©cimal: {decimal}, type: {type(decimal)}")
print(f"Texte: {texte}, type: {type(texte)}")
print(f"Bool√©en: {booleen}, type: {type(booleen)}")

In [None]:
# Listes : collections ordonn√©es modifiables
features = ["age", "salaire", "experience"]
values = [28, 45000, 3]

print(f"Features: {features}")
print(f"Premier √©l√©ment: {features[0]}")
print(f"Derniers √©l√©ments: {features[1:]}")

# Ajout d'√©l√©ments
features.append("niveau_etudes")
print(f"Apr√®s ajout: {features}")

In [None]:
# Dictionnaires : paires cl√©-valeur
personne = {
    "nom": "Alice",
    "age": 28,
    "competences": ["Python", "ML", "SQL"]
}

print(f"Nom: {personne['nom']}")
print(f"Comp√©tences: {personne['competences']}")

# It√©ration sur un dictionnaire
for cle, valeur in personne.items():
    print(f"{cle}: {valeur}")

### 1.2 Structures de contr√¥le

In [None]:
# Boucles for
scores = [0.85, 0.92, 0.78, 0.95, 0.88]

print("Scores:")
for i, score in enumerate(scores):
    print(f"  Mod√®le {i+1}: {score:.2%}")

# List comprehension (tr√®s utilis√© en ML)
scores_percent = [score * 100 for score in scores]
print(f"\nScores en %: {scores_percent}")

# Filtrage avec list comprehension
bons_scores = [score for score in scores if score >= 0.90]
print(f"Scores >= 90%: {bons_scores}")

In [None]:
# Conditions
def evaluer_modele(accuracy):
    """√âvalue la performance d'un mod√®le"""
    if accuracy >= 0.95:
        return "Excellent"
    elif accuracy >= 0.85:
        return "Bon"
    elif accuracy >= 0.70:
        return "Acceptable"
    else:
        return "Insuffisant"

for score in scores:
    evaluation = evaluer_modele(score)
    print(f"Accuracy {score:.2%}: {evaluation}")

### 1.3 Fonctions

In [None]:
def normaliser(valeur, min_val, max_val):
    """Normalise une valeur entre 0 et 1"""
    return (valeur - min_val) / (max_val - min_val)

# Test
ages = [20, 35, 50, 65, 80]
ages_norm = [normaliser(age, min(ages), max(ages)) for age in ages]

print("Ages:", ages)
print("Ages normalis√©s:", [f"{val:.2f}" for val in ages_norm])

In [None]:
# Fonctions lambda (courtes et anonymes)
carre = lambda x: x ** 2
print(f"5 au carr√©: {carre(5)}")

# Utilisation avec map
nombres = [1, 2, 3, 4, 5]
carres = list(map(lambda x: x**2, nombres))
print(f"Carr√©s: {carres}")

## 2. NumPy : Calcul Num√©rique

NumPy est la biblioth√®que fondamentale pour le calcul scientifique en Python. Elle offre des arrays multidimensionnels et des op√©rations vectoris√©es tr√®s performantes.

In [None]:
import numpy as np

print(f"Version NumPy: {np.__version__}")

### 2.1 Cr√©ation d'arrays

In [None]:
# Array 1D (vecteur)
vecteur = np.array([1, 2, 3, 4, 5])
print(f"Vecteur: {vecteur}")
print(f"Shape: {vecteur.shape}, dtype: {vecteur.dtype}")

# Array 2D (matrice)
matrice = np.array([[1, 2, 3], [4, 5, 6]])
print(f"\nMatrice:\n{matrice}")
print(f"Shape: {matrice.shape}, dimensions: {matrice.ndim}")

In [None]:
# Cr√©ation d'arrays sp√©ciaux
zeros = np.zeros((3, 4))  # Matrice de z√©ros
ones = np.ones((2, 3))    # Matrice de uns
identite = np.eye(3)      # Matrice identit√©
aleatoire = np.random.randn(3, 3)  # Valeurs al√©atoires (distribution normale)

print("Zeros:\n", zeros)
print("\nIdentit√©:\n", identite)
print("\nAl√©atoire (normal):\n", aleatoire)

In [None]:
# S√©quences
sequence = np.arange(0, 10, 2)  # De 0 √† 10 (exclu), pas de 2
linspace = np.linspace(0, 1, 5)  # 5 valeurs √©quidistantes entre 0 et 1

print(f"Arange: {sequence}")
print(f"Linspace: {linspace}")

### 2.2 Indexation et slicing

In [None]:
# Cr√©er un dataset simple
data = np.array([
    [25, 50000, 1],  # Age, Salaire, Ann√©es d'exp√©rience
    [30, 60000, 3],
    [35, 75000, 5],
    [40, 90000, 8]
])

print("Dataset:\n", data)
print(f"\nPremi√®re ligne (personne 1): {data[0]}")
print(f"Deuxi√®me colonne (salaires): {data[:, 1]}")
print(f"Premi√®re personne, salaire: {data[0, 1]}")

In [None]:
# Slicing avanc√©
print("Deux premi√®res personnes:\n", data[:2])
print("\nDeux derni√®res features (salaire, exp):\n", data[:, 1:])

# Masquage bool√©en (tr√®s important en ML)
seniors = data[data[:, 0] >= 35]  # Personnes de 35 ans ou plus
print("\nPersonnes >= 35 ans:\n", seniors)

### 2.3 Op√©rations vectoris√©es

In [None]:
# Op√©rations √©l√©ment par √©l√©ment (vectoris√©es = rapides)
a = np.array([1, 2, 3, 4])
b = np.array([10, 20, 30, 40])

print(f"a + b = {a + b}")
print(f"a * b = {a * b}")
print(f"a^2 = {a ** 2}")
print(f"sqrt(b) = {np.sqrt(b)}")

In [None]:
# Broadcasting : op√©rations entre arrays de shapes diff√©rentes
matrice = np.array([[1, 2, 3], [4, 5, 6]])
vecteur = np.array([10, 20, 30])

resultat = matrice + vecteur  # Le vecteur est "diffus√©" sur chaque ligne
print("Matrice:\n", matrice)
print("\nVecteur:", vecteur)
print("\nMatrice + Vecteur:\n", resultat)

### 2.4 Fonctions d'agr√©gation

In [None]:
# Statistiques sur arrays
scores = np.array([0.75, 0.82, 0.91, 0.88, 0.79])

print(f"Scores: {scores}")
print(f"Moyenne: {scores.mean():.3f}")
print(f"M√©diane: {np.median(scores):.3f}")
print(f"√âcart-type: {scores.std():.3f}")
print(f"Min: {scores.min()}, Max: {scores.max()}")
print(f"Somme: {scores.sum():.3f}")

In [None]:
# Agr√©gation sur axes sp√©cifiques
matrice = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

print("Matrice:\n", matrice)
print(f"\nMoyenne globale: {matrice.mean():.2f}")
print(f"Moyenne par colonne (axis=0): {matrice.mean(axis=0)}")
print(f"Moyenne par ligne (axis=1): {matrice.mean(axis=1)}")

## 3. Pandas : Manipulation de Donn√©es

Pandas est la biblioth√®que de r√©f√©rence pour manipuler des donn√©es tabulaires (comme des tableaux Excel ou des fichiers CSV).

In [None]:
import pandas as pd

print(f"Version Pandas: {pd.__version__}")

### 3.1 DataFrames : tableaux avec √©tiquettes

In [None]:
# Cr√©er un DataFrame
data = {
    'nom': ['Alice', 'Bob', 'Charlie', 'Diana', 'Eve'],
    'age': [25, 30, 35, 28, 32],
    'salaire': [45000, 55000, 65000, 50000, 60000],
    'experience': [2, 5, 8, 3, 6],
    'diplome': ['Master', 'Licence', 'PhD', 'Master', 'Licence']
}

df = pd.DataFrame(data)
print("DataFrame:")
print(df)

In [None]:
# Informations sur le DataFrame
print("Shape:", df.shape)
print("\nColonnes:", df.columns.tolist())
print("\nTypes:")
print(df.dtypes)
print("\nInfo:")
df.info()

### 3.2 S√©lection et filtrage

In [None]:
# S√©lectionner une colonne
print("Salaires:")
print(df['salaire'])

# S√©lectionner plusieurs colonnes
print("\nNom et salaire:")
print(df[['nom', 'salaire']])

In [None]:
# Filtrage avec conditions
seniors = df[df['age'] >= 30]
print("Personnes >= 30 ans:")
print(seniors)

# Conditions multiples
masters = df[(df['diplome'] == 'Master') & (df['salaire'] > 45000)]
print("\nMasters avec salaire > 45k:")
print(masters)

### 3.3 Statistiques descriptives

In [None]:
# Statistiques sur colonnes num√©riques
print("Statistiques descriptives:")
print(df.describe())

# Statistiques sp√©cifiques
print(f"\nSalaire moyen: {df['salaire'].mean():.2f}")
print(f"Exp√©rience m√©diane: {df['experience'].median()}")

In [None]:
# Comptage des valeurs
print("R√©partition des dipl√¥mes:")
print(df['diplome'].value_counts())

### 3.4 Manipulation avanc√©e

In [None]:
# Tri
df_tri = df.sort_values('salaire', ascending=False)
print("Tri√© par salaire d√©croissant:")
print(df_tri)

# Groupby (√©quivalent de GROUP BY en SQL)
print("\nSalaire moyen par dipl√¥me:")
print(df.groupby('diplome')['salaire'].mean())

In [None]:
# Cr√©er de nouvelles colonnes
df['salaire_annuel'] = df['salaire'] * 12
df['senior'] = df['age'] >= 30

print("DataFrame avec nouvelles colonnes:")
print(df[['nom', 'age', 'salaire_annuel', 'senior']])

## 4. Matplotlib : Visualisation

Matplotlib est la biblioth√®que de base pour cr√©er des graphiques en Python.

In [None]:
import matplotlib.pyplot as plt

# Configuration pour afficher les graphiques dans le notebook
%matplotlib inline
plt.style.use('default')

### 4.1 Graphiques de base

In [None]:
# Graphique en ligne
epochs = np.arange(1, 11)
train_loss = np.exp(-epochs/5) + np.random.randn(10) * 0.05
val_loss = np.exp(-epochs/6) + 0.1 + np.random.randn(10) * 0.05

plt.figure(figsize=(8, 5))
plt.plot(epochs, train_loss, label='Train Loss', marker='o')
plt.plot(epochs, val_loss, label='Validation Loss', marker='s')
plt.xlabel('Epoch')
plt.ylabel('Loss')
plt.title('Courbe d\'apprentissage')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

In [None]:
# Nuage de points (scatter plot)
np.random.seed(42)
X = np.random.randn(100)
y = 2 * X + np.random.randn(100) * 0.5

plt.figure(figsize=(8, 5))
plt.scatter(X, y, alpha=0.6, edgecolors='k', linewidth=0.5)
plt.xlabel('Feature X')
plt.ylabel('Target y')
plt.title('R√©gression Lin√©aire : Relation X-y')
plt.grid(True, alpha=0.3)
plt.show()

In [None]:
# Histogramme
scores = np.random.normal(0.75, 0.1, 1000)  # Moyenne 0.75, √©cart-type 0.1

plt.figure(figsize=(8, 5))
plt.hist(scores, bins=30, edgecolor='black', alpha=0.7)
plt.axvline(scores.mean(), color='red', linestyle='--', linewidth=2, label=f'Moyenne: {scores.mean():.3f}')
plt.xlabel('Score')
plt.ylabel('Fr√©quence')
plt.title('Distribution des Scores')
plt.legend()
plt.show()

### 4.2 Subplots (plusieurs graphiques)

In [None]:
# Cr√©er une grille de graphiques
fig, axes = plt.subplots(2, 2, figsize=(12, 10))

# Graphique 1 : ligne
axes[0, 0].plot(epochs, train_loss, 'b-o')
axes[0, 0].set_title('Train Loss')
axes[0, 0].set_xlabel('Epoch')
axes[0, 0].grid(True, alpha=0.3)

# Graphique 2 : scatter
axes[0, 1].scatter(X, y, alpha=0.5)
axes[0, 1].set_title('X vs y')
axes[0, 1].set_xlabel('X')

# Graphique 3 : histogramme
axes[1, 0].hist(scores, bins=30, edgecolor='black', alpha=0.7, color='green')
axes[1, 0].set_title('Distribution')
axes[1, 0].set_xlabel('Score')

# Graphique 4 : barplot
categories = ['Cat A', 'Cat B', 'Cat C']
values = [23, 45, 32]
axes[1, 1].bar(categories, values, color=['red', 'blue', 'green'], alpha=0.7)
axes[1, 1].set_title('Cat√©gories')
axes[1, 1].set_ylabel('Valeurs')

plt.tight_layout()
plt.show()

## 5. Exercices Pratiques

### Exercice 1 : Normalisation de donn√©es

Cr√©ez une fonction qui normalise un array NumPy en utilisant la formule Min-Max :
$$x_{norm} = \frac{x - x_{min}}{x_{max} - x_{min}}$$

Testez-la sur un array `[10, 20, 30, 40, 50]`.

In [None]:
# Votre code ici
def normaliser_minmax(arr):
    # TODO: impl√©menter
    pass

# Test
test_array = np.array([10, 20, 30, 40, 50])
# print(normaliser_minmax(test_array))
# R√©sultat attendu: [0. 0.25 0.5 0.75 1.]

In [None]:
# Solution
def normaliser_minmax(arr):
    return (arr - arr.min()) / (arr.max() - arr.min())

test_array = np.array([10, 20, 30, 40, 50])
print("Array original:", test_array)
print("Array normalis√©:", normaliser_minmax(test_array))

### Exercice 2 : Analyse de dataset

Cr√©ez un DataFrame avec 20 personnes contenant : nom, √¢ge, salaire, ville.

R√©pondez aux questions suivantes :
1. Quel est le salaire moyen par ville ?
2. Combien de personnes ont plus de 30 ans ?
3. Cr√©ez un graphique montrant la distribution des √¢ges.

In [None]:
# Votre code ici
# TODO: cr√©er le DataFrame
# TODO: r√©pondre aux questions

In [None]:
# Solution
np.random.seed(42)

# Cr√©er le dataset
noms = [f"Personne_{i}" for i in range(1, 21)]
ages = np.random.randint(22, 60, 20)
salaires = np.random.randint(30000, 90000, 20)
villes = np.random.choice(['Paris', 'Lyon', 'Marseille'], 20)

df_exercice = pd.DataFrame({
    'nom': noms,
    'age': ages,
    'salaire': salaires,
    'ville': villes
})

print("Dataset:")
print(df_exercice.head(10))

In [None]:
# Question 1 : Salaire moyen par ville
print("Salaire moyen par ville:")
print(df_exercice.groupby('ville')['salaire'].mean().round(2))

# Question 2 : Personnes > 30 ans
nb_seniors = (df_exercice['age'] > 30).sum()
print(f"\nPersonnes > 30 ans: {nb_seniors}/{len(df_exercice)}")

# Question 3 : Distribution des √¢ges
plt.figure(figsize=(8, 5))
plt.hist(df_exercice['age'], bins=10, edgecolor='black', alpha=0.7, color='skyblue')
plt.axvline(df_exercice['age'].mean(), color='red', linestyle='--', linewidth=2, 
            label=f"Moyenne: {df_exercice['age'].mean():.1f} ans")
plt.xlabel('√Çge')
plt.ylabel('Fr√©quence')
plt.title('Distribution des √Çges')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

## 6. R√©sum√©

Vous ma√Ætrisez maintenant les bases de Python pour le Machine Learning :

**Python**
- Types de base, listes, dictionnaires
- Boucles, conditions, list comprehensions
- Fonctions, lambdas

**NumPy**
- Cr√©ation et manipulation d'arrays
- Indexation, slicing, masquage bool√©en
- Op√©rations vectoris√©es et broadcasting
- Fonctions d'agr√©gation

**Pandas**
- DataFrames et Series
- S√©lection et filtrage
- Statistiques descriptives
- Groupby et manipulation

**Matplotlib**
- Graphiques de base (ligne, scatter, histogramme)
- Subplots
- Personnalisation

Vous √™tes pr√™t √† commencer le cours de Machine Learning ! üöÄ