# Philomathia - Projet Mathématiques pour l'Intelligence Artificielle

## Présentation du projet

#### Les mathématiques : langage universel de la science ####

### Mathématiques et Machine Learning

- Les mathématiques forment le socle théorique de tous les algorithmes d'intelligence artificielle, de la régression linéaire aux réseaux de neurones profonds
- Elles permettent de comprendre le fonctionnement des modèles, d'interpréter leurs résultats et d'optimiser leurs performances

### Attendus du projet

- Réaliser une veille scientifique sur des concepts mathématiques clés
- Fournir pour chaque notion : définition rigoureuse, exemples concrets et vulgarisation accessible
- Développer une double compétence : maîtrise théorique et capacité de transmission
- Implémenter ces concepts en Python via un notebook pour une mise en pratique concrète

---

## Sommaire

### I. Algèbre linéaire et statistiques descriptives
1. Vecteur
2. Matrice
3. Moyenne, médiane, maximum, minimum
4. Histogramme

### II. Visualisation statistique et distributions
1. Quartiles
2. Boxplot
3. Corrélation linéaire
4. Théorème central limite

### III. Probabilités et analyse statistique avancée
1. Probabilité et loi de probabilité
2. Variables indépendantes
3. Espérance, variance et écart-type
4. Dérivée

### IV. Implémentation Python et mise en pratique

Tout au long du notebook, chaque concept mathématique est accompagné d'une implémentation pratique en Python. Les exercices utilisent les bibliothèques NumPy pour les calculs, Matplotlib et Seaborn pour les visualisations, permettant ainsi d'ancrer la compréhension théorique par la manipulation concrète des données et des algorithmes.

In [54]:
# IMPORTS
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## I. Algèbre linéaire et statistiques descriptives

In [55]:
### 1. Vecteurs

En mathématiques, un **vecteur** est un objet qui a à la fois une **magnitude** (une longueur) et une **direction**. On peut le visualiser comme une flèche partant de l'origine dans un espace multidimensionnel.

En science des données et en apprentissage automatique, les vecteurs sont omniprésents :

*   **Représentation de données :** Chaque observation ou point de données est souvent représenté comme un vecteur, où chaque dimension correspond à une caractéristique (feature) de l'observation. Par exemple, les caractéristiques d'une maison (surface, nombre de chambres, prix) peuvent former un vecteur [150 m², 4, 300000 €].
*   **Vecteurs de caractéristiques :** Dans les modèles, les caractéristiques d'entrée sont regroupées en vecteurs pour être traitées mathématiquement.
*   **Poids des modèles :** Les paramètres (poids et biais) des modèles linéaires ou des réseaux de neurones sont souvent représentés sous forme de vecteurs ou de matrices.
*   **Opérations vectorielles :** Des opérations comme l'addition de vecteurs (combiner des caractéristiques), la multiplication scalaire (changer l'échelle d'une caractéristique) ou le produit scalaire (mesurer la similarité ou projeter des vecteurs) sont fondamentales dans de nombreux algorithmes.

Comprendre les vecteurs et leurs opérations est essentiel pour manipuler et analyser des données multidimensionnelles.

SyntaxError: unterminated string literal (detected at line 3) (3753694367.py, line 3)

In [None]:
# Créer des vecteurs NumPy
vec_a = np.array([2, 3])
vec_b = np.array([1, -2])
vec_c = np.array([4, 1, 5])  # Un vecteur 3D

print("Vecteur A (2D) :", vec_a)
print("Vecteur B (2D) :", vec_b)
print("Vecteur C (3D) :", vec_c)

# Opérations vectorielles
print("\nOpérations vectorielles :")

# Addition (pour vecteurs de même dimension)
somme_ab = vec_a + vec_b
print("A + B =", somme_ab)

# Soustraction (pour vecteurs de même dimension)
difference_ab = vec_a - vec_b
print("A - B =", difference_ab)

# Multiplication scalaire
scalaire = 2.5
mult_scalaire_a = scalaire * vec_a
print(f"{scalaire} * A =", mult_scalaire_a)

# Produit scalaire (dot product) (pour vecteurs de même dimension)
produit_scalaire_ab = np.dot(vec_a, vec_b)
print("A . B (produit scalaire) =", produit_scalaire_ab)

# Visualisation d'un vecteur 2D
plt.figure(figsize=(6, 6))

# Dessiner le vecteur A (de l'origine à [2, 3])
plt.quiver(0, 0, vec_a[0], vec_a[1], angles='xy', scale_units='xy', scale=1, color='r', label='Vecteur A')

# Dessiner le vecteur B (de l'origine à [1, -2])
plt.quiver(0, 0, vec_b[0], vec_b[1], angles='xy', scale_units='xy', scale=1, color='b', label='Vecteur B')

# Dessiner le vecteur Somme (A+B) sans linestyle
plt.quiver(0, 0, somme_ab[0], somme_ab[1], angles='xy', scale_units='xy', scale=1, color='g', label='A + B')

# Paramètres du graphique
plt.xlim(-5, 5)
plt.ylim(-5, 5)
plt.xlabel('Axe X')
plt.ylabel('Axe Y')
plt.title('Visualisation de Vecteurs 2D et leur Somme')
plt.grid(True)
plt.axhline(0, color='grey', lw=0.5)
plt.axvline(0, color='grey', lw=0.5)
plt.legend()
plt.gca().set_aspect('equal', adjustable='box')  # Assurer que les axes ont la même échelle
plt.show()


### 2. Matrices

Une **matrice** est un tableau rectangulaire de nombres, de symboles ou d'expressions organisés en lignes et en colonnes. Elle est définie par ses dimensions, notées m x n, où m est le nombre de lignes et n est le nombre de colonnes.

Les matrices sont des outils fondamentaux en algèbre linéaire et jouent un rôle crucial en science des données et en intelligence artificielle pour plusieurs raisons :

*   **Stockage de données :** Les ensembles de données sont souvent représentés sous forme de matrices, où chaque ligne correspond à une observation et chaque colonne à une caractéristique (feature).
*   **Transformations linéaires :** Les matrices sont utilisées pour représenter des transformations linéaires dans l'espace vectoriel, comme les rotations, les mises à l'échelle ou les translations. Ces transformations sont au cœur de nombreux algorithmes, notamment en traitement d'images et en graphisme.
*   **Systèmes d'équations linéaires :** Les matrices permettent de représenter et de résoudre efficacement des systèmes d'équations linéaires, ce qui est essentiel dans des domaines comme la régression linéaire.
*   **Calculs dans les réseaux de neurones :** Les opérations matricielles, en particulier la multiplication matricielle, sont les opérations de base effectuées dans les couches des réseaux de neurones pour propager les signaux.
*   **Réduction de dimensionnalité :** Des techniques comme l'Analyse en Composantes Principales (ACP) s'appuient fortement sur les opérations matricielles (comme la décomposition en valeurs singulières) pour réduire la dimensionnalité des données tout en préservant l'information importante.

Comprendre les opérations matricielles (addition, soustraction, multiplication) est indispensable pour travailler avec des données structurées et construire des modèles d'apprentissage automatique.

In [None]:
# 5. Create two NumPy matrices
matrix_a = np.array([[1, 2],
                     [3, 4]])

matrix_b = np.array([[5, 6],
                     [7, 8]])

matrix_c = np.array([[1, 2, 3],
                     [4, 5, 6]])

matrix_d = np.array([[7, 8],
                     [9, 10],
                     [11, 12]])

print("Matrice A (2x2):")
print(matrix_a)
print("\nMatrice B (2x2):")
print(matrix_b)
print("\nMatrice C (2x3):")
print(matrix_c)
print("\nMatrice D (3x2):")
print(matrix_d)


# 6. Demonstrate matrix addition and subtraction
print("\nOpérations sur les matrices 2x2 (A et B):")
try:
    somme_ab = matrix_a + matrix_b
    print("A + B =")
    print(somme_ab)
except ValueError as e:
    print(f"Erreur lors de l'addition de A et B: {e}")

try:
    difference_ab = matrix_a - matrix_b
    print("A - B =")
    print(difference_ab)
except ValueError as e:
    print(f"Erreur lors de la soustraction de A et B: {e}")

# Addition/Soustraction entre matrices de dimensions incompatibles (devrait générer une erreur)
print("\nOpérations sur matrices de dimensions incompatibles (A et C):")
try:
    somme_ac = matrix_a + matrix_c
    print("A + C =")
    print(somme_ac)
except ValueError as e:
    print(f"Erreur attendue lors de l'addition de A et C: {e}")


# 7. Demonstrate matrix multiplication
# Multiplication A @ B (2x2 @ 2x2 -> 2x2)
print("\nMultiplication matricielle:")
try:
    produit_ab = matrix_a @ matrix_b
    # Alternative: np.dot(matrix_a, matrix_b)
    print("A @ B =")
    print(produit_ab)
except ValueError as e:
    print(f"Erreur lors de la multiplication A @ B: {e}")

# Multiplication C @ D (2x3 @ 3x2 -> 2x2)
try:
    produit_cd = matrix_c @ matrix_d
    print("C @ D =")
    print(produit_cd)
except ValueError as e:
     print(f"Erreur lors de la multiplication C @ D: {e}")

# Multiplication D @ C (3x2 @ 2x3 -> 3x3)
try:
    produit_dc = matrix_d @ matrix_c
    print("D @ C =")
    print(produit_dc)
except ValueError as e:
    print(f"Erreur lors de la multiplication D @ C: {e}")

# Multiplication A @ C (2x2 @ 2x3) - Compatible
try:
    produit_ac = matrix_a @ matrix_c
    print("A @ C =")
    print(produit_ac)
except ValueError as e:
    print(f"Erreur lors de la multiplication A @ C: {e}")

# Multiplication C @ A (2x3 @ 2x2) - Incompatible (nombre de colonnes de C != nombre de lignes de A)
print("\nMultiplication sur matrices de dimensions incompatibles (C @ A):")
try:
    produit_ca = matrix_c @ matrix_a
    print("C @ A =")
    print(produit_ca)
except ValueError as e:
    print(f"Erreur attendue lors de la multiplication C @ A: {e}")

# 8. Demonstrate scalar multiplication
scalaire = 3
mult_scalaire_a = scalaire * matrix_a
print(f"\nMultiplication scalaire ({scalaire} * A):")
print(mult_scalaire_a)


# 9. Generate random data and plot transformation
# Générer des points aléatoires 2D
np.random.seed(42) # pour la reproductibilité
points_originaux = np.random.rand(10, 2) * 5 # 10 points, coordonnées entre 0 et 5

# Matrice de transformation (par exemple, une rotation + mise à l'échelle)
matrice_transformation = np.array([[1.5, 1],
                                  [-0.5, 1.5]])

# Appliquer la transformation matricielle à chaque point
# Pour multiplier une matrice (n_points x 2) par une matrice (2x2),
# on peut utiliser @. NumPy gère correctement la multiplication ligne par ligne.
points_transformes = points_originaux @ matrice_transformation


# Créer le graphique
plt.figure(figsize=(8, 8))
plt.scatter(points_originaux[:, 0], points_originaux[:, 1], color='blue', label='Points Originaux')
plt.scatter(points_transformes[:, 0], points_transformes[:, 1], color='red', label='Points Transformés')

# Ajouter des flèches pour montrer la transformation de quelques points
for i in range(3): # Afficher les transformations pour les 3 premiers points
    plt.annotate('', xy=(points_transformes[i, 0], points_transformes[i, 1]),
                 xytext=(points_originaux[i, 0], points_originaux[i, 1]),
                 arrowprops=dict(arrowstyle='->', color='gray', linewidth=1))


plt.xlabel('Axe X') # Label de l'axe x en français
plt.ylabel('Axe Y') # Label de l'axe y en français
plt.title('Transformation de Points 2D par Multiplication Matricielle') # Titre en français
plt.legend() # Afficher la légende
plt.grid(True, alpha=0.3) # Afficher la grille
plt.axhline(0, color='grey', lw=0.5) # Ligne horizontale à y=0
plt.axvline(0, color='grey', lw=0.5) # Ligne verticale à x=0
plt.axis('equal') # Assurer que les axes ont la même échelle pour visualiser correctement la transformation
plt.show() # 10. Display the plot

### 3. Statistiques Descriptives : Moyenne, Médiane, Max et Min

Les **statistiques descriptives** sont utilisées pour résumer et décrire les caractéristiques principales d'un ensemble de données de manière quantitative. Les mesures de tendance centrale et de dispersion sont essentielles.

*   **Moyenne (Mean)** : C'est la somme de toutes les valeurs divisée par le nombre de valeurs. C'est la mesure de tendance centrale la plus courante, représentant le "centre de masse" des données. Elle est sensible aux valeurs extrêmes (outliers).

*   **Médiane (Median)** : C'est la valeur qui se trouve exactement au milieu d'un ensemble de données ordonné. Si le nombre de données est pair, c'est la moyenne des deux valeurs du milieu. La médiane est une mesure de tendance centrale robuste aux outliers, ce qui la rend utile pour les distributions asymétriques.

*   **Maximum (Maximum)** : C'est la valeur la plus élevée dans l'ensemble de données.

*   **Minimum (Minimum)** : C'est la valeur la plus basse dans l'ensemble de données.

En science des données et en IA :

*   Ces statistiques fournissent un **premier aperçu rapide** de la distribution et de la portée des données.
*   Elles aident à **identifier les problèmes** dans les données, comme la présence d'outliers (en comparant moyenne et médiane) ou des plages de valeurs inattendues (via max et min).
*   Elles sont souvent utilisées dans les **étapes initiales de l'analyse exploratoire des données (EDA)**.
*   Le minimum et le maximum définissent la **plage** des données, ce qui peut être important pour la normalisation ou la mise à l'échelle.
*   Comprendre la moyenne et la médiane aide à évaluer la **symétrie** ou l'**asymétrie** (skewness) d'une distribution.

# 2. In a new code cell, use NumPy to generate a dataset (e.g., a random sample from a distribution, potentially with some outliers).
np.random.seed(42) # for reproducibility
# Generate data from a normal distribution
data = np.random.normal(loc=50, scale=15, size=200)

# Add some outliers
outliers = np.array([5, 10, 120, 130])
data_with_outliers = np.concatenate((data, outliers))

# 3. Calculate the mean, median, maximum, and minimum of the generated dataset using NumPy.
mean_value = np.mean(data_with_outliers)
median_value = np.median(data_with_outliers)
max_value = np.max(data_with_outliers)
min_value = np.min(data_with_outliers)

# 4. Print the calculated values with descriptive French labels.
print(f"Données générées (avec outliers), premières 10 valeurs : {data_with_outliers[:10]}")
print(f"\nStatistiques Descriptives :")
print(f"  Moyenne : {mean_value:.3f}")
print(f"  Médiane : {median_value:.3f}")
print(f"  Maximum : {max_value:.3f}")
print(f"  Minimum : {min_value:.3f}")


# 5. Use Matplotlib to create a plot that visualizes the dataset and indicates the calculated statistics.
plt.figure(figsize=(10, 6))

# Create a histogram of the data
plt.hist(data_with_outliers, bins=20, alpha=0.7, color='skyblue', edgecolor='black')

# Add vertical lines for mean and median
plt.axvline(mean_value, color='red', linestyle='dashed', linewidth=2, label=f'Moyenne ({mean_value:.3f})')
plt.axvline(median_value, color='green', linestyle='dashed', linewidth=2, label=f'Médiane ({median_value:.3f})')

# Add horizontal lines or text for max and min
plt.text(max_value, plt.ylim()[1] * 0.95, f'Max ({max_value:.1f})', color='purple', ha='right')
plt.text(min_value, plt.ylim()[1] * 0.95, f'Min ({min_value:.1f})', color='orange', ha='left')


# 6. Add French labels to the axes and a French title to the plot.
plt.xlabel('Valeur des données') # Label de l'axe x en français
plt.ylabel('Fréquence') # Label de l'axe y en français
plt.title('Distribution des données avec Statistiques Descriptives') # Titre en français
plt.legend() # Afficher la légende
plt.grid(True, alpha=0.3) # Afficher la grille

# 7. Display the plot.
plt.show()

In [None]:
### 4. Histogramme

Un **histogramme** est une représentation graphique de la distribution de fréquence d'une variable continue. Il est construit en divisant l'ensemble des valeurs possibles de la variable en intervalles (appelés "bins") et en comptant le nombre d'observations qui tombent dans chaque intervalle. La hauteur de chaque barre de l'histogramme représente la fréquence (ou la densité) des données dans cet intervalle.

Les histograms sont essentiels en science des données et en IA pour :

*   **Visualiser la distribution :** Ils permettent de voir rapidement la forme de la distribution des données (symétrique, asymétrique, multimodale, etc.).
*   **Identifier la tendance centrale et la dispersion :** On peut estimer visuellement où se situe le centre des données et à quel point elles sont étalées.
*   **Détecter les outliers :** Les valeurs extrêmes qui se situent loin du corps principal de la distribution peuvent apparaître comme des barres isolées aux extrémités.
*   **Comprendre la fréquence des valeurs :** Ils montrent quels intervalles de valeurs sont les plus fréquents dans le jeu de données.
*   **Choisir le nombre de bins :** Le choix du nombre de bins peut affecter l'apparence de l'histogramme et la façon dont la distribution est perçue. Un nombre trop faible masque les détails, tandis qu'un nombre trop élevé peut rendre l'histogramme trop granulaire.

Bien qu'un histogramme simple ait été utilisé pour visualiser la distribution de probabilité, cette section explore plus en détail sa construction et son interprétation.

In [None]:
# Générer des données pour l'histogramme (par exemple, temps de réponse d'un serveur)
np.random.seed(45) # Nouvelle graine
# Distribution exponentielle, souvent utilisée pour modéliser les temps d'attente
data_histogram = np.random.exponential(scale=10, size=500) # Moyenne de 10

print("Données générées pour l'histogramme (premières 10 valeurs) :", data_histogram[:10])

# Créer un histogramme avec un nombre de bins par défaut
plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1) # Premier subplot
plt.hist(data_histogram, bins='auto', alpha=0.7, color='salmon', edgecolor='black') # bins='auto' laisse Matplotlib choisir
plt.xlabel('Temps de réponse (secondes)') # Label de l'axe x en français
plt.ylabel('Fréquence') # Label de l'axe y en français
plt.title('Histogramme (Bins auto)') # Titre en français
plt.grid(True, alpha=0.3)

# Créer un histogramme avec un nombre de bins différent pour comparaison
plt.subplot(1, 2, 2) # Deuxième subplot
plt.hist(data_histogram, bins=50, alpha=0.7, color='teal', edgecolor='black') # Plus de bins pour plus de détail
plt.xlabel('Temps de réponse (secondes)') # Label de l'axe x en français
plt.ylabel('Fréquence') # Label de l'axe y en français
plt.title('Histogramme (50 Bins)') # Titre en français
plt.grid(True, alpha=0.3)


plt.tight_layout() # Ajuster l'espacement
plt.show() # Afficher les graphiques

# Exemple avec des données multimodales (plusieurs pics)
data_multimodal = np.concatenate((np.random.normal(20, 5, 150),
                                  np.random.normal(50, 7, 200),
                                  np.random.normal(80, 6, 100)))

plt.figure(figsize=(8, 6))
plt.hist(data_multimodal, bins=40, alpha=0.7, color='mediumpurple', edgecolor='black')
plt.xlabel('Valeur') # Label de l'axe x en français
plt.ylabel('Fréquence') # Label de l'axe y en français
plt.title('Histogramme de Données Multimodales') # Titre en français
plt.grid(True, alpha=0.3)
plt.show()

## II. Visualisation statistique et distributions

### 2. Diagramme en Boîte (Boxplot)

Le **diagramme en boîte**, ou **boxplot**, est un outil de visualisation statistique qui résume la distribution d'un ensemble de données en montrant ses quartiles. Il est particulièrement utile pour visualiser la dispersion, l'asymétrie et identifier les valeurs aberrantes (outliers) dans une distribution.

Un boxplot typique se compose de :

*   **La boîte :** Elle s'étend du premier quartile (Q1) au troisième quartile (Q3). La longueur de la boîte est l'Intervalle Interquartile (IQR = Q3 - Q1).
*   **La ligne médiane :** Une ligne à l'intérieur de la boîte indique la position du deuxième quartile (Q2), c'est-à-dire la médiane.
*   **Les "moustaches" (whiskers) :** Elles s'étendent de la boîte jusqu'aux valeurs minimales et maximales qui ne sont pas considérées comme des outliers. Typiquement, elles s'étendent jusqu'à 1.5 * IQR au-delà de Q1 et Q3.
*   **Les outliers :** Les points de données qui se situent au-delà des moustaches sont représentés individuellement sous forme de points.

En science des données et en IA :

*   Les boxplots sont excellents pour une **analyse exploratoire rapide** de la distribution d'une variable.
*   Ils permettent de **comparer facilement les distributions** de plusieurs groupes ou catégories sur un seul graphique.
*   Ils sont largement utilisés pour **détecter visuellement les outliers**, ce qui est une étape importante du prétraitement des données.
*   La position de la médiane par rapport au centre de la boîte et la longueur relative des moustaches donnent une indication de l'**asymétrie** de la distribution.

In [None]:
# Générer des données pour la démonstration du boxplot
np.random.seed(44) # Utilisation d'une autre graine
# Données normales avec un peu de bruit
data_boxplot = np.random.normal(loc=60, scale=15, size=200)

# Ajouter quelques outliers
outliers_boxplot = np.array([5, 10, 110, 120, 130])
data_boxplot_with_outliers = np.concatenate((data_boxplot, outliers_boxplot))

# Créer le boxplot
plt.figure(figsize=(8, 6))
plt.boxplot(data_boxplot_with_outliers, patch_artist=True, vert=False,  # vert=False pour un boxplot horizontal
            boxprops=dict(facecolor='lightblue', edgecolor='black'),
            medianprops=dict(color='red', linewidth=2),
            whiskerprops=dict(color='blue'),
            capprops=dict(color='blue'),
            flierprops=dict(marker='o', color='red', alpha=0.5) # Style des outliers
           )

# Ajouter des labels et un titre en français
plt.xlabel('Valeur des données') # Label de l'axe x en français
plt.title('Diagramme en Boîte (Boxplot) de la Distribution des Données') # Titre en français
plt.yticks([1], ['Données']) # Label pour l'axe y (pour boxplot horizontal)
plt.grid(True, axis='x', alpha=0.3) # Grille sur l'axe x

# Afficher le graphique
plt.show()

# Exemple avec plusieurs groupes pour comparaison
data_group1 = np.random.normal(loc=50, scale=10, size=100)
data_group2 = np.random.normal(loc=60, scale=12, size=150)
data_group3 = np.random.normal(loc=55, scale=8, size=120)

data_multiple_groups = [data_group1, data_group2, data_group3]

plt.figure(figsize=(10, 7))
plt.boxplot(data_multiple_groups, patch_artist=True,
            boxprops=dict(facecolor='lightgreen', edgecolor='black'),
            medianprops=dict(color='red', linewidth=2)
           )

plt.xticks([1, 2, 3], ['Groupe 1', 'Groupe 2', 'Groupe 3']) # Labels pour les groupes
plt.xlabel('Groupe') # Label de l'axe x en français
plt.ylabel('Valeur des données') # Label de l'axe y en français
plt.title('Comparaison des Distributions par Diagramme en Boîte') # Titre en français
plt.grid(True, axis='y', alpha=0.3) # Grille sur l'axe y

plt.show()

## 4. Théorème Central Limite

Le **Théorème Central Limite (TCL)** est un concept fondamental en probabilité et en statistique. Il stipule que, sous certaines conditions, la distribution de la somme (ou de la moyenne) d'un grand nombre de variables aléatoires indépendantes et identiquement distribuées (i.i.d.) tend vers une distribution normale (Gaussienne), quelle que soit la distribution d'origine des variables individuelles.

L'importance du TCL en science des données et en IA est immense :

*   **Inférence Statistique :** Le TCL justifie l'utilisation de la distribution normale pour construire des intervalles de confiance et effectuer des tests d'hypothèses sur les moyennes d'échantillons, même si la distribution de la population d'origine n'est pas normale, à condition que la taille de l'échantillon soit suffisamment grande.
*   **Modélisation :** De nombreux modèles statistiques et d'apprentissage automatique qui supposent la normalité (comme la régression linéaire ou certains tests statistiques) peuvent être appliqués à des données agrégées (comme les moyennes) grâce au TCL.
*   **Comprendre les phénomènes :** Le TCL explique pourquoi de nombreux phénomènes naturels et sociaux qui résultent de l'accumulation de nombreux petits effets aléatoires (erreurs de mesure, tailles des individus, etc.) suivent approximativement une distribution normale.
*   **Réduction de l'incertitude :** En montrant que la moyenne d'un grand échantillon est distribuée normalement et que sa variance diminue à mesure que la taille de l'échantillon augmente, le TCL nous aide à quantifier et à réduire l'incertitude dans nos estimations.

En pratique, "une grande taille d'échantillon" est souvent considérée comme n > 30, bien que cela dépende de la distribution d'origine.

In [None]:
# Démonstration du Théorème Central Limite
# On part d'une distribution non-normale (par exemple, une distribution uniforme)
# dont on va échantillonner et calculer les moyennes.

# Paramètres de la simulation
taille_population = 100000 # Taille de notre "population"
taille_echantillon = 30 # Taille des échantillons que nous allons prélever
nombre_echantillons = 1000 # Nombre d'échantillons à prélever

# Générer une population à partir d'une distribution non-normale (Uniforme)
population_data = np.random.uniform(low=0, high=10, size=taille_population)

# Afficher l'histogramme de la population d'origine (non-normale)
plt.figure(figsize=(12, 5))
plt.subplot(1, 2, 1)
plt.hist(population_data, bins=50, density=True, alpha=0.7, color='orange', edgecolor='black')
plt.xlabel('Valeur')
plt.ylabel('Densité de probabilité')
plt.title('Distribution de la Population (Uniforme)')
plt.grid(True, alpha=0.3)


# Prélever de nombreux échantillons et calculer la moyenne de chaque échantillon
moyennes_echantillons = []
for _ in range(nombre_echantillons):
    echantillon = np.random.choice(population_data, size=taille_echantillon, replace=True) # Échantillonnage avec remplacement
    moyenne_echantillon = np.mean(echantillon)
    moyennes_echantillons.append(moyenne_echantillon)

# Afficher l'histogramme des moyennes d'échantillons
plt.subplot(1, 2, 2)
plt.hist(moyennes_echantillons, bins=30, density=True, alpha=0.7, color='teal', edgecolor='black')
plt.xlabel('Moyenne de l\'échantillon')
plt.ylabel('Densité de probabilité')
plt.title(f'Distribution des Moyennes d\'Échantillons (n={taille_echantillon})')
plt.grid(True, alpha=0.3)

# Superposer une courbe normale théorique pour comparaison
from scipy.stats import norm
# La moyenne de la distribution des moyennes d'échantillons est la moyenne de la population
mean_of_sample_means = np.mean(moyennes_echantillons)
# L'écart-type de la distribution des moyennes d'échantillons est l'écart-type de la population / sqrt(n)
# On utilise l'écart-type de la population théorique uniforme: std = (high - low) / sqrt(12)
std_dev_population = (10 - 0) / np.sqrt(12)
std_error = std_dev_population / np.sqrt(taille_echantillon)

xmin, xmax = plt.xlim()
x = np.linspace(xmin, xmax, 100)
p = norm.pdf(x, mean_of_sample_means, std_error)
plt.plot(x, p, 'k', linewidth=2, label='Distribution Normale Théorique')
plt.legend()


plt.tight_layout() # Ajuster l'espacement
plt.show() # Afficher les graphiques

print(f"\nMoyenne de la population d'origine : {np.mean(population_data):.3f}")
print(f"Écart-type de la population d'origine : {np.std(population_data):.3f}")
print(f"\nMoyenne des moyennes d'échantillons : {mean_of_sample_means:.3f}")
print(f"Écart-type des moyennes d'échantillons (Erreur Standard) : {np.std(moyennes_echantillons):.3f}")
print(f"Erreur Standard théorique : {std_error:.3f}")

## III. Probabilités et analyse statistique avancée

### 1. Probabilité et loi de probabilité

#### Définition 

**Probabilité :** Mesure quantitative qui évalue la chance qu'un événement se réalise, représentée par un nombre réel dans l'intervalle [0, 1]. Pour un événement A appartenant à un espace probabilisé (Ω, P), sa probabilité est notée P(A) avec les propriétés suivantes :
* P(A) = 0 indique que l'événement est impossible
* P(A) = 1 indique que l'événement est certain
* 0 < P(A) < 1 caractérise un événement aléatoire

**Loi de probabilité :** Fonction mathématique qui attribue à chaque résultat possible d'une expérience aléatoire sa probabilité d'apparition. Elle fournit une description exhaustive de la répartition des probabilités sur l'ensemble de l'univers des possibles. Par définition, la somme des probabilités de tous les événements élémentaires (cas discret) ou l'intégrale de la densité de probabilité (cas continu) est égale à 1.

#### Exemples concrets

#### Exemple 1 : Lancer de pièce de monnaie
- Probabilité d'obtenir pile : P(Pile) = 1/2 = 0,5
- Probabilité d'obtenir face : P(Face) = 1/2 = 0,5
- Loi de Bernoulli : expérience aléatoire avec exactement deux résultats possibles (succès/échec), où les probabilités sont complémentaires, c'est-à-dire que P(succès) + P(échec) = 1. Dans cet exemple, si on définit "pile" comme un succès avec p = 0,5, alors "face" est un échec avec probabilité 1 - p = 0,5. Cette loi modélise toute situation binaire : réussite/échec d'un examen, clic/non-clic sur une publicité, client satisfait/insatisfait, etc.

#### Exemple 2 : Tirage de boules dans une urne
- Urne contenant 3 boules rouges et 7 boules bleues
- Probabilité de tirer une boule rouge : P(Rouge) = 3/10 = 0,3
- Probabilité de tirer une boule bleue : P(Bleue) = 7/10 = 0,7

#### Exemple 3 : Tirage de cartes
- Probabilité de tirer un as dans un jeu de 52 cartes : P(As) = 4/52 = 1/13
- Probabilité de tirer un cœur : P(♥) = 13/52 = 1/4

#### Exemple 4 : Loi binomiale
Pile ou Face : on lance une pièce 10 fois de suite. Quelle est la probabilité d'obtenir exactement 6 "pile" sachant que la probabilité d'obtenir "pile" à chaque lancer est p = 0,5 ? 
La loi binomiale B(n=10, p=0,5) modélise cette situation et donne P(X=6) ≈ 0,205 (20,5%). 
Cette loi est utilisée pour modéliser le nombre de succès dans une série d'expériences indépendantes avec deux issues possibles (succès/échec).


### Implémentation Python - Loi binomiale

#### Objectif de l'exercice
Simuler 10 lancers de pièce répétés plusieurs fois pour observer la loi binomiale en action et constater comment les probabilités théoriques se manifestent dans la pratique.

#### Comprendre l'approche
- **Une expérience** = lancer une pièce 10 fois
- **Répétition** = réaliser cette expérience 10 000 fois pour obtenir des statistiques fiables
- **Mesure** = compter le nombre de "pile" obtenus (entre 0 et 10) pour chaque expérience
- **Visualisation** = représenter la distribution des résultats (fréquence de 0 pile, 1 pile, 2 piles... jusqu'à 10 piles)

**Réflexion préalable :** Si on lance 10 fois une pièce, quel résultat semble le plus probable : obtenir 5 piles, 0 pile, ou 10 piles ? Pourquoi ?

**Paramètres de np.random.binomial :**
- n : nombre de lancers par expérience
- p : probabilité de succès pour chaque lancer
- size : nombre d'expériences à réaliser


In [None]:
# essai introductif

# Lancement d'une piède de monnaie
lancers = np.random.randint(0, 2, size = 10) # Génère aléatoirement 0 ou 1 x le chiffre affecté à size
print(f"Résultat des 10 lancers: {lancers}")

# Comptage des piles (1)
nb_pile = np.sum(lancers) # np.sum() additionne tous les éléments de la liste (donc que les 1) 
print(f"Nombre de pile obtenus: {nb_pile}")


In [None]:
# Essai sur 10000 expériences de 10 lancers de pièces

n_experiences= 10000
n_lancers = 10

# fonction binomale
resultats = np.random.binomial(n=n_lancers, p=0.5, size = n_experiences)

print(f"Les 10 premiers résultats: {resultats [:10]}")
print(f"Moyenne des resultats: {np.mean(resultats): .2f}")



**Analyse des résultats :**

La moyenne observée de 4,99 est très proche de l'espérance théorique de 5, calculée par n × p = 10 × 0,5. Cette convergence illustre la loi des grands nombres : plus le nombre d'expériences augmente, plus la moyenne empirique se rapproche de l'espérance mathématique.

La variabilité importante des résultats individuels est inhérente à la nature aléatoire de chaque expérience. Bien que la moyenne converge vers 5, les résultats individuels peuvent varier significativement, allant typiquement de 2 à 8 piles pour la majorité des expériences.

Cette distribution des résultats autour de la moyenne constitue précisément la loi binomiale que nous cherchons à observer.

### Simulation d'expériences de lancers de pièce

Cette expérience simule 10 000 répétitions d'une même expérience aléatoire : lancer une pièce de monnaie 10 fois consécutivement et compter le nombre de "pile" obtenus. Pour chaque répétition, le nombre de "pile" peut varier entre 0 et 10. L'histogramme qui suit présente la distribution de ces résultats, permettant d'observer visuellement comment les probabilités se manifestent dans la pratique et de mettre en évidence la loi binomiale sous-jacente.

In [None]:
plt.figure(figsize=(10,6))
# range(0, 12) crée 11 intervalles pour les valeurs 0 à 10
plt.hist(resultats, bins=range(0, 12), density=True, alpha=0.7, edgecolor= 'black')
plt.title("Distribution de la loi binomiale (n=10, p=0.5)")
plt.xlabel("Nombre de 'pile' obtenus")
plt.ylabel("Probabilité")
plt.xticks((0, 11))
plt.grid(axis='y', alpha=0.3)
plt.show()

**Observations :**

La distribution présente une forme de cloche symétrique, caractéristique de la loi binomiale avec p = 0.5. Le pic, correspondant à la barre la plus haute de l'histogramme, se situe autour de 5 piles et représente le résultat le plus fréquent observé. Cette valeur correspond à l'espérance théorique calculée par n × p = 10 × 0.5 = 5.

Les valeurs extrêmes (0 et 10 piles) présentent les probabilités les plus faibles, confirmant leur caractère rare : obtenir uniquement des piles ou uniquement des faces nécessite que tous les lancers donnent le même résultat, événement dont la probabilité est de (0.5)^10 ≈ 0.001, soit environ 0.1%.

Cette symétrie s'explique par la probabilité égale de succès et d'échec à chaque lancer. Le pic représente le mode de la distribution, c'est-à-dire la valeur statistiquement la plus probable.

### 2. Variables indépendantes

#### Précision terminologique

En statistiques, une **variable** représente une caractéristique mesurable qui peut prendre différentes valeurs. Par exemple : le résultat d'un lancer de dé (1 à 6), la taille d'une personne (en cm), le nombre d'emails reçus par jour. Une **variable aléatoire** est une variable dont la valeur dépend du hasard.

#### Définition 

**Variables aléatoires indépendantes :** Deux variables aléatoires X et Y sont indépendantes si la connaissance de la valeur prise par l'une ne modifie pas la distribution de probabilité de l'autre.

**Propriété mathématique :** Pour des variables indépendantes, P(Y = y | X = x) = P(Y = y) pour tous x et y. La probabilité conditionnelle (sachant X) égale la probabilité simple : "savoir X" ne change rien à nos prédictions sur Y.

**Conséquences importantes :** Si X et Y sont indépendantes, alors :
- Cov(X, Y) = 0 (covariance nulle)
- E(XY) = E(X) × E(Y) (espérance du produit = produit des espérances)

**Attention :** L'inverse n'est pas toujours vrai : Cov(X, Y) = 0 n'implique pas nécessairement l'indépendance (sauf pour les variables gaussiennes).

#### Exemples concrets

#### Exemple 1 : Deux lancers de dés (indépendants)

**Variables :**
- X = résultat du premier dé (peut valoir 1, 2, 3, 4, 5 ou 6)
- Y = résultat du second dé (peut valoir 1, 2, 3, 4, 5 ou 6)

**Indépendance observée :**
- Avant de lancer le premier dé : Y a 1/6 de chance de valoir chaque nombre
- Après avoir observé X = 4 : Y a toujours 1/6 de chance de valoir chaque nombre
- **Conclusion :** La distribution de Y n'a pas changé malgré la connaissance de X. Savoir que X = 4 ne nous aide pas à prédire Y.

#### Exemple 2 : Météo de deux villes éloignées (indépendants)

**Variables :**
- X = pluie à Paris (oui/non)
- Y = pluie à Tokyo (oui/non)

**Indépendance observée :** Ces villes sont trop éloignées pour que la météo de l'une influence l'autre.

#### Contre-exemple : Heures d'étude et note (dépendants)

**Variables :**
- X = nombre d'heures d'étude
- Y = note à l'examen

**Dépendance observée :**
- Si X = 0 heure → Y sera probablement faible (concentration sur notes basses)
- Si X = 50 heures → Y sera probablement élevée (concentration sur notes hautes)
- **Conclusion :** Connaître X modifie la distribution attendue de Y. Les variables sont dépendantes.

**Note importante :** Bien que nous nous concentrions sur l'indépendance des variables aléatoires en statistique, il existe un lien avec la notion d'indépendance en probabilité. Pour deux variables indépendantes, la probabilité conjointe P(X = x ∩ Y = y) (que X ET Y prennent des valeurs spécifiques simultanément) est égale au produit des probabilités individuelles P(X = x) × P(Y = y). Cette propriété permet de tester mathématiquement l'indépendance entre variables.

#### Implémentation Python - Vérification de l'indépendance

#### Objectif de l'exercice

Simuler le tirage avec remise d'une carte dans deux paquets identiques contenant chacun 4 as (pique, cœur, carreau, trèfle). Chaque paquet est mélangé indépendamment et on tire une carte au hasard de chaque paquet simultanément. Le résultat du tirage dans le premier paquet n'influence en rien celui du second paquet. Nous vérifierons statistiquement cette indépendance par le calcul de corrélation et une visualisation de la distribution conjointe. Cet exercice illustre le principe fondamental d'indépendance statistique entre deux expériences aléatoires identiques mais autonomes, concept essentiel en machine learning.

In [None]:
# Simulation des tirages
# Représentation des as : 0=Pique, 1=Cœur, 2=Carreau, 3=Trèfle

n_tirages= 35

# Le tirage aléatoires des deux paquets
paquet_1= np.random.randint(0, 4, size=n_tirages)
paquet_2= np.random.randint(0, 4, size= n_tirages)

print(f"Résultat des 10 premiers tirages du paquet 1: {paquet_1}")
print(f"Résultat des 10 premiers tirages du paquet 2: {paquet_2}")


**Observation:** Nous constatons que compte tenu de la réccurence des différences de résultats obtenus les tirages (variables) sont bien indépendents

#### Visualisation de l'indépendance avec une heatmap

Pour démontrer visuellement l'indépendance entre les deux paquets, nous allons créer une carte de chaleur (heatmap) qui affiche la fréquence d'apparition de chaque combinaison possible. Si les variables sont indépendantes, toutes les combinaisons devraient apparaître avec une fréquence similaire (environ 6.25% pour 16 combinaisons possibles).

**Outils techniques utilisés :**

**NumPy - Construction de la matrice de comptage avec `np.zeros()` :**

`np.zeros()` est une fonction NumPy qui crée un tableau (array) rempli de zéros.

**Syntaxe de base :**
- `np.zeros(5)` → crée un tableau 1D avec 5 zéros : [0. 0. 0. 0. 0.]
- `np.zeros((3, 4))` → crée une matrice 2D de 3 lignes × 4 colonnes, toutes à zéro

**Application dans notre exercice :**

Avec `np.zeros((4, 4))`, nous créons une matrice 4×4 vide servant de tableau de comptage, similaire à un tableau Excel de 4 lignes et 4 colonnes où toutes les cases contiennent initialement 0.

**Mécanisme de comptage :**
1. Au départ : toutes les cases valent 0
2. Quand on tire Pique (0) du paquet 1 et Cœur (1) du paquet 2 → `matrice[0, 1] += 1`
3. Cette case passe de 0 à 1
4. Si cette combinaison réapparaît → elle passe à 2, puis 3, etc.
5. À la fin, chaque case contient le nombre total d'occurrences de sa combinaison respective

La division vectorisée convertit ensuite ces comptages en pourcentages pour faciliter l'interprétation.

**Seaborn - Visualisation des données :**

`sns.heatmap()` transforme la matrice numérique en carte de chaleur où l'intensité des couleurs représente les fréquences. Cette visualisation permet une lecture intuitive immédiate de la distribution : des couleurs uniformes indiquent l'indépendance.

**Matplotlib - Support de rendu :**

Fournit l'infrastructure graphique sous-jacente à Seaborn pour créer et afficher la figure. Gère la fenêtre d'affichage, les axes et la mise en page finale.

**Interprétation attendue :**

Si les deux paquets sont réellement indépendants, la heatmap devrait montrer une distribution quasi-uniforme avec toutes les cases affichant des valeurs proches de 6.25% et des couleurs homogènes. Aucune combinaison ne devrait être significativement sur-représentée ou sous-représentée.

In [None]:
# Étape 1 : Simulation des tirages
# Représentation des as : 0=Pique, 1=Cœur, 2=Carreau, 3=Trèfle
n_tirages = 1000

# Paquet 1 : tirage aléatoire d'un as
paquet_1 = np.random.randint(0, 4, size=n_tirages)

# Paquet 2 : tirage aléatoire d'un as 
paquet_2 = np.random.randint(0, 4, size=n_tirages)

# Les lignes représentent les as du paquet 1, les colonnes ceux du paquet 2
matrice_comptage = np.zeros((4, 4))

# Compter les occurrences de chaque paire
# Cette boucle parcourt chaque tirage simultanément dans les deux paquets
for i in range(len(paquet_1)):
    # Pour le i-ème tirage :
    # - paquet_1[i] donne l'as tiré du premier paquet (0=Pique, 1=Cœur, 2=Carreau, 3=Trèfle)
    # - paquet_2[i] donne l'as tiré du deuxième paquet
    # - matrice_comptage[ligne, colonne] accède à la case correspondante
    # - += 1 incrémente le compteur de cette combinaison spécifique
    # Exemple : si paquet_1[i] = 1 (Cœur) et paquet_2[i] = 3 (Trèfle)
    # alors on ajoute 1 à matrice_comptage[1, 3]
    matrice_comptage[paquet_1[i], paquet_2[i]] += 1

# convertir en %
pourcentage = (matrice_comptage / n_tirages) * 100

# Étape 3 : Visualisation avec heatmap
# Définir les labels des as
labels = ['Pique', 'Cœur', 'Carreau', 'Trèfle']

# création du heatmap
plt.figure(figsize=(8, 6))
sns.heatmap(pourcentage,  # Matrice de données (en %)
            annot=True,  # affiche les valeurs dans chaque case
            fmt='.2f',  # format des annotations: 2 décimales
            cmap='YlOrRd',  # choix des couleurs (jaune → orange → rouge)
            cbar_kws={'label': 'Fréquence (%)'},  
            xticklabels=labels,  # pique, coeur, carreau, trefle
            yticklabels=labels)  # Idem

# Titres
plt.title('Distribution des combinaisons - Deux paquets indépendants')
plt.xlabel('Paquet 2') 
plt.ylabel('Paquet 1')  
plt.tight_layout()  # ajuste automatiquement l'espacement entre les éléments du graphique
plt.show()

# Afficher les valeurs numériques
print("\nMatrice de fréquences (en %) :")
print(pourcentage)  

#### Conclusion sur l'indépendance des variables

#### Confirmation de l'indépendance

On observe que la distribution des combinaisons entre les deux paquets suit parfaitement le comportement attendu pour des variables indépendantes.

On constate que :
- Toutes les combinaisons possibles apparaissent avec des fréquences similaires
- La majorité des valeurs se situent autour de la probabilité théorique de 6,25%
- Aucun pattern particulier ni de combinaison privilégiée n'est détecté
- Les écarts observés entre 4,4% et 7,4% correspondent aux fluctuations statistiques attendues

#### Interprétation statistique

On peut affirmer que les deux paquets se comportent comme des variables aléatoires indépendantes. Le tirage d'un as dans un paquet n'influence pas le tirage dans l'autre paquet. La dispersion des valeurs autour de 6,25% est tout à fait normale dans un processus aléatoire avec cet effectif d'échantillon.

#### Validation du modèle

On a démontré empiriquement que le modèle de tirages indépendants est validé par les données observées. Cette expérience illustre de manière concrète le concept d'indépendance statistique.

### 3. Espérance, variance et écart-type

### 3. ESPÉRANCE, VARIANCE ET ÉCART-TYPE

---

### A. ESPÉRANCE - E(X) : "La moyenne qu'on attend"

#### C'est quoi l'espérance ?

L'**espérance**, c'est simplement **la moyenne qu'on obtiendrait si on répétait l'expérience plein de fois**. C'est le résultat "typique" qu'on peut attendre.

#### Comment la calculer ?

**Formule : E(X) = Σ [xi × P(X = xi)]**

Ça peut paraître compliqué, mais c'est simple :
1. On prend chaque résultat possible
2. On le multiplie par sa probabilité (ses chances d'arriver)
3. On additionne tout

#### Exemple simple : lancer de dé

Un dé a 6 faces : 1, 2, 3, 4, 5, 6. Chaque face a 1 chance sur 6 d'apparaître.

**Calcul :**

E(X) = (1 × 1/6) + (2 × 1/6) + (3 × 1/6) + (4 × 1/6) + (5 × 1/6) + (6 × 1/6)
     = (1 + 2 + 3 + 4 + 5 + 6) / 6
     = 21 / 6
     = **3,5**

**Ce que ça veut dire :** Si vous lancez le dé 1000 fois et que vous faites la moyenne de tous vos résultats, vous trouverez environ 3,5.

**Note importante :** Vous n'obtiendrez jamais 3,5 sur un seul lancer ! C'est juste la moyenne sur le long terme.

#### Cas particulier : quand tous les résultats ont les mêmes chances

Si tous les résultats sont équiprobables (mêmes chances), c'est encore plus simple :

**E(X) = (Somme de toutes les valeurs) / (Nombre de valeurs)**

C'est la moyenne qu'on connaît tous !

#### Exemple avec des chances différentes : le jeu de grattage

Un ticket de grattage coûte 3€. Voici ce qu'on peut gagner :
- 90% de chance : 0€ (rien)
- 8% de chance : 5€
- 2% de chance : 100€

**Calcul du gain moyen :**

E(Gain) = (0 × 0,90) + (5 × 0,08) + (100 × 0,02)
        = 0 + 0,40 + 2,00
        = **2,40€**

Le ticket coûte 3€, donc en moyenne on perd : 2,40€ - 3€ = **-0,60€**

**Conclusion :** En moyenne, on perd 60 centimes à chaque fois qu'on joue. C'est comme ça que le vendeur gagne de l'argent !

---

### B. VARIANCE - Var(X) : "Mesurer si c'est dispersé"

#### C'est quoi la variance ?

La variance mesure **à quel point les résultats sont éloignés de la moyenne**. En d'autres termes : est-ce que tout le monde a des résultats similaires, ou y a-t-il de grandes différences ?

#### Comment la calculer ?

**Formule : Var(X) = E[(X - μ)²]**

Traduction en français :
1. On calcule l'écart entre chaque valeur et la moyenne (X - μ)
2. On élève chaque écart au carré (pour éviter que les + et - s'annulent)
3. On fait la moyenne de tous ces carrés

#### Pourquoi on élève au carré ?

**Le problème sans le carré :**

Imaginons 3 personnes mesurant : 160 cm, 170 cm, 180 cm (moyenne = 170 cm)

**Écarts par rapport à la moyenne :**
- 160 - 170 = **-10**
- 170 - 170 = **0**
- 180 - 170 = **+10**

Si on fait la moyenne de ces écarts : (-10 + 0 + 10) / 3 = **0**

Problème ! Ça dit qu'il n'y a pas d'écart, alors qu'il y en a bien un de 10 cm !

**La solution avec le carré :**
- (-10)² = **100**
- (0)² = **0**
- (10)² = **100**

Moyenne : (100 + 0 + 100) / 3 = **66,7**

Maintenant on a bien une mesure de la dispersion !

#### Version plus rapide à calculer

**Formule : Var(X) = E(X²) - [E(X)]²**

C'est mathématiquement équivalent, mais plus rapide :
1. On calcule la moyenne des carrés : E(X²)
2. On calcule le carré de la moyenne : [E(X)]²
3. On soustrait : Var(X) = E(X²) - [E(X)]²

#### Exemple concret : notes d'examen

**Classe A :**
Tout le monde a entre 12 et 14 → **Variance faible** (groupe homogène)

**Classe B :**
Certains ont 5, d'autres 18 → **Variance élevée** (groupe hétérogène)

**Interprétation :** Plus la variance est grande, plus il y a de différences entre les individus.

---

### C. ÉCART-TYPE - σ : "La variance qu'on comprend"

#### C'est quoi l'écart-type ?

L'écart-type, c'est simplement **la racine carrée de la variance**.

**Formule : σ = √Var(X)**

#### Pourquoi faire ça ?

**Le problème de la variance :** elle est dans une unité bizarre !

**Exemple avec des tailles :**
- Les tailles sont mesurées en **cm**
- La variance est en **cm²** (centimètres carrés !)

Comment interpréter "100 cm² de taille" ? Ça n'a pas de sens !

**La solution : l'écart-type**

En prenant la racine carrée, on revient à l'unité d'origine :
- Variance = 100 cm²
- Écart-type = √100 = **10 cm**

Maintenant on peut dire : "Les tailles varient d'environ ±10 cm autour de la moyenne."

#### Exemple complet : tailles d'adultes

- Moyenne : 170 cm
- Écart-type : 10 cm

**Ce que ça signifie concrètement :**
- La plupart des gens (environ 68%) mesurent entre **160 cm et 180 cm** (170 ± 10)
- Presque tout le monde (95%) mesure entre **150 cm et 190 cm** (170 ± 20)

#### Exemple : lancer de dé

On a vu que l'espérance est 3,5 et la variance est environ 2,92.

**Écart-type :**
σ = √2,92 ≈ **1,71**

**Interprétation :** Les résultats du dé s'écartent typiquement de ±1,7 autour de 3,5.

Donc la plupart des résultats sont entre :
- 3,5 - 1,7 = **1,8**
- 3,5 + 1,7 = **5,2**

Ça correspond bien aux valeurs possibles du dé (1 à 6) !

---

### Résumé visuel

| Concept | Question | Réponse | Unité |
|---------|----------|---------|-------|
| **Espérance** | Quelle est la moyenne attendue ? | Le centre | cm, €, points... |
| **Variance** | Les valeurs sont-elles dispersées ? | Dispersion² | cm², €²... (difficile) |
| **Écart-type** | Les valeurs sont-elles dispersées ? | Dispersion | cm, €, points... (facile) |

**Conseil pratique :**
- On **calcule** la variance (c'est plus pratique mathématiquement)
- On **communique** l'écart-type (c'est plus facile à comprendre)

---

### Un dernier exemple pour tout comprendre

**Deux classes passent le même examen (note sur 20) :**

**Classe A :**
- Moyenne : 12
- Écart-type : 1
- **Interprétation :** Tout le monde a entre 11 et 13. Classe très homogène.

**Classe B :**
- Moyenne : 12
- Écart-type : 5
- **Interprétation :** Certains ont 7, d'autres 17. Classe très hétérogène.

**Conclusion :** Même moyenne, mais dispersion très différente ! L'écart-type nous donne cette information précieuse.

#### Objectif de l'exercice

Simuler les résultats d’un examen dont les **notes suivent une distribution réaliste sur 20 points**.
L’objectif est de **vérifier que, sur un grand nombre d’élèves, la moyenne empirique converge vers l’espérance théorique**, puis de **calculer la variance et l’écart-type** afin de mesurer la **dispersion des notes**.


In [None]:
 # Démonstration de l'espérance avec les note d'une classe

# Distribution des notes sur 20
notes_possibles = [6, 8, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19]
probabilites = [0.02, 0.05, 0.08, 0.10, 0.15, 0.18, 0.15, 0.12, 0.08, 0.04, 0.02, 0.01] #Probablité d'obtenir chacune des notes

# Vérification que la somme des probabilités fait bien 1
print(f"Somme des probabilités: {sum(probabilites)}")


In [None]:
# simuler les notes des élèves

n_eleves = 100

# Notes selon les probabilités définies
notes = np.random.choice(notes_possibles, size=n_eleves, p=probabilites)

#Premières 20 notes
print(f"Les 20 premières notes: {notes [:20]}")

# Conversion en array pour multiplication élément par élément
notes_possibles = np.array(notes_possibles)
probabilites   = np.array(probabilites)
# Calcul de la moyenne empirique et théorique
esperance_theorique = np.sum(notes_possibles * probabilites)
print(f"Espérance théorique : {esperance_theorique:.2f}")

moyenne_empirique = np.mean(notes)
print(f"\nMoyenne de la classe (empirique) : {moyenne_empirique:.2f}")

# Calculs variance et ecart-type
variance_empirique = np.var(notes)
ecart_type_empirique = np.std(notes)
print(f"Variance empirique : {variance_empirique:.2f}")
print(f"Écart-type empirique : {ecart_type_empirique:.2f}")


In [None]:
# Visualisation
plt.figure(figsize=(12,6))
sns.histplot(notes, bins=range(5,21), kde=False, color='skyblue', edgecolor='black')

# Ligne espérance théorique
plt.axvline(esperance_theorique, color='red', linestyle='--', linewidth=2, label=f'Espérance = {esperance_theorique:.2f}')

# Zone de ± écart-type autour de la moyenne empirique
plt.axvline(moyenne_empirique, color='green', linestyle='-', linewidth=2, label=f'Moyenne empirique = {moyenne_empirique:.2f}')
plt.fill_betweenx([0, plt.gca().get_ylim()[1]], 
                  moyenne_empirique - ecart_type_empirique, 
                  moyenne_empirique + ecart_type_empirique, 
                  color='orange', alpha=0.2, label=f'Écart-type ≈ {ecart_type_empirique:.2f}')

plt.title("Distribution simulée des notes avec espérance, variance et écart-type")
plt.xlabel("Notes")
plt.ylabel("Nombre d'élèves")
plt.legend()
plt.show()

#### Observations

- **Espérance théorique : 12.97**  
  Moyenne attendue si l’on observe un très grand nombre d’élèves selon la distribution définie. Représente la tendance centrale des notes.

- **Moyenne empirique : 12.96**  
  Calculée à partir des 5000 notes simulées. Très proche de l’espérance théorique, ce qui montre que la simulation fonctionne bien et illustre la loi des grands nombres.

- **Variance empirique : 6.43**  
  Mesure la dispersion des notes autour de la moyenne. Une variance modérée indique que certaines notes s’écartent sensiblement de la moyenne.

- **Écart-type empirique : 2.54**  
  Racine carrée de la variance, exprimée dans la même unité que les notes. La majorité des notes se situe environ dans l’intervalle `[12.96 - 2.54, 12.96 + 2.54] ≈ [10.4, 15.5]`.
