<a href="https://colab.research.google.com/github/JingMatrix/KMAXPP02/blob/main/TP2_KMAXPP02.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# KMAXPP02 - Probabilités & statistiques continues - TP2
#### Université de Toulouse, Printemps 2025-2026, L3 Maths-TP

---

### Consignes pour le TP :
- **Méthode :** Complétez les zones marquées `TODO` ou `...`. Référez-vous au cours pour les formules théoriques (Espérance, Variance, TCL, IC).
- **Rendu :** Dépôt individuel sur PigeonFiles (nom du fichier : `NOM-PRENOM-TP2_KMAXPP02.ipynb`).
- **Délai :** Mardi 23h59 suivant la séance.

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
from numpy import sqrt, pi, exp, log, cos, sin
from numpy.random import default_rng
import scipy.stats as sps

# Initialisation de la graine aléatoire pour la reproductibilité
rng = default_rng(42)  

## Exercice 1. Loi des Grands Nombres : Estimation de $\pi$

La Loi Forte des Grands Nombres assure que la moyenne empirique converge vers l'espérance théorique. Nous allons utiliser ce principe pour calculer une intégrale (Méthode de Monte Carlo).

On sait que $\pi = \int_0^1 4\sqrt{1-x^2} dx$. 
Si $U \sim \mathcal{U}([0,1])$, alors $\mathbb{E}[4\sqrt{1-U^2}] = \pi$.

**1.** Définissez la fonction `h(x)` correspondant à l'intégrande.

**2.** Générez un vecteur `U` de $N=1000$ variables uniformes sur $[0,1]$.

**3.** Calculez le vecteur des **moyennes cumulées**. La $k$-ième valeur de ce vecteur doit être la moyenne des $k$ premières valeurs de $h(U)$.  
*Indication : La fonction `np.cumsum()` sera très utile.*

**4.** Tracez l'évolution de cette moyenne cumulée en fonction du nombre de simulations ($k$ allant de 1 à $N$). Ajoutez une ligne horizontale rouge représentant la vraie valeur de $\pi$.

In [None]:
N = 1000

# 1. Définition de h(x)
def h(x):
    return ... # TODO

# 2. Génération des U
U = ... # TODO

# 3. Calcul des moyennes cumulées
# Rappel : la moyenne cumulée au rang k est la somme des k premiers éléments divisée par k
Y = h(U)
moyennes_cumulees = ... # TODO (Utilisez np.cumsum)

In [None]:
# 4. Graphique
if moyennes_cumulees is not ...:
    plt.figure(figsize=(10, 5))
    # TODO : Tracer les moyennes cumulées (axe x : np.arange(1, N+1))
    plt.plot(..., label='Approximation Monte Carlo')
    plt.axhline(np.pi, color='red', linestyle='--', label='Valeur cible $\pi$')
    plt.xlabel("Nombre d'itérations $n$")
    plt.legend()
    plt.title("Convergence vers $\pi$ par la Loi des Grands Nombres")
    plt.show()

## Exercice 2. Le Théorème Central Limite (TCL) : Succès et Échec

Le TCL affirme que la somme normalisée de variables i.i.d. converge vers une loi Normale Standard $\mathcal{N}(0,1)$, **si la variance des variables est finie**.
$$ Z_n = \sqrt{n} \frac{\overline{X}_n - \mu}{\sigma} \xrightarrow{\mathcal{L}} \mathcal{N}(0, 1) $$

Nous allons vérifier cela numériquement pour deux lois différentes.

### A. Cas classique : Loi Exponentielle
On considère $X_i \sim \mathcal{E}(1)$.

**1.** Générez une matrice `X_mat` de taille $(M=2000, n=100)$ contenant des tirages exponentiels de paramètre 1.

**2.** Calculez le vecteur des $M$ moyennes empiriques (une moyenne par ligne, utilisez `axis=1`).

**3.** Quelle est l'espérance $\mu$ et l'écart-type $\sigma$ théoriques d'une loi $\mathcal{E}(1)$ ? Utilisez-les pour calculer le vecteur $Z_n$ (variable centrée réduite).

**4.** Tracez l'histogramme de $Z_n$ (avec `density=True`) et superposez la densité théorique de $\mathcal{N}(0,1)$. Le TCL est-il vérifié ?

In [None]:
M = 2000  # Nombre d'expériences
n = 100   # Taille de l'échantillon par expérience

# 1. Simulation de la matrice
X_mat = ... # TODO : rng.exponential(...)

# 2. Calcul des moyennes empiriques (X_bar)
X_bar = ... # TODO : np.mean(...)

# 3. Normalisation (Zn)
mu_th = ...    # TODO
sigma_th = ... # TODO
Zn_exp = ...   # TODO : Formule Zn = sqrt(n) * (mean - mu) / sigma

In [None]:
# 4. Visualisation
if Zn_exp is not ...:
    plt.figure(figsize=(8, 5))
    plt.hist(Zn_exp, bins=40, density=True, alpha=0.6, label='Histogramme $Z_n$')
    
    # Densité théorique N(0,1)
    x_axis = np.linspace(-4, 4, 100)
    plt.plot(x_axis, sps.norm.pdf(x_axis), 'r', label='Densité $\mathcal{N}(0,1)$')
    plt.title('TCL : Somme de lois Exponentielles')
    plt.legend()
    plt.show()

### B. Cas pathologique : Loi de Cauchy
On considère maintenant $Y_i \sim \mathcal{C}(0,1)$ (loi de Cauchy standard).

**5.** Reproduisez les étapes précédentes (génération, moyenne). Tentez de normaliser en utilisant "$\mu=0$" et "$\sigma=1$" (bien que ces moments n'existent pas pour Cauchy).

**6.** Observez l'histogramme. Ressemble-t-il à une Gaussienne ? Que concluez-vous sur les hypothèses du TCL ?

In [None]:
# TODO : Reproduire la simulation pour la loi de Cauchy (rng.standard_cauchy)

Y_mat = ...
Y_bar = ...
Zn_cauchy = sqrt(n) * Y_bar # On essaie de normaliser aveuglément

if Zn_cauchy is not ...:
    plt.figure(figsize=(8, 5))
    # On fixe le range pour voir le centre, car Cauchy a des valeurs extrêmes
    plt.hist(Zn_cauchy, bins=40, density=True, range=(-5, 5), alpha=0.6, color='orange', label='Histogramme $Z_n$ (Cauchy)')
    # TODO: Densité théorique N(0,1)

## Exercice 3. Application du TCL : Le problème du Surbooking

Une compagnie aérienne possède un avion de **150 places**. Elle vend **$n$ billets**. 
Chaque passager a une probabilité **$p=0.75$** de se présenter à l'embarquement, indépendamment des autres.

Soit $S_n$ la variable aléatoire représentant le nombre de passagers présents.

**1. (Modélisation)** Quelle est la loi exacte de $S_n$ ? Pour $n=180$ billets vendus, simulez $10^4$ vols et tracez l'histogramme du nombre de passagers présents.

**2. (Approximation Gaussienne)** D'après le TCL, on peut approcher la loi de $S_n$ par une loi Normale $\mathcal{N}(\mu_n, \sigma_n^2)$. 
Calculez les paramètres $\mu_n$ et $\sigma_n$. Superposez la densité de cette loi Gaussienne à l'histogramme précédent. L'approximation semble-t-elle bonne ?

**3. (Calcul de Risque)** La compagnie vend $n=180$ billets.
- Calculez le risque de surbooking $P(S_n > 150)$ empiriquement (proportion des simulations dépassant 150).
- Calculez ce même risque théoriquement via l'approximation gaussienne (utilisez `sps.norm.cdf` ou `sps.norm.sf`). Comparer.

**4. (Optimisation)** Quel est le nombre **maximum** de billets $n$ que la compagnie peut vendre pour que le risque de surbooking reste inférieur à **1%** ? (Vous pouvez procéder par tâtonnement ou avec une boucle).

In [None]:
nb_sim = 10**4
n_billets = 180
p = 0.75
places = 150

# 1. Simulation
# Sn suit une loi Binomiale. Simuler nb_sim réalisations.
Sn = ... # TODO : rng.binomial

In [None]:
# 2. Approximation Gaussienne
mu_n = ...    # TODO : Espérance d'une Binomiale(n, p)
sigma_n = ... # TODO : Écart-type d'une Binomiale(n, p)

# Visualisation
if Sn is not ...:
    plt.figure(figsize=(8, 5))
    plt.hist(Sn, bins=range(min(Sn), max(Sn)+2), density=True, align='left', alpha=0.6, label='Simulation (Binomiale)')
    # TODO: Densité gaussienne

In [None]:
# 3. TODO: Risque de surbooking (n=180)
risque_empirique = ...
risque_theorique = ...

print(f"--- Pour n={n_billets} billets ---")
print(f"Risque empirique (Monte Carlo) : {risque_empirique:.4f}")
print(f"Risque théorique (Approx Gauss): {risque_theorique:.4f}")

In [None]:
# 4. Optimisation
# TODO : Trouver le n max tel que risque < 0.01
print("\n--- Optimisation ---")
for n_test in range(150, 200):
    # Recalculer mu, sigma et le risque pour n_test
    # Si risque > 0.01, alors le n précédent était le max.
    pass 

## Exercice 4. Statistiques : Taux de couverture des Intervalles de Confiance

On cherche à vérifier la fiabilité des intervalles de confiance (IC). La théorie nous dit qu'un IC à 95% doit contenir la vraie valeur du paramètre dans 95% des expériences.

On considère une proportion $p$ (inconnue en pratique, fixée à 0.3 pour la simulation).
L'intervalle de confiance asymptotique est donné par : $\left[ \hat{p} \pm 1.96 \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \right]$.

**1.** Complétez la fonction `simuler_sondage(n, p_vrai)` qui :
   - Simule un échantillon de taille $n$ (Bernoulli de paramètre $p_{vrai}$).
   - Calcule l'estimateur $\hat{p}$.
   - Renvoie les bornes `(inf, sup)` de l'IC à 95%.

**2.** Utilisez cette fonction pour simuler $M=100$ sondages indépendants (avec $n=500$).

**3.** Comptez combien de ces intervalles contiennent effectivement le vrai $p$.

**4.** Affichez le graphique des 100 intervalles (segments verticaux). Colorez en **rouge** ceux qui ne contiennent pas $p$ et en **vert** les autres.

In [None]:
def simuler_sondage(n, p_vrai):
    # TODO: Simulation
    echantillon = ...
    p_hat = ...
    
    # Calcul de la marge d'erreur (1.96 * ...)
    marge = ... 
    
    return p_hat - marge, p_hat + marge, p_hat

In [None]:
# TODO: Paramètres
p_true = ...
n = ...
M = ...

In [None]:
plt.figure(figsize=(12, 6))
plt.axhline(p_true, color='black', label='Vrai $p$')

succes = 0

for i in range(M):
    # Appeler la fonction
    low, high, p_est = simuler_sondage(n, p_true)
    
    if low is not ...:
        # Vérifier si p_true est dans [low, high]
        if ... : # TODO
            color = 'green'
            succes += 1
        else:
            color = 'red'
        
        plt.vlines(i, low, high, colors=color, alpha=0.5)
        plt.plot(i, p_est, 'o', color=color, markersize=2)

plt.title(f"Taux de couverture sur {M} expériences : {succes} %")
plt.show()

## Exercice Bonus : La méthode de Box-Muller

Comment simuler une loi Normale si l'on ne dispose que d'un générateur Uniforme ? La méthode de Box-Muller utilise un changement de variables en coordonnées polaires.

Soient $X, Y$ deux variables aléatoires $\mathcal{N}(0,1)$ indépendantes.

**1. (Observation)** Simulez $X$ et $Y$ (avec `rng.normal`) pour $N=10^4$. 
   - Calculez $R^2 = X^2 + Y^2$. Tracez son histogramme. Comparez avec la densité d'une loi Exponentielle $\mathcal{E}(1/2)$.
   - Calculez $\Theta$ l'angle du vecteur (utilisez `np.arctan2(Y, X)`). Tracez son histogramme. Quelle est sa loi ?

**2. (Algorithme)** En déduire comment générer $X$ et $Y$ à partir de deux variables uniformes $U_1$ (pour simuler $R^2$) et $U_2$ (pour simuler $\Theta$).
   *Rappel : Si $U \sim \mathcal{U}([0,1])$, alors $-2\ln(U) \sim \mathcal{E}(1/2)$.*

**3. (Validation)** Implémentez votre algorithme et vérifiez que les variables générées suivent bien une loi Normale.

In [None]:
# TODO : Votre exploration et implémentation de Box-Muller ici
...