# SEANCE 8 - Mini-projet – Simuler des données qui valident ou invalident $H_0$

**Consignes : réaliser ce mini-projet individuel sur un notebook que vous me partagerez en m'envoyant le lien à l'adresse : frederique.beaudeux@univ-lorraine.fr**

## Partie 1 – Générer des données en Python (guidée) dans le style EX1/2/3

### Pourquoi simuler ?
La simulation permet de comprendre concrètement ce qui influence un test statistique :
- la taille d’échantillon $n$,
- la variabilité $s$ (bruit),
- l’écart à la valeur de référence $\mu_0$ (effet).

On va générer des données réalistes, puis vérifier si elles conduisent à :
- **ne pas rejeter** $H_0$ (p-value > 0.05),
- ou **rejeter** $H_0$ (p-value < 0.05).

---

## Modèle simple de simulation

On suppose que les mesures suivent (approximativement) une loi normale :
$$
Y \sim \mathcal{N}(\mu, \sigma)
$$

En pratique :
- $\mu$ = valeur moyenne réelle (peut être proche ou non de $\mu_0$)
- $\sigma$ = dispersion (bruit de mesure + variabilité procédé)
- $n$ = nombre de mesures

---

## Hypothèse nulle (exemple)

On reprend le cas d’un capteur de force :
$$
H_0 : \mu = 500
$$

Test bilatéral au seuil 5% :
- p-value < 0.05 → rejet de $H_0$
- p-value > 0.05 → on ne rejette pas $H_0$


In [None]:
import numpy as np

def simulate_measurements(mu: float, sigma: float, n: int, seed: int = 0) -> np.ndarray:
    """
    Simule n mesures selon une loi normale N(mu, sigma).
    - mu : moyenne "réelle"
    - sigma : écart-type (bruit/dispersion)
    - n : taille d'échantillon
    - seed : graine aléatoire (reproductibilité)
    """
    rng = np.random.default_rng(seed)
    return rng.normal(loc=mu, scale=sigma, size=n)

# ============================================================
# 1) Student (1 échantillon) : comparer une moyenne à une valeur mu0
#    -> vous simulerez UN seul échantillon y
# ============================================================
mu0 = 500.0  # valeur de référence (à adapter à votre contexte)

# Paramètres à choisir (à vous de les ajuster pour valider / invalider H0)
mu1, sigma1, n1, seed1 = 500.0, 5.0, 12, 1
y = simulate_measurements(mu=mu1, sigma=sigma1, n=n1, seed=seed1)

# y = vos données pour un test t à 1 échantillon (H0: mu = mu0)


# ============================================================
# 2) Welch (2 échantillons indépendants) : comparer deux moyennes
#    -> vous simulerez DEUX échantillons indépendants A et B
# ============================================================
# Paramètres à choisir (à vous de les ajuster pour valider / invalider H0: muA = muB)
muA, sigmaA, nA, seedA = 1.70, 0.12, 12, 2
muB, sigmaB, nB, seedB = 1.70, 0.12, 12, 3

A = simulate_measurements(mu=muA, sigma=sigmaA, n=nA, seed=seedA)
B = simulate_measurements(mu=muB, sigma=sigmaB, n=nB, seed=seedB)

# A, B = vos données pour un test t de Welch (H0: muA = muB)


# ============================================================
# 3) Apparié (avant/après) : mêmes objets mesurés deux fois
#    -> vous simulerez une base "before" + un effet "delta"
#       puis after = before + delta
# ============================================================
# Paramètres à choisir (à vous de les ajuster pour valider / invalider H0: mu_delta = 0)
mu_before, sigma_before, nP, seed_before = 0.18, 0.02, 10, 4
mu_delta, sigma_delta, seed_delta = 0.0, 0.01, 5  # delta moyen (effet) et sa variabilité

before = simulate_measurements(mu=mu_before, sigma=sigma_before, n=nP, seed=seed_before)
delta  = simulate_measurements(mu=mu_delta,  sigma=sigma_delta,  n=nP, seed=seed_delta)
after  = before + delta

# before, after = vos données pour un test t apparié (H0: mu_delta = 0)


# Partie 2 – Autonomie : inventer un contexte industriel + simuler

## Votre mission

Vous choisissez un **contexte industriel réel ou réaliste** (génie mécanique) :
- capteur (force, couple, pression, température)
- procédé (rugosité, dureté, épaisseur, diamètre)
- machine (erreur de positionnement, vibration)
- performance (temps de cycle, pertes, rendement)
- etc.

### Étape 1 – Définir votre question métier
Donner :
- la grandeur mesurée (unité),
- la situation industrielle (1 paragraphe),
- une valeur de référence $\mu_0$ (norme, constructeur, consigne, modèle).

Exemple de formulation :
> “Le cahier des charges impose une force moyenne de 500 N. Le système est-il conforme ?”

**A vous de choisir une situation de teste de Student, Welch ou t-apparié**

---

## Étape 2 – Définir le test

**A vous de choisir une situation de teste de Student, Welch ou t-apparié**

Choisir le type d'hypothèse :
- bilatéral (“différent ?”)
- ou unilatéral (“plus grand ?” / “plus petit ?”)

---

## Étape 3 – Simuler 2 jeux de données

### Jeu 1 : valider $H_0$
Simuler des données telles que :
- p-value > 0.05
- conclusion : “on ne rejette pas $H_0$”

### Jeu 2 : invalider $H_0$
Simuler des données telles que :
- p-value < 0.05
- conclusion : “on rejette $H_0$”

---

## Étape 4 – Analyse et conclusion ingénieur

**Pour chaque jeu :**
- afficher les données (ou un histogramme)
- donner moyenne, écart-type, p-value, IC 95%
- conclure en 5–8 lignes (décision + sens métier)
- discuter : est-ce techniquement important ? quelles limites ?


## Partie 3 - Simulation et test de corrélation (Pearson)

### Rappel
On étudie deux variables quantitatives $X$ et $Y$.

Hypothèses du test de Pearson :
$$
H_0 : \rho = 0 \quad \text{(pas de lien linéaire réel)}
$$
$$
H_1 : \rho \neq 0
$$

Objectif de la simulation :
- générer des données telles que la corrélation observée soit
  - compatible avec $\rho=0$ (p-value > 0.05),
  - ou incompatible avec $\rho=0$ (p-value < 0.05).

---

### Modèle simple de simulation
On génère :
$$
Y = a + bX + \varepsilon
$$
avec :
- $b$ faible ou nul → corrélation faible
- $b$ non nul → corrélation présente
- $\varepsilon$ : bruit (variance contrôlée)

La **taille d’échantillon** joue un rôle majeur :
- effet faible + grand $n$ → corrélation significative possible
- effet modéré + petit $n$ → corrélation non détectée


In [None]:
def simulate_xy_linear(a: float, b: float, sigma: float, n: int, seed: int = 0,
                       x_min: float = 0.0, x_max: float = 1.0) -> tuple[np.ndarray, np.ndarray]:
    """
    Simule une relation linéaire Y = a + bX + bruit, utile pour :
    - corrélation (Pearson : H0 rho = 0)
    - régression (test t sur la pente : H0 b = 0)

    - a : intercept
    - b : pente (effet linéaire)
    - sigma : écart-type du bruit sur Y
    - n : nombre de points
    - x_min/x_max : plage de X (ex: température, rpm, charge...)
    """
    rng = np.random.default_rng(seed)
    x = rng.uniform(x_min, x_max, size=n)
    y = a + b * x + rng.normal(0, sigma, size=n)
    return x, y

# ------------------------------------------------------------
# 4) CORRÉLATION (Pearson) : H0 : rho = 0
# Contexte possible : température vs durée de vie, vitesse vs vibration, etc.
# IMPORTANT : ici on simule via Y = a + bX + bruit.
# Pour viser rho ~ 0, choisir b ≈ 0 et/ou bruit élevé.
# ------------------------------------------------------------
a_corr, b_corr, sigma_corr, n_corr, seed_corr = 0.0, 0.0, 1.0, 30, 10  # <-- à modifier
x_corr, y_corr = simulate_xy_linear(a=a_corr, b=b_corr, sigma=sigma_corr, n=n_corr, seed=seed_corr,
                                    x_min=0.0, x_max=1.0)

# x_corr, y_corr = vos données pour un test de Pearson

# ------------------------------------------------------------
# 5) PENTE (régression) : H0 : b = 0
# Contexte possible : vitesse -> usure, charge -> flèche, etc.
# Même simulation que corrélation, mais l'objectif est de tester b=0 et quantifier b.
# Pour invalider H0, choisir b ≠ 0, bruit pas trop grand, et/ou n plus grand.
# ------------------------------------------------------------
a_reg, b_reg, sigma_reg, n_reg, seed_reg = 0.0, 1.0, 0.3, 30, 11  # <-- à modifier
x_reg, y_reg = simulate_xy_linear(a=a_reg, b=b_reg, sigma=sigma_reg, n=n_reg, seed=seed_reg,
                                  x_min=1000.0, x_max=3000.0)

# x_reg, y_reg = vos données pour une régression + test t sur la pente

# Partie 4 – Lien ou effet ? Construire des données pour répondre à la bonne question

## Objectif de la partie

Dans les parties précédentes, vous avez appris à :
- simuler des données,
- tester l’existence d’un **lien linéaire** entre deux variables (corrélation).

Dans cette partie, l’objectif est d’aller plus loin et de distinguer clairement :
- un **lien** entre deux grandeurs,
- un **effet mesurable** d’une variable sur une autre.

Vous allez donc construire des jeux de données permettant d’illustrer ces deux notions.

---

## Étape 1 – Choisir un contexte industriel

Vous devez définir un **contexte industriel réaliste** (génie mécanique),
en précisant clairement :

- la variable $X$ : paramètre d’entrée, réglage, condition d’utilisation,
- la variable $Y$ : réponse du système, performance, dégradation,
- le sens physique attendu (si $X$ augmente, que devrait faire $Y$ ?).

Exemples possibles :
- température → durée de vie
- vitesse de rotation → usure
- charge → déformation
- pression → débit
- avance → rugosité

---

## Étape 2 – Deux questions possibles (à choisir)

Selon votre contexte, vous devez préciser **quelle question vous posez** :

### Question A – Lien
> *Existe-t-il un lien linéaire entre $X$ et $Y$ ?*

Hypothèses associées :
$$
H_0 : \rho = 0
$$
$$
H_1 : \rho \neq 0
$$

---

### Question B – Effet
> *La variable $X$ a-t-elle un effet linéaire mesurable sur $Y$ ?*

On modélise :
$$
Y = a + bX + \varepsilon
$$

Hypothèses associées :
$$
H_0 : b = 0
$$
$$
H_1 : b \neq 0
$$

---

## Étape 3 – Création des jeux de données

Vous devez créer **deux jeux de données distincts**.

---

### Jeu 1 – Effet / lien clairement détectable

Créer un jeu de données tel que :
- le nuage de points montre une tendance claire,
- le test choisi (corrélation ou pente) conduise au **rejet de $H_0$**,
- l’effet ou le lien soit interprétable physiquement.

Expliquez qualitativement :
- quels paramètres rendent l’effet (ou le lien) détectable,
- pourquoi les données apportent suffisamment d’information.

---

### Jeu 2 – Effet / lien difficilement détectable

Créer un second jeu de données tel que :
- la relation soit peu visible ou très dispersée,
- le test statistique conduise à **ne pas rejeter $H_0$**,
- malgré une relation physique éventuellement plausible.

Expliquez qualitativement :
- le rôle du bruit,
- le rôle de la taille d’échantillon,
- le rôle de l’amplitude de l’effet.

---

## Étape 4 – Analyse statistique

Pour chacun des deux jeux de données :

- tracer le nuage de points,
- appliquer le test correspondant à votre question :
  - corrélation (test de Pearson),
  - ou régression (test t sur la pente),
- donner la p-value,
- conclure au seuil de 5 %.

---

## Étape 5 – Interprétation d’ingénieur (obligatoire)

Rédiger une conclusion synthétique (5–8 lignes) répondant aux questions suivantes :

- Dans quel cas peut-on affirmer l’existence d’un **lien** ?
- Dans quel cas peut-on quantifier un **effet exploitable** ?
- Pourquoi un lien peut exister sans être exploitable industriellement ?
- Quelles sont les limites de votre conclusion (plage de validité, causalité, autres facteurs) ?

---

## Message clé à retenir

> **Un lien statistique indique que deux variables évoluent ensemble.  
> Un effet quantifié indique ce que produit un changement de paramètre.**

En ingénierie, on explore d’abord les liens,
mais on décide sur la base des effets.
