# SEANCE 7 – Tests statistiques & régression linéaire (approche ingénieur)

## Objectifs
À la fin de la séance, vous devez être capables de :
- comparer deux procédés (tests à 2 échantillons)
- analyser un avant/après (test apparié)
- construire et interpréter une régression linéaire $y = a + bx$
- écrire une conclusion “rapport d’ingénieur” (décision statistique + sens physique)

## Règles d’interprétation (à respecter)
- p-value petite → résultat rare si $H_0$ est vraie → on rejette $H_0$ (au seuil fixé)
- IC : donne une plage de valeurs plausibles pour un paramètre (moyenne/pente)
- ne pas confondre “significatif” et “important techniquement”


## Rappel express : IC 95% et test au seuil 5%

- IC 95% pour une moyenne : plage compatible avec les données.
- Test bilatéral au seuil 5% :
  - si $\mu_0$ est dans l’IC 95% → p-value $> 0.05$ (compatible avec $H_0$)
  - si $\mu_0$ est hors IC 95% → p-value $< 0.05$ (rejet de $H_0$)

Message clé :
> IC et p-value racontent la même histoire, sous deux formes différentes.


## Panorama des tests statistiques (vision d’ensemble)

Un test statistique sert à répondre à une question du type :

> *Les données observées sont-elles compatibles avec une hypothèse de référence $H_0$ ?*

Le choix du test dépend :
- du **paramètre étudié** (moyenne, différence de moyennes, corrélation, pente),
- de la **structure des données** (1 échantillon, 2 échantillons, appariées),
- de la **question métier** (différence ? amélioration ? effet ?).

---

## 1. Tests sur une moyenne (1 échantillon) : Test t de Student à 1 échantillon

### Situation
- une seule série de mesures
- comparaison à une valeur de référence (norme, étalonnage, valeur théorique)

### Hypothèses typiques
$$
H_0 : \mu = \mu_0
$$

### Test utilisé
- **test t de Student à 1 échantillon**

### Exemples ingénieur
- capteur correctement étalonné ?
- biais moyen significatif ?
- température moyenne conforme à une consigne ?

---

## 2. Tests sur deux moyennes indépendantes : Test t de Welch

### Situation
- deux groupes distincts
- mesures indépendantes

### Hypothèses typiques
$$
H_0 : \mu_1 = \mu_2
$$

### Test utilisé
- **test t de Welch** (recommandé par défaut)

### Pourquoi Welch ?
- ne suppose pas des variances égales
- plus robuste en pratique

### Exemples ingénieur
- procédé A vs procédé B
- matériau issu de deux fournisseurs
- deux réglages machine différents

---

## 3. Tests appariés (avant / après) Test t apparié

### Situation
- mêmes pièces, mêmes individus
- comparaison avant / après une action

### Principe
On teste la moyenne des différences :
$$
d_i = y_{i,\text{après}} - y_{i,\text{avant}}
$$

### Hypothèses
$$
H_0 : \mu_d = 0
$$

### Test utilisé
- **test t apparié**

### Exemples ingénieur
- réglage machine
- recalibrage d’un capteur
- modification d’un paramètre de procédé

---

## 4. Tests de corrélation : Test de corrélation de Pearson

### Situation
- deux variables quantitatives
- question : existe-t-il un lien linéaire ?

### Hypothèses
$$
H_0 : \rho = 0
$$

### Test utilisé
- **test de corrélation de Pearson**

### Attention
- corrélation $\neq$ causalité
- dépend fortement de la taille d’échantillon

### Exemples ingénieur
- température vs durée de vie
- débit vs perte de charge
- vitesse vs vibration

---

## 5. Test de la pente en régression linéaire : Test t sur la pente

### Situation
- modèle $y = a + bx$
- on cherche à quantifier un effet linéaire

### Hypothèses
$$
H_0 : b = 0
$$

### Test utilisé
- **test t sur la pente**

### Interprétation ingénieur
- $b$ = sensibilité (avec unité)
- IC sur $b$ = incertitude sur cette sensibilité
- test = existence d’un effet détectable

---

## 6. Bilatéral ou unilatéral ?

Le type de test dépend de la **question posée**, pas des données.

- test **bilatéral** : différence dans les deux sens
- test **unilatéral** : amélioration ou dégradation attendue

Exemples :
- *“Est-ce différent ?”* → bilatéral  
- *“Est-ce meilleur ?”* → unilatéral à droite  
- *“Est-ce pire ?”* → unilatéral à gauche  

---

## 7. Lien fondamental entre IC et test

Pour un test bilatéral au seuil 5 % :

- valeur testée **dans l’IC 95 %** ⇔ p-value $> 0.05$
- valeur testée **hors IC 95 %** ⇔ p-value $< 0.05$

> IC et p-value donnent la même information, sous deux formes différentes.

---

## Message clé à retenir

> Le plus important n’est pas de savoir “calculer un test”,  
> mais de savoir **choisir le bon test et interpréter correctement le résultat**.


> Un test statistique ne sert pas à “calculer une p-value”,  
> mais à répondre à une **question industrielle précise**  
> avec un **niveau de confiance maîtrisé**.



## Mémo – Quel test ? Quelle fonction Python ?

| Besoin / question | Type de données | Test statistique | Hypothèses typiques | Fonction Python (SciPy / Statsmodels) | Sorties utiles |
|---|---|---|---|---|---|
| Comparer une moyenne à une valeur de référence $\mu_0$ | 1 échantillon, quantitatif | **t de Student (1 échantillon)** | $H_0:\mu=\mu_0$ | `scipy.stats.ttest_1samp(x, popmean=mu0)` | `t_stat`, `p_value` |
| Comparer deux moyennes (groupes indépendants) | 2 échantillons indépendants | **t de Welch** (recommandé) | $H_0:\mu_1=\mu_2$ | `scipy.stats.ttest_ind(x1, x2, equal_var=False)` | `t_stat`, `p_value` |
| Comparer avant / après (mesures appariées) | 2 séries appariées | **t apparié** | $H_0:\mu_d=0$ | `scipy.stats.ttest_rel(after, before)` | `t_stat`, `p_value` |
| Tester un lien linéaire (corrélation) | 2 variables quantitatives | **Corrélation de Pearson** | $H_0:\rho=0$ | `scipy.stats.pearsonr(x, y)` | `r`, `p_value` |
| Ajuster une régression $y=a+bx$ + tester la pente | $x,y$ quantitatifs | **Régression linéaire + test t sur $b$** | $H_0:b=0$ | `X = sm.add_constant(x)` puis `sm.OLS(y, X).fit()` | `model.params`, `model.pvalues`, `model.conf_int()`, `model.rsquared` |
| Obtenir directement pente/intercept (sans stats inférentielles) | $x,y$ quantitatifs | Ajustement linéaire simple | — | `scipy.stats.linregress(x, y)` | `slope`, `intercept`, `rvalue`, `pvalue`, `stderr` |
| Intervalle de confiance 95% d’une moyenne (si $s$ inconnu) | 1 échantillon | **IC (Student)** | — | `tcrit = stats.t.ppf(1-alpha/2, df=n-1)` puis $\bar{x}\pm tcrit\cdot s/\sqrt{n}$ | bornes IC |
| p-value unilatérale (à partir d’un test bilatéral) | selon test | **Unilatéral** | $H_1:>$ ou $<$ | Si `p_bi` est bilatérale : `p_one = p_bi/2` (si le signe de `t_stat` va dans le sens de $H_1$), sinon `1 - p_bi/2` | `p_one` |


## **Travail demandé pour chaque exercice :**

1) Identifier la **nature des données** et la **structure de l’expérience**
   (nombre de groupes, indépendance, type de variable).

2) Proposer les **hypothèses statistiques** pertinentes ($H_0$ et $H_1$)
   en lien avec la question métier.

3) Justifier le **type de test statistique** à utiliser
   (sans effectuer de calcul).

4) Expliquer comment vous utiliseriez :
   - un **intervalle de confiance**,
   - et une **p-value**  
   pour répondre à la question posée.

5) Rédiger une **conclusion d’ingénieur attendue**, en distinguant :
   - ce que les données permettent d’affirmer,
   - ce qu’elles ne permettent pas d’affirmer.
   - Quelles actions peut on proposer pour affiner la conclusion ?

---

### Indication importante

Aucune formule ni aucun calcul numérique ne sont attendus à ce stade.
L’objectif est de raisonner sur la **démarche statistique** à partir de calcul obtenus avec python et
sur l’**interprétation industrielle** des résultats.




**Les exercices 1 à 5 sont à faire sur des notebook séparés qu'il faudra me partager en envoyant les liens à l'adresse : frederique.beaudeux@univ-lorraine.fr**

## Exercice 1 – Capteur de force : conformité constructeur et biais

### Contexte industriel

Des données ont été récupérées à partir d’un **capteur de force** monté sur un banc d’essai.
Le capteur est utilisé en production pour contrôler une force nominale appliquée lors d’une opération (serrage, pressage, mise en charge).

Le constructeur du capteur annonce la spécification suivante :

> **« La force mesurée est correcte en moyenne à 500 N. »**

L’objectif est de vérifier si, d’après les mesures collectées, le capteur est :
- **conforme** à cette spécification,
- ou s’il présente un **biais moyen** (sur- ou sous-estimation) statistiquement détectable.

---

### Données disponibles

Une série de mesures (en N) a été réalisée en conditions nominales :

[503, 498, 501, 505, 497, 502, 504, 499, 506, 500, 503, 498]

---

### Question métier

Le capteur respecte-t-il la spécification constructeur (**500 N en moyenne**) ?
Y a-t-il un **biais significatif** par rapport à 500 N, ou l’écart observé peut-il être expliqué par la variabilité de mesure ?

## **Exercice 2 – Comparaison de deux procédés d’usinage (rugosité)**

### Contexte industriel

Une entreprise de mécanique de précision étudie deux procédés d’usinage
pour la finition d’une pièce fonctionnelle.

La performance du procédé est évaluée à l’aide de la rugosité moyenne $R_a$
(exprimée en µm), mesurée sur des pièces produites en conditions nominales.

Deux séries de mesures ont été réalisées :

- **Procédé A** : procédé actuellement utilisé en production  
- **Procédé B** : nouveau procédé proposé par le service méthodes

Les mesures de rugosité obtenues sont les suivantes :

- Procédé A : [1.8, 1.6, 1.7, 1.9, 1.5, 1.6, 1.8, 1.7]

- Procédé B :  [1.4, 1.3, 1.5, 1.2, 1.4, 1.3, 1.5, 1.2]

---

### Question métier

Le procédé B permet-il d’obtenir une **rugosité moyenne plus faible**
que le procédé A de manière **statistiquement démontrable** ?


## **Exercice 3 – Réglage d’une machine : effet réel ou fluctuation aléatoire ?**

### Contexte industriel

Une machine d’usinage réalise un positionnement critique d’une pièce.
L’erreur de positionnement (en mm) est mesurée en valeur absolue
par rapport à la position théorique.

Suite à des dérives constatées en production, un **réglage de la machine**
est effectué par le service maintenance.

Pour évaluer l’efficacité de ce réglage, un ingénieur mesure l’erreur
de positionnement sur les **mêmes pièces**, avant et après l’intervention.

Les mesures obtenues sont les suivantes :

- **Avant réglage** (en mm) : [0.18, 0.12, 0.15, 0.20, 0.17, 0.14, 0.16, 0.19]

- **Après réglage** (en mm) : [0.11, 0.10, 0.12, 0.14, 0.13, 0.11, 0.12, 0.15]


---

### Question industrielle centrale

Le réglage effectué permet-il de **réduire l’erreur de positionnement moyenne**
de manière **statistiquement démontrable**,  
ou la baisse observée peut-elle être expliquée par la variabilité naturelle
des mesures ?

 ---

 ### Indication importante

Aucun calcul n’est demandé à ce stade.
L’objectif est de raisonner comme un **ingénieur en validation de procédé** :
- distinguer fluctuation aléatoire et effet réel,
- relier résultat statistique et décision industrielle.


## Exercice 4 – Corrélation température / durée de vie : lien réel ou coïncidence ?

### Contexte industriel

Dans un atelier de production, un composant mécanique fonctionne à des
températures variables selon les conditions d’utilisation.

Le service fiabilité s’interroge sur l’influence de la **température de fonctionnement**
sur la **durée de vie** du composant (temps avant défaillance, en heures).

Un ingénieur réalise une campagne d’essais accélérés et relève, pour chaque essai :
- la température moyenne de fonctionnement (en °C),
- la durée de vie observée du composant (en heures).

Les données collectées sont les suivantes :

- Température (°C) : [45, 50, 55, 60, 65, 70, 75, 80, 85, 90]

- Durée de vie (h) : [2100, 2050, 1980, 1900, 1850, 1750, 1680, 1600, 1500, 1420]

---

### Question industrielle centrale

Existe-t-il un **lien linéaire statistiquement démontrable**
entre la température de fonctionnement et la durée de vie du composant,
ou la relation observée peut-elle être expliquée par le hasard ?
---

### Indication importante

Aucun calcul n’est attendu à ce stade.
L’objectif est de raisonner sur la **notion de lien linéaire**, la **signification
statistique** et les **limites d’interprétation** (corrélation ≠ causalité).



## **Exercice 5 – Influence de la vitesse de rotation sur l’usure d’un outil**

### Contexte industriel

Dans un atelier d’usinage, un outil de coupe est utilisé à différentes
vitesses de rotation selon les conditions de production.

Le service méthodes souhaite comprendre si la **vitesse de rotation**
a une influence mesurable sur l’**usure de l’outil** (mesurée après un cycle
standardisé, en mm).

Une campagne d’essais est réalisée : pour chaque essai, on relève
- la vitesse de rotation de la broche (en tr/min),
- l’usure mesurée de l’outil (en mm).

Les données collectées sont les suivantes :

- Vitesse de rotation (tr/min) : [1000, 1200, 1400, 1600, 1800, 2000, 2200, 2400, 2600, 2800]

- Usure de l’outil (mm) : [0.18, 0.20, 0.22, 0.25, 0.27, 0.30, 0.33, 0.35, 0.38, 0.41]

---

### Question industrielle centrale

Peut-on mettre en évidence un **effet linéaire significatif** de la vitesse
de rotation sur l’usure de l’outil,  
ou l’évolution observée peut-elle être expliquée par la variabilité
des mesures expérimentales ?

---

### Indication importante

Aucun calcul n’est demandé à ce stade.
L’objectif est de raisonner comme un **ingénieur de la conception / méthodes** :
- comprendre le sens physique d’un modèle,
- évaluer la robustesse statistique d’un effet,
- traduire un résultat statistique en décision industrielle.



## Résumé sur deux notions proches : Corrélation vs Régression linéaire — Quelle différence fondamentale ?

À première vue, les problèmes de **corrélation** et de **régression linéaire**
semblent très proches :
- deux variables quantitatives,
- un nuage de points,
- une relation linéaire supposée.

Pourtant, ils répondent à **des questions différentes**.

---

## 1. Corrélation (test de Pearson)

### Question posée
> *Existe-t-il un lien linéaire entre deux variables ?*

### Caractéristiques
- approche **symétrique** :
  - aucune variable n’est désignée comme explicative ou réponse
- on ne cherche pas à prédire ni à modéliser
- on cherche uniquement à savoir si les variables évoluent ensemble

### Paramètre testé
- $\rho$ : corrélation populationnelle

### Hypothèses
$$
H_0 : \rho = 0
$$
$$
H_1 : \rho \neq 0
$$

### Interprétation ingénieur
- p-value petite → lien linéaire détectable
- p-value grande → lien non démontré
- **corrélation ≠ causalité**

### Utilisation typique
- analyse exploratoire
- diagnostic initial
- détection de dépendances possibles

---

## 2. Régression linéaire (test t sur la pente)

### Question posée
> *Quand la variable $X$ varie, la variable $Y$ varie-t-elle en moyenne ?  
> De combien ?*

### Caractéristiques
- approche **orientée** :
  - $X$ = variable explicative (réglage, entrée)
  - $Y$ = variable réponse (performance, usure)
- objectif : **quantifier un effet**

### Modèle
$$
Y = a + bX + \varepsilon
$$

### Paramètre testé
- $b$ : pente (sensibilité)

### Hypothèses
$$
H_0 : b = 0
$$
$$
H_1 : b \neq 0
$$

### Interprétation ingénieur
- p-value petite → effet linéaire détectable
- $b$ + IC → ordre de grandeur + incertitude
- base pour prédiction et dimensionnement

### Utilisation typique
- loi empirique
- optimisation de paramètres
- justification de choix de conception

---

## 3. Pourquoi deux tests différents ?

- En corrélation, on teste :
  > *“Existe-t-il un lien linéaire dans la population ?”*

- En régression, on teste :
  > *“La variable $X$ a-t-elle un effet linéaire mesurable sur $Y$ ?”*

Même si les données sont les mêmes, **la question change**, donc
**le paramètre testé change** :
- lien → $\rho$
- effet → $b$

---

## 4. Résumé ultra-synthèse

| Aspect | Corrélation | Régression |
|------|-------------|------------|
| Question | Y a-t-il un lien ? | Y a-t-il un effet ? |
| Paramètre testé | $\rho$ | $b$ |
| Sens des variables | Symétrique | Orienté ($X \rightarrow Y$) |
| Objectif | Détection de lien | Quantification |
| Usage | Exploration | Décision / conception |

---

## Message clé à retenir

> **La corrélation sert à détecter un lien.  
> La régression sert à mesurer un effet.**

Les deux outils sont complémentaires,
mais ne répondent pas à la même question.
