# Un projet en maintenance prédictive intégrant plusieurs types de tests d'hypothèse

---

### Contexte du projet

Une usine industrielle souhaite améliorer sa stratégie de maintenance prédictive. Différents indicateurs ont été collectés sur plusieurs machines sur une période d'un an. Tu disposes des données suivantes :

- **Variables continues :**  
  - Température de fonctionnement (°C)  
  - Vibration (mm/s)  
  - Durée d'utilisation avant panne (en jours)

- **Variables discrètes :**  
  - État de défaillance (Oui/Non)  
  - Type de maintenance appliquée (Préventive, Corrective, Prédictive)
  - Catégorie de défaut (A, B, C)

---

### Questions du projet

1. **Proportion de Défaillances :**  
   On suppose qu’en conditions normales, la probabilité qu’une machine présente une défaillance au cours de l’année est de 10 %.
   > **Question :** Quel test utiliser pour vérifier si la proportion observée diffère de 10 % ?  
   > **Indications :** Choisis un test adapté aux données binaires et aux proportions.

2. **Distribution des Catégories de Défaut :**  
   Les défauts observés sur les machines sont classés en catégories A, B et C. La distribution théorique attendue est de 50 % pour A, 30 % pour B et 20 % pour C.  
   > **Question :** Quel test utiliser pour comparer la distribution observée avec la distribution attendue ?  
   > **Indications :** Pense aux tests d'ajustement pour variables discrètes.

3. **Température de Fonctionnement :**  
   La température idéale de fonctionnement d’un équipement est fixée à 75°C. Tu disposes des mesures de température pour un échantillon de machines.  
   > **Question :** Quel test utiliser pour vérifier si la moyenne observée diffère significativement de 75°C ?  
   > **Indications :** Considère un test adapté aux variables continues avec une valeur théorique de référence.

4. **Comparaison de Vibrations selon la Défaillance :**  
   On souhaite comparer les niveaux de vibration entre deux groupes de machines : celles qui ont connu une défaillance et celles qui ne l'ont pas fait.  
   > **Question :** Quel test est indiqué pour comparer les moyennes de vibration de ces deux groupes indépendants ?  
   > **Indications :** Rappelle-toi du test t pour échantillons indépendants.

5. **Impact du Type de Maintenance sur la Durée de Fonctionnement :**  
   Trois stratégies de maintenance (Préventive, Corrective, Prédictive) ont été appliquées. Tu disposes des durées de fonctionnement (en jours) avant panne pour chaque groupe.  
   > **Question :** Quel test permet de déterminer s'il existe une différence significative entre les moyennes de durée d'utilisation selon le type de maintenance ?  
   > **Indications :** Pense à un test permettant de comparer plus de deux groupes.

6. **Relation entre Température et Vibration :**  
   Pour chaque machine, tu as enregistré la température et le niveau de vibration.  
   > **Question :** Quel test utiliser pour évaluer s'il existe une corrélation linéaire entre la température de fonctionnement et le niveau de vibration ?  
   > **Indications :** Réfléchis au test de corrélation entre variables continues.

---

### Instructions

- Pour chaque question, identifie le test statistique le plus approprié en te basant sur les types de variables et l'objectif de l'analyse.
- Prépare le code Python correspondant en utilisant SciPy (et éventuellement d'autres bibliothèques comme NumPy ou pandas).
- Interprète les résultats obtenus pour guider les décisions en maintenance prédictive.

Ce projet te permet de pratiquer tous les tests abordés : test binomial, test Chi², test t (à un échantillon et pour échantillons indépendants), ANOVA et test de corrélation de Pearson. Réfléchis bien à chaque contexte pour choisir la bonne méthode.

Bonne exploration !

In [2]:
import pandas as pd

In [5]:
df = pd.read_csv('machine_data.csv', index_col='machine_id')
df.head()

Unnamed: 0_level_0,defaillance,maintenance,defaut_category,temperature,vibration,duration
machine_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,Non,Préventive,B,79.77956,3.944414,238.833797
2,Non,Corrective,A,73.466353,3.961054,171.774972
3,Non,Prédictive,C,72.031186,4.013143,375.383452
4,Non,Prédictive,C,74.622639,3.955899,361.729741
5,Non,Prédictive,C,75.167175,4.289164,280.446023


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 300 entries, 1 to 300
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   defaillance      300 non-null    object 
 1   maintenance      300 non-null    object 
 2   defaut_category  300 non-null    object 
 3   temperature      300 non-null    float64
 4   vibration        300 non-null    float64
 5   duration         300 non-null    float64
dtypes: float64(3), object(3)
memory usage: 16.4+ KB


## 1. Proportion de défaillance --> Test binomial

In [21]:
df['defaillance'].value_counts(normalize=True).round(2)

defaillance
Non    0.89
Oui    0.11
Name: proportion, dtype: float64

In [28]:
# Test binomial 
from scipy.stats import binomtest

print("H0; La probabilité d'une machine présente une défaillance au cours de l'année est 10%.\n")

p = 0.1
k = 30
nombre_machines = 300
alpha = 0.05

p_value = binomtest(k=k, n=nombre_machines, p=p).pvalue

if p_value < alpha:
    print("La probabilité d'observer d'une présente une défaillance de 10% cours de l'année est très fiable ! On rejet cette hypothèse.")
else:
    print("Nous n'avons pas suffisamment d'évidences pour rejet H0! cette hypothèse est probablèment juste!")

H0; La probabilité d'une machine présente une défaillance au cours de l'année est 10%.

Nous n'avons pas suffisamment d'évidences pour rejet H0! cette hypothèse est probablèment juste!
