# Introduction

Dans ce TP, vous disposez d’un jeu de données sur la maintenance prédictive. L’idée est de comprendre :

  - Quelles sont les colonnes réellement utiles pour prédire les pannes ?
  - Comment créer de nouvelles caractéristiques (features) qui améliorent la - pertinence de votre futur modèle ?
  - Quelles colonnes risquent de fausser la prédiction (fuites de données, données non pertinentes, identifiants, etc.) ?

À la fin, vous aurez un DataFrame nettoyé et enrichi, prêt à être utilisé pour l’entraînement d’un modèle de Machine Learning (dans un TP ultérieur).

# Importation des librairies et chargement des données

In [12]:
import numpy as np 
import pandas as pd 
import seaborn as sns
import matplotlib.pyplot as plt


url = "https://raw.githubusercontent.com/DlDI/predective-maintenance/refs/heads/main/predictive_maintenance.csv"


# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All"
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session


# À propos du Dataset

Ce dataset est une simulation représentant des cas de maintenance prédictive en industrie. Il contient des données sur des machines et leurs conditions de fonctionnement, permettant d’analyser les causes de panne.

Description des colonnes :

    UID : Identifiant unique (de 1 à 10 000).

    productID : Code produit avec une lettre L, M ou H indiquant la qualité (L = basse, M = moyenne, H = haute).

    air temperature [K] : Température ambiante autour de 300 K, avec de petites variations.

    process temperature [K] : Température du processus, toujours 10 K de plus que la température de l’air.

    rotational speed [rpm] : Vitesse de rotation basée sur une puissance de 2860 W, avec des fluctuations.

    torque [Nm] : Moyenne de 40 Nm, sans valeurs négatives.

    tool wear [min] : Usure de l’outil, variant selon la qualité du produit 

    machine failure : Indique si la machine est en panne.

    Target : Indique si la machine est en panne (Oui/Non).
    
    Failure Type : Indique le type de panne.

⚠ Certaines colonnes contiennent des informations sur l’état de la machine et ne doivent pas être utilisées comme entrées dans un modèle prédictif. Les inclure fausserait les résultats en apportant une information que l’on cherche justement à prédire.

In [23]:
df = pd.read_csv(url)

## Exploration des Données

Q1 - Affichez les 9 premières lignes du dataset. Quelle est la taille (nombre de lignes et de colonnes) du dataset ?

Indices : https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html#pandas-dataframe-head /
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.shape.html#pandas-dataframe-shape 



In [13]:
df = pd.read_csv(url)

# Code pour afficher les 5 premières lignes du tableau



In [14]:
# code pour la taille du tableau


Réponse  : 

Q2 - Y a-t-il des valeurs manquantes dans les données ? Si oui, dans quelles colonnes et combien ?

indice : https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isnull.html#pandas-dataframe-isnull / https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sum.html#pandas.DataFrame.sum

 


In [15]:
# Code ici 

Réponse  : 

## Analyse Statistique

Q3 - Quelle est la moyenne, la médiane et l’écart-type des températures (Air et Process) pour chaque type de machine (M, L et H) ?

indice : https://pandas.pydata.org/docs/reference/api/pandas.core.groupby.DataFrameGroupBy.agg.html#pandas-core-groupby-dataframegroupby-agg 

In [16]:
# Code Ici

Réponse  : 

Q4 - Calculer la vitesse moyenne de rotation et le couple moyen par type de machine

indice : https://pandas.pydata.org/docs/reference/api/pandas.core.groupby.DataFrameGroupBy.mean.html#pandas-core-groupby-dataframegroupby-mean 

In [17]:
# Code ici

Réponse  : 

# Visualisation des Données

[Matplotlib](https://matplotlib.org/stable/) est une bibliothèque de visualisation en Python permettant de créer des graphiques statiques, interactifs et animés. Elle est couramment utilisée pour analyser des données sous forme de courbes, histogrammes ou nuages de points.

[Seaborn](https://seaborn.pydata.org/index.html) est une bibliothèque de visualisation basée sur Matplotlib, conçue pour simplifier la création de graphiques statistiques élégants et informatifs.


Q5 - Tracer un histogramme des températures de l'air et du processus

indice : https://seaborn.pydata.org/generated/seaborn.histplot.html#seaborn-histplot

In [18]:
# Code ici

Q6 - Tracer un nuage de points entre la vitesse de rotation et le couple, Interprétez ce graphique.

indice : https://seaborn.pydata.org/generated/seaborn.scatterplot.html#seaborn-scatterplot

In [19]:
# Code ici

### Matrice de Corrélation 

En **apprentissage automatique**, la matrice de corrélation permet d’identifier les **redondances entre variables**, optimisant ainsi la sélection des attributs et améliorant la généralisation des modèles. Elle est essentielle pour éviter la colinéarité, qui peut biaiser les modèles de régression linéaire et compromettre leur stabilité.

Elle facilite également **l’ingénierie des features**, en suggérant la fusion ou la transformation de variables corrélées pour en extraire des descripteurs plus pertinents. Enfin, elle est utilisée pour la réduction de dimensionnalité, permettant d’alléger les modèles et d’améliorer leur efficacité computationnelle.

Pour approfondir : https://www.simplilearn.com/tutorials/machine-learning-tutorial/feature-selection-in-machine-learning

Q7 - Créez une matrice de corrélation entre toutes les variables numériques du dataset et affichez-la

Indice : https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.corr.html#pandas-dataframe-corr / https://seaborn.pydata.org/generated/seaborn.heatmap.html#seaborn-heatmap

Q8 - Quelle analyse pouvez-vous tirer de la matrice de corrélation ?

- Y a-t-il des variables redondantes qu’il serait utile de supprimer ?
- Peut-on créer de nouvelles features à partir de variables fortement corrélées ?
- Certaines corrélations peuvent-elles influencer la prédiction des défaillances ?

### Réponse  : 

## Création de Nouvelles Features

Q9 - Créer une colonne pour l’écart entre température du processus et température ambiante en degrés Celsius. puis créer une colonne pour la puissance mécanique

Indice : Puissance=Couple (Nm)×Vitesse de rotation (rpm)

In [20]:
# Code Ici

## Analyse des Défaillances

Q10 - Comparaison des machines en panne et en bon état :  
- Comptez combien de machines sont en panne et combien sont en bon état.
- Calculez la proportion de machines en panne
- Comparez les statistiques des machines en panne vs. en bon état.



In [21]:
# Code ici


Quelles variables semblent influencer les pannes ?