🎯 DATA PREPROCESSING – COURS COMPLET, STRUCTURÉ ET EXPLIQUÉ
🔹 1. Pourquoi faire du Data Preprocessing ?
➤ Définition :

C’est l’étape où on prépare les données brutes pour les rendre exploitables : propres, cohérentes, analysables.
Sans ça, ton modèle ou ton analyse va bosser sur des erreurs, ce qui fausse les résultats.
➤ Raisons concrètes :

    Données souvent incomplètes (valeurs manquantes)

    Données incohérentes (formats, doublons, erreurs)

    Données trop bruitées (outliers)

    Structure non adaptée au modèle ou à la visualisation

    ⚠️ Tu ne peux pas faire d’analyse sérieuse ou de modèle prédictif sur des données corrompues.

🔹 2. Data Gathering (collecte)

Tu pars de données externes (CSV, API, base SQL) ou internes (logs, fichiers métiers).
Dans le cas Titanic, tu les télécharges avec le Kaggle API.
Code :

import pandas as pd
df = pd.read_csv('train.csv')

Pourquoi faire ?

Avant de nettoyer, il faut déjà lire les données et les visualiser.
Tu ne peux pas nettoyer ce que tu ne comprends pas.
🔹 3. Data Exploration
Objectif :

Comprendre ce que contient ton dataset :

    Quelles colonnes ?

    Quels types (str, int, float…) ?

    Combien de lignes ?

    Des valeurs manquantes ?

Méthodes clés :

df.head()         # aperçu des premières lignes
df.info()         # types + colonnes + valeurs manquantes
df.describe()     # stats des colonnes numériques

Pourquoi faire ?

Tu ne peux pas savoir quoi nettoyer sans avoir vu les problèmes dans les données.

    Exemple : si tu ne regardes pas .isnull(), tu ne verras pas les champs vides.

🔹 4. Data Integration
Définition :

Fusionner plusieurs datasets pour enrichir les données.
Ex : ajouter des infos démographiques aux passagers Titanic.
Code :

df2 = pd.read_csv('demo.csv')
df = pd.merge(df, df2, on='PassengerId', how='left')

Pourquoi faire ?

Un dataset seul est parfois pauvre en variables explicatives.

    Tu ne prédis pas bien un décès si tu ne sais rien du passager…

Paramètre how :

    'left' : tu gardes toutes les lignes de gauche (Titanic)

    'inner' : tu ne gardes que les lignes avec correspondance des deux côtés

🔹 5. Data Cleaning (nettoyage)
5.1 – Supprimer les doublons
Pourquoi ?

Des lignes en double faussent les stats et les modèles.

df = df.drop_duplicates()

Exemple :

Deux fois la même ligne "John Smith, 2e classe, 28 ans", ça double son poids dans l’analyse.
5.2 – Supprimer les colonnes inutiles
Pourquoi ?

Certaines colonnes ne servent à rien pour l’analyse, ou sont trop incomplètes.

df = df.drop(['Cabin', 'Ticket'], axis=1)

    Cabin a trop de valeurs manquantes. Ticket est souvent unique et peu informatif.

5.3 – Corriger les erreurs de structure
Exemples typiques :

    Date au mauvais format

    Catégories incohérentes ("male", "Male", "MALE")

df['Date'] = pd.to_datetime(df['Date'])
df['Sex'] = df['Sex'].str.lower()  # uniformiser

    Tu veux que toutes les données aient le même format, sinon tes groupby explosent.

5.4 – Gérer les valeurs manquantes
Étape 1 – Identifier

df.isnull().sum()

    Cela te donne une vue colonne par colonne de ce qui manque.

Étape 2 – Décider

Tu as 3 choix :

    ❌ Supprimer

df = df.dropna()

Quand : si peu de lignes sont concernées.

    ➕ Remplir (imputation simple)

df['Age'] = df['Age'].fillna(df['Age'].mean())

Quand : si tu veux conserver les données et que la colonne est importante.

    🤖 Imputation avancée

from sklearn.impute import KNNImputer
imputer = KNNImputer(n_neighbors=2)
df_imputed = imputer.fit_transform(df)

Quand : si les valeurs manquantes dépendent d'autres colonnes.
5.5 – Gérer les outliers (valeurs extrêmes)
Pourquoi ?

Les valeurs trop extrêmes biaisent les moyennes, les modèles et les distributions.
Méthode classique : IQR (Interquartile Range)

Q1 = df['Age'].quantile(0.25)
Q3 = df['Age'].quantile(0.75)
IQR = Q3 - Q1
borne_basse = Q1 - 1.5 * IQR
borne_haute = Q3 + 1.5 * IQR

df = df[(df['Age'] >= borne_basse) & (df['Age'] <= borne_haute)]

Interprétation :

    Q1 = limite basse des 25% de valeurs

    Q3 = limite haute des 75%

    IQR = zone normale

    Tout ce qui sort de Q1 - 1.5×IQR ou Q3 + 1.5×IQR = suspect

    

🔹 Résumé – Data Cleaning (Nettoyage des données)
1. Suppression des doublons

    Pourquoi : les lignes en double faussent les statistiques et biaisent les modèles.

    Comment :

df = df.drop_duplicates()
df.duplicated().sum()  # Vérifie qu’il n’en reste pas

2. Suppression de colonnes inutiles

    Pourquoi : certaines colonnes (ex : Cabin, Ticket) n’apportent aucune valeur pour l’analyse.

    Comment :

df = df.drop(['Cabin', 'Ticket'], axis=1)

3. Correction d’erreurs structurelles

    Problème : colonnes mal formatées (ex : dates en string).

    Objectif : homogénéiser les types pour les rendre exploitables.

    Comment :

df['Date'] = pd.to_datetime(df['Date'])

4. Détection des valeurs manquantes

    Objectif : repérer les colonnes incomplètes.

    Comment :

df.isnull()          # repère cellule par cellule
df.isnull().sum()    # nombre de valeurs manquantes par colonne

5. Traitement des valeurs manquantes
➤ 5.1 Suppression (dropna)

    Quand : si les lignes/colonnes concernées sont peu nombreuses et peu utiles.

    Comment :

df.dropna()           # supprime lignes incomplètes
df.dropna(axis=1)     # supprime colonnes incomplètes

➤ 5.2 Imputation simple

    Quand : si on veut conserver les données.

    Méthodes : moyenne, médiane, valeur fixe.

df.fillna(df.mean())    # remplit avec moyenne
df.fillna(0)            # remplit avec zéro

➤ 5.3 Imputation avancée (vue plus tard)

    Méthodes : régression, KNN, modèles ML

    Utilité : quand les relations entre colonnes sont complexes.

✅ Quiz (corrigé pédagogique)

1. Pourquoi le preprocessing ?
→ C – Pour garantir des données propres et fiables

2. Explorer les données permet ?
→ C – Comprendre structure, types, manquants

3. Clé de fusion Titanic + autre dataset ?
→ D – PassengerId

4. À quoi sert how='left' ?
→ B – Type de jointure (garde tous les Titanic même sans correspondance)

5. Quand supprimer les lignes manquantes ?
→ C – Si concentrées et peu nombreuses

6. Quand remplir avec 0 ?
→ Si 0 a un sens métier (ex : pas d’enfants à bord)

In [6]:
import pandas as pd

# Charger les données Titanic
df = pd.read_csv('train.csv')

df.info()
df.describe()
df.isnull().sum()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [7]:
df.drop(columns=["Age","Cabin"], inplace=True)
print(df.head())

   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex  SibSp  Parch  \
0                            Braund, Mr. Owen Harris    male      1      0   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female      1      0   
2                             Heikkinen, Miss. Laina  female      0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female      1      0   
4                           Allen, Mr. William Henry    male      0      0   

             Ticket     Fare Embarked  
0         A/5 21171   7.2500        S  
1          PC 17599  71.2833        C  
2  STON/O2. 3101282   7.9250        S  
3            113803  53.1000        S  
4            373450   8.0500        S  


In [9]:
print("Valeurs manquantes avant remplissage Embarked :", df['Embarked'].isnull().sum())
df['Embarked'] = df['Embarked'].fillna(df['Embarked'].mode()[0])
print("Valeurs manquantes après :", df['Embarked'].isnull().sum())

Valeurs manquantes avant remplissage Embarked : 0
Valeurs manquantes après : 0


In [5]:
import pandas as pd

# Charger les données Titanic
df = pd.read_csv('train.csv')

# Supprimer les lignes sans valeur d'Age pour travailler proprement
df_age = df['Age'].dropna()

# 1. Quartiles
Q1 = df_age.quantile(0.25)
Q3 = df_age.quantile(0.75)

# 2. IQR
IQR = Q3 - Q1

# 3. Bornes
borne_basse = Q1 - 1.5 * IQR
borne_haute = Q3 + 1.5 * IQR

# 4. Détection des outliers
outliers = df[(df['Age'] < borne_basse) | (df['Age'] > borne_haute)]

# Affichage
print(f"Q1 = {Q1}, Q3 = {Q3}")
print(f"IQR = {IQR}")
print(f"Bornes : {borne_basse} à {borne_haute}")
print(f"Nb d'outliers dans Age : {outliers.shape[0]}")

Q1 = 20.125, Q3 = 38.0
IQR = 17.875
Bornes : -6.6875 à 64.8125
Nb d'outliers dans Age : 11


In [1]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from sklearn.decomposition import PCA

df = pd.read_csv("weatherHistory.csv")

print(df.head())
print(df.columns)
print(df.isnull().sum())

scaler = MinMaxScaler()
df['Temperature_normalized'] = scaler.fit_transform(df[['Temperature (C)']])
print(df[['Temperature (C)', 'Temperature_normalized']].head())


numeric_cols = [
    'Temperature (C)', 'Apparent Temperature (C)', 'Humidity',
    'Wind Speed (km/h)', 'Wind Bearing (degrees)', 'Visibility (km)',
    'Loud Cover', 'Pressure (millibars)'
]

pca_input = df[numeric_cols].dropna()
pca = PCA(n_components=2)
pca_result = pca.fit_transform(pca_input)
df_pca = pd.DataFrame(pca_result, columns=['PC1', 'PC2'])
print(df_pca.head())

agg_temp = df.groupby('Precip Type')['Temperature (C)'].mean().reset_index()
print(agg_temp)

                  Formatted Date        Summary Precip Type  Temperature (C)  \
0  2006-04-01 00:00:00.000 +0200  Partly Cloudy        rain         9.472222   
1  2006-04-01 01:00:00.000 +0200  Partly Cloudy        rain         9.355556   
2  2006-04-01 02:00:00.000 +0200  Mostly Cloudy        rain         9.377778   
3  2006-04-01 03:00:00.000 +0200  Partly Cloudy        rain         8.288889   
4  2006-04-01 04:00:00.000 +0200  Mostly Cloudy        rain         8.755556   

   Apparent Temperature (C)  Humidity  Wind Speed (km/h)  \
0                  7.388889      0.89            14.1197   
1                  7.227778      0.86            14.2646   
2                  9.377778      0.89             3.9284   
3                  5.944444      0.83            14.1036   
4                  6.977778      0.83            11.0446   

   Wind Bearing (degrees)  Visibility (km)  Loud Cover  Pressure (millibars)  \
0                   251.0          15.8263         0.0               1015.13  

🎯 Objectif de l'exercice

Préparer un dataset météo pour l’analyse en appliquant trois techniques fondamentales de transformation de données :

    Normalisation (Min-Max)

    Réduction de dimension (PCA)

    Agrégation (moyenne par catégorie)

📌 Étapes et explications
1. Chargement et exploration

    On a chargé le fichier weatherHistory.csv.

    On a vérifié la structure, les colonnes, et les valeurs manquantes.

    Cela permet de comprendre les variables disponibles et de préparer le nettoyage.

2. Normalisation de la température

    Objectif : mettre les températures sur une échelle commune entre 0 et 1.

    Pourquoi ?

        Certaines variables (comme la température) ont une plage de valeurs très différente d'autres (comme l'humidité).

        La normalisation Min-Max est utile pour éviter qu'une variable domine les autres dans les modèles.

MinMaxScaler transforme chaque valeur en :
x_norm = (x - min(x)) / (max(x) - min(x))

    Résultat : une nouvelle colonne Temperature_normalized utilisable pour analyse ou machine learning.

3. Réduction de dimensions avec PCA

    Objectif : réduire un grand nombre de colonnes numériques en 2 colonnes principales (PC1 et PC2).

    Pourquoi ?

        Permet de visualiser facilement les données en 2D.

        Réduit le bruit ou la redondance entre colonnes (ex. température réelle et ressentie sont très corrélées).

        Gagne en performance sur des algos qui souffrent de trop de dimensions.

    Méthode : on a sélectionné les colonnes météo principales (température, humidité, vent, pression…), supprimé les lignes incomplètes, puis appliqué PCA(n_components=2).

    Résultat : un nouveau DataFrame df_pca avec les 2 composantes principales.

4. Agrégation : température moyenne par type de précipitation

    Objectif : regrouper les lignes selon le type de précipitation (rain, snow, etc.) et calculer la température moyenne pour chaque groupe.

    Pourquoi ?

        Utile pour résumer un gros dataset.

        Donne une vue synthétique des différences de température selon les conditions météo.

    Résultat :

Precip Type    Temperature (C)
rain           ≈ 13.85°C
snow           ≈ -3.27°C

✅ Ce qu'on a appris

    Comment nettoyer et transformer des données réelles pour les rendre exploitables.

    À quoi servent concrètement normalisation, PCA, et agrégation.

    Comment combiner Pandas et Scikit-learn pour du prétraitement efficace.