üéØ DATA PREPROCESSING ‚Äì COURS COMPLET, STRUCTUR√â ET EXPLIQU√â
üîπ 1. Pourquoi faire du Data Preprocessing ?
‚û§ D√©finition :

C‚Äôest l‚Äô√©tape o√π on pr√©pare les donn√©es brutes pour les rendre exploitables : propres, coh√©rentes, analysables.
Sans √ßa, ton mod√®le ou ton analyse va bosser sur des erreurs, ce qui fausse les r√©sultats.
‚û§ Raisons concr√®tes :

    Donn√©es souvent incompl√®tes (valeurs manquantes)

    Donn√©es incoh√©rentes (formats, doublons, erreurs)

    Donn√©es trop bruit√©es (outliers)

    Structure non adapt√©e au mod√®le ou √† la visualisation

    ‚ö†Ô∏è Tu ne peux pas faire d‚Äôanalyse s√©rieuse ou de mod√®le pr√©dictif sur des donn√©es corrompues.

üîπ 2. Data Gathering (collecte)

Tu pars de donn√©es externes (CSV, API, base SQL) ou internes (logs, fichiers m√©tiers).
Dans le cas Titanic, tu les t√©l√©charges avec le Kaggle API.
Code :

import pandas as pd
df = pd.read_csv('train.csv')

Pourquoi faire ?

Avant de nettoyer, il faut d√©j√† lire les donn√©es et les visualiser.
Tu ne peux pas nettoyer ce que tu ne comprends pas.
üîπ 3. Data Exploration
Objectif :

Comprendre ce que contient ton dataset :

    Quelles colonnes ?

    Quels types (str, int, float‚Ä¶) ?

    Combien de lignes ?

    Des valeurs manquantes ?

M√©thodes cl√©s :

df.head()         # aper√ßu des premi√®res lignes
df.info()         # types + colonnes + valeurs manquantes
df.describe()     # stats des colonnes num√©riques

Pourquoi faire ?

Tu ne peux pas savoir quoi nettoyer sans avoir vu les probl√®mes dans les donn√©es.

    Exemple : si tu ne regardes pas .isnull(), tu ne verras pas les champs vides.

üîπ 4. Data Integration
D√©finition :

Fusionner plusieurs datasets pour enrichir les donn√©es.
Ex : ajouter des infos d√©mographiques aux passagers Titanic.
Code :

df2 = pd.read_csv('demo.csv')
df = pd.merge(df, df2, on='PassengerId', how='left')

Pourquoi faire ?

Un dataset seul est parfois pauvre en variables explicatives.

    Tu ne pr√©dis pas bien un d√©c√®s si tu ne sais rien du passager‚Ä¶

Param√®tre how :

    'left' : tu gardes toutes les lignes de gauche (Titanic)

    'inner' : tu ne gardes que les lignes avec correspondance des deux c√¥t√©s

üîπ 5. Data Cleaning (nettoyage)
5.1 ‚Äì Supprimer les doublons
Pourquoi ?

Des lignes en double faussent les stats et les mod√®les.

df = df.drop_duplicates()

Exemple :

Deux fois la m√™me ligne "John Smith, 2e classe, 28 ans", √ßa double son poids dans l‚Äôanalyse.
5.2 ‚Äì Supprimer les colonnes inutiles
Pourquoi ?

Certaines colonnes ne servent √† rien pour l‚Äôanalyse, ou sont trop incompl√®tes.

df = df.drop(['Cabin', 'Ticket'], axis=1)

    Cabin a trop de valeurs manquantes. Ticket est souvent unique et peu informatif.

5.3 ‚Äì Corriger les erreurs de structure
Exemples typiques :

    Date au mauvais format

    Cat√©gories incoh√©rentes ("male", "Male", "MALE")

df['Date'] = pd.to_datetime(df['Date'])
df['Sex'] = df['Sex'].str.lower()  # uniformiser

    Tu veux que toutes les donn√©es aient le m√™me format, sinon tes groupby explosent.

5.4 ‚Äì G√©rer les valeurs manquantes
√âtape 1 ‚Äì Identifier

df.isnull().sum()

    Cela te donne une vue colonne par colonne de ce qui manque.

√âtape 2 ‚Äì D√©cider

Tu as 3 choix :

    ‚ùå Supprimer

df = df.dropna()

Quand : si peu de lignes sont concern√©es.

    ‚ûï Remplir (imputation simple)

df['Age'] = df['Age'].fillna(df['Age'].mean())

Quand : si tu veux conserver les donn√©es et que la colonne est importante.

    ü§ñ Imputation avanc√©e

from sklearn.impute import KNNImputer
imputer = KNNImputer(n_neighbors=2)
df_imputed = imputer.fit_transform(df)

Quand : si les valeurs manquantes d√©pendent d'autres colonnes.
5.5 ‚Äì G√©rer les outliers (valeurs extr√™mes)
Pourquoi ?

Les valeurs trop extr√™mes biaisent les moyennes, les mod√®les et les distributions.
M√©thode classique : IQR (Interquartile Range)

Q1 = df['Age'].quantile(0.25)
Q3 = df['Age'].quantile(0.75)
IQR = Q3 - Q1
borne_basse = Q1 - 1.5 * IQR
borne_haute = Q3 + 1.5 * IQR

df = df[(df['Age'] >= borne_basse) & (df['Age'] <= borne_haute)]

Interpr√©tation :

    Q1 = limite basse des 25% de valeurs

    Q3 = limite haute des 75%

    IQR = zone normale

    Tout ce qui sort de Q1 - 1.5√óIQR ou Q3 + 1.5√óIQR = suspect

    

üîπ R√©sum√© ‚Äì Data Cleaning (Nettoyage des donn√©es)
1. Suppression des doublons

    Pourquoi : les lignes en double faussent les statistiques et biaisent les mod√®les.

    Comment :

df = df.drop_duplicates()
df.duplicated().sum()  # V√©rifie qu‚Äôil n‚Äôen reste pas

2. Suppression de colonnes inutiles

    Pourquoi : certaines colonnes (ex : Cabin, Ticket) n‚Äôapportent aucune valeur pour l‚Äôanalyse.

    Comment :

df = df.drop(['Cabin', 'Ticket'], axis=1)

3. Correction d‚Äôerreurs structurelles

    Probl√®me : colonnes mal format√©es (ex : dates en string).

    Objectif : homog√©n√©iser les types pour les rendre exploitables.

    Comment :

df['Date'] = pd.to_datetime(df['Date'])

4. D√©tection des valeurs manquantes

    Objectif : rep√©rer les colonnes incompl√®tes.

    Comment :

df.isnull()          # rep√®re cellule par cellule
df.isnull().sum()    # nombre de valeurs manquantes par colonne

5. Traitement des valeurs manquantes
‚û§ 5.1 Suppression (dropna)

    Quand : si les lignes/colonnes concern√©es sont peu nombreuses et peu utiles.

    Comment :

df.dropna()           # supprime lignes incompl√®tes
df.dropna(axis=1)     # supprime colonnes incompl√®tes

‚û§ 5.2 Imputation simple

    Quand : si on veut conserver les donn√©es.

    M√©thodes : moyenne, m√©diane, valeur fixe.

df.fillna(df.mean())    # remplit avec moyenne
df.fillna(0)            # remplit avec z√©ro

‚û§ 5.3 Imputation avanc√©e (vue plus tard)

    M√©thodes : r√©gression, KNN, mod√®les ML

    Utilit√© : quand les relations entre colonnes sont complexes.

‚úÖ Quiz (corrig√© p√©dagogique)

1. Pourquoi le preprocessing ?
‚Üí C ‚Äì Pour garantir des donn√©es propres et fiables

2. Explorer les donn√©es permet ?
‚Üí C ‚Äì Comprendre structure, types, manquants

3. Cl√© de fusion Titanic + autre dataset ?
‚Üí D ‚Äì PassengerId

4. √Ä quoi sert how='left' ?
‚Üí B ‚Äì Type de jointure (garde tous les Titanic m√™me sans correspondance)

5. Quand supprimer les lignes manquantes ?
‚Üí C ‚Äì Si concentr√©es et peu nombreuses

6. Quand remplir avec 0 ?
‚Üí Si 0 a un sens m√©tier (ex : pas d‚Äôenfants √† bord)

In [6]:
import pandas as pd

# Charger les donn√©es Titanic
df = pd.read_csv('train.csv')

df.info()
df.describe()
df.isnull().sum()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [7]:
df.drop(columns=["Age","Cabin"], inplace=True)
print(df.head())

   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex  SibSp  Parch  \
0                            Braund, Mr. Owen Harris    male      1      0   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female      1      0   
2                             Heikkinen, Miss. Laina  female      0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female      1      0   
4                           Allen, Mr. William Henry    male      0      0   

             Ticket     Fare Embarked  
0         A/5 21171   7.2500        S  
1          PC 17599  71.2833        C  
2  STON/O2. 3101282   7.9250        S  
3            113803  53.1000        S  
4            373450   8.0500        S  


In [9]:
print("Valeurs manquantes avant remplissage Embarked :", df['Embarked'].isnull().sum())
df['Embarked'] = df['Embarked'].fillna(df['Embarked'].mode()[0])
print("Valeurs manquantes apr√®s :", df['Embarked'].isnull().sum())

Valeurs manquantes avant remplissage Embarked : 0
Valeurs manquantes apr√®s : 0


In [5]:
import pandas as pd

# Charger les donn√©es Titanic
df = pd.read_csv('train.csv')

# Supprimer les lignes sans valeur d'Age pour travailler proprement
df_age = df['Age'].dropna()

# 1. Quartiles
Q1 = df_age.quantile(0.25)
Q3 = df_age.quantile(0.75)

# 2. IQR
IQR = Q3 - Q1

# 3. Bornes
borne_basse = Q1 - 1.5 * IQR
borne_haute = Q3 + 1.5 * IQR

# 4. D√©tection des outliers
outliers = df[(df['Age'] < borne_basse) | (df['Age'] > borne_haute)]

# Affichage
print(f"Q1 = {Q1}, Q3 = {Q3}")
print(f"IQR = {IQR}")
print(f"Bornes : {borne_basse} √† {borne_haute}")
print(f"Nb d'outliers dans Age : {outliers.shape[0]}")

Q1 = 20.125, Q3 = 38.0
IQR = 17.875
Bornes : -6.6875 √† 64.8125
Nb d'outliers dans Age : 11


In [1]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from sklearn.decomposition import PCA

df = pd.read_csv("weatherHistory.csv")

print(df.head())
print(df.columns)
print(df.isnull().sum())

scaler = MinMaxScaler()
df['Temperature_normalized'] = scaler.fit_transform(df[['Temperature (C)']])
print(df[['Temperature (C)', 'Temperature_normalized']].head())


numeric_cols = [
    'Temperature (C)', 'Apparent Temperature (C)', 'Humidity',
    'Wind Speed (km/h)', 'Wind Bearing (degrees)', 'Visibility (km)',
    'Loud Cover', 'Pressure (millibars)'
]

pca_input = df[numeric_cols].dropna()
pca = PCA(n_components=2)
pca_result = pca.fit_transform(pca_input)
df_pca = pd.DataFrame(pca_result, columns=['PC1', 'PC2'])
print(df_pca.head())

agg_temp = df.groupby('Precip Type')['Temperature (C)'].mean().reset_index()
print(agg_temp)

                  Formatted Date        Summary Precip Type  Temperature (C)  \
0  2006-04-01 00:00:00.000 +0200  Partly Cloudy        rain         9.472222   
1  2006-04-01 01:00:00.000 +0200  Partly Cloudy        rain         9.355556   
2  2006-04-01 02:00:00.000 +0200  Mostly Cloudy        rain         9.377778   
3  2006-04-01 03:00:00.000 +0200  Partly Cloudy        rain         8.288889   
4  2006-04-01 04:00:00.000 +0200  Mostly Cloudy        rain         8.755556   

   Apparent Temperature (C)  Humidity  Wind Speed (km/h)  \
0                  7.388889      0.89            14.1197   
1                  7.227778      0.86            14.2646   
2                  9.377778      0.89             3.9284   
3                  5.944444      0.83            14.1036   
4                  6.977778      0.83            11.0446   

   Wind Bearing (degrees)  Visibility (km)  Loud Cover  Pressure (millibars)  \
0                   251.0          15.8263         0.0               1015.13  

üéØ Objectif de l'exercice

Pr√©parer un dataset m√©t√©o pour l‚Äôanalyse en appliquant trois techniques fondamentales de transformation de donn√©es :

    Normalisation (Min-Max)

    R√©duction de dimension (PCA)

    Agr√©gation (moyenne par cat√©gorie)

üìå √âtapes et explications
1. Chargement et exploration

    On a charg√© le fichier weatherHistory.csv.

    On a v√©rifi√© la structure, les colonnes, et les valeurs manquantes.

    Cela permet de comprendre les variables disponibles et de pr√©parer le nettoyage.

2. Normalisation de la temp√©rature

    Objectif : mettre les temp√©ratures sur une √©chelle commune entre 0 et 1.

    Pourquoi ?

        Certaines variables (comme la temp√©rature) ont une plage de valeurs tr√®s diff√©rente d'autres (comme l'humidit√©).

        La normalisation Min-Max est utile pour √©viter qu'une variable domine les autres dans les mod√®les.

MinMaxScaler transforme chaque valeur en :
x_norm = (x - min(x)) / (max(x) - min(x))

    R√©sultat : une nouvelle colonne Temperature_normalized utilisable pour analyse ou machine learning.

3. R√©duction de dimensions avec PCA

    Objectif : r√©duire un grand nombre de colonnes num√©riques en 2 colonnes principales (PC1 et PC2).

    Pourquoi ?

        Permet de visualiser facilement les donn√©es en 2D.

        R√©duit le bruit ou la redondance entre colonnes (ex. temp√©rature r√©elle et ressentie sont tr√®s corr√©l√©es).

        Gagne en performance sur des algos qui souffrent de trop de dimensions.

    M√©thode : on a s√©lectionn√© les colonnes m√©t√©o principales (temp√©rature, humidit√©, vent, pression‚Ä¶), supprim√© les lignes incompl√®tes, puis appliqu√© PCA(n_components=2).

    R√©sultat : un nouveau DataFrame df_pca avec les 2 composantes principales.

4. Agr√©gation : temp√©rature moyenne par type de pr√©cipitation

    Objectif : regrouper les lignes selon le type de pr√©cipitation (rain, snow, etc.) et calculer la temp√©rature moyenne pour chaque groupe.

    Pourquoi ?

        Utile pour r√©sumer un gros dataset.

        Donne une vue synth√©tique des diff√©rences de temp√©rature selon les conditions m√©t√©o.

    R√©sultat :

Precip Type    Temperature (C)
rain           ‚âà 13.85¬∞C
snow           ‚âà -3.27¬∞C

‚úÖ Ce qu'on a appris

    Comment nettoyer et transformer des donn√©es r√©elles pour les rendre exploitables.

    √Ä quoi servent concr√®tement normalisation, PCA, et agr√©gation.

    Comment combiner Pandas et Scikit-learn pour du pr√©traitement efficace.