# Préparation des données

Ce notebook présente les commandes utiles pour les principales tâches de préparation des données. Les données `notes.data` qui servent d'illustration sont des notes obtenues par des étudiants dans des matières.

In [2]:
import pandas as pd
pd.set_option('display.max_rows', 100)     # Set the maximum number of rows displayed to 100 rows

In [3]:
df = pd.read_csv("eCO2mix_RTE_En-cours-TR.csv", sep="\t", encoding='latin-1', index_col=False)

df.head()

  df = pd.read_csv("eCO2mix_RTE_En-cours-TR.csv", sep="\t", encoding='latin-1', index_col=False)


Unnamed: 0,Périmètre,Nature,Date,Heures,Consommation,Prévision J-1,Prévision J,Fioul,Charbon,Gaz,...,Hydraulique - Fil de l?eau + éclusée,Hydraulique - Lacs,Hydraulique - STEP turbinage,Bioénergies - Déchets,Bioénergies - Biomasse,Bioénergies - Biogaz,Stockage batterie,Déstockage batterie,Eolien terrestre,Eolien offshore
0,France,Données temps réel,2022-06-01,00:00,44940.0,44800,45100.0,144.0,0.0,3596.0,...,4331,1054,1677.0,170,584.0,286.0,ND,ND,ND,ND
1,France,Données temps réel,2022-06-01,00:15,43967.0,43700,43900.0,144.0,0.0,3716.0,...,4163,1419,581.0,171,560.0,276.0,ND,ND,ND,ND
2,France,Données temps réel,2022-06-01,00:30,42514.0,42600,42700.0,142.0,0.0,2880.0,...,4187,1280,530.0,169,561.0,276.0,ND,ND,ND,ND
3,France,Données temps réel,2022-06-01,00:45,41073.0,41450,41600.0,143.0,0.0,2699.0,...,4054,1120,361.0,170,563.0,276.0,ND,ND,ND,ND
4,France,Données temps réel,2022-06-01,01:00,40359.0,40300,40500.0,144.0,3.0,2718.0,...,4068,1101,373.0,170,563.0,276.0,ND,ND,ND,ND


In [4]:
print(f"{df.shape[0]} rows and {df.shape[1]} columns")

# Combine dtypre, count and nnunique
pd.concat([df.dtypes, df.count(), df.nunique()], keys=["Types", "Count", "NUnique"], axis=1)

52705 rows and 40 columns


Unnamed: 0,Types,Count,NUnique
Périmètre,object,52705,2
Nature,object,52704,1
Date,object,52704,549
Heures,object,52704,96
Consommation,float64,52479,26699
Prévision J-1,object,52704,1973
Prévision J,float64,52512,2035
Fioul,float64,52479,1147
Charbon,float64,52479,1594
Gaz,float64,52479,8782


## Statistiques descriptives des valeurs non-définies

In [5]:
temp = ({
    'column':[],
    'nb_lines' :[],
    'nb_ND':[]
})

nd = pd.DataFrame(temp)

for column in df.columns : 
    new_row = pd.DataFrame({'column': column, 'nb_lines': df[column].count(), 'nb_ND': (df[column] == 'ND').sum()}, index=[0])
    nd = pd.concat([new_row, nd.loc[:]]).reset_index(drop=True)
nd = nd.sort_values(by='nb_ND', ascending=False)

nd["%ND"] = nd["nb_ND"] / nd["nb_lines"] * 100

nd

Unnamed: 0,column,nb_lines,nb_ND,%ND
0,Eolien offshore,52479.0,39838.0,75.91227
1,Eolien terrestre,52479.0,39838.0,75.91227
2,Déstockage batterie,52479.0,28224.0,53.781513
3,Stockage batterie,52479.0,28224.0,53.781513
34,Prévision J-1,52704.0,95.0,0.180252
9,Hydraulique - Fil de l?eau + éclusée,52479.0,8.0,0.015244
12,Gaz - Cogén.,52479.0,7.0,0.013339
13,Gaz - TAC,52479.0,6.0,0.011433
8,Hydraulique - Lacs,52479.0,3.0,0.005717
6,Bioénergies - Déchets,52479.0,1.0,0.001906


## Dataset météo

In [6]:
df_weather = pd.read_csv("donnees-synop-essentielles-omm.csv", sep=";", index_col=False, encoding='utf-8')

# df_weather.head()
print(f"{df_weather.shape[0]} rows and {df_weather.shape[1]} columns")

341186 rows and 60 columns


Selection des données d'une seule région. (Pourais être remplacer par une moyenne des régions) 

In [7]:
code_region = int('07149')  # Ile-de-France
df_weather = df_weather[df_weather["numer_sta"] == code_region]

# df_weather.head()
print(f"{df_weather.shape[0]} rows and {df_weather.shape[1]} columns")

5690 rows and 60 columns


Suppresion des lignes avec des valeurs manquantes.

In [8]:
df = df.dropna(subset=['Date', "Heures"])

## Fusion des deux datasets

Formatage des deate et heure des deux datasets.

In [9]:
# Concat date and hours
df['date'] = df['Date'].astype(str) + df['Heures'].astype(str)
# Convert to datetime
df['date'] = df['date'].apply(lambda x: pd.to_datetime(str(x), format='%Y-%m-%d%H:%M'))

df['date'].head()

0   2022-06-01 00:00:00
1   2022-06-01 00:15:00
2   2022-06-01 00:30:00
3   2022-06-01 00:45:00
4   2022-06-01 01:00:00
Name: date, dtype: datetime64[ns]

In [10]:
df_weather["date"] = df_weather['date'].apply(lambda x: pd.to_datetime(str(x), format='%Y%m%d%H%M%S'))
df_weather["date"]

10       2022-01-01 00:00:00
69       2022-01-01 03:00:00
128      2022-01-01 06:00:00
179      2022-01-01 09:00:00
226      2022-01-01 12:00:00
                 ...        
340888   2023-12-14 09:00:00
340949   2023-12-14 12:00:00
341011   2023-12-14 15:00:00
341072   2023-12-14 18:00:00
341134   2023-12-14 21:00:00
Name: date, Length: 5690, dtype: datetime64[ns]

### Formattage des données météo

In [31]:
#multiplier les colonnes par 3 pour avoir 1 lignes par heures
list_meteo = {
    'date': 'name',
    'pmer': 'pression_mer',
    'ff': 'vitesse_vent',
    't': 'température',
    'u': 'humidité',
    'pres': 'pression',
    'niv_bar': 'niveau_barometrique',
    'tn12': 't_min_12h',
    'tn24': 't_min_24h',
    'tx12': 't_max_12h',
    'tx24': 't_max_24h',
    'tminsol': 't_min_sol_12h',
    'rr1': 'précipitation_1h',
    'rr3': 'précipitation_3h',
    'rr6': 'précipitation_6h',
    'rr12': 'précipitation_12h',
    'rr24': 'précipitation_24h',
    'ssfrai': 'hauteur_neige'
}
df_weather = df_weather.rename(columns=list_meteo)
#df_weather
for col_name in df_weather.columns.values.tolist():
    if col_name not in list_meteo.values():
        df_weather = df_weather.drop(col_name, axis=1)
df_weather

Unnamed: 0,name,pression_mer,vitesse_vent,température,humidité,pression,niveau_barometrique,t_min_12h,t_min_24h,t_max_12h,t_max_24h,t_min_sol_12h,hauteur_neige,précipitation_1h,précipitation_3h,précipitation_6h,précipitation_12h,précipitation_24h
10,2022-01-01 00:00:00,102650,1.800000,282.850000,99,101550,,,,,,,0.000000,0.000000,0.000000,0.000000,0.000000,0.200000
69,2022-01-01 03:00:00,102630,1.500000,282.050000,100,101520,,,,,,,0.000000,0.000000,0.000000,0.000000,0.000000,0.200000
128,2022-01-01 06:00:00,102590,1.000000,280.950000,100,101480,,280.950000,,285.050000,,,0.000000,0.000000,0.200000,0.200000,0.200000,0.200000
179,2022-01-01 09:00:00,102580,0.600000,280.650000,100,101470,,,,,,,0.000000,0.000000,0.000000,0.200000,0.200000,0.200000
226,2022-01-01 12:00:00,102460,3.600000,285.350000,81,101370,,,,,,,,0.000000,0.000000,0.000000,0.200000,0.200000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
340888,2023-12-14 09:00:00,102170,5.200000,280.450000,89,101060,,,,,,,0.000000,-0.100000,0.200000,0.200000,0.400000,2.400000
340949,2023-12-14 12:00:00,102420,4.400000,281.250000,74,101310,,,,,,,0.000000,0.000000,-0.100000,0.200000,0.200000,2.400000
341011,2023-12-14 15:00:00,102550,3.900000,281.150000,75,101440,,,,,,,0.000000,0.000000,0.000000,-0.100000,0.200000,0.800000
341072,2023-12-14 18:00:00,102770,2.600000,280.650000,82,101660,,280.450000,,282.050000,,,0.000000,0.000000,0.000000,0.000000,0.200000,0.800000


### Fusion des deux datasets

In [12]:
df_full = pd.merge(df, df_weather, how='inner', on = 'date' )

# full_df.head()
print(f"df : {df.shape[0]} rows and {df.shape[1]} columns")
print(f"df_weather : {df_weather.shape[0]} rows and {df_weather.shape[1]} columns")
print(f"df_full : {df_full.shape[0]} rows and {df_full.shape[1]} columns")

df : 52704 rows and 41 columns
df_weather : 5690 rows and 60 columns
df_full : 4378 rows and 100 columns


## Visualisation de données

In [13]:
# Plot consommation over time for 
sub_df = df.loc[["Heures", "Consommation"]]
sub_df = sub_df.iloc[:, :96]

sub_df.plot(x="Heure", y="Consommation", figsize=(20,10))

KeyError: "None of [Index(['Heures', 'Consommation'], dtype='object')] are in the [index]"

# plot 

<br>

## 1. Sélectionner les enregistrements

### Sélection

Utilisez la fonction `query()` pour filtrer les enregistrements selon un critère booléen

In [None]:
df.query('Charbon > 16')


Comme la fonction renvoie un DataFrame, vous pouvez enchaîner plusieurs filtres

In [None]:
df.query('Consommation > 16').query('Charbon > 16') # ici ne marche pas

On peut aussi créer un critère plus complexe à l'aide des opérateurs `and` et `or`

In [None]:
df.query('Logiques > 16 and Stats > 16')

In [None]:
df.query('Logiques > 16 or (Stats > 16 and Systèmes == "B")')

Notez les double quotes " dans la chaîne délimitée par les simples quotes '

Pour une variable catégorique, on peut avoir besoin de filtrer sur plusieurs modalités possibles :

In [None]:
df.query('Systèmes in ["C", "D"]')

Il est également possible d'appeler une fonction dans la chaîne de caractères. Par exemple pour isoler les lignes qui contiennent des valeurs manquantes dans une colonne, on peut utiliser les méthodes `isna()` ou `isnull()` :

In [None]:
df.query('Consommation.isna()')

### Suppression

Pour supprimer définitivement une ou plusieurs ligne, on peut réaffecter le DataFrame :

In [None]:
df2=df.query('Systèmes in ["C", "D"]')
df2

Pour supprimer selon les noms de lignes, on peut utiliser la fonction `drop()`.

In [None]:
df2=df.drop('Carine TRUDELLE')
df2.shape

In [None]:
df2=df.drop(['Ambroise LEGUENNEC','Roméo LEBERGUEILLEC'])
df2.shape

Notez que dans la plupart des DataFrames, le nom des lignes est un numéro de lignes. Dans ce cas, une commande du type `df.drop(0)` par exemple permet de supprimer la première ligne (indice 0).

<br>

## 2. Sélectionner et créer les variables

### Sélection

Revoir le notebook Introduction.ipynb

In [None]:
df.Sport

In [None]:
df['Sport']

In [None]:
df.iloc[:,2:5]

### Suppression

In [None]:
df2 = df.drop('Sport', axis=1)    # axis=1 indique qu'on agit sur les colonnes, la fonction agit sur les lignes par défaut
df2

### Création d'une nouvelle variable

Il faut utiliser la syntaxe avec des crochets. Les méthodes `loc` ou `iloc` ne modifieront pas le DataFrame.

In [None]:
df['Moyenne des notes'] = df.mean(axis=1)
df.head()

In [None]:
df['CopieSport'] = df.Sport
df['Nom'] = df.index    # Recopier l'Index dans une colonne
df.head()

### Renommage des variables

In [None]:
df.columns = [c.replace(' ', '_') for c in df.columns] # ici c'est mon code
df.head()

Il est également possible de renommer l'index.

In [None]:
df.index.name

In [None]:
df.index.name = 'Prénom_Nom'
df.head()

Pour la suite du notebook, on réinitialise le DataFrame.

In [None]:
df = pd.read_csv("notes.data", sep="\t", index_col=0)

<br>

## 3. Vérifier et transformer les types des variables

In [None]:
df.dtypes

Les types des variables ont été détectés automatiquement d'après les données. Si les types ne conviennent pas, **il faut les changer !**

### Mettre une colonne en type numérique

Transformons la variable catégorique `Systèmes` en une variable numérique. Les valeurs A, B, C et D doivent être remplacées par les notes 18, 14, 10 et 6.

In [None]:
df.Systèmes = df.Systèmes.replace(to_replace = 'A', value = '18')
df.Systèmes = df.Systèmes.replace(to_replace = 'B', value = '14')
df.Systèmes = df.Systèmes.replace(to_replace = 'C', value = '10')
df.Systèmes = df.Systèmes.replace(to_replace = 'D', value = '6')

Il est possible de remplacer dans tout le DataFrame, sans cibler une colonne, avec `df.replace(to_replace = 'A', value = '18')`

On peut aussi faire le remplacement avec un seul appel à la fonction :

In [None]:
df.replace(to_replace =  {'A': '18', 'B': '14',  'C': '10', 'D': '6'})

In [None]:
df.dtypes

Il reste à changer le type de la colonne `Systèmes` pour la rendre numérique. On utilise la fonction `to_numeric()` :

In [None]:
df.Systèmes = pd.to_numeric(df.Systèmes)
df.dtypes

In [None]:
df.head()

### Nettoyer une colonne pour la rendre numérique

Des problèmes récurrents empêchent les variables numériques d'être stockées dans un type numérique :
- la présence d'espaces pour séparer les chiffres, comme dans `2 154 120`
- la présence d'une virgule à la place d'un point, comme dans `127,79`
- la présence d'espaces ou de caractères invisibles au début ou à la fin de la chaîne
- la présence dans la colonne de valeurs manquantes codées avec des caractères, comme `?`
- etc.

Pour remplacer des caractères dans une colonne du DataFrame, utilisez la fonction `str.replace()`. Ci-dessous un exemple avec un DataFrame à une seule colonne.

In [None]:
dfsale = pd.DataFrame({"montant": ["26 460,15", "29 842,70", "29 074,20"]})
dfsale

In [None]:
dfsale.dtypes

In [None]:
dfsale.montant = pd.to_numeric(dfsale.montant)   # renvoie une erreur

In [None]:
dfsale.montant = dfsale.montant.str.replace(",",".")
dfsale.montant = dfsale.montant.str.replace(" ","")
dfsale.montant = pd.to_numeric(dfsale.montant)
dfsale

In [None]:
dfsale.dtypes

Pour supprimer les espaces, tabulations et caractères invisibles au début et à la fin des chaînes, appliquez la fonction `str.strip()` sur la colonne.

### Mettre une colonne en type chaîne de caractères (string)

Si une colonne numérique contient en fait des catégories (par exemple les valeurs 1, 2 et 3 pour indiquer un numéro de trimestre), il vaut mieux traiter la colonne comme une variable catégorique pour éviter les erreurs dans l'analyse. La commande ci-dessous permet de transformer une colonne numérique vers le type chaîne de caractères.

In [None]:
df.Sport = df.Sport.astype(str)
df.dtypes

Plutôt que des chaînes de caractères (str), il existe en pandas un véritable type pour les variables catégoriques :

In [None]:
df.Stats = df.Stats.astype('category')
df.dtypes

Son principal intérêt est de permettre de déclarer un ordre entre les catégories qui ne correpond pas à l'ordre alphabétique/alphanumérique. Ce format prend également moins de place en mémoire.

Pour la suite du notebook, on réinitialise le DataFrame.

In [None]:
df = pd.read_csv("notes.data", sep="\t", index_col=0)

### Mettre une colonne en type date

Si une colonne du DataFrame contient des dates, elles sont par défaut reconnues comme des chaînes de caractères. Il est possible de transformer la colonne en type date à l'aide de cette commande :

In [None]:
# df.date = pd.to_datetime(df.date)
# commande mise en commentaire pour la bonne exécution du notebook

<br>

## 4. Agréger des lignes

La fonction `groupby()` permet de **regrouper** les lignes selon une ou plusieurs colonnes. Le but final est d'**agréger** les valeurs par groupe dans une ou plusieurs autres colonnes.

In [None]:
df.groupby('Systèmes')

L'objet retourné n'est pas affichable nativement.

Pour agréger, pandas propose des fonctions d'agrégation, dont la plus basique est `size()` :

In [None]:
df.groupby('Systèmes').size()    # nombre de lignes dans chaque groupe

La fonction `size()` renvoie toujours une Series. Notez que les groupes se retrouvent en Index de la Series, tandis que les valeurs agrégées remplissent la Series, comme on peut le voir ci-dessous :

In [None]:
agregation = df.groupby('Systèmes').size()
agregation.index

In [None]:
agregation.values

Si on regroupe selon plusieurs colonnes à la fois, on obtient une Series avec un index composite (à plusieurs colonnes), nommé MultiIndex.

In [None]:
agregation = df.groupby(['Systèmes','Sport']).size()
agregation

In [None]:
agregation.index

Si la fonction `size()` renvoie toujours une Series, les autres fonctions d'agrégation renvoient :
- une Series si on n'agrège que dans une seule colonne,
- un DataFrame sinon.

Par exemple avec la fonction `mean()` qui permet d'agréger en calculant la moyenne, cela donne :

In [None]:
df.groupby('Systèmes').mean()    # Moyenne calculée dans chaque colonne numérique

In [None]:
df.groupby('Systèmes').Logiques.mean()    # Moyenne calculée dans la colonne Sport uniquement 

Il est aussi possible de grouper avec le paramètre `as_index=False`. Dans ce cas, les groupes ne sont plus stockés dans un Index ou MultiIndex mais directement dans des colonnes. Le résultat est forcément un DataFrame.

In [None]:
df.groupby('Systèmes',as_index=False).mean()    # Grouper sur 1 colonne, agréger dans toutes les colonnes numériques

In [None]:
df.groupby('Systèmes',as_index=False).Logiques.mean()    # Grouper sur 1 colonne, agréger dans 1 colonne

In [None]:
df.groupby(['Systèmes','Sport'],as_index=False).mean()    # Grouper sur 2 colonnes, agréger dans toutes les colonnes numériques

In [None]:
df.groupby(['Systèmes','Sport'],as_index=False).Logiques.mean()    # Grouper sur 2 colonnes, agréger dans 1 colonne

Remarques :

Le paramètre `as_index=False` du `groupby()` ne fonctionne pas si l'agrégation est réalisée avec la fonction `size()`. On obtient quand même une Series avec les groupes en index.

Après une agrégation avec `size()`, pour transformer la Series en DataFrame, on peut utiliser une de ces deux solutions :

In [None]:
# Utilisation de la fonction to_frame()
df.groupby('Systèmes').size().to_frame('Effectif')

In [None]:
# Utilisation du constructeur de la classe DataFrame
pd.DataFrame(df.groupby('Systèmes').size(), columns=['Effectif'])

En plus de `size()` et `mean()`, les principales fonctions d'agrégation sont :

In [None]:
df.groupby('Systèmes').Sport.sum()    # somme

In [None]:
df.groupby('Systèmes').Sport.min()    # minimum

In [None]:
df.groupby('Systèmes').Sport.max()    # maximum

In [None]:
df.groupby('Systèmes').Sport.count()    # nombre de valeurs dans la colonne, mais sans les valeurs manquantes, contrairement à size()

In [None]:
df.groupby('Systèmes').Sport.nunique()    # nombre de valeurs distinctes dans la colonne

<br>

## 5. Transformer des variables

A venir...

<br>

## 6. Gérer les valeurs manquantes

### Repérer les valeurs manquantes

On peut compter les lignes ou les colonnes qui contiennent des valeurs manquantes.

In [None]:
df.isna().sum() 

In [None]:
df.isna().sum(axis=1).sort_values(ascending=False)

Pour isoler les lignes qui contiennent une valeur manquante, utilisez :

In [None]:
df[df.isna().any(axis=1)]

On peut cibler uniquement les valeurs manquantes d'une colonne uniquement, par exemple avec la commande ci-dessous.

In [None]:
df.query('Systèmes.isna()')

### Imputer les valeurs manquantes

On peut remplacer les valeurs manquantes en utilisant la fonction `fillna()`.

Pour imputer par la moyenne dans une colonne :

In [None]:
df.Stats.fillna(df.Stats.mean(), inplace=True)

In [None]:
df.isna().sum() 

Pour réaliser des imputations plus précises, on peut appliquer une technique de clustering sur les données puis imputer par la moyenne ou le mode dans chaque cluster. Une autre solution consiste à réaliser un modèle supervisé pour "prédire" la valeur manquante en fonction des autres variables.

### Supprimer les lignes/colonnes

En dernier recours, la fonction `dropna()` permet de supprimer les lignes ou colonnes qui contiennent au moins une valeur manquante. Il est possible d'exiger un seuil supérieur de valeurs manquantes pour que la ligne/colonne soit supprimée (voir la [doc](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html)).

De manière générale, on déconseille de supprimer des lignes si cela représente plus de 5% du jeu de données.

In [None]:
df.dropna()

In [None]:
df.dropna(axis=1)

N'oubliez pas de réaffecter le résultat dans une variable, ou d'utiliser le paramètre `inplace=True`.

Pour une vue plus complète sur la gestion des valeurs manquantes, voir la doc de [pandas](http://pandas.pydata.org/) : https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html