# Data cleaning
---
En sciences des données, l'écrasante majorité des données ne sont pas exploitables directement. Elles sont soit bruitées, soit incomplètes ou les deux : il est donc nécéssaire des les traiter correctement afin de ne pas rajouter du bruit dans les modèles.

Les étapes du traitement de données :

1. **Import du dataset**
    1. en CSV
    2. en xlsx/xlsm
    3. en parquet 
2. **Analyse descriptive**
    1. Visualisation des tendances et de la stationnarité (*séries temporelles*)
    2. Statistique descriptive
3. **Gestion des données manquantes**
    1. Détection des valeurs manquantes
    2. imputation ou supression (selon cas)
4. **Gestion des doublons** (si pertinent)
5. **Gestion des outliers**
    1. Détection des outliers univariés
    2. Détection des outliers multivariés
    3. Supression des outlers univariés
    4. Supression des outliers multivariés
6. **Encodage** (*Variables multiclasses*)
    1. One-hot encoding (si peu de catégories)
    2. Ordinal encoding (si les catégories sont ordonnées)
    3. Embeddings (si modèle deep learning)
    4. Frequency or Target encoding (si très nombreuses catégories)
7. **Feature engineering**
    1. Resampling (*séries temporelles*)
    2. Ajout de lags (*séries temporelles*)
       
## I. Import des librairies
---
## 1.1 Import des librairies nécéssaires pour les scripts et des datasets d'exemples.

In [22]:
# Graphs
import pandas as pd
import matplotlib.pyplot as plt
from skimpy import skim
import seaborn as sns

# Datasets
from sklearn.datasets import load_iris

# Autre
import torch
from tqdm import tqdm as tqdm_base # Barre de progression dans les boucles

## 1.2 Import des fonctions personnalisées

In [23]:
import sys
sys.path.append('/home/alexis/Desktop/DEV/Python/venv/Pipeline_Data_Science/TempSeries/src/Python')

import _split_var_quali_quanti as _split_var_quali_quanti

sys.path.append('/home/alexis/Desktop/DEV/Python/venv/Pipeline_Data_Science/TempSeries/')

## 1.3 Panneau général de configuration
C'est un framework qui permet de tracer des graphes avec une esthétique et des barres de progressions customisées, qui rajoutent de la clareté pour non seulement l'analyse, le data scientist, mais aussi le manager et le client final. Cette partie peut êtrez modifiée à votrre guise et ne dépend que de ce que vous voulez obtenir dans votre analyse descriptive.

Pour les barres de progression, il est utile voir nécssaire de rajouter la librairie **tqdm** pour en savoir ou le CPU/GPU en est sur l'entraînement du modèle ou le traitement des données. Avec Pytorch, on peut savoir en un coup d'oeil si on a un ou des GPU disponibles pour la pipeline. En règle générale, l'utilisation d'un ou de plusieurs GPU est appréciée pour ses vitesses d'exécutions très rapides sur certaines tâches spécifiques.


In [24]:
# Configuration de l'utilisation GPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print("Utilisation GPU" if device.type == "cuda" else "Utilisation du CPU")

# Configuration esthétique
sns.set_style("darkgrid")

def tqdm(*args, **kwargs): # Barre de progression sur les boucles
    kwargs.setdefault("bar_format", "{l_bar}{bar}| {n_fmt}/{total_fmt} • {elapsed} • {rate_fmt}")
    kwargs.setdefault("ascii", "░▒█")  # style du remplissage
    kwargs.setdefault("ncols", 90)    # largeur de la barre
    kwargs.setdefault("colour", "green")  # couleur (nécessite tqdm>=4.62.0)
    kwargs.setdefault("dynamic_ncols", False)
    return tqdm_base(*args, **kwargs)

tqdm_base.pandas(
    desc="Nettoyage", 
                 bar_format="{l_bar}{bar}| {n_fmt}/{total_fmt} • {elapsed} • {rate_fmt}",
                 ascii="░▒█",
                 ncols=90,
                 colour="green"
)

Utilisation GPU


## II Import du dataset
---
## 1.1 Import d'un fichier CSV / excel / parquet
On peut aussi prendre un dataset issu d'un fichier .csv ou excel. On prend le fichier "ozone_complet.csv" pour l'exemple. Attention ici à spécifier les séparateurs en mode anglosaxon (,) ou français (;) qui peuvent poser des problèmes d'import. De même pour les virgules des nombres flottants anglosaxons (.) et français (,).

1. On corrige le problème de séparateur grâce à la commande `sep` pour transformer l'interprétation du fichier.csv. On spécifie ";" pour transformer le mode anglosaxon en mode français par exemple.
2. On corrige le problème de décimales grâce à la commande `decimal`. Pour passer des décimales "anglosaxonnes" au format "français", on spécifie la valeur ",". 

In [25]:
df = pd.read_csv(
    'src/data/raw/ozone_complet.csv',
    header    = 0,
    index_col = 0,
    sep       = ';',
    decimal   = ','
)

Un df.head() permet d'avoir un rapide aperçu du dataset et de vérifier si il a bien été importé

In [26]:
df.head()

Unnamed: 0_level_0,maxO3,T6,T9,T12,T15,T18,Ne6,Ne9,Ne12,Ne15,...,Vdir9,Vvit9,Vdir12,Vvit12,Vdir15,Vvit15,Vdir18,Vvit18,Vx,maxO3v
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
19950401,47.6,10.1,11.6,13.3,13.6,12.2,8.0,8.0,8.0,8.0,...,290.0,4.0,300.0,4.0,340.0,4.0,20.0,4.0,-3.4641,62.2
19950402,56.2,9.5,9.4,13.8,17.4,16.3,8.0,8.0,7.0,0.0,...,160.0,2.0,180.0,3.0,110.0,1.0,350.0,2.0,0.0,47.6
19950403,61.8,3.6,8.0,16.8,21.5,20.2,4.0,5.0,2.0,2.0,...,20.0,2.0,340.0,1.0,170.0,2.0,170.0,3.0,-0.342,56.2
19950404,50.8,9.5,10.5,11.4,12.2,11.4,8.0,7.0,7.0,7.0,...,10.0,4.0,350.0,3.0,350.0,3.0,350.0,4.0,-0.5209,61.8
19950405,59.8,9.8,10.8,13.8,14.3,13.3,8.0,7.0,8.0,8.0,...,340.0,2.0,280.0,1.0,320.0,3.0,350.0,4.0,-0.9848,50.8


## 1.2 import d'un dataste built-in d'une librairie
On peut prendre un dataset déjà présent dans une librairie, comme `iris` de la librairie `sklearn`. Ces datasets dit "sandbox" sont à but pédagogiques ou pour le prototypage, on peut en retrouver dans certaines librairies comme `sklearn` ou `seaborn`.

In [27]:
# Init
iris = load_iris() # Charge le dataset
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)

In [28]:
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


## 1.3 Conversion en .parquet
Convertir des gros fichiers excels peut s'avérer être une bonne option pour réduire le temps de calcul et l'utilisation de la RAM de la machine. Pour des fichiers .xlsx/.xlsm de petite taille, on peut s'affranchir de cette étape. En revanche, pour des datasets plus gros, mieux vaut convertir en .csv (fichiers vectorisés) ou en .parquet. Les fichiers parquets sont très rapides et utilisent peu de RAM. Voici un tableau récupitulatif qui résume la pertinence de convertir un ficher excel (ou autre) en .parquet ou en .csv.

| Format      | Extension(s)   | Type              | Avantages clés                                               | Inconvénients / Limitations                     
|-------------|----------------|-------------------|----------------------------------------------------------------|------------------------------------------------------|
| Excel       | `.xls`, `.xlsx`,`.xlsm`| Binaire / XML     | Très répandu, compatible MS Office, facile à lire manuellement | Lourd, lent à charger pour gros volumes  |
| CSV         | `.csv`         | Texte (délimité)  | Simple, universel, facile à parser                            | Pas de types natifs, pas de compression             
| TSV         | `.tsv`         | Texte (délimité)  | Comme CSV, mais avec tabulation                              | Pas de compression                        
| JSON        | `.json`        | Texte (structuré) | Lisible, supporte structures hiérarchiques                   | Peu optimisé pour tables larges                      
| XML         | `.xml`         | Texte (structuré) | Standard                                                     | Fichiers très lourds          
| Pickle      | `.pkl`         | Binaire (Python)  | Sérialisation rapide pour Python                             | Non lisible en dehors de Python, pas sécurisé        
| HDF5        | `.h5`, `.hdf5` | Binaire (hiérarchique) | Efficace pour gros volumes, structuré                       | Plus complexe, dépendances externes              
| Feather     | `.feather`     | Binaire (Apache Arrow) | Ultra rapide, support natif avec pandas                     | Moins compressé que Parquet                      
| Parquet | `.parquet`     | Binaire (colonnaire) | Très efficace pour les gros datasets, compressé, type-safe | Moins lisible, nécessite des outils     


In [30]:
# -------------------------------
#Cette étape est à faire une fois dans tout le processus, pour relancer le kernel, on peut commenter les deux premières lignes
# -------------------------------

df = pd.read_csv(
    'src/data/raw/ozone_complet.csv',
    header    = 0,
    index_col = 0,
    sep       = ';',
    decimal   = ','
)

df.to_parquet( # Conversion en .parquet 
    'src/data/raw/ozone_complet.parquet'
)

df = pd.read_parquet( # import en .parquet
    'src/data/raw/ozone_complet.parquet'
)


III analyse descriptive du fichier brut
---