# <center> 3- Nettoyage des données </center>

**Sources :**

- HARRISON Matt, Machine learning, les fondamentaux : exploiter des données structurées en Python, First, Paris, 2020, p.39-41.
    
### Objectif : 
Nettoyer les données avant l'entraînement d'un modèle.

---

## Renommage des colonnes 
Permet de rendre compatible le nom des colonnes avec les conventions Python pour permettre un accès plus facile aux attributs avec **pandas**. 

La fonction *clean_names* de **pyjanitor** renvoie une structure *DataFrame* après avoir forcé les noms des colonnes et remplacé tous les espaces par '_'.

In [1]:
import pandas as pd
# pip install pyjanitor
import janitor as jn

my_df = pd.DataFrame(
    {"A": [1, None, 3],
    "sales numbers": [20.0, 30.0, None]})

jn.clean_names(my_df)

Unnamed: 0,a,sales_numbers
0,1.0,20.0
1,,30.0
2,3.0,


## Remplacer les espaces avec la librairie pandas

In [2]:
def clean_space(name):
    return (name.strip().lower().replace(" ", "_"))

In [3]:
df = pd.DataFrame(
    {"A": [1, None, 3],
    "sales numbers": [20.0, 30.0, None]})

df.rename(columns=clean_space)

Unnamed: 0,a,sales_numbers
0,1.0,20.0
1,,30.0
2,3.0,


## Remplacer des valeurs manquantes

- https://pyjanitor-devs.github.io/pyjanitor/api/functions/#janitor.functions.coalesce
- https://pyjanitor-devs.github.io/pyjanitor/api/functions/#janitor.functions.fill.fill_empty

In [15]:
df.coalesce(
     "A", "sales numbers",
     target_column_name="new_col",)

Unnamed: 0,A,sales numbers,new_col
0,1.0,20.0,1.0
1,,30.0,30.0
2,3.0,,3.0


In [17]:
# on remplace les cellules vides par une valeur
df.fillna(10)

Unnamed: 0,A,sales numbers
0,1.0,20.0
1,10.0,30.0
2,3.0,10.0


In [19]:
# avec fill_empty de pyjanitor
df.fill_empty(column_names = ["A", "sales numbers"], value = 10)

Unnamed: 0,A,sales numbers
0,1.0,20.0
1,10.0,30.0
2,3.0,10.0


## Vérifier si une valeur manquante existe encore :

In [23]:
# df avec valeurs True/False
df.isna()

Unnamed: 0,A,sales numbers
0,False,False
1,True,False
2,False,True


In [24]:
# pour les colonnes : renvoie True/False
df.isna().any()

A                True
sales numbers    True
dtype: bool

In [22]:
# renvoie True/False
df.isna().any().any()

True

---