# Cours 5 - Qualité des données

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('data/accounts.csv')

## 1. Identifier les erreurs
### 1.1 Identifier les valeurs nulles
#### 1.1.1 Pour un Dataframe
Retourne un dataframe de la même taille, avec dans chaque cellule la réponse à si elle est nulle ou non.

In [None]:
df.isnull()

#### 1.1.2 Pour une colonne


In [None]:
df.account_type.isnull()

### 1.2 Identifier les valeurs dupliquées
#### 1.2.1 Pour un Dataframe

In [None]:
df[df.duplicated()]

#### 1.2.2 Pour une colonne


In [None]:
df[df.duplicated(subset=["account_id"])]

#### 1.2.3 Pour n colonnes

In [None]:
df[df.duplicated(subset=["account_id", "account_type"])]

### 1.3 Identifier les valeurs uniques pour une colonne
#### 1.3.1 Sous forme d'une liste

In [None]:
df.account_type.unique()

#### 1.3.2 Sous forme d'un Dataframe avec le nombre d'occurences

In [None]:
df.account_type.value_counts()

## 2. Corriger les erreurs
### 2.1 Remplacer des valeurs dans une colonne avec .replace

In [None]:
# crée une copie pour ne pas corriger l'original directement à des fins de démo
df_replace = df.copy()

df_replace.account_type = df_replace.account_type.replace({"Savingss": "Savings"})

# pour voir l'effet sur account_type
df_replace.account_type.value_counts()

### 2.2 Remplacer des valeurs dans une colonne avec *map*


In [None]:
# crée une copie pour ne pas corriger l'original directement à des fins de démo
df_map = df.copy()

# pour les transformations simples qui ne touchent qu'une seule colonne
df_map.branch_id = df_map.branch_id.map(lambda _id: int(_id if pd.notna(_id) else -1))

# pour voir l'effet sur branch_id
df_map.head()

### 2.3 Remplacer des N/A par une autre valeur


In [None]:
# crée une copie pour ne pas corriger l'original directement à des fins de démo
df_fillna = df.copy()

df_fillna.branch_id = df_fillna.branch_id.fillna(-1)

# pour voir l'effet sur branch_id
df_fillna[df_fillna.branch_id == -1]

### 2.4 Supprimer les rangées qui ont une colonne qui est NA
On précise le paramètre subset, qui est une liste de noms de colonnes pour lesquelles on veut valider que les valeurs ne sont pas NA.

In [None]:
# crée une copie pour ne pas corriger l'original directement à des fins de démo
df_dropna = df.copy()

df_dropna= df_dropna.dropna(subset=["branch_id"])

# pour voir l'effet sur branch_id
df_dropna[df_dropna.branch_id.isna()]


### 2.5 Supprimer les duplicats qui ont une colonne qui est NA


In [None]:
# crée une copie pour ne pas corriger l'original directement à des fins de démo
df_drop_duplicates = df.copy()

df_drop_duplicates = df_drop_duplicates.drop_duplicates(subset=['branch_id'])

# pour voir l'effet sur branch_id
df_drop_duplicates[df_drop_duplicates.duplicated(subset=["branch_id"])]

### 2.6 Borner les valeurs d'une colonne à une plage min-max

In [None]:
# crée une copie pour ne pas corriger l'original directement à des fins de démo
df_clip = df.copy()

df_clip.balance = df_clip.balance.clip(lower=0, upper=10000)

# pour voir l'effet sur balance
df_clip

### 2.7 Modifier la valeur d'une colonne en fonction d'un filtre
Cette méthode modifie toutes les valeurs pour lesquelles le filtre a évalué à True

#### 2.7.1 Exemple 1:

In [None]:
# crée une copie pour ne pas corriger l'original directement à des fins de démo
df_a = df.copy()

df_a.loc[(df_a.balance < 0), "balance"] = 0

# pour voir l'effet sur balance
df_a

#### 2.7.2 Exemple 2:


In [None]:
# crée une copie pour ne pas corriger l'original directement à des fins de démo
df_b = df.copy()

df_b.loc[df_b.currency_code.str.endswith("USD"), "currency_code"] = "USD"
df_b.loc[df_b.currency_code.str.contains("EUR"), "currency_code"] = "EUR"
df_b.loc[df_b.currency_code.str.startswith("CAN"), "currency_code"] = "CAD"

# pour voir l'effet sur balance
df_b.currency_code.value_counts()