# Pandas - Nettoyage des données

1. Renommer les colonnes
2. Réorganiser l'ordre des colonnes
3. Vérification des types de données de colonnes spécifiques
4. Suppression du texte de la colonne
5. Traitement des données manquantes
6. Modification des types de données
7. Remplacement de texte dans une colonne
8. Opérations de chaîne de données de colonne
9. Suppression de colonnes
10. Suppression de lignes


In [None]:
import pandas as pd
file_name = "https://raw.githubusercontent.com/rajeevratan84/datascienceforbusiness/master/amazon_fires.csv"
df = pd.read_csv(file_name, encoding = "ISO-8859-1")

pd.set_option('display.max_rows', 7000)
pd.set_option('display.max_columns', 7000)

df.tail()

In [None]:
# afficher uniquement la colonne 'estado'

display(df['estado'])


# Renommer les colonnes

In [None]:
#Renommer les colonnes en anglais
    #'ano' : 'year'
    #'estado': 'state'
    #'mes': 'month'
    #'numero': 'number_of_fires'
    #'encontro': 'date'
    
df.rename(columns={'ano': 'year', 'estado': 'state', 'mes' : 'month', 'numero' : 'number_of_fires', 'encontro' : 'date'}, inplace = True)  

In [None]:
# Afficher les 5 premières lignes pour vérifier qu'il est bien modifié

df.head()

In [None]:
# Combien d'années y a-t-il dans la colonne 'year' ?

len(df['year'].value_counts())

In [None]:
# Consulter les types des colonnes

df.dtypes

# Réorganiser les colonnes

In [None]:
# Les colonnes sont numérotées de 0 à 4, de gauche à droite
# Mettez la date en premier, le mois en second et l'année en 3ème

colones = df.columns.tolist()
colones = colones[4:] + colones[1:2] + colones[0:1] + colones[2:4]
df = df[colones]

In [None]:
# Afficher les 5 premières lignes pour vérifier la modification
df.head()

In [None]:
# Afficher les 5 derniéres lignes
df.tail()

# Déterminer si une colonne contient des données numériques

In [None]:
# vérifie si le contenu de la colonne 'number_of_fires' est numérique ou non

pd.api.types.is_numeric_dtype(df['number_of_fires'])

In [None]:
# vérifie si le contenu de la colonne 'number_of_fires' est digital ou non

pd.api.types.is_string_dtype(df['number_of_fires'])

# Suppression du texte inutile des colonnes

In [None]:
# Supprimez le mot 'Fires' du contenu de 'number_of_fires'
import re

df['number_of_fires'] = df['number_of_fires'].str.replace(r'\D', '', regex = True)

In [None]:
# remplacer la colonne 'number_of_fires' sans le mot 'Fires' et vérifier le changement

df

In [None]:
# convertir notre colonne 'number_of_fires' en un type de données flottant et vérifier le changement

df['number_of_fires'] = pd.to_numeric(df['number_of_fires'])

print(f"La colone 'number_of_fires' est de type 'float': {pd.api.types.is_numeric_dtype(df['number_of_fires'])}")

df

# Gerer les valeurs manquantes

In [None]:
# On recharge le dataframe
file_name = "https://raw.githubusercontent.com/rajeevratan84/datascienceforbusiness/master/amazon_fires.csv"
df = pd.read_csv(file_name, encoding = "ISO-8859-1")
new_columns = {'ano' : 'year',
               'estado': 'state',
               'mes': 'month',
               'numero': 'number_of_fires',
               'encontro': 'date'}
df.rename(columns = new_columns, inplace=True)
df['number_of_fires'] = df['number_of_fires'].str.strip(" Fires")
# Creating a true copy of our dataframe
df_copy = df.copy()
df.head()

In [None]:
# Affichage de la somme des valeurs manquantes dans chaque colonne

print(df.isnull().sum())

In [None]:
# Nous pouvons facilement supprimer les valeurs Null ou NaN (pas un nombre)
# Supprimer les lignes avec des valeurs NaN et vérifier la supression

df.dropna(inplace=True)
print(df.isnull().sum())

In [None]:
file_name = "https://raw.githubusercontent.com/rajeevratan84/datascienceforbusiness/master/amazon_fires.csv"
df = pd.read_csv(file_name, encoding = "ISO-8859-1")
new_columns = {'ano' : 'year',
               'estado': 'state',
               'mes': 'month',
               'numero': 'number_of_fires',
               'encontro': 'date'}
df.rename(columns = new_columns, inplace=True)
df['number_of_fires'] = df['number_of_fires'].str.strip(" Fires")
df_copy = df.copy()
df.head()

In [None]:
# Créer un index booléen pour toutes les valeurs nulles

df.isna()

# Que faire des données manquantes ?

* Supprimez-les 
* Remplacez-les par un nombre arbitraire (par exemple une moyenne)
* Remplacez-les par des zéros, ou un autre entier

In [None]:
# Remplacer les valeurs manquantes de la colonne 'number_of_fires' par des zéros

df['number_of_fires'].fillna(0, inplace = True)

In [None]:
# Remplacer les valeurs manquantes de la colonne 'number_of_fires' par un remplissage vers l'avant

df.fillna(method = 'ffill')

In [None]:
# afficher la somme des valeurs nulles dans notre Dataframe

print(df.isnull().sum())

# Removing columns

In [None]:
# Supprimer la colonne 'date'

df.drop('date', axis = 1)

In [None]:
# On recharge le dataframe
file_name = "https://raw.githubusercontent.com/rajeevratan84/datascienceforbusiness/master/amazon_fires.csv"
df = pd.read_csv(file_name, encoding = "ISO-8859-1")
new_columns = {'ano' : 'year',
               'estado': 'state',
               'mes': 'month',
               'numero': 'number_of_fires',
               'encontro': 'date'}
df.rename(columns = new_columns, inplace=True)
df['number_of_fires'] = df['number_of_fires'].str.strip(" Fires")
df_copy = df.copy()
df.head()

In [None]:
# Supprimer les colonnes 'year' et 'date' dans une seule instruction

df.drop({'year','date'}, axis = 1)

# Suppression de lignes


In [None]:
# Supprimer la premiére ligne du Dataframe

df.drop(0)

In [None]:
# Supprimer les 3ème et 4ème lignes dans la même instruction

df.drop({2, 3})

# Pandas - Agrégation de données

1. Grouper par
2. Fonctions cartographiques
3. Pivotez
4. Fonctions agrégées

In [None]:
# On recharge le dataframe
import pandas as pd

file_name = "https://raw.githubusercontent.com/rajeevratan84/datascienceforbusiness/master/amazon_fires.csv"
df = pd.read_csv(file_name, encoding = "ISO-8859-1")
new_columns = {'ano' : 'year',
               'estado': 'state',
               'mes': 'month',
               'numero': 'number_of_fires',
               'encontro': 'date'}
df.rename(columns = new_columns, inplace=True)
df['state'] = df['state'].str.title()

df['number_of_fires'] = df['number_of_fires'].str.strip(" Fires")
df['number_of_fires'] = df['number_of_fires'].fillna(0)
df['number_of_fires'] = df['number_of_fires'].astype(float)


# Introduction à la Map Function
month_translations = {'Janeiro': 'January',
'Fevereiro': 'February',
'Março': 'March',
'Abril': 'April',
'Maio': 'May',
'Junho': 'June',
'Julho': 'July',
'Agosto': 'August',
'Setembro': 'September',
'Outubro': 'October',
'Novembro': 'November',
'Dezembro': 'December'}

df["month"] = df["month"].map(month_translations)
df.head(15)

# Utilisation de la fonction Groupby 

C'est l'un des outils d'analyse de données les plus utiles fournis par Pandas. Il nous permet de partager des segments de données et d'effectuer une opération dessus. Par exemple, nous pouvons regrouper nos « États » et trouver la somme totale des incendies par État.

In [None]:
# Crée un object groupé par la colonne 'state'

obj_grp = df.groupby("state")


In [None]:
# Crée un object groupé par la variable 'Rio' dans la colonne 'state'

obj_grp.get_group('Rio')

# Utiliser certaines fonctions d'agrégation

* mean()
* size()
* count()
* sum()
* min()
* max()

In [None]:
# Afficher les sommes de groupe de la colonne 'state' dans une seule intruction

obj_grp.count()

In [None]:
# Afficher les valeurs moyennes correspondent au groupe de la colonne 'state' dans une seule instruction

obj_grp.mean()

In [None]:
# Afficher le valeur moyenne de 'number_of_fires' correspondent au groupe de la colonne 'state' dans une seule instruction

obj_grp = df.groupby("state")['number_of_fires'].mean()
obj_grp

# Tableau croisé dynamique

In [None]:
import numpy as np
# Faites pivoter la colonne 'number_of_fires' indexée par la colonne 'state' et indiquez que la fonc moyenne est la fonction globale à utiliser

pd.pivot_table(data = df, values = 'number_of_fires', index = 'state')

In [None]:
# Créer un graphique en utilisant la fonction de la question précédente 
# Ajouter les étiquettes et un titre

pd.pivot_table(data = df, values = 'number_of_fires', index = 'state').plot(kind = "bar", ylabel = "count", title = "Number of fire per state", figsize = (12, 12), legend = False)




# Agrégation de plusieurs colonnes à l'aide de tableaux croisés dynamiques

In [None]:
# créer une colonne de fausse date appelée "gravité", dans cette colonne, nous utiliserons une cote de 1 à 5 pour indiquer la gravité de chaque incendie

df['seriousness'] = np.random.randint(1, 6, df.shape[0])

df

## Format pour agréger plusieurs colonnes de données


**DataFrame.pivot_table([column1_values, column2_values], column_index)**

In [None]:
# Agréger la colonne 'state' en fontion des deux colonnes 'severity' et 'number_of_fires'

df.pivot_table(['seriousness', 'number_of_fires'], 'state')

In [None]:
# Ajouter la marge à l'instruction de la question précédente

df.pivot_table(['seriousness', 'number_of_fires'], 'state', margins = True)

In [None]:
# Agréger la colonne 'state' en fontion des deux colonnes 'severity' et 'number_of_fires' avec la marge avec 3 fonction globales 'mean','min','max'.

df.pivot_table(['seriousness', 'number_of_fires'], 'state', margins = True, aggfunc=[np.mean, np.max, np.min])