In [1]:
import pandas as pd

# Importer les données

In [2]:
data = pd.read_excel("./dataset plusieurs milliards d'amis.xlsx", sheet_name= "dataset à nettoyer")
data.head()

Unnamed: 0,Prénom,Age,Taille en m,Pays de naissance,Pays de résidence,Type de logement,Nombre d’animal de compagnie,Salaire mensuel net,Années d’études après le Bac
0,Rana,27,1.61,France,France,Appartement,0,3127,5
1,Mioko,24,1.49,Japan,France,Studio,-3,200069,2
2,Prisca,24,153.0,Côte d'Ivoire,France,Logement étudiant,0,1502,2
3,Marc,23,1.65,France,France,Logement étudiant,0,1309,0
4,Henri,31,1.82,France,France,Appartement,1,2017,3


# Analyser le nombre d'occurences 

In [3]:
def occurence_by_val(data_column):
    """
    data_column : valeurs contenue dans une colone d'un dataframe
    
    return DataFrame composé de
                - Valeur : liste des différentes valeurs présentent dans data_column
                - Occurence : nombre d'occurences pour chaque valeur
    """
    result = {}
    list_data = list(data_column)
    distinct_val = list(set(list_data))
    for val in distinct_val:
        result[val] = list_data.count(val)
    
    result_df = pd.DataFrame()
    result_df["Valeur"] = [key for key in result]
    result_df["Occurence"] = [result[key] for key in result]

    return result_df.sort_values(by="Occurence", ascending = False)

In [4]:
occurence_by_val(data["Pays de naissance"])

Unnamed: 0,Valeur,Occurence
4,France,12
0,Bretagne,1
10,Chine,1
16,24,1
15,Grande-Bretagne,1
14,États-Unis,1
13,Thaïlande,1
12,Côte d'Ivoire,1
11,Japan,1
9,Canada,1


In [5]:
occurence_by_val(data["Type de logement"])

Unnamed: 0,Valeur,Occurence
1,Appartement,12
0,Maison,9
3,Studio,5
2,Logement étudiant,3


# Filtrer les données

## Filtre pour des valeurs numériques

In [6]:
filter_age_1 = data["Age"] > 20 
filter_age_2 =  data["Age"] < 30

filter_data = data[filter_age_1]
filter_data = filter_data[filter_age_2]

filter_data

  """


Unnamed: 0,Prénom,Age,Taille en m,Pays de naissance,Pays de résidence,Type de logement,Nombre d’animal de compagnie,Salaire mensuel net,Années d’études après le Bac
0,Rana,27,1.61,France,France,Appartement,0,3127,5
1,Mioko,24,1.49,Japan,France,Studio,-3,200069,2
2,Prisca,24,153.0,Côte d'Ivoire,France,Logement étudiant,0,1502,2
3,Marc,23,1.65,France,France,Logement étudiant,0,1309,0
5,Hanna,25,2.73,24,France,Maison,5,2540,3
6,Samuel,29,1.75,France,France,Maison,1,4100,5
7,Lee,25,1.66,Chine,France,Studio,A,1998,5
8,Manuel,25,1.79,Mexique,France,Studio,0,50369,3
9,Suk-Ho,24,1.71,Corée du Sud,France,Appartement,0,3705,5
10,Mioko,24,1.52,Japon,France,Maison,0,373640,5


## Filtre par catégorie

In [7]:
filter_country = data["Type de logement"].isin(["Appartement"])

data[filter_country]

Unnamed: 0,Prénom,Age,Taille en m,Pays de naissance,Pays de résidence,Type de logement,Nombre d’animal de compagnie,Salaire mensuel net,Années d’études après le Bac
0,Rana,27,1.61,France,France,Appartement,0,3127,5
4,Henri,31,1.82,France,France,Appartement,1,2017,3
9,Suk-Ho,24,1.71,Corée du Sud,France,Appartement,0,3705,5
11,Jung,21,1.69,Corée de l’Ouest,France,Appartement,2,2652,3
12,Toby,24,1.88,Grande-Bretagne,France,Appartement,0,105,24
13,Loïc,33,1.91,Bretagne,France,Appartement,0,2804,3
15,Giovani,25,1.78,Italie,France,Appartement,1,2110,3
17,Pierre,22,1.59,France,France,Appartement,2,4130,5
20,David,25,180.0,États-Unis,France,Appartement,1,2280,5
21,Kevin,23,1.68,Madagascar,France,Appartement,1,2225,3


# Appliquer des modifications sur les données

In [8]:
def business_rule_animal(nb_animal):
    """
    Renvoie nb_animal si il est supérieur ou égal à 0 
                         sinon renvoie 0
                    si nb_animal n'est pas un nombre, revoie 0
    """
    try :
        nb_animal = int(nb_animal[0])
    except ValueError:
        return 0

    if(nb_animal < 0):
        return 0
    else:
        return nb_animal

In [9]:
data["Nombre d’animal de compagnie"] = data[["Nombre d’animal de compagnie"]].apply(business_rule_animal, axis=1)
data

Unnamed: 0,Prénom,Age,Taille en m,Pays de naissance,Pays de résidence,Type de logement,Nombre d’animal de compagnie,Salaire mensuel net,Années d’études après le Bac
0,Rana,27,1.61,France,France,Appartement,0,3127,5
1,Mioko,24,1.49,Japan,France,Studio,0,200069,2
2,Prisca,24,153.0,Côte d'Ivoire,France,Logement étudiant,0,1502,2
3,Marc,23,1.65,France,France,Logement étudiant,0,1309,0
4,Henri,31,1.82,France,France,Appartement,1,2017,3
5,Hanna,25,2.73,24,France,Maison,5,2540,3
6,Samuel,29,1.75,France,France,Maison,1,4100,5
7,Lee,25,1.66,Chine,France,Studio,0,1998,5
8,Manuel,25,1.79,Mexique,France,Studio,0,50369,3
9,Suk-Ho,24,1.71,Corée du Sud,France,Appartement,0,3705,5


# Générer un rapport automatiquement

In [13]:
import pandas_profiling

In [14]:
profile = data.profile_report(title='Pandas Profiling Report')
profile.to_file(output_file="./report_pandas.html")