## Importation de bibliothèque

In [None]:
import pandas as pd
import numpy as np

## Exploration de données avec pandas

### Exploration de données 

In [None]:
# Charger les données depuis notre fichier CSV

file_csv_path = '../DataSets/Popular_Baby_Names.csv'

df = pd.read_csv(file_csv_path)

In [None]:
# Afficher les 5 premières lignes
df.head()

In [None]:
# Afficher les 5 dernières lignes
df.tail()

In [None]:
# Afficher la forme de notre df 
df.shape # (nombres observations, nombres de colonnes)

In [None]:
df.columns

### Informations générales

In [None]:
df.info()

### Résumé statistique

In [None]:
df.describe() ## Résumé statistique des valeurs numériques

In [None]:
df.describe(include='object')

### Identification des valeurs manquantes

In [None]:
# Nombre de valeurs manquantes du df
df.isnull().sum()

In [None]:
df.isnull()

In [None]:
# isnull() vs isnan()

In [None]:
df.isna().sum()

####
- notnull()
- notna()

In [None]:
# notnull()
df.notnull()

In [None]:
df.notnull().sum()

In [None]:
# notna()
df.notna()

In [None]:
# any()

### Distribution des Variable

In [None]:
df['Gender'].value_counts()

In [None]:
df['Rank'].value_counts()

In [None]:
print(f"Valeur MIN : {df['Rank'].min()}")
print(f"Valeur MIN : {df['Rank'].max()}")

## Gestion des valeurs manquantes

### Remplir avec la moyenne

In [None]:
file_csv_path = '../DataSets/Popular_Baby_Names.csv'

df = pd.read_csv(file_csv_path)
df.head()

In [None]:
df.isnull().sum()

In [None]:
data = {
    'Nom': ['Alice', 'Effi', 'Charlie', 'Leila', 'Pacôme', 'Sangare'],
    'Age': [25, None, 35, 40, None, None],
    'Ville': ['Bondoukou', 'Aboisso', 'Abidjan', 'Korhogo', 'Daoukro', 'Bouake']
}

df = pd.DataFrame(data)

df.head(10)

In [None]:
df.isnull().sum()

In [None]:
#fillna

df['Age']  = df['Age'].fillna(df['Age'].mean())

In [None]:
df.head(10)

### Remplir avec la Mediane

In [None]:
df_mediane = pd.DataFrame(data)
df_mediane.head(10)

In [None]:
round(df_mediane['Age'].median(), 2)

In [None]:
df_mediane['Age'] = df_mediane['Age'].fillna(round(df_mediane['Age'].median(), 2))

In [None]:
df_mediane.head()

### Remplir avec le Mode

In [None]:
data = {
    'Nom': ['Alice', 'Effi', 'Charlie', 'Leila', 'Pacôme', 'Sangare'],
    'Age': [25, None, 35, 40, None, None],
    'Ville': ['Bondoukou', 'Aboisso', 'Abidjan', 'Korhogo', 'Daoukro', 'Bouake'],
    'Couleur': ['Jaune', 'Vert', None, 'Vert', 'Bleu', 'Bleu']
}
df_mode = pd.DataFrame(data)
df_mode.head(10)

In [None]:
df_mode['Couleur'].mode()

In [None]:
df_mode['Couleur'].mode()[0]

In [None]:
df_mode['Couleur'].mode()[1]

In [None]:
df_mode['Couleur'] = df_mode['Couleur'].fillna(df_mode['Couleur'].mode()[0])

In [None]:
df_mode.head(10)

### Suppression des valeurs manquantes

#### a. Supprimer les lignes contenant des valeurs manquantes

In [None]:
# axis=0 ligne => par defaut axis=0
# dropna()

In [None]:
data = {
    'Nom': ['Alice', 'Effi', 'Charlie', 'Leila', 'Pacôme', 'Sangare'],
    'Age': [25, None, 35, 40, None, None],
    'Ville': ['Bondoukou', 'Aboisso', 'Abidjan', 'Korhogo', 'Daoukro', 'Bouake'],
    'Couleur': ['Jaune', 'Vert', None, 'Vert', 'Bleu', None]
}
df_dropna = pd.DataFrame(data)
df_dropna.head(10)

In [None]:
df_dropna.isnull().any(axis=0)

In [None]:
misssing_values_rows = df_dropna[df_dropna.isnull().any(axis=1)]

In [None]:
misssing_values_rows.head()

In [None]:
misssing_values_rows.to_csv('observations_manquantes.csv', index=False)

In [None]:
df_droped_rows = df_dropna.dropna()

In [None]:
df_droped_rows.head()

#### b. Supprimer les colonnes contenant des valeurs manquantes

In [None]:
df_droped_columns = df_dropna.dropna(axis=1)

In [None]:
df_droped_columns.head()

In [None]:
data = {
    'Nom': ['Alice', 'Effi', 'Charlie', 'Leila', 'Pacôme', 'Sangare'],
    'Age': [25, 23, 35, 40, 34, 21],
    'Ville': ['Bondoukou', 'Aboisso', 'Abidjan', 'Korhogo', 'Daoukro', 'Bouake'],
    'Couleur': ['Jaune', 'Vert', None, 'Vert', 'Bleu', None]
}

df = pd.DataFrame(data)
df.head()

### Ajout de colonne

In [None]:
df['Genre'] = ['F', 'M', 'M', 'F', 'M', 'M']

In [None]:
df.head()

In [None]:
df_new = df.assign(Age_3 = df['Age'] + 3)

In [None]:
df_new.head()

### 7. df.query():

In [None]:
# Charger les données depuis notre fichier CSV

file_csv_path = '../DataSets/Popular_Baby_Names.csv'

df_gender = pd.read_csv(file_csv_path)

df_gender.head(10)

In [None]:
df_gender.query('Count > 400')

In [None]:
# Backtick ``
df_gender.query('`Year of Birth` == 2011')

In [None]:
df_gender.query('`Year of Birth` == 2011 and Gender ==  "FEMALE"')

In [None]:
data = {
    'Nom': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [25, 30, 35, 40],
    'Ville de Résidence': ['Paris', 'Lyon', 'Marseille', 'Toulouse'],
    'Salaire Annuel': [5000, 6000, 5500, 6500]
}

df_gestion = pd.DataFrame(data)
df_gestion.head()

In [None]:
age = 25
salaire = 5500

In [None]:
result = df_gestion.query('Age >= @age and `Salaire Annuel` > @salaire')

In [None]:
result

### 8. df.sort_values() :

In [None]:
df_sorted = df_gender.sort_values(by='Count')
df_sorted.head(20)

##### Syntaxe de base

- df.sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last', ignore_index=False, key=None)

In [None]:
df_sorted = df_gender.sort_values(by='Count', ignore_index=True, ascending=False)
df_sorted.head(10)

In [None]:
data = {
    'Nom': ['Alice', 'Effi', 'Charlie', 'David'],
    'Age': [25, 30, 35, 40],
    'Ville de Résidence': ['Paris', 'Lyon', 'Marseille', 'Toulouse'],
    'Salaire Annuel': [5000, 6000, 5500, 6500]
}

df_gestion = pd.DataFrame(data)
df_gestion.head()

In [None]:
df_gestion = df_gestion.sort_values(by=['Salaire Annuel', 'Nom'])
df_gestion.head()

In [None]:
df_gestion = df_gestion.sort_values(by=['Nom', 'Salaire Annuel', 'Age'])
df_gestion.head()

In [None]:
df_gestion.T

In [None]:
data = {
    'Nom': ['Alice', 'Bob', 'Charlie', 'David', 'Alice'],
    'Age': [25, 30, 35, 40, 25],
    'Salaire': [5000, 6000, 5500, 6500, 5000]
}
df = pd.DataFrame(data)
df.head()

In [None]:
df['Nom'].unique()

In [None]:
df['Salaire'].nunique()

In [None]:
lignes_duplicated = df.duplicated()

In [None]:
print(lignes_duplicated)

In [None]:
df_dupliquees = df[df.duplicated()]

In [None]:
df_dupliquees

In [None]:
# Suppression des observations dupliquées
df_sans_duplication = df.drop_duplicates()

In [None]:
df_sans_duplication

### Boîte à moustaches