# Analyse et visualisation de données avec Python
## Formatage des données
Questions
* Quels sont les différents types de données dans Pandas?
* Quel est l'impact des types sur les statistiques descriptives?
* Comment gérer les valeurs non définies ou nulles?
* Comment sauvegarder un dataframe?

Objectifs
* Manipuler les types de données
* Créer une copie d'un dataframe.
* Transformer ou éliminer les valeurs non définies ou nulles.
* Écrire les données manipulées dans un fichier CSV.

# Data Analysis and Visualization in Python
## Data Formatting
Questions
* What are the different data types in Pandas?
* What impacts have data types on descriptive statistics?
* How can I manage undefined (null) values?
* How can I save a dataframe to a file?

Objectives
* Manipulate the data types.
* Create a copy of a DataFrame.
* Transform or remove null values.
* Write modified data to a CSV file.

## Charger nos données

## Loading our data

In [None]:
# Charger le module pandas
import pandas as pd

# Charger les données
surveys_df = pd.read_csv("../data/surveys.csv")

In [None]:
# First make sure pandas is loaded
import pandas as pd

# Read in the survey csv
surveys_df = pd.read_csv("../data/surveys.csv")

## Types de données
### Vérifier le type de données pour chaque colonne

## Types of Data
### Checking the format of our data

Types Python | Types Pandas | Description
:-----------:|:------------:|:-----------
`str`        | `object`     | Type générique, aussi utilisé en cas de multiples types
`int`        | `int64`      | Nombres entiers représentés avec 64 bits
`float`      | `float64`    | Nombres réels représentés avec 64 bits, ou non-définis (NaN)
 N/A         | `datetime64` | Dates et heures, avec une précision allant jusqu'à la nanoseconde

Native Python Type | Pandas Type | Description
:-----------------:|:-----------:|:-----------
`str`              | `object`    | The most general dtype. Will be assigned to your column if column has mixed types (numbers and strings).
`int`              | `int64`     | 64 bits integer
`float`            | `float64`   | Numeric characters with decimals. If a column contains numbers and NaNs(see below), pandas will default to float64.
 N/A               | `datetime64`| Values meant to hold time data.

In [None]:
# Le type de données pour les identifiants d'espèces
surveys_df['species_id'].dtype

In [None]:
# Getting the data type of species identifiers
surveys_df['species_id'].dtype

In [None]:
# Le type de données pour la colonne des mois
surveys_df['month'].dtype

In [None]:
# Getting the data type of month values
surveys_df['month'].dtype

In [None]:
# Obtenir le type de données pour chaque colonne
surveys_df.dtypes

In [None]:
# Getting the data types of all columns
surveys_df.dtypes

### Impacts sur les statistiques descriptives

### Working With Our Survey Data

In [None]:
# Statistiques descriptives sur les valeurs numériques
surveys_df.describe()

In [None]:
# Summary of descriptive statistics
surveys_df.describe()

In [None]:
# Convertir les numéros de mois en valeurs nominales
surveys_df['month'] = surveys_df['month'].astype('str')
surveys_df['month'].dtype

In [None]:
# Convert month numbers to nominal values
surveys_df['month'] = surveys_df['month'].astype('str')
surveys_df['month'].dtype

In [None]:
# Statistiques descriptives sur une variable qualitative
surveys_df['month'].describe()

In [None]:
# Descriptive statistics on a categorical variable
surveys_df['month'].describe()

In [None]:
# Lister les différents mois
surveys_df['month'].unique()

In [None]:
# Listing all different months
surveys_df['month'].unique()

In [None]:
# Lister les différentes années
surveys_df['year'].unique()

In [None]:
# Listing all different years
surveys_df['year'].unique()

### Démo - Types et statistiques descriptives

### Demo - Calculating Statistics

`1`. Convertir les valeurs de `weight` en entiers `int64` produira une erreur. Pourquoi?

`1`. What happens if we try to convert `weight` values to `int64` integers?

In [None]:
try:
    surveys_df['weight'].astype('int64')
except BaseException as erreur:
    print(f'La raison : {erreur}')

In [None]:
try:
    surveys_df['weight'].astype('int64')
except BaseException as error:
    print(f'The problem: {error}')

`2`. Essayez de convertir la colonne `plot_id` au type Python `float`.

`2`. Try converting the column `plot_id` to native Python `float` data type.

In [None]:
surveys_df['plot_id'] = surveys_df['plot_id'].astype('float')
surveys_df['plot_id'].dtype

In [None]:
surveys_df['plot_id'] = ###
surveys_df['plot_id'].dtype

## Sélection et nettoyage des valeurs non définies

## Selecting and cleaning undefined values

In [None]:
# Pour chaque valeur, déterminer si non définie
surveys_df.isna()

In [None]:
# For each value, is the value undefined
surveys_df.isna()

In [None]:
# Sélectionner les enregistrements ayant au moins une valeur NaN
masque_nan = surveys_df.isna().any(axis='columns')
surveys_df[masque_nan]

In [None]:
# Select rows with at least one undefined value
nan_mask = surveys_df.isna().any(axis='columns')
surveys_df[nan_mask]

In [None]:
# Qu'est-ce que le code suivant va retourner?
une_selection = surveys_df[surveys_df['weight'].isna()]
une_selection.groupby('species_id')['record_id'].count()

In [None]:
# What does this do?
one_selection = surveys_df[surveys_df['weight'].isna()]
one_selection.groupby('species_id')['record_id'].count()

### Recréer des données manquantes

### Getting Rid of the NaN’s

In [None]:
# Avant le nettoyage
print('Décompte total :', surveys_df['weight'].count())
surveys_df.groupby('species_id')['weight'].mean().loc['DM':'NL']

In [None]:
# Before the cleanup
print('Total count :', surveys_df['weight'].count())
surveys_df.groupby('species_id')['weight'].mean().loc['DM':'NL']

In [None]:
# Créer une copie pour ne pas modifier l'objet original
copie_surveys = surveys_df.copy()
copie_surveys.head()

In [None]:
# Create a copy to avoid modifying the original object
copy_surveys = surveys_df.copy()
copy_surveys.head()

In [None]:
# Pour une valeur moyenne stable par espèce
copie_surveys.groupby('species_id')['weight'].transform('mean')

In [None]:
# For a stable mean value per species
copy_surveys.groupby('species_id')['weight'].transform('mean')

In [None]:
# Remplacer les valeurs manquantes par les moyennes connues
copie_surveys['weight'] = copie_surveys['weight'].fillna(
    copie_surveys.groupby('species_id')['weight'].transform('mean')
)

In [None]:
# Replace unknown values by known mean values
copy_surveys['weight'] = copy_surveys['weight'].fillna(
    copy_surveys.groupby('species_id')['weight'].transform('mean')
)

In [None]:
# Après le nettoyage
print('Décompte total :', copie_surveys['weight'].count())
copie_surveys.groupby('species_id')['weight'].mean().loc['DM':'NL']

In [None]:
# After the cleanup
print('Total count :', copy_surveys['weight'].count())
copy_surveys.groupby('species_id')['weight'].mean().loc['DM':'NL']

### Exercice - Nettoyage
Refaites les mêmes étapes de remplissage des valeurs
non définies, mais pour la colonne `'hindfoot_length'`.
Par contre, cette fois-ci, on veut calculer
les moyennes selon `'species_id'` et `'sex'`.

La fonction `etat_par_species_et_sex()` vous est fournie
pour afficher des statistiques avant et après le nettoyage.

(5 min.)

### Exercise - Data Cleanup
Repeat the same steps to fill in the undefined
values, but for the `'hindfoot_length'` column.
However, this time we want to calculate the averages
according to `'species_id'` and `'sex'`.

The `state_by_species_and_sex()` function is provided
to display statistics before and after cleaning.

(5 min.)

In [None]:
def etat_par_species_et_sex(df, colonne):
    print(
        df.groupby(
            ['species_id', 'sex']
        )[colonne].aggregate(
            ['count', 'mean', 'std']
        ).unstack().head()
    )
    print()
    print('Décompte total :', df[colonne].count())

In [None]:
def state_by_species_and_sex(df, column):
    print(
        df.groupby(
            ['species_id', 'sex']
        )[column].aggregate(
            ['count', 'mean', 'std']
        ).unstack().head()
    )
    print()
    print('Total count:', df[column].count())

In [None]:
colonne = 'hindfoot_length'
etat_par_species_et_sex(copie_surveys, colonne)
print()  # Afficher une ligne vide

copie_surveys[colonne] = copie_surveys[colonne].fillna(
    copie_surveys.groupby(
        ['species_id', 'sex']
    )[colonne].transform('mean')
)

etat_par_species_et_sex(copie_surveys, colonne)

In [None]:
colonne = ###
etat_par_species_et_sex(copie_surveys, colonne)
print()  # Afficher une ligne vide

copie_surveys[colonne] = copie_surveys[colonne].###(
    copie_surveys.groupby(
        ###
    )[colonne].###('mean')
)

etat_par_species_et_sex(copie_surveys, colonne)

In [None]:
column = 'hindfoot_length'
state_by_species_and_sex(copy_surveys, column)
print()  # Print an empty line

copy_surveys[column] = copy_surveys[column].fillna(
    copy_surveys.groupby(
        ['species_id', 'sex']
    )[column].transform('mean')
)

state_by_species_and_sex(copy_surveys, column)

In [None]:
column = ###
state_by_species_and_sex(copy_surveys, column)
print()  # Print an empty line

copy_surveys[column] = copy_surveys[column].###(
    copy_surveys.groupby(
        ###
    )[column].###('mean')
)

state_by_species_and_sex(copy_surveys, column)

### Sauvegarde après nettoyage

### Writing Out Data to CSV

In [None]:
# Ne garder que les lignes sans aucun NA
df_sans_na = copie_surveys.dropna()
df_sans_na

In [None]:
# Only keep (complete) records that have no NA
df_no_na = copy_surveys.dropna()
df_no_na

In [None]:
# Sauvegarder le dataframe filtré dans un fichier CSV
df_sans_na.to_csv('surveys_sans_NA.csv', index=False)

In [None]:
# Save the cleaned DataFrame to a CSV file
df_no_na.to_csv('surveys_complete.csv', index=False)

## Résumé technique
* **Gestion des types**
    * Pour un **DataFrame** :
        * Attributs : `dtypes`
    * Pour une **série** (colonne) :
        * Attributs : `dtype`
        * Méthodes : `astype()`
* **Nettoyage**
    * `df.copy()`
    * `isna()`, `notna()`
    * `colonne.fillna(valeur, inplace=True)`
* **Sauvegarde**
    * `df.to_csv(nom_csv, index=False)`

## Technical Summary
* **Managing data types**
    * For a **DataFrame**:
        * Attribute: `dtypes`
    * For a **Series** (column):
        * Attribute: `dtype`
        * Method: `astype()`
* **Cleaning data**
    * `df.copy()`
    * `isna()`, `notna()`
    * `column.fillna(value, inplace=True)`
* **Saving a DataFrame**
    * `df.to_csv(csv_filename, index=False)`