# Analyse et visualisation de données avec Python
## Démarrer avec des données

Questions
* Comment importer des données dans Python?
* Qu'est-ce que Pandas?
* Pourquoi utiliser Pandas pour traiter des données tabulaires?

Objectifs
* Charger une bibliothèque d'analyse de données Python (Pandas).
* Utiliser `read_csv` pour lire des données tabulaires dans Python.
* Décrire ce qu'est un DataFrame et une série.
* Accéder et résumer les données d'un DataFrames.
* Effectuer des opérations mathématiques et statistiques sur des
  données dans un DataFrame.

# Data Analysis and Visualization in Python
## Starting With Data
Questions
* How can I import data in Python?
* What is Pandas?
* Why should I use Pandas to work with data?

Objectives
* Load the Python Data Analysis Library (Pandas).
* Use `read_csv` to read tabular data into Python.
* Describe what a DataFrame and a Series are in Python.
* Access and summarize data stored in a DataFrame.
* Perform basic mathematical operations and summary statistics on data
  in a Pandas DataFrame.

## Utiliser les DataFrames Pandas dans Python

### Pandas dans Python
L'une des meilleures options pour traiter des données tabulaires dans Python est d'utiliser la bibliothèque d'analyse de données Python, c'est-à-dire *Pandas*. La bibliothèque Pandas fournit des structures de données, produit des graphiques de haute qualité avec *Matplotlib* et s'intègre bien avec d'autres bibliothèques utilisant des tableaux *NumPy* (qui est une autre bibliothèque Python).

## Working With Pandas DataFrames in Python

### Pandas in Python
One of the best options for working with tabular data in Python is to use the Python Data Analysis Library (a.k.a. Pandas). The Pandas library provides data structures, produces high quality plots with matplotlib and integrates nicely with other libraries that use NumPy (which is another Python library) arrays.

In [None]:
# Importer la bibliothèque "pandas"
import pandas as pd

In [None]:
# Import the "pandas" library
import pandas as pd

## Charger un fichier CSV avec Pandas
### Qu'est-ce qu'un DataFrame?

## Reading CSV Data Using Pandas
### So What’s a DataFrame?

In [None]:
# Chargement des données du fichier surveys.csv
surveys_df = pd.read_csv('../data/surveys.csv')

In [None]:
# Chargement des données du fichier surveys.csv
pd.read_csv('../data/surveys.csv')

In [None]:
# Note that pd.read_csv is used because we imported pandas as pd
surveys_df = pd.read_csv("../data/surveys.csv")

In [None]:
# Note that pd.read_csv is used because we imported pandas as pd
pd.read_csv("../data/surveys.csv")

In [None]:
# Afficher les quelques première lignes
surveys_df.head()

In [None]:
# Display the first rows of the DataFrame
surveys_df.head()

In [None]:
# Accéder aux dimensions du DataFrame
surveys_df.shape

In [None]:
# What format does it return the shape of the DataFrame in?
surveys_df.shape

In [None]:
# Accéder à la liste des noms de colonnes
surveys_df.columns

In [None]:
# Accessing the list of column names
surveys_df.columns

In [None]:
# Une colonne est un objet de type Series
surveys_df['weight'].describe()

In [None]:
# A column is an object of type Series
surveys_df['weight'].describe()

In [None]:
# Calculer des statistiques descriptives par colonne
print("Valeurs non nulles:  ", surveys_df['weight'].count())
print("Moyenne des valeurs: ", surveys_df['weight'].mean())
print("Deviation standard:  ", surveys_df['weight'].std())
print("Valeur minimale:     ", surveys_df['weight'].min())
print("Valeur médiane:      ", surveys_df['weight'].median())
print("Valeur maximale:     ", surveys_df['weight'].max())

In [None]:
# Compute descriptive statistics per column
print("Count:    ", surveys_df['weight'].count())
print("Mean:     ", surveys_df['weight'].mean())
print("Std Dev.: ", surveys_df['weight'].std())
print("Min:      ", surveys_df['weight'].min())
print("Median:   ", surveys_df['weight'].median())
print("Max:      ", surveys_df['weight'].max())

In [None]:
# Créer une nouvelle colonne
surveys_df['poids_kg'] = surveys_df['weight'] / 1000

# Afficher les dernières lignes
surveys_df.tail()

In [None]:
# New column - Convert all weights from grams to kilograms
surveys_df['weight_kg'] = surveys_df['weight'] / 1000

# Display the last rows of the DataFrame
surveys_df.tail()

### Exercices - DataFrame et Series

1. Chargez la table des espèces animales du fichier
   `species.csv` et assignez le résultat à `especes_df`. (3 min.)

### Exercises - DataFrame and Series

1. Load the table of species from the `species.csv`
   file and assign the result to `species_df`. (3 min.)

In [None]:
especes_df = pd.read_csv('../data/species.csv')

In [None]:
species_df = pd.read_csv('../data/species.csv')

2. Utilisez la méthode `.unique()` pour obtenir la
   liste des différents taxons (colonne `taxa`). (2 min.)

2. Use the `.unique()` function to get
   the list of all different `taxa`. (2 min.)

In [None]:
especes_df['taxa'].unique()

In [None]:
especes_df###

In [None]:
species_df['taxa'].unique()

In [None]:
species_df###

3. Utilisez la méthode `.nunique()` pour obtenir
   le nombre de différents taxons. (1 min.)

3. Use the `.nunique()` function to
   get the number of different taxa. (1 min.)

In [None]:
especes_df['taxa'].nunique()

In [None]:
especes_df###

In [None]:
species_df['taxa'].nunique()

In [None]:
species_df###

## Grouper des données

## Groups in Pandas

In [None]:
# Grouper les données par sexe
surveys_df.groupby('sex')

In [None]:
# Group data by sex
surveys_df.groupby('sex')

In [None]:
# Nombre de valeurs dans chaque colonne par sexe
surveys_df.groupby('sex').count()

In [None]:
# Provide the number of values for each column by sex
surveys_df.groupby('sex').count()

In [None]:
# Moyenne de chaque colonne à valeurs numériques par sexe
surveys_df.groupby('sex').mean(numeric_only=True)

In [None]:
# Provide the mean for each numeric column by sex
surveys_df.groupby('sex').mean(numeric_only=True)

In [None]:
# Obtenir le nombre d'enregistrements par code d'espèce
surveys_df.groupby('species_id')['record_id'].count()

In [None]:
# Obtenir le nombre d'enregistrements par code d'espèce
surveys_df.groupby('species_id').count()#['record_id']

In [None]:
# Get the number of records per species ID
surveys_df.groupby('species_id')['record_id'].count()

In [None]:
# Get the number of records per species ID
surveys_df.groupby('species_id').count()#['record_id']

In [None]:
# Moyennes et déviations standards des poids par code d'espèce
surveys_df.groupby('species_id')['weight'].aggregate(['mean', 'std'])

In [None]:
# Mean values and standard deviations of weights per species ID
surveys_df.groupby('species_id')['weight'].aggregate(['mean', 'std'])

### Exercices - Grouper des données
1. Faites calculer un sommaire des statistiques descriptives des
   poids (`weight`) pour chaque espèce (`species_id`). (4 min.)

### Exercises - Grouping data
1. Summarize `weight` values for each
   species (`species_id`) in your data. (4 min.)

In [None]:
surveys_df.groupby('species_id')['weight'].describe()

In [None]:
surveys_df###

2. Qu'arrive-t-il si on groupe par deux colonnes
   et si on recalcule les moyennes? (2 min.)

2. What happens when you group by two columns using
   the following syntax and then grab mean values? (2 min.)

In [None]:
surveys_df.groupby(['species_id', 'sex']).mean(numeric_only=True)

In [None]:
surveys_df.groupby(['species_id', 'sex'])###

## Résumé technique
* **Importer le module Pandas** : `import pandas as pd`
* **Chargement des données** : `pd.read_csv()`
  * Argument obligatoire : le **nom du fichier**
  * `index_col` : pour spécifier la colonne qui sera l'index
* Pour un **DataFrame** :
  * **Attributs** : `shape`, `index`, `columns`
  * **Méthodes** : `head()`, `tail()`, `describe()`
* Pour une **colonne** :
  * **Sélection** : `df['nom_colonne']`
  * **Méthodes** :
    * Statistiques descriptives :
      `count()`, `mean()`, `median()`, `min()`, `max()`
    * Autres : `describe()`, `nunique()`, `unique()`
* **Grouper selon les valeurs** d'une ou plusieurs colonnes :
  * `groupby(nom_col)`
  * `groupby([nom_col1, nom_col2])`
* **Transformer le DataFrame** : `unstack()`

## Technical Summary
* **Import Pandas**: `import pandas as pd`
* **Load data**: `pd.read_csv()`
  * Argument: the **filename**
  * `index_col`: the column to interpret as the DataFrame index
* **DataFrame** object:
  * **Attributes**: `shape`, `index`, `columns`
  * **Methods**: `head()`, `tail()`, `describe()`
* Series object or **column**:
  * **Selection**: `df['column_name']`
  * **Methods**:
    * Descriptive statistics:
      `count()`, `mean()`, `median()`, `min()`, `max()`
    * Others: `describe()`, `nunique()`, `unique()`
* **Grouping by values** of one or many columns:
  * `groupby(column_name)`
  * `groupby([column_name1, column_name2])`
* **Reshaping a DataFrame** from values in the index: `unstack()`