# Introduction à Pandas 🐼

📖 **Pandas 🐼** est une bibliothèque Python 🐍 créée par dessus la bibliothèque **Numpy** par **Wes McKinney** en 2007 et qui est devenue open source à la fin de 2009. Elle est largement utilisée dans les domaines de la science des données, du *machine learning* (apprentissage automatique) et de l'analyse de données. Le nom est dérivé du terme **"PANel DAta"**, un terme d'économétrie qui désigne des suivis de cohorte d'individus. ([wikipedia](https://en.wikipedia.org/wiki/Pandas_(software)))

**Pandas 🐼** fonctionne bien en collaboration avec d'autres bibliothèques telles que **Matplotlib / Seaborn** et, bien sûr, **Numpy**.

<img src="files/pandas_numpy_matplotlib_seaborn.png" width="100%" align="center">

In [None]:
import pandas as pd # We'll use pd as the alias
import numpy as np # and np as alias for numpy

# Series

## Définition

📖 En Pandas 🐼 l'équivalent d'un 1-D array numpy est appelé une "Series", qu'on appelle aussi souvent "colonne". Cet objet est très similaire à un array numpy, d'ailleurs il est justement construit par dessus les array numpy. C'est pour cela qu'ils partagent un certain nombre de caractéristiques. En effet, comme dans un array numpy, une Series : 

- Peut être vide ou bien comporter des **valeurs**.
- Possède un **dtype** (*data type*) - mais gère mieux les cas où les données présentes dans la Series sont de différents types.

Cependant les Series diffèrent des array numpy puisqu'elles possèdent quelque chose de nouveau :

- Un **index**, qui associe une valeur, souvent unique mais pas nécessairement, à chaque entrée.

In [None]:
# Creating a Series from a list:
s = pd.Series([87, 23, 12, 43, 52, 61])
s

In [None]:
# To access an element, we can use Numpy syntax.
s[0]

In [None]:
s[5]

## Index et Series

Nous pouvons laisser Pandas 🐼 créer l'index, comme dans l'exemple précédent, ou bien en spécifier un nous-mêmes à l'aide de la syntaxe suivante :

In [None]:
# Using a list for values and a list for index
s = pd.Series([87, 23, 12, 43, 52, 61], index=[100, 102, 104, 106, 108, 110])
s

In [None]:
# or we can provide a dictionary, index is the key, value is value.
s = pd.Series({100: 87, 102: 23, 104: 12, 106: 43, 108: 52, 110: 61})
s

In [None]:
# Accessing an element with the new index
s[100]

In [None]:
s[110]

In [None]:
# We can also set strings as index
# And index doesn't have to be unique.
s = pd.Series([87, 23, 12, 43, 52, 61], index=['Group 1', 'Group 2', 'Group 2', 'Group 2', 'Group 1', 'Group 3'])
s

In [None]:
# Accessing one or several elements using the new index
s['Group 1']

In [None]:
s['Group 2']

# DataFrame

📖 Un *DataFrame* est une structure de données bidimensionnelle aisément manipulable qui sert à stocker en mémoire et manipuler des données en Python 🐍 via Pandas 🐼. C'est une **collection de Series** (un ensemble organisé de Series).

Quelques caractéristiques clés d'un DataFrame Pandas 🐼 :

- **Bidimensionnel** : Un DataFrame est souvent comparé à une feuille de calcul ou à une table SQL, car il organise les données en lignes et en colonnes, il ne traite donc que des données en deux dimensions.

- **Taille modifiable** : Vous pouvez ajouter ou supprimer des lignes et des colonnes d'un DataFrame.

- **Axes nommés** : Les lignes (axe 0) et les colonnes (axe 1) ont des "labels" (des noms), permettant une identification et un indexage faciles des données.

- **Opérations** : Les DataFrames prennent en charge une large gamme d'opérations sur les données, notamment le filtrage, le regroupement, l'agrégation, le pivotement, la fusion (*merge*), la jointure etc.

- **Et bien plus... !**: Gérer les valeurs manquantes, exporter les données sous de nombreux formats etc.

<img src="files/series-and-dataframe.png" width="50%" align="center">

In [None]:
s1 = pd.Series([87, 23, 12, 43, 52, 61])
s2 = pd.Series([100, 52, 35, 71, 62, 89])
s3 = pd.Series(['m', 'f', 'm', 'm', 'f', 'f'])

# There are multiple ways to create a dataframe from Series.
# Let's go with a dictionary. Keys are column names and values are... values!

pd.DataFrame({'age': s1, 'weight': s2, 'sex': s3}) # In Jupyter the display of a Dataframe is different from a Series.

## Création d'un DataFrame

📖 Pandas 🐼 peut créer des DataFrames à partir de nombreux formats de fichier différents, notamment :

- CSV (valeurs séparées par des virgules)
- Excel (XLS et XLSX)
- JSON (JavaScript Object Notation)
- HTML (tables)
- SQL (bases de données)
- Parquet
- HDF5 (format de données hiérarchique)
- Feather
- Stata
- SAS
- Google BigQuery
- Presse-papiers (ctrl + c)
- Dictionnaires Python 🐍
- URLs (HTTP, FTP, etc.)
- ... Et bien d'autres

## Jeu de données fictif

👉 Créons un DataFrame à partir d'un fichier CSV stocké dans le dossier "data" et nommé "fake.csv". Durant ce notebook nous utiliserons ce jeu de données fictif pour illustrer certaines des fonctions de Pandas 🐼. Stockons-le dans une variable nommée : **"fake_df"**.

**Note** : Ici, nous utilisons une convention de dénomination appelée **"notation hongroise suffixée"**, signifiant que le type de l'objet est inclus à la fin de son nom. Et, bien sûr, "df" est l'abréviation de "DataFrame".

In [None]:
fake_df = pd.read_csv("data/fake.csv")

fake_df

🔎 Si vous exécutez la cellule ci-dessus, vous pouvez immédiatement voir que "fake_df" est un **DataFrame** : les noms de colonnes et l'index sont en gras. Et si vous survolez le DataFrame avec la souris, les lignes sont mises en surbrillance.

# Le dataset sur les pays

## Présentation

📖 Durant ce tutorial nous allons utiliser un dataset très connu qui consiste en un seul fichier nommé "countries.csv" et comporte un grand nombre de différentes statistiques sur les pays (en 2013).

## Objectifs

Nous utiliserons ce fichier pour examiner si il existe une corrélation entre quatre variables :

- La densité de population (exprimée en Km²), que nous allons devoir calculer.
- Le PIB par habitant
- Le taux de natalité
- Le taux de mortalité

Et ce à deux niveaux de lecture différent : au **niveau des pays** et au **niveau de la région** à laquelle chque pays appartient.

Nous examinerons également si la durée de leur adhésion à l'ONU, si toutefois ils en sont membres, influe sur nos variables à expliquer.

Mais avant de parvenir à ce résultat, il va nous falloir comprendre et nettoyer ce jeu de données.

## Lecture d'un fichier CSV : "countries.csv"

❓ **>>>** Utilisez la fonction ``pd.read_csv()`` pour lire le fichier CSV nommé "countries.csv", qui se trouve à l'intérieur du dossier "data". Stockez le résultat dans un nouveau DataFrame nommé "df".

Si vous essayez de lire un fichier CSV et que Pandas 🐼 renvoie une erreur, ouvrez le fichier avec Jupyter Lab ou un éditeur de texte (VS Code, Notepad++, etc.) et examinez-le pour trouver la source de l'erreur. Les erreurs les plus courantes lors de la lecture d'un fichier CSV sont :

- Le **chemin du fichier** n'a pas été correctement fourni à la fonction. La manière la plus simple est de déplacer le fichier que vous souhaitez lire dans le même répertoire que votre fichier de notebook (ou dans un sous-dossier nommé "data").

- Un **séparateur de champ** incorrect, par défaut Pandas 🐼 suppose que c'est le caractère ",". Dans ce cas, spécifiez le séparateur avec l'argument "sep".

- Un **"quotechar"** incorrect, un caractère utilisé pour indiquer le début et la fin d'un élément entre guillemets. Les éléments entre guillemets peuvent inclure le séparateur et il sera ignoré. Dans ce cas, spécifiez-le avec l'argument "quotechar".

- La présence de **lignes supplémentaires** au début ou à la fin du fichier. Dans ce cas, utilisez les arguments "skiprows" ou "skipfooter" pour ignorer ces lignes.

- Un **encodage de fichier** incorrect. La norme "utf-8" est la plus courante, mais parfois les fichiers sont dans d'autres formats comme "cp1252" par exemple. Dans ce cas, spécifiez l'encodage avec l'argument "encoding". Indice : ici le fichier est déjà encodé en utf-8, ce ne sera pas l'encodage qui posera problème.

**NOTE** : **NE** pas ouvrir le fichier avec le logiciel "Excel", cela peut corrompre votre fichier et le rendre illisible, même si vous ne sauvegardez pas les modifications.

In [None]:
# Code here !


# Premières actions à effectuer

## La propriété `.shape`

🔎 Nous avons maintenant deux DataFrames, "fake_df" et "df". Jetons un coup d'œil à leur forme.

In [None]:
fake_df.shape

❓ **>>>** Quelle est la forme (la "shape") de notre df ? Qu'est-ce que cela signifie ?

In [None]:
# Code here!


## La fonction ``.head()``

Elle renvoie les n premières lignes, la valeur par défaut étant fixée à 5.

In [None]:
fake_df.head()

❓ **>>>** Utilisez la fonction ``.head()`` pour afficher les deux premières lignes de notre dataframe.

In [None]:
# Code here!


## La propriété `.columns`

Elle stocke les noms de nos différentes colonnes. C'est également l'index des colonnes.

In [None]:
fake_df.columns

❓ **>>>** Quelles sont les colonnes de notre DataFrame ? Utilisez une boucle ``for`` pour imprimer le nom de chaque colonne sur une ligne différente.

In [None]:
# Code here!


## La propriété `.index`

Elle stocke les noms des lignes (l'index).

❓ **>>>** Quel est l'index de notre DataFrame ?

In [None]:
# Code here!


## La propriété `.dtypes`

Le mot `dtypes` signifie "data types", il stocke les types de nos différentes colonnes. Le type "object" est souvent une chaîne de caractères.

In [None]:
fake_df.dtypes

❓ **>>>** Quels sont les "dtypes" de notre df ?

In [None]:
# Code here!


## Valeurs manquantes : la méthode `.isna()`

Lorsque vous analysez un nouveau jeu de données, il est très important de vérifier s'il y a des valeurs manquantes. Vous pouvez utiliser la méthode ``.isna()``, elle renvoie un nouveau DataFrame qui a la même taille que le DataFrame d'origine, mais les valeurs sont ``True`` si la valeur est manquante et ``False`` si une valeur existe.

💡 C'est l'une des principales forces de Python 🐍 : le résultat de nombreuses fonctions de Pandas 🐼 sont également des objets Pandas 🐼, ce qui signifie que vous pouvez travailler sur vos données ou vos résultats à l'aide des mêmes fonctions.

In [None]:
fake_df.isna()

❓ **>>>** Utilisez ``.isna()`` sur notre df.

In [None]:
# Code here


## Appliquer une fonction à un DataFrame : ``isna().sum()``

La méthode ``.sum()`` effectue une somme sur l'ensemble d'un DataFrame. Lorsque vous effectuez des sommes, les valeurs booléennes sont traitées comme 1 si elles sont ``True`` et 0 si elles sont ``False``.

In [None]:
fake_df.isna().sum()

❓ **>>>** Combien de valeurs manquantes dans notre DataFrame ?

In [None]:
# Code here!


## Création ou remplacement de Series

Tout comme un dictionnaire, pour créer ou remplacer une Series, il vous suffit de lui attribuer une valeur ou un objet (liste, dictionnaire...).

In [None]:
fake_df['one'] = 1
fake_df

In [None]:
fake_df['one'] = 999
fake_df

In [None]:
fake_df[['one', 'two']] = 1
fake_df

In [None]:
fake_df[['one', 'two']] = 1, 2 # An implicit tuple
fake_df

In [None]:
fake_df['three'] = fake_df['one'] + fake_df['two']
fake_df

In [None]:
fake_df['count'] = [el for el in range(fake_df.shape[0])]
fake_df

### Supprimer une Series

Il existe plusieurs façons de "supprimer" (effacer / retirer) une Series de votre DataFrame, l'une des plus simples est d'utiliser la syntaxe suivante :

In [None]:
fake_df.drop(columns='one') # This function is not "in place" which means we haven't modified "fake_df" yet.

In [None]:
# If we're happy with the result
# We can replace the old df with the new one
fake_df = fake_df.drop(columns='one')

❗️ **ATTENTION**❗️ Cette fois, nous ne remplaçons pas ou ne créons pas une **Series**, nous remplaçons l'ensemble du DataFrame !

On peut très facilement se tromper. Heureusement, en cas d'erreur, il est également très facile de revenir en arrière et de réexécuter les cellules.

In [None]:
# We can drop several columns by passing a list.
fake_df.drop(columns=['two', 'three', 'count'])

In [None]:
# If we're happy with the result
# We can replace the old df with the new one
fake_df = fake_df.drop(columns=['two', 'three', 'count'])

❓ **>>>** "Slicez" la colonne "country" de votre DataFrame et affichez la Series qui lui correspond. **Astuce**: Vous pouvez utiliser la touche "tab" du clavier pour l'autocomplétion.

In [None]:
# Code here!


# Traitement des données

## Définir les bons types de données

🤓 Maintenant que nous savons ce qu'est un DataFrame et une Series, et avant de commencer autre chose, il est important que nos Series soient converties dans le bon type.

In [None]:
fake_df.dtypes

### Conversion avec `.astype()`

Il existe de nombreux types de dtype différents. Certains utilisent le format standard de Python 🐍, d'autres sont spécifiques à Pandas 🐼 et d'autres sont communs à plusieurs autres langages (PyArrow).

Ici, utilisons soit :

- `'string'` (qui est un type Pandas 🐼)
- `'category'` (également un type Pandas 🐼)
- `int` (type Python 🐍)
- `float` (type Python 🐍)

In [None]:
# One conversion
fake_df['letter'].astype('category')

In [None]:
# Several conversions
fake_df[['fruit', 'letter']].astype('category')

In [None]:
# replacing old Series with new ones
fake_df[['fruit', 'letter']] = fake_df[['fruit', 'letter']].astype('category')

## Conversion avec une nouvelle importation

La plupart du temps, la meilleure pratique est de définir les types de données lors de l'importation des données. Cela est particulièrement vrai lorsque nous travaillons avec de grandes bases de données, car les types de données tels que `category`, par exemple, utilisent moins de mémoire que les chaînes de caractères.

- Lorsque vous utilisez la fonction `pd.read_csv()`, vous pouvez donner au paramètre `dtypes` un dictionnaire avec les noms de colonnes comme clés et les types de données comme valeurs. Vous pouvez soit saisir ce dictionnaire manuellement, soit utiliser une dictionnaire compréhensif pour générer un *template* (modèle), puis le modifier.

In [None]:
{col : 'string' for col in fake_df.columns}

In [None]:
# copy / paste and edit:
d = {'letter': 'category',
     'fruit': 'category',
     'value': 'float32',
     'numbers_list': 'string',
     'date': 'string'}

fake_df = pd.read_csv("data/fake.csv", dtype=d)
fake_df.dtypes

**Note**: Si une colonne n'est pas dans le dictionnaire donnée à la fonction `pd.read_csv()`, Python 🐍 essaiera d'inférer le type.

## Sélection des colonnes au chargement

La fonction ```pd.read_csv()``` possède un argument ```usecols```. Celui-ci permet de ne sélectionner que certaines colonnes lors de la lecture du fichier. Il prend comme paramètre une liste.

In [None]:
d = {'letter': 'category',
     'fruit': 'category',
     'value': 'float32',
     'numbers_list': 'string',
     'date': 'string'}


columns_to_load = ['letter', 'fruit','value', 'numbers_list', 'date']

fake_df = pd.read_csv("data/fake.csv",
                      dtype=d,
                      usecols=columns_to_load,
                     )

In [None]:
d = {'letter': 'category',
     'fruit': 'category',
     'value': 'float32',
     'numbers_list': 'string',
     'date': 'string'}

# Or you can use d.keys() !

fake_df = pd.read_csv("data/fake.csv",
                      dtype=d,
                      usecols=d.keys(),
                     )

## Nouvelle importation du fichier "countries.csv"

### Nombres décimaux : point ou virgule ?

Certaines conventions utilisent un point pour séparer les décimales d'un nombre, d'autres utilisent la virgule. On peut préciser la convention à Pandas 🐼 pendant l'importation en donnant au paramètre "decimal" de la fonction ```pd.read_csv()``` le caractère ```'.'``` ou ```','```. Cela permettra à Pandas 🐼 d'inférer le bon type automatiquement.

### Nouvelle importation

❓ **>>>** Réimportez le df avec **les même paramètres qu'au début**, mais cette fois-ci utilisez également :

- Le paramètre ```usecols``` pour ne charger que les colonnes suivantes :
    - "country"
    - "region"
    - "population"
    - "area (km²)"
    - "gdp ($ per capita)"
    - "birthrate"
    - "deathrate"

- Le paramètre ```dtype``` avec les bons types de données.

    - "country" sera de type 'string'.
    - "region" sera de type 'category'.
    - "population" and "area (km2)" seront de type 'int64' (ou 'int32' si vous voulez économiser un peu de mémoire vive).
    - "gdp ($ per capita)", "birthrate" et "deathrate" seront des float32.

- Le paramètre ```decimal``` pour lui spécifier que le séparateur de décimal utilisé dans de fichier est ```','```.

In [None]:
# Code here!


## Calcul de la densité de population

Maintenant que nos données sont propres, nous pouvons créer nos propres indicateurs.

❓ **>>>** Créez une nouvelle série nommée "density (per km²)" qui calculera la densité de population pour chacun des pays. Arrondissez-la à un chiffre après la virgule.

**Indice** : la fonction ```round()``` fonctionne aussi sur les Series !

In [None]:
# Code here!


## Graphiques

Revenons à notre fake_df. Vous pouvez générer un graphique à partir d'une Series de cette manière :

In [None]:
fake_df['value'].plot(); # Adding a semicolon removes useless legend
# Note that line stops as soon as it encounters a missing value (NaN)

In [None]:
# You can specify what graph you want with the 'kind' parameter.
# Let's use a bar graph first.
# Bar graphs are usually used to plot categorical data.
# As we want to plot the value for each row of our fake_df, this would work.

fake_df['value'].plot(kind='bar');

👉 Ici l'axe des x est l'index de notre DataFrame. Recommençons, mais avec des catégories (les lettres) sur l'axe des x. Pour ce faire, vous pouvez utiliser ``.plot()`` directement sur un DataFrame, vous permettant de manipuler facilement plusieurs Series.

In [None]:
fake_df.plot(x='letter', y='value', kind='bar');

## La *Series* "population"

❓ **>>>** Représentez sur un graphique de type 'bar', le pays en x et la population en y. Ne prenez que les 10 premiers pays afin que l'affichage soit correct. Pour cela vous pouvez slice votre df : ```df[:10]```

In [None]:
# Code here!


### Opérations sur les données numériques

Les Series **'value'** dans *fake_df* et **'population'** dans *df* sont toutes deux des données numériques. Cela signifie que vous pouvez appliquer de nombreuses fonctions statistiques différentes sur elles :

In [None]:
fake_df['value'].mean()

In [None]:
fake_df['value'].median()

In [None]:
fake_df['value'].describe()

❓ **>>>** Affichez des statistiques basiques sur la Series "Population". Vous pouvez convertir le résultats en entier avec `.astype(int)` pour retirer les décimales en trop.

In [None]:
# Code here!


## Sélection de données avec Pandas 🐼 : les méthodes ``.iloc[]`` et ``.loc[]``

Les méthodes `.iloc[]` et `.loc[]` dans Pandas 🐼 sont utilisées pour l'indexation et la sélection de lignes ou de colonnes dans les DataFrames.

### La méthode ``.iloc[]`` (Sélection avec des entiers)

La méthode ``.iloc[]`` est principalement utilisée pour la sélection des données avec des entiers.

- Elle accepte une indexation basée sur des entiers pour les lignes et les colonnes.
- L'indexation commence à zéro, similaire aux listes Python 🐍.
- Vous pouvez utiliser des entiers, des *slices*, des listes ou des booléens pour sélectionner des données.

In [None]:
fake_df.iloc[0]  # Select the first row
# Note that it returns a Series, not a DataFrame.

In [None]:
fake_df.iloc[2:5, 1:3]
# Returns a DataFrame because they are several Series.

In [None]:
fake_df.iloc[[0, 3, 5], [1, 2]]  # Select specific rows and columns by integer positions

In [None]:
# Select specific rows and columns with boolean indexing
fake_df.iloc[[True, False, True, False, True, True, False, True, False, True, False], [False, True, True, False, True]]

### La méthode ``.loc[]`` (Sélection par label)

La méthode ``.iloc[]`` peut parfois être utile, mais généralement on utilise la méthode ``.loc[]`` qui est très puissante. Elle permet de sélectionner des données par label ou basées sur des conditions.

- Indexation basée sur des labels pour les lignes et les colonnes.
- Contrairement à la plupart des indexations en Python 🐍 : l'indexation est **inclusive des deux extrémités** (c'est-à-dire que les *slices* incluent les étiquettes spécifiées).
- Vous pouvez utiliser des étiquettes, des *slices*, des listes ou des booléens pour sélectionner des données.
- Vous pouvez filtrer en utilisant des conditions.

In [None]:
fake_df.loc[0:3, 'fruit']

In [None]:
fake_df.loc[1:2, ['fruit', 'date']]

In [None]:
# Just like .iloc[], you can filter rows and columns using boolean indexing
fake_df.loc[[True, False, True, False, True, True, False, True, False, True, False], [False, True, True, False, True]]

In [None]:
# Pandas returns a boolean Series when you make comparison
fake_df['value'] > 500

In [None]:
# You can use this boolean Series to filter your DataFrame using .loc[]
fake_df.loc[fake_df['value'] > 500]

## Filtre sur la Population

❓ **>>>** Utilisez ```.loc[]``` et ```.plot()``` pour :

- Afficher une Series avec les noms des pays dont la population est supérieure à 60 millions.
- Générer un nouveau graphique avec le nom des pays en x et leur population en y.

In [None]:
# Code here!


In [None]:
# Code here!

# Utiliser ```.loc[]``` avec plusieurs conditions.

Il est tout à fait possible d'ajouter plusieurs conditions dans un ```.loc[]```, en ce cas on va devoir utiliser les opérateurs "element-wise" ```&``` et ```|``` au lieu de ```and``` et ```or``` afin de comparer élément par élément. Assurez-vous que chaque expression soit bien encadrée par des parenthèses.

In [None]:
# yields an error !
#fake_df.loc[(fake_df['letter'] == 'D') and (fake_df['value'] > 500)]

In [None]:
# works with the element-wise operator '&'
fake_df.loc[(fake_df['letter'] == 'D') & (fake_df['value'] > 500)]

In [None]:
# yields an error !
#fake_df.loc[(fake_df['letter'] == 'D') or (fake_df['value'] > 500)]

In [None]:
# works with the element-wise operator '|'
fake_df.loc[(fake_df['letter'] == 'D') | (fake_df['value'] > 500)]

❓ **>>>** Utilisez la méthode ```.loc[]``` pour afficher les pays qui possèdent une population plus grande que 100 millions et un PIB par tête supérieur à $25 000.

In [None]:
# Code here!


### Représentation graphique de variables textuelles (textes, catégories...)

Si on essaye de générer un graphique à partir de données textuelles, Pandas 🐼 retourne une erreur.

In [None]:
# Yields an error!
#df['region'].plot()

### La méthode ``value_counts()``

Cette méthode peut être appliquée sur presque n'importe quel type de Series et renvoie une nouvelle Series qui affiche le nombre d'occurrences de chaque élément.

In [None]:
fake_df['letter'].value_counts()

## La Series "region"

In [None]:
df['region']

❓ **>>>** Utilisez la méthode ```.value_counts()``` pour afficher la liste des différentes régions et leur nombre d'occurrences.

❓ **>>>** Puis générez un graphique qui indique la fréquence de chaque région avec la méthode ```.plot()```. N'oubliez pas d'utiliser le paramètre "kind" pour trouver un graphique adapté à votre objectif.

In [None]:
# Code here!


In [None]:
# Code here!


## Les méthodes `.unique()` et `.nunique()`

- `.unique()`

La méthode `.unique()` est utilisée pour retourner une liste de toutes les valeurs uniques présentes dans une Series.

- `.nunique()`

La méthode `.nunique()` est utilisée pour compter le nombre de valeurs distinctes (uniques) dans une Series.

In [None]:
fake_df['letter'].unique()

In [None]:
fake_df['letter'].nunique()

### Combien de valeurs uniques dans "region" ?

❓ **>>>** Utilisez ```unique()``` et ```.nunique()``` pour afficher les valeurs uniques et le nombre de valeurs uniques de la Series "region".

In [None]:
# Code here!


In [None]:
# Code here!


## Manipulation de chaînes de caractères

Comme vous pouvez le constater, les noms des régions semblent comporter beaucoup d'espaces inutiles. Pandas 🐼 fournit de nombreuses fonctions pour travailler avec des chaînes de caractères. Elles se trouvent dans un sous-module appelé `.str`. Par exemple :

In [None]:
fake_df['letter'].str.lower()

In [None]:
fake_df['letter'].str.replace("D", "ZZZ")

## Correction des chaînes de caractères dans la Series "region"

❓ **>>>** Retirez les espaces inutiles des noms des régions avec la méthode ```.str.strip()```. Lorsque c'est fait, remplacez l'ancienne Series par la nouvelle et affichez à nouveau le dernier graphique.

In [None]:
# Code here!


In [None]:
df.columns

# Group By et Agrégations

## Group By

En science des données, un "Groupby" est une opération qui consiste à diviser un ensemble de données en différents groupes en fonction d'un ou plusieurs critères.

Une fois les données séparées en différents groupes, on applique généralement une ou plusieurs fonctions à chacun de ces groupes.

## Agrégations

Quand on parle "d'agrégations", on fait référence aux fonctions mathématiques ou statistiques qu'on applique à ces groupes. Ce sont souvent des fonctions communes telles que la somme, la moyenne, la médiane, le compte (*count*), le minimum, le maximum, etc.

Les agrégations sont utilisées pour résumer et condenser des données.

## Exemples

Imaginons que nous ayons une bibliothèque avec plusieurs livres classés par genre. Nous pouvons les regrouper et appliquer la fonction `.sum()` pour vérifier combien de livres nous avons pour chaque catégorie différente.

<img src="files/group_by-sum.jpg" width="90%" align="center">

Mais nous pourrions également appliquer la fonction `.mean()` pour calculer la moyenne.

<img src="files/group_by-avg.jpg" width="100%" align="center">

[Source](https://learnsql.com/blog/group-by-in-sql-explained/)

## Application d'un GROUP BY

### GROUP BY sans aggrégation

Nous pouvons créer des objets groupby sans appliquer de fonction et les sauvegarder pour une utilisation ultérieure.

**Note**: Nous utilisons le paramètre ```observed=True``` car le dtype de cette série est catégorie.

In [None]:
fake_df.groupby('letter', observed=True) # Data have been grouped by Letter

### Fonctions basiques

#### ``.sum()``

In [None]:
fake_df.groupby('letter', observed=True).sum('value')

#### ``.count()``

In [None]:
fake_df.groupby('letter', observed=True).count()

#### ``.mean()``

In [None]:
fake_df.groupby('letter', observed=True).mean('value')

### La méthode ``.agg()``

La méthode ```.agg()``` dans Pandas 🐼 est utilisée pour effectuer des opérations d'agrégation sur un DataFrame ou une Series.

Nous pouvons spécifier une ou plusieurs fonctions d'agrégation que nous souhaitons appliquer aux données. Ces fonctions peuvent être des fonctions *built-in* telles que ```sum()```, ```mean()```, ```min()```, ```max()```, ou des fonctions personnalisées.

Elle peut prendre des arguments sous forme de strings, de listes ou même de dictionnaires.

#### ``.agg()`` avec une seule fonction

In [None]:
fake_df.groupby('letter', observed=True).agg('mean', numeric_only=True)

#### ``.agg()`` avec plusieurs fonctions.

Ici nous ne prenons que la colonne "value" depuis les données groupées, et nous appliquons trois fonctions différentes dessus.

In [None]:
fake_df.groupby('letter', observed=True)['value'].agg(['count', 'sum', 'mean'])

#### ```.agg()``` avec un ditcionnaire d'arguments.

Passer un dictionnaire d'argument est sans doute **la meilleure méthode**, elle permet un excellent contrôle sur le comportement des aggrégations.

In [None]:
fake_df.groupby('letter', observed=True).agg({
        'value' : ['mean','median', 'max', 'min'],
        'fruit':  ['count']})

## Calcul de nouvelles statistiques

❓ **>>>** Examinons la population totale de chaque région. Utilisez pour cela un groupby et la fonction ```.agg()``` avec l'argument 'sum'.

**Note**: Vous pouvez utiliser la fonction ```.sort_values()``` sur un DataFrame ou une Series pour classer le résultat. Lisez-la docstring si vous désirez en savoir davantage !

In [None]:
# Code here


# Jointures

Les jointures permettent de récupérer des données depuis d'autres sources, et de les ajouter à notre jeu de données existant.

<img src="files/left-outer-join-operation.png" width="50%" align="center">

In [None]:
fruits_df = pd.read_csv("data/fruits_kcal.csv")

In [None]:
fruits_df.head(2)

In [None]:
fake_df.merge(fruits_df, left_on="fruit", right_on="name", how='left')
# alternate syntax:
#pd.merge(fake_df, fruits_df, left_on="fruit", right_on="name", how='left')

In [None]:
# If we want to take only a specific column, and not the entire second df
fake_df.merge(fruits_df["calories (per 100g)"], left_on="fruit", right_on=fruits_df["name"], how='left')

## Ajout de la date d'entrée aux Nations Unis

### Création d'un nouveau dataframe

Certains pays sont membres de l'ONU, d'autres non. Récupérons un jeu de données directement depuis wikipedia et effectuons une jointure.

❓ **>>>** Examinez la page https://en.wikipedia.org/wiki/Member_states_of_the_United_Nations.

❓ **>>>** Utilisez la fonction ```pd.read_html()``` pour charger le tableau dans un dataframe nommé "un_df". Attention car cette fonction va retourner une liste de DataFrames, et pas un seul DataFrame. Vous aurez aussi peut-être besoin d'installer la librairie "lxml", dans ce cas là allez dans le terminal et effectuez un ```pip install lxml```.

In [None]:
# Code here


## La fonction `.str.split()`

Cette fonction appartient au sous-module `.str`. Elle se comporte presque de la même manière que la fonction `.split()`. Le paramètre ```expand``` est souvent très utile, il permet de séparer les éléments en de nouvelles Series.

In [None]:
fake_df['numbers_list'].str.split()

In [None]:
fake_df['numbers_list'].str.split()[0][0]

In [None]:
fake_df['numbers_list'].str.split('-')[0][0]

In [None]:
fake_df['numbers_list'].str.split('-', expand=True)

In [None]:
fake_df['numbers_list'].str.split('-', expand=True)[0]

### Nettoyage de "Member state" et "Date of admission"

Les colonnes "Member state" et "Date of admission" possèdent des valeurs mal formatées. Pouvez-vous les repérer ?

❓ **>>>** Utilisez la méthode ```.str.split()``` (et son paramètre ```expand```) pour nettoyer cette Series.

**Note**: N'oubliez pas d'appliquer cette fonction à la fois sur "Member state" et "Date of admission".

In [None]:
# Code here


## La méthode `.map()`

La méthode `.map()` dans Pandas 🐼 est utilisée pour appliquer une fonction sur une Series. Le résultat est une nouvelle Series avec les valeurs transformées par la fonction.

In [None]:
# Let's define a function
def adds_1000(number):
    return number + 1000

In [None]:
# Test
adds_1000(123.53)

In [None]:
fake_df['value'].map(adds_1000)

## Recréation de la Series "Original member"

Cette Series est vide car elle comportait des images dans wikipedia. Or nous savons que tous les pays qui sont des membres originaux ont adhéré en 1945.

❓ **>>>** Créez une fonction ```.map()``` qui :

- Prend en entrée une string (la date) que nous appellerons "s".
- Retournera ```True``` si cette string indique que le pays a adhéré en 1945 et ```False``` s'il a adhéré à un autre moment.

Puis appliquez votre fonction sur la Series "Date of admission" mais stockez le résultat dans la Series "Original member".

In [None]:
# Code here !

def is_original_member(s):
    
    pass # delete the pass and write your function


### Nettoyage de "country"

❓ **>>>** Dans la colonne "Country" il y a encore des noms de pays qui possèdent des espaces en trop. Utilisez ```str.strip()``` pour les retirer. 

In [None]:
# Code here!


### Jointure

❓ **>>>** Désormais effectuez la jointure entre "df" et "un_df" afin de récupérer les valeurs de la colonne "Date of admission".

In [None]:
# Code here!


### Format de date

Nos "df" et "fake_df" contiennent tous deux des dates. Cependant, si vous y jetez un coup d'œil, ce ne sont que des chaînes de caractères, pas encore des dates. Pandas 🐼 peut les convertir en objets "datetime", ce qui permettra de les représenter graphiquement et d'effectuer des opérations dessus.

Pour ce faire, nous pouvons utiliser la fonction ``pd.to_datetime()``, qui convertira nos chaînes de caractères au bon format. Parfois, Pandas 🐼 sera capable d'inférer automatiquement le format de la date. Mais dans ce cas, les chaînes ne sont pas standard, nous devons donc passer un *strftime* (format de chaîne de temps) au paramètre "format" pour indiquer à Python 🐍 quel est le format de la date.

Chaque % suivi d'une lettre signifie que Python 🐍 va le remplacer par les éléments qu'il trouve. La lettre suivante qui suit le "%" est un code, le reste n'est que des caractères qui seront effacés lors de la conversion au format datetime.

In [None]:
pd.to_datetime(fake_df['date'], format='%Hh:%Mm:%Ss %d-%b-%Y')

In [None]:
# Once we're happy with the result, let's create a new Series
# that will contain the date in the right format
fake_df['date'] = pd.to_datetime(fake_df['date'], format='%Hh:%Mm:%Ss %d-%b-%Y')

In [None]:
# We can now perform operations on this Series
fake_df['date'].mean()

## La *Series* "Date of admission"

❓ **>>>** Changez le type de la *Series* "Date of admission" en utilisant la fonction `pd.to_datetime()`.

❓ **>>>** Ensuite, trouvez la valeur minimale, la valeur maximale et la moyenne de la Series "Date of admission" que nous venons de créer.

In [None]:
# Code here!


In [None]:
# Display the min:
# Code here!


In [None]:
# Display the max:
# Code here!


In [None]:
# Display the mean:
# Code here!

## Nombre de jours écoulés depuis l'adhésion à l'ONU

Certains pays ont adhéré à l'ONU il y a longtemps, d'autres assez récemment et certains pas du tout. Calculons la durée de leur adhésion.

Pour créer une date en Pandas 🐼, on peut utiliser la fonction ```pd.to_datetime()``` et lui donner comme argument une string de la date, n'hésitez pas à faire des essais !

❓ **>>>** Pour calculer ces nouvelles valeurs:

- Créez une nouvelle Series appelée "Membership duration (days)" et qui contiendra pour chaque pays la durée en nombre de jours entre la date de leur adhésion et le 1er janvier 2024. Vous pouvez convertir une Series de type en ajoutant ```.dt.days``` pour extraire le nombre de jours.

- Puis remplacez les valeurs manquantes par 0 à l'aide de la fonction ```fill_na()```, enfin convertissez le tout en 'int32' à l'aide de la fonction ```astype()```.

In [None]:
# Code here!


# Correlation

Pandas 🐼 fournit beaucoup d'outils pour calculer des statistiques et des corrélations.

## La méthode ```.corr()```

[Par défaut](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.corr.html) la méthode ```.corr()``` utilise la corrélation de [Pearson](https://en.wikipedia.org/wiki/Pearson_correlation_coefficient). Si on l'applique directement sur le dataframe nos colonnes qui contiennent des données autres que numériques font que la fonction renverra une erreur. On peut passer ```True``` au paramètre "numeric_only" pour régler ce problème.

In [None]:
fake_df['random_values'] = np.random.random(fake_df.shape[0]) # Let's create a Series with random values
fake_df.corr(numeric_only=True)

❓ **>>>** Affichez les coefficients de correlation entre toutes nos colonnes numériques.

In [None]:
# Code here

## Seaborn and heatmap

Afin de mieux visualiser les résultats, nous pouvons utiliser Seaborn, une librairie construite par dessus matplotlib.

In [None]:
import seaborn as sns
sns.heatmap(fake_df.corr(numeric_only=True));

In [None]:
# let's annot the heatmap and make it range from -1 to 1.
sns.heatmap(fake_df.corr(numeric_only=True), vmin=-1, vmax=1, annot=True);

❓ **>>>** Affichez la même "carte de chaleur" pour le dataframe sur les pays. Puis faites la même chose mais sur le df groupé par région. Utilisez la moyenne comme fonction d'agrégation.

In [None]:
# Code here!

In [None]:
# Code here!


# Visualisations de Corrélation

Lorsqu'on travaille avec des données, il est toujours judicieux de regarder les données à l'aide de visualisations et pas seulement de chiffres.

## Le Quartet d'Anscombe

Le quartet d'Anscombe est constitué de quatre ensembles de données qui ont les mêmes propriétés statistiques simples mais qui sont en réalité très différents, ce qui se voit facilement lorsqu'on les représente sous forme de graphiques ([Wikipedia](https://fr.wikipedia.org/wiki/Quartet_d%27Anscombe))

<img src="files/anscombe.png" width="70%" align="center">


| Property                                                  | Value             | Accuracy                                |
|-----------------------------------------------------------|-------------------|-----------------------------------------|
| Mean of x:                                                | 9                 | exact                                   |
| Sample variance of x:                                     | 11                | exact                                   |
| Mean of y:                                                | 7.50              | to 2 decimal places                     |
| Sample variance of y:                                     | 4.125             | ±0.003                                  |
| Correlation between x and y:                              | 0.816             | to 3 decimal places                     |
| Linear regression line:                                   | y = 3.00 + 0.500x | to 2 and 3 decimal places, respectively |
| Coefficient of determination of the linear regression: R² | 0.67              | to 2 decimal places                     |

### La fonction `sns.pairplot()`

Cette fonction est utilisée pour créer une matrice de graphiques de dispersion, également appelée matrice de graphiques de dispersion par paire. C'est un outil précieux pour visualiser les relations entre plusieurs variables (colonnes ou Series) dans un DataFrame.

In [None]:
sns.pairplot(fake_df, diag_kind='kde', kind='reg', plot_kws={'line_kws':{'color':'red'}});

In [None]:
sns.lmplot(x='value',
           y='random_values',
           data=fake_df,
           fit_reg=True,
           line_kws={'color': 'red'}
          );

❓ **>>>** Affichez ces mêmes graphiques pour le jeu de données sur les pays. Utilisez les colonnes 'birthrate' et 'gdp ($ per capita)' comme x et y pour la fonction ```sns.lmplot()```.

In [None]:
# Code here!


In [None]:
# Code here!


## Export

🏁 Vous pouvez exporter vos df dans de nombreux formats tels que CSV, Excel, JSON etc. 💾

In [None]:
# csv
df.to_csv('df_export.csv', index=False)

In [None]:
#json
df.to_json('df_export.json')