# Introduction √† Pandas üêº

üìñ **Pandas üêº** est une biblioth√®que Python üêç cr√©√©e par dessus la biblioth√®que **Numpy** par **Wes McKinney** en 2007 et qui est devenue open source √† la fin de 2009. Elle est largement utilis√©e dans les domaines de la science des donn√©es, du *machine learning* (apprentissage automatique) et de l'analyse de donn√©es. Le nom est d√©riv√© du terme **"PANel DAta"**, un terme d'√©conom√©trie qui d√©signe des suivis de cohorte d'individus. ([wikipedia](https://en.wikipedia.org/wiki/Pandas_(software)))

**Pandas üêº** fonctionne bien en collaboration avec d'autres biblioth√®ques telles que **Matplotlib / Seaborn** et, bien s√ªr, **Numpy**.

<img src="files/pandas_numpy_matplotlib_seaborn.png" width="100%" align="center">

In [None]:
import pandas as pd # We'll use pd as the alias
import numpy as np # and np as alias for numpy

# Series

## D√©finition

üìñ En Pandas üêº l'√©quivalent d'un 1-D array numpy est appel√© une "Series", qu'on appelle aussi souvent "colonne". Cet objet est tr√®s similaire √† un array numpy, d'ailleurs il est justement construit par dessus les array numpy. C'est pour cela qu'ils partagent un certain nombre de caract√©ristiques. En effet, comme dans un array numpy, une Series : 

- Peut √™tre vide ou bien comporter des **valeurs**.
- Poss√®de un **dtype** (*data type*) - mais g√®re mieux les cas o√π les donn√©es pr√©sentes dans la Series sont de diff√©rents types.

Cependant les Series diff√®rent des array numpy puisqu'elles poss√®dent quelque chose de nouveau :

- Un **index**, qui associe une valeur, souvent unique mais pas n√©cessairement, √† chaque entr√©e.

In [None]:
# Creating a Series from a list:
s = pd.Series([87, 23, 12, 43, 52, 61])
s

In [None]:
# To access an element, we can use Numpy syntax.
s[0]

In [None]:
s[5]

## Index et Series

Nous pouvons laisser Pandas üêº cr√©er l'index, comme dans l'exemple pr√©c√©dent, ou bien en sp√©cifier un nous-m√™mes √† l'aide de la syntaxe suivante :

In [None]:
# Using a list for values and a list for index
s = pd.Series([87, 23, 12, 43, 52, 61], index=[100, 102, 104, 106, 108, 110])
s

In [None]:
# or we can provide a dictionary, index is the key, value is value.
s = pd.Series({100: 87, 102: 23, 104: 12, 106: 43, 108: 52, 110: 61})
s

In [None]:
# Accessing an element with the new index
s[100]

In [None]:
s[110]

In [None]:
# We can also set strings as index
# And index doesn't have to be unique.
s = pd.Series([87, 23, 12, 43, 52, 61], index=['Group 1', 'Group 2', 'Group 2', 'Group 2', 'Group 1', 'Group 3'])
s

In [None]:
# Accessing one or several elements using the new index
s['Group 1']

In [None]:
s['Group 2']

# DataFrame

üìñ Un *DataFrame* est une structure de donn√©es bidimensionnelle ais√©ment manipulable qui sert √† stocker en m√©moire et manipuler des donn√©es en Python üêç via Pandas üêº. C'est une **collection de Series** (un ensemble organis√© de Series).

Quelques caract√©ristiques cl√©s d'un DataFrame Pandas üêº :

- **Bidimensionnel** : Un DataFrame est souvent compar√© √† une feuille de calcul ou √† une table SQL, car il organise les donn√©es en lignes et en colonnes, il ne traite donc que des donn√©es en deux dimensions.

- **Taille modifiable** : Vous pouvez ajouter ou supprimer des lignes et des colonnes d'un DataFrame.

- **Axes nomm√©s** : Les lignes (axe 0) et les colonnes (axe 1) ont des "labels" (des noms), permettant une identification et un indexage faciles des donn√©es.

- **Op√©rations** : Les DataFrames prennent en charge une large gamme d'op√©rations sur les donn√©es, notamment le filtrage, le regroupement, l'agr√©gation, le pivotement, la fusion (*merge*), la jointure etc.

- **Et bien plus... !**: G√©rer les valeurs manquantes, exporter les donn√©es sous de nombreux formats etc.

<img src="files/series-and-dataframe.png" width="50%" align="center">

In [None]:
s1 = pd.Series([87, 23, 12, 43, 52, 61])
s2 = pd.Series([100, 52, 35, 71, 62, 89])
s3 = pd.Series(['m', 'f', 'm', 'm', 'f', 'f'])

# There are multiple ways to create a dataframe from Series.
# Let's go with a dictionary. Keys are column names and values are... values!

pd.DataFrame({'age': s1, 'weight': s2, 'sex': s3}) # In Jupyter the display of a Dataframe is different from a Series.

## Cr√©ation d'un DataFrame

üìñ Pandas üêº peut cr√©er des DataFrames √† partir de nombreux formats de fichier diff√©rents, notamment :

- CSV (valeurs s√©par√©es par des virgules)
- Excel (XLS et XLSX)
- JSON (JavaScript Object Notation)
- HTML (tables)
- SQL (bases de donn√©es)
- Parquet
- HDF5 (format de donn√©es hi√©rarchique)
- Feather
- Stata
- SAS
- Google BigQuery
- Presse-papiers (ctrl + c)
- Dictionnaires Python üêç
- URLs (HTTP, FTP, etc.)
- ... Et bien d'autres

## Jeu de donn√©es fictif

üëâ Cr√©ons un DataFrame √† partir d'un fichier CSV stock√© dans le dossier "data" et nomm√© "fake.csv". Durant ce notebook nous utiliserons ce jeu de donn√©es fictif pour illustrer certaines des fonctions de Pandas üêº. Stockons-le dans une variable nomm√©e : **"fake_df"**.

**Note** : Ici, nous utilisons une convention de d√©nomination appel√©e **"notation hongroise suffix√©e"**, signifiant que le type de l'objet est inclus √† la fin de son nom. Et, bien s√ªr, "df" est l'abr√©viation de "DataFrame".

In [None]:
fake_df = pd.read_csv("data/fake.csv")

fake_df

üîé Si vous ex√©cutez la cellule ci-dessus, vous pouvez imm√©diatement voir que "fake_df" est un **DataFrame** : les noms de colonnes et l'index sont en gras. Et si vous survolez le DataFrame avec la souris, les lignes sont mises en surbrillance.

# Le dataset sur les pays

## Pr√©sentation

üìñ Durant ce tutorial nous allons utiliser un dataset tr√®s connu qui consiste en un seul fichier nomm√© "countries.csv" et comporte un grand nombre de diff√©rentes statistiques sur les pays (en 2013).

## Objectifs

Nous utiliserons ce fichier pour examiner si il existe une corr√©lation entre quatre variables :

- La densit√© de population (exprim√©e en Km¬≤), que nous allons devoir calculer.
- Le PIB par habitant
- Le taux de natalit√©
- Le taux de mortalit√©

Et ce √† deux niveaux de lecture diff√©rent : au **niveau des pays** et au **niveau de la r√©gion** √† laquelle chque pays appartient.

Nous examinerons √©galement si la dur√©e de leur adh√©sion √† l'ONU, si toutefois ils en sont membres, influe sur nos variables √† expliquer.

Mais avant de parvenir √† ce r√©sultat, il va nous falloir comprendre et nettoyer ce jeu de donn√©es.

## Lecture d'un fichier CSV : "countries.csv"

‚ùì **>>>** Utilisez la fonction ``pd.read_csv()`` pour lire le fichier CSV nomm√© "countries.csv", qui se trouve √† l'int√©rieur du dossier "data". Stockez le r√©sultat dans un nouveau DataFrame nomm√© "df".

Si vous essayez de lire un fichier CSV et que Pandas üêº renvoie une erreur, ouvrez le fichier avec Jupyter Lab ou un √©diteur de texte (VS Code, Notepad++, etc.) et examinez-le pour trouver la source de l'erreur. Les erreurs les plus courantes lors de la lecture d'un fichier CSV sont :

- Le **chemin du fichier** n'a pas √©t√© correctement fourni √† la fonction. La mani√®re la plus simple est de d√©placer le fichier que vous souhaitez lire dans le m√™me r√©pertoire que votre fichier de notebook (ou dans un sous-dossier nomm√© "data").

- Un **s√©parateur de champ** incorrect, par d√©faut Pandas üêº suppose que c'est le caract√®re ",". Dans ce cas, sp√©cifiez le s√©parateur avec l'argument "sep".

- Un **"quotechar"** incorrect, un caract√®re utilis√© pour indiquer le d√©but et la fin d'un √©l√©ment entre guillemets. Les √©l√©ments entre guillemets peuvent inclure le s√©parateur et il sera ignor√©. Dans ce cas, sp√©cifiez-le avec l'argument "quotechar".

- La pr√©sence de **lignes suppl√©mentaires** au d√©but ou √† la fin du fichier. Dans ce cas, utilisez les arguments "skiprows" ou "skipfooter" pour ignorer ces lignes.

- Un **encodage de fichier** incorrect. La norme "utf-8" est la plus courante, mais parfois les fichiers sont dans d'autres formats comme "cp1252" par exemple. Dans ce cas, sp√©cifiez l'encodage avec l'argument "encoding". Indice : ici le fichier est d√©j√† encod√© en utf-8, ce ne sera pas l'encodage qui posera probl√®me.

**NOTE** : **NE** pas ouvrir le fichier avec le logiciel "Excel", cela peut corrompre votre fichier et le rendre illisible, m√™me si vous ne sauvegardez pas les modifications.

In [None]:
# Code here !


# Premi√®res actions √† effectuer

## La propri√©t√© `.shape`

üîé Nous avons maintenant deux DataFrames, "fake_df" et "df". Jetons un coup d'≈ìil √† leur forme.

In [None]:
fake_df.shape

‚ùì **>>>** Quelle est la forme (la "shape") de notre df ? Qu'est-ce que cela signifie ?

In [None]:
# Code here!


## La fonction ``.head()``

Elle renvoie les n premi√®res lignes, la valeur par d√©faut √©tant fix√©e √† 5.

In [None]:
fake_df.head()

‚ùì **>>>** Utilisez la fonction ``.head()`` pour afficher les deux premi√®res lignes de notre dataframe.

In [None]:
# Code here!


## La propri√©t√© `.columns`

Elle stocke les noms de nos diff√©rentes colonnes. C'est √©galement l'index des colonnes.

In [None]:
fake_df.columns

‚ùì **>>>** Quelles sont les colonnes de notre DataFrame ? Utilisez une boucle ``for`` pour imprimer le nom de chaque colonne sur une ligne diff√©rente.

In [None]:
# Code here!


## La propri√©t√© `.index`

Elle stocke les noms des lignes (l'index).

‚ùì **>>>** Quel est l'index de notre DataFrame ?

In [None]:
# Code here!


## La propri√©t√© `.dtypes`

Le mot `dtypes` signifie "data types", il stocke les types de nos diff√©rentes colonnes. Le type "object" est souvent une cha√Æne de caract√®res.

In [None]:
fake_df.dtypes

‚ùì **>>>** Quels sont les "dtypes" de notre df ?

In [None]:
# Code here!


## Valeurs manquantes : la m√©thode `.isna()`

Lorsque vous analysez un nouveau jeu de donn√©es, il est tr√®s important de v√©rifier s'il y a des valeurs manquantes. Vous pouvez utiliser la m√©thode ``.isna()``, elle renvoie un nouveau DataFrame qui a la m√™me taille que le DataFrame d'origine, mais les valeurs sont ``True`` si la valeur est manquante et ``False`` si une valeur existe.

üí° C'est l'une des principales forces de Python üêç : le r√©sultat de nombreuses fonctions de Pandas üêº sont √©galement des objets Pandas üêº, ce qui signifie que vous pouvez travailler sur vos donn√©es ou vos r√©sultats √† l'aide des m√™mes fonctions.

In [None]:
fake_df.isna()

‚ùì **>>>** Utilisez ``.isna()`` sur notre df.

In [None]:
# Code here


## Appliquer une fonction √† un DataFrame : ``isna().sum()``

La m√©thode ``.sum()`` effectue une somme sur l'ensemble d'un DataFrame. Lorsque vous effectuez des sommes, les valeurs bool√©ennes sont trait√©es comme 1 si elles sont ``True`` et 0 si elles sont ``False``.

In [None]:
fake_df.isna().sum()

‚ùì **>>>** Combien de valeurs manquantes dans notre DataFrame ?

In [None]:
# Code here!


## Cr√©ation ou remplacement de Series

Tout comme un dictionnaire, pour cr√©er ou remplacer une Series, il vous suffit de lui attribuer une valeur ou un objet (liste, dictionnaire...).

In [None]:
fake_df['one'] = 1
fake_df

In [None]:
fake_df['one'] = 999
fake_df

In [None]:
fake_df[['one', 'two']] = 1
fake_df

In [None]:
fake_df[['one', 'two']] = 1, 2 # An implicit tuple
fake_df

In [None]:
fake_df['three'] = fake_df['one'] + fake_df['two']
fake_df

In [None]:
fake_df['count'] = [el for el in range(fake_df.shape[0])]
fake_df

### Supprimer une Series

Il existe plusieurs fa√ßons de "supprimer" (effacer / retirer) une Series de votre DataFrame, l'une des plus simples est d'utiliser la syntaxe suivante :

In [None]:
fake_df.drop(columns='one') # This function is not "in place" which means we haven't modified "fake_df" yet.

In [None]:
# If we're happy with the result
# We can replace the old df with the new one
fake_df = fake_df.drop(columns='one')

‚ùóÔ∏è **ATTENTION**‚ùóÔ∏è Cette fois, nous ne rempla√ßons pas ou ne cr√©ons pas une **Series**, nous rempla√ßons l'ensemble du DataFrame !

On peut tr√®s facilement se tromper. Heureusement, en cas d'erreur, il est √©galement tr√®s facile de revenir en arri√®re et de r√©ex√©cuter les cellules.

In [None]:
# We can drop several columns by passing a list.
fake_df.drop(columns=['two', 'three', 'count'])

In [None]:
# If we're happy with the result
# We can replace the old df with the new one
fake_df = fake_df.drop(columns=['two', 'three', 'count'])

‚ùì **>>>** "Slicez" la colonne "country" de votre DataFrame et affichez la Series qui lui correspond. **Astuce**: Vous pouvez utiliser la touche "tab" du clavier pour l'autocompl√©tion.

In [None]:
# Code here!


# Traitement des donn√©es

## D√©finir les bons types de donn√©es

ü§ì Maintenant que nous savons ce qu'est un DataFrame et une Series, et avant de commencer autre chose, il est important que nos Series soient converties dans le bon type.

In [None]:
fake_df.dtypes

### Conversion avec `.astype()`

Il existe de nombreux types de dtype diff√©rents. Certains utilisent le format standard de Python üêç, d'autres sont sp√©cifiques √† Pandas üêº et d'autres sont communs √† plusieurs autres langages (PyArrow).

Ici, utilisons soit :

- `'string'` (qui est un type Pandas üêº)
- `'category'` (√©galement un type Pandas üêº)
- `int` (type Python üêç)
- `float` (type Python üêç)

In [None]:
# One conversion
fake_df['letter'].astype('category')

In [None]:
# Several conversions
fake_df[['fruit', 'letter']].astype('category')

In [None]:
# replacing old Series with new ones
fake_df[['fruit', 'letter']] = fake_df[['fruit', 'letter']].astype('category')

## Conversion avec une nouvelle importation

La plupart du temps, la meilleure pratique est de d√©finir les types de donn√©es lors de l'importation des donn√©es. Cela est particuli√®rement vrai lorsque nous travaillons avec de grandes bases de donn√©es, car les types de donn√©es tels que `category`, par exemple, utilisent moins de m√©moire que les cha√Ænes de caract√®res.

- Lorsque vous utilisez la fonction `pd.read_csv()`, vous pouvez donner au param√®tre `dtypes` un dictionnaire avec les noms de colonnes comme cl√©s et les types de donn√©es comme valeurs. Vous pouvez soit saisir ce dictionnaire manuellement, soit utiliser une dictionnaire compr√©hensif pour g√©n√©rer un *template* (mod√®le), puis le modifier.

In [None]:
{col : 'string' for col in fake_df.columns}

In [None]:
# copy / paste and edit:
d = {'letter': 'category',
     'fruit': 'category',
     'value': 'float32',
     'numbers_list': 'string',
     'date': 'string'}

fake_df = pd.read_csv("data/fake.csv", dtype=d)
fake_df.dtypes

**Note**: Si une colonne n'est pas dans le dictionnaire donn√©e √† la fonction `pd.read_csv()`, Python üêç essaiera d'inf√©rer le type.

## S√©lection des colonnes au chargement

La fonction ```pd.read_csv()``` poss√®de un argument ```usecols```. Celui-ci permet de ne s√©lectionner que certaines colonnes lors de la lecture du fichier. Il prend comme param√®tre une liste.

In [None]:
d = {'letter': 'category',
     'fruit': 'category',
     'value': 'float32',
     'numbers_list': 'string',
     'date': 'string'}


columns_to_load = ['letter', 'fruit','value', 'numbers_list', 'date']

fake_df = pd.read_csv("data/fake.csv",
                      dtype=d,
                      usecols=columns_to_load,
                     )

In [None]:
d = {'letter': 'category',
     'fruit': 'category',
     'value': 'float32',
     'numbers_list': 'string',
     'date': 'string'}

# Or you can use d.keys() !

fake_df = pd.read_csv("data/fake.csv",
                      dtype=d,
                      usecols=d.keys(),
                     )

## Nouvelle importation du fichier "countries.csv"

### Nombres d√©cimaux : point ou virgule ?

Certaines conventions utilisent un point pour s√©parer les d√©cimales d'un nombre, d'autres utilisent la virgule. On peut pr√©ciser la convention √† Pandas üêº pendant l'importation en donnant au param√®tre "decimal" de la fonction ```pd.read_csv()``` le caract√®re ```'.'``` ou ```','```. Cela permettra √† Pandas üêº d'inf√©rer le bon type automatiquement.

### Nouvelle importation

‚ùì **>>>** R√©importez le df avec **les m√™me param√®tres qu'au d√©but**, mais cette fois-ci utilisez √©galement :

- Le param√®tre ```usecols``` pour ne charger que les colonnes suivantes :
    - "country"
    - "region"
    - "population"
    - "area (km¬≤)"
    - "gdp ($ per capita)"
    - "birthrate"
    - "deathrate"

- Le param√®tre ```dtype``` avec les bons types de donn√©es.

    - "country" sera de type 'string'.
    - "region" sera de type 'category'.
    - "population" and "area (km2)" seront de type 'int64' (ou 'int32' si vous voulez √©conomiser un peu de m√©moire vive).
    - "gdp ($ per capita)", "birthrate" et "deathrate" seront des float32.

- Le param√®tre ```decimal``` pour lui sp√©cifier que le s√©parateur de d√©cimal utilis√© dans de fichier est ```','```.

In [None]:
# Code here!


## Calcul de la densit√© de population

Maintenant que nos donn√©es sont propres, nous pouvons cr√©er nos propres indicateurs.

‚ùì **>>>** Cr√©ez une nouvelle s√©rie nomm√©e "density (per km¬≤)" qui calculera la densit√© de population pour chacun des pays. Arrondissez-la √† un chiffre apr√®s la virgule.

**Indice** : la fonction ```round()``` fonctionne aussi sur les Series !

In [None]:
# Code here!


## Graphiques

Revenons √† notre fake_df. Vous pouvez g√©n√©rer un graphique √† partir d'une Series de cette mani√®re :

In [None]:
fake_df['value'].plot(); # Adding a semicolon removes useless legend
# Note that line stops as soon as it encounters a missing value (NaN)

In [None]:
# You can specify what graph you want with the 'kind' parameter.
# Let's use a bar graph first.
# Bar graphs are usually used to plot categorical data.
# As we want to plot the value for each row of our fake_df, this would work.

fake_df['value'].plot(kind='bar');

üëâ Ici l'axe des x est l'index de notre DataFrame. Recommen√ßons, mais avec des cat√©gories (les lettres) sur l'axe des x. Pour ce faire, vous pouvez utiliser ``.plot()`` directement sur un DataFrame, vous permettant de manipuler facilement plusieurs Series.

In [None]:
fake_df.plot(x='letter', y='value', kind='bar');

## La *Series* "population"

‚ùì **>>>** Repr√©sentez sur un graphique de type 'bar', le pays en x et la population en y. Ne prenez que les 10 premiers pays afin que l'affichage soit correct. Pour cela vous pouvez slice votre df : ```df[:10]```

In [None]:
# Code here!


### Op√©rations sur les donn√©es num√©riques

Les Series **'value'** dans *fake_df* et **'population'** dans *df* sont toutes deux des donn√©es num√©riques. Cela signifie que vous pouvez appliquer de nombreuses fonctions statistiques diff√©rentes sur elles :

In [None]:
fake_df['value'].mean()

In [None]:
fake_df['value'].median()

In [None]:
fake_df['value'].describe()

‚ùì **>>>** Affichez des statistiques basiques sur la Series "Population". Vous pouvez convertir le r√©sultats en entier avec `.astype(int)` pour retirer les d√©cimales en trop.

In [None]:
# Code here!


## S√©lection de donn√©es avec Pandas üêº : les m√©thodes ``.iloc[]`` et ``.loc[]``

Les m√©thodes `.iloc[]` et `.loc[]` dans Pandas üêº sont utilis√©es pour l'indexation et la s√©lection de lignes ou de colonnes dans les DataFrames.

### La m√©thode ``.iloc[]`` (S√©lection avec des entiers)

La m√©thode ``.iloc[]`` est principalement utilis√©e pour la s√©lection des donn√©es avec des entiers.

- Elle accepte une indexation bas√©e sur des entiers pour les lignes et les colonnes.
- L'indexation commence √† z√©ro, similaire aux listes Python üêç.
- Vous pouvez utiliser des entiers, des *slices*, des listes ou des bool√©ens pour s√©lectionner des donn√©es.

In [None]:
fake_df.iloc[0]  # Select the first row
# Note that it returns a Series, not a DataFrame.

In [None]:
fake_df.iloc[2:5, 1:3]
# Returns a DataFrame because they are several Series.

In [None]:
fake_df.iloc[[0, 3, 5], [1, 2]]  # Select specific rows and columns by integer positions

In [None]:
# Select specific rows and columns with boolean indexing
fake_df.iloc[[True, False, True, False, True, True, False, True, False, True, False], [False, True, True, False, True]]

### La m√©thode ``.loc[]`` (S√©lection par label)

La m√©thode ``.iloc[]`` peut parfois √™tre utile, mais g√©n√©ralement on utilise la m√©thode ``.loc[]`` qui est tr√®s puissante. Elle permet de s√©lectionner des donn√©es par label ou bas√©es sur des conditions.

- Indexation bas√©e sur des labels pour les lignes et les colonnes.
- Contrairement √† la plupart des indexations en Python üêç : l'indexation est **inclusive des deux extr√©mit√©s** (c'est-√†-dire que les *slices* incluent les √©tiquettes sp√©cifi√©es).
- Vous pouvez utiliser des √©tiquettes, des *slices*, des listes ou des bool√©ens pour s√©lectionner des donn√©es.
- Vous pouvez filtrer en utilisant des conditions.

In [None]:
fake_df.loc[0:3, 'fruit']

In [None]:
fake_df.loc[1:2, ['fruit', 'date']]

In [None]:
# Just like .iloc[], you can filter rows and columns using boolean indexing
fake_df.loc[[True, False, True, False, True, True, False, True, False, True, False], [False, True, True, False, True]]

In [None]:
# Pandas returns a boolean Series when you make comparison
fake_df['value'] > 500

In [None]:
# You can use this boolean Series to filter your DataFrame using .loc[]
fake_df.loc[fake_df['value'] > 500]

## Filtre sur la Population

‚ùì **>>>** Utilisez ```.loc[]``` et ```.plot()``` pour :

- Afficher une Series avec les noms des pays dont la population est sup√©rieure √† 60 millions.
- G√©n√©rer un nouveau graphique avec le nom des pays en x et leur population en y.

In [None]:
# Code here!


In [None]:
# Code here!

# Utiliser ```.loc[]``` avec plusieurs conditions.

Il est tout √† fait possible d'ajouter plusieurs conditions dans un ```.loc[]```, en ce cas on va devoir utiliser les op√©rateurs "element-wise" ```&``` et ```|``` au lieu de ```and``` et ```or``` afin de comparer √©l√©ment par √©l√©ment. Assurez-vous que chaque expression soit bien encadr√©e par des parenth√®ses.

In [None]:
# yields an error !
#fake_df.loc[(fake_df['letter'] == 'D') and (fake_df['value'] > 500)]

In [None]:
# works with the element-wise operator '&'
fake_df.loc[(fake_df['letter'] == 'D') & (fake_df['value'] > 500)]

In [None]:
# yields an error !
#fake_df.loc[(fake_df['letter'] == 'D') or (fake_df['value'] > 500)]

In [None]:
# works with the element-wise operator '|'
fake_df.loc[(fake_df['letter'] == 'D') | (fake_df['value'] > 500)]

‚ùì **>>>** Utilisez la m√©thode ```.loc[]``` pour afficher les pays qui poss√®dent une population plus grande que 100 millions et un PIB par t√™te sup√©rieur √† $25 000.

In [None]:
# Code here!


### Repr√©sentation graphique de variables textuelles (textes, cat√©gories...)

Si on essaye de g√©n√©rer un graphique √† partir de donn√©es textuelles, Pandas üêº retourne une erreur.

In [None]:
# Yields an error!
#df['region'].plot()

### La m√©thode ``value_counts()``

Cette m√©thode peut √™tre appliqu√©e sur presque n'importe quel type de Series et renvoie une nouvelle Series qui affiche le nombre d'occurrences de chaque √©l√©ment.

In [None]:
fake_df['letter'].value_counts()

## La Series "region"

In [None]:
df['region']

‚ùì **>>>** Utilisez la m√©thode ```.value_counts()``` pour afficher la liste des diff√©rentes r√©gions et leur nombre d'occurrences.

‚ùì **>>>** Puis g√©n√©rez un graphique qui indique la fr√©quence de chaque r√©gion avec la m√©thode ```.plot()```. N'oubliez pas d'utiliser le param√®tre "kind" pour trouver un graphique adapt√© √† votre objectif.

In [None]:
# Code here!


In [None]:
# Code here!


## Les m√©thodes `.unique()` et `.nunique()`

- `.unique()`

La m√©thode `.unique()` est utilis√©e pour retourner une liste de toutes les valeurs uniques pr√©sentes dans une Series.

- `.nunique()`

La m√©thode `.nunique()` est utilis√©e pour compter le nombre de valeurs distinctes (uniques) dans une Series.

In [None]:
fake_df['letter'].unique()

In [None]:
fake_df['letter'].nunique()

### Combien de valeurs uniques dans "region" ?

‚ùì **>>>** Utilisez ```unique()``` et ```.nunique()``` pour afficher les valeurs uniques et le nombre de valeurs uniques de la Series "region".

In [None]:
# Code here!


In [None]:
# Code here!


## Manipulation de cha√Ænes de caract√®res

Comme vous pouvez le constater, les noms des r√©gions semblent comporter beaucoup d'espaces inutiles. Pandas üêº fournit de nombreuses fonctions pour travailler avec des cha√Ænes de caract√®res. Elles se trouvent dans un sous-module appel√© `.str`. Par exemple :

In [None]:
fake_df['letter'].str.lower()

In [None]:
fake_df['letter'].str.replace("D", "ZZZ")

## Correction des cha√Ænes de caract√®res dans la Series "region"

‚ùì **>>>** Retirez les espaces inutiles des noms des r√©gions avec la m√©thode ```.str.strip()```. Lorsque c'est fait, remplacez l'ancienne Series par la nouvelle et affichez √† nouveau le dernier graphique.

In [None]:
# Code here!


In [None]:
df.columns

# Group By et Agr√©gations

## Group By

En science des donn√©es, un "Groupby" est une op√©ration qui consiste √† diviser un ensemble de donn√©es en diff√©rents groupes en fonction d'un ou plusieurs crit√®res.

Une fois les donn√©es s√©par√©es en diff√©rents groupes, on applique g√©n√©ralement une ou plusieurs fonctions √† chacun de ces groupes.

## Agr√©gations

Quand on parle "d'agr√©gations", on fait r√©f√©rence aux fonctions math√©matiques ou statistiques qu'on applique √† ces groupes. Ce sont souvent des fonctions communes telles que la somme, la moyenne, la m√©diane, le compte (*count*), le minimum, le maximum, etc.

Les agr√©gations sont utilis√©es pour r√©sumer et condenser des donn√©es.

## Exemples

Imaginons que nous ayons une biblioth√®que avec plusieurs livres class√©s par genre. Nous pouvons les regrouper et appliquer la fonction `.sum()` pour v√©rifier combien de livres nous avons pour chaque cat√©gorie diff√©rente.

<img src="files/group_by-sum.jpg" width="90%" align="center">

Mais nous pourrions √©galement appliquer la fonction `.mean()` pour calculer la moyenne.

<img src="files/group_by-avg.jpg" width="100%" align="center">

[Source](https://learnsql.com/blog/group-by-in-sql-explained/)

## Application d'un GROUP BY

### GROUP BY sans aggr√©gation

Nous pouvons cr√©er des objets groupby sans appliquer de fonction et les sauvegarder pour une utilisation ult√©rieure.

**Note**: Nous utilisons le param√®tre ```observed=True``` car le dtype de cette s√©rie est cat√©gorie.

In [None]:
fake_df.groupby('letter', observed=True) # Data have been grouped by Letter

### Fonctions basiques

#### ``.sum()``

In [None]:
fake_df.groupby('letter', observed=True).sum('value')

#### ``.count()``

In [None]:
fake_df.groupby('letter', observed=True).count()

#### ``.mean()``

In [None]:
fake_df.groupby('letter', observed=True).mean('value')

### La m√©thode ``.agg()``

La m√©thode ```.agg()``` dans Pandas üêº est utilis√©e pour effectuer des op√©rations d'agr√©gation sur un DataFrame ou une Series.

Nous pouvons sp√©cifier une ou plusieurs fonctions d'agr√©gation que nous souhaitons appliquer aux donn√©es. Ces fonctions peuvent √™tre des fonctions *built-in* telles que ```sum()```, ```mean()```, ```min()```, ```max()```, ou des fonctions personnalis√©es.

Elle peut prendre des arguments sous forme de strings, de listes ou m√™me de dictionnaires.

#### ``.agg()`` avec une seule fonction

In [None]:
fake_df.groupby('letter', observed=True).agg('mean', numeric_only=True)

#### ``.agg()`` avec plusieurs fonctions.

Ici nous ne prenons que la colonne "value" depuis les donn√©es group√©es, et nous appliquons trois fonctions diff√©rentes dessus.

In [None]:
fake_df.groupby('letter', observed=True)['value'].agg(['count', 'sum', 'mean'])

#### ```.agg()``` avec un ditcionnaire d'arguments.

Passer un dictionnaire d'argument est sans doute **la meilleure m√©thode**, elle permet un excellent contr√¥le sur le comportement des aggr√©gations.

In [None]:
fake_df.groupby('letter', observed=True).agg({
        'value' : ['mean','median', 'max', 'min'],
        'fruit':  ['count']})

## Calcul de nouvelles statistiques

‚ùì **>>>** Examinons la population totale de chaque r√©gion. Utilisez pour cela un groupby et la fonction ```.agg()``` avec l'argument 'sum'.

**Note**: Vous pouvez utiliser la fonction ```.sort_values()``` sur un DataFrame ou une Series pour classer le r√©sultat. Lisez-la docstring si vous d√©sirez en savoir davantage !

In [None]:
# Code here


# Jointures

Les jointures permettent de r√©cup√©rer des donn√©es depuis d'autres sources, et de les ajouter √† notre jeu de donn√©es existant.

<img src="files/left-outer-join-operation.png" width="50%" align="center">

In [None]:
fruits_df = pd.read_csv("data/fruits_kcal.csv")

In [None]:
fruits_df.head(2)

In [None]:
fake_df.merge(fruits_df, left_on="fruit", right_on="name", how='left')
# alternate syntax:
#pd.merge(fake_df, fruits_df, left_on="fruit", right_on="name", how='left')

In [None]:
# If we want to take only a specific column, and not the entire second df
fake_df.merge(fruits_df["calories (per 100g)"], left_on="fruit", right_on=fruits_df["name"], how='left')

## Ajout de la date d'entr√©e aux Nations Unis

### Cr√©ation d'un nouveau dataframe

Certains pays sont membres de l'ONU, d'autres non. R√©cup√©rons un jeu de donn√©es directement depuis wikipedia et effectuons une jointure.

‚ùì **>>>** Examinez la page https://en.wikipedia.org/wiki/Member_states_of_the_United_Nations.

‚ùì **>>>** Utilisez la fonction ```pd.read_html()``` pour charger le tableau dans un dataframe nomm√© "un_df". Attention car cette fonction va retourner une liste de DataFrames, et pas un seul DataFrame. Vous aurez aussi peut-√™tre besoin d'installer la librairie "lxml", dans ce cas l√† allez dans le terminal et effectuez un ```pip install lxml```.

In [None]:
# Code here


## La fonction `.str.split()`

Cette fonction appartient au sous-module `.str`. Elle se comporte presque de la m√™me mani√®re que la fonction `.split()`. Le param√®tre ```expand``` est souvent tr√®s utile, il permet de s√©parer les √©l√©ments en de nouvelles Series.

In [None]:
fake_df['numbers_list'].str.split()

In [None]:
fake_df['numbers_list'].str.split()[0][0]

In [None]:
fake_df['numbers_list'].str.split('-')[0][0]

In [None]:
fake_df['numbers_list'].str.split('-', expand=True)

In [None]:
fake_df['numbers_list'].str.split('-', expand=True)[0]

### Nettoyage de "Member state" et "Date of admission"

Les colonnes "Member state" et "Date of admission" poss√®dent des valeurs mal format√©es. Pouvez-vous les rep√©rer ?

‚ùì **>>>** Utilisez la m√©thode ```.str.split()``` (et son param√®tre ```expand```) pour nettoyer cette Series.

**Note**: N'oubliez pas d'appliquer cette fonction √† la fois sur "Member state" et "Date of admission".

In [None]:
# Code here


## La m√©thode `.map()`

La m√©thode `.map()` dans Pandas üêº est utilis√©e pour appliquer une fonction sur une Series. Le r√©sultat est une nouvelle Series avec les valeurs transform√©es par la fonction.

In [None]:
# Let's define a function
def adds_1000(number):
    return number + 1000

In [None]:
# Test
adds_1000(123.53)

In [None]:
fake_df['value'].map(adds_1000)

## Recr√©ation de la Series "Original member"

Cette Series est vide car elle comportait des images dans wikipedia. Or nous savons que tous les pays qui sont des membres originaux ont adh√©r√© en 1945.

‚ùì **>>>** Cr√©ez une fonction ```.map()``` qui :

- Prend en entr√©e une string (la date) que nous appellerons "s".
- Retournera ```True``` si cette string indique que le pays a adh√©r√© en 1945 et ```False``` s'il a adh√©r√© √† un autre moment.

Puis appliquez votre fonction sur la Series "Date of admission" mais stockez le r√©sultat dans la Series "Original member".

In [None]:
# Code here !

def is_original_member(s):
    
    pass # delete the pass and write your function


### Nettoyage de "country"

‚ùì **>>>** Dans la colonne "Country" il y a encore des noms de pays qui poss√®dent des espaces en trop. Utilisez ```str.strip()``` pour les retirer. 

In [None]:
# Code here!


### Jointure

‚ùì **>>>** D√©sormais effectuez la jointure entre "df" et "un_df" afin de r√©cup√©rer les valeurs de la colonne "Date of admission".

In [None]:
# Code here!


### Format de date

Nos "df" et "fake_df" contiennent tous deux des dates. Cependant, si vous y jetez un coup d'≈ìil, ce ne sont que des cha√Ænes de caract√®res, pas encore des dates. Pandas üêº peut les convertir en objets "datetime", ce qui permettra de les repr√©senter graphiquement et d'effectuer des op√©rations dessus.

Pour ce faire, nous pouvons utiliser la fonction ``pd.to_datetime()``, qui convertira nos cha√Ænes de caract√®res au bon format. Parfois, Pandas üêº sera capable d'inf√©rer automatiquement le format de la date. Mais dans ce cas, les cha√Ænes ne sont pas standard, nous devons donc passer un *strftime* (format de cha√Æne de temps) au param√®tre "format" pour indiquer √† Python üêç quel est le format de la date.

Chaque % suivi d'une lettre signifie que Python üêç va le remplacer par les √©l√©ments qu'il trouve. La lettre suivante qui suit le "%" est un code, le reste n'est que des caract√®res qui seront effac√©s lors de la conversion au format datetime.

In [None]:
pd.to_datetime(fake_df['date'], format='%Hh:%Mm:%Ss %d-%b-%Y')

In [None]:
# Once we're happy with the result, let's create a new Series
# that will contain the date in the right format
fake_df['date'] = pd.to_datetime(fake_df['date'], format='%Hh:%Mm:%Ss %d-%b-%Y')

In [None]:
# We can now perform operations on this Series
fake_df['date'].mean()

## La *Series* "Date of admission"

‚ùì **>>>** Changez le type de la *Series* "Date of admission" en utilisant la fonction `pd.to_datetime()`.

‚ùì **>>>** Ensuite, trouvez la valeur minimale, la valeur maximale et la moyenne de la Series "Date of admission" que nous venons de cr√©er.

In [None]:
# Code here!


In [None]:
# Display the min:
# Code here!


In [None]:
# Display the max:
# Code here!


In [None]:
# Display the mean:
# Code here!

## Nombre de jours √©coul√©s depuis l'adh√©sion √† l'ONU

Certains pays ont adh√©r√© √† l'ONU il y a longtemps, d'autres assez r√©cemment et certains pas du tout. Calculons la dur√©e de leur adh√©sion.

Pour cr√©er une date en Pandas üêº, on peut utiliser la fonction ```pd.to_datetime()``` et lui donner comme argument une string de la date, n'h√©sitez pas √† faire des essais !

‚ùì **>>>** Pour calculer ces nouvelles valeurs:

- Cr√©ez une nouvelle Series appel√©e "Membership duration (days)" et qui contiendra pour chaque pays la dur√©e en nombre de jours entre la date de leur adh√©sion et le 1er janvier 2024. Vous pouvez convertir une Series de type en ajoutant ```.dt.days``` pour extraire le nombre de jours.

- Puis remplacez les valeurs manquantes par 0 √† l'aide de la fonction ```fill_na()```, enfin convertissez le tout en 'int32' √† l'aide de la fonction ```astype()```.

In [None]:
# Code here!


# Correlation

Pandas üêº fournit beaucoup d'outils pour calculer des statistiques et des corr√©lations.

## La m√©thode ```.corr()```

[Par d√©faut](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.corr.html) la m√©thode ```.corr()``` utilise la corr√©lation de [Pearson](https://en.wikipedia.org/wiki/Pearson_correlation_coefficient). Si on l'applique directement sur le dataframe nos colonnes qui contiennent des donn√©es autres que num√©riques font que la fonction renverra une erreur. On peut passer ```True``` au param√®tre "numeric_only" pour r√©gler ce probl√®me.

In [None]:
fake_df['random_values'] = np.random.random(fake_df.shape[0]) # Let's create a Series with random values
fake_df.corr(numeric_only=True)

‚ùì **>>>** Affichez les coefficients de correlation entre toutes nos colonnes num√©riques.

In [None]:
# Code here

## Seaborn and heatmap

Afin de mieux visualiser les r√©sultats, nous pouvons utiliser Seaborn, une librairie construite par dessus matplotlib.

In [None]:
import seaborn as sns
sns.heatmap(fake_df.corr(numeric_only=True));

In [None]:
# let's annot the heatmap and make it range from -1 to 1.
sns.heatmap(fake_df.corr(numeric_only=True), vmin=-1, vmax=1, annot=True);

‚ùì **>>>** Affichez la m√™me "carte de chaleur" pour le dataframe sur les pays. Puis faites la m√™me chose mais sur le df group√© par r√©gion. Utilisez la moyenne comme fonction d'agr√©gation.

In [None]:
# Code here!

In [None]:
# Code here!


# Visualisations de Corr√©lation

Lorsqu'on travaille avec des donn√©es, il est toujours judicieux de regarder les donn√©es √† l'aide de visualisations et pas seulement de chiffres.

## Le Quartet d'Anscombe

Le quartet d'Anscombe est constitu√© de quatre ensembles de donn√©es qui ont les m√™mes propri√©t√©s statistiques simples mais qui sont en r√©alit√© tr√®s diff√©rents, ce qui se voit facilement lorsqu'on les repr√©sente sous forme de graphiques ([Wikipedia](https://fr.wikipedia.org/wiki/Quartet_d%27Anscombe))

<img src="files/anscombe.png" width="70%" align="center">


| Property                                                  | Value             | Accuracy                                |
|-----------------------------------------------------------|-------------------|-----------------------------------------|
| Mean of x:                                                | 9                 | exact                                   |
| Sample variance of x:                                     | 11                | exact                                   |
| Mean of y:                                                | 7.50              | to 2 decimal places                     |
| Sample variance of y:                                     | 4.125             | ¬±0.003                                  |
| Correlation between x and y:                              | 0.816             | to 3 decimal places                     |
| Linear regression line:                                   | y = 3.00 + 0.500x | to 2 and 3 decimal places, respectively |
| Coefficient of determination of the linear regression: R¬≤ | 0.67              | to 2 decimal places                     |

### La fonction `sns.pairplot()`

Cette fonction est utilis√©e pour cr√©er une matrice de graphiques de dispersion, √©galement appel√©e matrice de graphiques de dispersion par paire. C'est un outil pr√©cieux pour visualiser les relations entre plusieurs variables (colonnes ou Series) dans un DataFrame.

In [None]:
sns.pairplot(fake_df, diag_kind='kde', kind='reg', plot_kws={'line_kws':{'color':'red'}});

In [None]:
sns.lmplot(x='value',
           y='random_values',
           data=fake_df,
           fit_reg=True,
           line_kws={'color': 'red'}
          );

‚ùì **>>>** Affichez ces m√™mes graphiques pour le jeu de donn√©es sur les pays. Utilisez les colonnes 'birthrate' et 'gdp ($ per capita)' comme x et y pour la fonction ```sns.lmplot()```.

In [None]:
# Code here!


In [None]:
# Code here!


## Export

üèÅ Vous pouvez exporter vos df dans de nombreux formats tels que CSV, Excel, JSON etc. üíæ

In [None]:
# csv
df.to_csv('df_export.csv', index=False)

In [None]:
#json
df.to_json('df_export.json')