![image](./images/pandas2.png)

Pandas est le package de prédilection pour traiter des données structurées.

Pandas est basé sur 2 structures extrêmement liées les Series et le DataFrame.

Ces deux structures permettent de traiter des données sous forme de tableaux indexés.

Les classes de Pandas utilisent des classes de NumPy, il est donc possible d'utiliser les fonctions universelles de NumPy sur les objets Pandas.

In [None]:
# on importe pandas avec :
import numpy as np
import pandas as pd
%matplotlib inline

# Les Series de Pandas

- Les Series sont indexées, c'est leur avantage sur les arrays de NumPy
- On peut utiliser les fonctions `.values` et `.index` pour voir les différentes parties de chaque Series
- On définit une Series par `pd.Series([,], index=['','',])`
- On peut accéder à un élément avec `ma_serie['France']`
- On peut aussi faire des conditions :
```python
ma_serie[ma_serie>5000000]
```
```
'France' in ma_serie
```
- Les objets Series peuvent être transformés en dictionnaires en utilisant :
`.to_dict()`

<div class="alert alert-success">
    <h4><i class="fa fa-edit"></i> Exercice</h4>
    <ul>
        <li>Définir un objet Series comprenant la population de 5 pays puis afficher les pays ayant une population > 50 M</li>
    </ul>
</div>

In [None]:
ser_pop = pd.Series(___)

In [None]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert type(ser_pop) == pd.Series
print("Bien créée !")

In [None]:
# on construit une série avec les populations de plus de 50 M
ser_pop_50 = 

In [None]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert ser_pop_50.min() >= 50
print("Bravo !")

# D'autres opérations sur les objets series

- Pour définir le nom de la Series, on utilise `.name`
- Pour définir le titre de la colonne des observations, on utilise `.index.name`

<div class="alert alert-success">
    <h4><i class="fa fa-edit"></i> Exercice</h4>
    <ul>
        <li>Définir les noms de l’objet et de la colonne des pays pour la Series précédente</li>
    </ul>
</div>

In [None]:
ser_pop.name = ___
ser_pop.index.name = ___
ser_pop

# Les données manquantes

Dans Pandas, les données manquantes sont identifiés avec les fonctions de NumPy (`np.nan`). On a d'autres fonctions telles que :

In [None]:
ser = pd.Series([2, np.nan, 4],index=['a', 'b', 'c'])
ser

In [None]:
pd.isna(ser)

In [None]:
pd.notna(ser)

# Les dates avec Pandas

- Python possède un module `datetime` qui permet de gérer facilement des dates
- Pandas permet d'appliquer les opérations sur les dates aux Series et aux DataFrame
- Le format des dates Python est `YYYY-MM-DD HH:MM:SS`

- On peut générer des dates avec la fonction `pd.date_range()` avec différentes fréquences `freq=`
- On peut utiliser ces dates comme index dans un DataFrame ou dans un objet Series
- On peut changer la fréquence en utilisant `.asfreq()`
- Pour transformer une chaîne de caractère en date, on utilise `pd.to_datetime()` avec l’option `dayfirst=True` si on est dans le cas français (jour/mois/année)
- On pourra aussi spécifier un format pour accélérer le processus `%Y%m%d`

<div class="alert alert-success">
    <h4><i class="fa fa-edit"></i> Exercice</h4>
    <ul>
        <li>Créez un objet Series et ajoutez des dates partant du 3 octobre 2017 par jour jusqu’à aujourd’hui.</li>
        <li>Afficher le résultat dans un graphique (on utilisera la méthode <code>plot()</code></li>
        <li><em>Indice :</em> utilisez les informations ci-dessous :</li>
        <pre>np.random.randn(___)
pd.date_range(___)
pd.Series(___)</pre>
    </ul>
</div>

In [None]:
import ___
dates = ___
serie_temp = pd.Series(___)
serie_temp.plot()

In [None]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert len(serie_temp) == 1436  # en fonction de la date du jour...
print("Bravo !")

# Le DataFrame 

- Les DataFrame sont des objets très souples pouvant être construits de différentes façons
- On peut les construire en récupérant des données copier / coller, où directement sur Internet, ou en entrant les valeurs manuellement


- Les DataFrame se rapprochent des dictionnaires et on peut construire ces objets en utilisant `DataFrame(dico)` ou `DataFrame(liste(dicos))`
- De nombreux détails sur la création des DataFrame se trouve sur ce site :

https://pandas.pydata.org/pandas-docs/dev/reference/api/pandas.DataFrame.html


# Construction de DataFrame

On peut simplement construire un DataFrame avec la classe `pd.DataFrame()` à partir de différentes structures :

In [None]:
frame1 = pd.DataFrame(np.random.randn(10).reshape(5,2),
             index=["obs_"+str(i) for i in range(5)],
             columns=["col_"+str(i) for i in range(2)])
frame1

# Opérations sur les DataFrame

On peut afficher le nom des colonnes :

In [None]:
print(frame1.columns)

On peut accéder à une colonne avec :
- `frame1.col_0` : attention au cas de nom de colonnes avec des espaces ou des caractères interdits pour les attributs des objets Python...
- `frame1['col_0']`

On peut accéder à une cellule avec :
- `frame1.loc['obs1','col_0']` : on utilise les index et le nom des colonnes
- `frame1.iloc[1,0]` : on utilise les positions dans le DataFrame


# Options de visualisation et de résumé

Pour afficher les 3 premières lignes, on peut utiliser :


In [None]:
frame1.head(3)

Pour afficher un résumé du DataFrame :

In [None]:
frame1.info()

# Importer des données externes

Pandas est l'outil le plus efficace pour importer des données externes, il prend en charge de nombreux formats dont CSV, Excel, SQL, SAS...


## Importation de données avec Pandas

Quel que soit le type de fichier, Pandas possède une fonction :
```python
frame = pd.read_...('chemin_du_fichier/nom_du_fichier',...)
```
Pour écrire un DataFrame dans un fichier, on utilise :
```python
frame.to_...('chemin_du_fichier/nom_du_fichier',...)
```

<div class="alert alert-success">
    <h4><i class="fa fa-edit"></i> Exercice</h4>
    <ul>
        <li>Importer un fichier CSV avec <code>pd.read_csv()</code>. On utilisera le fichier "./data/airbnb.csv"</li>
    </ul>
</div>

In [None]:
airbnb = ___

In [None]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert airbnb["price"].dtype == object
print("Bien importé !")

<div class="alert alert-success">
    <h4><i class="fa fa-edit"></i> Exercice</h4>
    <ul>
        <li>Importer un fichier CSV qui a comme séparateur <code>;</code>, le nom du fichier est <code>base-dpt.csv</code></li>
    </ul>
</div>

In [None]:
base_dpt = ___

In [None]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert type(base_dpt) == pd.DataFrame
print("Bien importé !")

# D'autres types de données

## JSON
Les objets JSON ressemblent à des dictionnaires.

On utilise le module `json` puis la fonction `json.loads()` pour transformer une entrée JSON en objet json

## HTML
On utilise `pd.read_html(url)`. Cet fonction est basée sur les packages `beautifulsoup` et `html5lib`

Cette fonction renvoie une liste de DataFrame qui représentent tous les tableaux de la page. On ira ensuite chercher l'élément qui nous intéresse avec `[df.shape for df in list_df]`

<div class="alert alert-success">
    <h4><i class="fa fa-edit"></i> Exercice</h4>
    <ul>
        <li>Importez un tableau en html depuis la page <a href="https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list/">https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list/</a></li>
    </ul>
</div>

In [None]:
web_bank = ___

In [None]:
frame_bank = ___

In [None]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert type(frame_bank) == pd.DataFrame
print("Bien importé !")

# Importer depuis Excel

On a deux approches pour Excel :
- On peut utiliser `pd.read_excel()`
- On peut utiliser la classe `pd.ExcelFile()`

Dans ce cas, on utilise :
```python
xlsfile=pd.ExcelFile('fichier.xlsx')
xlsfile.parse('Sheet1')
```

<div class="alert alert-success">
    <h4><i class="fa fa-edit"></i> Exercice</h4>
    <ul>
        <li>Importez un fichier Excel avec les deux approches :</li>
        <ol>
            <li>avec <code>pd.read_excel()</code> pour le fichier <code>credit2.xlsx</code></li>
            <li>avec <code>pd.ExcelFile()</code> pour le fichier <code>ville.xls</code></li>
        </ol>
    </ul>
</div>

In [None]:
credit2 = ___

In [None]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert credit2["Age"].max() == 83
print("Bravo !")

In [None]:
ville_excel = pd.ExcelFile(___)
frame_ville = ____

In [None]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert type(frame_ville) = pd.DataFrame
print("Bravo !")

# Importer des données SQL

Pandas possède une fonction `read_sql()` qui permet d’importer directement des bases de données ou des queries dans des DataFrame

Il faut tout de même un connecteur pour accéder aux bases de données.

Pour mettre en place ce connecteur, on utlise le package SQLAlchemy.

Suivant le type de base de données, on utilisera différents codes mais la structure du code est toujours la même

In [None]:
# on importe l'outil de connexion
from sqlalchemy import create_engine

On crée une connexion
```python
connexion=create_engine("sqlite:///(...).sqlite")
```

On utlise une des fonctions de Pandas pour charger les données
```python
requete="""select ... from ..."""
frame_sql=pd.read_sql_query(requete,connexion)
```

<div class="alert alert-success">
    <h4><i class="fa fa-edit"></i> Exercice</h4>
    <ul>
        <li>Importez la base de données SQLite salaries et récupérez la table Salaries dans un DataFrame</li>
        <li><em>Indice :</em> on commence par créer la connexion et ensuite on fait la requête <code>select * from salaries</code>, la connexion se fait en utilisant la ressource : "sqlite:///./data/salaries.sqlite"</li>
    </ul>
</div>

In [None]:
___
salaries = ____

In [None]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert type(salaries) == pd.DataFrame
print("Bravo !")

## Importer des données SAS

Les données SAS ont un format propriétaire qui est bien souvent difficile à gérer dans d'autres outils.

Pandas peut gérer des fichiers SAS en utilisant la fonction `pd.read_sas(___)`

<div class="alert alert-success">
    <h4><i class="fa fa-edit"></i> Exercice</h4>
    <ul>
        <li>Importez le fichier "bce_uai.sas7bdat" en utilisant Pandas</li>
        <li><em>Indice :</em> l'encodage des chaînes de caractères est spécifique en SAS, on utilisera l'option <code>encoding='latin-1'</code></li>
    </ul>
</div>

In [None]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert type(bce_uai) == pd.DataFrame
print("Bravo !")

# Affichage de DataFrames

Pour afficher un DataFrame avec des conditions, on utilise :
    
`df.loc[df["a"]>10]` ou également `df[df["a"]>10]`

Pour sélectionner uniquement certaines colonnes :

`df[["a","b"]]`


<div class="alert alert-success">
    <h4><i class="fa fa-edit"></i> Exercice</h4>
    <ul>
        <li>Utilisez les manipulations de DataFrame pour afficher les colonnes "price" et "zipcode" avec uniquement les "zipcode" égaux à 75015.</li>
        <li>Stockez le résultat dans l'objet new_df</li>
    </ul>
</div>

In [None]:
new_df = ___

In [None]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert  new_df.shape == (1407, 2)
print("Bravo !")

# L'accès aux données et sa manipulation

Ajouter une variable en pandas est simple :
    
`df["new_a"] = df["a"] * 2`

Avec une condition :
    
`df.loc[df["a"]>0, "new_a"] = 10`

ou 

`df["b"] = np.where(df["a"]<0, 1,0)`


<div class="alert alert-success">
    <h4><i class="fa fa-edit"></i> Exercice</h4>
    <ul>
        <li>Construire une nouvelle colonne à partir de la colonne "zipcode" avec des 1 pour chaque valeur contenant 75015.</li>
    </ul>
</div>

In [None]:
airbnb["is_75015"] = ___

In [None]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert  airbnb["is_75015"].max() == 1
print("Bravo !")

Modifier ce qui est dans une colonne est simple en pandas, si on utilise un type spécial, on utilisera :
    
- pour une donnée textuelle :
    `df["col_test"].str.___`, ___ peut être remplacé par n'importe quelle méthode liée aux chaînes de caractères

- pour une donnée de date :
    `df["col_test"].dt.___`, ___ peut être remplacé par n'importe quelle méthode liée aux objets datetime de python

    

<div class="alert alert-success">
    <h4><i class="fa fa-edit"></i> Exercice</h4>
    <ul>
        <li>Extraire deux colonnes avec le jour et le mois à partir de la colonne DATE_OUVERTURE du DataFrame bce_uai en utlisant <code>.dt.day</code> et <code>.dt.month</code></li>
    </ul>
</div>

In [None]:
bce_uai["jour_ouverture"] = ___
bce_uai["mois_ouverture"] = ___

In [None]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert  bce_uai["jour_ouverture"].min() == 1
print("Bravo !")

<div class="alert alert-success">
    <h4><i class="fa fa-edit"></i> Exercice avancé</h4>
    <ul>
        <li>Utilisez des transformations pour rendre la colonne price de airbnb numérique.</li>
        <li><em>Indice</em> : on utilisera <code>pd.to_numeric()</code></li>
    </ul>
</div>

In [None]:
airbnb["price_num"] = ___

In [None]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert  airbnb["price_num"].dtype == np.float64
print("Bravo !")

# Les tris avec Pandas 

Pour effectuer des tris, on utilise :
- `.sort_index()` pour le tri des index
- `.sort_values()` pour le tri des données
- `.rank()` affiche le rang des observations

Il peut y avoir plusieurs tris dans la même opération. Dans ce cas, on utilise des listes de colonnes :
```python
frame.sort_values(["col_1","col_2"])
```

<div class="alert alert-success">
    <h4><i class="fa fa-edit"></i> Exercice</h4>
    <ul>
        <li>Triez les données sur les salaires en se basant sur le BasePay et le JobTitle</li>
    </ul>
</div>

In [None]:
salaries_sorted = ___

In [None]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert salaries_sorted["JobTitle"].min() == salaries_sorted["JobTitle"].iloc[0]
print("Bravo !")

## Exportez des fichiers 

La plupart des outils d'importation existent en exportation, on utilise :
```
frame.to_csv("fichier.csv")
```


<div class="alert alert-success">
    <h4><i class="fa fa-edit"></i> Exercice</h4>
    <ul>
        <li>Exportez les données salaries dans un fichier Excel</li>
    </ul>
</div>

# Les statistiques simples

Les Dataframe possèdent de nombreuses méthodes pour calculer des statistiques simples :
- `.sum(axis=0)` permet de faire une somme par colonne
- `.sum(axis=1)` permet de faire une somme par ligne
- `.min()` et `.max()` donnent le minimum par colonne
- `.idxmin()` et `.idxmax()` donnent l’index du minimum et du maximum
- `.describe()` affiche un tableau de statistiques descriptives par colonne
- `.corr()` pour calculer la corrélation entre les colonnes

<div class="alert alert-success">
    <h4><i class="fa fa-edit"></i> Exercice</h4>
    <ul>
        <li>Obtenir les moyennes et variances de la colonne <code>TotalPay</code> pour les données Salaries.</li>
    </ul>
</div>

In [None]:
print(salaries[___].___())

# Le traitement des données manquantes

- Les données manquantes sont identifiées par `NaN`


- `.dropna()` permet de retirer les données manquantes dans un objet Series et l’ensemble d’une ligne dans le cas d’un DataFrame
- Pour éliminer par colonne, on utilise `.dropna(axis=1)`
- Remplacer toutes les données manquantes `.fillna(valeur)`


# Les jointures avec Pandas

On veut joindre des jeux de données en utilisant des clés (variables communes)

- `pd.merge()` permet de joindre deux DataFrame, on utilise comme options `on='key'`

- On peut utiliser comme option `how=`, on peut avoir :
    - `left` (resp. `right`) dans ce cas, on conserve le jeu de données à gauche (resp. droite) et pour les données de droite des valeurs manquantes sont ajoutées.
    - `inner`, on ne conserve que les valeurs communes des deux jeux de données
    - `outer`, on conserve toutes les valeurs des deux jeux de données
- On peut avoir des clés différentes et faire une jointure sur les clés avec `left_on='key1'` et `right_on='key2'`
- On peut avoir plusieurs clés et faire une jointure sur les deux clés `on=['key1','key2']`

Pour plus de détails : https://pandas.pydata.org/pandas-docs/dev/reference/api/pandas.DataFrame.merge.html


<div class="alert alert-success">
    <h4><i class="fa fa-edit"></i> Exercice</h4>
    <ul>
        <li>Joindre deux DataFrame (credit1 et credit2). On commence par importer <code>credit1.txt</code></li>
    </ul>
</div>

In [None]:
credit1 = ____

In [None]:
credit_merged = ____

In [None]:
# pour vérifier que vous avez bien répondu à l'exercice, soumettre cette cellule
# on utilise maj + Entrée
assert credit_merged.shape[1] == 31
print("Bravo !")

# Gestion des duplications

- On utilise `.duplicated()` ou `.drop_duplicates()` dans le cas où on désire effacer les lignes se répétant


- On peut se concentrer sur une seule variables en entrant directement le nom de la variable. Dans ce cas, c’est la première apparition qui compte. Si on veut prendre la dernière apparition, on utilise l’option `keep="last"`. On pourra avoir :
```python
frame1.drop_duplicates(["col_0","col_1"],keep="last")
```

# Discrétisation

Pour discrétiser, on utilise la fonction `pd.cut()`, on va définir une liste de points pour discrétiser et on entre cette liste comme second paramètre de la fonction.

Une fois discrétisé, on peut afficher les modalités obtenues en utilisant `.categories`

On peut aussi compter les occurrence en utilisant `pd.value_counts()`

Il est aussi possible d’entrer le nombre de segments comme second paramètre

On utilisera aussi `qcut()` pour une discrétisation par quantiles.

<div class="alert alert-success">
    <h4><i class="fa fa-edit"></i> Exercice</h4>
    <ul>
        <li>Créez une variable dans le DataFrame AirBnB pour obtenir 5 niveaux de prix.</li>
    </ul>
</div>

In [None]:
airbnb["price_disc"] = ___

In [None]:
assert airbnb["price_disc"].dtype = "category"
print("Bravo !")

# Les tableaux croisés avec Pandas

Les DataFrame possèdent des méthodes pour générer des tableaux croisés, notamment :
```python
frame1.pivot_table()
```
Cette méthode permet de gérer de nombreux cas avec des fonctions standards et sur mesure.

<div class="alert alert-success">
    <h4><i class="fa fa-edit"></i> Exercice</h4>
    <ul>
        <li>Afficher un tableau Pivot pour les données AirBnB. On veut afficher le nombre et la moyenne des prix en fonction de deux colonnes du DataFrame : "cancellation_policy" et "room_type"</li>
    </ul>
</div>

# L'utilisation de GroupBy sur des DataFrame

- `.groupby()` permet de rassembler des observations en fonction d’une variable dite de groupe


- Par exemple, `frame.groupby('X').mean()` donnera les moyennes par groupes de `X`


- On peut aussi utiliser `.size()` pour connaître la taille des groupes et utiliser d’autres fonctions (`.sum()`)


- On peut effectuer de nombreuses opérations de traitement avec le groupby


<div class="alert alert-success">
    <h4><i class="fa fa-edit"></i> Exercice</h4>
    <ul>
        <li>Données sur les salaires</li>
        <li>Utilisez le <code>groupby()</code> pour calculer la moyenne des paies par type d’emploi</li>
        <li>Affichez les 10 plus grosses moyennes</li>
    </ul>
</div>

On peut utiliser la méthode `.agg()` avec par exemple `'mean'` comme paramètre

On utilise aussi fréquemment la méthode `.apply()` combinée à une fonction lambda

# Fonctions de transformation Python

Nous avons vu les fonctions lors de la première partie de la formation.

Dans une fonction, on pourra utiliser directement le code d'exploration avec peu de changements.
    

<div class="alert alert-success">
    <h4><i class="fa fa-edit"></i> Exercice</h4>
    <ul>
        <li>Construire une fonction capable de charger des données, de les transformer et de sauvegarder le résultat dans un fichier</li>
        <li>On utilise le <code>groupby()</code> pour rassembler les types d’emploi</li>
        <li><em>Indice</em> : on utilisera Python et Pandas, on complètera la fonction ci-dessous</li>
    </ul>
</div>

In [None]:
import os

def transfo(file_name, 
            folder_name,
            output_file_name,
            output_folder_name,
            sep_csv = ","
           ):
    """
    This function should load a file (csv), clean it and export it to Excel
    Here are the steps:
     - Remove missing values 
     - Transform dates to Python date format
     - Drop duplicated rows
    This function should return 0 if all OK / 1 if error
    """
    try:
        # on commence par importer la donnée en vérifiant qu'elle se trouve dans le répertoire voulu
        # pd.read_csv()
        

        # on applique les transformations en utlisant les outils de pandas
        # on supprime les données manquantes
        # .dropna()
        
        
        # on essaye de transformer les colonnes de date en format date python
        # pd.to_datetime()
        # si le terme "date" est compris dans le nom de la colonne
        
        
        # on supprime les doublons
        # .drop_duplicates()
        
        
        # on exporte les données en vérifiant l'existence du répertoire
        # .to_excel()
        
        return 0
    except FileNotFoundError:
        print("Attention problème de répertoire introuvable")
        return 1
    

In [None]:
# test du fonctionnement
assert transfo(folder_name="./data/", 
               file_name="base-dpt.csv", 
               output_folder_name="./data/", 
               output_file_name="base-dpt.xlsx", 
               sep_csv = ";") == 0
data_temp = pd.read_excel("./data/base-dpt.xlsx")
assert data_temp.isna().sum().all() == 0
print('Bravo!')

Vous avez créé une fonction !

On va continuer avec les graphiques en Python !