## **Pandas :** Prerquises

#### _Prérequis pour la Libraire Pandas_

🟢 `complete`

---

1. **La librairie**
    * Contenu
    * Typage par colonnes
2. **Représentations**
    * Tables
    * Colonnes
    * Filtrées
3. **Manipulations**
    * Visualisation
    * Extension
    * Agrégations et statistiques

**Libraries**

In [1]:
import pandas as pd
import numpy as np

---
### **1.** La librairie

##### **1.1** - Contenu

**Ce qu'apporte la librairie**
* Specialement dédiée aux données tabulaires – tableaux à 2 dimensions
* Nettoyer des données, trouver des valeurs abérantes, calculer des moyennes mobiles, série temporelle (bourse), etc.
* Beaucoup de rapprochement avec SQL
* S'utilise fréquemment avec d'autres librairies Python comme `numpy`, `seaborn`, ou `sklearn`

##### **1.2** - Typage par colonne

**Une colonne = un type**

Pandas est l'équivalent d'un table en SQL, ou d'une feuille dans _Libre | Open Office Calc_ (ou _MS Office Excel_). Chaque colonne comporte donc un type propre de donnée. Lesquelles peuvent être du texte, des nombres entiers, des dates, des nombres à virgules flottantes, etc.

![Calc](../_assets/pandas_concept_table.png)

Les tableaux se présentent donc comme à **1 dimension** – ce qui donne une `Serie` – ou à **2 dimensions** – ce qui donne un `DataFrame`. Une `Serie` comporte un type unique de valeurs ; mais `DataFrame` peut contenir plusieurs `Series`, donc plusieurs types de données différents.

**Aperçu**

In [4]:
# A table with values
students = pd.DataFrame({
        'name': ["Ada Lovelace", "Alan Turing", "Grace Hopper"],
        'notes': [17, 10, 4],
        'admitted': [True, False, False]
    })
students

Unnamed: 0,name,notes,admitted
0,Ada Lovelace,17,True
1,Alan Turing,10,False
2,Grace Hopper,4,False


In [5]:
# Type of columns
students.dtypes

name        object
notes        int64
admitted      bool
dtype: object

---
### **2.** Représentation

##### **2.1** - Tables

Une **Table** est appelée `DataFrame`, et comporte des colonnes – `cols` – et des lignes – `rows`.

<img src="../_assets/pandas_dataframe.svg" alt="un dataframe" title="Une table : un DataFrame" style="background-color:#FFF">

##### **2.2** - Colonnes

Une **colonne** est appelée `Serie`. Elle peut être soit isolée ; soit issue d'un `DataFrame`, et comporte autant de valeurs qu'il y a de lignes.

<img src="../_assets/pandas_serie.svg" alt="une serie" title="Une colonne : une Série" style="background-color:#FFF">

##### **2.3** - Filtrées

**Filtre sur des colonnes spécifiques**

<img src="../_assets/pandas_filtre_colonnes.svg" alt="filtre colonnes" title="Flitrage : de colonnes" style="background-color:#FFF; width:50%; height:auto">

**Filtre sur des lignes spécifiques**

<img src="../_assets/pandas_filtre_lignes.svg" alt="filtre lignes" title="Filtre : de lignes" style="background-color:#FFF; width:50%; height:auto">

**Filtre de colonnes et de lignes**

<img src="../_assets/pandas_filtre_mixte.svg" alt="filtre colonnes et lignes" title="Filtre : colonnes et lignes" style="background-color:#FFF; width:50%; height:auto">

---
### **3.** Manipulations

##### **3.1** - Visualisations

`.plot.*`

<img src="../_assets/pandas_plot_ex01.svg" alt="visualisation" title="Plot : visualisation de données" style="background-color:#FFF; width:50%; height:auto">

`scatterplot`, _etc._

<img src="../_assets/pandas_plot_ex02.png" alt="visualisation" title="Plot : visualisation de données" style="background-color:#FFF">

##### **3.2** - Extensions

**Ajout de colonnes dérivées**

<img src="../_assets/pandas_colonnes_derivees.svg" alt="colonnes derivees" title="Ajout de colonnes dérivées" style="background-color:#FFF; width:50%; height:auto">

**Concaténation d'objets**

<img src="../_assets/pandas_concatenation.svg" alt="concatenation de tableau" title="Concaténation d'objets" style="background-color:#FFF; width:50%; height:auto">

##### **3.3** - Agrégations et statistiques

**Regroupement et statistiques**

<img src="../_assets/pandas_agregat_ex01.svg" alt="agregats" title="Agrégat et statistiques" style="background-color:#FFF; width:50%; height:auto">
<br>
<img src="../_assets/pandas_agregat_ex02.svg" alt="regroupements et statistiques" title="Regroupements puis calcul statistique" style="background-color:#FFF; width:50%; height:auto">

**Calculs statistiques**

<img src="../_assets/pandas_statistique_ex01.svg" alt="statistique globale" title="Statistique globale" style="background-color:#FFF; width:50%; height:auto">

**Calculs statistiques distincts**

<img src="../_assets/pandas_statistique_ex01.svg" alt="statistique distincts" title="Statistiques distincts" style="background-color:#FFF; width:50%; height:auto">