# Présentation de Pandas

Cette présentation est destinée à donner un aperçu de Pandas

Vous pouvez consuler [la documentation de Pandas](https://pandas.pydata.org/pandas-docs/stable/) en ligne.

Nous commençons par construire la référence vers le fichier à utiliser et charger Pandas.

In [None]:
from pathlib import Path
file_path = Path('__file__').resolve().parent.parent / 'assets' / 'showslist.csv'

In [None]:
import pandas as pd

## Données à partir d'un fichier
Pandas propose une méthode `.read_csv()` pour lire les données dans un csv. Pandas propose également d'autres méthodes pour d'autres sources tel que `.read_json()` ou `.read_sql_table()`.

In [None]:
shows = pd.read_csv(file_path, sep=";")

## Structure d'une données Pandas
Nous pouvons vérifier que le type de donnée récupéré par Pandas est `DataFrame`.

In [None]:
type(shows)

Un `DataFrame` est une donnée structurée. Elle possède des **colonnes**, des **indices** et des **données**.

In [None]:
shows

Nous pouvons consulter le contenu des colonnes, des indices et des valeurs.

In [None]:
shows.columns

In [None]:
shows.index

In [None]:
shows.values

Les dimensions d'un DataFrame sont des **axes**

In [None]:
shows.axes

Un DataFrame peut être manipulé comme un dictionnaire pour lequel les clefs seront les colonnes.

In [None]:
shows.keys()

La *valeur* associée à la clef *colonne* est le contenu de cette colonne.

In [None]:
show_names = shows["tvshow"]
show_names

Il ne s'agit pas uniquement d'une *liste* de données. Elles sont indéxées. Un `DataFrame` est composés d'objets de type `Series` qui est, comme nous le verrons, comparable au type `List` ou plutôt les `ndarray` Numpy.

In [None]:
type(show_names)

Nous pouvons également vérifier le nombre d'élément et le *shape* du DataFrame.

In [None]:
print(len(shows))
print(shows.shape)

## Explorons nos données

Une variable contenant un DataFrame rertourne celui-ci et Jupyter formatera l'affichage. Pour vérifier le contenu, l'habitude est de consulter que les quelques (5) premiers avec la méthode `.head()`.

In [None]:
shows.head()

De même on peut afficher la fin du DataFrame.

In [None]:
shows.tail()

Ces deux méthodes prennent un paramètre optionnel de type `int` qui est le nombre de lignes à afficher (5 par défaut).

Les colonnes d'un DataFrame contiennent des valeurs d'un type spécifique. Leur parcours est donc bien plus performant qu'une liste Python.

Nous pouvons afficher les colonnes et leur type avec la méthode `.info()`.

In [None]:
shows.info()

Pandas utilise NumPy pour travailler avec ces types.

## Statistiques de base
Nous pouvons obtenir des statistiques de base grâce à la méthode `.describe()`. Celle-ci décrit toutes les colonnes *numériques*. Nous obtenons le nombre de données, la moyenne globale, la déviation standard, le minimum, les quartiles et le maximum de la Serie

In [None]:
shows.describe()

Avec le paramètre `include`, nous pouvons décrire d'autres données.

In [None]:
shows.describe(include=object)

In [None]:
shows.describe(include="all")

## Explorer le DataSet
### Les Series

Nous allons explorer le contenu d'une colonne. Une colonne (ou une ligne) est une `Serie`. Une `Serie` est comparable au type `list`.

Il y a deux méthodes pour accéder à une colonne, toujours par son nom : avec une syntaxe de dictionnaire ou d'attribut.

In [None]:
shows.tvshow

In [None]:
shows['tvshow']

In [None]:
type(shows.tvshow)

Nous avons plusieurs méthodes qui permettent d'explorer la série

In [None]:
shows.tvshow.unique()

In [None]:
shows["tvshow"].value_counts()

## Trier les données
La méthode `.sort_values()` permet de trier les données en fonction des paramètres

In [None]:
shows.sort_values(by="year")

In [None]:
shows.sort_values(by=["tvshow", "season"])

## Filtre des données

Nous pouvons filtrer des entrées avec la structure `.loc[]`

In [None]:
shows.loc[shows['tvshow'] == "Supergirl"]

Cette structure permet également d'extraire des colonnes du DataFrame. Attention à la syntaxe lors de l'extraction d'une colonne. La syntaxe suivante retourne un objet de type Series

In [None]:
shows.loc[shows['tvshow'] == "Supergirl", "ep_title"]

Pour obtenir des DataFrame, il faut préciser un tableau.

In [None]:
shows.loc[shows['tvshow'] == "Supergirl", ["ep_title"]]

Et donc avec la possibilité de préciser plusieurs colonnes.

In [None]:
shows.loc[shows['tvshow'] == "Supergirl", ["ep_title", "year"]]

## Un DataSet à partir de Series

Un objet Serie peut être créé à partir d'une liste. 

In [None]:
grades = pd.Series([12, 15, 8, 17, 15, 6, 9, 10, 18, 17, 12, 13])
grades

Une Series a deux composants : les valeurs et les identifiants (les indices).

In [None]:
grades.values

In [None]:
grades.index

Les indices (identifiants) peuvent être définis par un nom arbitraire.

In [None]:
students_all = ["Paul", "Michel", "Ducobu", "Marie", "Paddle", "Carmen", "Marysa"]
grades_math = pd.Series([12, 15, 8, 17, 15, 6, 9], index=students_all)

In [None]:
grades_math

On peut donc accétrer à un élément par son label ou son indice.

In [None]:
print(grades_math["Paddle"])
print(grades_math[4])

Nous pouvons composer un DataFrame à partir de plusieurs Series. Pandas utilisera les indices pour aligner les Series. Nous allons donc ajouter les notes d'anglais.

In [None]:
class_english = ["Michel", "Ducobu", "Marie", "Paddle", "Carmen", "Marysa"]
grades_english = pd.Series([9, 14, 17, 15, 8, 12], index=class_english)

L'exemple suivant montre la construction d'un DataFrame à partir d'un dictionnaire. Les clefs en deviennent les colonnes.

In [None]:
grades = pd.DataFrame({"math": grades_math, "english": grades_english})
grades

Nous pouvons accéder aux valeurs qui sont un ndarray

## Explorer les series
### Accéder aux élements d'une série

On peut accéder à la valeur s'une série par sa position (indice) ou le label :

In [None]:
print(grades_english["Paddle"])
print(grades_english[3])

Attention cependant, accéder par l'opérateur d'indice (`[]`) peut avoir des limites comme utiliser des entiers comme clef. Il est impossible de différencier le label de l'indice.

C'est là où les méthodes `.loc` et `.iloc` sont utilies. Le premier recherche les labels, le second les indices.

Ces méthodes sont comparables aux expressions standard Python mais elles sont plus *optimisées*.

In [None]:
grades_english.iloc[3]

In [None]:
grades_english.loc["Paddle"]

Le slicing exise aussi avec `.loc` et `.iloc`. Attention, avec `.loc`, l'ensemble est fermé.

In [None]:
print(grades_english.loc["Ducobu" : "Paddle"])
print()
print(grades_english.iloc[1 : 3])

Comme nous l'avons vu précédemment, nous pouvons aussi utiliser `.loc` et `.iloc` pour accéder aux données d'un DataFrame

In [None]:
grades.loc["Paddle"]

In [None]:
grades.loc["Ducobu":"Paddle"]

`.loc` et `.iloc` peuvent prendre un second paramètre qui est la colonne ce qui permet de sélectionner une donnée

In [None]:
grades.loc["Ducobu":"Paddle", "english"]

## Faire des reqêtes

Nous pouvons faire des requêtes dans le DataSet pour ne sélectionner que des éléments d'intérêt

In [None]:
grades[grades["english"] > 10]

In [None]:
grades[grades["english"].notnull()]

Nous pouvons combiner plusieurs critères séparés avec les opérateurs `|` et `&`. Attention, il est indispensable d'ajouter les parenthèqes pour la priorité.

In [None]:
grades[(grades["english"] > 10) & (grades["math"] > 10)]

## Grouper et aggréger des données

Les Series étant construites sur les array NumPy, elles disposent des même possibilités de calcul.

In [None]:
grades_english * 2

Les colonnes mais également les lignes sont des séries ce qui permet d'extraire une ligne et de faire le calcul dessus.

In [None]:
grades.loc["Ducobu"].mean()

La méthode `groupby` permet de créer des groupes de données. Attention, le type obtenu n'est pas un `DataFrame` mais un `DataFrameGroupBy`.

In [None]:
grouped_shows = shows.groupby('tvshow')
type(grouped_shows)

Ce type est un itérable retournant un N-uplet de 2 valeurs :

In [None]:
for name, group in grouped_shows:
    print(name)
    print(group)
    print(type(group))

Pandas fournit des opération d'aggrégation, c'est à dire qu'elles permettent une opération sur l'ensemble du groupe.

In [None]:
grouped_shows["duration"].sum()

In [None]:
grouped_shows["duration"].mean()

In [None]:
grouped_shows["duration"].std()

Il est possible de créer des groupes sur plusieurs colonnes.

In [None]:
grouped_seasons = shows.groupby(['tvshow', "season"])
for name, group in grouped_seasons:
    print(name)
    print(group)
    break # Juste pour voir le premier

In [None]:
grouped_seasons["duration"].count()

Nous pouvons travailler sur un groupe en le sélectionnant :

In [None]:
(grouped_seasons).get_group(('Supergirl', 1))

## Gérer les NaN

In [None]:
grades

Nous pouvons gérer les valeurs manquantes. Voici ci-dessous comment supprimer les lignes ayant une valeur absente ou comment la remplacer par une valeur par défaut. Note : le paramètre `inplace=True` permet de modifier la valeur d'origine.

In [None]:
grades.dropna()

In [None]:
grades.fillna(value=0)
grades

Ci dessous, nous allons rajouter une matière qui a également une valeur absente.

In [None]:
class_physics = ["Michel", "Paul", "Marie", "Paddle", "Carmen", "Marysa"]
grades_physics = pd.Series([12, 12, 18, 13, 6, 14], index=class_physics)

grades = pd.DataFrame({"math": grades_math, "english": grades_english, "physics": grades_physics})
grades

Nous pouvons spécifier par colonne les valeurs de remplacement.

In [None]:
grades.fillna(value={"physics":0, "english":10})

Une méthode comme `.mean()` a un paramètre `skipna=True` et l'axe par défaut est `0` soit les colonnes.

In [None]:
grades.mean() 

In [None]:
grades.fillna(value=0).mean(1) 

## Filtrer les données
Pandas, comme NumPy, permet de filtrer les données. Les opérateurs de comparaison retournent des Series ou DataFrames de booléens.

In [None]:
grades.fillna(value=0).mean(1) >= 10

Nous pouvons définir cette structure comme filtre et l'utilser pour filtrer les données de notre DataFrame en produisant un nouveau DataFrame

In [None]:
filtre = grades.fillna(value=0).mean(1) >= 10
grades[filtre]

## Exemple d'insertion de graphes simples

In [None]:
import matplotlib

In [None]:
shows["tvshow"].value_counts().plot(kind="bar")

In [None]:
grades.fillna(value=0).mean(1).plot(kind="bar")

In [None]:
shows.loc[shows['tvshow'] == "Silicon Valley"]["duration"].plot()