# Introduction à l'analyse de données avec Python (Pandas)

*par [Antoine Mazieres](https://www.antonomase.fr/) et [Julie Pierson](https://letg.cnrs.fr/auteur470.html)*

Ce tutoriel présente la bibliothèque [Pandas](https://pandas.pydata.org/) qui permet l’import dans Python de types de données très appréciés des statisticiens et des data scientists et l’utilisation de fonctions qui facilitent les analyses et les visualisations les plus courantes.

Ensuite nous présenterons rapidement quelques bibliothèques supplémentaire qui s'intègrent particulièrement bien avec Pandas pour faire de l'apprentissage artificel ([scikit-learn](https://scikit-learn.org/stable/)), de l'analyse de réseaux ([networkx](https://networkx.github.io/)) et pour travailler avec des données géographiques ([geopandas](https://geopandas.org/)).

Ce tutoriel n'a pas l'ambition de vous apprendre ces différentes techniques, mais plutôt de vous faire un tour d'horizon de ces outils et de ce qu'il est possible de faire. **Choisissez ce que vous voulez explorer pendant ces 2h30 d'atelier, il n'est nullement nécessaire d'essayer de faire toutes les sections. Prenez ce qui vous intéresse, faites ce qui est proposé ou commencez à explorer des cas d'utilisation qui correspondent davantage à votre futur usage de ces outils.**

## Pandas

### `DataFrame` et `Series`

In [None]:
import pandas as pd # "pd" devient une abbréviation pour "pandas"

Pandas permet d'utiliser des matrices avec plus d'aisance que la bibliothèque [NumPy](https://numpy.org/) (sur laquelle il est basé par ailleurs). Le type de données [`DataFrame`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html) permet de gérer facilement des noms de colonnes, d'observation et propose tout un tas de fonctions utiles et bien intégrées.

In [None]:
data = {
    "Bob": {"age": 18, "taille": 190},
    "Alice": {"age": 19, "taille": 185}
}
df = pd.DataFrame(data)
df

In [None]:
# Transpose
df = df.T
df

In [None]:
df.mean() # ou .median()

Un type de données comparable pour les vecteurs (~matrice avec une seule colonne) est [`Series`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html).

In [None]:
li = ["a", "b", "c", "d"]

In [None]:
pd.Series(li)

In [None]:
# Si on sélectionne une colonne d'un DataFrame, cela devient une Series
df['age']

### Importer et exporter des données

Pandas est **très** pratique pour importer et exporter des données depuis/vers un grand nombre de format (CSV, JSON, EXCEL, HDF, SQL, PICKLE, etc.)

In [None]:
df

In [None]:
# produit un ficher test.csv dans le répertoire courant
df.to_csv("./test.csv")

In [None]:
# afficher le contenu du fichier
with open("./test.csv") as fi:
    for line in fi:
        print(line.strip()) # .strip() enlève les sauts de ligne

In [None]:
# import de ce fichier directement dans un DataFrame
new_df = pd.read_csv("./test.csv", index_col=0)
new_df

### Jouer avec un exemple

Nous allons nous exercer sur un dataset sur environ 4000 films constitué dans l'idée d'étudier les inégalités de genre dans l'apparition à l'écran dans les films populaires.

In [None]:
# On importe le fichier en indiquant que la première colonne représente l'index
df = pd.read_csv("./datasets/genre_cinema.csv", index_col=0)

In [None]:
# On affiche les premières lignes de la base de données
df.head()

In [None]:
# On affiche le nombre d'observations (lignes) et de variables (colonnes)
df.shape

Voici une rapide description des variables :

- les chaines de caractères qui composent l'index, commençant par "tt", représentent l'ID du film sur IMDB. Par exemple : https://www.imdb.com/title/tt0381061/ pour le film "Casino Royale"

- `parental_rating` : censure du film en fonction de l'âge du spectateur ([détails](https://en.wikipedia.org/wiki/Motion_Picture_Association_film_rating_system#:~:text=Rated%20G%3A%20General%20audiences%20%E2%80%93%20All,accompanying%20parent%20or%20adult%20guardian.))

- `rating_count` : le nombre de personnes ayant voté sur IMDB pour attribuer une note au film.

- `rating_value` : la note en question.

- `runtime` : la durée du film en minutes.

- `budget` : le budget du film, en dollars.

- `wwgross` : *world wide gross*, la recette du film, en dollars

- `bechdel_test` : une mesure de la représentation des femmes au cinéma ([détails](https://fr.wikipedia.org/wiki/Test_de_Bechdel)), composée de 3 conditions cumulatives : le fait qu'il y ait au moins deux femmes dans le film (1), qui se parlent (2), à propos d'autre chose que d'un homme (3). La valeur (0) indique que le film ne remplit aucune des conditions ([source](https://bechdeltest.com/)).

- `female_face_ratio` : une estimation du ratio de visages de femmes qui apparaissent parmi toutes les apparitions de visages à l'écran.



**Quelques exemples de manipulation et de visualisation des données**

Pour la visualisation, Pandas est contruit sur la bibliothèque [`MatPlotLib`](https://matplotlib.org/). Elle est réputée peu intuitive et Pandas contribue à rendre son usage plus simple.
Il faut cependant importer le module :

In [None]:
# créer un raccourci "plt" pour le sous-module "pyplot" de matplotlib
from matplotlib import pyplot as plt

Voici un tutoriel complet sur ce qu'offre Pandas en terme de visualisation : https://pandas.pydata.org/docs/user_guide/visualization.html

Explorons ensemble quelques exemples :

In [None]:
# Observer la distribution d'une variable
df['parental_rating'].value_counts()

In [None]:
df['parental_rating'].value_counts().plot(kind='bar')

In [None]:
# N'afficher que les films censuré "R"
df[df['parental_rating'] == "R"].head()

In [None]:
# N'afficher que les films censuré "R" qui ont une note IMDB > 7
df[(df['parental_rating'] == "R") & (df['rating_value'] > 7)].head()

In [None]:
# Regrouper les films par année en faisant la moyenne de leurs "female_face_ratio"
df[['year', 'female_face_ratio']].groupby(['year']).mean().head()

In [None]:
# Visualiser cette évolution
df[['year', 'female_face_ratio']].groupby(['year']).mean().plot()

**Quelques exercices**

Afficher des valeurs ou une figure qui apportent des éléments de réponse aux questions suivantes :

- Quelle est la moyenne du `female_face_ratio` pour les films censurés `PG-13` ?

In [None]:
# le code de votre réponse




- le `female_face_ratio` semble-t-il corrélé à la recette du film ? (indice : [`.plot.scatter()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.scatter.html))

In [None]:
# le code de votre réponse




- Quelle est la proportion de films qui passent le Bechdel test par quartile de valeur des notes sur IMDB ? (indice : [`.qcut()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.qcut.html))

In [None]:
# le code de votre réponse




À vous de jouer, essayer de révéler/visualiser quelque chose à partir de ce jeu de données !

## GeoPandas

Geopandas est un module Python qui permet d'afficher et de manipuler des données géographiques.

Pour installer geopandas sur Mac et Linux, tapez la commande suivante dans un terminal : `python -m pip install geopandas`

Pour windows, tapez les commandes suivantes, l'une après l'autre :

```bash
conda update conda
conda update anaconda
conda install -c conda-forge gdal
conda install geopandas
```

In [None]:
import geopandas

Nous allons ici à partir d'un tableau contenant une liste de villes avec leurs coordonnées, afficher ces villes, ajouter un fonds de carte, et joindre des données à ces villes pour en représenter la population sous forme d'une carte en cercles proportionnels.

Les données sont dans un tableau au format CSV : rien de nouveau jusqu'ici !


In [None]:
dfcities = pd.read_csv("./datasets/ne_110m_populated_places_coord.csv", index_col=0)
dfcities.head()

Les latitudes et longitude des villes sont dans une même colonne **coordonnees**.

La 1ère étape va consister à séparer ces coordonnées dans 2 colonnes différentes, afin de pouvoir ensuite facilement visualiser les villes sous forme de points.

Pour cela, nous allons utiliser la fonction **split** (rappelez-vous !) en l'appliquant à toutes les valeurs de la colonne **coordonnees** pour créer 2 colonnes **latitude** et **longitude**.

In [None]:
dfcities[['latitude','longitude']] = dfcities['coordonnees'].str.split(', ',expand=True)
dfcities.head()

On peut supprimer la colonne coordonnees devenue inutile :


In [None]:
dfcities = dfcities.drop(columns=['coordonnees'])
dfcities.head()

Pour pouvoir que ce dataframe puisse être affiché sous forme de données géographiques, il faut le transformer en geodataframe.

Ceci va y ajouter une colonne **geometry** :

In [None]:
gdfcities = geopandas.GeoDataFrame(dfcities, geometry=geopandas.points_from_xy(dfcities['longitude'], dfcities['latitude']))
gdfcities.head()

On peut maintenant afficher les villes sous forme de points :

In [None]:
gdfcities.plot()

Rapide ! Mais on n'y voit pas grand chose. On peut paramétrer les symboles, les axes et beaucoup de choses avec le module matplotlib.

In [None]:
import matplotlib.pyplot as plt

Jetez un oeil ici pour avoir un aperçu : https://darribas.org/gds16/content/labs/lab_02.html

Par exemple comme ceci :

In [None]:
# création d'une figure et de ses axes
f, ax = plt.subplots(1, figsize=(12, 12))
# ajout du geodataframe de villes
gdfcities.plot(ax=ax, markersize=5, color="gray")
# suppression des axes
ax.set_axis_off()
# affichage
plt.show()

Et en ajoutant un fond de carte :


In [None]:
# création d'un geodataframe avec les pays
world = geopandas.read_file(geopandas.datasets.get_path('naturalearth_lowres'))
# création d'une figure et de ses axes
f, ax = plt.subplots(1, figsize=(12, 12))
# ajout du geodataframe de pays
world.plot(ax=ax, facecolor="lightgray", edgecolor="white")
# ajout du geodataframe de villes
gdfcities.plot(ax=ax, markersize=5, color="black")
# suppression des axes
ax.set_axis_off()
# affichage
plt.show()

Et si on veut joindre des données à ces points, par exemple de population ?

Ca tombe bien, nous avons un fichier CSV qui contient des données de population pour chaque ville :


In [None]:
dfpop = pd.read_csv("./datasets/ne_pop_cities.csv", index_col=0)
dfpop.head()

Pour rappel, la couche de villes :

In [None]:
dfcities.head()

Le fichier de population possède la même colonne d'identifiant **ne_id** que la couche de villes : on va donc pouvoir les joindre grâce à cet identifiant, en utilisant merge :

In [None]:
gdfall = pd.merge(gdfcities, dfpop, left_on='ne_id', right_on='ne_id')
gdfall.head()

On a maintenant un seul fichier avec une colonne geometry permettant de localiser les villes, et une colonne pop_max avec la population de chaque ville.
Et si on veut faire varier la surface de chaque point en fonction de la population, pour faire une carte en symboles proportionnels ?

Rappelez-vous, pour ce type de carte, il faut faire varier la surface et non le rayon des cercles !

In [None]:
# création d'un geodataframe avec les pays
world = geopandas.read_file(geopandas.datasets.get_path('naturalearth_lowres'))
# création d'une figure et de ses axes
f, ax = plt.subplots(1, figsize=(12, 12))
# ajout du geodataframe de pays
world.plot(ax=ax, facecolor="lightgray", edgecolor="white")
# ajout du geodataframe de villes
import numpy as np
gdfall.plot(ax=ax, color="black", markersize=np.sqrt(gdfall['pop_max']))
# suppression des axes
ax.set_axis_off()
# affichage
plt.show()

Mmmh, on n'y voit pas grand chose... Voyons déjà le détail de la formule utilisée :

`import numpy as np`

permet l'import du module numpy dont nous allons utiliser la fonction **sqrt** : racine carrée.

`gdfall.plot(ax=ax, color="black", markersize=np.sqrt(gdfall['pop_max']))`

Cette ligne affiche les villes en faisant varier la taille (le diamètre) des cercles en fonction de la racine carrée de la population.

Pour y voir un peu plus clair, on peut recommencer en réduisant la taille de tous les cercles :

In [None]:
# création d'une figure et de ses axes
f, ax = plt.subplots(1, figsize=(12, 12))
# ajout du geodataframe de pays
world.plot(ax=ax, facecolor="lightgray", edgecolor="white")
# ajout du geodataframe de villes
import numpy as np
gdfall.plot(ax=ax, color="black", markersize=np.sqrt(gdfall['pop_max'])/30)
# suppression des axes
ax.set_axis_off()
# affichage
plt.show()

Avec un peu de transparence et de couleur pour mieux voir les superpositions :

In [None]:
# création d'une figure et de ses axes
f, ax = plt.subplots(1, figsize=(12, 12))
# ajout du geodataframe de pays
world.plot(ax=ax, facecolor="lightgray", edgecolor="white")
# ajout du geodataframe de villes
import numpy as np
gdfall.plot(ax=ax, color="blue", alpha=.7, linewidth=1, edgecolor="white", markersize=np.sqrt(gdfall['pop_max'])/20)
# suppression des axes
ax.set_axis_off()
# affichage
plt.show()

Et en affichant les plus petits cercles devant :

In [None]:
# création d'une figure et de ses axes
f, ax = plt.subplots(1, figsize=(12, 12))
# ajout du geodataframe de pays
world.plot(ax=ax, facecolor="lightgray", edgecolor="white")
# ajout du geodataframe de villes
import numpy as np
gdfallsort = gdfall.sort_values('pop_max', ascending=False)
gdfallsort.plot(ax=ax, color="blue", alpha=.7, linewidth=1, edgecolor="white", markersize=np.sqrt(gdfallsort['pop_max'])/20)
# suppression des axes
ax.set_axis_off()
# affichage
plt.show()

Ce qui nous permet d'avoir un premier aperçu de nos données !

## Analyse de réseau ([networkx](https://networkx.github.io/))

Pour nous initier à l'analyse de réseau, nous allons utiliser la bibliothèque [NetworkX](https://networkx.github.io/).

Chaque film de la base de données utilisée précédemment possède une variable `genre` qui contient une liste de type de film ("comédie", "romance", etc.). Nous allons essayer de faire un graph des co-occurrences entre ces genres de films, c'est à dire observer la manière dont ils ont tendance à apparaitre ensemble.

Pour ce faire nous utiliserons une version simplifiée de ces données disponible @ `datasets/genres,csv` dont voici les premières lignes :

In [None]:
i = 0
with open("./datasets/genres.csv") as fi:
    for line in fi:
        if i > 5:
            break
        print(line.strip())
        i += 1

In [None]:
import networkx as nx
import itertools

In [None]:
# declarer le graph
G = nx.Graph()

In [None]:
# créer les noeuds
noeuds = set()
with open("./datasets/genres.csv") as fo:
    for line in fo:
        for n in line.strip().split(",")[1:]:
            noeuds.add(n)

for n in noeuds:
    G.add_node(n)

G.nodes

In [None]:
# Créér les liens
with open("./datasets/genres.csv") as fo:
    for line in fo:
        for n in itertools.combinations(line.strip().split(",")[1:], 2):
            G.add_edge(n[0], n[1])
            
list(G.edges)[:5]

In [None]:
fig, ax = plt.subplots(figsize=(10, 10))
nx.draw_networkx(G, with_labels=True, font_size=15)

C'est moche et ça ne dit pas grand chose ! Tous les liens, ou presque, sont présents, ce qui empêche de visualiser leur fréquence.

Essayons de mieux faire en attribuant à chaque lien un "poids" qui représentera cette fréquence.

In [None]:
better_edges = {}

with open("./datasets/genres.csv") as fo:
    for line in fo:
        for n in itertools.combinations(line.strip().split(",")[1:], 2):
            edge = tuple(sorted(n))
            if edge not in better_edges:
                better_edges[edge] = 1
            else:
                better_edges[edge] += 1

In [None]:
G = nx.Graph()
for edge, frequence in better_edges.items():
    G.add_edge(edge[0], edge[1])
    G.edges[edge[0], edge[1]]['weight'] = frequence

In [None]:
G.edges['Action', 'Adventure']

In [None]:
fig, ax = plt.subplots(figsize=(10, 10))
edges = G.edges()
weights = [G[u][v]['weight']*.005 for u,v in edges]
nx.draw(G,  
        width=list(weights),
        with_labels=True)

Il existe de nombreuses options de visualisations comme la taille et coloration des noeuds par exemple ou l'algorithme de spatialisation du réseau. Networkx vous permet d'en explorer beaucoup, mais beaucoup d'utilisateurs aiment se tourner vers [Gephi](https://gephi.org/) lorsqu'il s'agit de tester de nombreuses options visuelles. NetworkX permet d'exporter facilement votre Graph vers le format de fichier de Gephi :

In [None]:
nx.write_gexf(G, "./test.gexf")

Vous pouvez maintenant importer le fichier `test.gexf` fans Gephi et modifier/analyser le graph de manière interactive.

Un usage plus fréquent de NetworkX est l'utilisation des algorithmes (détection de communauté, clique, etc.) et de mesure (centralité, distribution de degré, etc.). Vous pouvez trouver de nombreux éléments et exemples ici : https://networkx.github.io/documentation/stable/reference/index.html

À vous de jouer et de découvrir ou approfondir les éléments qui vous seront le plus utiles !

## Apprentissage artificiel ([scikit-learn](https://scikit-learn.org/stable/))

Avec Python, l'apprentissage artificiel est rendu assez facile avec la bibliothèque [scikit-learn](https://scikit-learn.org/stable/). Nous allons rapidement passer sur quelques scénarios d'usage classique du *machine learning*, à savoir : la réduction de dimensionnalité, le regroupement et la classification.

Pour ce faire, nous allons travailler avec la même base de données mais avec un nombre réduit de variable.

In [None]:
df = pd.read_csv("./datasets/genre_cinema.csv", index_col=0)
df_min = df[['rating_count', 'rating_value', 'runtime', 'wwgross', 'female_face_ratio']]

### Réduction de dimensionalité

Pour cet exemple nous allons utiliser une analyse en composante principale pour représenter les données en seulement deux dimensions.

In [None]:
from sklearn.decomposition import PCA
import numpy as np

In [None]:
# Normaliser le dataset
df_norm = (df_min - df_min.mean()) / df_min.std()

In [None]:
# calculer la PCA
pca = PCA(n_components='mle')
pca_res = pca.fit_transform(df_norm.values)

In [None]:
# observer la variance expliquée par les composantes
ebouli = pd.Series(pca.explained_variance_ratio_)
ebouli.plot(kind='bar', title="Ebouli des valeurs propres")
plt.show()

In [None]:
# observer les corrélations entre variables et composantes
# Une excellente explication du cercle des corrélations : https://youtu.be/2UFiMvXvdZ4?t=192

def circleOfCorrelations(pc_infos, ebouli):
    plt.Circle((0,0), radius=10, color='g', fill=False)
    circle1=plt.Circle((0,0),radius=1, color='g', fill=False)
    fig = plt.gcf()
    fig.gca().add_artist(circle1)
    for idx in range(len(pc_infos["PC-0"])):
        x = pc_infos["PC-0"][idx]
        y = pc_infos["PC-1"][idx]
        plt.plot([0.0,x],[0.0,y],'k-')
        plt.plot(x, y, 'rx')
        plt.annotate(pc_infos.index[idx], xy=(x,y))
    plt.xlabel("PC-0 (%s%%)" % str(ebouli[0])[:4].lstrip("0."))
    plt.ylabel("PC-1 (%s%%)" % str(ebouli[1])[:4].lstrip("0."))
    plt.xlim((-1,1))
    plt.ylim((-1,1))
    plt.title("Circle of Correlations")


coef = np.transpose(pca.components_)
cols = ['PC-'+str(x) for x in range(len(ebouli))]
pc_infos = pd.DataFrame(coef, columns=cols, index=df_norm.columns)
circleOfCorrelations(pc_infos, ebouli)
plt.show()

### Regroupement

Nous allons utiliser l'algorithme des K-moyennes, mais la plupart des procédures de regroupement sont disponibles sur scikit-learn : https://scikit-learn.org/stable/modules/clustering.html#clustering

In [None]:
from scipy import cluster

In [None]:
nb_clusters = 3

# Calcul des centroides
centroids, _ = cluster.vq.kmeans(df_min.values, nb_clusters, iter=100)

idx, _ = cluster.vq.vq(df_min.values, centroids)

Nous pouvons visualiser ces clusters en utilisant les deux composantes principales révélées par la PCA.

In [None]:
dat = pd.DataFrame(pca_res, columns=cols)

for clust in set(idx):
    colors = list("bgrcmyk")
    plt.scatter(dat["PC-0"][idx==clust],dat["PC-1"][idx==clust],c=colors[clust])
plt.xlabel("PC-0 (%s%%)" % str(ebouli[0])[:4].lstrip("0."))
plt.ylabel("PC-1 (%s%%)" % str(ebouli[1])[:4].lstrip("0."))
plt.title("K-Means / PCA")
plt.show()

### Classification

En utilisant un algorithme de classification classique, les arbres de décision, nous allons essayer de classifier les films censurés "R" des autres.

De nombreux autres algorithmes d'apprentissage supervisé sont disponibles sur scikit-learn : https://scikit-learn.org/stable/supervised_learning.html#supervised-learning

In [None]:
from sklearn import tree

In [None]:
# déclarer le classifieur
clf = tree.DecisionTreeClassifier()

In [None]:
# construction du modèle
clf = clf.fit(df_min.values, (df['parental_rating'] == "R").astype(int))

In [None]:
# visualisation du modèle
fig, ax = plt.subplots(figsize=(20, 20))
tree.plot_tree(clf, max_depth=2)
plt.show()