<p style="text-align:right">Polytech Nantes</p>

# Visualisations avec Pandas

## Objectif & Plan

La bibliothèque [pandas](http://pandas.pydata.org/) est connue pour faciliter la manipulation de données, mais elle offre aussi des méthodes pour l'analyse statistique et la visualisation de données. L'objectif de cette séance est d'introduire les principales méthodes pour ces tâches.

A noter : [pandas](http://pandas.pydata.org/) utilise nativement [matplotlib](https://matplotlib.org) pour construire ses graphiques. [matplotlib](https://matplotlib.org) est la bibliothèque Python de référence pour la visualisation de données. Pour certains graphiques avancés qui ne sont pas proposés dans [pandas](http://pandas.pydata.org/), il faudra utiliser directement [matplotlib](https://matplotlib.org).

La première partie du notebook est dédiée à la préparation d'un tableau statistique. Dans les parties 2 et 3 vous étudierez respectivement les variables numériques puis catégoriques. La partie 4 est consacrée aux applications sur les données Madoc.

## Partie 1 - Visualisation

### Création d'un tableau statistique

Un tableau statistique est un tableau Individus x Variables, càd que chaque ligne décrit un individu (au sens statistique du terme, il peut s'agir d'une personne, d'un objet, d'un pays...) et chaque colonne contient une variable qui décrit les individus. Sur les données Madoc, si on considère chaque étudiant comme un individu, alors les données `dataTraces` et `dataNotes` manipulées lors de la  dernière séance ne sont pas des tableaux statistiques puisque plusieurs lignes peuvent concerner le même individu. Ci-dessous vous allez construire le tableau statistique Etudiants x Matière qui contient les notes.

Chargez les données `dataNotes.v2.csv` et `dataTraces.v2.csv`.

In [1]:
import pandas as pd
# votre code ici pour charger dataNotes.v2.csv

In [None]:
# votre code ici pour charger dataTraces.v2.csv

Pour chaque dataFrame, vérifiez le nombre de lignes et les types des variables à l'aide des attributs `shape` et `dtypes`. Dans [pandas](http://pandas.pydata.org/), les Objects désignent des chaînes de caractères.

Combien d'étudiants différents sont étudiés dans les données ? Combien de matières différentes et de ressources différentes sont représentées ?

Vous aller reconstituer le jeu de données statistique qui décrit chaque étudiant par ses notes dans les 4 matières en suivant les étapes suivantes :
- créez le dataFrame `correspondance` qui contient la correspondance entre idUser et le nom de l'étudiant (utilisez `drop_duplicates()`) ;
- pour chaque matière M, construisez un dataFrame `notesM` avec deux colonnes `idUser` et `Note`, qui contient toutes les notes de la matière ;
- faites la jointure entre tous ces dataFrames sur `idUser`.

#### Exercice

Créez dans le bloc ci-dessous le dataFrame `correspondance` :

In [None]:
# creation du dataframe 'correspondance'


<br>Pour créer le dataFrame `notesM` des notes d'une matière M, vous pouvez commencer par vérifier que chaque étudiant a bien au plus une seule note dans la matière (au plus car il arrive que des étudiants n'aient pas de note dans certaines matières).

In [None]:
dataNotes[dataNotes.cours == 'Programmation objet'].groupby(['idUser']).agg('count')

Notez la syntaxe `dataNotes.cours`, qui est équivalente à `dataNotes['cours']` mais ne fonctionne que si le nom de la colonne ne comporte aucun espace.

Sélectionnez les lignes et colonnes qui vous intéressent :

In [None]:
# selection des iduser / notes en programmation objet


Vérifiez le type de la colonne `notes` du dataFrame `notesProgrammationObjet` avec `dtypes`. La colonne est toujours une chaîne de caractères, alors que dans cette matières les notes sont numériques. Transformez la colonne en nombre à l'aide de la commande `to_numeric()` :

In [None]:
# transformation de la colonne  'notes' en entier


Vérifiez s'il y a des notes manquantes (vides) dans cette matière :

In [None]:
notesProgrammationObjet.count()

Pour faciliter la future jointure, renommez la colonne "notes" du dataFrame pour qu'elle porte le nom de la matière :

In [None]:
notesProgrammationObjet.columns

In [None]:
notesProgrammationObjet.columns = ['idUser','ProgrammationObjet']

Faire un merge entre les notes de programmation objet et le dataframe `correspondance`

In [None]:
# merge correspondance et notes


Faites de même avec les 3 autres matières, pour finir avec un tableau avec une colonne identifiant (nom de l'étudiant) et quatres colonnes de notes (une par matière).

Chaque colonne de notes aura pour nom le nom de sa matière associée.

In [None]:
# code création des trois autres

Enfin, vous pouvez supprimer la colonne `idUser` du dataFrame. Vérifiez dans l'aide à quoi servent les paramètres `axis` et `inplace`.

In [None]:
tableau.drop('idUser', axis=1, inplace=True)

tableau

### Analyse d'une variable numérique

#### Tableau d'effectifs

On commence par étudier les notes de la matière ProgrammationObjet. La fonction `value_counts()` permet de produire le tableau des effectifs des valeurs d'une variable (càd le tableau des comptages).

In [None]:
tableau.ProgrammationObjet.value_counts()

#### Exercice

En vous aidant de l'aide de `value_counts()` :
1. triez la sortie par ordre des valeurs,
2. transformez les effectifs en fréquences (entre 0 et 1),
3. regroupez les valeurs possibles sur la série d'intervalles suivante : [0,5,10,15,20]

### Représentations graphiques

Il s'agit de visualiser la **distribution** des valeurs, càd la manière dont les valeurs se répartissent au sein du domaine des valeurs possibles. Les représentations usuelles pour une variable numérique sont l'**histogramme** et la **boîte à moustache**.

Dans cette partie on s'intérese aux notes de la matière Statistiques. On commence par indiquer à Jupyter d'autoriser les graphiques [matplotlib](https://matplotlib.org) à s'afficher au sein du notebook.

In [None]:
%matplotlib inline

In [None]:
tableau.Statistiques.plot.hist();

Les fonctions graphiques de [matplotlib](https://matplotlib.org) possèdent de nombreux paramètres permettant de personnaliser les graphiques : couleurs, lignes, légende, axes, annotations, polices, graphique empilé... Nous n'en utiliserons qu'une petite partie ici.

Le même histogramme mais plus lisible :

In [None]:
tableau.Statistiques.plot.hist(color='yellow', edgecolor = 'red')

On peut aussi imposer des bornes pour l'axe des abscisses, par exemple 0 et 20.

In [None]:
tableau.Statistiques.plot.hist(color='yellow', edgecolor = 'red', range=(0,20))

Vous pouvez constater que l'histogramme a changé. Comme toute représentation synthétique, l'histogramme ne retranscrit pas toute l'information présente dans les données. Les valeurs sont agrégées au sein d'intervalles (les _bins_), qui sont les largeurs des rectangles jaunes. Le choix des intervalles n'est pas unique, et dans le cas général il n'admet pas de solution optimale. Comme tout outil de statistique, [matplotlib](https://matplotlib.org) propose un choix par défaut, mais qui n'est qu'un choix parmi d'autres.

#### Exercice

En vous aidant de l'aide de `plot.hist()` :
1. modifiez le dernier histogramme pour avoir exactement 5 intervalles,
2. augmentez le nombre d'intervalles jusqu'à 50 ou 60 par exemple (vous voyez des détails plus précis mais perdez l'illusion d'une distribution continue des notes),
3. faites l'histogramme en précisant les intervalles de discrétisation de votre choix, sans qu'ils aient tous la même amplitude.

<br>Pour personnaliser davantage les graphiques, il est nécessaire de charger le module [pyplot](https://matplotlib.org/api/pyplot_summary.html) de la librairie [matplotlib](http://matplotlib.org/).

In [None]:
from matplotlib import pyplot
pyplot.rcParams["figure.figsize"] = [10,5]    #changement de la taille par défaut pour tous les graphes 
tableau.Statistiques.plot.hist(color='yellow', edgecolor = 'red', range = (0, 20), bins = 8, normed=True)
pyplot.xticks(range(0,21,2))
pyplot.title('Notes de Statistiques')
pyplot.xlabel('note')
pyplot.ylabel('fréquence')

<br>On peut aussi afficher la courbe **estimée** de la densité de la distribution. L'estimation est obtenue par la méthode dite du noyau. Attention, ci-dessous la superposition des deux graphiques est réalisée grossièrement. En toute rigueur, il faudrait s'arranger pour que les graduations sur les deux axes verticaux soient les mêmes.

In [None]:
tableau.ProgrammationObjet.plot.hist(color='yellow', edgecolor = 'red', normed=True)
tableau.ProgrammationObjet.plot.density(secondary_y=True,)

<br>On peut aussi appeler la méthode `plot.hist()` directement sur le dataframe pour obtenir les histogrammes de toutes les variables. Remarquez ci-dessous le point-virgule à la fin de la ligne de code, qui impose à Jupyter de ne pas afficher les messages textuels dans les résultats.

In [None]:
tableau.plot.hist(subplots=True, color='yellow', edgecolor = 'red', figsize=(5,10));

#### Exercice

A partir des histogrammes des notes des 3 matières, déterminez visuellement la matière qui possède :
1. la note moyenne la plus élevée,
2. la dispersion des notes (écart-type) la plus grande.

<br>Une autre représentation moins "grand public" mais très efficace est la boîte à moustache (_boxplot_). La boîte au milieu de la représentation en délimitée par les premier et troisième quartile, et traversée par la médiane. Tous les points qui sortent des moustaches (les 2 lignes qui entourent la boîte) sont appelés des valeurs extrêmes.

In [None]:
tableau.Statistiques.plot.box()

<br>Boîtes à moustaches parallèles, très utiles pour comparer les distributions :

In [None]:
tableau.plot.box()

<br>Avec des couleurs...

In [None]:
color = dict(boxes='DarkGreen', whiskers='DarkOrange', medians='DarkBlue', caps='Gray')
tableau.plot.box(color=color)

#### Exercice

A partir des boîtes à moustaches parallèles des 3 matières, déterminez visuellement la matière qui possède :
1. la note médiane la plus élevée,
2. la dispersion des notes la plus grande.

### Indicateurs

On peut résumer les caractéristiques d'une distribution avec deux notions principales :
- la **valeur centrale** ---> autour de quelle valeur tourne la variable ?
- la **dispersion**       ---> comment les valeurs de la variable sont-elles dispersées autour de la valeur centrale ?

Sur un dataFrame `df`, on peut calculer ces indicateurs de la manière suivante : `df.FONCTION()` ou `df.Variable.FONCTION()`. En guise de FONCTION, vous pouvez utiliser parmi d'autres choix :
- la médiane `median()` ou la moyenne `mean()` pour la valeur centrale,
- l'écart-type `std()` pour la dispersion.

#### Exercice

1. Calculez la note moyenne, la note médiane, et l'écart-type des notes pour chaque matière.
2. Même question en intégrant les valeurs manquantes dans le calcul (ce qui n'est pas les comportement par défaut des fonctions).

### Analyse d'une variable catégorique

Dans cette partie, on travaille sur la matière Base de Données, où les notes sont des catégories désignées par des lettres. La matière est notée `BD` dans le dataFrame.

### Tableau statistique

#### Exercice

A l'aide de la fonction `value_counts()` vue précédemment :
1. donnez les effectifs de chaque catégorie,
2. donnez les fréquences de chaque catégorie,
3. même question mais en intégrant les valeurs manquantes comme une catégorie à part entière.

### Représentations graphiques

Les représentations habituelles pour les variables catégoriques sont le diagramme en secteurs et le diagramme en barres. Dans [pandas](http://pandas.pydata.org/), les deux diagrammes se construsient en deux étapes :
1. on applique `value_count()` pour déterminer les effectifs des catégories (on peut éventuellement trier la sortie),
2. on dessine le diagramme avec une fonction graphique `plot.pie()` ou `plot.bar()`.

Diagramme en secteurs

In [None]:
from matplotlib import pyplot
pyplot.rcParams["figure.figsize"] = [5,5]    # pour que la zone zone graphique soit carrée --> diagramme bien circulaire 
tableau.BD.value_counts().sort_index().plot.pie()
pyplot.legend()    # pour ajouter la légence

<br>
Diagramme en barres

In [None]:
tableau.BD.value_counts().sort_index().plot.bar()

### Indicateurs   (pour information)

Il y a peu d'indicateurs dans le cas d'une variable catégorique :
- valeur centrale :
  - le mode (valeur la plus férquente) : c'est ce qu'on utilise le plus souvent
  - la médiane : possible, mais cela suppose une relation d'ordre entre les valeurs
  - la moyenne : pas de sens  
-  dispersion :
  - on peut utiliser l'entropie

## Partie 2 - Projet Immobilier

### Exercice :
1. créez un nouveau notebook
2. récupérez (ou bien créez) les données nettoyées obtenues lors de la partie Pandas
3. créez un histogramme avec la distribution des prix des appartements
4. créez un histogramme avec la distribution des prix des maisons
5. créez un histogramme avec le prix moyen des appartements par communes
6. créez un histogramme avec le prix moyen des maisons par communes
7. créez un histogramme avec la distribution des prix des appartements par type d'appartement (T1, T2, T3, ...)
8. affichez le prix d'un appartement (en Y) par rapport à sa superficie (en X)
9. affichez le prix d'une maison (en Y) par rapport à sa superficie (en X)
10. affichez le prix d'un appartement (en Y) par rapport à son année de construction (en X)
11. affichez le prix d'une maison (en Y) par rapport à son année de construction (en X)
12. affinez vos choix de colonnes pour la prédiction du prix d'un bien immobilier