# Qui êtes-vous ?
<div class="alert alert-block alert-info">
Écrire ci-dessous le nom, le prénom et le numéro étudiant de chaque membre du binôme :
</div>

# Introduction Jupyter

<div class="alert alert-block alert-warning">
Jupyter est un environnement de travail qui permet qui permet de réaliser des *notebooks*, sorte de calepins qui peuvent contenir à la fois du code (en python mais pas seulement), du texte formatté en <a href="https://fr.wikipedia.org/wiki/Markdown">markdown</a>), des images et des figures pour présenter les résultats. 

Il tourne en général sur un serveur web local qui est lancé avec la commande `jupyter notebook` (ou pour la version plus complète `jupyter lab`). L'interface est accessible à partir de n'importe quel navigateur web en se connectant à l'adresse locale précisée lors du lancement. 

Un notebook est composé de *cellules* qui sont soit du texte (de type Markdown) soit du code. 
Lorsqu'une cellule de texte est exécutée (avec le raccourci *shift-enter* ou avec le symbole en forme de flèche), elle n'est plus modifiable temporairement et est affichée de manière formattée. En double-cliquant dessus, il est possible de revenir en mode édition.
Pour une cellule de code, son exécution provoque l'exécution effective du code contenu et le résultat (si résultat il y a) s'affiche en dessous de la cellule.
</div>

## Attention !
<div class="alert alert-block alert-warning">
Lorsque vous exécutez une cellule de code, uniquement celle-ci est exécutée par défaut (et non pas toutes celles précédentes). Si des modifications sont apportées aux cellules précédentes, elles ne seront prises en compte que si vous les exécutez aussi. Le numéro précédent la cellule de code exécutée permet de savoir dans quel ordre celles-ci ont été exécutée. 

Beaucoup de raccourcis existent afin de simplifier la navigation et la manipulation des notebooks, <a href="https://cheatography.com/weidadeyue/cheat-sheets/jupyter-notebook/">ce cheatsheet</a> en présente les principales. 

Les notebooks sont exportables dans différents formats, en *pdf* par exemple pour faciliter la lecture ou en fichier python pour pouvoir les exécuter en script si besoin. 

Les TMEs de l'UE se serviront exclusivement des notebooks. N'hesitez pas à ajouter des cellules de codes (ou même de texte) pour clarifier votre code et relancer uniquement les bouts de codes dont vous aurez besoin (n'oubliez pas qu'un code dans une cellule est exécutée d'un bloc, il n'est pas possible d'exécutez ligne à ligne, juste bloc par bloc). 
</div>

# TME 1X - Variables qualitatives

## 1 - Chargement de fichier csv (Pandas)


<div class="alert alert-block alert-warning">
    <b>Pandas</b> est une bibliothèque de python spécialisée dans l'analyse de données. Elle permet de charger facilement les données sous forme de tableaux (appelés *DataFrame* ou *frame*), de les manipuler, de tracer des graphiques associés, d'en extraire des caractéristiques ...

Cette section montre quelques manipulations basiques que l'on peut faire sur les tableaux. N'hesitez pas à expérimenter au-delà ce qui est demandé jusqu'à ce que vous compreniez le bon fonctionnement des opérateurs introduits.


<div class="alert alert-block alert-info">
Tout d'abord, exécuter le bloc ci-dessous pour importer la bibliothèque Pandas.
</div>

In [2]:
# Chargement de la bibliothèque pandas
import pandas as pd

<div class="alert alert-block alert-warning">
Nous allons travailler dans ce premier TME sur des données de lieux d'intérêts de Paris (POI, <em>Points of interest</em>) qui ont été scrappés par l'intermédiaire de l'API de google map. Ce jeu de données est à télécharger sur XXXX. Il est en format <code>csv</code>, un format texte tabulaire ou chaque ligne du texte correspond à une ligne du tableau et chaque case du tableau est délimité par un séparateur. Pandas a une fonction dédiée <code>read_csv('nom du fichier')</code> pour charger un fichier <code>csv</code>. Vérifiez bien au préalable d'avoir sauvegardé le fichier dans votre répertoire de travail où figure également ce notebook.  
</div>

<div class="alert alert-block alert-info">
Exécuter le bloc suivant pour charger le tableau à partir du fichier.
 </div>

In [3]:
# Chargement du fichier
tableau_poi = pd.read_csv("poi-paris.csv")

<div class="alert alert-block alert-info">
Exécuter le bloc suivant pour de visualiser le tableau. 
</div>

In [None]:
tableau_poi

<div class="alert alert-block alert-warning">
Le tableau est très grand - comme indiqué à la fin, 31852 lignes pour 17 colonnes : l'affichage est incompréhensible tel quel. Nous allons voir ci-dessous quelques opérations basiques qui permettent d'examiner le contenu de façon intelligible.
</div>

## 2 - Opérations basiques sur les DataFrames (Pandas)

<div class="alert alert-block alert-info">
    La première fonction utile lorsqu'on découvre un tableau est la méthode <code>.info()</code> qui permet d'obtenir les informations du tableau. Exécuter le bloc suivant pour obtenir les informations de <code>tableau_poi</code>.
</div>

In [None]:
tableau_poi.info()

<div class="alert alert-block alert-warning">
Dans notre cas, nous voyons que le tableau contient 31852 lignes, numérotées de 0 à 31851, et 17 colonnes. S'en suit la liste des colonnes : 
<ul>
    <li> <code>'nom'</code> : indique le nom de l'endroit</li>
    <li> <code>'latitude'</code> et <code>'longitude'</code> qui contiennent un réel indiquant la géo-localisation de l'endroit</li>
    <li> <code>'note'</code> qui est la note attribuée par les utilisateurs à l'endroit, également un réel</li>
    <li> <code>'prix'</code> qui indique la cherté de l'endroit - un entier nous indique pandas
puis une suite de colonnes correspondant à des types d'endroits (magasin, café, banque, restaurant, ...).</li>
</ul>
</div>

<div class="alert alert-block alert-info">
    Nous pouvons également accéder  à la liste des colonnes avec la variable <code>.columns</code> du tableau et connaître le nombre de ligne avec la fonction <code>len()</code> de python ou la méthode <code>.count()</code> de pandas qui compte le nombre de lignes non vide pour chaque colonne.
Exécutez les trois blocs suivants :
</div>

In [None]:
tableau_poi.columns

In [None]:
len(tableau_poi)

In [None]:
tableau_poi.count()

<div class="alert alert-block alert-warning">
Ces opérations nous permettent de connaître la structure du tableau mais pas son contenu. 
Il est possible de sélectionner :
<ul>
    <li> les n premières lignes : <code>tableau_poi.head(10)</code> pour les 10 premières lignes </li>
    <li> les n dernières lignes : <code>tableau_poi.tail(10)</code> pour les 10 dernières lignes </li>
    <li> une colonne avec des crochets et le nom de la colonne : <code>tableau_poi['note']</code> </li>
<li> un ensemble de colonnes sous forme de liste des noms de colonne : <code>tableau_poi[['longitude','latitude']]</code> </li>
    <li> une ligne avec la variable <code>.iloc</code> du tableau : <code>tableau_poi.iloc[0]</code> pour la première ligne </li>
    <li> des lignes en utilisant la notation <code>p:q</code> pour préciser les lignes de <code>p</code> à  <code>q</code> (non inclu) : <code>tableau_poi.iloc[0:5]</code> pour les 5 premières lignes </li>
</ul>
    
On peut également spécifier des colonnes avec `.iloc` en précisant les numéros de colonnes voulues (et pas leur nom) : `tableau_poi.iloc[0,1]`, `tableau_poi.iloc[0:5,2:4]`

Il est possible d'indexer par la fin en utilisant la notation `tableau_poi['nom'].iloc[-3]` pour avoir la 3ème igne avant la fin.

Le retour de ces opérations est toujours une **DataFrame**, vous pouvez donc combiner les opérations : 
* pour avoir les 3 premiers noms : `tableau_poi['nom'].iloc[0:3]` ou `tableau_poi.iloc[0:3]['nom']`

Il est toutefois préférable de passer par la variable `.loc` du tableau dans ce cas : celle-ci permet de préciser une ligne ou un ensembe de lignes par l'index des lignes et un certain nombre de colonnes par leur nom : `tableau_poi.loc[0,'nom']`, `tableau_poi.loc[[1,2,3],['nom','note']]`.

L'index est affiché sur le côté gauche du tableau. **Attention** dans notre cas le numéro d'index est le même que le numéro de la ligne, ce n'est pas toujours le cas. Un index peut être également sous la forme d'une chaîne de caractères.

Pour résumer, `.iloc` permet d'accéder au contenu du tableau à partir des numéros de lignes ou de colonnes, `.loc` à  partir des labels des lignes (les index) et des colonnes.
</div>

<div class="alert alert-block alert-info">
Exécuter le bloc suivant pour visualiser les 10 premières lignes.
</div>

In [None]:
tableau_poi.head(10)

<div class="alert alert-block alert-info">
Exécuter le bloc suivant pour visualiser les 10 dernières lignes.
</div>

In [None]:
tableau_poi.tail(10)

<div class="alert alert-block alert-info">
    Exécuter le bloc suivant pour visualiser la colonne des <code>'nom'</code>s.
</div>

In [None]:
tableau_poi['nom']

<div class="alert alert-block alert-info">
    Exécuter le bloc suivant pour visualiser le sous-tableau constitué uniquement des colonnes <code>'longitude'</code> et <code>latitude</code>.
</div>

In [None]:
tableau_poi[['longitude','latitude']]

<div class="alert alert-block alert-info">
    Exécuter le bloc suivant pour visualiser la première ligne du tableau.
</div>

In [None]:
tableau_poi.iloc[0]

<div class="alert alert-block alert-info">
    Exécuter le bloc suivant pour visualiser les 4 premières lignes du tableau.
</div>

In [None]:
tableau_poi.iloc[0:4]

<div class="alert alert-block alert-info">
    Exécuter le bloc suivant pour visualiser le <code>'nom'</code> de l'individu situé à la troisième ligne en partant du bas.
</div>

In [None]:
tableau_poi['nom'].iloc[-3]

<div class="alert alert-block alert-info">
    Exécuter le bloc suivant pour vérifier qu'on obtient la même chose en sélectionnant la ligne en premier, puis la colonne.
</div>

In [None]:
tableau_poi.iloc[-3]['nom']

<div class="alert alert-block alert-warning">
Pour plus de facilité, on peut sauvegarder les noms d'une partie des colonnes dans une liste afin de manipuler qu'une partie du tableau.
</div>

<div class="alert alert-block alert-info">
    Exécuter le bloc suivant pour sauvegarder dans une variable <code>types</code> les dernières colonnes qui correspondent uniquement aux types de lieux.
</div>

In [17]:
types = tableau_poi.columns[5:]

<div class="alert alert-block alert-info">
    Exécuter le bloc suivant pour visualiser le contenu de la variable <code>types</code>.
</div>

In [None]:
types

<div class="alert alert-block alert-info">
    Exécuter le bloc suivant pour visualiser le sous-tableau constitué uniquement des colonnes dont les intitulés sont dans <code>types</code>.
</div>

In [None]:
tableau_poi[types]

## 3 - Inspection et manipulation élémentaire du contenu (NumPy)

<div class="alert alert-block alert-warning">
Beaucoup d'opérations sont disponibles pour manipuler le contenu d'un tableau et/ou d'une colonne. Nous allons voir dans la suite uniquement les plus importantes.
    
Même si elles peuvent directement être appelées sous forme de méthodes en Pandas, nous allons plutôt utiliser les fonctions de la bibliothèse Numpy pour réaliser ces opérations.

On peut tout d'abord obtenir un certain nombre d'informations sur le contenu : 
* les fonctions `np.max()` et `np.min()`  sur un tableau permettent de connaître la valeur minimale et maximale
* la fonction `np.unique()` sur une colonne permet de renvoyer la liste des valeurs uniques d'une colonne

On peut également manipuler le contenu : 
* la fonction  `np.abs()` sur une colonne permet de retourner les valeur absolues du contenu
* la fonction `np.round()` sur une colonne permet d'arrondir le  contenu
* la fonction `np.sum()` permet de retourner la somme de tous les éléments
</div>

<div class="alert alert-block alert-info">
    Exécuter le bloc suivant pour importer la bibliotèque Numpy.
</div>

In [20]:
import numpy as np

<div class="alert alert-block alert-info">
    Exécuter le bloc suivant pour voir le minimum de la colonne <code>'atm'</code>.
</div>

In [None]:
np.min(tableau_poi['atm'])

<div class="alert alert-block alert-info">
    Exécuter le bloc suivant pour voir le maximum de la colonne <code>'atm'</code>.
</div>

In [None]:
np.max(tableau_poi['atm'])

<div class="alert alert-block alert-info">
    Exécuter le bloc suivant pour voir toutes les valeurs différentes de la colonne <code>'atm'</code>.
</div>

In [None]:
np.unique(tableau_poi['atm'])

<div class="alert alert-block alert-info">
    Exécuter le bloc suivant pour voir toutes les valeurs uniques des <code>'longitude'</code>s arrondies.
</div>

In [None]:
# On arrondit les longitudes puis on garde les valeurs uniques
np.unique(np.round(tableau_poi['longitude']))

<div class="alert alert-block alert-info">
    Exécuter le bloc suivant pour voir la somme totale des valeurs de la colonne <code>'atm'</code>. Qu'indique le résultat ?
</div>

In [None]:
np.sum(tableau_poi['atm'])

## 4 - Sélection de lignes (Pandas)

<div class="alert alert-block alert-warning">
Un des grands avantages de Pandas est sa capacité à sélectionner une sous-partie des données de manière très efficace et simple. Il suffit de préciser les conditions voulues sur les colonnes avec les opérateurs : <code><, >, <=, >=, ==, !=</code> : 
<ul>
<li> <code>tableau_poi[tableau_poi['note'] > 1]</code> pour sélectionner les lieux avec une note supérieure à 1</li>
<li> <code>tableau_poi[tableau_poi['note'] <= 3]</code> pour sélectionner les lieux avec une note inférieure ou égale à 3</li>
<li> <code>tableau_poi[tableau_poi['note'] == 2]</code> pour sélectionner les lieux avec une note égale à 2</li>
<li> <code>tableau_poi[tableau_poi['note'] != 2]</code> pour sélectionner les lieux avec une note différente de 2</li>
</ul>
    
Les conditions peuvent être combinées avec  :
* le *et* logique `&` :  `tableau_poi[(tableau_poi['note']=>1) & (tableau_poi['note']<=3)]` pour les lieux avec une note entre 1 et 3
* le *ou* logique `|` :   `tableau_poi[(tableau_poi['note']==1) | (tableau_poi['note']==3)]` pour les lieux avec une note de 1 ou de 3
* la *négation* logique `~` : `tableau_poi[~((tableau_poi['note']==1) | (tableau_poi['note']==3))]` pour les lieux de note ni de 1 ou de 3

Le résultat peut être bien sûr stocké dans une autre variable pour des manipulations ultérieures.
                                                                                           </div>

## 5 - Exercices : introspection des données


<div class="alert alert-block alert-warning">
    Comme dit en introduction, les données chargées représentent des points d'intérêts dans Paris avec les informations du nom, des coordonnées spatiales, d'une note du lieu, d'un indice du prix et du type de lieu. Ces premières questions ont pour but de comprendre le codage de chaque colonne.
</div>

<div class = "alert alert-block alert-info">
    Q5.1 - Écrire une instruction qui permet de voir les entêtes de colonnes. 
 </div>

In [None]:
tableau_poi.columns

<div class = "alert alert-block alert-info">
    Q5.2 - À l'aide de la fonction <code>np.unique()</code>, étudier chacune des colonnes suivantes en comptant le nombre de valeurs uniques. Commenter pour dire s'il s'agit d'une variable qualitative ou quantitative. 
 </div>

<div class = "alert alert-block alert-info">
    Q5.2.a - <code>'latitude'</code>. 
 </div>

In [None]:
np.unique(tableau_poi['latitude']) # quantitative

<div class = "alert alert-block alert-info">
    Q5.2.b - <code>'note'</code>. 
 </div>

In [None]:
np.unique(tableau_poi['note']) # quantitative

<div class = "alert alert-block alert-info">
    Q5.2.c - <code>'prix'</code>. 
 </div>

In [None]:
np.unique(tableau_poi['prix']) # qualitative

<div class = "alert alert-block alert-info">
    Q5.2.d - <code>'bakery'</code>. 
 </div>

In [None]:
 np.unique(tableau_poi['bakery']) # qualitative

<div class = "alert alert-block alert-info">
    Q5.2.e - <code>'restaurant'</code>. 
 </div>

In [None]:
np.unique(tableau_poi['restaurant']) # qualitative

<div class = "alert alert-block alert-info">
    Q5.3.a - Quelles est la longitude minimale ?
</div>

In [None]:
np.min(tableau_poi['longitude'])

<div class = "alert alert-block alert-info">
    Q5.3.b - Quelles est la longitude maximale ?
</div>

In [None]:
np.max(tableau_poi['longitude'])

<div class = "alert alert-block alert-info">
    Q5.3.c - Quelles est la latitude minimale ?
</div>

In [None]:
np.min(tableau_poi['latitude'])

<div class = "alert alert-block alert-info">
    Q5.3.d - Quelles est la latitude maximale ?
</div>

In [None]:
np.max(tableau_poi['latitude'])

<div class = "alert alert-block alert-info">
Q5.4 - Quelles sont les différentes modalités possibles pour les variables indiquant le type du lieu ?  Écrire en commentaire ce qu'indiquent, à votre avis, ces valeurs.
</div>

In [None]:
np.unique(tableau_poi['restaurant'])

les valeurs possibles pour un type de lieu sont 0 et 1.
la modalité 1 signifie que le lieu appartient au type de la colonne correspondante sinon 0

<div class = "alert alert-block alert-info">
Q5.5 - Sur quelle échelle est indiquée le prix ? Que signifie une valeur de -1 à votre avis ?  
</div>

In [None]:
[np.min(tableau_poi['prix']), np.max(tableau_poi['prix'])]

<div class = "alert alert-block alert-info">
    Q5.6.a - Sélectionner uniquement les lignes où le prix est supérieur à 0 et sauvez le dans une variable <code>tableau_prix</code>.
</div>

In [None]:
tableau_prix = tableau_poi[tableau_poi['prix'] >= 0]
tableau_prix

<div class = "alert alert-block alert-info">
    Q5.6.b - Combien de lieux correspondent à cette contrainte ? 
</div>

In [None]:
len(tableau_prix) # Il y a 723 lieux correspondants à cette contrainte

<div class = "alert alert-block alert-info">
    Q5.7 - À l'aide de la fonction <code>np.sum()</code> par exemple, calculer en une ligne le nombre de lieux avec un prix supérieur à 0 pour chaque type de lieu (ne pas oublier d'utiliser la variable `types` définie ci-dessus).
</div>

In [None]:
np.sum(tableau_prix[types])

<div class = "alert alert-block alert-info">
Q5.7 - Combien y'a-t-il : 
</div>

<div class = "alert alert-block alert-info">
Q5.7.a - de restaurants ? 
</div>

In [None]:
np.sum(tableau_poi['restaurant']) 

<div class = "alert alert-block alert-info">
Q5.7.b - de bars ? 
</div>

In [None]:
np.sum(tableau_poi['bar'])

<div class = "alert alert-block alert-info">
Q5.7.c - de restaurants qui sont également des bars ? 
</div>

In [None]:
np.sum(tableau_poi[tableau_poi['restaurant'] == 1]['bar'])

<div class = "alert alert-block alert-info">
Q5.7.d - de bars qui ne sont pas des restaurants ? 
</div>

In [None]:
np.sum(tableau_poi[tableau_poi['restaurant'] == 0]['bar'])

## 6 - Visualisation de données

<div class="alert alert-block alert-warning">
Pandas dispose de quelques fonctions d'affichage graphique mais il est plus générique et plus flexible de passer par une bibliothèque externe. Nous utiliserons dans la suite <code>matplotlib.pyplot</code> qui est la bibliothèque de base pour l'affichage graphique en python (la plupart des autres bibliothèques se fondent dessus avec une syntaxe très similaire).
</div>
<div class = "alert alert-block alert-info">
    Exécuter le bloc ci-dessous pour importer la bibliothèque <code>matplotlib</code>.
</div>

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt

<div class="alert alert-block alert-warning">
Un premier type d'affichage  pour la visualisation de données est l'affichage par des barres représentant le nombre d'éléments par catégories. Par exemple, pour afficher le nombre de lieux des 5 premiers types : <code>plt.bar([1,2,3,4,5], np.sum(tableau_poi[types[:5]]), tick_label = types[:5])</code>

Le premier argument indique les abscisses des barres à tracer, le deuxieme la valeur pour chaque barre, et l'argument <code>tick_label</code> permet de préciser le texte en dessous de chaque barre.
</div>
<div class = "alert alert-block alert-info">
    Exécuter le bloc ci-dessous pour générer le graphique.
</div>

In [None]:
_ = plt.bar([1,2,3,4,5], np.sum(tableau_poi[types[:5]]), tick_label = types[:5])

<div class="alert alert-block alert-warning">
On peut également faire un diagramme en camembert : <code>plt.pie(np.sum(tableau_poi[types[:5]]), labels = types[:5])</code> (ici le texte est passé par l'argument `labels`)
</div>
<div class = "alert alert-block alert-info">
    Exécuter le bloc ci-dessous pour générer le graphique.
</div>

In [None]:
_ = plt.pie(np.sum(tableau_poi[types[:5]]), labels = types[:5])

<div class="alert alert-block alert-warning">
    On peut également tracer des points sur un plan 2d grâce à <code>plt.scatter</code>.
</div>
<div class = "alert alert-block alert-info">
    Exécuter le bloc ci-dessous pour générer le graphique.
</div>

In [None]:
# s permet de définir la taille des points, color leur couleur
_ = plt.scatter(tableau_poi['longitude'], tableau_poi['latitude'], s=.1, color="yellow")

## 7 - Exercices : visualisation de données

<div class = "alert alert-block alert-info">
Q7.1 - Observer sous forme de barres la répartition des prix pour les restaurants (seulement pour ceux qui ont un prix supérieur à 0).
</div>

In [None]:
#_ = plt.bar([1,2,3,4],tableau_prix[tableau_prix['restaurant']==1]['prix'], tick_label = 'restaurant')

<div class = "alert alert-block alert-info">
Q7.2 - Observer sous forme de camembert la répartition des prix pour les bars (seulement pour ceux qui ont un prix supérieur à 0).
</div>

<div class = "alert alert-block alert-info">
Q7.3 : Observer la répartition spatiale en fonction du prix pour les restaurants.
</div>

<div class="alert alert-block alert-warning">
Remarque : il est possible de faire des diagrammes beaucoup plus compliqués avec un peu d'algorithmique (ce qui ne vous est pas demandé).
</div>
<div class = "alert alert-block alert-info">
Par exemple : exécuter le bloc suivant.
</div>

In [None]:
prix = [1,2,3,4]
for p in prix:
    plt.bar([i + (p - 1) / (len(prix) + 1)  for i, t in enumerate(types)],
            [np.sum(tableau_prix[tableau_prix['prix'] == p][t])
             for i, t in enumerate(types)], width = 1 / (len(prix) + 1))
_ = plt.xticks(range(len(types)), types, rotation = 'vertical')