# TP sur les données blablacar

**Ce fichier est le fichier de travail**, l'autre fichier blablacar.ipynb est donné pour information et pour montrer comment les données ont été collectées. L'API blablacar permet de récupérer l'offre de transport sur la plateforme à partir de requêtes.


Vous aurez besoin des fichiers correspondant à des récupérations de données aux mois de septembre et novembre:
les fichiers ```blablacar_pp_sept.pkl``` et ```blablacar_pp_nov.pkl``` sont disponibles dans le répertoire ```data```.


Ces fichiers correspondent à des requêtes à partir des villes suivantes:
>  villes = ['Paris', 'Marseille', 'Grenoble', 'Lille', 'Strasbourg', 'Nantes', 'Bordeaux']
 

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import pickle as pkl

In [None]:
# mise à jour des librairies pour qu'on travaille tous dans le même environnement
# (en commentaire pour ne pas le faire chaque fois)
#! pip install numpy --upgrade
#! pip install matplotlib --upgrade
#! pip install pandas --upgrade

## Chargement des données

Les données numpy sont stockées au format pickle (code fourni ci-dessous):

1. Importer le module : import `pickle as pkl`
1. Charger les données avec `load`
1. La structure est un dictionnaire, les données sont dans le champ `data`
1. La description des colonnes est dans `indexcol`

Les lignes suivantes permettent de décomposer la structure de données pour accéder à toutes les informations utiles.

In [None]:
# chargement des données numpy
fich = pkl.load( open('data/blablacar_pp_sept.pkl', 'rb'))
# ou fich = pkl.load( open('ressources/blablacar_pp_sept.pkl', 'rb'))

# {'indexcol': cols , 'data':pp2db, 'villes': villes, 'marques':marques }
titles_col = fich['indexcol'] # titre des colonnes
print(len(titles_col), titles_col) 
data = fich['data'] # matrice de données
print(data.shape)
dico_villes = fich['villes'] # dictionnaire des villes
inv_dico_villes = dict(zip(dico_villes.values(), dico_villes.keys()))
dico_marques = fich['marques'] # dictionnaires des marques
inv_dico_marques = dict(zip(dico_marques.values(), dico_marques.keys()))
print(dico_marques)
print(inv_dico_marques)

## Passage au format pandas

Le code de transformation des données au format pandas est fourni. Ainsi, dans la suite de cet énoncé, vous aurez sous la main les deux formats `numpy` et `pandas`

In [None]:
df = pd.DataFrame(data)
df.columns = titles_col
print(df)

In [None]:
nums = list(inv_dico_marques.keys())
nums.sort() # remise dans l'ordre

[inv_dico_marques[i] for i in nums]

## Q1: Mise en forme pandas
[question indépendante de la suite]

Les colonnes ville (arrivée & départ) et marque correspondent à des indices. Nous voulons ajouter 3 colonnes dans la structure de données `pandas` avec le nom des villes et le nom des marques. Ces données sont disponibles dans les dictionnaires (`inv_dico_marques` et `inv_dico_villes`) python chargés au début du fichier.

Les 3 colonnes seront nommées:
* dep_ville_nom
* arr_ville_nom
* marque_nom

***Aide:*** Attention à bien convertir les clés en entier, les réels ne sont pas tolérés.
Pour récupérer la marque de la voiture correspondant au premier trajet:
```python
print(inv_dico_marques[int(df['marque'][0])])
```

In [None]:
print(inv_dico_marques[int(df['marque'][0])])

# réponse


## Q2 : Discrétisation et histogramme

Nous nous intéressons à la variable `distance` (dernière colonne de la structure `numpy`). Nous allons procéder de la manière suivante:
1. Analyse rapide de la variable aléatoire: calcul de la moyenne et de l'écart-type
1. Analyse plus fine (1): affichage des 10 déciles de la variable
1. Analyse plus fine (2): discrétisation de la variable en 10 intervalles de largeur constante & comptage des effectifs dans chaque catégorie (= construction d'un histogramme)
1. Discuter le nombre d'intervalles pour l'histogramme et trouver une valeur satisfaisante

In [None]:
# Analyse rapide : moyenne, écart-type, calcul des quantiles pour faire la synthèse de cette variable aléatoire


In [None]:
# Discrétisation des distances & histogramme


## Q3 : enrichissement et histogramme 

Ajouter une variable `prix_km` dans votre structure de données (`numpy` ou `pandas`)

Tracer l'histogramme des prix au km

In [None]:
# réponse
# construction des prix au km


# histogramme des prix au km


## Q4: Distributions jointes

Nous voulons maintenant étudier la distribution jointe entre les prix au km et la marque de la voiture. Partir des distributions discétisées et construire le tableau d'effectif puis normaliser par les effectifs de l'échantillon pour estimer la loi jointe.

1. Il semble que quelques points abbérants faussent notre histogramme. Nous proposons (arbitrairement) de seuiller toutes les valeurs au dessus du 99ème percentiles à la valeur du 99ème percentile. Vous pouvez tracer à nouveau l'histogramme pour voir la différence.
**Note:** il s'agit d'une normalisation très classique en analyse de données. On peut seuiller ou éliminer les données qui semblent abérrantes.

1. Discrétiser les prix au km en 30 catégories.
1. Compter les effectifs pour chaque marque et chaque catégorie de prix. Normaliser ensuite par l'effectif pour obtenir un tableau homogène à une loi jointe (ie sommant à 1).<BR>
**Note:** il peut être plus facile de travailler sur la colonne marque (indice) plutôt que sur les chaines de caractères.    
**Note 2/rappel:** les indices dans une matrice doivent toujours être entiers. `int(...)` 
Si vos données sont réelles, il faut donc faire: `mat[int(data[...])]` pour accéder à la case de la matrice

1. Afficher ensuite la distribution jointe
**Rappel:** 
pour ajouter une description sur l'axe des x:
```python
fig, ax = plt.subplots(1,1)
plt.imshow(p_PM, interpolation='nearest')
ax.set_xticks(np.arange(len(dico_marques)))
ax.set_xticklabels(dico_marques.keys(),rotation=90,fontsize=8)
plt.show()
```
- Si l'image est trop petite pour voir quelque chose: solution = sauvegarde en pdf (ie vectorielle) + ouverture avec un logiciel de lecture pdf
```python
plt.savefig('mafigure.pdf')
```

1. [OPTION] la variable `marque` est bruitée. Vous pourrez vous amuser à éliminer ou fusionner certaines catégories


In [None]:
# réponse
Np=30

# elimination des valeurs aberrantes


# tracé du nouvel histogramme


In [None]:
# réponse

# ajout de la catégorie de prix


In [None]:
# réponse
# Np =30 déjà défini
Nm = len(dico_marques) # => ne pas mettre ces chiffres en dur ci-dessous => illisble

# calcul des probabilites jointes (Prix, Marque)

p_PM = np.zeros((Np,Nm))


## Q5 : Distributions conditionnelles

Il est diffile d'analyser la probabilité jointe... Nous allons donc passer à la loi conditionnelle: nous voulons donc calculer la probabilité du prix au km conditionnellement à la marque de la voiture.

1. Calculer `p_P_M`
1. Proposer un critère rapide pour vérifier que votre distribution conditionnelle respecte bien les propriétés de base
1. Dans le cas où les données de marques n'ont pas été nettoyées, cette distribution conditionnelle fait apparaitre des pics très marqués: à quoi correspondent ces pics? Pouvons-nous tirer parti de ces informations?

In [None]:
# loi conditionnelle distance | marque

# calcul de la marginale sur les marques

# calcul de la loi conditionnelle

# critère rapide pour vérifier que la loi conditionnelle est bien formattée:

# affichage de la loi conditionnelle


### Réponse (à quoi correspondent ces pics)

votre réponse

## Q6: Tracé de l'ensemble de l'échantillon avec des codes couleurs

Nous proposons ensuite de tracer toutes les trajectoires des voitures blablacar. Pour cela, il faut utiliser la commande `plt.plot`.
Vous devez visualiser des trajectoires en étoiles à partir des 7 villes requêtes: `['Paris', 'Marseille', 'Grenoble', 'Lille', 'Strasbourg', 'Nantes', 'Bordeaux']`.

1. [NE PAS FAIRE] Dans un premier temps, il est possible de donner toutes les coordoonées de toutes les trajectoires... Attention à l'ordre des arguments dans le plot:
```plt.plot(tous_les_x, tous_les_y)```
Afin de tracer des trajectoires, il faut envoyer les x et les y 2 par 2 dans une boucle `for` <BR>
C'est très long et pas très joli...

1. Pour éviter les boucles, il existe une méthode `quiver` dédiée au tracé de champs de vecteurs: ça ira beaucoup plus vite qu'avec plot. Il faut juste bien comprendre les mécanismes d'échelles. Pour utiliser l'échelle 1, la commande est la suivante:
```python
plt.quiver(x_dep, y_dep, delta_x, delta_y,\
            angles='xy', scale_units='xy', scale=1)
```
Rappel: les noms les colonnes utiles sont: `dep_coord_x, dep_coord_y, arr_coord_x, arr_coord_y` <BR>
Cette approche est rapide à coder (une ligne) et rapide à exécuter (1 seconde)... Mais le résultat n'est pas très beau.

1. Isoler les trajets proposés à partir de chacune des villes sachant que leurs coordonnées sont:
```python
coord = np.array([[45.18721767,  5.72345183],
 [47.22572172, -1.56558993],
 [50.63010695,  3.07071992],
 [48.5782548,   7.74078742],
 [44.83848889, -0.58156509],
 [43.2991509,   5.38925024],
 [48.8477201,   2.34607889]])
```
Chaque trajectoire (point de départ) sera rattachée à la ville la plus proche.
Une fois la distance calculée pour chaque origine de trajectoire, vous pourrez avoir besoin de `argmin`
1. Tracer les trajets d'une couleur spéciale en fonction des origines. 



In [None]:
# tracé de l'ensemble des trajectoires => moche et lent

plt.figure()
for t in data:
    plt.plot(t[[6,8]], t[[7,9]]) # dans les données au format numpy
    
plt.show()

# note le code couleur est arbitraire: matplot lib change de couleur à chaque passage dans la boucle


In [None]:
# avec quiver


In [None]:
# avec quiver et des couleur

# 1 recherche de la ville la plus proche du point de départ
coord = np.array([[45.18721767,  5.72345183],
 [47.22572172, -1.56558993],
 [50.63010695,  3.07071992],
 [48.5782548,   7.74078742],
 [44.83848889, -0.58156509],
 [43.2991509,   5.38925024],
 [48.8477201,   2.34607889]])

dep = np.vstack((df['dep_coord_x'], df['dep_coord_y'])).T
print(dep[0]) # coordonnée de la première ville

# calcul des distances => A vous de jouer
dist = 

print(dist[0]) # distance du premier point aux 7 villes de référence

# trouver la ville la plus proche (argmin)
ind_ville = 

print(np.unique(ind_ville)) # vérifier que toutes les villes sont au moins sélectionnées une fois

# affichage
couleurs = ['r', 'g', 'b', 'y', 'm', 'k', 'c']

plt.figure()
for ind in range(len(coord)): # pour chaque ville
    index  = ... # recherche des indices dans le tableau correspondant à la ville ind
    
    plt.quiver(df['dep_coord_x'].values[index], df['dep_coord_y'].values[index],\
           (df['arr_coord_x']-df['dep_coord_x']).values[index], (df['arr_coord_y']-df['dep_coord_y']).values[index],\
         angles='xy', scale_units='xy', scale=1, color = couleurs[ind])

## Q7: Etude de la corrélation entre variables

On propose d'étudier la corrélation entre la distance du trajet et le nombre d'étoiles de confort. Attention, les étoiles ne sont pas toujours renseignées (-1 = inconnu). On fera aussi ces opérations entre la distance et le prix.

1. Tracer dans le plan les coordonnées (distance,etoile) pour les points concernés (ie en éliminant les points sans information sur les étoiles)

Vous utiliserez la commande `scatter` pour réaliser l'opération
1. Calculer le coefficient de corrélation entre les deux variables aléatoires

1. refaire les mêmes opérations pour le deuxième couple de variables aléatoires


In [None]:
# test de corrélation entre la distance et le confort de la voiture

# coef



# test de corrélation entre la distance et le prix

# coef



## Q8 : partie optionnelle

Comparer les données de septembre et de novembre. Chercher les points communs et les différences.