L'objectif du TP est d'implémenter les mesures vues en cours: moyenne, médiane, quartiles, corrélations. Le dataset concerné est un jeu de donnée qui contient le prix des 3 qualités de médicaments dans différents états d'amériques. La référence du dataset est disponible ici : https://github.com/amitkaps/weed/blob/master/1-Acquire.ipynb

In [1]:
import numpy as np
import pandas as pd
from datetime import datetime as dt
import matplotlib.pyplot as plt
%matplotlib inline  

Les données sont composées de trois fichiers:
* Le prix par date et par état (pour trois qualités différentes)
* Des informations démographiques sur chaque état
* La population de chaque état


In [2]:
prices_pd = pd.read_csv("data/Weed_Price.csv", parse_dates=[-1])
demography_pd = pd.read_csv("data/Demographics_State.csv")
population_pd = pd.read_csv("data/Population_State.csv")

## Exercice: 
* Commencez par visualiser la structure des données chargées (méthode ''head()'' et ''tail()'')

Les types des données peuvent être récupérer à travers la méthode ''dtypes''

In [None]:
prices_pd.dtypes

Nous allons maintenant écrire les fonctions permettant de calculer des mesures ''basiques'' sur des données unidimensionnelles. Pour cela, nous allons travailler avec la structure ''array'' de numpy. Pour convertir une colonne ''pandas'' en ''array'', voici commment faire:

In [None]:
prices_pd["MedQ"].values

## La moyenne

### Exercice: 
Ecrire la fonction moyenne(valeurs) qui calcule la moyenne des éléments d'un tableau (en utilisant la boucle ''for'', sans utiliser les fonctions déjà implémentées dans numpy)

Tester la fonction moyenne et comparer vos résultats avec l'implémentation de base de python

In [None]:
print("La moyenne (qualité moyenne) est : %f dollars" % prices_pd["MedQ"].mean())

### Exercice:
Calculez:
* La moyenne des prix pour les qualités medium et high
* La moyenne des prix pour les qualités medium et high dans l'état de ''New York''

Les calculs seront fait d'une part à l'aide de votre fonction, et d'autre part à l'aide des fonctions de python. 

### Exercice
Calculez la moyenne des prix qualités medium et high dans tous les états -- la liste des états est obtenues ainsi states=np.unique(prices_pd["State"].values)

Pour cela, vous pouvez (devez) le faire de deux manières:
* Faites une boucle sur chacun des états
* Utilisez la fonction groupby comme expliqué ici : http://pandas.pydata.org/pandas-docs/stable/groupby.html

### Exercice
Calculez la moyenne (avec les deux fonctions) sur le prix de la basse qualité. Que constatez vous ? Expliquez...

### Exercice: 
Remplacez le NAN de la colonne LowQ à l'aide de la fonction décrite ici: http://pandas.pydata.org/pandas-docs/version/0.17.1/generated/pandas.DataFrame.fillna.html. Nous souhaitons plus particulièrement utiliser la méthode ''fill'' après avoir trié par état et par date : prices_pd.sort(columns=['State', 'date'], inplace=True). Expliquez ce que cela fait exactement

### Exercice: 
Recalculez la moyenne des prix pour la qualité 'Low'. Qu'en est-il maintenant ? 

### Exercice :
Dessinez l'histogramme des moyennes des prix (LowQ) par etat. Pour cela, inspirez vous de http://matplotlib.org/examples/lines_bars_and_markers/barh_demo.html

## Estimation de densité

Nous allons maintenant nous intéresser à calculer le nombre d'états concernés par une fourchette de prix. Pour cela:
* Calculer le tableau des prix moyens de la facon suivante
    


In [None]:
prix_moyens=prices_pd[["State","LowQ"]].groupby(["State"]).mean()
#print(prix_moyens)
#print("===========")
prix_moyens=prix_moyens.values.ravel()
#print(prix_moyens)

### Exercice : 
* Calculez les valeurs min et max des prix moyens

### Exercice : 
Prenez un intervalle de discrétisation de taille 20, et calculez l'effectif (sous forme d'un vecteur) du nombre d'états par ''bins''. Dessinez l'histogramme correspondant

### Exercice :
Prenez maintenant un intervalle de taille 40

On peut faire cela de la manière suivante avec pandas

In [None]:
effectif=pd.cut(prix_moyens,20)
effectif2=pd.value_counts(effectif)
effectif3=effectif2.reindex(effectif.levels)
effectif3.plot(kind='bar')

Et comme cela avec numpy

In [None]:
plt.hist(prix_moyens,bins=20)

L'estimation de densité en pandas peut se faire ainsi

In [3]:
effectif=pd.DataFrame(prix_moyens)
effectif.plot(kind='kde')

NameError: name 'prix_moyens' is not defined

## Densité cumulée

### Exercice: 
Calculez la densité cumulée à partir de prix_moyens, avec un intervalle de discrétisation donné et dessinez. La méthode doit retourner deux tableau: l'abscisse X (les prix moyens possibles entre prix min et prix max), et la densité associée

### Exercice : 
Ecrire la fonction Q(alpha,x,y) qui permet de trouver le quartile(alpha,x,y) - quartile(0.5,x,densite) correspondra à la médiane. Calculez et dessinez (sur une feuille) le boxplot

Le boxplot en pandas se fait ainsi:

In [None]:
a=pd.DataFrame(prix_moyens)
a.boxplot()

## Variance

### Exercice : 
On souhaite maintenant rajouter une colonne ''HighQ_var'' aux données originales contenant la variance des prix par état. ATTENTION, cela suppose de traiter les états (State) les uns après les autres

## Synthèse : La californie

### Exercice : 
Pandas permet de faire la synthèse de données de la manière suivante: 
data.describe()
* Vérifier que les valeurs trouvée sur l'état de la californie collent avec les valeurs trouvées par vos différentes méthodes. 
** Pour cela: mettez le code qui utilise vos fonctions (moyennes, variance, et quartiles) ainsi que le résutlats de la fonction describe

## Matrice de corrélation

### Exercice: 

Nous allons maintenant nous intéresser à calculer la corrélation entre les prix à new-york et les prix en californie
* Commencez par dessinez le nuage des points des prix(par date) en californie (axe x) et à new york (axe y) pour la bonne qualité. Pour cela on va d'abord créer un DataFrame avec le prix de californie et de new york par date

In [None]:
prix_ny=prices_pd[prices_pd['State']=='New York']
prix_ca=prices_pd[prices_pd['State']=='California']
prix_ca_ny=prix_ca.merge(prix_ny,on='date')
prix_ca_ny.head()


### Exercice

Dessinez le nuage de points : voir http://matplotlib.org/examples/shapes_and_collections/scatter_demo.html

### Exercice

A l'aide de la fonction moyenne écrite précédemment, écrire une fonction correlation(x,y) qui calcule la correlation lineaire entre deux tableaux numpy

In [None]:
print("La correlation est :%f"%correlation(prix_ca_ny["HighQ_x"].values,prix_ca_ny["HighQ_y"].values))

### Exercice: 

Calculez la matrice des correlations pour toutes les combinaisons d'états

## Exercice: 
* Calculez les correlations entre le prix (low et high) en fonction du revenu moyen par etat disponible dans le tableau demography_pd chargé au début
* que pouvez vous en conclure

## Travail pour la fin de TP + Maison
Travail de rendu (à faire avant le prochain TP):
* Vous avez implémenté et vu comment calculer tout un ensemble d'indicateurs statistiques assez simples. 
* Vous avez vu comment produire de jolis graphiques

## Travail à faire : proposez une analyse originale a l'aide des données disponibles ici : http://opendata.paris.fr et des indicateurs/graphiques vus en cours et aujourd'hui
* Voir  http://matplotlib.org/gallery.html pour les visualisations

#### Exemple : 
* (Récupération de données: ) Téléchargez les données ici : http://opendata.paris.fr/explore/dataset/liste_des_prenoms_2004_a_2012/?disjunctive.prenoms&disjunctive.annee
* Calculez l'histogramme et la densité des différents prénoms 
* Proposez une visualisation des 10 prénoms les plus donnés chaque année
* Calculer les corrélations entre prénoms pour dégager les listes de prénoms corrélés et anti-corrélés dans le temps. Illuster les plus fortes corrélations par des nuages de points
* ==> Proposez un nuage de mots à partir des données extraites (outil possible: https://www.jasondavies.com/wordcloud/ ou  https://github.com/mbostock/d3/wiki/Gallery)



    