# Tutoriel sur la librairie Pandas

La librairie est largement entremêlée et donc compatible avec ```numpy```, mais elle permet de nommer les colonnes et introduit de nombreuses syntaxes inspirées des bases de données.

Il existe souvent deux manières de résoudre des problèmes : 
1. passer par ```numpy``` et utiliser du ```np.where``` et des opératrions matricielles
1. passer par ```pandas``` et faire des ```groupby```


In [1]:
import numpy as np
import pandas as pd
from datetime import datetime as dt
import matplotlib.pyplot as plt


## Programmation et expérimentation ##

Le jeu de données (ou *dataset*) qui sera utilisé dans cette séance pour valider vos fonctions correspond à des données concernant des prix dans différents états d'Amérique du Nord. 


La référence de ce dataset est disponible ici : <https://github.com/amitkaps/weed/blob/master/1-Acquire.ipynb>

Ces données sont déjà fournies dans le repertoire de travail de ce tp.

Elles se composent de trois fichiers:
* <tt>"ressources/Weed_Price.csv"</tt>: prix par date et par état (pour trois qualités différentes)
* <tt>"ressources/Demographics_State.csv"</tt>: informations démographiques sur chaque état
* <tt>"ressources/Population_State.csv"</tt>: population de chaque état


In [3]:
# Chargement des fichiers de données (fonction equivalente de np.loadtxt):

prices_pd = pd.read_csv("ressources/Weed_Price.csv", parse_dates=[-1])
demography_pd = pd.read_csv("ressources/Demographics_State.csv")
population_pd = pd.read_csv("ressources/Population_State.csv")

**Des dataframes**

Les dataframes Pandas permettent de stocker ensemble des données dont les valeurs peuvent être différentes. Cela peut s'apparenter à une feuille Excel : chaque ligne correspond à une même donnée (un "exemple") et contient dans chaque colonne des valeurs qui peuvent être de différents types.

Examiner le type des trois variables qui viennent d'être définies. Pour cela, utiliser la fonction <tt>type</tt> de Python: par exemple <tt>type(prices_pd)</tt>.

In [4]:
# type de prices_pd:
type(prices_pd)


pandas.core.frame.DataFrame

**Important**: chaque fois que vous utilisez une commande, regardez le type du résultat obtenu (liste, DataFrame, Series, array,...) cela vous permettra de savoir ce que vous pouvez appliquer sur ce résultat.

**En savoir plus sur les données...**

* Commencer par se familiariser avec les données en les visualisant et en affichant des exemples de lignes ou de colonnes que ces DataFrames contiennent. Pour cela, manipuler les fonctions des librairies que vous venez de découvrir (par exemple, <tt>head()</tt>, <tt>tail()</tt>, ...).

In [5]:
# 15 premières lignes de prices_pd

prices_pd.head(15)


Unnamed: 0,State,HighQ,HighQN,MedQ,MedQN,LowQ,LowQN,date
0,Alabama,339.06,1042,198.64,933,149.49,123,2014-01-01
1,Alaska,288.75,252,260.6,297,388.58,26,2014-01-01
2,Arizona,303.31,1941,209.35,1625,189.45,222,2014-01-01
3,Arkansas,361.85,576,185.62,544,125.87,112,2014-01-01
4,California,248.78,12096,193.56,12812,192.92,778,2014-01-01
5,Colorado,236.31,2161,195.29,1728,213.5,128,2014-01-01
6,Connecticut,347.9,1294,273.97,1316,257.36,91,2014-01-01
7,Delaware,373.18,347,226.25,273,199.88,34,2014-01-01
8,District of Columbia,352.26,433,295.67,349,213.72,39,2014-01-01
9,Florida,306.43,6506,220.03,5237,158.26,514,2014-01-01


In [6]:
# 7 dernières lignes de prices_pd
prices_pd.tail(7)

# sélection d'une colonne
prices_pd["State"] # on utilise le nom: c'est plus parlant que les indices numpy

0              Alabama
1               Alaska
2              Arizona
3             Arkansas
4           California
             ...      
22894         Virginia
22895       Washington
22896    West Virginia
22897        Wisconsin
22898          Wyoming
Name: State, Length: 22899, dtype: object

Les types des données peuvent être récupérés à travers la méthode <tt>dtypes</tt>:

In [7]:
prices_pd.dtypes

State             object
HighQ            float64
HighQN             int64
MedQ             float64
MedQN              int64
LowQ             float64
LowQN              int64
date      datetime64[ns]
dtype: object

Il y a beaucoup de fonctions à découvrir pour obtenir des informations utiles sur les DataFrames. Par exemple, la liste des états peut être obtenue ainsi:


In [8]:
les_etats = np.unique(prices_pd["State"].values)
# note: le .values nous ramène dans l'univers numpy
# les passerelles sont multiples

In [9]:
# Afficher la liste des états :
print(les_etats)


['Alabama' 'Alaska' 'Arizona' 'Arkansas' 'California' 'Colorado'
 'Connecticut' 'Delaware' 'District of Columbia' 'Florida' 'Georgia'
 'Hawaii' 'Idaho' 'Illinois' 'Indiana' 'Iowa' 'Kansas' 'Kentucky'
 'Louisiana' 'Maine' 'Maryland' 'Massachusetts' 'Michigan' 'Minnesota'
 'Mississippi' 'Missouri' 'Montana' 'Nebraska' 'Nevada' 'New Hampshire'
 'New Jersey' 'New Mexico' 'New York' 'North Carolina' 'North Dakota'
 'Ohio' 'Oklahoma' 'Oregon' 'Pennsylvania' 'Rhode Island' 'South Carolina'
 'South Dakota' 'Tennessee' 'Texas' 'Utah' 'Vermont' 'Virginia'
 'Washington' 'West Virginia' 'Wisconsin' 'Wyoming']


De très nombreuses fonctions sont dupliquées entre l'univers `numpy` et celui de `pandas`.

In [None]:
# unique est aussi accessible directement dans pandas 
# note: avec unique, on est sur une logique d'ensemble non ordonné, l'ordre peut varier
print(pd.unique(prices_pd["State"]))

['Alabama' 'Alaska' 'Arizona' 'Arkansas' 'California' 'Colorado'
 'Connecticut' 'Delaware' 'District of Columbia' 'Florida' 'Georgia'
 'Hawaii' 'Idaho' 'Illinois' 'Indiana' 'Iowa' 'Kansas' 'Kentucky'
 'Louisiana' 'Maine' 'Montana' 'Nebraska' 'Nevada' 'New Hampshire'
 'New Jersey' 'New Mexico' 'New York' 'North Carolina' 'North Dakota'
 'Ohio' 'Oklahoma' 'Oregon' 'Maryland' 'Massachusetts' 'Michigan'
 'Minnesota' 'Mississippi' 'Missouri' 'Pennsylvania' 'Rhode Island'
 'South Carolina' 'South Dakota' 'Tennessee' 'Texas' 'Utah' 'Vermont'
 'Virginia' 'Washington' 'West Virginia' 'Wisconsin' 'Wyoming']


Comparer le nombre de valeurs de :

        prices_pd["MedQ"].values

et de 

        np.unique(prices_pd["MedQ"].values)

Expliquer ce qui se passe.        

In [None]:
print(len(prices_pd["MedQ"].values))

print(len(np.unique(prices_pd["MedQ"].values)))

# Pourquoi est ce logique?


22899
7776


## Fonctions basiques, coté pandas

On reste toujours très proche de numpy... Mais les structures de données sont différentes

**La moyenne**

In [None]:
print("La moyenne (MedQ) est avec mean        : %f dollars" % prices_pd["MedQ"].mean())

**Moyennes sur les qualités**

La fonction ```.loc``` permet de sélectionner des lignes et des colonnes dans pandas
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html


Calculer:
* La moyenne des prix pour les qualités medium et high
* La moyenne des prix pour les qualités medium et high dans l'état de ''New York''


In [14]:
print(prices_pd.loc[:,["MedQ","HighQ"]].mean())

print("Dans l'état de New York")
print(prices_pd.loc[prices_pd.State == "New York",["MedQ","HighQ"]].mean())

MedQ     247.618306
HighQ    329.759854
dtype: float64
Dans l'état de New York
MedQ     265.376949
HighQ    346.912762
dtype: float64


**Moyenne dans tous les états**

Calculez la moyenne des prix qualités low dans tous les états -- la liste des états est obtenues ainsi 
     
     states=np.unique(prices_pd["State"].values)

Pour cela, vous pouvez (devez) le faire de deux manières:
* Faire une boucle sur chacun des états
* Utiliser la fonction groupby comme expliqué ici : http://pandas.pydata.org/pandas-docs/stable/groupby.html
 et ici : https://www.kaggle.com/crawford/python-groupby-tutorial


In [15]:
# solution avec boucle
states=np.unique(prices_pd["State"].values)
moy = np.zeros(len(states))
for i,s in enumerate(states):
    moy[i] = prices_pd.loc[prices_pd.State == s]["LowQ"].values.mean()

print(moy) # le résultat est étonnant, mais pas illogique ! => retrouver pourquoi !

[nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan]


In [16]:
# solution simple & efficace (mais un peu magique)
prix_moyens=prices_pd[["State","LowQ"]].groupby(["State"]).mean()

print(prix_moyens)
# pourquoi le résultat est-il différent?

                            LowQ
State                           
Alabama               146.832603
Alaska                387.232727
Arizona               190.826860
Arkansas              127.345455
California            190.795992
Colorado              226.790620
Connecticut           253.024876
Delaware              205.045992
District of Columbia  210.563554
Florida               153.205372
Georgia               150.264091
Hawaii                167.093843
Idaho                 139.962851
Illinois              186.545165
Indiana               158.931653
Iowa                  248.595537
Kansas                120.199256
Kentucky              124.156860
Louisiana             146.776983
Maine                 244.951653
Maryland              190.185083
Massachusetts         220.070000
Michigan              252.644917
Minnesota             182.683306
Mississippi           142.751942
Missouri              147.508595
Montana               659.851074
Nebraska              137.895909
Nevada    

**Modification de données**

Remplacez le <tt>NAN</tt> de la colonne <tt>LowQ</tt> à l'aide de la fonction décrite ici: http://pandas.pydata.org/pandas-docs/version/0.17.1/generated/pandas.DataFrame.fillna.html. 

Nous souhaitons plus particulièrement utiliser la méthode <tt>fill</tt> après avoir trié par état et par date grâce à l'utilisation de la fonction <tt>sort</tt>

Expliquer le résultat de cette commande.
Que se passerait-il si on utilisait <tt>inplace=True</tt> ?

In [None]:
# tri des valeurs & option inplace
prices_sorted = prices_pd.sort_values(by=['State', 'date'], inplace=False)

# afficher + comparer inplace = False vs True


In [None]:
# Maintenant, après avoir regarder la documentation, jouer avec fillna



**Changements des résultats**


Recalculer la moyenne des prix pour la qualité <tt>Low</tt>. Qu'en est-il maintenant ? 

**Tracé d'histogrammes**

Donner les instructions Python pour tracer l'histogramme des moyennes des prix (<tt>LowQ</tt>) par état. 

Pour vous aider à construire un histogramme, vous pouvez étudier la page suivante:
<http://matplotlib.org/examples/lines_bars_and_markers/barh_demo.html>

In [None]:
# 1. Il eset possible de revenir dans numpy + matplotlib...
# [vous savez déjà faire]

# On peut aussi attaquer directement les fonctions dans pandas :)
prices_pd['LowQ'].hist()


**Bornes de variations**

* Afficher la série temorelles des prix
* Afficher la série temporelles par état
* Calculer les valeurs min et max des prix par date (min/max sur les états)

In [None]:
# calcul et affichage des prix au cours du temps
prices_pd[['LowQ', 'date']].groupby(['date']).mean().plot()

# sur les différents états + min/max

**Calcul d'un effectif**

Pour calculer un effectif sur un descripteur continu, il faut définir des intervalles (et éventuellement discrétiser). Des fonctions font ça très bien dans pandas !

Prendre un intervalle de discrétisation de taille 20 puis 40, et calculer l'effectif (sous forme d'un vecteur) du nombre d'états par ''bins''. Dessiner l'histogramme correspondant

On peut faire cela de la manière suivante avec Pandas:

In [None]:
# rappel d'une boite ci-dessus
prix_moyens=prices_pd[["State","LowQ"]].groupby(["State"]).mean()
print(prix_moyens)



In [None]:
prix_moyens.reset_index(drop=True, inplace=True) # supprimer les états
# print(prix_moyens)
# attention, la discrétisation impose de travailler sur un vecteur => Il faut jouer sur les dimensions
effectif=pd.cut(prix_moyens.values.flatten(), 20) # ou 40
print(effectif)

In [None]:

effectif2=pd.value_counts(effectif)
effectif3=effectif2.reindex(effectif.categories)
effectif3.plot(kind='bar')

Et comme cela avec Numpy:

In [None]:
plt.hist(prix_moyens,bins=20)

L'estimation de densité en pandas peut se faire ainsi

In [None]:
effectif=pd.DataFrame(prix_moyens)
effectif.plot(kind='kde')

In [None]:
print(np.quantile(prix_moyens,0.5)) # mediane


**Percentiles**

Calculer des quantiles et tracer des boxplots

In [None]:

a=pd.DataFrame(prix_moyens)
a.boxplot()

## Construction de tableaux croisés = comptage des instances sur plusieurs dimensions

Par exemple, compter les instances dans les catégories de prix LowQ par état, c'est à dire construire la matrice de contingence.


In [None]:

# 1. Construire les indices d'appartenance à une catégorie
prices_pd['cat_LowQ'] = pd.cut(prices_pd["LowQ"].values,20,labels=np.arange(20))


In [None]:

# 2. Comptage par état et par catégorie de prix
comptage = pd.crosstab(prices_pd["State"],prices_pd["cat_LowQ"])
plt.figure()
plt.imshow(comptage)


### Variance

On souhaite maintenant rajouter une colonne <tt>HighQ_var</tt> aux données originales contenant la variance des prix par état (la valeur sera donc dupliquée sur toutes les lignes de l'état). Donner les intructions Python correspondantes.

**ATTENTION**, cela suppose de traiter les états (State) les uns après les autres...

In [None]:
# construction d'un dictionnaire des variances
states = np.unique(prices_pd["State"].values)
table_var = {s: np.var(prices_pd.loc[prices_pd.State==s, ["HighQ"]].values) for s in states}
print(table_var)


In [None]:

new_col = prices_pd["State"].apply(lambda x: table_var[x])
print(new_col)

prices_pd["HighQ_var"] = new_col

prices_pd.head(15)

# Travail de synthèse : La Californie

Pandas permet de faire la synthèse de données de la manière suivante (pour le DataFrame de nom <tt>df</tt>): 
    
    df.describe()
    

<font color="RED" size="+1">**[Q]**</font> Vérifier que les valeurs trouvées sur l'état de la Californie correspondent aux valeurs trouvées grâce à vos différentes fonctions. 

Pour cela, donner dans ce qui suit le code qui utilise vos fonctions (moyennes, variance, et quartiles) ainsi que le résutlats de la fonction <tt>describe</tt>.


<font color="RED" size="+1">**[Q]**</font> **Matrice de corrélation**


Nous allons maintenant nous intéresser à calculer la corrélation entre les prix à New York et les prix en Californie.

Commencer par représenter le nuage des points des prix (par date) en Californie (axe $X$) et à New York (axe $Y$) pour la bonne qualité.

Pour cela,  on commence par créer un DataFrame avec ces informations:

In [None]:
prix_ny=prices_pd[prices_pd['State']=='New York']
prix_ca=prices_pd[prices_pd['State']=='California']
prix_ca_ny=prix_ca.merge(prix_ny,on='date')
prix_ca_ny.head()

# Exécuter cette boîte et commenter le résultat obtenu

<font color="RED" size="+1">**[Q]**</font> **Nuages de points*


Représenter graphiquement le nuage des points : voir <http://matplotlib.org/examples/shapes_and_collections/scatter_demo.html>

<font color="RED" size="+1">**[Q]**</font> **Corrélations**

A l'aide des fonctions ```np.cov```, ```np.std``` calculer le coefficient de corrélation linéaire entre les prix à New York et en Californie

In [None]:
# Appliquer votre fonction avec l'instruction suivante:

# print("La correlation est :%f"%correlation(prix_ca_ny["HighQ_x"].values,prix_ca_ny["HighQ_y"].values))