# Pandas Demo

**Python Meetup**

[Damien Garaud](https://twitter.com/jazzydag)

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import pandas as pd
print("pandas version {}".format(pd.__version__))

In [None]:
import seaborn as sns
sns.set_context('talk')

## Pandas

**{Pan}el {Da}ta Analysis**

* Python & Numpy
* Performant (cython)
* IT Quant / Orienté Finance (initialement)

* Fonctionnalités

  * données en 1D, 2D et 3D
  * lecture/écriture sur CSV, Excel, base de données, hdf5, json, ...
  * group-by, merge, join
  * séries temporelles & valeurs manquantes

* `DataFame`
  * tableau 2D : matrice, table SQL, fichier CSV, feuille Excel
  * un type de données par colonne : entier, double, chaîne de caractères, date, ...

**Plan / Points abordés**

* lecture de données
* type de données
* sélection de données
* indicateurs statistiques
* appliquer une fonction à une/des colonne(s)
* groupby
* tracer quelques figures
* enchaîner des appels de fonction
* séries temporelles
* en bonus : un peu de machine learning

**Note** : les données viennent de https://archive.ics.uci.edu/ml/index.html (Machine Learning Repository)

## First baby step

In [None]:
# p'tit DataFrame, tranquillou
dates = ["2016-10-11", "2016-11-09", "2016-09-09", "2016-10-19"]
df = pd.DataFrame({"name": ['john', 'alice', 'bob', 'jane'],
                   "age": [34, 56, 31, 24],
                   "subs": [True, True, False, True],
                   "logged": [pd.Timestamp(x) for x in dates]})

In [None]:
df

In [None]:
df.dtypes

## Contraceptive Methods

Sondage à propos de la méthode contraceptive des femmes indiennes.

**Data Set Information**:

   > This dataset is a subset of the 1987 National Indonesia Contraceptive Prevalence Survey. The samples are married women who were either not pregnant or do not know if they were at the time of interview. The problem is to predict the current contraceptive method choice (no use, long-term methods, or short-term methods) of a woman based on her demographic and socio-economic characteristics.

* https://archive.ics.uci.edu/ml/datasets/Contraceptive+Method+Choice
* http://archive.ics.uci.edu/ml/machine-learning-databases/cmc/cmc.data

### Récupérer les données

In [None]:
# Comma Separated Values
url = "http://archive.ics.uci.edu/ml/machine-learning-databases/cmc/cmc.data"
fname = "data/cmc.data"

In [None]:
!head data/cmc.data

In [None]:
# 10 colonnes
cmc_names = ['age', 'education', 'husband_education', 'children', 'religion', 'working',
             'husband_occupation', 'living_index', 'media', 'method']

On peut lire un fichier CSV depuis un fichier **mais aussi depuis une URL**

In [None]:
# lire des données
cmc = ??

### Sélection / info / description

Cinq premières lignes du fichier.

In [None]:
# Premières lignes

```
Attribute Information:

   1. Wife's age                     (numerical)
   2. Wife's education               (categorical)      1=low, 2, 3, 4=high
   3. Husband's education            (categorical)      1=low, 2, 3, 4=high
   4. Number of children ever born   (numerical)
   5. Wife's religion                (binary)           0=Non-Islam, 1=Islam
   6. Wife's now working?            (binary)           0=Yes, 1=No
   7. Husband's occupation           (categorical)      1, 2, 3, 4
   8. Standard-of-living index       (categorical)      1=low, 2, 3, 4=high
   9. Media exposure                 (binary)           0=Good, 1=Not good
   10. Contraceptive method used     (class attribute)  1=No-use 
                                                        2=Long-term
                                                        3=Short-term
```

Je veux juste une colonne

In [None]:
# sélection de colonne: 'age'

Je veux sélectionner plusieurs colonnes

In [None]:
# sélection de plusieurs colonnes : 'education' et 'children'

In [None]:
# sélectionner toutes les lignes où le nombre d'enfants est supérieur à 5

In [None]:
# combien de femmes ont plus de 5 enfants ?

In [None]:
# quelques infos rapides sur mes données
cmc.info()

In [None]:
# quelques statistiques sur les données numériques

### Fouiller un peu

**Combien de valeurs uniques par colonne ?**

In [None]:
# je veux appliquer le compte d'éléments unique par colonne

**L'âge et le nombre d'enfants par méthode contraceptive**

Présentation du `group-by`.

In [None]:
# l'âge moyen et le nombre d'enfants moyen par méthode contraceptive

**Corrélation** entre les données

Exemple très simples de corrélation : la pluie et les parapluies

In [None]:
# calcul de la corrélation entre toutes les colonnes

In [None]:
# et si je veux afficher mes belles corrélations ? 
# sns.heatmap(cmc.corr(), square=True, annot=True, fmt=".1f")

### Un peu prédiction

Jouons un peu avec scikit-learn.

Que pourrait-on **prédire** sur ce jeu de données ??

In [None]:
from sklearn import cross_validation
from sklearn.metrics import confusion_matrix
#from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier

On prend d'un côté les *features* et de l'autre la valeur à prédire (i.e. `method`)

In [None]:
# récupérons les features, les 'X', les variables d'entrée
X = ??

In [None]:
# récupérons la colonne des valeurs à prédire => méthode contraceptive
y = ??

In [None]:
# on mélange tout ça pour voir un jeu d'entraînement et un jeu de test pour la validation
#X_train, X_test, y_train, y_test = cross_validation.train_test_split(X, y,
#                                                                     stratify=y,
#                                                                     random_state=22)

In [None]:
# Modèle pour la classification
#tree = DecisionTreeClassifier(random_state=0, class_weight='balanced')

In [None]:
# on entraine le modèle sur le jeu... d'entraînement

In [None]:
# et on demande à prédire sur le jeu de test : méthode contraceptive 1, 2 ou 3

In [None]:
# on calcule le score de notre modèle sur le jeu de test

Essayons d'améliorer ce score en ajoutant une *feature*.

In [None]:
# copie du DataFrame précédent
cmc2 = cmc.copy()

In [None]:
# ratio age/children
cmc2['age_child'] = ??

In [None]:
# remplacer toutes les valeurs 'inf'
cmc2 ??
cmc2.head(5)

In [None]:
# on reprend les mêmes X et y, et on recommence
X_2, y_2 = cmc2.drop('method', axis=1).values, cmc2['method'].values

In [None]:
# séparer jeu d'entraînement et jeu de test
X2_train, X2_test, y2_train, y2_test = cross_validation.train_test_split(X_2, y_2,
                                                                         stratify=y,
                                                                         random_state=22)

In [None]:
# predict & score
tree.fit(X2_train, y2_train)
tree.predict(X2_test)
tree.score(X2_test, y2_test)

In [None]:
# et pour finir, un beau graphe
# permet de montrer la distribution de chaque colonne et
# la répartition des méthodes de contraception dans les data
sns.pairplot(cmc2[['age', 'children', 'age_child', 'method']], hue='method')

### Cas des colonnes "dummies"

On note cependant que les colonnes no. 1, 2 ,6, 7 sont des données catégorielles

* education
* husband's education
* husband's occupation
* standard-of-living

Pour certains modèles (e.g. Logistric Regression), on veut pouvoir transformer

|C|
|-|
|1|
|2|
|1|
|3|

en 

|C1 |C2 |C3 |
|---|---|---|
| 1 | 0 | 0 |
| 0 | 1 | 0 |
| 1 | 0 | 0 |
| 0 | 0 | 1 |

Les données du dernier tableau sont souvent appelées *dummies data*.

In [None]:
# Et on transforme ces données en *dummies* data
# exemple avec l'education (et on veut en ne garder que 3 sur quatre)

## Flow People Count

http://archive.ics.uci.edu/ml/datasets/CalIt2+Building+People+Counts

**Data Set Information**:

   > Observations come from 2 data streams (people flow in and out of the building), over 15 weeks, 48 time slices per day (half hour count aggregates).

   > The purpose is to predict the presence of an event such as a conference in the building that is reflected by unusually high people counts for that day/time period. 

In [None]:
!head data/CalIt2.data

In [None]:
url_flow = "http://archive.ics.uci.edu/ml/machine-learning-databases/event-detection/CalIt2.data"

In [None]:
# 4 colonnes
# flow_id: 7 pour les gens qui sortent
#          9 pour les gens qui entrent
flow_names = ["flow_id", "date", "time", "count"]

In [None]:
# lire les données
flow = ??

In [None]:
# premières lignes

In [None]:
# info

On va travailler un peu la donnée :

* `flow_id` : 7 pour une personne qui sort, 9 pour entre
* deux colonnes date & timestamp : ne faire qu'une date

### Flow ID

On veut avoir un truc un peu plus explicit que 7 ou 9

In [None]:
# on va créer une nouvelle colonnes qui dit "True" ou "False" pour les gens qui sortent

In [None]:
flow.head()

In [None]:
# Exo : je veux compter le nombre total de gens 
# qui sont sortis et entrés de cet immeuble
# quelle méthode, sur quelle colonne ??

### Date & Timestamp

* Qu'est-ce que sont les colonnes `date` et `time` ?
* Comment convertir en "vrai" date ?

In [None]:
# regardons de plus près 'date' et 'time'
# sélectionner la 10e ligne et voir ce que contiennent ces deux colonnes

In [None]:
# on va concaténer ces deux chaînes et essayer de fabriquer une date
#    format de type 'MM/DD/YYThh:mm:ss'
# d, t = ??, ??
# concaténation ??

In [None]:
# création d'un Timestamp
# pd.Timestamp(??)

On tente d'appliquer une fonction qui retourne un `Timestamp` pour l'affecter à une colonne.

In [None]:
# nouvelle colonne avec les "vraies" dates

In [None]:
flow.head()

In [None]:
flow.info()

On veut potentiellement se débarrasser de colonnes `flow_id`, `date` et `time`. Et aussi passer la colonne de "vraies" dates en `Index`.

In [None]:
# enchainer des fonctions avec 'drop' et 'set_index'

In [None]:
# mettre ça dans un nouvelle variable (drop & set_index renvoient des **copies**)

In [None]:
dflow.head()

In [None]:
dflow.info()

### Analyse

Un peu de stats :

* combien de gens qui sortent / qui entrent
* moyenne des gens qui sortent / entrent

In [None]:
# compter les gens qui sortent / entrent

In [None]:
# moyenne des gens qui sortent / entrent

Et si on veut appliquer plusieurs fonctions d'aggrégation sur nos groupes : `agg`.

In [None]:
# on veut la moyenne, mais ausi la somme, mais aussi l'écart-type

Les fonctions marquées `'mean'` fonctionnent bien puisqu'elles sont connues de pandas (e.g. `df.mean()`). Pour tout autre fonction, lui passer la fonction et non pas une chaîne de caractères.

Et si on voulait regarder la somme où la moyenne par jour ?

...

ou toutes les 4 heures ?

In [None]:
# la méthode resample est votre amie
# on peut commencer par les gens qui sortent...
# day_out = ???
# et qui entrent
# day_in = ???

In [None]:
day_out.head()

In [None]:
# distribution du nombre moyen de gens qui sortent
# sns.distplot ???

In [None]:
day = pd.DataFrame({"in": day_in,
                   "out": day_out})
day.head()

In [None]:
# tracer l'évolution, par jour, des gens qui sortent/entrent
day.plot()

Et toutes les 4 heures du coup ?

In [None]:
# essayer "4H" pour voir ??

Et si on veut, on peut sommer, où calculer l'écart-type pour ces tranches de temps : 1 journée, 4 heures, ou même pourquoi pas toutes les semaines du mercredi au mardi.

In [None]:
# dflow.query("not out").resample('W-WED').sum()['count']

### Exo

Je veux un profil d'une journée (24 heures) pour les gens qui sortent et qui entrent. Par exemple le nombre total de personnes qui sont sortie par tranche horaire :

* 00-01h : 45
* 01-02h : 23
* ...
* 12-13h : 212
* ...

#### Échantillonner

In [None]:
# prennons dans un premier temps les gens qui entrent
# profile = ???
# note pour plus tard : j'ai envie que ça soit un DataFrame
#                       et aussi de remettre 'ts' dans une colonne

In [None]:
profile[240:264]

#### "Tagger" les heures

In [None]:
# fonction qui, pour un timestamp donné, retourne l'heure de la journée

def hour(ts):
    return ??

In [None]:
# nouvelle colonne
# profile['hour'] = ??

In [None]:
profile.head(24)

#### Aggréger les données

... puis faire un beau graphe

In [None]:
# on veut **grouper** par heure, on va faire un .... ??

On peut faire la même chose avec `dflow.query("out")` et comparer.

### Pour finir, quelques courbes

In [None]:
# Séries temporelles du nombre de personnes qui sortent
dflow.query('out')['count'].plot()

On peut vouloir **lisser** les courbes à forte variabilité : `rolling`. On calcule la moyenne glissante sur les K dernières valeurs.

In [None]:
dflow.query('not out').rolling(24).mean().plot()

## Question(s) ??

Et merci de votre attention

![over](futurama-over.jpg)