# Pandas

Pandas est une librairie python permettant de manipuler des données. 

La manipulation se base principalement sur 3 objets Pandas : 
- Series
- Dataframe
- index


In [2]:
import numpy as np
import pandas as pd

# 1. pandas.Series

Une "serie" représentent un vecteur (vecteur de données, une variable dans notre contexte) qui est indexé. 

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html#pandas.Series 

In [3]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

la serie contient 2 informations : 
- les valeurs, qui sont un numpy array
- l'index, un genre de tableau 1D, qui est une instance de pd.Index

In [4]:
data.values

array([ 0.25,  0.5 ,  0.75,  1.  ])

In [5]:
data.index

RangeIndex(start=0, stop=4, step=1)

### Accès aux valeurs

In [6]:
data[1]

0.5

In [7]:
data[1:3]

1    0.50
2    0.75
dtype: float64

### Series comme des numpy array généralisés

In [8]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [9]:
data['b']

0.5

In [10]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [11]:
data[5]

0.5

### Series comme des dict spécialisés

In [12]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Florida       19552860
Illinois      12882135
New York      19651127
Texas         26448193
dtype: int64

Par défaut, les Series ainsi créées sont classés selon leur clef

In [13]:
population['California':'Illinois']

California    38332521
Florida       19552860
Illinois      12882135
dtype: int64

### Construction des Series

La forme générale est pd.Series(data , index=index)

In [14]:
pd.Series(5, index=[100, 200, 300])

100    5
200    5
300    5
dtype: int64

In [15]:
pd.Series({2:'a', 1:'b', 3:'c'})

1    b
2    a
3    c
dtype: object

In [16]:
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])

3    c
2    a
dtype: object

# 2. pandas.Dataframe

L'objet Dataframe permet de gérer assez facilement les index (comme les series) mais aussi le nom des colonnes (dans notre contexte)
http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html#pandas.DataFrame 

### Dataframe comme des numpy array généralisés

In [17]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
dtype: int64

En réutilisant la serie population :

In [18]:
states = pd.DataFrame({'population': population,
                       'area': area})
states

Unnamed: 0,area,population
California,423967,38332521
Florida,170312,19552860
Illinois,149995,12882135
New York,141297,19651127
Texas,695662,26448193


In [19]:
states.index

Index(['California', 'Florida', 'Illinois', 'New York', 'Texas'], dtype='object')

In [20]:
states.columns

Index(['area', 'population'], dtype='object')

### DataFrame comme des dict spécialisés

In [21]:
states['area']

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
Name: area, dtype: int64

Attention ici une possible confusion. Dans un numpy array 2D, data[0] désigne la première ligne, tandis que dans un dataframe data['col0'] désigne la première colonne 

### Construction des Dataframe 

A partir d'une serie

In [22]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Florida,19552860
Illinois,12882135
New York,19651127
Texas,26448193


A partir d'une liste de dict

In [23]:
data = [{'a': i, 'b': 2 * i}
        for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


S'il manque des clefs, les valeurs manquantes seront initialisées à NaN (not a number)

In [24]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


A partir d'un 2D numpy array

In [25]:
pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.86919,0.785939
b,0.462671,0.351812
c,0.435705,0.397262


Itérer sur les lignes d'un Dataframe
- avec df.iloc[index]
- avec df.values, qui est un 2D numpy array

# 3. pandas.Index

Les objets index contiennent un index explicite permettant de référencer et modifier les données. 
Il s'agit de tableaux immuables ou d'ensemble ordonné. 

In [26]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

### Index comme des numpy arrays immuables

In [27]:
ind[1]

3

In [28]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

In [29]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


### Index comme un set ordonné

In [30]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [31]:
indA & indB  # intersection

Int64Index([3, 5, 7], dtype='int64')

In [32]:
indA | indB  # union

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

# 4. Préparation des données 
## Transformations des variables catégorielles 

Certains classifieurs nécessite de transformer les variables (les colonnes) catégorielles (un nom, une ville, ...) en variable numériques. 
Plusieurs solutions sont possibles : 
- utiliser map avec un dict en argument
- utiliser pd.get_dummies

In [33]:
df = pd.DataFrame({'A': ['a', 'b', 'a'], 'B': ['c', 'c', 'b'],  'C': [1, 2, 3]})
df

Unnamed: 0,A,B,C
0,a,c,1
1,b,c,2
2,a,b,3


In [34]:
df['A']

0    a
1    b
2    a
Name: A, dtype: object

In [35]:
df['A'].map({'a':15,'b':22})


0    15
1    22
2    15
Name: A, dtype: int64

Cette méthode présente l'inconvénient d'être tributaire de l'ordre des valeurs de remplacement. Elle convient au cas où il y a 2 valeurs possibles, ou quand on souhaite ordonner les valeurs. L'autre méthode consiste à créer autant de colonnes supplémentaires qu'il y a de valeurs pour une colonne : 

In [36]:
pd.get_dummies(df)

Unnamed: 0,C,A_a,A_b,B_b,B_c
0,1,1,0,0,1
1,2,0,1,0,1
2,3,1,0,1,0


In [37]:
pd.get_dummies(df, columns='A')

Unnamed: 0,B,C,A_a,A_b
0,c,1,1,0
1,c,2,0,1
2,b,3,1,0


In [38]:
pd.get_dummies(df, columns=['A','B'])

Unnamed: 0,C,A_a,A_b,B_b,B_c
0,1,1,0,0,1
1,2,0,1,0,1
2,3,1,0,1,0


## Supression des colonnes

In [39]:
df.drop('A', axis=1)

Unnamed: 0,B,C
0,c,1
1,c,2
2,b,3
