## Introduction à Pandas

Pandas est une librairie Python spécialisée dans l’analyse des données. Il nous permet de faire des opérations efficaces sur des données sous forme de tableaux multidimensionnels homogènes. 

In [2]:
import numpy as np
import pandas as pd

### Series
Series  de Pandas est une généralisation d'un ndarray de NumPy d'une seule dimension. Sa particularité est que les valeurs sont indexées.

In [3]:
x = np.random.random(4)
x

array([0.95795885, 0.9944357 , 0.91489722, 0.80772831])

In [4]:
x = pd.Series(x)
x

0    0.957959
1    0.994436
2    0.914897
3    0.807728
dtype: float64

In [5]:
x[0]

0.957958854612894

Les index peuvent être non numériques.

In [6]:
si = pd.Series([210, 31, 40, 15],index =['Porcupine','Chipmunk','Squirrel','Goat'])
si

Porcupine    210
Chipmunk      31
Squirrel      40
Goat          15
dtype: int64

In [9]:
si['Porcupine']

210

In [10]:
si[0] #mais cette façon d'indexer reste toujours valide

210

Series a tous les avantages donnés par ndarray de Numpy. 

### Structure DataFrame
DataFrame est celui qui nous intéresse le plus dans la librairie Pandas. Une matrice DataFrame correspond à une matrice individus-variables où les lignes correspondent à des observations, les
colonnes à des attributs décrivant les individus. Chaque colonne est de type Series.

On peut créer un DataFrame de plusieurs façons:
- à partir d'un fichier ( texte, csv, excel , ...)
- à partir d'un dictionnaire, liste ou tuples
- à partir de Series de Pandas, array de Numpy

In [24]:
import numpy as np
import pandas as pd
#la création manuelle d'un dataframe qui passe par un dictionnaire
data = {'city': [ 'Boston', 'Paris', 'Lagos' ],'area': [ 11700, 17174, 2706],'population': [4628910, 12405426, 21000000]}
frame = pd.DataFrame(data)
print(frame)
#la creation manuelle d'un DataFrame qui passe par Numpy 
df2 = pd.DataFrame(np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]),columns=['col1', 'col2', 'col3'])
df2

     city   area  population
0  Boston  11700     4628910
1   Paris  17174    12405426
2   Lagos   2706    21000000


Unnamed: 0,col1,col2,col3
0,1,2,3
1,4,5,6
2,7,8,9


Quelques opérations élémentaires sur un DataFrame

In [14]:
print(frame.columns) #permet d'avoir les columns de frame
type(frame.columns)

Index(['city', 'area', 'population'], dtype='object')


pandas.core.indexes.base.Index

In [18]:
frame.city #equivalent à frame['city'], permet de prendre la colonne entière city 

0    Boston
1     Paris
2     Lagos
Name: city, dtype: object

In [25]:
frame.loc[0] #get row with index 0

city           Boston
area            11700
population    4628910
Name: 0, dtype: object

In [28]:
frame.loc[0:2]['city'] #combinaison des deux avec un bonus slicing

0    Boston
1     Paris
2     Lagos
Name: city, dtype: object

In [30]:
frame.population.max() #population maximale
frame[frame.population == frame.population.max()].city #le city ayant la population maximale

2    Lagos
Name: city, dtype: object

In [31]:
frame

Unnamed: 0,city,area,population
0,Boston,11700,4628910
1,Paris,17174,12405426
2,Lagos,2706,21000000


In [37]:
frame.loc[0,'population']=21000000 #modification de valeurs

In [38]:
frame

Unnamed: 0,city,area,population
0,Boston,11700,21000000
1,Paris,17174,12405426
2,Lagos,2706,21000000


In [40]:
frame[['city','area']] #pour prendre deux colonnes

Unnamed: 0,city,area
0,Boston,11700
1,Paris,17174
2,Lagos,2706


In [45]:
frame.loc[0:2][['city','area']] #combinaison

Unnamed: 0,city,area
0,Boston,11700
1,Paris,17174
2,Lagos,2706


select city,population from frame

In [47]:
frame[['city','area']].loc[0:2] #même resultat que ci-dessus

Unnamed: 0,city,area
0,Boston,11700
1,Paris,17174
2,Lagos,2706


## Ajouter une ligne dans un DataFrame

In [52]:
dfTemp = pd.DataFrame({'city':['Kiev'],'area': [110000],'population':[1075000]})

In [54]:
frame = pd.concat([frame,dfTemp],ignore_index=True)

In [55]:
frame

Unnamed: 0,city,area,population
0,Boston,11700,21000000
1,Paris,17174,12405426
2,Lagos,2706,21000000
3,Kiev,110000,1075000


On peut effacer un enregistrement en indiquant les lignes à effacer, on utilise la méthode drop. Attention la fonction drop ne modifie pas directement l'objet dataFrame mais elle renvoie un nouvel objet dataFrame avec l'élément éffacé. 

In [15]:
frame

Unnamed: 0,city,area,population
0,Boston,11700,4628910
1,Paris,17174,12405426
2,Lagos,2706,21000000
3,Kiev,110000,1075000


## Ajouter une colonne

In [56]:
dfTemp2 = pd.DataFrame({'country':[]})

In [66]:
frame= pd.concat([frame,dfTemp2],ignore_index=True)

## Effacer ligne ou colonne

In [67]:
frame.drop([1], axis=0) #attention ceci n'affecte pas frame mais renvoie un nouveau Dataframe

Unnamed: 0,city,area,population,country
0,Boston,11700.0,21000000,
2,Lagos,2706.0,21000000,
3,Kiev,110000.0,1075000,


In [68]:
frame.drop(['city'], axis=1)

Unnamed: 0,area,population,country
0,11700.0,21000000,
1,17174.0,12405426,
2,2706.0,21000000,
3,110000.0,1075000,


### Equivalence SQL, DataFrame

DataFrame est en quelques sortes un SGBD comme Mysql. Les requetes SQL ont des équivalences en DataFrame.
Par exemple , soit la requete SQL suivant :

SELECT city FROM frame where population>=4000000

Son équivalence en DataFrame est 

In [69]:
frame[frame['population']>4000000]['city']

0    Boston
1     Paris
2     Lagos
Name: city, dtype: object

Par exemple aussi:
    
SELECT city,area FROM frame where population>=4000000

In [70]:
frame[frame['population']>=4000000][['city','area']]

Unnamed: 0,city,area
0,Boston,11700.0
1,Paris,17174.0
2,Lagos,2706.0


Ou encore:

SELECT city,area FROM frame where population>=4000000 limit 1

In [71]:
frame[frame['population']>=4000000][['city','area']][0:1]

Unnamed: 0,city,area
0,Boston,11700.0


ou encore

SELECT count(*) FROM frame

In [72]:
frame.shape[0]

4

ou encore

SELECT sum(population) FROM frame

In [73]:
frame['population'].sum()

55480426

ou encore 

SELECT * from frame where country IS NULL

In [75]:
frame.loc[frame['country'].isna()]

Unnamed: 0,city,area,population,country
0,Boston,11700.0,21000000,
1,Paris,17174.0,12405426,
2,Lagos,2706.0,21000000,
3,Kiev,110000.0,1075000,


ou encore 

UPDATE frame SET  country = 'mada'
WHERE country is NULL

In [76]:
frame['country']= frame['country'].fillna("mada")


In [77]:
frame

Unnamed: 0,city,area,population,country
0,Boston,11700.0,21000000,mada
1,Paris,17174.0,12405426,mada
2,Lagos,2706.0,21000000,mada
3,Kiev,110000.0,1075000,mada


### Exercices
Faire les equivalences des requetes suivantes

1) `SELECT * from frame where area is not null`

2) `SELECT city, country from frame where population>2000000`

3) `Delete from frame where city='Lagos'`

4) `Insert into frame(city,population,population) values('tana',5000000,'Mada')`

5) `select city from frame where city like %o%`

6) `select * from frame where population>10000000 and area>4000`

7) select city from frame order by population,city

8) select country,sum(population) from city group by country

### Lecture de fichier avec pandas

On peut lire un fichier texte brute, csv et excel en utilisant respectivement les fonctions
pd.read_table, pd.read_csv, pd.read_excel.