# Python et les données (NumPy et Pandas)
Les deux packages principaux pour manipuler des données sont NumPy et Pandas, nous allons ici détailler l'utilisation des trois structures de base de ces packages que sont les ndarray de NumPy et les Series et DataFrame de Pandas.


<tr><td><img src="http://www.numpy.org/_static/numpy_logo.png" style="width: 200px;"/></td><td><img src="https://pandas.pydata.org/_static/pandas_logo.png" style="width: 200px;"/></td></tr>

## NumPy et ses ndarray
Ces structures sont des structures multidimensionnelles dans lequelles on va généralement avoir un seul type de données.

Un array à une dimension est un vecteur, un array à deux dimensions est une matrice.


On commence par importer NumPy

In [1]:
import numpy as np

### Construction des ndarray

In [2]:
# à partir d'une liste
array_de_liste=np.array([1,4,7,9])

In [3]:
# à partir d'une suite d'entiers
array_range=np.arange(10)
print(array_range)

[0 1 2 3 4 5 6 7 8 9]


In [4]:
# en découpant un intervalle
array_linspace=np.linspace(0,9,10)
print(array_linspace)

[0. 1. 2. 3. 4. 5. 6. 7. 8. 9.]


On peut fixer le type des ndarrays en utilisant le paramètre dtype.

Le dtype peut être un des types de base mais aussi d'autres types comme np.complex128 si nécessaire.

In [5]:
arr1=np.array([1,4,7,9], dtype=int)

In [6]:
# on génère un array de nombres aléatoires tirés d'une 
# loi normale centrée réduite
arr_norm=np.random.randn(100000)

On peut donc extraite des informations sur notre array

In [7]:
print(arr_norm.shape, arr_norm.dtype, arr_norm.ndim, arr_norm.size,
      arr_norm.itemsize, sep=" - ")

(100000,) - float64 - 1 - 100000 - 8


Pour passer à deux dimensions, on utilise :

In [8]:
arr_mult=np.arange(100).reshape(20,5)
# on affiche la forme d'une sous-matrice
arr_mult[:,[0,4]].shape

(20, 2)

In [9]:
# on peut extraite plusieurs lignes
list_ind=[2,5,7,9,14,18]
arr_mult[list_ind, :].shape

(6, 5)

### La manipulation des arrays avec NumPy
La notion de broadcasting permet d'appliquer des opérations entre des arrays de tailles différentes.

In [10]:
arr1=np.array([1,4,7,9])
arr2=np.ones(3)
# on ne peut pas faire la somme de ces arrays car ils n'ont pas de dimensions communes
try:
    arr1+arr2
except Exception as e: 
    print("Erreur:",e)
    

Erreur: operands could not be broadcast together with shapes (4,) (3,) 


In [11]:
arr3=np.ones((3,4))
# par contre, on peut faire cette somme
arr1+arr3

array([[ 2.,  5.,  8., 10.],
       [ 2.,  5.,  8., 10.],
       [ 2.,  5.,  8., 10.]])

#### Cas d'application du broadcasting sur une image

On génère un arrau équivalent à une image de 1000 par 2000 pixels :

In [12]:
image=np.random.randint(0,255,(1000,2000,3))
image.shape

(1000, 2000, 3)

On génère un array qui va nous permettre de transformer tous les pixels de notre image.

In [13]:
transf = np.array([100, 255, 34])
transf.shape

(3,)

On peut appliquer la transformation en divisant la valeur de la couleur de chaque pixel par notre vecteur de transformation

In [14]:
new_image = image/transf
new_image.shape

(1000, 2000, 3)

### Manipulation d’arrays
On travaille sur une nouvelle structure à 3 dimensions.

In [15]:
array_image=np.random.randint(1,255,(500,1000,3))
print(array_image.dtype, array_image.shape)

int32 (500, 1000, 3)


On peut extraire un rectangle à partir de notre image (100 premiers pixels horizontalement et 200 derniers pixels verticalement)

In [16]:
array_image_rect=array_image[:100,-200:]
array_image_rect.shape

(100, 200, 3)

On peut passer notre image au format 2 dimensions (on empile les pixels). Le -1 est automatiquement remplacé par sa valeur par NumPy (500000)

In [17]:
array_image_empile = array_image.reshape(-1,3)
array_image_empile.shape

(500000, 3)

On peut ausi changer la forme d'un array en utilisant .shape :

In [18]:
array_vec=np.arange(10)
array_vec.shape=(5,2)
array_vec

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

### Les fonctions universelles de NumPy

1ère approche avec Python

In [19]:
%%timeit
somme=0
for elem in arr_mult :
    somme+= elem

51.1 µs ± 6.9 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


2ème approche avec les fonctions universelles de Python

In [20]:
%timeit sum(arr_mult)

25 µs ± 3.37 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


3ème approche avec les fonctions universelles de NumPy

In [21]:
%timeit np.sum(arr_mult)

5.45 µs ± 240 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


### Exportation et importation d'arrays
pickle permet de sauver n'importe quel type d'objet Python mais NumPy a ses propres approches pour cela.

In [22]:
# on construit un array
array_grand=np.random.random((1000000,100)) 

In [23]:
# on exporte avec save au format .npy
%time np.save("grand_array.npy", array_grand)

Wall time: 3.87 s


In [24]:
# on exporte en texte avec savetxt
%time np.savetxt("grand_array.txt", array_grand)

Wall time: 3min 59s


In [25]:
import os

In [26]:
print("Taille du fichier .npy :",os.stat("grand_array.npy").st_size)

Taille du fichier .npy : 800000128


In [27]:
print("Taille du fichier .txt :", os.stat("grand_array.txt").st_size)

Taille du fichier .txt : 2501000000


In [28]:
# on supprime l'array
del array_grand

In [29]:
# on recharge array_grand à partir du fichier .npy
%time array_grand=np.load("grand_array.npy")

Wall time: 705 ms


In [30]:
del array_grand

In [31]:
# on recharge array_grand à partir du fichier .txt
%time array_grand=np.loadtxt("grand_array.txt")

Wall time: 4min 4s


## Les objets de Pandas

### Les Series
La première structure de Pandas est l'objet Series.

In [32]:
from pandas import Series

On peut créer une Series à partir d'une liste avec des index

In [33]:
ma_serie = Series([8,70,320, 1200],index=["Suisse","France","USA","Chine"])
ma_serie

Suisse       8
France      70
USA        320
Chine     1200
dtype: int64

On peut créer un objet Series à partir d'un dictionnaire

In [34]:
ma_serie2= Series({"Suisse" :8,"France" :70,"USA" :320,"Chine" :1200})
ma_serie2

Suisse       8
France      70
USA        320
Chine     1200
dtype: int64

On peut créer un objet Series à partir d'une fonction de NumPy

In [35]:
ma_serie3= Series(np.random.randn(5), index=["A","B","C","D","E"])
ma_serie3

A    1.594445
B   -1.510031
C   -0.516855
D    1.116672
E    1.301497
dtype: float64

In [36]:
# on peut extraire des éléments directement à partir de l'objet Series
ma_serie.iloc[:3]

Suisse      8
France     70
USA       320
dtype: int64

In [37]:
# on peut extraire des éléments par leur index
ma_serie[["Suisse","France","USA"]]

Suisse      8
France     70
USA       320
dtype: int64

In [38]:
# on peut appliquer des conditions simples
ma_serie[ma_serie>50]

France      70
USA        320
Chine     1200
dtype: int64

In [39]:
# et des conditions plus complexes avec les opérateurs | et &
ma_serie[(ma_serie>500)|(ma_serie<50)]

Suisse       8
Chine     1200
dtype: int64

### Somme de Series
On peut utiliser l'opérateur + pour faire une somme

In [40]:
ma_serie3= Series(np.random.randn(5),index=["A","B","C","D","E"])
ma_serie4=Series(np.random.randn(4), index=["A","B","C","F"])
ma_serie3+ma_serie4

A   -0.152354
B    0.605632
C    0.034376
D         NaN
E         NaN
F         NaN
dtype: float64

Si on veut faire en sorte de ne pas avoir de données manquantes, on utilise :

In [41]:
ma_serie3.add(ma_serie4, fill_value=0)

A   -0.152354
B    0.605632
C    0.034376
D    0.454713
E   -1.184280
F   -0.875139
dtype: float64

### Les objets DataFrame

In [42]:
import pandas as pd

On peut créer un DataFrame à partir d'une liste :

In [43]:
frame_list=pd.DataFrame([[2,4,6,7],[3,5,5,9]])
frame_list

Unnamed: 0,0,1,2,3
0,2,4,6,7
1,3,5,5,9


On peut construire un DataFrame à partir d'un dictionnaire :

In [44]:
dico1={"RS" :["Facebook","Twitter","Instagram","Linkedin","Snapchat"],
       "Budget" :[100,50,20,100,50],"Audience" :[1000,300,400,50,200]}
frame_dico=pd.DataFrame(dico1)
frame_dico

Unnamed: 0,RS,Budget,Audience
0,Facebook,100,1000
1,Twitter,50,300
2,Instagram,20,400
3,Linkedin,100,50
4,Snapchat,50,200


On peut construire un DataFrame à partir d'un array :

In [45]:
frame_mult=pd.DataFrame(arr_mult[:5,:],columns=["A","B","C","D","E"],
                        index=["Obs_" + str(i+1) for i in range(1,6)])
frame_mult

Unnamed: 0,A,B,C,D,E
Obs_2,0,1,2,3,4
Obs_3,5,6,7,8,9
Obs_4,10,11,12,13,14
Obs_5,15,16,17,18,19
Obs_6,20,21,22,23,24


On peut extraire une colonne avec :

In [46]:
frame_mult["A"]

Obs_2     0
Obs_3     5
Obs_4    10
Obs_5    15
Obs_6    20
Name: A, dtype: int32

On peut construire de nouvelles colonnes facilement

In [47]:
frame_mult["F"]=frame_mult["A"]*2

In [48]:
# on supprime la colonne
del frame_mult["F"]

In [49]:
# on peut insérer une colonne à un point précis dans le DataFrame
frame_mult.insert(0,"F",frame_mult["A"]*2)

In [50]:
# on supprime la colonne
del frame_mult["F"]

In [51]:
# on extrait une ligne par son index
frame_mult.loc["Obs_4"]

A    10
B    11
C    12
D    13
E    14
Name: Obs_4, dtype: int32

In [52]:
# on extrait une ligne par sa position
frame_mult.iloc[3]

A    15
B    16
C    17
D    18
E    19
Name: Obs_5, dtype: int32

In [53]:
# on extrait des individus à partir de liste
frame_mult.loc[["Obs_2","Obs_3"],["A","B"]]

Unnamed: 0,A,B
Obs_2,0,1
Obs_3,5,6


In [54]:
# on extrait une sous-partie du DataFrame
frame_mult.iloc[1:3,:2]

Unnamed: 0,A,B
Obs_3,5,6
Obs_4,10,11


#### Réindexation d'un DataFrame

In [55]:
frame_vec =pd.DataFrame(array_vec,index=["a","b","c","d","e"],columns=["A","B"])

In [56]:
frame_vec.reindex(index=["e","c","d"], columns=["B","A"])

Unnamed: 0,B,A
e,9,8
c,5,4
d,7,6


On peut réindexer le DataFrame en utilisant des fonctions lambda :

In [57]:
frame_vec2=frame_vec.rename(mapper=lambda x : "Obs. "+x.upper(),axis=0)
frame_vec2=frame_vec2.rename(mapper=lambda x : "Var. "+x.upper(), axis=1)

In [58]:
frame_vec2

Unnamed: 0,Var. A,Var. B
Obs. A,0,1
Obs. B,2,3
Obs. C,4,5
Obs. D,6,7
Obs. E,8,9


On peut aussi renommer les colonnes et les index avec des dictionnaires

In [59]:
frame_vec.rename(columns={"A" :"nouveau_A"}, index={"a" :"nouveau_a"})

Unnamed: 0,nouveau_A,B
nouveau_a,0,1
b,2,3
c,4,5
d,6,7
e,8,9


Nous allons dans le prochain Notebook, manipuler des données grâce à Python, NumPy et Pandas.