# Formation Pratique 2 : Manipulation, analyse et gestion de données

**Cette formation pratique est optionnelle : si vous maitrisez déjà les outils numpy et pandas, vous pouvez en ignorer le contenu**

Le but de cette formation pratique est d'introduire les outils numpy pour le calcul matriciel et diverses fonctions mathématiques opérant autour et pandas pour l'analyse et la manipulation de données.

<hr>

# 1. NumPy

```NumPy``` est une librairie indispensable en Python. Elle nous permettra de définir un nouveau type de données, les "arrays" (tableaux) qui nous permettra de réaliser efficacement des calcules matriciels et autres opérations mathématiques. 

Pour approfondir, se référer à [la documentation](https://numpy.org/doc/stable/reference/).

Commençons par importer NumPy ...

In [1]:
import numpy as np

## 1.1. Tableaux (arrays)

Nous pouvons à présent définir des tableaux, par exemple en convertissant une liste en tableau :

In [2]:
a = np.array([1,2,3])
print(a)

[1 2 3]


In [3]:
b = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(b)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


On remarquera que dans ce cas, la variable ```b``` est définie à partir d'une liste de liste, et sera donc interprétée comme une matrice de deux dimensions (3x3) dans ce cas. On peut regarder la forme d'un tableau en utilisant ```shape```

In [4]:
print(a.shape)

(3,)


In [5]:
print(b.shape)

(3, 3)


La fonction ```shape``` retourne un tuple contenant la taille de chaque dimension. La variable ```a``` est vue comme étant un tableau à une seule dimension dont la taille est 3, alors que ```b``` est une matrice de deux dimensions dont chaque dimension est égale à 3.

Comme avec les listes, nous pouvons réassigner les éléments d'un array et y accéder. Si un tableau est en plusieurs dimensions, on y accède en lui donnant la liste des index :

In [6]:
# Ne pas oublier que la colonne 2, en python, correspond a la troisième colonne ! la première colonne est indiquée comme étant la colonne 0

print(b[1,2]) # imprime l'élément de la ligne 1, colonne 2 de b

6


In [7]:
print(b[2,0]) # imprime l'élément de la ligne 2, colonne 0 de b

7


On peut aussi créer des tableaux remplis de 1 ou de 0, en indiquant uniquement la forme voulue :

In [8]:
a = np.ones((4,3,2)) # (4x3x2) avec des 1
print(a)

[[[1. 1.]
  [1. 1.]
  [1. 1.]]

 [[1. 1.]
  [1. 1.]
  [1. 1.]]

 [[1. 1.]
  [1. 1.]
  [1. 1.]]

 [[1. 1.]
  [1. 1.]
  [1. 1.]]]


In [9]:
b = np.zeros((2,)) # (2,) avec des 0
print(b)
print(b.shape)

[0. 0.]
(2,)


Dans cet exemple, a est une matrice de dimension 3 (taille 4x3x2) remplie de '1', alors que b est une matrice de dimension 1 (taille 2) remplie de '0'.

La librairie numpy dispose d'un grand nombre d'implémentations d'opérations mathématiques utiles:

In [10]:
a = np.ones((2,3))

print(np.mean(a)) # calcule la valeur moyenne des éléments de a
print(np.var(a)) # calcule la variance des éléments de a

print(np.mean(a, axis=0)) # calcule la moyenne des éléments de 'a' pour chaque ligne, et les renvoie dans un nouveau tableau

1.0
0.0
[1. 1. 1.]


In [11]:
a = np.ones((2,3))
b = np.ones((3,4))

print("a*b ...\n",np.dot(a,b)) # calcule le produit matriciel de a par b
print("a+a ...\n",a + a) # additionne a avec lui-même

a*b ...
 [[3. 3. 3. 3.]
 [3. 3. 3. 3.]]
a+a ...
 [[2. 2. 2.]
 [2. 2. 2.]]


Numpy permet d'implémenter très simplement des opérations qui nécessiteraient normalement un certain nombre de boucles :

In [12]:
a = np.array([[0,1,2,3],[4,5,6,7]])
print(a)
print(a > 2) # a>2 calcule pour chaque élément de a s'il est supérieur à deux, et renvoie True ou False. Le résultat est sous la forme d'un array de même taille
print(a[a > 2]) # renvoie la liste des éléments de a aux indices où a est plus grand que 2. Donc, la liste des éléments de a plus grand que 2.

[[0 1 2 3]
 [4 5 6 7]]
[[False False False  True]
 [ True  True  True  True]]
[3 4 5 6 7]


On peut calculer simplement le déterminant et l'inverse d'une matrice carrée.

In [13]:
une_mat_int = np.array([[1, 2, 3],[4, 5, 6],[7, 8, 9]])

In [14]:
une_mat_int.shape

(3, 3)

In [15]:
# Déterminant ...

np.linalg.det(une_mat_int)

-9.51619735392994e-16

In [16]:
np.linalg.inv(une_mat_int)

array([[ 3.15251974e+15, -6.30503948e+15,  3.15251974e+15],
       [-6.30503948e+15,  1.26100790e+16, -6.30503948e+15],
       [ 3.15251974e+15, -6.30503948e+15,  3.15251974e+15]])

## 1.2. Géneration Aléatoire

Numpy est aussi utilisé pour générer des valeurs aléatoires. Pour cela, on se sert de ```numpy.random```. 


In [17]:
print("matrice aléatoire 3x2 ...\n",np.random.randn(3,2)) # génère un tableau de forme 3x2 dont les éléments sont tirés d'une loi normale de moyenne 0 et de variance 1
print("1 entier aléatoire entre 0 et 99 ...\n",np.random.randint(100)) # génère un entier aléatoire entre 0 et 99

matrice aléatoire 3x2 ...
 [[ 1.89126096  1.03130036]
 [ 0.64905503  0.62429571]
 [ 0.92785291 -0.27737386]]
1 entier aléatoire entre 0 et 99 ...
 82


On peut fixer le "seed" de numpy, ce qui permettra de reproduire les mêmes générations aléatoires à chaque exécution, et donc d'avoir des résultats reproduisibles:

In [18]:
np.random.seed(seed=1)
print(np.random.randint(10**9))

np.random.seed(seed=3)
print(np.random.randint(10**9))

np.random.seed(seed=1)
print(np.random.randint(10**9))

717354021
218175338
717354021


Le 1er et le 3e entier générés sont les mêmes, car ils ont été générés après avoir fixé le seed à la même valeur. Le second n'est pas le même, car le seed diffère. À chaque exécution, on obtient les mêmes valeurs, car les seeds sont fixés.

<hr>

# 2. Pandas

La librairie ```pandas``` (de "panel data") permet de manipuler des données sous forme de tableau (dataframe). Pandas offre plusieurs fonctionnalités semblables à celle du langage R. Il permet, entre autres, de remplacer des valeurs manquantes, de joindre des tables, de produire des statistiques descriptives, etc.

Pour approfondir, se référer à [la documentation](https://pandas.pydata.org/docs/user_guide/index.html).


Pour en illustrer les capacités, nous allons nous servir du jeu de données Adult, qui provient de (https://archive.ics.uci.edu/ml/datasets/Adult). Ce jeu est basé sur des données de recensement. Il faut prédire si un individu gagne plus de 50000$ ou non. En tout, il y a près de 32000 individus ayant 14 caractéristiques, dont l'âge, le sexe, le pays d'origine, etc. Donc, certaines variables sont continues (ex. l'âge) et d'autres sont discrètes et parfois non ordinales (ex. le pays d'origine). De plus, il y a certaines valeurs qui sont manquantes.

Importons la librairie pandas

In [19]:
import pandas as pd

À présent, téléchargeons le jeu de données Adult à partir du github du cours :

**Attention!** Si vous exécutez dans une instance locale de colab, assurez-vous d'avoir la commande ```wget``` sur votre machine.

In [20]:
!wget -nc https://raw.githubusercontent.com/Cours-EDUlib/DIRO-SD1FR/master/FP/FP2/adult.csv

'wget' n’est pas reconnu en tant que commande interne
ou externe, un programme exécutable ou un fichier de commandes.


La méthode read_csv lit pour nous le fichier csv et le met sous le format dataframe. Si jamais vous avez de la difficulté à ouvrir un fichier, regardez la documentation de ```read_csv``` ainsi que les autres méthodes permettant d'ouvrir des fichiers (ex. ```read_sql```, ```read_excel```). Il est entre autres possible de changer les caractères utilisés pour délimiter les champs (paramètre sep) et d'utiliser un fichier sans entête (header).

In [21]:
df = pd.read_csv("adult.csv")

Utilisons une méthode des dataframes qui est très utile: ```head()``` qui permet d'afficher l'entête et les 5 premières rangées du dataframe.

In [22]:
df.head()

Unnamed: 0,age,workclass,fnlwgt,education,educational-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country,income
0,25,Private,226802,11th,7,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States,<=50K
1,38,Private,89814,HS-grad,9,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States,<=50K
2,28,Local-gov,336951,Assoc-acdm,12,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States,>50K
3,44,Private,160323,Some-college,10,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States,>50K
4,18,?,103497,Some-college,10,Never-married,?,Own-child,White,Female,0,0,30,United-States,<=50K


Déjà, nous pouvons voir le format des données et constater que certaines cases sont marquées d'un point d'interrogation. Pour avoir une vision globale un peu plus précise, utilisons la méthode ```describe()``` qui donne quelques statistiques descriptives sur les variables continues.

In [23]:
df.describe()

Unnamed: 0,age,fnlwgt,educational-num,capital-gain,capital-loss,hours-per-week
count,48842.0,48842.0,48842.0,48842.0,48842.0,48842.0
mean,38.643585,189664.1,10.078089,1079.067626,87.502314,40.422382
std,13.71051,105604.0,2.570973,7452.019058,403.004552,12.391444
min,17.0,12285.0,1.0,0.0,0.0,1.0
25%,28.0,117550.5,9.0,0.0,0.0,40.0
50%,37.0,178144.5,10.0,0.0,0.0,40.0
75%,48.0,237642.0,12.0,0.0,0.0,45.0
max,90.0,1490400.0,16.0,99999.0,4356.0,99.0


La rangée mean (moyenne) est particulièrement intéressante. Notons également les rangées min et max qui peuvent permettre d'identifier rapidement la présence de données aberrantes. Maintenant, grâce à la méthode ```unique()```, regardons les différentes valeurs prises par des variables discrètes.

In [24]:
print(df['race'].unique())
print(df['workclass'].unique())
print(df['education'].unique())

['Black' 'White' 'Asian-Pac-Islander' 'Other' 'Amer-Indian-Eskimo']
['Private' 'Local-gov' '?' 'Self-emp-not-inc' 'Federal-gov' 'State-gov'
 'Self-emp-inc' 'Without-pay' 'Never-worked']
['11th' 'HS-grad' 'Assoc-acdm' 'Some-college' '10th' 'Prof-school'
 '7th-8th' 'Bachelors' 'Masters' 'Doctorate' '5th-6th' 'Assoc-voc' '9th'
 '12th' '1st-4th' 'Preschool']


Pandas nous permet également de sélectionner des données en donnant une condition. Par exemple, si nous voulons comparer le nombre moyen d'années d'éducation des hommes par rapport à celui des femmes, il suffit de faire:

In [25]:
print(df[df['gender'] == 'Male']['educational-num'].mean())
print(df[df['gender'] == 'Female']['educational-num'].mean())

10.094977029096478
10.044034090909092


En fait, il existe une manière plus pratique de regarder des statistiques de groupes. La méthode ```groupby()``` permet d'obtenir des statistiques simples (moyenne, écart-type, minimum, maximum, etc) en groupant les données selon une certaine colonne. Donc, pour reprendre l'exemple précédent, nous aurions:

In [26]:
print(df.groupby(['gender'])['educational-num'].mean())

gender
Female    10.044034
Male      10.094977
Name: educational-num, dtype: float64


La fonction ```group_by``` est surtout pratique lorsqu'il y a un grand groupe présent:

In [27]:
print(df.groupby(['workclass'])['hours-per-week'].mean())

workclass
?                   31.812433
Federal-gov         41.513268
Local-gov           40.847258
Never-worked        28.900000
Private             40.273137
Self-emp-inc        48.570501
Self-emp-not-inc    44.395132
State-gov           39.090863
Without-pay         33.952381
Name: hours-per-week, dtype: float64


In [28]:
print(df.groupby(['workclass'])['hours-per-week'].count())

workclass
?                    2799
Federal-gov          1432
Local-gov            3136
Never-worked           10
Private             33906
Self-emp-inc         1695
Self-emp-not-inc     3862
State-gov            1981
Without-pay            21
Name: hours-per-week, dtype: int64


In [29]:
print(df.groupby(['workclass'])['hours-per-week'].min())

workclass
?                    1
Federal-gov          4
Local-gov            2
Never-worked         4
Private              1
Self-emp-inc         1
Self-emp-not-inc     1
State-gov            1
Without-pay         10
Name: hours-per-week, dtype: int64


In [30]:
print(df.groupby(['workclass'])['hours-per-week'].max())

workclass
?                   99
Federal-gov         99
Local-gov           99
Never-worked        40
Private             99
Self-emp-inc        99
Self-emp-not-inc    99
State-gov           99
Without-pay         65
Name: hours-per-week, dtype: int64


Il est possible de grouper les données selon plusieurs colonnes. Par exemple, si nous voulons avoir la répartition des hommes et des femmes par rapport à la catégorie >50K et <=50K, il suffit de passer les deux colonnes en argument à ```groupby```:

In [31]:
df.groupby(['gender', 'income'])['gender'].count()

gender  income
Female  <=50K     14423
        >50K       1769
Male    <=50K     22732
        >50K       9918
Name: gender, dtype: int64

Pour regarder s'il y a une corrélation entre deux variables, il suffit d'utiliser la méthode ```corr()```.

In [32]:
df['educational-num'].corr(df['age'])

0.030940375874513978

In [33]:
df['educational-num'].corr(df['hours-per-week'])

0.1436889093924791

De la même manière que nous avons sélectionné les hommes et les femmes, nous pouvons modifier ou supprimer des rangées ayant certaines valeurs. Par exemple, nous pourrions décider d'enlever les rangées dont l'occupation est ?.

In [35]:
df_modified = df[df['occupation'] != '?']
df_modified.head()

Unnamed: 0,age,workclass,fnlwgt,education,educational-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country,income
0,25,Private,226802,11th,7,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States,<=50K
1,38,Private,89814,HS-grad,9,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States,<=50K
2,28,Local-gov,336951,Assoc-acdm,12,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States,>50K
3,44,Private,160323,Some-college,10,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States,>50K
5,34,Private,198693,10th,6,Never-married,Other-service,Not-in-family,White,Male,0,0,30,United-States,<=50K


Pour terminer, il est possible de sauvegarder le dataframe en utilisant la méthode ```to_csv()``` (en général, ```to_``` suivi du format de fichier souhaité).

In [36]:
df_modified.to_csv('adult_modified.csv')

Nous ne pouvons malheureusement pas couvrir toutes les fonctionnalités de pandas... Mais pour en nommer seulement deux autres importantes: ```apply()``` et ```merge()```. La méthode ```apply()``` permet d'appliquer une fonction qu'on lui donne en argument sur l'ensemble des rangées. La très utile fonction ```merge()``` permet de joindre des tables à la manière du ```JOIN``` de ```SQL```.

<hr>