# Numpy et Pandas pour datascience.
### <ins>[Index](../../README.md)</ins>
---

## Manipuler des tableaux avec NumPy
---

Diminutif de ***Numerical Python***, elle fournit un ensemble de fonctions pour effectuer efficacement des opérations sur les données, mais propose également un objet qui est au cœur de presque tout l’écosystème data en Python : **l’array**.

### Différenciez les arrays des listes classiques
---
Le tableau NumPy, ou array, en anglais, est d’une certaine manière similaire à une liste Python. 
Son avantage ? Il permet d’*effectuer simplement et rapidement de nombreuses opérations complexes*, en plus de faciliter le stockage et la manipulation des données.

In [8]:
# Fonction qui fait la moyenne d'une liste :
def moyenne(liste):
    return sum(liste)/len(liste)

revenus = [1800, 1500, 2200, 3000, 2172]
print(moyenne(revenus))

2134.4


On estime qu’à mesure que la taille du tableau augmente, des opérations via array NumPy deviennent **environ 30 fois plus rapides** que via une liste Python classique. 

Cette différence aussi importante s’explique par le fait que les arrays NumPy ne peuvent contenir qu’un seul et même type. En effet, contrairement à une liste classique où l’on peut stocker tous types d’objets, NumPy n’acceptera qu’un seul type en entrée.
- ```np.mean()``` retourne la moyenne de la liste.

In [9]:
import numpy as np

revenus = [1800, 1500, 2200, 3000, 2172]

print(np.mean(revenus))

2134.4


NumPy donne également accès à de nombreuses autres fonctions mathématiques indispensables, applicables à des arrays ou même à des listes :

In [10]:
x = [-2, -1, 1, 2]

print("La valeur absolue: ", np.abs(x))
print("Exponentielle: ", np.exp(x))
print("Logarithme: ", np.log(np.abs(x)))

La valeur absolue:  [2 1 1 2]
Exponentielle:  [0.13533528 0.36787944 2.71828183 7.3890561 ]
Logarithme:  [0.69314718 0.         0.         0.69314718]


### Créez un array NumPy
---

on peux faire cela de différentes façons, mais la plus simple est de le faire… à partir d’une liste Python classique :

In [11]:
revenus = [1800, 1500, 2200, 3000, 2172]

revenus_array = np.array(revenus)
revenus_array

array([1800, 1500, 2200, 3000, 2172])


> Si dans la liste de départ il y a des données de types différents, *NumPy essaiera de tous les convertir au type le plus général*.
> Par exemple, si un tableau contient des entiers ```int``` et des nombres décimaux ```float```, tous ses éléments seront convertis en nombres décimaux ```float```.

Il existe également des fonctions NumPy permettant de créer des arrays selon un certain pattern ou une spécification particulière :

In [12]:
n = 7

print(f"Fait un array de n elements mis a 0: {np.zeros(n)}")
print(f"Fait un array de n elements mis a 1: {np.ones(n)}")
print(f"Fait un array de 0 a n elements par pas de 2: {np.arange(0, n, 2)}")
print(f"Fait un array de 3 valeurs espacées uniformément entre 1 et 9: {np.linspace(1, 9, 3)}")

Fait un array de n elements mis a 0: [0. 0. 0. 0. 0. 0. 0.]
Fait un array de n elements mis a 1: [1. 1. 1. 1. 1. 1. 1.]
Fait un array de 0 a n elements par pas de 2: [0 2 4 6]
Fait un array de 3 valeurs espacées uniformément entre 1 et 9: [1. 5. 9.]


On peux accéder au type des éléments d’un array via la méthode ```.dtype``` :

In [13]:
revenus_array.dtype

dtype('int64')

> Les types en NumPy seront toujours présentés via deux informations :
> le type (ici int ) ;
> la précision (ici 64 ).
> Cette dernière correspond au nombre de bits sur lesquels sont codés les nombres, définissant ainsi les différentes valeurs possibles. Par exemple, un int8  (entier codé sur 8 bits) pourra prendre des valeurs de -128 à 127 !

### Sélectionner des éléments au sein d’un array
---
#### <ins>Accédez à un seul élément</ins>

L’accès à ***un élément spécifique d’un array*** se fait via la syntaxe : ```nom_array[indice]```.

In [14]:
revenus = [1800, 1500, 2200, 3000, 2172]

revenus_array = np.array(revenus)

# Pour accéder au 4eme éléments :
item = revenus_array[3]
print(item)

# Pour accéder au dernier éléments :
revenus_array[-1]


3000


np.int64(2172)

#### <ins>Accédez à plusieurs éléments contigus</ins>

On peux accéder à un ensemble d'éléments contigus en combinant ```[]``` et ```:``` .

La syntaxe suit une règle simple : ```nom_array[i:j:p]``` , avec :
-  ```i``` : l’indice du début ;
-  ```j``` : l’indice de fin ;
-  ```p``` : le pas ;

In [15]:
# revenus = [1800, 1500, 2200, 3000, 2172]

# Récupère les 3 premiers éléments :
print(revenus_array[0:3])

# Les éléments à partir de l’indice 2 :
print(revenus_array[2:])

# Un élément sur deux :
print(revenus_array[::2])

# Avec le pas à -1, inverse l'array:
print(revenus_array[::-1])

[1800 1500 2200]
[2200 3000 2172]
[1800 2200 2172]
[2172 3000 2200 1500 1800]


#### <ins>Accéder à plusieurs éléments selon une condition</ins>

Il est possible avec les arrays NumPy de renseigner la condition selon laquelle on souhaite sélectionner les éléments du tableau, avec l’écriture ```nom_array[condition de sélection]```.
- Voilà par exemple comment sélectionner uniquement les valeurs supérieures à 2 000 € :

In [16]:
revenus_array[revenus_array > 2000]

array([2200, 3000, 2172])

Il est naturellement possible de complexifier cela, avec plusieurs conditions :

In [17]:
revenus_array[(revenus_array > 2000) & (revenus_array < 3000)]

array([2200, 2172])

#### <ins>Utiliser les méthodes d’array</ins>

On peut accéder facilement aux ***dimensions de notre array*** via la méthode ```.shape``` : 

In [18]:
# revenus = [1800, 1500, 2200, 3000, 2172]

revenus_array.shape

(5,)

In [19]:
# calculer la moyenne
print(f"- La moyenne des valeurs de l'array: {revenus_array.mean()}")

# calculer le maximum (ou le minimum) :
print(f"- La valeurs maximum des valeurs de l'array: {revenus_array.max()}")
print(f"- La valeurs minimum des valeurs de l'array: {revenus_array.min()}")

# accéder à l’indice de l’élement minimum (ou maximum) :
print(f"- Indice du plus petit élément : {revenus_array.argmin()}")
print(f"- Indice du plus grand élément: {revenus_array.argmax()}")

# ordonner par ordre croissant :
revenus_array.sort()
print(f"- Array trie: {revenus_array}")

# Calculer la somme :
print(f"- La somme de tous les éléments: {revenus_array.sum()}")

- La moyenne des valeurs de l'array: 2134.4
- La valeurs maximum des valeurs de l'array: 3000
- La valeurs minimum des valeurs de l'array: 1500
- Indice du plus petit élément : 1
- Indice du plus grand élément: 3
- Array trie: [1500 1800 2172 2200 3000]
- La somme de tous les éléments: 10672


### Transformer des données en tableaux
---
#### <ins>Créer un tableaux numpy</ins>

En géneral un tableau contient plusieurs colonnes.Pour cela le mieux et de le convertir en ***tableau à plusieurs dimensions*** avec numpy.
> un array est un **objet multidimensionnel**, c’est-à -dire qu’il est possible de créer des arrays de toutes dimensions, et que l’ensemble des méthodes d’array prennent en compte ce côté multidimensionnel. 

**exemple**: Vous travaillez dans le milieu bancaire et vous avez besoin de créer un tableau où vous retrouveriez, en plus des revenus de vos clients, le nombre d'enfants à charge.
- Hugo, 21 ans, gagnant 1400€/mois et n’ayant aucun enfant.

In [20]:
hugo = [21, 1400, 0]
richard = [54, 2800, 2]
emilie = [27, 3700, 3]
tableau = [hugo, richard, emilie]
print("Liste: ", tableau)

array = np.array(tableau)
print(f"Array numpy:\n{array}\n- dimensions: {array.shape}")

Liste:  [[21, 1400, 0], [54, 2800, 2], [27, 3700, 3]]
Array numpy:
[[  21 1400    0]
 [  54 2800    2]
 [  27 3700    3]]
- dimensions: (3, 3)


Pour rajouter un nouveau client utiliser ```np.vstack(array, client)``` :

In [21]:
louise = [31, 1900, 1]
np.vstack((array, louise))

array([[  21, 1400,    0],
       [  54, 2800,    2],
       [  27, 3700,    3],
       [  31, 1900,    1]])

Il est possible de créer des tableaux en *bien plus que 2 dimensions*. Par exemple, pour un tableau en 3D il suffira d’utiliser une liste de listes de listes.

In [22]:
# un tableau de 3x5 rempli de 1
np.ones((3, 5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [23]:
# un tableau de 4 lignes et de 4 colonnes contenant que des 0
np.zeros((4, 4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [24]:
# un tableau contenant une suite lineaire de 0 a 9 :
np.arange(0, 10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [25]:
# un tableau de 3x3 rempli de valeurs aléatoires entières, comprises entre 1 et 10
np.random.randint(1, 10, size=(3, 3))

array([[9, 8, 7],
       [1, 3, 5],
       [4, 8, 2]])

#### <ins>Analogie entre les arrays et les matrices</ins>

Les tableaux, matérialisés par des arrays NumPy, portent le nom de **matrices**, en mathématiques. Le but premier de NumPy, avant même toutes ses applications dans le domaine de la data, est de *proposer des outils pour manipuler ces matrices et effectuer ce qu’on appelle des **calculs matriciels***.
> Les matrices sont une composante essentielle de l’algèbre linéaire. Elles permettent différents type de calculs.

In [26]:
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 10], [15, 20]])
C = np.array([[2, 4, 6], [8, 10, 12]])

A+B  #-> [1 + 5, 2 + 10], [3 + 15, 4 + 20] 

array([[ 6, 12],
       [18, 24]])

Il est également possible de faire une multiplication terme à terme via l’opérateur  ```*``` , comme avec une multiplication normale : ```A*B```

In [27]:
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 10], [15, 20]])

A * B

array([[ 5, 20],
       [45, 80]])

## Créer des dataframes avec Pandas
---

Les arrays NumPy sont particulièrement efficaces pour traiter des valeurs numériques. Mais les données, *dans la réalité, ne sont pas composées uniquement de chiffres et de nombres.*

En effet, on retrouve aussi :
- des catégories;
- des labels;
- des dates;
- du texte brut;

Ces données ont généralement un format prédéfini en analyse de données, où chaque ligne va correspondre à un individu (au sens statistique du terme), et chaque colonne va être une caractéristique spécifique des individus.

<ins>Exemple</ins>: Dans le milieu bancaire enfin, chaque individu sera une personne, sur laquelle on aurait enregistré le salaire moyen, le genre, ses mensualités de remboursement de prêt, etc...

Cest données sont souvent stocké dans un tableau ```Excel``` ou un fichier ```csv```.
> Ce sont simplement des fichiers contenant l’ensemble des données brutes, séparées par un délimiteur. 
Cela peut également être sous la forme de fichier JSON. Le ***JavaScript Object Notation (JSON)*** est un format standard utilisé pour représenter des données structurées. Cela ressemble à un gros dictionnaire Python pouvant contenir lui-même d’autres dictionnaires et/ou listes. 

### Créer son premier data frame avec Pandas
---

Pour lire un fichier csv utiliser ```pd.read_csv("file.csv")``` :

In [1]:
# !pip install pandas

import pandas as pd

data_csv = pd.read_csv("./P2C1_clients/clients.csv")
# data_csv = pd.read_csv("cars.csv")
data_csv.head()

Unnamed: 0.1,Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


Pour lire un fichier json utiliser ```pd.read_json("file.json")``` :

In [29]:
data_json = pd.read_json("./P2C1_clients/clients.json")
data_json.head()

Unnamed: 0,identifiant,email,nom,genre
0,0,LaurentDagenais@rhyta.com,Laurent Dagenais,M
1,1,GuyMarois@fleckens.hu,Guy Marois,M
2,2,BeaufortLesage@einrot.com,Beaufort Lesage,M
3,3,RussellDurand@armyspy.com,Russell Durand,M
4,4,AlexisRiel@rhyta.com,Alexis Riel,M


In [30]:
# Permet de récuperer le type de chaque variables contenue dans le fichier :
data_json.dtypes

identifiant     int64
email          object
nom            object
genre          object
dtype: object

Pour transformer un data frame en array :

In [31]:
data_array = data_json.values
print(data_array[0:3])

[[0 'LaurentDagenais@rhyta.com' 'Laurent Dagenais' 'M']
 [1 'GuyMarois@fleckens.hu' 'Guy Marois' 'M']
 [2 'BeaufortLesage@einrot.com' 'Beaufort Lesage' 'M']]


L’objet data frame de Pandas permet de manipuler simplement et efficacement les données :
- En important très facilement tous ces différents formats ; 
- En accédant facilement aux caractéristiques générales de notre jeu de données, comme les types de variables, le nombre de lignes, le nombre de colonnes, etc.

### Manipulez le data frame
---

Dans un data frame, *chaque colonne est explicitement nommée*, rendant la compréhension de cette dernière plus claire, et permettant d’accéder à une colonne spécifique à partir de son nom!

Pour accéder à une colonne d’un data frame, il suffit d’utiliser la syntaxe ```nom_dataframe[nom_colonne]``` .

In [32]:
# Recupere tous les emails du fichier :
emails = data_csv["email"]
print(emails)

0            LaurentDagenais@rhyta.com
1                GuyMarois@fleckens.hu
2            BeaufortLesage@einrot.com
3            RussellDurand@armyspy.com
4                 AlexisRiel@rhyta.com
                    ...               
223    ClaudeDandonneau@jourrapide.com
224      ApollineMichaud@superrito.com
225         PascalineBeaudry@rhyta.com
226       FleurCaouette@jourrapide.com
227        FrancisMasse@jourrapide.com
Name: email, Length: 228, dtype: object


In [34]:
# Permet de récupérer plusieurs colonnes :
variables = ["nom", "email"]
data_csv[variables]

Unnamed: 0,nom,email
0,Laurent Dagenais,LaurentDagenais@rhyta.com
1,Guy Marois,GuyMarois@fleckens.hu
2,Beaufort Lesage,BeaufortLesage@einrot.com
3,Russell Durand,RussellDurand@armyspy.com
4,Alexis Riel,AlexisRiel@rhyta.com
...,...,...
223,Claude Dandonneau,ClaudeDandonneau@jourrapide.com
224,Apolline Michaud,ApollineMichaud@superrito.com
225,Pascaline Beaudry,PascalineBeaudry@rhyta.com
226,Fleur Caouette,FleurCaouette@jourrapide.com


### Filtrez les données du data frame
---

### Agrégez des données avec Pandas
---

### Fusionnez des données avec Pandas
---

## Construire des data visualisations avec Matplotlib et Seaborn.
---