##### Cours : OpenClassRooms

Opérations complexes dans des tableaux avec numpy

##### Date : 03-01-23
***

In [1]:
import pandas as pd
import numpy as np

##### <font color = 'green'>Différence entre l'objet list et l'objet array </font>

Calculs complexes dans des tableaux avec le package Numpy en recourant à l'objet array <br>
L'objet array est similaire à l'objet list, mais l'array permet d'effectuer de manière rapide les opérations complexes

Un array peut aller 30 x plus vite qu'une liste qui s'explique par le fait que l'array ne peut contenir qu'un seul type d'objet contrairement à une liste <br>
Si dans la liste de départ il y a des données de types différents, NumPy essaiera de tous les convertir au type le plus général. <br>
Par exemple, si un tableau contient des entiers (int) et des nombres décimaux (float), tous ses éléments seront convertis en nombres décimaux (float)

In [2]:
revenus = [1800, 1500, 2200, 3000, 2172]

In [3]:
# En recourant à une liste
def moyenne(liste):
    return sum(liste)/len(liste)

moyenne(revenus) # => 2135.0

2134.4

In [4]:
# En recourant à un array
np.mean(revenus)

2134.4

##### <font color = 'green'>Création d'un array Numpy</font>

Méthode la plus simple : convertion d'une liste en un array

In [5]:
revenus_array = np.array(revenus)
revenus_array

array([1800, 1500, 2200, 3000, 2172])

Création d'un objet array multidimentionnel (tableau avec + d'une colonne)

In [6]:
tab1 = np.array([[1, 2],
    [3, 4],
    [5, 6]])
tab1 # Tableau de 3 lignes et 2 colonnes

array([[1, 2],
       [3, 4],
       [5, 6]])

In [7]:
tab2 = np.array([[1, 2, 3],
        [4, 5, 6]])
tab2 # Tableau de 2 lignes et 3 colonnes

array([[1, 2, 3],
       [4, 5, 6]])

In [8]:
# un tableau de 3x5 rempli de 1
np.ones((3, 5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [9]:
# un tableau de 4 lignes et de 4 colonnes contenant que des 0
np.zeros((4, 4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [10]:
# un tableau de 6x3 rempli de valeurs aléatoires comprises entre 0 et 1
np.random.random((6, 3))

array([[0.13456374, 0.93416447, 0.65389803],
       [0.15407092, 0.70208826, 0.87629455],
       [0.40807902, 0.85699477, 0.13004214],
       [0.87120827, 0.1279119 , 0.01839612],
       [0.43735417, 0.12547758, 0.02917253],
       [0.5016848 , 0.26088697, 0.61639987]])

In [11]:
# un tableau de 3x3 rempli de valeurs aléatoires entières, comprises entre 1 et 10
np.random.randint(1, 10, size=(3, 3))

array([[4, 9, 6],
       [8, 5, 9],
       [6, 6, 6]])

##### <font color = 'green'>Les différentes fonctions avec le package Numpy</font>

**Création d'un array :** <br>
np.zeros(n): permet de créer un array rempli de 0, de n éléments <br>
np.ones(n) : similaire en tous points à la fonction présentée ci-dessus, à la différence que l’array sera rempli cette fois-ci de 1 <br>
np.arange(i, j, p)  : permet de créer un array rempli avec une séquence linéaire, qui ira de i à j, par pas de p <br>
np.linspace(i, j, n) : permet de créer un array de  n  valeurs espacées uniformément entre i et j <br>

**Sur le contenu de l'array :** <br>
nom_array.dtype : type (unique) présent dans l'array <br>
nom_array.shape : dimensions de l'array <br>

**Les méthodes de calcul :** <br>
nom_array.mean() : moyenne<br>
nom_array.max() : maximum<br>
nom_array.min() : minimum<br>
nom_array.argmax() : accès à l'indice de l'élément maximum<br>
nom_array.argmin() : accès à l'indice de l'élément minimum<br>
nom_array.sort() : trie croissant<br>
nom_array.sum() : somme

In [12]:
revenus_array.dtype 
# int32 -> nombre de 32 bits (= 2 ^ 31 chiffres entiers soit de - 2 147 483 648 à 2 147 483 647)
# int8 -> nombre de 8 bits (= 2 ^ 7 chiffres entiers soit de - 128 à 127)

dtype('int32')

In [13]:
revenus_array.shape
# L'array comprend 5 éléments

(5,)

In [14]:
# calculer la moyenne
revenus_array.mean()

2134.4

In [15]:
# calculer le maximum :
revenus_array.max()

3000

In [16]:
# calculer le le minimum :
revenus_array.min()

1500

In [17]:
# accéder à l’indice de l’élement minimum :
revenus_array.argmin()


1

In [18]:
# accéder à l’indice de l’élement maximum :
revenus_array.argmax()

3

In [19]:
# ordonner par ordre croissant :
revenus_array.sort()
revenus_array

array([1500, 1800, 2172, 2200, 3000])

In [20]:
# calculer la somme :
revenus_array.sum()

10672

##### <font color = 'green'>Accès à un élément d'un array </font>

L’accès à un élément spécifique d’un array se fait via la syntaxe :  nom_array[indice]

In [21]:
# pour accéder au 5ème élement
revenus_array[4]

3000

In [22]:
# pour accéder au dernier élément
revenus_array[-1]

3000

In [23]:
# On peut aussi modifier les valeurs
revenus_array[1] = 1900
revenus_array

array([1500, 1900, 2172, 2200, 3000])

##### <font color = 'green'>Accédez à plusieurs éléments contigus </font>

Nous pouvons accéder à un ensemble d'éléments contigus en combinant [] et : . <br>
La syntaxe suit une règle simple : nom_array[i:j:p], avec : <br>
 i  : l’indice du début <br>
 j  : l’indice de fin <br>
 p : le pas <br>
permettant de sélectionner tous les éléments compris entre l’indice i inclus, jusqu’à  j-1 (l’élément d’indice j est forcément exclu)

In [24]:
revenus_array[0:3] # Accès aux éléments indice 0 jusqu'à l'indice 2 (indice 3 exclu)

array([1500, 1900, 2172])

In [25]:
# Les 3 premiers éléments
revenus_array[:3]

array([1500, 1900, 2172])

In [26]:
# Les éléments à partir de l’indice 2
revenus_array[2:]

array([2172, 2200, 3000])

In [27]:
# Un élément sur deux
revenus_array[::2]

array([1500, 2172, 3000])

In [28]:
# Éléments inversés du tableau
revenus_array[::-1]

array([3000, 2200, 2172, 1900, 1500])

##### <font color = 'green'>Accédez à plusieurs éléments selon une condition </font>

On peut cependant souhaiter aller plus loin dans l’accès aux différents éléments. <br>
En effet, lors d’une étude de données on est régulièrement amené à devoir sélectionner une partie de nos données, selon un critère (ex. un genre spécifique) ou une condition (ex. toutes les personnes en dessous d’un certain âge). <br>
De la même façon qu’il est possible de sélectionner des éléments via leur indice, il est possible avec les arrays NumPy de renseigner la condition selon laquelle on souhaite sélectionner les éléments du tableau, avec l’écriture : nom_array[condition de sélection]

In [29]:
# Valeurs uniquement supérieures à 2 000
revenus_array[revenus_array > 2_000]

array([2172, 2200, 3000])

In [30]:
# Valeurs comprises entre supérieures à 2000 et inférieures à 3000
revenus_array[(revenus_array > 2_000) & (revenus_array < 3_000)]

array([2172, 2200])

In [31]:
# Modifier la valeur d'un élément
revenus_array[revenus_array == 2_200] = 2_500
revenus_array

array([1500, 1900, 2172, 2500, 3000])

##### <font color = 'green'>Synthèse - exemple n° 1</font>

Exemple des données d'une banque pour 10 clients : revenus, mensualité et âge

In [32]:
# Revenu, mensualité, âge par client d'une banque (10 clients)
hugo = [1300, 400, 23]
richard = [1700, 560, 24]
emilie = [2500, 900, 30]
gaspard = [3000, 1000, 22]
yohann = [2400, 700, 28]
chloe = [3000, 700, 34]
matthieu = [3500, 900, 35]
luc = [4000, 1200, 33]
rachel = [3300, 950, 27]
maud = [1850, 600, 25]

tableau = [hugo, richard, emilie, gaspard, yohann,
           chloe, matthieu, luc, rachel, maud]
tableau # 10 lignes et 3 colonnes

[[1300, 400, 23],
 [1700, 560, 24],
 [2500, 900, 30],
 [3000, 1000, 22],
 [2400, 700, 28],
 [3000, 700, 34],
 [3500, 900, 35],
 [4000, 1200, 33],
 [3300, 950, 27],
 [1850, 600, 25]]

In [33]:
# Conversion en un array numpy
data = np.array(tableau)
data

array([[1300,  400,   23],
       [1700,  560,   24],
       [2500,  900,   30],
       [3000, 1000,   22],
       [2400,  700,   28],
       [3000,  700,   34],
       [3500,  900,   35],
       [4000, 1200,   33],
       [3300,  950,   27],
       [1850,  600,   25]])

In [34]:
# Accès au 1er revenu du 1er client
data[0, 0]

1300

In [35]:
# Accès à la 1ère ligne (client hugo)
data[0, :]

array([1300,  400,   23])

In [36]:
# Accès à la 3ème colonne (âge)
data[:, 2]

array([23, 24, 30, 22, 28, 34, 35, 33, 27, 25])

In [37]:
# Toutes les données des personnes qui ont 25 ans max
data[data[:, 2] <= 25]

array([[1300,  400,   23],
       [1700,  560,   24],
       [3000, 1000,   22],
       [1850,  600,   25]])

In [38]:
# Toutes les données des revenus supérieurs à 2 000 €
data[data[:, 0] > 2_000]

array([[2500,  900,   30],
       [3000, 1000,   22],
       [2400,  700,   28],
       [3000,  700,   34],
       [3500,  900,   35],
       [4000, 1200,   33],
       [3300,  950,   27]])

In [39]:
# Nouveau client
fred = [1750, 700, 27]

In [40]:
# Ajout du client fred dans l'array numpy
np.vstack((data, fred))

array([[1300,  400,   23],
       [1700,  560,   24],
       [2500,  900,   30],
       [3000, 1000,   22],
       [2400,  700,   28],
       [3000,  700,   34],
       [3500,  900,   35],
       [4000, 1200,   33],
       [3300,  950,   27],
       [1850,  600,   25],
       [1750,  700,   27]])

##### <font color = 'green'>Synthèse - exemple n° 2</font>

Même exemple que le précédent mais avec d'autres clients, mais avec les données suivantes : revenu mensuel, âge du client, nombre d'enfants à charge

In [41]:
hugo = [1800, 21, 0]
richard = [1500, 54, 2]
emilie = [2200, 28, 3]
pierre = [3000, 37, 1]
paul = [2172, 37, 2]
deborah = [5000, 32, 0]
yohann = [1400, 23, 0]
anne = [1200, 25, 1]
thibault = [1100, 19, 0]
emmanuel = [1300, 31, 2]

tableau = [hugo, richard, emilie, pierre, paul, deborah,
           yohann, anne, thibault, emmanuel]
tableau

[[1800, 21, 0],
 [1500, 54, 2],
 [2200, 28, 3],
 [3000, 37, 1],
 [2172, 37, 2],
 [5000, 32, 0],
 [1400, 23, 0],
 [1200, 25, 1],
 [1100, 19, 0],
 [1300, 31, 2]]

In [42]:
# Conversion de la liste en array numpy
data = np.array(tableau)
data

array([[1800,   21,    0],
       [1500,   54,    2],
       [2200,   28,    3],
       [3000,   37,    1],
       [2172,   37,    2],
       [5000,   32,    0],
       [1400,   23,    0],
       [1200,   25,    1],
       [1100,   19,    0],
       [1300,   31,    2]])

Paul souhaiterait contracter un prêt immobilier : affichez les informations qui lui sont relatives. Pour rappel, Paul correspond à la 5ème ligne de nos données

Calculez ses mensualités maximales, en sachant que le taux d'endettement maximum est de 35% (il ne pourra donc pas rembourser par mois plus de 35% de son revenu).

In [43]:
print(f"Données relatives à Paul (revenu, âge, nombre d'enfants): {data[4,:]}")
print('-' * 75)
print(f"Mensualités maximales : {round(data[4, 0] * 0.35, 2)} €")

Données relatives à Paul (revenu, âge, nombre d'enfants): [2172   37    2]
---------------------------------------------------------------------------
Mensualités maximales : 760.2 €


Un nouveau client vient d'arriver, dont les informations sont les suivantes :

In [44]:
louise = [1900, 31, 1]

Ajoutez ces informations à la suite de votre array data :

In [45]:
data = np.vstack((data, louise))
data

array([[1800,   21,    0],
       [1500,   54,    2],
       [2200,   28,    3],
       [3000,   37,    1],
       [2172,   37,    2],
       [5000,   32,    0],
       [1400,   23,    0],
       [1200,   25,    1],
       [1100,   19,    0],
       [1300,   31,    2],
       [1900,   31,    1]])

Stockez enfin l'ensemble des informations de salaire de notre clientèle dans une variable revenus :

In [46]:
revenus = data[:, 0]
revenus

array([1800, 1500, 2200, 3000, 2172, 5000, 1400, 1200, 1100, 1300, 1900])