# Manipulation des données sous Numpy 


## I. Introduction 


#### Exemple introductif: 
soit la liste suivante "revenus" represente le revenu de cinq clients de notre banque

In [1]:
revenus=[1700,2200,3000,1950, 3100]

Pour calculer la moyenne de cette liste, il n'existe pas une fonction qui permet de le faire directement. il faut creer une.

In [2]:
def moyenne(liste):
    return(sum(liste)/len(liste))
moyenne(revenus)

2390.0

Ce code est excelent, il donne le resultat demandé, mais pour être plus rapide et plus efficace on peut utiliser la librairie NumPy qui offre des fonctions pour des opérations sur les données en se bassant sur l'objet array.

Le tableau NumPy, ou array, en anglais, est d’une certaine manière similaire à une liste Python. 
Il permet d’effectuer simplement et rapidement de nombreuses opérations complexes, en plus de faciliter le stockage et la manipulation des données


Refaire le calcul de la moyenne avec NumPy 


Dans un premier temps, importons la librairie NumPy dans notre Notebook

In [4]:
import numpy as np

In [5]:
#calculons la moyenne 
moyenne=np.mean(revenus)
print(f"la moyenne des revenus des clients est:\n {moyenne}")

la moyenne des revenus des clients est:
 2390.0


**Remarque:**
Contrairement à une liste classique où l’on peut stocker tous types d’objets, NumPy n’acceptera qu’un seul type en entrée.
De plus, NumPy donne également accès à de nombreuses autres fonctions mathématiques indispensables, applicables à des arrays ou même à des listes 

In [8]:
x = [-2, -1, 1, 2]
print("La valeur absolue: ", np.abs(x))
print("Exponentielle: ", np.exp(x))
print("Logarithme: ", np.log(np.abs(x)))

La valeur absolue:  [2 1 1 2]
Exponentielle:  [0.13533528 0.36787944 2.71828183 7.3890561 ]
Logarithme:  [0.69314718 0.         0.         0.69314718]


## II. Creation d'un Array NumPy

In [11]:
revenus_array=np.array(revenus)
revenus_array

array([1700, 2200, 3000, 1950, 3100])

**Remarque:** 
Si dans la liste de départ il y a des données de types différents, NumPy essaiera de tous les convertir au type le plus général.

Il existe également des fonctions NumPy permettant de créer des arrays selon un certain pattern ou une spécification particulière. Les plus couramment utilisées sont :

In [13]:
#créer un array rempli de 0, de n éléments
array_zero=np.zeros(5)
array_zero


array([0., 0., 0., 0., 0.])

In [15]:
#créer un array rempli de 1, de n éléments
array_one=np.ones(5)
array_one


array([1., 1., 1., 1., 1.])

In [16]:
#Créer un array rempli avec une séquence linéaire, qui ira de  i  à  j, par pas de  p  
array_lineaire=np.arange(1, 20, 3)
array_lineaire

array([ 1,  4,  7, 10, 13, 16, 19])

In [20]:
#créer un array de  n  valeurs espacées uniformément entre  i  et  j.
array_uniform=np.linspace(5, 30, 5)
array_uniform

array([ 5.  , 11.25, 17.5 , 23.75, 30.  ])

## III. Sélection des éléments à partir d’un array

Comment les listes, l'accée aux elements d'array se fait avec les indices par le syntaxe suivant:

#### 1. Accédez à un seul élement: nom_array[indice]

In [22]:
# pour accéder au 5ème élement
revenus_array[4]

3100

In [23]:
# pour accéder au dernier élément
revenus_array[-1]

3100

In [24]:
# On peut aussi modifier les valeurs
revenus_array[1] = 1900

#### 2.Accédez à plusieurs élements contigus: nom_array[i:j:p] avec:
 i  : l’indice du début ;

 j  : l’indice de fin ;

 p : le pas.

 permettant de sélectionner tous les éléments compris entre l’indice  i  inclus, jusqu’à  j-1   – l’élément d’indice  j  est forcément exclu

In [26]:
#l’ensemble des éléments de l’indice 0 (soit le premier élément) jusqu’à celui d’indice 2 (soit le troisième)
revenus_array[0:3]

array([1700, 1900, 3000])

In [27]:
# Les 3 premiers éléments
print(revenus_array[:3])

[1700 1900 3000]


In [28]:
# Les éléments à partir de l’indice 2
print(revenus_array[2:])

[3000 1950 3100]


In [29]:
# Un élément sur deux
print(revenus_array[::2])

[1700 3000 3100]


In [30]:
#inverser le tableau
revenus_array[::-1]

array([3100, 1950, 3000, 1900, 1700])

#### 3. Accédez à plusieurs éléments selon une condition

Comme il est possible de sélectionner les éléments du tableau via leur indice, il est possible aussi avec les arrays NumPy de renseigner la condition selon laquelle on souhaite sélectionner les éléments du tableau, avec le syntaxe :   nom_array[condition de sélection]  .

In [33]:
# selectionner seulemnt les valeurs qui sont >=2000dt
revenus_array[revenus_array>= 2000]


array([3000, 3100])

In [34]:
#condition composée
revenus_array[(revenus_array > 2000) & (revenus_array < 4000)]


array([3000, 3100])

Remarque:
Le et logique (respectivement ou logique) n’est pas matérialisé par le mot clé "and" (respectivement "or") comme dans une structure conditionnelle if  classique, mais par le symbole  &   (respectivement  "|"). De plus, chaque condition doit être absolument délimitée par des parenthèses, sous peine de rencontrer une erreur. Cette écriture s’explique par le fait qu’on ne compare pas des booléens, mais des arrays de booléens, terme à terme.  

## Iv. Les méthodes d’array

In [39]:
#Dimensions d'array
taille=revenus_array.shape
print(f"la taille de tableau est\n {taille}")

la taille de tableau est
 (5,)


In [40]:
# calculer la moyenne
moyenne=revenus_array.mean()
print(f"la moyenne de tableau est\n {moyenne}")

la moyenne de tableau est
 2330.0


In [41]:
# calculer le maximum (ou le minimum) :
val_min=revenus_array.max()
val_max=revenus_array.min()
print(f"le min de tableau est: {val_min}\n le max de tableau est: {val_max}")

le min de tableau est: 3100
 le max de tableau est: 1700


In [42]:
# accéder à l’indice de l’élement minimum (ou maximum) :
indice_min=revenus_array.argmin()
indice_max=revenus_array.argmax()
print(f"le indice_min de tableau est: {indice_min}\n le indice_max de tableau est: {indice_max}")

le indice_min de tableau est: 0
 le indice_max de tableau est: 4


In [43]:
# ordonner par ordre croissant :
revenus_array.sort()
print("le tableau est trié: ",revenus_array)

le tableau est trié:  [1700 1900 1950 3000 3100]


In [44]:
# calculer la somme :
somme=revenus_array.sum()
print(f"la somme de tableau est\n {somme}")

la somme de tableau est
 11650


#### V. Application: 


Soit une personne travaillant dans un service data au sein d'une banque. Sa mission et de gerer les différents prêts des clients

Commençant par la première tâche:



soit les revenus mensuels des clients la liste:
L = [1800, 1500, 2200, 3000, 2172, 5000, 1400, 1200, 1100, 1300]

Travail demandé

1. Créez un array que vous nommerez revenus
2. Créez un nouvel array haut_revenus dans lequel vous sélectionnerez  
   l'ensemble des revenus supérieurs ou égal à 3000dt
3. calculez la somme des revenus annuelle. Pour rappel, les revenus listés  
    sont mensuels.
4. Calculez ensuite la moyenne des revenus des 10 clients
5. Un de nos clients (dont les revenus mensuels s'élevaient jusque là à 1400dt) vient de nous annoncer qu'il venait d'obtenir une promotion. Grâce à cette dernière, il a gagné 200dt sur son salaire mensuel. Effectuez cette modification au sein de votre array revenus.

Transformer les données en tableaux

Créer un tableau avec NumPy

Nous n’avons vu que des tableaux/arrays à une dimension, mais on ne travaille que très rarement avec une seule colonne.

Prenons un exemple : vous travaillez dans le milieu bancaire et vous avez besoin de créer un tableau où vous retrouveriez, en plus des revenus de vos clients, leurs mensualités de remboursement de prêt, le nombre d'enfants à charge, et toute autre information susceptible de vous être utile.

Considérons les clients suivants :

- Ala, un jeune homme de 21 ans, gagnant 1 400 dt par mois et n’ayant aucun 
   enfant ;

- Rachid, un homme de 54 ans, gagnant 2800 dt par mois et ayant 2 enfants ;

- Alia, une femme de 27 ans gagnant 3 700 dt et ayant 3 enfants.

In [2]:
# presenter les données sous forme d'une liste de liste 
Ala=[21, 1400, 0]
Rachid=[54, 2800, 2]
Alia= [27, 3700, 3]
Clients=[Ala, Rachid, Alia]
Clients

[[21, 1400, 0], [54, 2800, 2], [27, 3700, 3]]

 on trouve que Clients est une liste de liste, mais nous avons néanmoins toujours l’ensemble des limitations liées aux listes, avec cette façon de faire.

 

Utilisez donc NumpPy et des arrays pour resoudre ses problèmes. En effet, un array est un objet multidimensionnel, c’est-à -dire qu’il est possible de créer des arrays de toutes dimensions, et que l’ensemble des méthodes d’array prennent en compte ce côté multidimensionnel.

La façon la plus simple de créer un array est de le faire à partir d’une liste de listes Python, comme avec une liste classique. Il suffira d'utliser le syntaxe suivant: 

      np.array(nom_liste) 
      pour transformer notre liste de listes en array NumPy de 3 lignes et 3 colonnes.

In [5]:
#exemple:
import numpy as np
#un array de 3 lignes et 2 colonnes
tab1 = np.array([[1, 2],
    [3, 4],
    [5, 6]])
print("T1", tab1)



T1 [[1 2]
 [3 4]
 [5 6]]


In [7]:
#un array de 2 lignes et 3 colonnes
tab2 = np.array([[1, 2, 3],
        [4, 5, 6]])
print("T2", tab2)

T2 [[1 2 3]
 [4 5 6]]


Remarque: 
Il est possible de créer des tableaux en bien plus que 2 dimensions. Par exemple, pour un tableau en 3D il suffira d’utiliser une liste de listes de listes.

Comme précédemment, nous pouvons également utiliser des fonctions NumPy pour créer des tableaux plus ou moins complexes. Voici quelques exemples de fonctions couramment utilisées :

In [None]:
# un tableau de 3x5 rempli de 1
array_ones=np.ones((3, 5))
array_ones

In [9]:
# un tableau de 4 lignes et de 4 colonnes contenant que des 0
array_zeros=np.zeros((4, 4))
array_zeros

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [10]:
# un tableau de 6x3 rempli de valeurs aléatoires comprises entre 0 et 1
array_rand=np.random.random((6, 3))
array_rand

array([[0.13760635, 0.70084894, 0.21553091],
       [0.22154671, 0.41944091, 0.92989067],
       [0.37675976, 0.06179739, 0.30346947],
       [0.0762272 , 0.55371554, 0.134651  ],
       [0.6244412 , 0.83869589, 0.04702978],
       [0.03296119, 0.45406305, 0.11240946]])

In [11]:
# un tableau de 3x3 rempli de valeurs aléatoires entières, comprises entre 1 et 10
array_randint=np.random.randint(1, 10, size=(3, 3))
array_randint

array([[9, 8, 4],
       [7, 7, 5],
       [9, 6, 8]])

Manipulations avancées d’array

In [14]:
#transformer la liste des Clients en array
Data=np.array(Clients)
print("data:", Data)

data: [[  21 1400    0]
 [  54 2800    2]
 [  27 3700    3]]


In [15]:
#afficher le revenu de premier client
Data[0,1]

1400

In [16]:
#afficher les information du premier client
Data[0,:]

array([  21, 1400,    0])

In [22]:
#afficher la liste des enfants des clients 
Data[:,2]

array([0, 2, 3])

In [26]:
#les clients qui ont l'age >= 25 ans
Data[Data[:,0] > 25]

array([[  54, 2800,    2],
       [  27, 3700,    3]])

In [28]:
#les clients qui ont des revenus > 3000dt
Data[Data[:,1] > 3000]

array([[  27, 3700,    3]])

In [29]:
#Ajouter un nouveau client à la suite de notre data en utilisant la methode vstack
Asma=[33, 2400, 3]
Data=np.vstack((Data,Asma))
Data


array([[  21, 1400,    0],
       [  54, 2800,    2],
       [  27, 3700,    3],
       [  33, 2400,    3]])

Application:

Soit une liste de 10 clients dont on a: 
- le revenu mensuel
- l'age du client 
- le nombre d'enfants en charge


1. Ala= [1800, 21, 0]
2. Ahmed = [1500, 54, 2]
3. Rachid = [2200, 28, 3]
4. sana = [3000, 37, 1]
5. paul = [2172, 37, 2]
6. Asma = [5000, 32, 0]
7. yannik = [1400, 23, 0]
8. anne = [1200, 25, 1]
9. souha = [1100, 19, 0]
10. sarra= [1300, 31, 2]

Travail demandé: 
1. Creer un tableau NumPy contient les données des clients nommé DATA
2. Paul souhaiterait contracter un prêt immobilier :
       - affichez les informations qui lui sont relatives. 
       - calculez ses mensualités maximales, en sachant que le taux 
       l'endettement maximum est de 35% (il ne pourra donc pas rembourser par mois plus de 35% de son revenu).
3. Ajouter à notre DATA un nouveau client vient d'arriver dont les informations sont les suivantes :    louise=[1900, 31, 1]. 
4. Stockez les informations de salaire de notre clientèle dans une variable revenus