# **Dev-Data Pratique : Essentiel NumPy**

# <h2 style = " color: blue">**Auteur** : Sokhna Diarra </h2>

# **Objectifs pédagogiques**
- Comprendre la structure des tableaux NumPy (ndarray)
- Maîtriser les opérations numériques, logiques et la manipulation de forme
- Appliquer NumPy à des problèmes simples de data science



<h4 style = "color : green"> <b>importation</b> </h4>

In [1]:
# importer numpy
import numpy as np

## **Partie 1** – Création et exploration de tableaux
1. Créons un tableau NumPy contenant les valeurs de 15 à 59


In [124]:
tableau1 = np.arange(15,60)
tableau1

array([15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31,
       32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48,
       49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59])

2. Créons un tableau 3x3 rempli de 1


In [21]:
tableau2 = np.ones((3,3))
tableau2

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

3. Créons un tableau 9x9 rempli de 9
<h5 style = "color : green"> Ici nous allons utiliser <b>full</b> qui permet de spécialiser une valeur </h5>

In [22]:
tableau3 = np.full((9,9),9)
tableau3

array([[9, 9, 9, 9, 9, 9, 9, 9, 9],
       [9, 9, 9, 9, 9, 9, 9, 9, 9],
       [9, 9, 9, 9, 9, 9, 9, 9, 9],
       [9, 9, 9, 9, 9, 9, 9, 9, 9],
       [9, 9, 9, 9, 9, 9, 9, 9, 9],
       [9, 9, 9, 9, 9, 9, 9, 9, 9],
       [9, 9, 9, 9, 9, 9, 9, 9, 9],
       [9, 9, 9, 9, 9, 9, 9, 9, 9],
       [9, 9, 9, 9, 9, 9, 9, 9, 9]])

4. Générons un tableau aléatoire (4x5) de valeurs entre 0 et 100
<h5 style = " color: green" > Utilisons random pour générer un tableau aléatoire et randint pour des valeurs entier </h5>


In [125]:
tableau4 = np.random.randint(0,101, (4,5))
tableau4

array([[ 74,  82,  60,  55,  17],
       [ 97,  35,  83,  80,  32],
       [ 88,  42,  70,  12, 100],
       [ 53,  71,  15,  61,  27]], dtype=int32)

5. Afficher les propriétés : shape, dtype, size, ndim
   

<h4 style= "color:red"><b>shape</b> : </h4>Permet de vérifier la forme de notre tableau Exemple: <br>
            Avec tableau2.shape nous aurons (3,3) : 3 lignes et 3 colonnes

In [49]:

tableau2.shape


(3, 3)

<h4 style= "color:red"><b>dtype</b> : </h4> Permet de vérifier le type de données de notre tableau exemple :<br>
            Avec tableau1.dtype nous aurons int64 : int pour dire que les données sont des entiers et 64 pour dire que les données sont de 64 bits donc int64 = entiers de 64 bits 
            


In [52]:
tableau1.dtype

dtype('int64')

<h4 style= "color:red"><b>size</b> : </h4>Renvoie le nombre d'éléments le long d'un axe donné. Exemple :<br>
            Avec tableau4.size nous avons 20 éléments : 4*5

In [56]:
tableau4.size

20

<h4 style= "color:red"><b>ndim</b> : </h4> Renvoie le nombre de dimensions d'un tableau. Exemple : <br>
                Avec tableau1.size nous aurons 1 car tableau1 est un tableau 1D. Mais avec tableau2.size nous aurons 2 qui veut dire que tableau2 est un tableau 2D.

In [64]:
print("Pour tableau1 :",tableau1.ndim, "Et pour tableau2 :",tableau2.ndim)

Pour tableau1 : 1 Et pour tableau2 : 2


## **Partie 2** – Indexation et slicing


1. Extraire les 3 premiers éléments d’un tableau 1D


In [35]:
# créer un tableau de 1D simple
tableau1D = np.array([13,10,6,8])

# maintenant nous allons extraire les 3 premiers éléments
trois_premiers_elements = tableau1D[:3]
print("Les 3 premiers éléments du tableau 1D (" , tableau1D , ") sont : ", trois_premiers_elements)

Les 3 premiers éléments du tableau 1D ( [13 10  6  8] ) sont :  [13 10  6]


2. Extraire la 2e ligne d’un tableau 2D


In [40]:
# créer un tableau de 2D simple avec des valeurs aléatoire comprises entre 1 et 20 (nous avons 4 lignes et 5 colonnes)
tableau2D = np.random.randint(1,20, (4,5))

# maintenant nous allons extraire la 2e ligne du tableau
deuxieme_ligne = tableau2D[1]
print("La deuxiéme ligne du tableau 2D (" , tableau2D , ") est : ", deuxieme_ligne)

La deuxiéme ligne du tableau 2D ( [[ 6 15  6  3 17]
 [ 1 15 16 18 17]
 [11  9 14 10  3]
 [10  2  3 19  6]] ) est :  [ 1 15 16 18 17]


3. Extraire la 1ère colonne d’un tableau 2D


In [None]:
# nous allons extraire la 1ère colonne du tableau 
premiere_colonne = tableau2D[0:,0]
print("La premiere colonne du tableau 2D (" , tableau2D , ") est : ", premiere_colonne)

La premiere colonne du tableau 2D ( [[ 6 15  6  3 17]
 [ 1 15 16 18 17]
 [11  9 14 10  3]
 [10  2  3 19  6]] ) est :  [ 6  1 11 10]


4. Modifier une ligne du tableau (remplacer la 3ème par des zéros)


In [68]:
# nous allons remplaçer toute la ligne 3 par zéros
tableau2D[2] =0
print(tableau2D)

[[ 6 15  6  3 17]
 [ 1 15 16 18 17]
 [ 0  0  0  0  0]
 [10  2  3 19  6]]


## Partie 3 – Opérations mathématiques


1. Appliquer +, -, *, / sur deux tableaux identiques


In [87]:
# créons deux tableaux identiques
tab1 = np.array([[1,2,3],[4,5,6]])
tab2 = np.array([[1,2,3],[4,5,6]])

# Pour + 
som = tab1 + tab2

# Pour -
diff = tab1 - tab2

# Pour * (élément par élément)
prod = tab1 * tab2

# Pour / (élément par élément)
div = tab1 / tab2

print("L'application de : \nPour +\n",som ,"\nPour  -\n",diff,"\nPour * \n",prod ,"\nPour / \n",div)


L'application de : 
Pour +
 [[ 2  4  6]
 [ 8 10 12]] 
Pour  -
 [[0 0 0]
 [0 0 0]] 
Pour * 
 [[ 1  4  9]
 [16 25 36]] 
Pour / 
 [[1. 1. 1.]
 [1. 1. 1.]]


2. Calculons : moyenne, somme, écart-type, maximum


In [79]:
# Moyenne avec mean
print("Moyenne de tab1 est: ", np.mean(tab1))

# Somme avec sum
print("Somme de tab1 est: ", np.sum(tab1))

# L'écart-type avec std
print("Ecart-type de tab1 est: ", np.std(tab1))

#Le maximum avec max
print("Maximum de tab1 est: ", np.max(tab1))

Moyenne de tab1 est:  3.5
Somme de tab1 est:  21
Ecart-type de tab1 est:  1.707825127659933
Maximum de tab1 est:  6


3. Créons un masque pour filtrer les valeurs supérieures à 50


In [88]:
# Créons le tableau
tab = np.random.randint(1,150, (5,6))

#Créons le masque
masque = tab > 50

# En fin filtrons avant d'afficher
filtrer = tab[masque]

# Affichage 
print ("Avec le tableau : \n", tab, "\nnous avons filtré les valeurs supérieures à 50 :\n", filtrer)

Avec le tableau : 
 [[ 15  58  71  77  23  69]
 [ 53 143 107  41  98 115]
 [ 68  84 115  23  78  53]
 [ 65  23  64 106 125 130]
 [ 65 101  86  49  56   6]] 
nous avons filtré les valeurs supérieures à 50 :
 [ 58  71  77  69  53 143 107  98 115  68  84 115  78  53  65  64 106 125
 130  65 101  86  56]


4. Appliquons une fonction personnalisée à tous les éléments (lambda + np.vectorize)


In [94]:
# Prenons un tab de 5*5 avec des nombres paires, impaires, positifs et négatifs
tab4 = np.array([[ -4,   3,   0, -11,   8],
    [ 12,  -9,   5,   2, -16],
    [  7,  14, -20,   1,  10],
    [ -1,  -2,  19,  -6,   4],
    [ 18,  15, -13,   6,  -7]])

#Créons une fonction personnalisée avec lambda
fonction_perso_lambda = lambda x: abs(2 *x) if x%2!=0 else abs(x) 

#appliquons la fonction personnalisée à chaque élément du tableau
tab4_modifie = np.vectorize(fonction_perso_lambda)(tab4)

# Afficher
print("Le tableau : \n", tab4 ,"\ndevient : \n", tab4_modifie)

Le tableau : 
 [[ -4   3   0 -11   8]
 [ 12  -9   5   2 -16]
 [  7  14 -20   1  10]
 [ -1  -2  19  -6   4]
 [ 18  15 -13   6  -7]] 
devient : 
 [[ 4  6  0 22  8]
 [12 18 10  2 16]
 [14 14 20  2 10]
 [ 2  2 38  6  4]
 [18 30 26  6 14]]


## Partie 4 – Reshape et fusion


1. Transformons un tableau 1D en 2D (5x2 puis 2x5)


In [99]:
#créons un tableau 1D avec ses éléments égal au nombre total d'éléments du reshape
tab1D = np.arange(1,11)

#Transformons en 2D 5x2
tab1D_en_5x2 = np.reshape(tab1D, (5,2))

#Transformons en 2D 2x5
tab1D_en_2x5 = tab1D.reshape(2,5)

# Affichons
print("Le tableau 1D :\n", tab1D)
print("\nTransformé en 2D 5x2 donne :\n", tab1D_en_5x2)
print("\nEt en 2D 2x5 donne :\n", tab1D_en_2x5)

Le tableau 1D :
 [ 1  2  3  4  5  6  7  8  9 10]

Transformé en 2D 5x2 donne :
 [[ 1  2]
 [ 3  4]
 [ 5  6]
 [ 7  8]
 [ 9 10]]

Et en 2D 2x5 donne :
 [[ 1  2  3  4  5]
 [ 6  7  8  9 10]]


2. Fusionnons deux tableaux avec vstack() et hstack()


In [112]:
# Prenons tabA et tabB
tabA = np.array([[1,3],[2,6]])
tabB = np.array([[5,7],[4,8]])

# Fusionner avec vstack() signifie : les empiler verticalement 
fusion_vertical = np.vstack((tabA, tabB))
print("tabA:",tabA, "\nEt tabB", tabB, "\nfusionnés verticalement :\n ", fusion_vertical)

# Fusionner avec hstack() signifie : les empiler horizontalement 
fusion_horizontal = np.hstack((tabA, tabB))
print("\ntabA:",tabA, "\nEt tabB", tabB, "\nfusionnés horizontalement :\n ", fusion_horizontal)

tabA: [[1 3]
 [2 6]] 
Et tabB [[5 7]
 [4 8]] 
fusionnés verticalement :
  [[1 3]
 [2 6]
 [5 7]
 [4 8]]

tabA: [[1 3]
 [2 6]] 
Et tabB [[5 7]
 [4 8]] 
fusionnés horizontalement :
  [[1 3 5 7]
 [2 6 4 8]]


3. Empiler des tableaux avec np.concatenate() (axis 0 et 1)
**A savoir**: 
a1, a2, … séquence de type tableau
Les tableaux doivent avoir la même forme, sauf dans la dimension correspondant à l'axe (le premier, par défaut).

axe int, facultatif
L'axe le long duquel les tableaux seront joints. Si l'axe est défini sur « Aucun », les tableaux sont aplatis avant utilisation. La valeur par défaut est 0.

sortie ndarray, facultatif
Si fourni, la destination du résultat. La forme doit être correcte et correspondre à celle que concatenate aurait renvoyée si aucun argument de sortie n'avait été spécifié.

dtype str ou dtype
Si fourni, le tableau de destination aura ce type de données. Ne peut pas être fourni avec out .



In [113]:
# Prenons tabA et tabB
tabA
tabB

# joindre une séquence de tableaux
tab_join0 = np.concatenate((tabA,tabB), axis=0)
tab_join1 = np.concatenate((tabA,tabB), axis=1)

#afficher
print ("L'axe 0 : \n",tab_join0,"\nL'axe 1 : \n",tab_join1)

L'axe 0 : 
 [[1 3]
 [2 6]
 [5 7]
 [4 8]] 
L'axe 1 : 
 [[1 3 5 7]
 [2 6 4 8]]


## Partie 5 – Mini-challenge


Contexte : Simulation de notes de 6 étudiants sur 5 matières.


- Créer un tableau notes de taille (6, 5) avec des valeurs entre 0 et 20


- Calculer la moyenne par étudiant


- Calculer la moyenne par matière


- Afficher les étudiants avec moyenne > 12


- Normaliser les notes (valeurs entre 0 et 1)


In [123]:
# Créons un tableau notes (6,5) valeurs compris entre 0 et 20
notes = np.random.randint(0,21,(6,5))
print("Les notes sont :\n", notes)

#Calculons la moyenne par étudiant (ligne) axe 1 signifie ligne (vu avec concatenate)
moyenne_par_etudiant = np.mean(notes, axis=1)
print("La moyenne par étudiant est : \n", moyenne_par_etudiant)

#Calculons la moyenne par matière (colonne) axe 0 signifie colonne
moyenne_par_matiere = np.mean(notes, axis=0)
print("La moyenne par matière est : \n", moyenne_par_matiere)

#Affichons les étudiants avec moyenne > 12
moyenne_sup12 = moyenne_par_etudiant[moyenne_par_etudiant >12]
print("Les étudiants avec une moyenne supérieure à 12 sont : \n", moyenne_sup12)


#Normalisons les notes (valeurs entre 0 et 1)
notes_normalisees = (notes - np.min(notes)) / (np.max(notes) - np.min(notes))
print("Les notes normalisées :\n", notes_normalisees)

Les notes sont :
 [[15 10 19 18 13]
 [ 9  4 20  6 18]
 [17  1 12 11 19]
 [12 17  8  3  2]
 [19  6 15  9  6]
 [19  9 14 13 11]]
La moyenne par étudiant est : 
 [15.  11.4 12.   8.4 11.  13.2]
La moyenne par matière est : 
 [15.16666667  7.83333333 14.66666667 10.         11.5       ]
Les étudiants avec une moyenne supérieure à 12 sont : 
 [15.  13.2]
Les notes normalisées :
 [[0.73684211 0.47368421 0.94736842 0.89473684 0.63157895]
 [0.42105263 0.15789474 1.         0.26315789 0.89473684]
 [0.84210526 0.         0.57894737 0.52631579 0.94736842]
 [0.57894737 0.84210526 0.36842105 0.10526316 0.05263158]
 [0.94736842 0.26315789 0.73684211 0.42105263 0.26315789]
 [0.94736842 0.42105263 0.68421053 0.63157895 0.52631579]]
