# Manipulation de données avec Numpy

Importer numpy sous un alias.

In [2]:
import numpy as np

## Bases 

### Créer un tableau

Créer un tableau d'entier.   
Quelles conséquences s'il y a un float parmis les entiers ?

In [4]:
# tableau d'entier
a = np.array([1, 2, 3])
print(a)       
print(a.dtype)  

# tableau avec un décimal
b = np.array([1, 2, 3.5])
print(b)          # [1.  2.  3.5]
print(b.dtype)    # float64


[1 2 3]
int64
[1.  2.  3.5]
float64


Créer un tableau en précisant explicitement le type.  
Quelles conséquences si que des entiers mais dtype='float32', et inversement (floats en precisant dtype='int')?

In [9]:
# Précision explicite du type
tab_entiers = np.array([1, 2, 3, 4, 5], dtype=int)

# Tableau d'entier avec dtype='float32'
a = np.array([1, 2, 3], dtype='float32')
print(a)         
print(a.dtype)   

# Tableau de float avec dtype='int'
b = np.array([1.7, 2.3, 3.9], dtype='int')
print(b)         
print(b.dtype) 


[1. 2. 3.]
float32
[1 2 3]
int64


Créer un tableau constitué d'entier.  
Que se passe-t-il si on assigne une valeur non entière à un élément d'un tableau d'entier ? (Changer la 1ere valeur de x par une valeur non entière)

In [10]:
# tableau d'entier
x = np.array([1, 2, 3, 4], dtype=int)
print(x)      
print(x.dtype)  

# Changer la 1ere valeur de x par une valeur non entière
x[0] = 3.7
print(x)     
print(x.dtype) 

[1 2 3 4]
int64
[3 2 3 4]
int64


Créer des arrays multidimensionnels en utilisant des listes de listes.

In [11]:
# En écrivant tout à la main (expliciter les listes)
x = np.array([
    [1, 2, 3],     
    [4, 5, 6]       
])

print(x)
print("shape :", x.shape)  

# En utilisant un liste en compréhension
y = np.array([[i + j*3 for i in range(3)] for j in range(3)])

print(y)
print("shape :", y.shape)  

[[1 2 3]
 [4 5 6]]
shape : (2, 3)
[[0 1 2]
 [3 4 5]
 [6 7 8]]
shape : (3, 3)


Il existe de multiples possibilités avec numpy pour créer des tableaux différents (en jouant sur des dimensions ou des types différents).

In [12]:
# Tableau rempli de zéros
a = np.zeros((3, 4))    
print("zeros:\n", a, "\n")

# Tableau rempli de uns
b = np.ones((2, 3))    
print("ones:\n", b, "\n")

# Tableau avec la même valeur répétée
c = np.full((3, 3), 7)  
print("full:\n", c, "\n")

# Équivalent de range
d = np.arange(0, 10, 2)  
print("arange:\n", d, "\n")

# Séquence linéairement espacée
e = np.linspace(0, 1, 5)  
print("linspace:\n", e, "\n")

# Un tableau vide (valeurs indéterminées, dépend de la mémoire)
f = np.empty((2, 3))
print("empty:\n", f, "\n")


zeros:
 [[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]] 

ones:
 [[1. 1. 1.]
 [1. 1. 1.]] 

full:
 [[7 7 7]
 [7 7 7]
 [7 7 7]] 

arange:
 [0 2 4 6 8] 

linspace:
 [0.   0.25 0.5  0.75 1.  ] 

empty:
 [[1. 1. 1.]
 [1. 1. 1.]] 



np.random offre également des possibilités pour créer des tableaux en tirant les valeurs aléatoires.  
Créer une matrice 3x3 de valeurs tirées dans :  
- une uniforme comprise entre 0 et 1
- une dans une normale centrée et réduite
- une d'entiers entre 0 et 10.

In [14]:
# Tableau 3x3 de valeurs uniformes entre 0 et 1
a = np.random.rand(3, 3)
print("Uniforme [0,1):\n", a, "\n")

# Tableau 3x3 selon une loi normale (moyenne=0, écart-type=1)
b = np.random.randn(3, 3)
print("Normale N(0,1):\n", b, "\n")

# Tableau 3x3 d'entiers aléatoires entre 0 et 10 (exclu 10)
c = np.random.randint(0, 10, (3, 3))
print("Entiers [0,10):\n", c, "\n")

Uniforme [0,1):
 [[0.15585444 0.66376335 0.25442348]
 [0.84519651 0.35838749 0.89872373]
 [0.30280144 0.78816157 0.80877822]] 

Normale N(0,1):
 [[ 1.32274287 -1.70811486  0.56494817]
 [-0.11769116  1.53041092 -0.11558017]
 [ 0.50644869  0.85996935  0.90390292]] 

Entiers [0,10):
 [[6 7 1]
 [3 6 5]
 [8 8 6]] 



### Les attributs d'un tableau de données numpy

Créer trois tableaux x1, x2, x3, respectivement de 1, 2 et 3 dimensions, constitués d'entiers aléatoires.
Déterminer la taille, la dimension, le type d'un tableau de données. Jouer sur la taille pour voir les différences.

In [15]:
# Créer un tableau de données
# En une dimension
x1 = np.random.randint(0, 10, size=10)

# En deux dimensions
x2 = np.random.randint(0, 10, size=(4, 5))

# En trois dimensions
x3 = np.random.randint(0, 10, size=(2, 3, 4))

print("x1 (1D):\n", x1, "\n")
print("x2 (2D):\n", x2, "\n")
print("x3 (3D):\n", x3, "\n")

x1 (1D):
 [1 4 6 0 7 6 0 9 8 1] 

x2 (2D):
 [[6 1 7 2 1]
 [7 9 1 3 3]
 [5 9 9 9 0]
 [3 2 4 6 2]] 

x3 (3D):
 [[[0 5 2 1]
  [9 1 5 2]
  [9 3 7 2]]

 [[5 5 5 5]
  [0 4 1 6]
  [3 9 3 7]]] 



In [16]:
# Nombre de dimensions

# Taille de chaque dimension

# Taille totale du tableau

# Type de données du tableau 

def infos(tab, name):
    print(f"Infos sur {name}:")
    print(" - Nombre de dimensions :", tab.ndim)
    print(" - Taille de chaque dimension (shape) :", tab.shape)
    print(" - Taille totale (nb d’éléments) :", tab.size)
    print(" - Type de données :", tab.dtype, "\n")

infos(x1, "x1")
infos(x2, "x2")
infos(x3, "x3")

Infos sur x1:
 - Nombre de dimensions : 1
 - Taille de chaque dimension (shape) : (10,)
 - Taille totale (nb d’éléments) : 10
 - Type de données : int64 

Infos sur x2:
 - Nombre de dimensions : 2
 - Taille de chaque dimension (shape) : (4, 5)
 - Taille totale (nb d’éléments) : 20
 - Type de données : int64 

Infos sur x3:
 - Nombre de dimensions : 3
 - Taille de chaque dimension (shape) : (2, 3, 4)
 - Taille totale (nb d’éléments) : 24
 - Type de données : int64 



### Indexing (sélection d'un seul élément)

Sélectionner un élément i du tableau de données en une dimension.

In [18]:
# Sélectionner élément i
i = 3
print(f"Élément d’indice {i} :", x1[i])

# Sélectionner le dernier élèment sans prendre en compte la longueur du tableau
print("Dernier élément :", x1[-1])


Élément d’indice 3 : 0
Dernier élément : 1


De meme pour les tableaux multidimensionnels.

In [20]:
# Sélectionner un élément i, j
i, j = 2, 3
print(f"Élément x2[{i}, {j}] :", x2[i, j])

i, j, k = 1, 2, 3
print(f"Élément x3[{i}, {j}, {k} :", x3[i, j, k])

# Sélectionner le dernier élèment de la première ligne ainsi que de la dernière colonne
print("Dernier élément de la première ligne :", x2[0, -1])
print("Dernier élément de la dernière colonne :", x2[-1, -1])

print("Dernier élément de la première couche :", x3[0, -1, -1])
print("Dernier élément de la dernière colonne du dernier plan :", x3[-1, -1, -1])

Élément x2[2, 3] : 9
Élément x3[1, 2, 3 : 7
Dernier élément de la première ligne : 1
Dernier élément de la dernière colonne : 2
Dernier élément de la première couche : 2
Dernier élément de la dernière colonne du dernier plan : 7


### Slicing (sélection d'un sous-ensemble)

Créer une suite de 10 entiers. En sélectionner les 5 premiers éléments, les éléments après l'indice 5, ceux du 4 au 7, un sur 2, un sur 2 à partir de l'indice 1.

In [22]:
# Création de la suite
x = np.arange(10)
print("Suite complète :", x)

# 5 premiers éléments
print("5 premiers éléments :", x[:5])

# Après l'indice 5
print("Éléments après l'indice 5 :", x[6:])

# Entre l'indice 4 et 7
print("Éléments du 4 au 7 :", x[4:8])

# Un sur deux
print("Un élément sur 2 :", x[::2])

# Un sur deux à partir de l'indice 1
print("Un élément sur 2 à partir de l'indice 1 :", x[1::2])

Suite complète : [0 1 2 3 4 5 6 7 8 9]
5 premiers éléments : [0 1 2 3 4]
Éléments après l'indice 5 : [6 7 8 9]
Éléments du 4 au 7 : [4 5 6 7]
Un élément sur 2 : [0 2 4 6 8]
Un élément sur 2 à partir de l'indice 1 : [1 3 5 7 9]


Inverser le sens du tableau.  
Avoir les valeurs dans le sens inverse à partir de l'indice 5.  
Un sur deux à partir de l'indice 5 en sens inverse.


In [24]:
#En sens inverse
x_inverse = x[::-1]
print("Tableau inversé :", x_inverse)

# En sens inverse à partir de l'indice 5
inverse_depuis_5 = x[5::-1]
print("Inverse depuis l’indice 5 :", inverse_depuis_5)

# Un sur deux en sens inverse à partir de l'indice 5
un_sur_deux_inverse = x[5::-2]
print("Un élément sur deux depuis l’indice 5 en sens inverse :", un_sur_deux_inverse)

Tableau inversé : [9 8 7 6 5 4 3 2 1 0]
Inverse depuis l’indice 5 : [5 4 3 2 1 0]
Un élément sur deux depuis l’indice 5 en sens inverse : [5 3 1]


Voir comment cela fonctionne en dimension supérieure à 1 (en utilisant x2 ou x3).
Sélectionner les deux premières lignes et trois premières colonnes de x2, toutes les lignes et une colonne sur deux, la table en sens inverse.

In [27]:
# Deux premières lignes, trois premières colonnes
subset1 = x2[:2, :3]
print("Deux premières lignes et trois premières colonnes :\n", subset1)

# Toutes les lignes, une colonne sur deux
subset2 = x2[:, ::2]
print("Toutes les lignes, une colonne sur deux :\n", subset2)

# Tableau en sens inverse
inverse2D = x2[::-1, ::-1]
print("Tableau inversé :\n", inverse2D)

Deux premières lignes et trois premières colonnes :
 [[6 1 7]
 [7 9 1]]
Toutes les lignes, une colonne sur deux :
 [[6 7 1]
 [7 1 3]
 [5 9 0]
 [3 4 2]]
Tableau inversé :
 [[2 6 4 2 3]
 [0 9 9 9 5]
 [3 3 1 9 7]
 [1 2 7 1 6]]


Sélectionner la première ligne et la première colonne de x2.
Sélectionner les premières lignes de x3, les premières colonnes, le premier tableau.

In [29]:
# Première ligne
premiere_ligne = x2[0, :]
print("Première ligne :", premiere_ligne)

# Première colonne
premiere_colonne = x2[:, 0]
print("Première colonne :", premiere_colonne)

Première ligne : [6 1 7 2 1]
Première colonne : [6 7 5 3]


In [39]:
# Premières lignes de x3
premieres_lignes = x3[:, 0, :] 
print("Premières lignes :", premieres_lignes)

# Premières colonnes de x3
premieres_colonnes = x3[:, :, 0] 
print("Premières colonnes :", premieres_colonnes)

# Première matrice de x3
premiere_matrice = x3[0, :, :]
print("Première matrice :\n", premiere_matrice)

Premières lignes : [[0 5 2 1]
 [5 5 5 5]]
Premières colonnes : [[0 9 9]
 [5 0 3]]
Première matrice :
 [[0 5 2 1]
 [9 1 5 2]
 [9 3 7 2]]


Attention, sélectionner un sous-ensemble ne retourne pas une copie des données en question.  
Sélectionner un sous-ensemble 2x2 de x2. Modifier sa première valeur. Voir l'impact sur x2 original.
Répéter avec la méthode .copy().

In [None]:
# Sélection d'un sous-ensemble de x2
sub = x2[:2, :2]  
print("Sous-ensemble 2x2 :\n", sub, "\n")

# Changement de la première valeur de x2_sub
sub[0, 0] = 99
print("Sous-ensemble après modification :\n", sub, "\n")

# Impact sur x2 original
print("x2 après modification du sous-ensemble :\n", x2, "\n")

# Sélection d'un sous-ensemble de x2
print("Sous-ensemble 2x2 :\n", sub, "\n")
x2_sub_copy = x2[:2, :2].copy()  

# Modification de la première valeur de x2_sub_copy
x2_sub_copy[0, 0] = 55
print("Sous-ensemble copié après modification :\n", x2_sub_copy, "\n")

# Impact sur x2
print("x2 après modification de la copie :\n", x2, "\n")

Sous-ensemble 2x2 :
 [[99  1]
 [ 7  9]] 

Sous-ensemble après modification :
 [[99  1]
 [ 7  9]] 

x2 après modification du sous-ensemble :
 [[99  1  7  2  1]
 [ 7  9  1  3  3]
 [ 5  9  9  9  0]
 [ 3  2  4  6  2]] 

Sous-ensemble copié après modification :
 [[55  1]
 [ 7  9]] 

x2 après modification de la copie :
 [[99  1  7  2  1]
 [ 7  9  1  3  3]
 [ 5  9  9  9  0]
 [ 3  2  4  6  2]] 



### Reshaping

Créer une suite de 1 à 9 inclus (dim1).  
La mettre sous format 3x3 (dim2). 


In [None]:
# Vecteur ligne
x = np.arange(1, 10) 
print("Tableau 1D :", x)
print("Shape :", x.shape, "\n")

# Matrice
x2 = x.reshape(3, 3) 
print("Tableau 2D 3x3 :\n", x2)
print("Shape :", x2.shape)

Tableau 1D : [1 2 3 4 5 6 7 8 9]
Shape : (9,) 

Tableau 2D 3x3 :
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
Shape : (3, 3)


### Joining and spliting 

Créer trois arrays de trois entiers et les concatener.  
Créer une liste de tois entiers et la concatener.

In [45]:
# Création de trois tableaux
a1 = np.array([1, 2, 3])
a2 = np.array([4, 5, 6])
a3 = np.array([7, 8, 9])

l1 = [1, 2, 3]
l2 = [4, 5, 6]
l3 = [7, 8, 9]

# Concatenate
concat_array = np.concatenate([a1, a2, a3])
print("Concaténation des arrays :", concat_array)

concat_liste = l1 + l2 + l3
print("Concaténation des listes :", concat_liste)

Concaténation des arrays : [1 2 3 4 5 6 7 8 9]
Concaténation des listes : [1, 2, 3, 4, 5, 6, 7, 8, 9]


Créer une matrice 3x2, la concaténer avec elle même. Spécifier l'axe.

In [48]:
# Création matrice
A = np.array([[1, 2],
              [3, 4],
              [5, 6]])
print("Matrice A :\n", A, "\n")

# concaténation sur le premier axe
concat_lignes = np.concatenate([A, A], axis=0)
print("Concaténation sur l'axe 1 (lignes) :\n", concat_lignes)
print("Shape :", concat_lignes.shape, "\n")

# concaténation sur le deuxième axe
concat_colonnes = np.concatenate([A, A], axis=1)
print("Concaténation sur l'axe 2 (colonnes) :\n", concat_colonnes)
print("Shape :", concat_colonnes.shape)

Matrice A :
 [[1 2]
 [3 4]
 [5 6]] 

Concaténation sur l'axe 1 (lignes) :
 [[1 2]
 [3 4]
 [5 6]
 [1 2]
 [3 4]
 [5 6]]
Shape : (6, 2) 

Concaténation sur l'axe 2 (colonnes) :
 [[1 2 1 2]
 [3 4 3 4]
 [5 6 5 6]]
Shape : (3, 4)


Joindre un des vecteurs créés à la matrice verticalement.  
Essayer horizontalement. Joindre un sous-ensemble d'un vecteur à la matrice horizontalement.


In [None]:
# Jointure verticale

# Jointure horizontale
a1_col = a1.reshape(3, 1)
stack_horiz = np.hstack([A, a1_col])
print("Jointure horizontale :\n", stack_horiz)

# Jointure verticale avec un sous-ensemble
subset = a1[:2]  # [7, 8]
subset_row = subset.reshape(1, 2)
stack_vert = np.vstack([A, subset_row])
print("Jointure verticale avec sous-ensemble de a1 :\n", stack_vert)

Empilement horizontal :
 [[1 2 1]
 [3 4 2]
 [5 6 3]]
Jointure verticale avec sous-ensemble de a1 :
 [[1 2]
 [3 4]
 [5 6]
 [1 2]]


Créer un vecteur de 8 valeurs. Le diviser (split) aux troisième et cinquième points

In [57]:
v = np.array([1, 2, 3, 4, 5, 6, 7, 8])
print("Vecteur original :", v)

subarrays = np.split(v, [3, 5])
print("Sous-tableaux après split :")
for i, sub in enumerate(subarrays):
    print(f"Partie {i} :", sub)

Vecteur original : [1 2 3 4 5 6 7 8]
Sous-tableaux après split :
Partie 0 : [1 2 3]
Partie 1 : [4 5]
Partie 2 : [6 7 8]


Créer une matrice 4x4. La diviser en deux, verticalement et horizontalement.

In [58]:
A = np.array([[ 1,  2,  3,  4],
              [ 5,  6,  7,  8],
              [ 9, 10, 11, 12],
              [13, 14, 15, 16]])

print("Matrice 4x4 :\n", A, "\n")

top, bottom = np.split(A, 2, axis=0)
print("Division horizontale :")
print("Top :\n", top)
print("Bottom :\n", bottom, "\n")

left, right = np.split(A, 2, axis=1)
print("Division verticale :")
print("Left :\n", left)
print("Right :\n", right)

Matrice 4x4 :
 [[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]
 [13 14 15 16]] 

Division horizontale :
Top :
 [[1 2 3 4]
 [5 6 7 8]]
Bottom :
 [[ 9 10 11 12]
 [13 14 15 16]] 

Division verticale :
Left :
 [[ 1  2]
 [ 5  6]
 [ 9 10]
 [13 14]]
Right :
 [[ 3  4]
 [ 7  8]
 [11 12]
 [15 16]]


## Fancing Indexing

Créer un vecteur de 10 entiers tirés dans une uniforme $\left[0,100\right]$.  
Sélectionner les indices 2, 3 et 7 en une seule ligne.

In [59]:
np.random.seed(0)
# Créer un vecteur
v = np.random.randint(0, 101, size=10)
print("Vecteur :", v)

# Les indices à sélectionner
indices = [2, 3, 7]
selection = v[indices]
print("Éléments aux indices 2, 3 et 7 :", selection)

Vecteur : [44 47 64 67 67  9 83 21 36 87]
Éléments aux indices 2, 3 et 7 : [64 67 21]


Transformer le vecteur en une matrice 2x2, où $(1,1)=i_3, (1,2)=i_7, (2,1)=i_4\ et\ (2,2)=i_5$.

In [61]:
# Les indices à sélectionner, dans la dimension de la sortie voulue
M = np.array([[v[3], v[7]],
              [v[4], v[5]]])

print("Matrice 2x2 construite :\n", M)

Matrice 2x2 construite :
 [[67 21]
 [67  9]]


Créer une matrice 3x4 dont les valeurs sont une suite. Sélectionner les éléments (0,2) (1,1) et (2,3).

In [62]:
# Création de la matrice
A = np.arange(12).reshape(3, 4)
print("Matrice 3x4 :\n", A)

# Les lignes à sléectionner
indices_lignes = [0, 1, 2]
indices_colonnes = [2, 1, 3]

selection = A[indices_lignes, indices_colonnes]
print("Éléments sélectionnés :", selection)


Matrice 3x4 :
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
Éléments sélectionnés : [ 2  5 11]


Sélectionner la première, deuxième et quatrième colonne de la troisième ligne. Faire de même pour toutes les lignes sauf la première. Sélectionner une colonne sur deux en utilisant un masque booléen pour les colonnes.

In [63]:
selection1 = A[2, [0, 1, 3]]
print("Éléments ligne 3, colonnes 1,2,4 :", selection1)

selection2 = A[1:, [0, 1, 3]]
print("Toutes les lignes sauf la première, colonnes 1,2,4 :\n", selection2)

mask = np.array([True, False, True, False])
selection3 = A[:, mask]
print("Toutes les lignes, une colonne sur deux :\n", selection3)

Éléments ligne 3, colonnes 1,2,4 : [ 8  9 11]
Toutes les lignes sauf la première, colonnes 1,2,4 :
 [[ 4  5  7]
 [ 8  9 11]]
Toutes les lignes, une colonne sur deux :
 [[ 0  2]
 [ 4  6]
 [ 8 10]]


Créer une suite de 10 valeurs. Pour i=1,2,4,8, changer pour $x_i=99$. Soustraire 10 à ces indices.

In [64]:
x = np.arange(10)
print("Suite originale :", x)

# Indices
indices = [1, 2, 4, 8]
x[indices] = 99
print("Après modification :", x)

x[indices] -= 10
print("Après soustraction de 10 :", x)


Suite originale : [0 1 2 3 4 5 6 7 8 9]
Après modification : [ 0 99 99  3 99  5  6  7 99  9]
Après soustraction de 10 : [ 0 89 89  3 89  5  6  7 89  9]


## Sorting Arrays

### Algorithme de tri

Proposer un algorithme de tri.

In [68]:
x = np.random.randint(50, size=20)

print(x)


def selection_sort(x):
    """
    Description
    
    Arguments
    ---------
    
    Returns 
    --------
    
    """
    for i in range(len(x)):
        # On prend l'indice de la valeur minimle sur les i
        swap = i + np.argmin(x[i:])
        # On échang la position i par le minimum restant
        (x[i], x[swap]) = (x[swap], x[i])
    
    return x


selection_sort(x)

[ 5 38 40 17 15  4 41 42 31  1  1 39 41 35 38 11 46 18 27  0]


array([ 0,  1,  1,  4,  5, 11, 15, 17, 18, 27, 31, 35, 38, 38, 39, 40, 41,
       41, 42, 46])

Comparer le temps pour trier un tableau avec la fonction proposée et la version numpy.

In [69]:
x_sorted = np.sort(x)
print("Trié :", x_sorted)

Trié : [ 0  1  1  4  5 11 15 17 18 27 31 35 38 38 39 40 41 41 42 46]


Créer une matrice X 4x6 d'entiers aléatoires inférieurs à 10. Classer les colonnes de X. Classer les lignes de X.

In [74]:
# CRéation de la matrice
X = np.random.randint(0, 10, (4, 6))
print(X)
# Rangement par colonnes
X_col_sorted = np.sort(X, axis=0)
print("Colonnes triées :\n", X_col_sorted)

# Rangement par les lignes
X_row_sorted = np.sort(X, axis=1)
print("Lignes triées :\n", X_row_sorted)

[[4 9 6 5 7 8]
 [8 9 2 8 6 6]
 [9 1 6 8 8 3]
 [2 3 6 3 6 5]]
Colonnes triées :
 [[2 1 2 3 6 3]
 [4 3 6 5 6 5]
 [8 9 6 8 7 6]
 [9 9 6 8 8 8]]
Lignes triées :
 [[4 5 6 7 8 9]
 [2 6 6 8 8 9]
 [1 3 6 8 8 9]
 [2 3 3 5 6 6]]
