![Numpy](img/numpy.png)

Bienvenue dans ce notebook d'initiation à **NumPy**, une bibliothèque essentielle pour la data science avec Python.

🎯 Objectif : Comprendre l'essentiel de NumPy

---

## 📌 Sommaire :
1. Création de tableaux
2. Dimensions et forme
3. Indexation & slicing
4. Opérations vectorielles
5. Fonctions statistiques
6. Manipulation et fusion
7. Broadcasting

---


# Introduction

NumPy (**Numerical Python**) est la bibliothèque de base pour le calcul scientifique avec Python. Elle permet de manipuler des structures de données puissantes appelées **arrays** ou **tableaux**, optimisées pour la performance et la simplicité d’usage. NumPy est utilisé par presque toutes les bibliothèques de l’écosystème <a href='https://pydata.org/'>PyData</a> (comme **Pandas**, **Scikit-learn**, **SciPy**) et constitue une compétence fondamentale pour tout data scientist ou ingénieur en machine learning.


<img src="img/numpy_foundation.png" alt="Numpy" style="display:block; margin-left:auto; margin-right:auto;">

**Pourquoi Numpy ?**

Contrairement aux listes Python classiques, les tableaux NumPy sont :
- Plus **rapides** et moins gourmands en mémoire
- Facilement extensibles à plusieurs dimensions (**vecteurs**, **matrices**, **tenseurs**)
- Compatibles avec des **opérations vectorisées** et du **broadcasting**
- Intégrés dans toutes les bibliothèques majeures de la **data science**

**Chargement de la librairie Numpy**

In [None]:
import numpy as np

# 1. 🎲 Création de tableaux NumPy

## 1.1. Depuis des objets Python

NumPy permet de créer facilement des tableaux numériques notamment à parti de listes Python

In [None]:
my_list = [5, 10, 15]           # liste Python contenant trois entiers
my_array = np.array(my_list)    # convertit cette liste en tableau numpy, ce qui permet ensuite d’appliquer des opérations vectorielles

display(my_list)
display(my_array)

## 1.2. Tableaux 1D et 2D : vecteurs et matrices

La structure de base de NumPy est le `tableau` (array). Il peut être :

**1D** : vecteur

**2D** : matrice

ou **nD** (plusieurs dimensions)

In [None]:
# Vecteur 1D
v = np.array([1, 2, 3])

# Matrice 2D
m = np.array([[1, 2], [3, 4]])

display(type(v))
display(v)
print("---------------")
display(type(m))
display(m)

🧠 **À retenir** : une matrice 2D peut contenir une seule ligne ou une seule colonne, mais reste bien en deux dimensions.

### 🧩 Exercices

> Créez et affichez un vecteur contenant les entiers de 10 à 20

In [None]:
# Votre code ici

> Créez et affichez une matrice 3x3 avec les entiers de 1 à 9

In [None]:
# Votre code ici

## 1.3. Séquences numériques

Il est facile de générer facilement des suites de nombres avec Numpy.

In [None]:
sequence_1 = np.arange(0, 10, 2)    # crée une suite de nombres allant de 0 à 8 avec un pas de 2
sequence_2 = np.linspace(0, 1, 5)   # génère 5 valeurs également espacées entre 0 et 1 inclus

display(sequence_1)
display(sequence_2)

### 🧩 Exercices

> Créez un tableau avec des valeurs entre 0 et 20 espacées de 5

In [None]:
# Votre code ici

> Utilisez ``linspace`` pour créer un tableau de 50 valeurs entre -1 et 1

In [None]:
# Votre code ici

## 1.4. Génération de données aléatoires

NumPy propose également un module random pour créer des tableaux remplis de valeurs aléatoires.

In [None]:
# Entiers aléatoires (entre 0 et 10, exclu)
object_1 = np.random.randint(0, 10)           # un seul entier aléatoire entre 0 et 9
object_2 = np.random.randint(0, 10, (3, 3))   # matrice 3x3 d'entiers aléatoires entre 0 et 9

# Flottants aléatoires uniformes entre 0 et 1
object_3 = np.random.rand(4)                 # vecteur de 4 flottants tirés d'une distribution uniforme [0, 1)
object_4 = np.random.rand(4, 4)              # matrice 4x4 de flottants tirés d'une distribution uniforme [0, 1)

# Flottants aléatoires selon une loi normale (moyenne = 0, écart-type = 1)
object_5 = np.random.randn(4)                # vecteur de 4 flottants selon une loi normale centrée réduite
object_6 = np.random.randn(4, 4)             # matrice 4x4 de flottants selon une loi normale centrée réduite              

display(object_1)
display(object_2)
display(object_3)
display(object_4)
display(object_5)
display(object_6)

### 🧩 Exercices

> Générez un entier aléatoire entre 1 et 100

In [None]:
# Votre code ici

> Créez un tableau 1D de 10 entiers aléatoires entre 0 et 20

In [None]:
# Votre code ici

> Générez une matrice 5x5 d’entiers entre 0 et 9

In [None]:
# Votre code ici

> Générez un vecteur de 6 flottants aléatoires entre 0 et 1

In [None]:
# Votre code ici

> Créez une matrice 3x3 de flottants aléatoires entre 0 et 1

In [None]:
# Votre code ici

> Générez un vecteur de 8 valeurs suivant une loi normale (moyenne 0, écart-type 1)

In [None]:
# Votre code ici

> Créez une matrice 4x4 de valeurs aléatoires selon une loi normale

In [None]:
# Votre code ici

## 1.5. Tableaux pré-remplis

Numpy propose des fonctions pratiques pour créer rapidement des tableaux contenant des valeurs par défaut.

In [None]:
# Zéros
zeros = np.zeros(4)               # vecteur de 4 éléments contenant uniquement des zéros
zeros_matrix = np.zeros((4, 4))   # matrice 4x4 remplie de zéros

# Uns
ones = np.ones(4)                 # vecteur de 4 éléments contenant uniquement des uns
ones_matrix = np.ones((4, 4))     # matrice 4x4 remplie de uns

# Matrice identité 4x4 (matrice carrée avec des 1 sur la diagonale principale et des 0 ailleur.
# Elle joue un rôle similaire au nombre 1 pour la multiplication)
matrix_identity = np.eye(4)     


display(zeros)
display(zeros_matrix)

display(ones)
display(ones_matrix)

display(matrix_identity)

### 🧩 Exercices

> Créez un vecteur de 6 zéros

In [None]:
# Votre code ici

> Créez une matrice 3x5 remplie de zéros

In [None]:
# Votre code ici

> Créez un vecteur de 10 uns

In [None]:
# Votre code ici

> Créez une matrice 2x3 remplie de uns

In [None]:
# Votre code ici

> Créez une matrice identité 8x8

In [None]:
# Votre code ici

# 2. 📐 Dimensions et forme des tableaux

Numpy offre des attributs très utiles pour explorer la structure des tableaux

In [None]:
# Tableau de 0 à 11 transformé en matrice 3x4 grâce à la méthode .reshape()
# ⚠️ Attention : le produit des dimensions passées à reshape (ici 3×4 = 12) 
# doit exactement correspondre au nombre total d’éléments dans le tableau initial. Sinon, NumPy renverra une erreur !
array = np.arange(12).reshape(3, 4)        

print("Tableau :\n", array, "\n")                     # affiche le tableau
print("Forme (shape) :", array.shape, "\n")           # affiche la forme du tableau
print("Nombre de dimensions :", array.ndim, "\n")     # affiche le nombre de dimensions
print("Nombre total d'éléments :", array.size, "\n")  # affiche le nombre d'éléments
print("Type de données (dtype) :", array.dtype, "\n") # affiche le type des données

### 🧩 Exercice

> Créez une matrice de forme 6x2 à partir de np.arange().  
> Affichez sa forme, son nombre d’éléments, son nombre de dimensions.

In [None]:
# Votre code ici

> Créez un tableau contenant les nombres de 0 à 19, puis transformez-le en matrice de 4 lignes et 5 colonnes.

In [None]:
# Votre code ici

> Vous disposez d’un tableau de 18 éléments. Quelles sont les trois formes possibles que vous pouvez lui donner avec reshape() en matrice 2D ?

In [None]:
# Écrivez trois reshape différents qui fonctionnent

# 3. 🔍 Indexing & Slicing

Lorsque vous travaillez avec des tableaux ou matrices NumPy, il est essentiel de savoir accéder aux éléments, **extraire des lignes**, **des colonnes** ou **des sous-parties**. Cette opération s’appelle l’**indexing** (accès à un ou plusieurs éléments) et le **slicing** (extraction de tranches).

NumPy utilise une syntaxe très proche de celle des listes Python, mais adaptée aux tableaux multidimensionnels. Grâce à cela, vous pouvez :
- Accéder à une valeur précise dans un tableau 2D
- Extraire une ligne ou une colonne
- Récupérer plusieurs lignes ou colonnes avec des tranches (slices)
- Utiliser des conditions (masques logiques) pour filtrer certains éléments

Dans les exemples suivants, nous allons manipuler une matrice 3x4 pour explorer ces différentes possibilités.

In [None]:
# Matrice de travail
matrix = np.arange(12).reshape(3, 4)

print("Matrice :\n", matrix)

## 3.1. Indexing

**Indexing** = accès à un seul élément ou un groupe précis via des **indices explicites**.

In [None]:
print("Première ligne :", matrix[0])                # extrait toute la première ligne
print("Dernière ligne :", matrix[-1])               # extrait toute la dernière ligne
print("Première colonne :", matrix[:, 0])           # extrait tous les éléments de la 1ère colonne, sur toutes les lignes
print("Première colonne :", matrix[:, -1])          # extrait tous les éléments de la dernière colonne, sur toutes les lignes
print("Élément ligne 0, colonne 2 :", matrix[0, 2]) # extrait'élément situé à la 1ère ligne (index 0) et à la 3e colonne (index 2)

## 3.2. Slicing

**Slicing** = accès à une plage continue d’éléments avec l’opérateur : `(start:stop:step)`.

In [None]:
print("Lignes 0 et 1 :\n", matrix[0:2], "\n")               # extrait les deux premières lignes (lignes 0 et 1 incluses, ligne 2 exclue)
print("Colonnes 1 et 2 :\n", matrix[:, 1:3], "\n")          # extrait toutes les lignes mais seulement les colonnes 1 et 2 (3 exclue)
print("Colonnes 0, 2, ... :\n", matrix[:, ::2], "\n")       # extrait toutes les lignes mais une colonne sur deux (colonne 0, 2...)
print("Éléments > 5 :\n", matrix[matrix > 5], "\n")         # extrait tous les éléments dont la valeur est strictement supérieure à 5
print("Éléments pairs :\n", matrix[matrix % 2 == 0], "\n")  # extrait tous les éléments qui sont des nombres pairs (reste = 0 quand divisé par 2)

### 🧩 Exercice

> À partir d’un tableau `array = np.arange(35).reshape(5, 7)`, répondez aux questions suivantes :  
> 1. Affichez l’élément situé à la 3e ligne et 5e colonne.  
> 2. Affichez toute la 2e ligne du tableau. 
> 3. Affichez toute la dernière colonne. 
> 4. Affichez les trois premières lignes du tableau. 
> 5. Affichez les colonnes 2 à 5 de toutes les lignes. 
> 6. Affichez les 3 derniers éléments de la 4e ligne.
> 7. Affichez une ligne sur deux (lignes 0, 2, 4).  
> 8. Affichez une colonne sur trois (colonnes 0, 3, 6).
> 9. Affichez tous les éléments strictement supérieurs à 25.
> 10. Affichez tous les éléments impairs du tableau.
> 11. Affichez tous les éléments compris entre 10 et 20 inclus.
> 12. Remplacez l’élément en ligne 1, colonne 4 par 999.
> 13. Remplacez tous les éléments multiples de 7 par -7.
> 14. Remplacez la 3e colonne par des zéros.

In [None]:
# Votre code ici

# 4. ➕ Opérations vectorielles

Lorsqu’on travaille avec des tableaux NumPy (vecteurs ou matrices), on peut effectuer des opérations mathématiques directement sur l’ensemble des éléments, sans utiliser de boucles. On parle d’**opérations vectorielles** ou **opérations élément par élément**.

Cela permet :
- d’écrire du code plus simple et plus lisible,
- d’obtenir des calculs bien plus rapides grâce à l’optimisation interne de NumPy,
- de manipuler facilement des données numériques comme dans les domaines de la data science ou du machine learning.

**🤖 Pourquoi les opérations vectorielles sont essentielles en machine learning ?**

Dans le machine learning, on travaille en permanence avec :
- des vecteurs : chaque ligne de données (ex : un utilisateur avec ses caractéristiques) est un vecteur,
- des matrices : un ensemble de données (ex : tous les utilisateurs) forme une matrice,
- et des opérations mathématiques rapides pour entraîner et utiliser les modèles.


In [None]:
x = np.array([1, 2, 3])
y = np.array([10, 20, 30])

# Addition élément par élément
print("Addition :", x + y)  # [11 22 33]

# Soustraction élément par élément
print("Soustraction :", x - y)  # [-9 -18 -27]

# Multiplication élément par élément (produit Hadamard)
print("Multiplication :", x * y)  # [10 40 90]

# Division élément par élément
print("Division :", y / x)  # [10. 10. 10.]

# Exponentiation
print("Carrés de x :", x ** 2)  # [1 4 9]

# Produit scalaire (dot product)
print("Produit scalaire (x @ y) :", x @ y)  # 140
print("Produit scalaire (np.dot) :", np.dot(x, y))  # 140

# Norme (longueur du vecteur)
print("Norme de x :", np.linalg.norm(x))  # sqrt(1^2 + 2^2 + 3^2) = 3.7416...

### 🧩 Exercices

> Soit `x = np.array([2, 4, 6])` et `y = np.array([1, 3, 5])`  
> 1. Calculez x + y  
> 2. Calculez x - y  
> 3. Calculez x * y (multiplication élément par élément)  
> 4. Calculez x / y (division élément par élément)

In [None]:
# Votre code ici

> Reprenez les vecteurs x et y ci-dessus  
> 1. Calculez le carré de chaque élément de x  
> 2. Calculez le double de chaque élément de y  
> 3. Ajoutez 10 à tous les éléments de x

In [None]:
# Votre code ici

> Soit `x = np.array([1, 2, 3])` et `y = np.array([4, 5, 6])`  
> 1. Calculez le **produit scalaire** de x et y avec `@`  
> 2. Calculez le produit scalaire avec `np.dot()`  
> 3. Vérifiez que les deux résultats sont identiques

In [None]:
# Votre code ici

> Soit `v = np.array([3, 4])`  
> 1. Calculez la **norme** de v (indice : `np.linalg.norm`)  
> 2. Normalisez v (divisez chaque élément par la norme)  
> 3. Vérifiez que la norme du vecteur normalisé vaut 1

In [None]:
# Votre code ici

> Créez deux vecteurs a et b de taille 5, remplis avec des entiers de votre choix  
> 1. Faites la somme, la différence et le produit terme à terme  
> 2. Calculez la somme totale des éléments de a et de b  
> 3. Calculez la moyenne des éléments de a

In [None]:
# Votre code ici

# 5. 📊 Fonctions statistiques utiles

NumPy propose de nombreuses fonctions pour analyser rapidement des données numériques : **maximum**, **minimum**, **moyenne**, **écart-type**, **somme**, etc. Ces fonctions permettent d’obtenir des indicateurs statistiques simples sur un tableau, qu’il soit 1D (vecteur) ou 2D (matrice).

## 5.1. Vecteur 1D

In [None]:
# Tableau de 10 entiers aléatoires entre 0 et 99
arr = np.random.randint(0, 100, (10,))

print("Tableau :", arr)
print("Max :", arr.max())                # Valeur maximale du tableau
print("Min :", arr.min())                # Valeur minimale du tableau
print("Moyenne :", arr.mean())           # Moyenne arithmétique
print("Écart-type :", arr.std())         # Écart-type (dispersion des valeurs)
print("Somme :", arr.sum())              # Somme de tous les éléments
print("Indice du max :", arr.argmax())   # Position (indice) de la valeur maximale
print("Indice du min :", arr.argmin())   # Position (indice) de la valeur minimale

## 5.2. Matrice 2D

In [None]:
# matrice 4x5 d'entiers aléatoires entre 0 et 99
matrix = np.random.randint(0, 100, (4, 5))

print("Matrice :\n", matrix, "\n")

print("Moyenne globale :", matrix.mean(), "\n")              # Moyenne de tous les éléments
print("Moyenne par ligne :", matrix.mean(axis=1), "\n")      # Moyenne de chaque ligne
print("Moyenne par colonne :", matrix.mean(axis=0), "\n")    # Moyenne de chaque colonne
print("Somme par colonne :", matrix.sum(axis=0), "\n")       # Somme de chaque colonne

### 🧩 Exercices

> Générez un tableau de 15 entiers aléatoires entre 1 et 100.  
> Affichez la valeur maximale, la valeur minimale et leur écart.

In [None]:
# Votre code ici

> Générez un tableau de 20 entiers aléatoires entre 0 et 50.  
> Affichez la somme, la moyenne et la variance.

In [None]:
# Votre code ici

> Créez une matrice 5x4 d’entiers aléatoires entre 0 et 99.  
> Affichez la moyenne de chaque ligne et la moyenne de chaque colonne.

In [None]:
# Votre code ici

> Générez une matrice 6x3 d'entiers aléatoires.  
> Affichez l’indice du maximum global, puis l’indice du maximum de chaque ligne.

In [None]:
# Votre code ici

> Créez un tableau de 12 flottants aléatoires entre 0 et 1.  
> Comptez combien de valeurs sont supérieures à la moyenne.

In [None]:
# Votre code ici

> Générez un tableau de 50 entiers entre 10 et 100.  
> Calculez le 25e, le 50e (médiane) et le 75e percentile.

In [None]:
# Votre code ici

# 6. 🔧 Empilement et fusion de tableaux

Il est souvent nécessaire de combiner plusieurs tableaux NumPy pour former des structures plus grandes.  
Cela peut se faire en ajoutant des lignes (empilement vertical) ou des colonnes (empilement horizontal).

NumPy propose plusieurs fonctions pour cela :

- `np.vstack` : empilement dans le sens **vertical** (ajoute des lignes)
- `np.hstack` : empilement dans le sens **horizontal** (ajoute des colonnes)
- `np.concatenate` : fusion plus générale, où l’on choisit l’axe (`axis=0` pour les lignes, `axis=1` pour les colonnes)

⚠️ Pour que ces opérations fonctionnent, les **dimensions doivent être compatibles** :
- Pour empiler verticalement, les **nombres de colonnes doivent être identiques**
- Pour empiler horizontalement, les **nombres de lignes doivent être identiques**

In [None]:
a = np.array([[1, 2], [3, 4]])  # matrice 2x2
b = np.array([[5, 6]])          # matrice 1x2


# Empilement vertical : ajoute des lignes (mêmes nombres de colonnes requis)
vstacked = np.vstack([a, b])
print("Empilement vertical (vstack) :\n", vstacked, "\n")

# Empilement horizontal : ajoute des colonnes (mêmes nombres de lignes requis)
hstacked = np.hstack([a, a])
print("Empilement horizontal (hstack) :\n", hstacked, "\n")


# Fusion avec np.concatenate (plus général)
conc_v = np.concatenate([a, b], axis=0)  # même que vstack
print("Concaténation verticale :\n", conc_v, "\n")

conc_h = np.concatenate([a, a], axis=1)  # même que hstack
print("Concaténation horizontale :\n", conc_h, "\n")


# 💡 INFO :
# np.vstack([a, b]) et np.concatenate([a, b], axis=0) donnent exactement le même résultat :
# → ils empilent les tableaux verticalement (ajout de lignes).

# De même, np.hstack([a, a]) et np.concatenate([a, a], axis=1) sont aussi équivalents :
# → ils empilent les tableaux horizontalement (ajout de colonnes).

# ✅ vstack / hstack sont plus lisibles pour débuter,
# ✅ concatenate est plus flexible (surtout utile pour des tableaux à plus de 2 dimensions).

### 🧩 Exercices

> Créez deux matrices compatibles pour un empilement vertical :  
> - une matrice `a` de forme `(2, 3)`  
> - une matrice `b` de forme `(1, 3)`  
> - Utilisez `np.vstack()` pour les empiler.

In [None]:
# Votre code ici

> Reprenez les mêmes matrices que précdemment et utilisez np.concatenate() avec axis=0 pour vérifier qu’on obtient le même résultat qu’avec vstack.

In [None]:
# Votre code ici

> Reprenez les mêmes matrices que précédemment et utilisez np.concatenate() avec axis=1 pour vérifier qu’on obtient le même résultat qu’avec hstack.

In [None]:
# Votre code ici

# 7. 📡 Broadcasting (adaptation automatique des dimensions)

En NumPy, les opérations entre tableaux (addition, soustraction, etc.) nécessitent normalement que les formes (shape) soient **compatibles**.

Mais au lieu de lever une erreur quand les formes sont différentes, NumPy applique parfois automatiquement une règle intelligente d’adaptation des dimensions : c’est ce qu’on appelle le **broadcasting** (ou diffusion en français).

In [None]:
A = np.array([[1], [2], [3]])  # Matrice de forme (3, 1) : vecteur colonne
B = np.array([10, 20, 30])     # Vecteur ligne de forme (3,)

print("A.shape =", A.shape, "\n")    # Affiche la forme de A : (3, 1)
print("B.shape =", B.shape, "\n")    # Affiche la forme de B : (3,)

# NumPy étend automatiquement A horizontalement (comme si on le copiait 3 fois en colonnes) pour l’aligner avec B (qui est traité comme une ligne).
# Résultat : addition élément par élément dans une matrice de forme (3, 3)
print("Résultat du broadcasting :\n", A + B)

### 🧩 Exercices

> Créez un vecteur `a = np.array([1, 2, 3])`.  
> Ajoutez le scalaire `5` à ce vecteur. Que se passe-t-il ?

In [None]:
# Votre code ici

> Créez une matrice `M` de forme (3, 4) avec `np.ones((3, 4))`.  
> Créez un vecteur `v = np.array([10, 20, 30, 40])`.  
> Faites `M + v` et observez le résultat.

In [None]:
# Votre code ici

> Créez une matrice `M = np.ones((3, 4))`.  
> Créez un vecteur colonne `v = np.array([[1], [2], [3]])`.  
> Faites `M + v`. Pourquoi cela fonctionne ?

In [None]:
# Votre code ici

> Créez `A = np.array([[1], [2], [3]])` (forme 3x1)  
> Créez `B = np.array([10, 20])` (forme 2,)  
> Essayez `A + B`. Que se passe-t-il ? Pourquoi ?

In [None]:
# Votre code ici

> Créez `X = np.ones((2, 3, 4))`  
> Créez `Y = np.array([[10, 20, 30, 40], [50, 60, 70, 80], [90, 100, 110, 120]])` (forme 3x4)  
> Essayez `X + Y` et observez la forme du résultat.

In [None]:
# Votre code ici

---
## ✅ Bravo !
Vous connaissez maintenant les bases essentielles de NumPy. Vous allez pouvoir aborder d'autres libriaries telles que **Pandas** ou **Scikit-learn**.