# 💻 Exercices Avancés en NumPy & Prétraitement pour Machine Learning

Ce notebook regroupe deux types d'exercices :
- Manipulations NumPy avancées (vectorisation, matrices, images, etc.)
- Traitement de données simulées comme étape avant du machine learning


## 🧮 Exercice 1 : Calcul de distances Euclidiennes
- Génère 100 points 2D aléatoires
- Calcule toutes les distances entre les couples de points (matrice 100x100)
- Utilise **exclusivement NumPy** et vectorise tout !

In [1]:
import numpy as np
points = np.random.random((100, 2))

## 🖼️ Exercice 2 : Convolution 3×3 sur image en niveaux de gris
- Simule une image 10×10
- Applique une convolution simple (filtre moyen ou Sobel-like)
- Utilise uniquement NumPy (pas de bibliothèque d'image !)

In [7]:
image = np.random.randint(0, 256, size=(10, 10))
kernel = np.ones((3, 3)) / 9
convolved = np.zeros((8, 8))
for i in range(8):
    for j in range(8):
        patch = image[i:i+3, j:j+3]
        convolved[i, j] = np.sum(patch * kernel)
convolved

array([[147.55555556, 146.11111111, 146.        , 120.44444444,
        113.33333333, 103.11111111, 139.44444444, 143.44444444],
       [137.55555556, 130.33333333, 148.22222222, 122.11111111,
        114.77777778, 117.        , 171.11111111, 193.66666667],
       [152.77777778, 143.22222222, 161.11111111, 156.11111111,
        140.55555556, 127.22222222, 167.77777778, 183.33333333],
       [138.11111111, 125.33333333, 149.44444444, 141.        ,
        140.22222222, 125.11111111, 176.44444444, 177.55555556],
       [160.66666667, 150.88888889, 153.11111111, 143.55555556,
        122.55555556, 125.11111111, 154.77777778, 175.        ],
       [145.88888889, 129.22222222, 147.44444444, 107.88888889,
        111.33333333, 116.88888889, 139.22222222, 151.66666667],
       [123.33333333, 115.22222222, 112.33333333,  99.44444444,
        121.88888889, 137.55555556, 131.77777778, 140.33333333],
       [115.77777778, 105.88888889, 126.66666667, 100.88888889,
        123.66666667, 123.       

## 🔢 Exercice 3 : Tri pondéré de lignes
- Génère une matrice aléatoire 6×4
- Applique un tri des lignes selon score pondéré : poids = [0.1, 0.3, 0.4, 0.2]

In [8]:
mat = np.random.randint(1, 100, (6, 4))
weights = np.array([0.1, 0.3, 0.4, 0.2])
scores = mat @ weights
sorted_mat = mat[np.argsort(scores)]
sorted_mat

array([[11, 81, 12, 12],
       [76, 30, 15, 56],
       [29, 30, 74, 17],
       [27, 37, 48, 80],
       [56, 62, 32, 69],
       [27, 26, 89, 38]], dtype=int32)

# 🧹 Exercice 4 : Nettoyage d'un dataset simulé
- Crée un tableau (100, 5) avec `np.random.randn`
- Injecte 10 NaNs aléatoires
- Remplace les NaNs par la moyenne colonne
- Standardise le tableau (moy=0, std=1)
- Supprime colonnes avec variance < 0.1

In [9]:
data = np.random.randn(100, 5)
for _ in range(10):
    i, j = np.random.randint(0, 100), np.random.randint(0, 5)
    data[i, j] = np.nan
means = np.nanmean(data, axis=0)
inds = np.where(np.isnan(data))
data[inds] = np.take(means, inds[1])
data -= data.mean(axis=0)
data /= data.std(axis=0)
var = data.var(axis=0)
data = data[:, var >= 0.1]
data.shape

(100, 5)

## 🧊 Exercice 5 : Analyse d'image binaire
- Crée une matrice 20×20 avec des blocs de 1
- Tente de compter les blocs connectés (voisinage 4)
- Implémente un flood fill récursif en NumPy (avancé !)

**Indice** : tu peux convertir la matrice en booléen, et appeler une fonction récursive.

In [10]:
img = np.zeros((20, 20), dtype=int)
img[2:5, 2:5] = 1
img[10:13, 10:14] = 1

def flood_fill(mat, i, j, visited):
    if i < 0 or j < 0 or i >= mat.shape[0] or j >= mat.shape[1]:
        return
    if visited[i, j] or mat[i, j] == 0:
        return
    visited[i, j] = True
    for dx, dy in [(-1,0), (1,0), (0,-1), (0,1)]:
        flood_fill(mat, i+dx, j+dy, visited)

visited = np.zeros_like(img, dtype=bool)
count = 0
for i in range(img.shape[0]):
    for j in range(img.shape[1]):
        if img[i,j] == 1 and not visited[i,j]:
            flood_fill(img, i, j, visited)
            count += 1
count

2