‚ö° Interm√©diaire | ‚è± 60 min | üîë Concepts : arrays, vectorisation, broadcasting, dtypes

# NumPy : Calcul Scientifique et Tableaux Multidimensionnels

## Objectifs

√Ä la fin de ce notebook, vous serez capable de :
- Cr√©er et manipuler des arrays NumPy
- Comprendre les dtypes et leur impact sur la performance
- Utiliser la vectorisation pour des calculs rapides
- Ma√Ætriser le broadcasting
- Appliquer des fonctions universelles (ufuncs)

## Pr√©requis

- Python 3.8+
- Connaissance de base des listes Python
- Compr√©hension des boucles et des op√©rations math√©matiques

## 1. NumPy : Pourquoi ?

NumPy (Numerical Python) est la biblioth√®que fondamentale pour le calcul scientifique en Python.

**Avantages principaux :**
- **Performance** : Jusqu'√† 100x plus rapide que les listes Python
- **Vectorisation** : Op√©rations sur des tableaux entiers sans boucles explicites
- **Moins de m√©moire** : Types de donn√©es optimis√©s
- **√âcosyst√®me** : Base de pandas, scikit-learn, TensorFlow, etc.

**Installation :**
```bash
pip install numpy
```

In [None]:
import numpy as np
import time

print(f"NumPy version : {np.__version__}")

## 2. Cr√©ation d'Arrays

Un array NumPy est une grille de valeurs, toutes du m√™me type.

In [None]:
# √Ä partir d'une liste
arr_1d = np.array([1, 2, 3, 4, 5])
print("Array 1D:", arr_1d)

# Array 2D (matrice)
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])
print("\nArray 2D:")
print(arr_2d)

# Array 3D
arr_3d = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])
print("\nArray 3D:")
print(arr_3d)

## 3. Types de Donn√©es (dtypes)

Les dtypes d√©finissent le type et la taille des √©l√©ments dans un array.

**Types principaux :**
- `int8`, `int16`, `int32`, `int64` : entiers sign√©s
- `uint8`, `uint16`, `uint32`, `uint64` : entiers non sign√©s
- `float16`, `float32`, `float64` : nombres √† virgule flottante
- `bool` : bool√©ens
- `object` : objets Python (√©viter pour la performance)

In [None]:
# D√©tection automatique du dtype
arr_int = np.array([1, 2, 3])
print(f"Integers: {arr_int.dtype}")  # int64 par d√©faut

arr_float = np.array([1.0, 2.5, 3.7])
print(f"Floats: {arr_float.dtype}")  # float64 par d√©faut

# Sp√©cification explicite du dtype
arr_int32 = np.array([1, 2, 3], dtype=np.int32)
print(f"Int32: {arr_int32.dtype}")

# Conversion de type
arr_as_float = arr_int.astype(np.float64)
print(f"\nConverti en float: {arr_as_float}, dtype: {arr_as_float.dtype}")

# Comparaison taille m√©moire
arr_int64 = np.array([1, 2, 3], dtype=np.int64)
arr_int8 = np.array([1, 2, 3], dtype=np.int8)
print(f"\nM√©moire int64: {arr_int64.nbytes} bytes")
print(f"M√©moire int8: {arr_int8.nbytes} bytes")

## 4. Attributs des Arrays

Chaque array poss√®de des m√©tadonn√©es importantes.

In [None]:
arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])

print(f"Shape (forme): {arr.shape}")  # (lignes, colonnes)
print(f"Ndim (dimensions): {arr.ndim}")  # 2D
print(f"Size (nb √©l√©ments): {arr.size}")  # 12
print(f"Dtype: {arr.dtype}")  # type des √©l√©ments
print(f"Itemsize: {arr.itemsize} bytes")  # taille d'un √©l√©ment
print(f"Nbytes (total): {arr.nbytes} bytes")  # taille totale

## 5. Indexation et Slicing

Similaire aux listes Python, mais plus puissant.

In [None]:
# Array 1D
arr_1d = np.array([10, 20, 30, 40, 50])
print("Premier √©l√©ment:", arr_1d[0])
print("Dernier √©l√©ment:", arr_1d[-1])
print("Slice [1:4]:", arr_1d[1:4])

# Array 2D
arr_2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print("\n√âl√©ment [0, 1]:", arr_2d[0, 1])  # ligne 0, colonne 1
print("Premi√®re ligne:", arr_2d[0, :])
print("Deuxi√®me colonne:", arr_2d[:, 1])
print("Sous-matrice [0:2, 1:3]:")
print(arr_2d[0:2, 1:3])

# Indexation bool√©enne
arr = np.array([1, 2, 3, 4, 5, 6])
mask = arr > 3
print("\nMasque:", mask)
print("√âl√©ments > 3:", arr[mask])

# Fancy indexing (indexation par liste)
indices = [0, 2, 4]
print("√âl√©ments aux indices [0, 2, 4]:", arr[indices])

## 6. Reshape, Flatten, Transpose

Manipulation de la forme des arrays.

In [None]:
# Reshape : changer la forme
arr = np.arange(12)  # [0, 1, 2, ..., 11]
print("Array original:", arr)

reshaped = arr.reshape(3, 4)
print("\nReshape en (3, 4):")
print(reshaped)

# -1 pour dimension automatique
reshaped_auto = arr.reshape(2, -1)
print("\nReshape en (2, -1):")
print(reshaped_auto)

# Flatten : aplatir en 1D
flattened = reshaped.flatten()
print("\nFlatten:", flattened)

# Ravel : version vue (plus rapide)
raveled = reshaped.ravel()
print("Ravel:", raveled)

# Transpose : transposer les axes
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])
print("\nOriginal (2, 3):")
print(arr_2d)
print("\nTranspos√© (3, 2):")
print(arr_2d.T)

## 7. Op√©rations Vectoris√©es

Les op√©rations s'appliquent √©l√©ment par √©l√©ment, sans boucle explicite.

In [None]:
arr = np.array([1, 2, 3, 4, 5])

# Op√©rations arithm√©tiques
print("arr + 10:", arr + 10)
print("arr * 2:", arr * 2)
print("arr ** 2:", arr ** 2)
print("arr / 2:", arr / 2)

# Op√©rations entre arrays
arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5, 6])
print("\narr1 + arr2:", arr1 + arr2)
print("arr1 * arr2:", arr1 * arr2)

# Comparaisons
print("\narr > 3:", arr > 3)
print("arr == 3:", arr == 3)

## 8. Broadcasting

Le broadcasting permet d'effectuer des op√©rations entre arrays de formes diff√©rentes.

**R√®gles du broadcasting :**
1. Si les arrays n'ont pas le m√™me nombre de dimensions, ajouter des dimensions de taille 1 √† gauche
2. Les dimensions de taille 1 sont √©tir√©es pour correspondre aux autres dimensions
3. Si les dimensions ne correspondent pas et aucune n'est 1, erreur

In [None]:
# Broadcasting scalaire
arr = np.array([[1, 2, 3], [4, 5, 6]])
print("Array (2, 3):")
print(arr)
print("\narr + 10:")
print(arr + 10)  # 10 est diffus√© sur toute la matrice

# Broadcasting 1D sur 2D
row = np.array([1, 2, 3])
print("\nrow (3,):", row)
print("\narr + row:")
print(arr + row)  # row est diffus√© sur chaque ligne

# Broadcasting colonne
col = np.array([[10], [20]])
print("\ncol (2, 1):")
print(col)
print("\narr + col:")
print(arr + col)  # col est diffus√© sur chaque colonne

# Broadcasting complexe
a = np.array([[[1]], [[2]], [[3]]])  # (3, 1, 1)
b = np.array([[10, 20, 30]])  # (1, 3)
result = a + b  # (3, 1, 3)
print("\nBroadcasting (3, 1, 1) + (1, 3) = (3, 1, 3):")
print(result)

## 9. Fonctions Universelles (ufuncs)

Fonctions optimis√©es qui op√®rent √©l√©ment par √©l√©ment.

In [None]:
arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# Agr√©gations
print("Somme totale:", np.sum(arr))
print("Moyenne:", np.mean(arr))
print("M√©diane:", np.median(arr))
print("√âcart-type:", np.std(arr))
print("Variance:", np.var(arr))
print("Min:", np.min(arr))
print("Max:", np.max(arr))

# Agr√©gations par axe
print("\nSomme par colonne (axe 0):", np.sum(arr, axis=0))
print("Somme par ligne (axe 1):", np.sum(arr, axis=1))

# Fonctions math√©matiques
arr_float = np.array([1.0, 4.0, 9.0, 16.0])
print("\nRacine carr√©e:", np.sqrt(arr_float))
print("Exponentielle:", np.exp([0, 1, 2]))
print("Logarithme:", np.log([1, np.e, np.e**2]))

# Arrondis
arr_decimals = np.array([1.234, 2.567, 3.891])
print("\nArrondi:", np.round(arr_decimals, 2))
print("Floor:", np.floor(arr_decimals))
print("Ceil:", np.ceil(arr_decimals))

## 10. Fonctions Utiles

Autres fonctions courantes en Data Engineering.

In [None]:
# np.where : condition ternaire vectoris√©e
arr = np.array([1, 2, 3, 4, 5, 6])
result = np.where(arr > 3, 'grand', 'petit')
print("np.where:", result)

# np.where avec calculs
result_numeric = np.where(arr > 3, arr * 10, arr)
print("np.where avec calcul:", result_numeric)

# np.sort
arr_unsorted = np.array([3, 1, 4, 1, 5, 9, 2])
print("\nTri√©:", np.sort(arr_unsorted))

# np.argsort : indices du tri
indices = np.argsort(arr_unsorted)
print("Indices du tri:", indices)

# np.unique
arr_duplicates = np.array([1, 2, 2, 3, 3, 3, 4])
unique_values = np.unique(arr_duplicates)
print("\nValeurs uniques:", unique_values)

# np.unique avec counts
unique_values, counts = np.unique(arr_duplicates, return_counts=True)
print("Valeurs:", unique_values)
print("Comptes:", counts)

# np.clip : limiter les valeurs
arr_clip = np.array([1, 5, 10, 15, 20])
clipped = np.clip(arr_clip, 5, 15)
print("\nClip [5, 15]:", clipped)

## 11. G√©n√©ration d'Arrays

Fonctions pour cr√©er des arrays pr√©d√©finis.

In [None]:
# Z√©ros et uns
zeros = np.zeros((3, 4))
print("Zeros (3, 4):")
print(zeros)

ones = np.ones((2, 3), dtype=np.int32)
print("\nOnes (2, 3):")
print(ones)

# Valeur constante
full = np.full((2, 2), 7)
print("\nFull (2, 2) avec 7:")
print(full)

# Matrice identit√©
identity = np.eye(4)
print("\nMatrice identit√© (4, 4):")
print(identity)

# S√©quences
arange = np.arange(0, 10, 2)  # start, stop, step
print("\narange(0, 10, 2):", arange)

linspace = np.linspace(0, 1, 5)  # start, stop, num
print("linspace(0, 1, 5):", linspace)

# Arrays al√©atoires (nouvelle API)
rng = np.random.default_rng(seed=42)
random_floats = rng.random((2, 3))  # [0, 1)
print("\nRandom floats:")
print(random_floats)

random_ints = rng.integers(0, 10, size=(3, 3))  # [0, 10)
print("\nRandom integers:")
print(random_ints)

normal = rng.normal(loc=0, scale=1, size=5)  # loi normale
print("\nDistribution normale:", normal)

## 12. Comparaison de Performance : Listes vs NumPy

D√©monstration de la puissance de NumPy.

In [None]:
# Pr√©paration des donn√©es
n = 1_000_000
python_list = list(range(n))
numpy_array = np.arange(n)

print(f"Comparaison sur {n:,} √©l√©ments\n")

# Test 1 : Somme
start = time.time()
sum_list = sum(python_list)
time_list = time.time() - start

start = time.time()
sum_numpy = np.sum(numpy_array)
time_numpy = time.time() - start

print(f"Somme :")
print(f"  Liste Python : {time_list:.4f}s")
print(f"  NumPy        : {time_numpy:.4f}s")
print(f"  Speedup      : {time_list/time_numpy:.1f}x\n")

# Test 2 : Multiplication par 2
start = time.time()
result_list = [x * 2 for x in python_list]
time_list = time.time() - start

start = time.time()
result_numpy = numpy_array * 2
time_numpy = time.time() - start

print(f"Multiplication par 2 :")
print(f"  Liste Python : {time_list:.4f}s")
print(f"  NumPy        : {time_numpy:.4f}s")
print(f"  Speedup      : {time_list/time_numpy:.1f}x\n")

# Test 3 : Calcul complexe (x^2 + 2x + 1)
start = time.time()
result_list = [x**2 + 2*x + 1 for x in python_list]
time_list = time.time() - start

start = time.time()
result_numpy = numpy_array**2 + 2*numpy_array + 1
time_numpy = time.time() - start

print(f"Calcul complexe (x¬≤ + 2x + 1) :")
print(f"  Liste Python : {time_list:.4f}s")
print(f"  NumPy        : {time_numpy:.4f}s")
print(f"  Speedup      : {time_list/time_numpy:.1f}x")

## 13. Pi√®ges Courants

### Pi√®ge 1 : Copie vs Vue (View)

Certaines op√©rations cr√©ent des vues (r√©f√©rences), d'autres des copies.

In [None]:
# Vue : le slice partage la m√©moire
arr = np.array([1, 2, 3, 4, 5])
slice_view = arr[1:4]
slice_view[0] = 999
print("Array original apr√®s modification de la vue:", arr)
print("‚ùå La vue modifie l'original !\n")

# Solution : copie explicite
arr = np.array([1, 2, 3, 4, 5])
slice_copy = arr[1:4].copy()
slice_copy[0] = 999
print("Array original apr√®s modification de la copie:", arr)
print("‚úÖ La copie ne modifie pas l'original")

# V√©rifier si c'est une vue
print("\nslice_view est une vue :", slice_view.base is not None)
print("slice_copy est une copie :", slice_copy.base is None)

### Pi√®ge 2 : Broadcasting Incoh√©rent

In [None]:
# Broadcasting inattendu
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])  # (2, 3)
arr_1d = np.array([10, 20])  # (2,)

try:
    result = arr_2d + arr_1d
    print("‚ùå R√©sultat inattendu:")
    print(result)
except ValueError as e:
    print(f"Erreur: {e}")

# Solution : reshape pour clarifier l'intention
arr_1d_col = arr_1d.reshape(-1, 1)  # (2, 1)
result = arr_2d + arr_1d_col
print("\n‚úÖ Avec reshape explicite:")
print(result)

### Pi√®ge 3 : Overflow des dtypes

In [None]:
# Overflow avec int8
arr_int8 = np.array([100, 120], dtype=np.int8)
print("Array int8:", arr_int8)
result = arr_int8 + 50
print("Apr√®s +50 (overflow):", result)
print("‚ùå Overflow silencieux !\n")

# Solution : utiliser un dtype plus grand
arr_int32 = np.array([100, 120], dtype=np.int32)
result = arr_int32 + 50
print("Avec int32:", result)
print("‚úÖ Pas d'overflow")

# V√©rifier les limites d'un dtype
print("\nLimites int8:", np.iinfo(np.int8))
print("Limites int32:", np.iinfo(np.int32))
print("Limites float64:", np.finfo(np.float64))

## 14. Mini-Exercices

### Exercice 1 : Op√©rations Matricielles

Cr√©ez deux matrices al√©atoires de forme (3, 4) et effectuez :
1. Addition √©l√©ment par √©l√©ment
2. Produit matriciel (attention √† la forme !)
3. Transpos√©e de la premi√®re matrice
4. Extraction des √©l√©ments > 0.5

In [None]:
# Votre code ici


### Exercice 2 : Statistiques sur un Array

Cr√©ez un array 1D de 1000 valeurs suivant une loi normale (moyenne=50, √©cart-type=10).
Calculez :
1. La moyenne, m√©diane, √©cart-type
2. Le nombre de valeurs entre 40 et 60
3. Remplacez les valeurs < 30 par 30 et les valeurs > 70 par 70 (clipping)

In [None]:
# Votre code ici


### Exercice 3 : Normalisation Min-Max

Cr√©ez un array 2D de forme (5, 3) avec des valeurs al√©atoires entre 0 et 100.
Normalisez chaque colonne selon la formule min-max :

$$x_{normalized} = \frac{x - x_{min}}{x_{max} - x_{min}}$$

Les valeurs normalis√©es doivent √™tre entre 0 et 1.

In [None]:
# Votre code ici


---

## Solutions des Exercices

### Solution Exercice 1

In [None]:
rng = np.random.default_rng(42)

# Cr√©ation des matrices
mat1 = rng.random((3, 4))
mat2 = rng.random((3, 4))

print("Matrice 1:")
print(mat1)
print("\nMatrice 2:")
print(mat2)

# 1. Addition
addition = mat1 + mat2
print("\n1. Addition:")
print(addition)

# 2. Produit matriciel (il faut transposer mat2)
produit = mat1 @ mat2.T  # ou np.matmul(mat1, mat2.T)
print("\n2. Produit matriciel (3,4) @ (4,3) = (3,3):")
print(produit)

# 3. Transpos√©e
transposee = mat1.T
print("\n3. Transpos√©e de mat1 (4, 3):")
print(transposee)

# 4. Extraction
superieur = mat1[mat1 > 0.5]
print("\n4. √âl√©ments > 0.5:")
print(superieur)

### Solution Exercice 2

In [None]:
rng = np.random.default_rng(42)

# G√©n√©ration
arr = rng.normal(loc=50, scale=10, size=1000)

# 1. Statistiques
print("1. Statistiques:")
print(f"   Moyenne: {np.mean(arr):.2f}")
print(f"   M√©diane: {np.median(arr):.2f}")
print(f"   √âcart-type: {np.std(arr):.2f}")

# 2. Comptage
entre_40_60 = np.sum((arr >= 40) & (arr <= 60))
print(f"\n2. Valeurs entre 40 et 60: {entre_40_60}")

# 3. Clipping
arr_clipped = np.clip(arr, 30, 70)
print(f"\n3. Apr√®s clipping:")
print(f"   Min: {np.min(arr_clipped):.2f}")
print(f"   Max: {np.max(arr_clipped):.2f}")
print(f"   Moyenne: {np.mean(arr_clipped):.2f}")

### Solution Exercice 3

In [None]:
rng = np.random.default_rng(42)

# Cr√©ation de l'array
arr = rng.integers(0, 101, size=(5, 3))
print("Array original:")
print(arr)

# Normalisation min-max par colonne
min_vals = np.min(arr, axis=0)  # min de chaque colonne
max_vals = np.max(arr, axis=0)  # max de chaque colonne

# Broadcasting automatique
arr_normalized = (arr - min_vals) / (max_vals - min_vals)

print("\nArray normalis√©:")
print(arr_normalized)

# V√©rification
print("\nV√©rification (min et max par colonne):")
print("Min:", np.min(arr_normalized, axis=0))
print("Max:", np.max(arr_normalized, axis=0))