### APPRENTISSAGE DE NUMPY POUR LA DATA SCIENCE , MACHINE LEARNING ET INTELLIGENCE ARTIFICIELLE

#### 1 - Introduction à Numpy

Numpy((Numerical Python) est  une librairie ou bibliothèque fondamentale en python qui est utilisé pour les calculs  scientifique . Elle fournit des structures de données puissantes (principalement les tableaux `ndarray`) et des fonctions optimisées en C pour des opérations mathématiques et logiques sur des tableaux multidimensionnels.

### 2- Pourquoi NumPy est important :
- Performance : les opérations vectorisées sont beaucoup plus rapides que les boucles Python pures.
- Interopérabilité : base pour pandas, scikit-learn, matplotlib et la plupart des outils de data science / machine learning.
- API compacte : manipulation d'indices, diffusion (broadcasting), formes (reshape) et opérations universelles (ufuncs).


### 3-  Comment  installer  et importer la librairie Numpy

Pour installer la librairie numpy, il existe plus ou moins plusieurs façons de le faire et cela diffère  d'un système d'exploitation à un autre . 

- Activer l'environnement virtuel Python (si vous utilisez l'env fourni dans le dépôt) :

```bash
source env/bin/activate
python -V
pip install -U numpy
```

- Ouvrir le notebook d'apprentissage :

```bash
# depuis la racine du dépôt
jupyter notebook NUMPY/learning_numpy.ipynb
```

### Installation — Windows et Linux

Voici des instructions concrètes et reproductibles pour installer NumPy selon votre plateforme et votre préférence d'environnement.

1) Recommandation générale (virtualenv / venv — multiplateforme)

```bash
# créer et activer un environnement virtuel (Linux/macOS)
python3 -m venv .venv
source .venv/bin/activate

# sur Windows PowerShell
# python -m venv .venv
# .\.venv\Scripts\Activate.ps1

pip install --upgrade pip
pip install numpy
```

2) Installation rapide avec pip (sans venv — utilisateur)

```bash
# Linux / macOS
pip install --user numpy

# Windows (PowerShell)
pip install --user numpy
```

3) Utilisateurs conda (optionnel)

```bash
# créer un env et installer numpy
conda create -n ds-env python=3.12 numpy -y
conda activate ds-env
```

4) Notes spécifiques pour Linux

- Si pip n'est pas installé :

```bash
sudo apt update && sudo apt install -y python3-pip python3-venv    # Debian/Ubuntu
```

- Pour de meilleures performances numériques (OpenBLAS/MKL), installez la version fournie par la distribution (ou utilisez conda qui gère les BLAS correctement) :

```bash
pip install numpy            # version standard (utilise les wheels précompilés)
# ou via conda pour MKL/optimisations:
conda install numpy
```

5) Vérifier l'installation

```bash
python -c "import numpy as np; print('numpy', np.__version__, 'blas:', np.__config__.get_info('blas') or 'unknown')"
```

6) Si vous utilisez l'environnement `env/` fourni dans le dépôt

```bash
source env/bin/activate
pip install -U numpy
```



7- Importation de numpy 

il suffit de faire : 
```python
import numpy as np

```

et c'est ce que nous allons faire dans quelques secondes

## 2. Les bases du tableau NumPy (ndarray)

NumPy utilise principalement l'objet `ndarray` : un tableau N-dimensionnel homogène (même type pour tous les éléments).

### Création de tableaux
Exemples de création depuis des listes, fonctions utilitaires et générateurs:

## import numpy as np

In [1]:
import numpy as np

In [2]:
# Création d'ndarray
import numpy as np
a = np.array([1, 2, 3, 4])             # 1D
b = np.array([[1, 2], [3, 4]])         # 2D
zeros = np.zeros((3, 4))               # tableau rempli de 0
ones = np.ones(5)                      # tableau rempli de 1
ar = np.arange(10)                     # équivalent range -> ndarray
lin = np.linspace(0, 1, 5)             # 5 valeurs entre 0 et 1
rand = np.random.rand(3, 3)            # valeurs uniformes [0,1)

print('a:', a)
print('b shape:', b.shape)
print('zeros:', zeros.shape, 'ar:', ar)

a: [1 2 3 4]
b shape: (2, 2)
zeros: (3, 4) ar: [0 1 2 3 4 5 6 7 8 9]


### Types de données
NumPy stocke le type (`dtype`) pour tous les éléments; cela influence la mémoire et les opérations.

In [3]:
a = np.array([1, 2, 3], dtype=np.int32)
b = np.array([1.0, 2.5, 3.1], dtype=np.float64)
c = np.array([True, False, True], dtype=bool)
print(a.dtype, b.dtype, c.dtype)
# conversion de type
b_as_int = b.astype(np.int32)
print('b_as_int:', b_as_int)

int32 float64 bool
b_as_int: [1 2 3]


## 3. Indexation et Slicing
Explication et exemples pour accéder aux éléments.

### Indexation simple et Slicing
Utilisez les indices comme en Python (0-based) et le slicing `start:stop:step`.

In [5]:
arr = np.arange(12)
print('arr:', arr)
print('arr[3]:', arr[3])
print('arr[2:8:2]:', arr[2:8:2])

arr2 = arr.reshape(3, 4)
print('arr2:', arr2)
# indexation multidimensionnelle
print('arr2[1,2]:', arr2[1, 2])
print('ligne 1:', arr2[1, :])
print('colonne 2:', arr2[:, 2])

arr: [ 0  1  2  3  4  5  6  7  8  9 10 11]
arr[3]: 3
arr[2:8:2]: [2 4 6]
arr2: [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
arr2[1,2]: 6
ligne 1: [4 5 6 7]
colonne 2: [ 2  6 10]


## 4. Opérations sur les tableaux
Opérations arithmétiques élément-wise et fonctions universelles (ufuncs).

In [6]:
x = np.array([1, 2, 3])
y = np.array([10, 20, 30])
print('x+y:', x + y)               # addition élément par élément
print('x*2:', x * 2)               # multiplication par scalaire
print('sqrt(x):', np.sqrt(x))      # ufunc
print('exp(x):', np.exp(x))

x+y: [11 22 33]
x*2: [2 4 6]
sqrt(x): [1.         1.41421356 1.73205081]
exp(x): [ 2.71828183  7.3890561  20.08553692]


## 5. Opérations logiques et booléennes
Filtres logiques et comparaisons entre tableaux.

In [7]:
a = np.array([1, 2, 3, 4, 5])
mask = a > 2
print('mask:', mask)
print('filtered:', a[mask])
# Comparaison entre tableaux
b = np.array([1, 2, 0, 4, 9])
print('a == b:', a == b)
print('any(a > b):', np.any(a > b))
print('all(a >= 1):', np.all(a >= 1))

mask: [False False  True  True  True]
filtered: [3 4 5]
a == b: [ True  True False  True False]
any(a > b): True
all(a >= 1): True


## 6. Manipulation de formes (Reshape, Transpose)
Fusion (stack) et séparation (split) des tableaux.

In [8]:
a = np.arange(6)
b = a.reshape(2, 3)
print('b:', b)
print('b.T (transpose):', b.T)
# concaténation
c = np.arange(6).reshape(2,3)
d = np.arange(6,12).reshape(2,3)
h = np.hstack([c, d])   # horizontal stack
v = np.vstack([c, d])   # vertical stack
print('h shape:', h.shape, 'v shape:', v.shape)
# split
parts = np.split(h, 2, axis=1)  # split en 2 colonnes blocs
print('parts lengths:', [p.shape for p in parts])

b: [[0 1 2]
 [3 4 5]]
b.T (transpose): [[0 3]
 [1 4]
 [2 5]]
h shape: (2, 6) v shape: (4, 3)
parts lengths: [(2, 3), (2, 3)]


## 7. Agrégations et statistiques
Moyennes, sommes, médianes et opérations le long d'axes.

In [9]:
np.mean(a)
np.max(a)
np.min(a)
np.std(a)

np.float64(1.707825127659933)

In [10]:
mat = np.random.randn(100, 5)
print('mean:', mat.mean())
print('std axis=0:', mat.std(axis=0))
print('sum axis=1 shape:', mat.sum(axis=1).shape)
# fonctions robustes aux NaN
mat2 = mat.copy()
mat2[0, 0] = np.nan
print('nanmean:', np.nanmean(mat2))

mean: 0.010884388351650733
std axis=0: [0.97663746 0.9811966  0.91783259 0.96501143 0.91455919]
sum axis=1 shape: (100,)
nanmean: 0.008008498768690687


## 8. Génération aléatoire (module random)
Utiliser `np.random` pour générer tirages reproducibles et différentes distributions.

In [11]:
rng = np.random.default_rng(42)  # nouvel API recommandée
print('rand ints:', rng.integers(0, 10, size=5))
print('normal:', rng.normal(loc=0.0, scale=1.0, size=(3,3)))
# seed with legacy API (np.random.seed) possible mais default_rng est préférable

rand ints: [0 7 6 4 4]
normal: [[ 0.94056472 -1.95103519 -1.30217951]
 [ 0.1278404  -0.31624259 -0.01680116]
 [-0.85304393  0.87939797  0.77779194]]


## 9. Fonctions avancées : Broadcasting & Vectorisation
Expliquer broadcasting et la vectorisation par rapport aux boucles Python.

In [13]:
# Broadcasting example
A = np.arange(6).reshape(2,3)
b = np.array([1, 10, 100])
print('A:', A)
print('b:', b)
print('A + b (broadcast):', A + b)

# Vectorisation vs boucle
x = np.linspace(0, 1, 1000000)
# operation vectorisée
y_vec = np.sin(x) * 2 + 1
# boucle (pour comparaison conceptuelle)
y_loop = [None]*x.size
for i, v in enumerate(x):
    y_loop[i] = (np.sin(v) * 2 + 1)
# note: ne pas exécuter des comparaisons de performance lourdes dans le notebook par défaut

A: [[0 1 2]
 [3 4 5]]
b: [  1  10 100]
A + b (broadcast): [[  1  11 102]
 [  4  14 105]]


## 10. Sauvegarde et chargement de données
Format binaire rapide (`.npy`, `.npz`) et texte (`.csv`, `savetxt/loadtxt`).

In [None]:
arr = np.arange(12).reshape(3,4)
np.save('example_array.npy', arr)
np.savez('example_arrays.npz', a=arr, b=arr*2)
# texte
np.savetxt('example.csv', arr, delimiter=',')
# chargement
loaded = np.load('example_array.npy')
print('loaded shape:', loaded.shape)

## 11. Cas pratiques rapides
Quelques opérations pratiques : produit matriciel et conseils pour grandes données.

In [None]:
# Produit matriciel
A = np.random.rand(3,4)
B = np.random.rand(4,2)
C = A @ B    # produit matriciel
print('C shape:', C.shape)

# Travailler sur de grandes données : mémoire et memmap
# np.memmap permet de travailler sur des fichiers disques comme des arrays sans tout charger en RAM
# Exemple rapide (ne pas exécuter lourdement ici):
# fp = np.memmap('large.dat', dtype='float32', mode='w+', shape=(1000000, 10))
# remplir par morceaux (chunking) pour traitement sur datasets volumineux