<a href="https://colab.research.google.com/github/yelallioui/Python-DataScience-Master-IA-GI/blob/main/exercices/exercices-pratiques-scipy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introduction à Scipy — CALCULS SCIENTIFIQUES ET OUTILS D'ANALYSE AVANCÉE EN PYTHON
_Master IA-GI — Notebook 3 : Exercices Pratiques_

> **But du notebook** : Maîtriser les outils de calcul scientifique et d'analyse avancée avec Scipy à travers 9 exercices pratiques couvrant l'optimisation, les statistiques, le traitement de signal et d'images en Python (2025)<br>
> **Module : Python pour les Sciences de Données – Master 1**
> <br>**Basé sur** [le support de cours](https://fr.slideshare.net/slideshow/introduction-a-scipy-calcul-scientifique-et-analyse-avancee-en-python/284636885) de **Youssouf EL ALLIOUI** – FPK USMS

**Objectifs :**
- Appliquer les constantes scientifiques et effectuer des calculs physiques précis avec `scipy.constants`
- Résoudre des problèmes d'optimisation réels (ajustement de courbes, minimisation) avec `scipy.optimize`
- Maîtriser l'interpolation de données expérimentales avec `scipy.interpolate`
- Réaliser des analyses statistiques rigoureuses (tests d'hypothèses, corrélations) avec `scipy.stats`
- Manipuler efficacement les matrices creuses et analyser des graphes avec `scipy.sparse`
- Exploiter les algorithmes spatiaux (KDTree, Voronoi, enveloppe convexe) avec `scipy.spatial`
- Traiter et filtrer des signaux numériques avec la FFT via `scipy.signal` et `scipy.fftpack`
- Appliquer les techniques de traitement d'images (morphologie, filtrage) avec `scipy.ndimage`
- Développer un pipeline complet de classification avec `scipy.datasets`

**Structure du notebook :**
- **Chapitre 1** : 3 exercices sur les bases (constants, optimize, interpolate)
- **Chapitre 2** : 3 exercices sur les structures avancées (stats, sparse, spatial)
- **Chapitre 3** : 3 exercices sur les applications (signal, ndimage, mini-projet intégratif)

**Prérequis :**
- Connaissance de base en Python (NumPy, Matplotlib)
- Notions mathématiques : algèbre linéaire, statistiques descriptives, analyse de Fourier


**Consignes générales :**
- Exécutez les cellules dans l'ordre
- Commentez votre code de manière claire
- Créez des visualisations lisibles avec titres et légendes
- Analysez et interprétez vos résultats
- N'hésitez pas à consulter la documentation officielle : https://docs.scipy.org/

**Niveau :** Master 1 Intelligence Artificielle et Génie Informatique

**Contact :** y.elallioui@usms.ma

# CHAPITRE 1 : Introduction à SciPy et manipulation scientifique de base


## Exercice 1.1 : Calculs physiques avec scipy.constants
**Niveau : ⭐ Débutant**

### Énoncé
Vous travaillez sur un projet de simulation physique. Créez un programme qui calcule :

1. L'énergie d'un photon de lumière bleue (λ = 450 nm) en joules et en électron-volts
   - Formule : E = h × c / λ
   - h : constante de Planck, c : vitesse de la lumière

2. La force gravitationnelle entre la Terre et la Lune
   - Formule : F = G × (m₁ × m₂) / r²
   - Masse Terre : 5.972e24 kg, Masse Lune : 7.342e22 kg
   - Distance : 384,400 km

3. Convertir une pression de 2.5 atmosphères en :
   - Pascals
   - PSI (pounds per square inch)
   - Bars

### Indices
- Utilisez `scipy.constants` pour toutes les constantes
- La distance doit être convertie en mètres
- Affichez les résultats avec 3 décimales significatives


## Exercice 1.2 : Optimisation d'un modèle de vente
**Niveau : ⭐⭐ Intermédiaire**

### Énoncé
Une entreprise marocaine de production d'huile d'argan souhaite optimiser son prix de vente.

**Données collectées** (prix en DH, quantité en litres) :
```
Prix :     [150, 180, 200, 220, 250, 280, 300]
Quantité : [850, 780, 720, 650, 580, 500, 420]
```

**Tâches :**

1. Utilisez `curve_fit` pour ajuster un modèle polynomial de degré 2 : `Q(p) = a×p² + b×p + c`

2. Calculez le revenu R(p) = p × Q(p) et trouvez le prix optimal qui maximise le revenu
   - Utilisez `minimize` avec la fonction négative du revenu

3. Visualisez sur un graphique :
   - Les points de données réels
   - La courbe ajustée Q(p)
   - Le point de revenu maximal

4. Affichez le prix optimal et le revenu maximal attendu

### Contraintes
- Le prix doit être entre 100 DH et 400 DH
- Utilisez `scipy.optimize.minimize` avec méthode='L-BFGS-B'


## Exercice 1.3 : Interpolation de données climatiques
**Niveau : ⭐⭐ Intermédiaire**

### Énoncé
Un centre météorologique à Fès a enregistré les températures suivantes en 2024 :

```
Mois :        [1,  2,  3,  4,   5,   6,   7,   8,   9,  10,  11,  12]
Température : [12, 14, 17, 20, 24, 29, 34, 33, 28, 22, 17, 13] (en °C)
```

**Tâches :**

1. Utilisez `interp1d` pour créer trois fonctions d'interpolation :
   - Linéaire
   - Quadratique
   - Cubique

2. Générez des valeurs interpolées pour chaque jour de l'année (365 points)

3. Calculez et affichez pour chaque méthode :
   - La température estimée au 15 mars (jour 74)
   - La température estimée au 10 août (jour 222)

4. Créez une visualisation comparative montrant :
   - Les points de mesure originaux
   - Les trois courbes d'interpolation avec des couleurs différentes
   - Une légende claire

5. Analysez : quelle méthode semble la plus réaliste pour des données climatiques ?


# CHAPITRE 2 : Analyse scientifique et structures avancées

## Exercice 2.1 : Analyse statistique d'un dataset médical
**Niveau : ⭐⭐ Intermédiaire**

### Énoncé
Vous analysez les données de tension artérielle de 30 patients avant et après un traitement.

**Données :**
```python
avant = [145, 138, 152, 148, 155, 142, 149, 150, 147, 151,
         143, 146, 154, 141, 148, 153, 144, 147, 150, 146,
         149, 152, 145, 148, 151, 143, 147, 150, 144, 149]

apres = [138, 132, 145, 140, 148, 135, 142, 143, 140, 144,
         136, 139, 147, 134, 141, 146, 137, 140, 143, 139,
         142, 145, 138, 141, 144, 136, 140, 143, 137, 142]
```

**Tâches :**

1. Calculez pour chaque groupe (avant/après) :
   - Moyenne, médiane, écart-type
   - Utiliser `scipy.stats.describe()`

2. Testez si la différence est statistiquement significative :
   - Test t de Student pour échantillons appariés (`ttest_rel`)
   - Interprétez la p-value (seuil α = 0.05)

3. Vérifiez la normalité des distributions :
   - Utilisez `shapiro` test
   - Tracez les histogrammes

4. Calculez la corrélation entre avant et après (`pearsonr`)

5. Rédigez une conclusion : le traitement est-il efficace ?


## Exercice 2.2 : Matrices creuses et réseau social
**Niveau : ⭐⭐⭐ Avancé**

### Énoncé
Vous analysez un réseau social d'une université de 1000 étudiants. Les connexions sont très clairsemées (chaque étudiant a en moyenne 15 amis).

**Tâches :**

1. Créez une matrice d'adjacence creuse 1000×1000 :
   - Générez aléatoirement 7500 connexions (15 amis × 1000 / 2)
   - Utilisez `csr_matrix` pour stocker
   - Assurez la symétrie (si A connaît B, alors B connaît A)

2. Calculez les statistiques du réseau :
   - Nombre de composantes connexes (`connected_components`)
   - Taille de la plus grande composante

3. Trouvez les "influenceurs" :
   - Calculez le degré de chaque nœud (nombre d'amis)
   - Affichez les 10 étudiants les plus connectés

4. Calculez le plus court chemin entre deux étudiants aléatoires :
   - Utilisez `dijkstra` ou `shortest_path`

5. Comparez la mémoire utilisée :
   - Matrice dense vs matrice creuse
   - Utilisez `sys.getsizeof()`

**Bonus :** Visualisez un sous-graphe de 50 étudiants avec `matplotlib`


## Exercice 2.3 : Analyse spatiale de données GPS
**Niveau : ⭐⭐⭐ Avancé**

### Énoncé
Une société de livraison à Casablanca souhaite optimiser ses tournées. Vous disposez des coordonnées GPS de 20 clients.

**Données (latitude, longitude) :**
```python
clients = np.array([
    [33.5731, -7.5898], [33.5892, -7.6031], [33.5950, -7.6180],
    [33.5682, -7.6234], [33.5823, -7.6089], [33.5765, -7.5967],
    [33.5912, -7.6145], [33.5701, -7.6012], [33.5834, -7.6198],
    [33.5789, -7.5889], [33.5923, -7.6067], [33.5698, -7.6156],
    [33.5856, -7.5934], [33.5745, -7.6101], [33.5801, -7.6223],
    [33.5934, -7.5978], [33.5667, -7.6045], [33.5878, -7.6189],
    [33.5712, -7.5912], [33.5945, -7.6134]
])
```

**Tâches :**

1. Calculez la matrice de distances entre tous les clients :
   - Utilisez `distance_matrix` de `scipy.spatial`
   - Distance euclidienne sur les coordonnées

2. Créez un KDTree et trouvez pour chaque client :
   - Ses 3 voisins les plus proches
   - Tous les clients dans un rayon de 0.02 degrés

3. Calculez l'enveloppe convexe (`ConvexHull`) :
   - Identifiez les clients en périphérie
   - Calculez l'aire couverte

4. Créez un diagramme de Voronoi :
   - Divisez Casablanca en zones d'influence
   - Visualisez avec `matplotlib`

5. Proposez un algorithme simple de tournée :
   - Partez du dépôt (centre de gravité des points)
   - Visitez le plus proche voisin non visité
   - Calculez la distance totale


# CHAPITRE 3 : Applications scientifiques et préparation aux projets IA


## Exercice 3.1 : Nettoyage d'un signal audio bruité
**Niveau : ⭐⭐ Intermédiaire**

### Énoncé
Vous travaillez sur l'enregistrement d'une conférence universitaire perturbée par du bruit ambiant.

**Simulation du signal :**
```python
# Signal original : voix humaine (fréquences 100-300 Hz)
t = np.linspace(0, 10, 10000)
voix = np.sin(2 * np.pi * 150 * t) + 0.5 * np.sin(2 * np.pi * 250 * t)

# Bruit haute fréquence (ventilation, équipement)
bruit_hf = 0.8 * np.sin(2 * np.pi * 2000 * t)

# Bruit basse fréquence (ronronnement électrique 50 Hz)
bruit_bf = 0.6 * np.sin(2 * np.pi * 50 * t)

# Bruit aléatoire
bruit_random = np.random.normal(0, 0.3, len(t))

# Signal enregistré
signal_bruite = voix + bruit_hf + bruit_bf + bruit_random
```

**Tâches :**

1. Supprimez la tendance du signal avec `signal.detrend`

2. Appliquez la FFT pour analyser les fréquences :
   - Identifiez les pics de fréquence
   - Créez un spectre de puissance

3. Filtrez le signal :
   - Supprimez les fréquences < 80 Hz (bruit électrique)
   - Supprimez les fréquences > 400 Hz (bruit aigu)
   - Conservez la bande 80-400 Hz

4. Reconstruisez le signal avec la FFT inverse

5. Visualisez (4 sous-graphiques) :
   - Signal original bruité
   - Spectre avant filtrage
   - Spectre après filtrage
   - Signal nettoyé

6. Calculez le rapport signal/bruit (SNR) avant et après


## Exercice 3.2 : Détection de contours dans une image médicale
**Niveau : ⭐⭐⭐ Avancé**

### Énoncé
Vous développez un outil d'aide au diagnostic pour détecter des anomalies sur des radiographies pulmonaires.

**Tâches :**

1. Créez une image synthétique simulant une radiographie (256×256) :
   - Fond gris uniforme (valeur 100)
   - Ajoutez 3 cercles de différentes tailles (poumons + anomalie)
   - Ajoutez du bruit gaussien (`np.random.normal`)

2. Prétraitement de l'image :
   - Appliquez un filtre gaussien (`ndimage.gaussian_filter`)
   - Testez différentes valeurs de sigma (1, 2, 5)

3. Détection de contours :
   - Calculez le gradient avec `ndimage.sobel`
   - Appliquez un seuillage pour isoler les contours nets
   - Utilisez `ndimage.binary_closing` pour combler les gaps

4. Segmentation des régions :
   - Utilisez `ndimage.label` pour identifier les zones connexes
   - Comptez le nombre de structures détectées
   - Calculez l'aire de chaque structure

5. Analyse morphologique :
   - Érosion et dilatation pour affiner les contours
   - Comparaison avant/après

6. Visualisation complète :
   - Image originale
   - Image filtrée
   - Contours détectés
   - Régions segmentées (avec labels colorés)

**Bonus :** Calculez le centre de masse de chaque structure avec `ndimage.center_of_mass`


## Exercice 3.3 : Mini-projet - Classification Iris avec préparation SciPy
**Niveau : ⭐⭐⭐ Avancé (Projet intégratif)**

### Énoncé
Créez un pipeline complet d'analyse du célèbre dataset Iris en utilisant exclusivement SciPy (sans Scikit-learn).

**Objectif :** Classifier les espèces d'iris en utilisant une approche K-Nearest Neighbors (KNN) manuelle.

**Tâches :**

### Partie 1 : Chargement et exploration (scipy.datasets)
1. Chargez le dataset Iris
2. Affichez les statistiques descriptives complètes (`scipy.stats.describe`)
3. Vérifiez la distribution de chaque variable (test de normalité)
4. Calculez la matrice de corrélation entre toutes les features

### Partie 2 : Analyse spatiale (scipy.spatial)
1. Créez un KDTree avec les 4 features
2. Pour chaque échantillon, trouvez ses k=5 plus proches voisins
3. Implémentez un vote majoritaire pour prédire l'espèce
4. Utilisez 80% des données pour "entraînement", 20% pour test

### Partie 3 : Optimisation des hyperparamètres (scipy.optimize)
1. Créez une fonction d'accuracy en fonction de k (nombre de voisins)
2. Testez k de 1 à 20
3. Trouvez le k optimal qui maximise l'accuracy
4. Visualisez la courbe accuracy vs k

### Partie 4 : Analyse statistique des résultats (scipy.stats)
1. Calculez la matrice de confusion manuellement
2. Pour chaque classe, calculez :
   - Précision
   - Rappel
   - F1-score
3. Effectuez un test statistique pour comparer les performances entre classes

### Partie 5 : Visualisation et rapport
1. Créez 4 graphiques :
   - Distribution des features par espèce (boxplots)
   - Matrice de distances (heatmap)
   - Projection 2D (2 meilleures features)
   - Courbe de performance vs k

2. Rédigez un mini-rapport (format Markdown) incluant :
   - Statistiques descriptives
   - Meilleur k trouvé
   - Accuracy globale
   - Analyse des erreurs de classification

### Contraintes
- N'utilisez QUE les modules SciPy (+ NumPy, Matplotlib, Pandas pour viz)
- Implémentez KNN manuellement (pas de Scikit-learn)
- Commentez abondamment votre code
- Temps estimé : 3-4 heures
