# Objectifs P√©dagogiques & Comp√©tences Vis√©es

### üéØ Objectifs du module : *Python pour la Data Science*

Ce module vise √† fournir les bases pratiques et th√©oriques n√©cessaires pour **manipuler, analyser et visualiser des donn√©es** √† l‚Äôaide de Python et de ses biblioth√®ques phares. √Ä l‚Äôissue du module, l‚Äôapprenant sera capable de :

---

#### üìå Objectifs g√©n√©raux

- Comprendre et appliquer la **d√©marche CRISP-DM** dans un projet data.
- Utiliser **Python** et ses biblioth√®ques pour la **Data Science**.
- R√©aliser une **analyse exploratoire de donn√©es compl√®te** : chargement, nettoyage, visualisation et interpr√©tation.

---

#### üß† Comp√©tences cibl√©es

##### 1. Fondamentaux Python pour la Data Science
- Manipuler des structures de donn√©es avec **NumPy** (vecteurs, matrices, calculs vectoris√©s).
- Manipuler des **DataFrames** avec **Pandas** (chargement, filtrage, groupement, jointures, op√©rations).

##### 2. Statistiques de base
- Calculer et interpr√©ter des **mesures de tendance centrale** (moyenne, m√©diane), de dispersion (√©cart-type, variance).
- R√©aliser des analyses statistiques descriptives.

##### 3. Visualisation de donn√©es
- Cr√©er des graphiques clairs et pertinents avec **Matplotlib** (courbes, histogrammes, barplots‚Ä¶).
- Explorer des relations et distributions avec **Seaborn** (boxplots, heatmaps, pairplots, etc.).

##### 4. Cycle CRISP-DM appliqu√©
- Identifier une probl√©matique m√©tier.
- Formuler des hypoth√®ses sur les donn√©es.
- Construire une strat√©gie d‚Äôexploration et de nettoyage des donn√©es.
- R√©aliser une **analyse exploratoire compl√®te** jusqu‚Äô√† la communication des r√©sultats.

---

#### üìä Projet fil rouge

Tout au long du module, un projet guid√© vous permettra de :

1. **Charger et explorer un jeu de donn√©es r√©el**
2. **Nettoyer et pr√©parer les donn√©es**
3. **Analyser et visualiser les patterns importants**
4. **Tirer des insights m√©tier exploitables**

---

‚úÖ √Ä l‚Äôissue du module, vous serez capable de lancer seul(e) une **analyse de donn√©es de A √† Z**, en appliquant les **bonnes pratiques** du m√©tier de data analyst ou data scientist junior.


# Numpy Pour Le Machine Learning

### 1. ‚öôÔ∏è Installation

In [1]:
!pip install numpy




[notice] A new release of pip is available: 25.1.1 -> 25.2
[notice] To update, run: c:\Users\Dell\AppData\Local\Programs\Python\Python39\python.exe -m pip install --upgrade pip


In [3]:
import numpy as np

### 2. üß± Cr√©ation de tableaux

#### ‚úÖ Liste ‚Üí Tableau NumPy

In [6]:
a = np.array([1, 2, 3])
print(a)            # [1 2 3]
# type(a)
print(a.shape)      # (3,)

[1 2 3]
(3,)


#### ‚úÖ Matrice 2D

In [7]:
X = np.array([[1, 2], 
              [3, 4]])
print(X.shape)      

(2, 2)


#### ‚úÖ Tableaux utiles

In [13]:
np.zeros((2, 3))     # Matrice de z√©ros
np.ones((3, 2))      # Matrice de uns
np.eye(3)            # Matrice identit√©
np.full((2, 2), 7)   # Matrice remplie
np.arange(0, 10, 2)  # [0 2 4 6 8]
np.linspace(0, 1, 5) # [0. 0.25 0.5 0.75 1.]

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

### 3. üîÅ Indexation & slicing

#### ‚úÖ Indexation classique

In [20]:
X = np.array([[1, 2, 3], 
              [4, 5, 6]])
X[0, 1]     # 6
X[:, 2]     # [2 5]
X[1, :]     # [1 2 3]

array([4, 5, 6])

#### ‚úÖ Masquage bool√©en

In [22]:
X > 3
X[X > 3]    # [4 5 6]

array([4, 5, 6])

### 4. üîÑ Op√©rations vectorielles et matricielles

#### ‚úÖ Calculs √©l√©ment par √©l√©ment

In [17]:
a = np.array([1, 2, 3])
b = np.array([10, 20, 30])

a + b       # [11 22 33]
a * b       # [10 40 90]
a ** 2      # [1 4 9]
np.sqrt(a)  # [1. 1.414... 1.732...]

array([1.        , 1.41421356, 1.73205081])

#### ‚úÖ Produit matriciel

In [18]:
A = np.array([[1, 2], 
              [3, 4]])
B = np.array([[2, 0], 
              [1, 2]])

A @ B       # Produit matriciel
np.dot(A, B) # Pareil

array([[ 4,  4],
       [10,  8]])

### 5. üìä Statistiques utiles

Tr√®s utile avant d'entra√Æner un mod√®le (ex : SVM, k-NN, r√©gression)

In [28]:
X = np.array([[1, 2], 
              [3, 4], 
              [5, 6]])

np.min(X, axis=0)    # Min par colonne
np.max(X, axis=1)    # Max par ligne
np.mean(X, axis=0)   # Moyenne par colonne (feature)
np.std(X, axis=0)    # √âcart-type par feature


array([1, 2, 3, 4, 5, 6])

In [None]:
x = [2, 4, 4, 4, 5, 5, 7, 9]

$$
\sigma = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2}
$$

* $\sigma$ : √©cart-type de la population
* $\mu$ : moyenne de la population
* Pas de correction $n - 1$ ici


### 6. üßº Pr√©traitement (centrage, normalisation)

In [23]:
X = np.array([1, 5, 8, 18, 25, 35])
X_mean = np.mean(X, axis=0)
X_median = np.median(X, axis=0)
X_std = np.std(X, axis=0)
X_scaled = (X - X_mean) / X_std # Mise √† l'√©chelle

np.float64(13.0)

### 8. üìê Reshape, flatten

#### ‚úÖ Pour passer d'un vecteur √† une matrice ou inversement

In [27]:
a = np.array([1, 2, 3, 4])
a.reshape((2, 2)) 
a.reshape((2, -1)) # [[1, 2], [3, 4]]
# print(a.reshape((2, -1)))      # 2 lignes nb_colonne automatique
print(a.reshape((-1, 2)))     # n_ligne automatique 2 colonnes
a.flatten()             # vecteur plat


[[1 2]
 [3 4]]


###  7. Autres fonctions cl√©s

In [33]:
x = np.array([1, 3, 7, 10, 15])
[4, 4, 7, 10, 12]
np.argmax(x)      # Index du max
np.argsort(x)   # Index tri√©
np.unique(x)      # Valeurs uniques
np.cumsum(x)      # Somme cumul√©e
np.clip(x, 4, 12)  # Troncature entre 4 et 12 ==> # R√©sultat : [ 4  4  7 10 12 ] toutes les valeurs 

array([ 1,  4, 11, 21, 36, 43])

```python
np.clip(x, a_min, a_max)
```

* Toutes les valeurs **< `a_min`** deviennent `a_min`
* Toutes les valeurs **> `a_max`** deviennent `a_max`
* Les autres restent inchang√©es

üß† Interpr√©tation :

* 1 et 3 ‚Üí < 4 ‚Üí deviennent 4
* 15 ‚Üí > 12 ‚Üí devient 12
* 7 et 10 ‚Üí dans l‚Äôintervalle \[4, 12] ‚Üí inchang√©s


* **Limiter les outliers extr√™mes**
* **Stabiliser** les donn√©es avant de les passer √† un mod√®le (√©viter les explosions num√©riques)
* Dans les post-traitements de pr√©dictions (ex. : probas born√©es entre \[0, 1])



# M√©thodologie de gestion de projet data

* **CRISP-DM**, qui signifie **Cross-Industry Standard Process for Data Mining**, est une m√©thode ou un mod√®le de processus qui met en avant le cycle de vie de tout projet data. Il s'agit d'un mod√®le propos√© en 6 phases dont l'ordre des s√©quences n'est pas strictement fixe, mais sugg√©r√©, et offre en cons√©quence une flexibilit√©.
  
* Cette m√©thodologie est largement utilis√©e et comprend six phases : la compr√©hension de l'entreprise des donn√©es, la pr√©paration des donn√©es, la mod√©lisation, l'√©valuation et le d√©ploiement.

  
* D√©velopp√©e par **IBM dans les ann√©es 60**, la m√©thodologie CRISP-DM √©tait initialement con√ßue pour des projets de Data Mining.
 Elle est maintenant majoritairement utilis√©e dans les √©quipes de data science pour g√©rer les projets d'exploration et d'analyse des donn√©es.
 La m√©thodologie CRISP-DM est it√©rative, ce qui signifie que les diff√©rentes phases peuvent √™tre r√©vis√©es et r√©p√©t√©es en fonction des r√©sultats et des besoins du projet.


* Elle permet d'orienter les travaux d'exploration de donn√©es en data science.

![crisp_dm.jpeg](attachment:b193fa6d-f6fe-455b-90ec-674484fb176b.jpeg)

# Introdution √† Pandas

In [22]:
%pip install pandas 

Note: you may need to restart the kernel to use updated packages.


In [35]:
import pandas as pd

## Chargement Des Donn√©es

In [39]:
df = pd.read_csv("data/air_quality_health_dataset.csv", encoding='utf-8')
df

Unnamed: 0,city,date,aqi,pm2_5,pm10,no2,o3,temperature,humidity,hospital_admissions,population_density,hospital_capacity
0,Los Angeles,2020-01-01,65,34.0,52.7,2.2,38.5,33.5,33,5,Rural,1337
1,Beijing,2020-01-02,137,33.7,31.5,36.7,27.5,-1.6,32,4,Urban,1545
2,London,2020-01-03,266,43.0,59.6,30.4,57.3,36.4,25,10,Suburban,1539
3,Mexico City,2020-01-04,293,33.7,37.9,12.3,42.7,-1.0,67,10,Urban,552
4,Delhi,2020-01-05,493,50.3,34.8,31.2,35.6,33.5,72,9,Suburban,1631
...,...,...,...,...,...,...,...,...,...,...,...,...
88484,Tokyo,2262-04-06,22,23.4,53.4,24.3,58.9,9.1,55,5,Suburban,419
88485,Delhi,2262-04-07,170,48.0,32.4,25.0,15.7,5.6,40,10,Urban,695
88486,Delhi,2262-04-08,307,46.7,21.8,31.9,45.1,9.5,44,12,Urban,245
88487,Beijing,2262-04-09,65,31.9,26.0,38.1,53.0,17.8,46,11,Suburban,1291


## Exploratory Data Analysis (EDA)- Analyse Exploratoire & Data Comprehension

In [64]:
df.head()
# df.tail()
# df.sample()

Unnamed: 0,city,date,aqi,pm2_5,pm10,no2,o3,temperature,humidity,hospital_admissions,population_density,hospital_capacity
0,Los Angeles,2020-01-01,65,34.0,52.7,2.2,38.5,33.5,33,5,Rural,1337
1,Beijing,2020-01-02,137,33.7,31.5,36.7,27.5,-1.6,32,4,Urban,1545
2,London,2020-01-03,266,43.0,59.6,30.4,57.3,36.4,25,10,Suburban,1539
3,Mexico City,2020-01-04,293,33.7,37.9,12.3,42.7,-1.0,67,10,Urban,552
4,Delhi,2020-01-05,493,50.3,34.8,31.2,35.6,33.5,72,9,Suburban,1631


### Data Comprehension

| **Nom de colonne**    | **Signification**                                                                                                                                  |
| --------------------- | -------------------------------------------------------------------------------------------------------------------------------------------------- |
| `city`                | **Ville** o√π les donn√©es ont √©t√© relev√©es.                                                                                                         |
| `date`                | **Date** d‚Äôenregistrement de la mesure (au format YYYY-MM-DD).                                                                                     |
| `aqi`                 | **Air Quality Index (Indice de qualit√© de l‚Äôair)** : indicateur global de la pollution de l'air. Plus la valeur est √©lev√©e, plus l'air est pollu√©. |
| `pm2_5`               | **Particules fines (PM2.5)** en ¬µg/m¬≥ : particules de diam√®tre ‚â§ 2,5 microns, tr√®s nocives car elles p√©n√®trent profond√©ment dans les poumons.      |
| `pm10`                | **Particules inhalables (PM10)** en ¬µg/m¬≥ : particules de diam√®tre ‚â§ 10 microns, √©galement dangereuses, mais un peu moins fines que PM2.5.         |
| `no2`                 | **Dioxyde d‚Äôazote (NO‚ÇÇ)** en ¬µg/m¬≥ : gaz toxique principalement √©mis par la combustion (trafic routier, industrie).                                |
| `o3`                  | **Ozone troposph√©rique (O‚ÇÉ)** en ¬µg/m¬≥ : gaz pouvant √™tre b√©n√©fique en haute atmosph√®re mais nocif √† basse altitude pour les voies respiratoires.  |
| `temperature`         | **Temp√©rature ambiante** en ¬∞C lors de la mesure.                                                                                                  |
| `humidity`            | **Humidit√© relative** de l‚Äôair en pourcentage (%).                                                                                                 |
| `hospital_admissions` | **Nombre d‚Äôadmissions √† l‚Äôh√¥pital** ce jour-l√† dans la ville (possiblement en lien avec la pollution).                                             |
| `population_density`  | **Densit√© de population** (ex : "Rural", "Urban") : indique si la zone est √† faible ou forte densit√© humaine.                                      |
| `hospital_capacity`   | **Capacit√© d‚Äôaccueil des h√¥pitaux** de la ville (exprim√©e probablement en nombre total de lits disponibles).                                       |


In [24]:
df.columns

Index(['city', 'date', 'aqi', 'pm2_5'], dtype='object')

In [25]:
df.shape

(88489, 4)

In [26]:
df.dtypes

city      object
date      object
aqi        int64
pm2_5    float64
dtype: object

In [27]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 88489 entries, 0 to 88488
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   city    88489 non-null  object 
 1   date    88489 non-null  object 
 2   aqi     88489 non-null  int64  
 3   pm2_5   88489 non-null  float64
dtypes: float64(1), int64(1), object(2)
memory usage: 2.7+ MB


In [21]:
df = pd.read_csv("data/air_quality_health_dataset.csv", usecols=[0, 1, 2, 3], encoding="utf-8")
df.head()

Unnamed: 0,city,date,aqi,pm2_5
0,Los Angeles,2020-01-01,65,34.0
1,Beijing,2020-01-02,137,33.7
2,London,2020-01-03,266,43.0
3,Mexico City,2020-01-04,293,33.7
4,Delhi,2020-01-05,493,50.3


In [70]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 88489 entries, 0 to 88488
Data columns (total 12 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   city                 88489 non-null  object 
 1   date                 88489 non-null  object 
 2   aqi                  88489 non-null  int64  
 3   pm2_5                88489 non-null  float64
 4   pm10                 88489 non-null  float64
 5   no2                  88489 non-null  float64
 6   o3                   88489 non-null  float64
 7   temperature          88489 non-null  float64
 8   humidity             88489 non-null  int64  
 9   hospital_admissions  88489 non-null  int64  
 10  population_density   88489 non-null  object 
 11  hospital_capacity    88489 non-null  int64  
dtypes: float64(5), int64(4), object(3)
memory usage: 8.1+ MB


In [66]:
df.describe()

Unnamed: 0,aqi,pm2_5,pm10,no2,o3,temperature,humidity,hospital_admissions,hospital_capacity
count,88489.0,88489.0,88489.0,88489.0,88489.0,88489.0,88489.0,88489.0,88489.0
mean,249.370182,35.144951,50.118654,30.006211,39.978895,17.522962,56.950966,8.049385,1024.463165
std,144.479132,14.767994,19.796392,9.963139,12.007258,12.961024,21.629675,3.715458,561.978071
min,0.0,0.0,0.0,0.0,0.0,-5.0,20.0,0.0,50.0
25%,124.0,24.9,36.6,23.3,31.9,6.4,38.0,6.0,539.0
50%,249.0,35.1,50.0,30.0,40.0,17.5,57.0,8.0,1026.0
75%,374.0,45.2,63.5,36.7,48.1,28.7,76.0,10.0,1511.0
max,499.0,109.9,143.5,71.4,93.5,40.0,94.0,25.0,1999.0


## Data Cleaning/Cleansing - Nettoyage de donn√©es

* Apr√®s une analyse exploration, il est crucial de proc√©der au nettoyage de vos donn√©es. 
* Cette √©tape consiste √† √©purer vos donn√©es, en corrigeant les erreurs, les incoh√©rences, et en ne conservant uniquement les donn√©es utiles pour vos analyses. D'o√π la n√©cessit√© de bien comprendre les besoins m√©tiers avant tout projet data. Sans quoi, nous errons sans objectif pr√©cis

Le nettoyage des donn√©es (ou "data cleaning") est une √©tape essentielle dans tout projet de donn√©es, car il garantit la qualit√©, la coh√©rence et la fiabilit√© des analyses. Voici les op√©rations les plus courantes √† effectuer :

---

### üîç 1. **Identification et gestion des valeurs manquantes**

* **D√©tection** : rep√©rer les cellules vides, `NaN`, `null`, ou des valeurs comme `"?"`, `"N/A"`.
* **Traitement** :

  * Suppression des lignes ou colonnes trop incompl√®tes.
  * Imputation (remplissage) avec :

    * la moyenne, m√©diane ou mode (pour les variables num√©riques ou cat√©gorielles),
    * des valeurs sp√©cifiques ou par interpolation,
    * des mod√®les pr√©dictifs.

---

### ‚ö†Ô∏è 2. **D√©tection et traitement des doublons**

* Suppression des lignes en double.
* Regroupement ou consolidation si les doublons ne sont que partiels.

---

### üî§ 3. **Uniformisation des formats**

* **Dates** : s‚Äôassurer d‚Äôun format uniforme (`YYYY-MM-DD`, etc.).
* **Textes** :

  * suppression des espaces en trop,
  * mise en minuscules/majuscules,
  * correction des fautes de frappe (standardisation).
* **Num√©riques** : convertir les cha√Ænes de caract√®res en nombres quand n√©cessaire.

---

### üßπ 4. **Nettoyage des valeurs aberrantes (outliers)**

* D√©tection via :

  * √©cart interquartile (IQR),
  * score z,
  * visualisation (boxplots, scatterplots).
* Traitement :

  * suppression,
  * remplacement (winsorization),
  * ou conservation (si les valeurs sont justifi√©es).

---

### üìä 5. **Correction des erreurs de type ou de codage**

* Exemples :

  * `"O"` au lieu de `"0"`,
  * `"one"` au lieu de `1`,
  * incoh√©rences d‚Äôunit√©s (m√®tre vs cm, ‚Ç¨ vs \$).

---

### üè∑Ô∏è 6. **Standardisation des cat√©gories**

* Uniformiser les labels cat√©goriels : `"Homme"`, `"homme"`, `"M"` ‚Üí `"Homme"`.
* Fusion de cat√©gories trop rares ou incoh√©rentes.

---

### üß¨ 7. **V√©rification des relations logiques**

* Par exemple : une date de naissance ne peut pas √™tre apr√®s une date d‚Äôinscription.
* Coh√©rence entre champs li√©s (ex : somme des sous-totaux = total g√©n√©ral).

---

### üóÉÔ∏è 8. **Filtrage des colonnes ou lignes inutiles**

* Supprimer les colonnes non informatives (ID al√©atoire, colonnes constantes).
* Supprimer les lignes non pertinentes (tests, entr√©es vides).

---

### üß™ Outils fr√©quemment utilis√©s :

* **Python** : `pandas`, `numpy`, `sklearn`, `missingno`
* **R** : `dplyr`, `tidyr`, `janitor`
* **Outils no-code** : Excel, OpenRefine, Power Query


### Gestion des valeurs manquantes

In [None]:
# Gestion des valeurs manquantes
# df.isna().sum()
# df.dropna(axis=0, inplace=True)  # Supprime les lignes avec des valeurs manquantes
# df.dropna(axis=1, inplace=True)  # Supprime les colonnes avec des valeurs manquantes

# df.fillna(df.mean(), inplace=True)  # Remplit avec la moyenne des colonnes
# df.fillna(method='ffill', inplace=True)  # Remplit avec la derni√®re valeur connue

df.isnull().sum()
df.isna().sum()

df.dropna(axis=0)
df.dropna(axis=1)
df = df.fillna(df.mean())

### Gestion des duplications

In [None]:
# Duplications 
df.duplicated().sum()

df.drop_duplicates(inplace=True)

### Renommer 

In [None]:
# Renommer des colonnes
# df.rename(columns={'old_name': 'new_name'}, inplace=True)
df.rename(columns={'Sex': 'Gender'}, inplace=True)
df.columns

### Convertir 

In [None]:
# Convertir le type d'une colonne
df['Fare'] = df['Fare'].astype(int)
df.dtypes

### Filtrer 

In [None]:
# Filter des donnees 
# df = df[df['Age'] >= 18]  # Supprime les lignes o√π 'column_name' est <= 0
# df[df.isna()].sum()
filtre = df["Age"]>=18
df[filtre]

### Mapping

In [1]:
import pandas as pd

# Exemple de donn√©es
data = {
    'Sexe': ['Homme', 'Femme', 'Femme', 'Homme'],
    'Niveau': ['D√©butant', 'Avanc√©', 'Interm√©diaire', 'Avanc√©']
}

df = pd.DataFrame(data)
print(df)


    Sexe         Niveau
0  Homme       D√©butant
1  Femme         Avanc√©
2  Femme  Interm√©diaire
3  Homme         Avanc√©


In [2]:
# Mapping des valeurs
sexe_mapping = {'Homme': 0, 'Femme': 1}
niveau_mapping = {'D√©butant': 0, 'Interm√©diaire': 1, 'Avanc√©': 2}

# Application
df['Sexe_num'] = df['Sexe'].map(sexe_mapping)
df['Niveau_num'] = df['Niveau'].map(niveau_mapping)

print(df)


    Sexe         Niveau  Sexe_num  Niveau_num
0  Homme       D√©butant         0           0
1  Femme         Avanc√©         1           2
2  Femme  Interm√©diaire         1           1
3  Homme         Avanc√©         0           2


# Analyse des donn√©es ( Data Manipulation - Statistiques)

### Analyse Univari√©e

### Analyse Bivari√©e & Multivari√©e

# Visualisation ou Data Visulization ou Data Viz

## Introduction √† Matplotlib

## Introduction √† Seaborn