# üîç Analyse exploratoire univari√©e des donn√©es

**Auteur:** Louis Vanacker

**Date:** 5 janvier 2026

**Objectif:** Analyser les variables individuelles (distributions, valeurs aberrantes, tendances).

In [None]:
# Import des biblioth√®ques
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

# Configuration du style
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)

# Chargement des donn√©es
# URL GitHub pour reproductibilit√© (fonctionne sur Colab et Jupyter)
url = "https://raw.githubusercontent.com/Dorsumsellae/Programmation-avancee-Projet-d-examen-Students-Performance-in-Exams/main/data/raw/StudentsPerformance.csv"
df = pd.read_csv(url)

# Alternative en local (d√©commenter si le repo est clon√© localement)
# df = pd.read_csv('../data/raw/StudentsPerformance.csv')

print(f'Dimensions du dataset : {df.shape}')

## 1. Analyse des variables cat√©gorielles

In [None]:
# Liste des variables cat√©gorielles
categorical_cols = ['gender', 'race/ethnicity', 'parental level of education', 
                    'lunch', 'test preparation course']

print('=== VARIABLES CAT√âGORIELLES ===')
for col in categorical_cols:
    print(f'\n{col.upper()}:')
    print(df[col].value_counts())
    print(f'Valeur la plus fr√©quente : {df[col].mode()[0]} ({df[col].value_counts().iloc[0]} √©tudiants, {df[col].value_counts().iloc[0]/len(df)*100:.1f}%)')

In [None]:
# Visualisation des distributions cat√©gorielles
fig, axes = plt.subplots(2, 3, figsize=(18, 10))
axes = axes.flatten()

for i, col in enumerate(categorical_cols):
    counts = df[col].value_counts()
    axes[i].bar(range(len(counts)), counts.values, color='steelblue', alpha=0.7)
    axes[i].set_xticks(range(len(counts)))
    axes[i].set_xticklabels(counts.index, rotation=45, ha='right')
    axes[i].set_title(f'Distribution de {col}')
    axes[i].set_ylabel('Effectif')
    axes[i].grid(axis='y', alpha=0.3)
    
    # Ajout des √©tiquettes de valeurs
    for j, v in enumerate(counts.values):
        axes[i].text(j, v + 10, f'{v}\n({v/len(df)*100:.1f}%)', 
                    ha='center', va='bottom', fontsize=9)

fig.delaxes(axes[5])
plt.tight_layout()
plt.savefig('../reports/categorical_distributions.png', dpi=300, bbox_inches='tight')
plt.show()

## 2. Analyse des variables num√©riques (scores)

In [None]:
# Colonnes des scores
score_cols = ['math score', 'reading score', 'writing score']

print('=== STATISTIQUES DES SCORES ===')
print(df[score_cols].describe())

print('\n=== STATISTIQUES D√âTAILL√âES ===')
for col in score_cols:
    print(f'\n{col.upper()}:')
    print(f'  Moyenne : {df[col].mean():.2f}')
    print(f'  M√©diane : {df[col].median():.2f}')
    print(f'  √âcart-type : {df[col].std():.2f}')
    print(f'  Minimum : {df[col].min()}')
    print(f'  Maximum : {df[col].max()}')
    print(f'  √âtendue : {df[col].max() - df[col].min()}')

In [None]:
# Distributions des scores avec lignes moyenne/m√©diane
fig, axes = plt.subplots(1, 3, figsize=(18, 5))

for i, col in enumerate(score_cols):
    axes[i].hist(df[col], bins=20, edgecolor='black', alpha=0.7, color='skyblue')
    axes[i].axvline(df[col].mean(), color='red', linestyle='--', linewidth=2,
                   label=f'Moyenne : {df[col].mean():.1f}')
    axes[i].axvline(df[col].median(), color='green', linestyle='--', linewidth=2,
                   label=f'M√©diane : {df[col].median():.1f}')
    axes[i].set_title(f'Distribution de {col}', fontsize=14, fontweight='bold')
    axes[i].set_xlabel('Score', fontsize=12)
    axes[i].set_ylabel('Fr√©quence', fontsize=12)
    axes[i].legend(fontsize=10)
    axes[i].grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.savefig('../reports/score_distributions.png', dpi=300, bbox_inches='tight')
plt.show()

## 3. D√©tection des valeurs aberrantes

In [None]:
# Bo√Ætes √† moustaches pour visualiser les valeurs aberrantes
fig, axes = plt.subplots(1, 3, figsize=(18, 5))

for i, col in enumerate(score_cols):
    bp = axes[i].boxplot(df[col], vert=True, patch_artist=True)
    bp['boxes'][0].set_facecolor('lightblue')
    axes[i].set_title(f'{col} - Bo√Æte √† moustaches', fontsize=14, fontweight='bold')
    axes[i].set_ylabel('Score', fontsize=12)
    axes[i].grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.savefig('../reports/score_boxplots.png', dpi=300, bbox_inches='tight')
plt.show()

In [None]:
# M√©thode IQR pour d√©tecter les valeurs aberrantes
print('=== D√âTECTION DES VALEURS ABERRANTES (M√âTHODE IQR) ===')
for col in score_cols:
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)]
    
    print(f'\n{col.upper()}:')
    print(f'  Q1 : {Q1:.2f}')
    print(f'  Q3 : {Q3:.2f}')
    print(f'  IQR : {IQR:.2f}')
    print(f'  Borne inf√©rieure : {lower_bound:.2f}')
    print(f'  Borne sup√©rieure : {upper_bound:.2f}')
    print(f'  Nombre de valeurs aberrantes : {len(outliers)} ({len(outliers)/len(df)*100:.2f}%)')

## üìå R√©sultats cl√©s

### Variables cat√©gorielles :
- **Genre** : Distribution quasi √©quilibr√©e
- **Origine ethnique** : 5 groupes (A √† E) avec repr√©sentation variable
- **Niveau d'√©ducation des parents** : Va de ¬´ lyc√©e partiel ¬ª √† ¬´ master ¬ª
- **Type de d√©jeuner** : ~35% re√ßoivent un d√©jeuner gratuit/r√©duit (indicateur socio-√©conomique)
- **Cours de pr√©paration** : ~65% n'ont PAS compl√©t√© de cours de pr√©paration aux tests

### Variables num√©riques (scores) :
- Les trois scores suivent des **distributions approximativement normales**
- **Scores moyens** : Maths ~66, Lecture ~69, √âcriture ~68
- Les scores en math√©matiques ont tendance √† √™tre **l√©g√®rement inf√©rieurs** √† ceux en lecture/√©criture
- **Peu de valeurs aberrantes** d√©tect√©es (< 2% pour chaque score)
- Plage compl√®te de 0 √† 100 observ√©e
- Aucune valeur manquante ni probl√®me de qualit√© des donn√©es

### Implications pour la mod√©lisation :
- Jeu de donn√©es propre, pr√™t pour la mod√©lisation
- N√©cessit√© d'encoder les variables cat√©gorielles
- √Ä consid√©rer : investiguer pourquoi les scores en maths sont plus faibles
- La compl√©tion du cours de pr√©paration pourrait √™tre un pr√©dicteur significatif