# Acquisition des données et exploration initiale

**Auteur:** Louis Vanacker

**Date:** 5 janvier 2026

**Objectif:** Charger le jeu de données Students Performance et réaliser une exploration initiale.

In [None]:
# Import des bibliothèques
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

print('Bibliothèques importées avec succès !')

In [None]:
# Chargement du jeu de données
# URL GitHub pour reproductibilité (fonctionne sur Colab et Jupyter)
url = "https://raw.githubusercontent.com/Dorsumsellae/Programmation-avancee-Projet-d-examen-Students-Performance-in-Exams/main/data/raw/StudentsPerformance.csv"
df = pd.read_csv(url)

# Alternative en local (décommenter si le repo est cloné localement)
# df = pd.read_csv('../data/raw/StudentsPerformance.csv')

print(f'Jeu de données chargé : {df.shape[0]} lignes, {df.shape[1]} colonnes')

In [None]:
# Affichage des 10 premières lignes
df.head(10)

In [None]:
# Informations sur le jeu de données
print('=== INFORMATIONS SUR LE DATASET ===')
df.info()

In [None]:
# Vérification des valeurs manquantes
print('=== VALEURS MANQUANTES ===')
print(df.isnull().sum())
print(f'\nTotal de valeurs manquantes : {df.isnull().sum().sum()}')

In [None]:
# Vérification des doublons
print(f'Nombre de doublons : {df.duplicated().sum()}')

In [None]:
# Statistiques descriptives
df.describe()

In [None]:
# Noms des colonnes et types de données
print('=== COLONNES ===')
print(df.columns.tolist())
print('\n=== TYPES DE DONNÉES ===')
print(df.dtypes)

In [None]:
# Résumé du jeu de données
print('\n=== RÉSUMÉ DU DATASET ===')
print(f'Nombre total d\'étudiants : {len(df)}')
print(f'Nombre de variables : {df.shape[1]}')
print(f'Valeurs manquantes : {df.isnull().sum().sum()}')
print(f'Doublons : {df.duplicated().sum()}')
print('\nVariables catégorielles :')
for col in df.select_dtypes(include='object').columns:
    print(f'  - {col} : {df[col].nunique()} valeurs uniques')
print('\nVariables numériques :')
for col in df.select_dtypes(include=['int64', 'float64']).columns:
    print(f'  - {col} : plage [{df[col].min()}, {df[col].max()}]')

## Résultats clés

- Le jeu de données contient **1000 étudiants** avec **8 variables**
- **Aucune valeur manquante** détectée
- **Aucun doublon** trouvé
- **5 variables catégorielles** : genre, origine ethnique, niveau d'éducation des parents, type de déjeuner, cours de préparation aux tests
- **3 scores numériques** : mathématiques, lecture, écriture (plage 0-100)
- Le jeu de données est propre et prêt pour l'analyse