# Acquisition des données et exploration initiale

**Auteur:** Louis Vanacker

**Date:** 5 janvier 2026

**Objectif:** Charger le jeu de données Students Performance et réaliser une exploration initiale.

In [1]:
# Import des bibliothèques
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

print('Bibliothèques importées avec succès !')

Bibliothèques importées avec succès !


In [2]:
# Chargement du jeu de données
# URL GitHub pour reproductibilité (fonctionne sur Colab et Jupyter)
url = "https://raw.githubusercontent.com/Dorsumsellae/Programmation-avancee-Projet-d-examen-Students-Performance-in-Exams/main/data/raw/StudentsPerformance.csv"
df = pd.read_csv(url)

# Alternative en local (décommenter si le repo est cloné localement)
# df = pd.read_csv('../data/raw/StudentsPerformance.csv')

print(f'Jeu de données chargé : {df.shape[0]} lignes, {df.shape[1]} colonnes')

Jeu de données chargé : 1000 lignes, 8 colonnes


In [3]:
# Affichage des 10 premières lignes
df.head(10)

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75
5,female,group B,associate's degree,standard,none,71,83,78
6,female,group B,some college,standard,completed,88,95,92
7,male,group B,some college,free/reduced,none,40,43,39
8,male,group D,high school,free/reduced,completed,59,71,65
9,female,group B,some college,standard,completed,88,89,86


In [4]:
# Informations sur le jeu de données
print('=== INFORMATIONS SUR LE DATASET ===')
df.info()

=== INFORMATIONS SUR LE DATASET ===
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 8 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   gender                       1000 non-null   object
 1   race/ethnicity               1000 non-null   object
 2   parental level of education  1000 non-null   object
 3   lunch                        1000 non-null   object
 4   test preparation course      1000 non-null   object
 5   math score                   1000 non-null   int64 
 6   reading score                1000 non-null   int64 
 7   writing score                1000 non-null   int64 
dtypes: int64(3), object(5)
memory usage: 62.6+ KB


In [5]:
# Vérification des valeurs manquantes
print('=== VALEURS MANQUANTES ===')
print(df.isnull().sum())
print(f'\nTotal de valeurs manquantes : {df.isnull().sum().sum()}')

=== VALEURS MANQUANTES ===
gender                         0
race/ethnicity                 0
parental level of education    0
lunch                          0
test preparation course        0
math score                     0
reading score                  0
writing score                  0
dtype: int64

Total de valeurs manquantes : 0


In [6]:
# Vérification des doublons
print(f'Nombre de doublons : {df.duplicated().sum()}')

Nombre de doublons : 0


In [7]:
# Statistiques descriptives
df.describe()

Unnamed: 0,math score,reading score,writing score
count,1000.0,1000.0,1000.0
mean,66.089,69.169,68.054
std,15.16308,14.600192,15.195657
min,0.0,17.0,10.0
25%,57.0,59.0,57.75
50%,66.0,70.0,69.0
75%,77.0,79.0,79.0
max,100.0,100.0,100.0


In [8]:
# Noms des colonnes et types de données
print('=== COLONNES ===')
print(df.columns.tolist())
print('\n=== TYPES DE DONNÉES ===')
print(df.dtypes)

=== COLONNES ===
['gender', 'race/ethnicity', 'parental level of education', 'lunch', 'test preparation course', 'math score', 'reading score', 'writing score']

=== TYPES DE DONNÉES ===
gender                         object
race/ethnicity                 object
parental level of education    object
lunch                          object
test preparation course        object
math score                      int64
reading score                   int64
writing score                   int64
dtype: object


In [9]:
# Résumé du jeu de données
print('\n=== RÉSUMÉ DU DATASET ===')
print(f'Nombre total d\'étudiants : {len(df)}')
print(f'Nombre de variables : {df.shape[1]}')
print(f'Valeurs manquantes : {df.isnull().sum().sum()}')
print(f'Doublons : {df.duplicated().sum()}')
print('\nVariables catégorielles :')
for col in df.select_dtypes(include='object').columns:
    print(f'  - {col} : {df[col].nunique()} valeurs uniques')
print('\nVariables numériques :')
for col in df.select_dtypes(include=['int64', 'float64']).columns:
    print(f'  - {col} : plage [{df[col].min()}, {df[col].max()}]')


=== RÉSUMÉ DU DATASET ===
Nombre total d'étudiants : 1000
Nombre de variables : 8
Valeurs manquantes : 0
Doublons : 0

Variables catégorielles :
  - gender : 2 valeurs uniques
  - race/ethnicity : 5 valeurs uniques
  - parental level of education : 6 valeurs uniques
  - lunch : 2 valeurs uniques
  - test preparation course : 2 valeurs uniques

Variables numériques :
  - math score : plage [0, 100]
  - reading score : plage [17, 100]
  - writing score : plage [10, 100]


## Résultats clés

- Le jeu de données contient **1000 étudiants** avec **8 variables**
- **Aucune valeur manquante** détectée
- **Aucun doublon** trouvé
- **5 variables catégorielles** : genre, origine ethnique, niveau d'éducation des parents, type de déjeuner, cours de préparation aux tests
- **3 scores numériques** : mathématiques, lecture, écriture (plage 0-100)
- Le jeu de données est propre et prêt pour l'analyse