# üìã Aper√ßu Initial des Donn√©es ‚Äî Morocco Student Data Pool

Ce notebook effectue un **premier aper√ßu rapide** du dataset brut avant le nettoyage.

**Objectif :** Comprendre la structure des donn√©es, identifier les probl√®mes √† traiter dans le nettoyage.

### Pipeline du projet :
1. **`analyze_data.ipynb`** ‚Üê (ce notebook) Aper√ßu initial des donn√©es brutes
2. **`clean_data.ipynb`** ‚Üí Nettoyage et pr√©paration des donn√©es
3. **`EDA_Advancedÿß.ipynb`** ‚Üí Analyse exploratoire avanc√©e sur les donn√©es nettoy√©es

In [21]:
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')

print("‚úÖ Biblioth√®ques import√©es")

‚úÖ Biblioth√®ques import√©es


## 1. Chargement et structure du dataset

In [22]:
# Chargement du dataset brut
df = pd.read_csv('Morocco_Student_Data_Pool.csv', low_memory=False)

print(f"üìä Dataset charg√© avec succ√®s")
print(f"   Lignes  : {df.shape[0]:,}")
print(f"   Colonnes: {df.shape[1]}")
print(f"\nüìã Types de donn√©es :")
print(df.dtypes.value_counts().to_string())

üìä Dataset charg√© avec succ√®s
   Lignes  : 10,000
   Colonnes: 286

üìã Types de donn√©es :
object     173
float64     65
int64       48


## 1b. Correction du d√©calage de colonnes

Le CSV brut contient un **d√©calage d'une colonne** vers la gauche dans les derni√®res colonnes (apr√®s `performance_cible`).  
Par exemple, `date_collecte` contient en r√©alit√© les codes collecteurs (`COL008`), et les vraies dates se trouvent dans `intervention_necessaire`.  
On corrige ici avant toute analyse.

In [23]:
shifted_cols = [
    'probabilite_reussite',    # contient ‚Üí niveau_risque
    'niveau_risque',           # contient ‚Üí intervention_necessaire
    'intervention_necessaire', # contient ‚Üí date_collecte
    'date_collecte',           # contient ‚Üí id_collecteur
    'id_collecteur',           # contient ‚Üí statut_verification
    'statut_verification',     # contient ‚Üí date_mise_a_jour
]

cols_exist = all(c in df.columns for c in shifted_cols)
if cols_exist and str(df['date_collecte'].iloc[0]).startswith('COL'):
    print("‚ö†Ô∏è D√©calage de colonnes d√©tect√© ! Correction en cours...")
    
    saved = {col: df[col].copy() for col in shifted_cols}
    
    df['niveau_risque'] = saved['probabilite_reussite']
    df['intervention_necessaire'] = saved['niveau_risque']
    df['date_collecte'] = saved['intervention_necessaire']
    df['id_collecteur'] = saved['date_collecte']
    df['statut_verification'] = saved['id_collecteur']
    df['probabilite_reussite'] = np.nan
    
    print("‚úÖ Colonnes r√©align√©es :")
    print(f"   date_collecte[0] = {df['date_collecte'].iloc[0]}")
    print(f"   id_collecteur[0] = {df['id_collecteur'].iloc[0]}")
    print(f"   intervention_necessaire[0] = {df['intervention_necessaire'].iloc[0]}")
else:
    print("‚úÖ Pas de d√©calage d√©tect√© ‚Äî colonnes correctes.")

‚ö†Ô∏è D√©calage de colonnes d√©tect√© ! Correction en cours...
‚úÖ Colonnes r√©align√©es :
   date_collecte[0] = 2026-01-15
   id_collecteur[0] = COL008
   intervention_necessaire[0] = Oui


In [24]:
# Aper√ßu des premi√®res lignes
df.head(5)

Unnamed: 0,id_etudiant,prenom,nom,nom_complet,sexe,date_naissance,age,code_massar,region,province,...,francais_maison,performance_cible,probabilite_reussite,niveau_risque,intervention_necessaire,date_collecte,id_collecteur,statut_verification,date_mise_a_jour,remarques
0,STU00001,Soumia,Chraibi,Soumia Chraibi,F,2007-05-05,19,G548679848,Fes-Meknes,El Hajeb,...,Tres Eleve,0.54,,Moyen,Oui,2026-01-15,COL008,Verifie,,
1,STU00002,Mehdi,Tazi,Mehdi Tazi,M,2009-10-12,17,G478451439,Souss-Massa,Inezgane,...,Eleve,0.08,,Eleve,Oui,2026-01-15,COL005,Verifie,,
2,STU00003,Bilal,Lahbabi,Bilal Lahbabi,M,2008-08-08,18,G727518594,Casablanca-Settat,Berrechid,...,Tres Eleve,0.47,,Eleve,Oui,2026-01-15,COL001,Verifie,,
3,STU00004,Hakim,Chraibi,Hakim Chraibi,M,2009-10-05,17,G868905524,Tanger-Tetouan-Al Hoceima,Larache,...,Eleve,0.55,,Moyen,Oui,2026-01-15,COL008,Verifie,,
4,STU00005,Ayoub,Lahbabi,Ayoub Lahbabi,M,2007-05-27,19,G809425460,Casablanca-Settat,El Jadida,...,Eleve,0.15,,Eleve,Oui,2026-01-15,COL004,Verifie,,


In [25]:
# Informations d√©taill√©es
df.info(verbose=False, show_counts=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Columns: 286 entries, id_etudiant to remarques
dtypes: float64(66), int64(48), object(172)
memory usage: 21.8+ MB


## 2. Valeurs manquantes

Identification des colonnes avec des valeurs manquantes pour planifier la strat√©gie de nettoyage.

In [26]:
# Tableau des valeurs manquantes
missing = df.isnull().sum()
missing = missing[missing > 0].sort_values(ascending=False)
missing_pct = (missing / len(df) * 100).round(1)

missing_df = pd.DataFrame({
    'Valeurs manquantes': missing,
    'Pourcentage (%)': missing_pct,
    'Type': [str(df[col].dtype) for col in missing.index]
})

print(f"üìã {len(missing)} colonnes avec des valeurs manquantes sur {df.shape[1]} colonnes totales")
print(f"   Total NaN : {df.isnull().sum().sum():,} ({df.isnull().sum().sum() / (df.shape[0] * df.shape[1]) * 100:.2f}%)\n")
print(missing_df.to_string())

üìã 27 colonnes avec des valeurs manquantes sur 286 colonnes totales
   Total NaN : 214,699 (7.51%)

                         Valeurs manquantes  Pourcentage (%)     Type
type_handicap                         10000            100.0  float64
economie_s2                           10000            100.0  float64
economie_s1                           10000            100.0  float64
comptabilite_s2                       10000            100.0  float64
comptabilite_annuel                   10000            100.0  float64
economie_annuel                       10000            100.0  float64
comptabilite_s1                       10000            100.0  float64
gestion_s1                            10000            100.0  float64
gestion_s2                            10000            100.0  float64
note_examen_regional                  10000            100.0  float64
gestion_annuel                        10000            100.0  float64
remarques                             10000            100

## 3. Doublons

In [27]:
# V√©rification des doublons
n_duplicates = df.duplicated().sum()
print(f"üîç Nombre de lignes dupliqu√©es : {n_duplicates}")

if 'id_etudiant' in df.columns:
    n_dup_id = df['id_etudiant'].duplicated().sum()
    print(f"   IDs √©tudiants dupliqu√©s : {n_dup_id}")

if n_duplicates == 0:
    print("   ‚úÖ Aucun doublon d√©tect√©")

üîç Nombre de lignes dupliqu√©es : 0
   IDs √©tudiants dupliqu√©s : 0
   ‚úÖ Aucun doublon d√©tect√©


## 4. Valeurs uniques ‚Äî Variables cat√©gorielles cl√©s

In [28]:
# Variables cat√©gorielles principales
cat_cols = ['sexe', 'region', 'filiere', 'niveau_scolaire', 'milieu',
            'type_etablissement', 'niveau_pere', 'niveau_mere']
cat_cols = [c for c in cat_cols if c in df.columns]

print(f"üìã Valeurs uniques par colonne cat√©gorielle :\n")
for col in cat_cols:
    n_unique = df[col].nunique()
    top_val = df[col].value_counts().index[0]
    top_freq = df[col].value_counts().values[0]
    print(f"  {col:<25} ‚Üí {n_unique:>3} valeurs uniques  (top: '{top_val}' = {top_freq:,})")

üìã Valeurs uniques par colonne cat√©gorielle :

  sexe                      ‚Üí   2 valeurs uniques  (top: 'F' = 5,017)
  region                    ‚Üí  12 valeurs uniques  (top: 'Beni Mellal-Khenifra' = 952)
  filiere                   ‚Üí   7 valeurs uniques  (top: 'Sciences et Technologies' = 2,212)
  type_etablissement        ‚Üí   1 valeurs uniques  (top: 'Lycee Qualifiant' = 10,000)


## 5. Statistiques descriptives rapides

In [29]:
# Statistiques descriptives pour les variables num√©riques cl√©s
num_cols_key = ['age', 'revenu_mensuel_pere', 'revenu_mensuel_mere', 'revenu_familial',
                'nombre_freres_soeurs', 'taux_assiduite', 'taux_ponctualite',
                'taux_remise_devoirs', 'performance_cible']
num_cols_key = [c for c in num_cols_key if c in df.columns]

print("üìä Statistiques descriptives ‚Äî Variables cl√©s :\n")
print(df[num_cols_key].describe().round(2).to_string())

üìä Statistiques descriptives ‚Äî Variables cl√©s :

            age  revenu_mensuel_pere  revenu_mensuel_mere  revenu_familial  nombre_freres_soeurs  taux_assiduite  taux_ponctualite  taux_remise_devoirs  performance_cible
count  10000.00             10000.00             10000.00         10000.00               10000.0        10000.00          10000.00             10000.00           10000.00
mean      18.09              9009.12              5823.90         14020.34                   2.5           89.22             91.29                82.90               0.41
std        0.79              5966.74              4600.93          7406.40                   1.4            6.54              5.39                10.15               0.19
min       17.00                 0.00                 0.00             0.00                   0.0           78.00             82.00                65.00               0.08
25%       17.00              4613.75              2643.00          8567.75                 

## 6. Diagnostic pour le nettoyage

R√©sum√© des probl√®mes identifi√©s √† traiter dans `clean_data.ipynb`.

In [30]:
# Colonnes 100% NaN ‚Üí √† supprimer
cols_100 = missing_pct[missing_pct == 100.0].index.tolist()
print(f"üóëÔ∏è  Colonnes 100% NaN ({len(cols_100)}) ‚Üí √† supprimer :")
for c in cols_100:
    print(f"   ‚Ä¢ {c}")

# Colonnes num√©riques avec NaN ‚Üí √† imputer (moyenne/m√©diane)
num_with_nan = [c for c in missing.index if df[c].dtype in ['float64', 'int64'] and missing_pct[c] < 100]
print(f"\nüìä Colonnes num√©riques avec NaN ({len(num_with_nan)}) ‚Üí imputation par moyenne/m√©diane :")
for c in num_with_nan:
    skew = df[c].skew()
    method = 'M√©diane' if abs(skew) > 1 else 'Moyenne'
    print(f"   ‚Ä¢ {c:<30} ({missing_pct[c]}% NaN, skew={skew:.2f} ‚Üí {method})")

# Colonnes cat√©gorielles avec NaN ‚Üí √† imputer (mode/valeur par d√©faut)
cat_with_nan = [c for c in missing.index if df[c].dtype == 'object' and missing_pct[c] < 100]
print(f"\nüìù Colonnes cat√©gorielles avec NaN ({len(cat_with_nan)}) ‚Üí imputation par mode/valeur par d√©faut :")
for c in cat_with_nan:
    print(f"   ‚Ä¢ {c:<30} ({missing_pct[c]}% NaN)")

üóëÔ∏è  Colonnes 100% NaN (18) ‚Üí √† supprimer :
   ‚Ä¢ type_handicap
   ‚Ä¢ economie_s2
   ‚Ä¢ economie_s1
   ‚Ä¢ comptabilite_s2
   ‚Ä¢ comptabilite_annuel
   ‚Ä¢ economie_annuel
   ‚Ä¢ comptabilite_s1
   ‚Ä¢ gestion_s1
   ‚Ä¢ gestion_s2
   ‚Ä¢ note_examen_regional
   ‚Ä¢ gestion_annuel
   ‚Ä¢ remarques
   ‚Ä¢ note_finale_bac
   ‚Ä¢ date_mise_a_jour
   ‚Ä¢ probabilite_reussite
   ‚Ä¢ mention_bac
   ‚Ä¢ note_examen_national
   ‚Ä¢ note_controle_continu

üìä Colonnes num√©riques avec NaN (0) ‚Üí imputation par moyenne/m√©diane :

üìù Colonnes cat√©gorielles avec NaN (9) ‚Üí imputation par mode/valeur par d√©faut :
   ‚Ä¢ pays_cible                     (83.4% NaN)
   ‚Ä¢ etablissement_precedent        (59.2% NaN)
   ‚Ä¢ matieres_soutien               (48.1% NaN)
   ‚Ä¢ annees_redoublees              (45.4% NaN)
   ‚Ä¢ niveau_allemand                (29.5% NaN)
   ‚Ä¢ type_art                       (22.6% NaN)
   ‚Ä¢ type_travail                   (22.4% NaN)
   ‚Ä¢ type_maladie     

---

## ‚úÖ Conclusion

Le dataset brut contient **10 000 enregistrements** et **286 colonnes**. Les principaux probl√®mes identifi√©s sont :

- **D√©calage de colonnes** dans les derni√®res colonnes (apr√®s `performance_cible`) ‚Üí corrig√© dans ce notebook
- **Colonnes enti√®rement vides** ‚Üí √† supprimer
- **Valeurs manquantes num√©riques** ‚Üí √† imputer par moyenne ou m√©diane selon l'asym√©trie
- **Valeurs manquantes cat√©gorielles** ‚Üí √† imputer par le mode ou une valeur par d√©faut s√©mantique
- **Aucun doublon** d√©tect√©

**Prochaine √©tape** ‚Üí Ex√©cuter `clean_data.ipynb` pour nettoyer les donn√©es.