# üìä Analyse des Inscriptions √âtudiants

**Auteur:** Diallo Naby Moussa  
**Date:** Janvier 2026  
**Objectif:** Analyse exploratoire de donn√©es pour extraire des insights sur les inscriptions d'√©tudiants

---

## 1Ô∏è‚É£ Importation des biblioth√®ques

In [None]:
# Manipulation de donn√©es
import pandas as pd
import numpy as np

# Visualisations
import matplotlib.pyplot as plt
import seaborn as sns

# Configuration
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)

# Warnings
import warnings
warnings.filterwarnings('ignore')

print("‚úÖ Biblioth√®ques import√©es avec succ√®s!")

## 2Ô∏è‚É£ Chargement des donn√©es

In [None]:
# Charger le dataset
df = pd.read_csv('../data/inscriptions_etudiants.csv')

print(f"üìä Dataset charg√©: {len(df)} lignes √ó {len(df.columns)} colonnes")
print(f"\nüìã Colonnes: {list(df.columns)}")

## 3Ô∏è‚É£ Exploration initiale

In [None]:
# Aper√ßu des premi√®res lignes
print("üëÄ Aper√ßu des donn√©es:\n")
df.head(10)

In [None]:
# Informations sur le dataset
print("‚ÑπÔ∏è Informations sur le dataset:\n")
df.info()

In [None]:
# Statistiques descriptives
print("üìà Statistiques descriptives:\n")
df.describe()

## 4Ô∏è‚É£ Nettoyage des donn√©es

In [None]:
# V√©rifier les valeurs manquantes
print("‚ùì Valeurs manquantes par colonne:\n")
valeurs_manquantes = df.isnull().sum()
print(valeurs_manquantes[valeurs_manquantes > 0])

if valeurs_manquantes.sum() == 0:
    print("\n‚úÖ Aucune valeur manquante d√©tect√©e!")

In [None]:
# V√©rifier les doublons
doublons = df.duplicated().sum()
print(f"üîÅ Nombre de doublons: {doublons}")

if doublons > 0:
    df = df.drop_duplicates()
    print(f"‚úÖ {doublons} doublons supprim√©s")
else:
    print("‚úÖ Aucun doublon d√©tect√©!")

In [None]:
# Nettoyer les espaces dans les colonnes texte
colonnes_texte = df.select_dtypes(include=['object']).columns
for col in colonnes_texte:
    df[col] = df[col].str.strip()

print("‚úÖ Espaces supprim√©s dans les colonnes texte")

## 5Ô∏è‚É£ Analyse statistique

In [None]:
# Statistiques g√©n√©rales
print("üìä STATISTIQUES G√âN√âRALES")
print("=" * 50)
print(f"\nüë®‚Äçüéì Total √©tudiants: {len(df)}")
print(f"\nüìÖ √Çge:")
print(f"   ‚Ä¢ Minimum: {df['age'].min()} ans")
print(f"   ‚Ä¢ Moyenne: {df['age'].mean():.1f} ans")
print(f"   ‚Ä¢ M√©diane: {df['age'].median():.0f} ans")
print(f"   ‚Ä¢ Maximum: {df['age'].max()} ans")
print(f"   ‚Ä¢ √âcart-type: {df['age'].std():.2f}")

In [None]:
# Statistiques financi√®res
print("üí∞ STATISTIQUES FINANCI√àRES")
print("=" * 50)
print(f"\nüíµ Frais de scolarit√©:")
print(f"   ‚Ä¢ Minimum: {df['frais_scolarite'].min():,} FCFA")
print(f"   ‚Ä¢ Moyenne: {df['frais_scolarite'].mean():,.0f} FCFA")
print(f"   ‚Ä¢ M√©diane: {df['frais_scolarite'].median():,.0f} FCFA")
print(f"   ‚Ä¢ Maximum: {df['frais_scolarite'].max():,} FCFA")
print(f"   ‚Ä¢ √âcart-type: {df['frais_scolarite'].std():,.0f} FCFA")

In [None]:
# Taux de paiement
payes = (df['statut_paiement'] == 'Pay√©').sum()
taux_paiement = (payes / len(df)) * 100

print("‚úÖ STATUT DES PAIEMENTS")
print("=" * 50)
print(f"\n‚úîÔ∏è Pay√©s: {payes} √©tudiants ({taux_paiement:.1f}%)")
print(f"‚ùå Non pay√©s: {len(df) - payes} √©tudiants ({100 - taux_paiement:.1f}%)")

## 6Ô∏è‚É£ Analyse des r√©partitions

In [None]:
# R√©partition par sexe
print("üë• R√âPARTITION PAR SEXE")
print("=" * 50)
print(df['sexe'].value_counts())
print(f"\nPourcentages:")
print(df['sexe'].value_counts(normalize=True) * 100)

In [None]:
# R√©partition par fili√®re
print("üéì R√âPARTITION PAR FILI√àRE")
print("=" * 50)
print(df['filiere'].value_counts())
print(f"\nPourcentages:")
print(df['filiere'].value_counts(normalize=True) * 100)

In [None]:
# R√©partition par niveau
print("üìö R√âPARTITION PAR NIVEAU")
print("=" * 50)
print(df['niveau'].value_counts())
print(f"\nPourcentages:")
print(df['niveau'].value_counts(normalize=True) * 100)

In [None]:
# √âvolution des inscriptions
print("üìÖ √âVOLUTION DES INSCRIPTIONS PAR ANN√âE")
print("=" * 50)
print(df['annee_inscription'].value_counts().sort_index())

## 7Ô∏è‚É£ Visualisations

In [None]:
# Graphique 1: R√©partition par sexe
fig, ax = plt.subplots(figsize=(10, 6))
df['sexe'].value_counts().plot(kind='pie', autopct='%1.1f%%', ax=ax, colors=['#3b82f6', '#ec4899'])
ax.set_title('R√©partition des √©tudiants par sexe', fontsize=16, fontweight='bold')
ax.set_ylabel('')
plt.tight_layout()
plt.savefig('../visualizations/repartition_sexe.png', dpi=300, bbox_inches='tight')
plt.show()
print("‚úÖ Graphique sauvegard√©: repartition_sexe.png")

In [None]:
# Graphique 2: R√©partition par fili√®re
fig, ax = plt.subplots(figsize=(12, 6))
df['filiere'].value_counts().plot(kind='bar', ax=ax, color='steelblue')
ax.set_title('Nombre d\'√©tudiants par fili√®re', fontsize=16, fontweight='bold')
ax.set_xlabel('Fili√®re', fontsize=12)
ax.set_ylabel('Nombre d\'√©tudiants', fontsize=12)
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.savefig('../visualizations/repartition_filieres.png', dpi=300, bbox_inches='tight')
plt.show()
print("‚úÖ Graphique sauvegard√©: repartition_filieres.png")

In [None]:
# Graphique 3: Statut des paiements
fig, ax = plt.subplots(figsize=(10, 6))
statut_counts = df['statut_paiement'].value_counts()
colors = ['#10b981' if x == 'Pay√©' else '#ef4444' for x in statut_counts.index]
statut_counts.plot(kind='pie', autopct='%1.1f%%', ax=ax, colors=colors)
ax.set_title('Statut des paiements', fontsize=16, fontweight='bold')
ax.set_ylabel('')
plt.tight_layout()
plt.savefig('../visualizations/statut_paiements.png', dpi=300, bbox_inches='tight')
plt.show()
print("‚úÖ Graphique sauvegard√©: statut_paiements.png")

In [None]:
# Graphique 4: √âvolution des inscriptions
fig, ax = plt.subplots(figsize=(12, 6))
inscriptions_par_annee = df['annee_inscription'].value_counts().sort_index()
ax.plot(inscriptions_par_annee.index, inscriptions_par_annee.values, 
        marker='o', linewidth=2, markersize=10, color='#3b82f6')
ax.set_title('√âvolution des inscriptions par ann√©e', fontsize=16, fontweight='bold')
ax.set_xlabel('Ann√©e', fontsize=12)
ax.set_ylabel('Nombre d\'inscriptions', fontsize=12)
ax.grid(True, alpha=0.3)
plt.tight_layout()
plt.savefig('../visualizations/evolution_inscriptions.png', dpi=300, bbox_inches='tight')
plt.show()
print("‚úÖ Graphique sauvegard√©: evolution_inscriptions.png")

In [None]:
# Graphique 5: Distribution des √¢ges
fig, ax = plt.subplots(figsize=(12, 6))
ax.hist(df['age'], bins=15, color='#8b5cf6', edgecolor='black', alpha=0.7)
ax.axvline(df['age'].mean(), color='red', linestyle='--', linewidth=2, label=f'Moyenne: {df["age"].mean():.1f} ans')
ax.set_title('Distribution des √¢ges', fontsize=16, fontweight='bold')
ax.set_xlabel('√Çge', fontsize=12)
ax.set_ylabel('Fr√©quence', fontsize=12)
ax.legend()
ax.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

In [None]:
# Graphique 6: Distribution des frais de scolarit√©
fig, ax = plt.subplots(figsize=(12, 6))
ax.hist(df['frais_scolarite'], bins=15, color='#f59e0b', edgecolor='black', alpha=0.7)
ax.axvline(df['frais_scolarite'].mean(), color='red', linestyle='--', linewidth=2, 
           label=f'Moyenne: {df["frais_scolarite"].mean():,.0f} FCFA')
ax.set_title('Distribution des frais de scolarit√©', fontsize=16, fontweight='bold')
ax.set_xlabel('Frais (FCFA)', fontsize=12)
ax.set_ylabel('Fr√©quence', fontsize=12)
ax.legend()
ax.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

## 8Ô∏è‚É£ Analyse crois√©e

In [None]:
# Frais moyens par fili√®re
print("üí∞ FRAIS MOYENS PAR FILI√àRE")
print("=" * 50)
frais_par_filiere = df.groupby('filiere')['frais_scolarite'].mean().sort_values(ascending=False)
print(frais_par_filiere)

In [None]:
# Taux de paiement par fili√®re
print("‚úÖ TAUX DE PAIEMENT PAR FILI√àRE")
print("=" * 50)
taux_par_filiere = df.groupby('filiere')['statut_paiement'].apply(
    lambda x: (x == 'Pay√©').sum() / len(x) * 100
).sort_values(ascending=False)
print(taux_par_filiere)

In [None]:
# √Çge moyen par niveau
print("üìö √ÇGE MOYEN PAR NIVEAU")
print("=" * 50)
age_par_niveau = df.groupby('niveau')['age'].mean().sort_values()
print(age_par_niveau)

## 9Ô∏è‚É£ Insights et conclusions

### üí° Insights cl√©s

1. **D√©mographie**
   - Population √©tudiante √©quilibr√©e entre les sexes
   - √Çge moyen coh√©rent avec le niveau d'√©tudes
   - Distribution d'√¢ge normale

2. **Acad√©mique**
   - Diversit√© des fili√®res repr√©sent√©es
   - Progression logique entre les niveaux
   - Tendance d'inscription stable

3. **Financier**
   - Variation des frais selon les fili√®res
   - Taux de paiement √† surveiller
   - Potentiel d'optimisation des recouvrements

### üéØ Recommandations

1. Mettre en place un syst√®me de relance pour am√©liorer le taux de paiement
2. Analyser les facteurs influen√ßant les choix de fili√®res
3. Suivre l'√©volution temporelle pour anticiper les tendances
4. Optimiser la gestion administrative bas√©e sur ces insights

---

**Projet r√©alis√© par Diallo Naby Moussa**  
üìß nabydiallo49@gmail.com  
üíª [GitHub](https://github.com/nabydiallo49-gif)