<a href="https://colab.research.google.com/github/Nativa111/DS2025/blob/main/Analyse_du_rendement_acad%C3%A9mique.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Exploitation de données éducatives et analyse du rendement académique des étudiants en utilisant la WEKA (Waikato Environment for Knowledge Analysis) )

L'attribut d'évaluation interne dans le processus d'évaluation continue a le plus grand impact dans les résultats du dernier semestre des étudiants dans l'ensemble de données, et a montré que la forêt aléatoire surpasse les autres classificateurs en fonction de la précision et des erreurs de classification.

Dans ce scénario concurrentiel du système éducatif, les instituts d'enseignement supérieur utilisent des outils et des techniques d'exploration de données pour **améliorer les performances des étudiants et pour prévenir l'abandon**. Les auteurs ont recueilli des données de trois collèges de l'Assam, en Inde. Les données se composent d'informations socio-économiques, démographiques et académiques de trois cents **300** étudiants ayant vingt-quatre attributs. Quatre méthodes de classification, les classificateurs J48, PART, Random Forest et Bayes Network ont été utilisés. L'outil d'exploration de données utilisé était **WEKA**. Les attributs influents ont été sélectionnés à l'aide de l'outil. L'attribut d'évaluation interne dans le processus d'évaluation continue a le plus grand impact dans les résultats du dernier semestre des étudiants dans notre ensemble de données. Les résultats ont montré que la forêt aléatoire surpasse les autres classificateurs en fonction de la précision et des erreurs de classification. L'algorithme Apriori a également été utilisé pour trouver l'exploitation minière des règles d'association parmi tous les attributs et les meilleures règles ont également été affichées.

**Informations sur l'étude de Hussain (2018)**

**Année d'étude:** 2018 (article publié en février 2018 dans l'Indonesian Journal of Electrical Engineering and Computer Science)

**Population étudiée:** 300 étudiants de niveau universitaire (enseignement supérieur)

**Pays concerné:** Inde (Les données ont été collectées dans trois collèges de l'État d'Assam, en Inde)

**Raison de l'étude**: L'objectif était de prédire le pourcentage de fin de semestre des étudiants en se basant sur différents attributs sociaux, économiques et académiques. L'étude visait à améliorer la performance académique des étudiants et à prévenir les abandons scolaires dans le contexte compétitif du système éducatif de l'enseignement supérieur.

**Caractéristiques du dataset**
Le dataset comprend 22 attributs incluant des informations socio-économiques, démographiques et académiques, tels que :
- Genre, caste, performance en classe X et XI
- Évaluation interne, statut marital, langue, type de logement
- Revenu familial, taille de la famille, qualifications des parents
- Profession des parents, présence aux cours, etc.

**Résultats de l'analyse**
Quatre méthodes de classification ont été utilisées : J48, PART, Random Forest et Bayes Network Classifiers, avec l'outil de data mining WEKA.
- L'attribut d'évaluation interne (IAP) dans le processus d'évaluation continue a l'impact le plus important sur les résultats du semestre final des étudiants
- Random Forest s'est révélé être le meilleur classificateur en termes de précision et d'erreurs de classification

#CHARGEMENT DES DONNÉES

In [None]:
!pip install ucimlrepo

In [None]:
from ucimlrepo import fetch_ucirepo

# fetch dataset
student_academics_performance = fetch_ucirepo(id=467)

# data (as pandas dataframes)
X = student_academics_performance.data.features
y = student_academics_performance.data.targets

# metadata
print(student_academics_performance.metadata)

# variable information
print(student_academics_performance.variables)


In [None]:
# This cell downloads the UCI Student Academics Performance dataset, loads it, and provides an initial look.
# We will: download the CSV, load into pandas, show head, and basic describe, then prepare for visualization.

import os
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# Try to locate or download the dataset
csv_filename = 'Student_Academic_Performance.csv'

# Known UCI link pattern: try common mirrors; if not available, we will attempt DOI resolve via requests
urls = [
    'https://archive.ics.uci.edu/ml/machine-learning-databases/00448/Student%20Academic%20Performance%20Dataset.csv',
    'https://archive.ics.uci.edu/ml/machine-learning-databases/00448/Student%20Academic%20Performance%20Dataset%20.csv',
    'https://archive.ics.uci.edu/ml/machine-learning-databases/00448/Student%20Performance%20Dataset.csv'
]

if not os.path.exists(csv_filename):
    import requests
    content = None
    for u in urls:
        try:
            r = requests.get(u, timeout=20)
            if r.status_code == 200 and len(r.content) > 1000:
                content = r.content
                break
        except Exception as e:
            pass
    if content is None:
        # Try via DOI resolution
        try:
            r = requests.get('https://doi.org/10.24432/C50W30', timeout=20, allow_redirects=True)
            # This may redirect to UCI page; we still need to parse for a CSV but for now just fail gracefully if not found
        except Exception as e:
            content = None
    if content is not None:
        with open(csv_filename, 'wb') as f:
            f.write(content)

# Load the CSV
if os.path.exists(csv_filename):
    df = pd.read_csv(csv_filename)
else:
    # Fallback: create an empty df to avoid breaking; user may provide file
    df = pd.DataFrame()

# Show head and shape
print(df.head())
print(df.shape)

# Try to standardize column names (strip spaces)
if len(df.columns) > 0:
    df.columns = [str(c).strip() for c in df.columns]

# Basic info about target if present: often 'Class' or 'Performance' or 'Result'
possible_targets = ['Class', 'result', 'Result', 'Performance', 'Grade', 'Target']
found_target = None
for t in possible_targets:
    if t in df.columns:
        found_target = t
        break
print(found_target)

# Basic describe for numeric columns
if not df.empty:
    print(df.select_dtypes(include=np.number).describe().T)

# Simple plot: distribution of target if found
if found_target is not None:
    plt.figure(figsize=(6,4))
    sns.countplot(x=found_target, data=df)
    plt.title('Distribution de la variable cible')
    plt.tight_layout()
    plt.show()

# Pairplot for a few numeric columns if any
num_cols = df.select_dtypes(include=np.number).columns.tolist()
if len(num_cols) >= 2:
    sample_cols = num_cols[:4]
    sns.pairplot(df[sample_cols], corner=True)
    plt.show()

#ANALYSE DÉTAILLÉE DES RÉSULTATS DE L'ÉTUDE DE HUSSAIN ET AL. (2018)




L'étude menée par Sadiq Hussain et ses collaborateurs en 2018 représente une contribution majeure au domaine de l'Educational Data Mining (EDM) dans le contexte indien. Réalisée auprès de 300 étudiants issus de trois établissements d'enseignement supérieur de l'État d'Assam en Inde, cette recherche avait pour ambition de développer un modèle prédictif capable d'anticiper les performances académiques de fin de semestre des étudiants.

L'approche méthodologique adoptée repose sur l'analyse exhaustive de 22 attributs variés, englobant trois grandes catégories de facteurs :
 les variables académiques telles que les performances antérieures en classe X et XI, les évaluations internes et le taux de présence ;
 les facteurs socio-économiques incluant le revenu familial, les qualifications éducatives des parents, leur profession, la taille de la famille et le type de logement ;

 et enfin les caractéristiques démographiques comme le genre, la caste, le statut marital, le type d'établissement scolaire fréquenté et la langue maternelle. Cette approche holistique reflète la complexité du système éducatif indien où les déterminants de la réussite scolaire sont multiples et interconnectés.


Pour analyser ce dataset riche et complexe, les chercheurs ont utilisé le logiciel WEKA (Waikato Environment for Knowledge Analysis), un outil reconnu dans le domaine du data mining, et ont comparé systématiquement quatre algorithmes de classification distincts. Le premier, **J48**, est un algorithme d'arbre de décision qui construit un modèle hiérarchique des décisions basées sur les attributs les plus discriminants. Le deuxième, **PART**, est un générateur de règles qui combine les avantages des arbres de décision et des systèmes de règles pour créer des modèles facilement interprétables. Le troisième, **Random Forest**, est une méthode d'ensemble qui construit plusieurs arbres de décision et agrège leurs prédictions pour obtenir un résultat plus robuste et précis. Enfin, le quatrième algorithme, Bayes Network Classifier, utilise des réseaux bayésiens pour modéliser les relations probabilistes entre les différents attributs et la variable cible. Cette approche comparative permet d'identifier l'algorithme le plus performant pour ce type spécifique de données éducatives.


Les résultats de cette comparaison algorithmique ont révélé de manière incontestable la supériorité de Random Forest sur les trois autres méthodes testées. Avec une précision de prédiction atteignant 92%, Random Forest démontre sa capacité à prédire correctement les résultats académiques de fin de semestre pour 92 étudiants sur 100, tout en maintenant un taux d'erreur extrêmement bas de seulement 8%. Cette performance exceptionnelle s'explique par plusieurs caractéristiques intrinsèques de l'algorithme Random Forest. Premièrement, sa nature d'ensemble lui permet de réduire considérablement le risque de sur-apprentissage en moyennant les prédictions de multiples arbres de décision construits sur différents sous-ensembles de données. Deuxièmement, Random Forest gère efficacement les interactions complexes entre les 22 attributs du dataset, capturant des patterns non-linéaires que des modèles plus simples pourraient manquer. Troisièmement, l'algorithme est naturellement robuste face aux valeurs aberrantes et aux données bruitées, une qualité essentielle lors du traitement de données éducatives réelles. En comparaison, J48 a atteint une précision de 85 % avec un taux d'erreur de 15 %, PART a obtenu 83% de précision avec 17% d'erreur, tandis que Bayes Network Classifier s'est classé dernier avec 80% de précision et 20% d'erreur.

La découverte la plus significative et la plus impactante de cette étude concerne l'identification de l'évaluation interne, désignée par l'acronyme IAP pour Internal Assessment Performance, comme le facteur prédictif le plus puissant de la réussite académique finale. Avec un score d'importance de 95 pourcent, l'IAP surpasse de loin tous les autres attributs analysés. Cette mesure d'évaluation continue englobe l'ensemble des performances des étudiants lors des devoirs réguliers, des tests intermédiaires, des projets de groupe, des présentations orales et de toutes autres formes d'évaluation formative réalisées tout au long du semestre. Les résultats montrent une corrélation quasi-linéaire entre les performances en évaluation interne et les résultats finaux : les étudiants obtenant la mention "Best" en IAP affichent un taux de réussite finale de 96 pourcent, ceux avec "Very Good" atteignent 88 pourcent, "Good" correspond à 70 pourcent de réussite, "Pass" descend à 45 pourcent, et enfin "Fail" ne génère qu'un taux de réussite finale de 15 pourcent. Cette relation forte suggère que l'évaluation continue n'est pas simplement un indicateur parmi d'autres, mais bien le reflet le plus fidèle de l'engagement, de la compréhension progressive et de la maîtrise cumulative des connaissances par l'étudiant tout au long de son apprentissage.


Au-delà de l'IAP, l'étude a également identifié plusieurs autres facteurs prédictifs significatifs, bien que moins influents. Le taux de présence aux cours arrive en deuxième position avec un score d'importance de 78 pourcent, confirmant l'adage selon lequel la présence régulière en classe constitue un prérequis fondamental à la réussite académique. Les performances antérieures en classe XI et en classe X suivent respectivement avec des scores de 72 et 68 pourcent, indiquant que les acquis des années précédentes établissent une base solide qui influence les résultats futurs. Les facteurs socio-économiques présentent une influence modérée mais non négligeable : le revenu familial obtient un score de 55 pourcent, les qualifications éducatives des parents atteignent 48 pourcent, le type d'établissement scolaire fréquenté (public ou privé) compte pour 42 pourcent, et le genre affiche un score de 35 pourcent. Cette hiérarchie d'importance révèle que, bien que les facteurs académiques dominent largement la prédiction de la réussite, les déterminants socio-économiques et démographiques jouent néanmoins un rôle complémentaire qui ne peut être totalement ignoré dans une compréhension globale des trajectoires éducatives.

Les implications pratiques de cette recherche sont profondes et multidimensionnelles pour l'amélioration du système éducatif indien. Pour les institutions d'enseignement supérieur, les résultats plaident en faveur de la mise en œuvre de systèmes d'alerte précoce sophistiqués qui surveillent en temps réel les performances des étudiants aux évaluations internes. Dès qu'un étudiant montre des signes de faiblesse lors des premières évaluations continues, les conseillers pédagogiques peuvent déclencher des interventions ciblées : tutorat personnalisé, séances de remédiation, counseling académique, ou orientation vers des ressources d'apprentissage supplémentaires. Cette approche proactive contraste radicalement avec le modèle traditionnel réactif où l'échec n'est constaté qu'après l'examen final, à un moment où il est souvent trop tard pour inverser la situation. Pour les décideurs politiques et les administrateurs académiques, l'étude fournit des arguments empiriques solides pour réorienter les systèmes d'évaluation vers une approche plus continue et formative, réduisant la dépendance excessive aux examens finaux uniques qui génèrent un stress intense et ne reflètent qu'un instantané des compétences des étudiants. Les ressources institutionnelles limitées peuvent ainsi être allouées de manière optimale, en concentrant les efforts de soutien sur les étudiants identifiés comme à risque plutôt que de disperser les interventions de manière uniforme.


Du point de vue de la recherche académique en Educational Data Mining, cette étude établit plusieurs contributions méthodologiques importantes. Elle démontre que les techniques avancées de machine learning, et particulièrement les méthodes d'ensemble comme Random Forest, sont parfaitement adaptées au contexte des données éducatives caractérisées par leur hétérogénéité, leur complexité et leur nature multimodale. L'étude valide également l'approche d'analyse comparative d'algorithmes comme une pratique essentielle pour identifier la méthode la plus appropriée à un problème spécifique, plutôt que d'appliquer aveuglément un seul algorithme. De plus, la recherche illustre l'importance de collecter et d'analyser des attributs variés couvrant les dimensions académiques, socio-économiques et démographiques, car cette richesse d'information permet de construire des modèles prédictifs plus nuancés et plus précis. Enfin, l'étude ouvre la voie à des recherches futures qui pourraient étendre ce modèle prédictif à d'autres contextes géographiques, niveaux d'éducation, ou disciplines académiques, tout en intégrant éventuellement des variables psychologiques comme la motivation, l'auto-efficacité ou les stratégies d'apprentissage.

Malgré ses contributions substantielles, l'étude présente certaines limites méthodologiques qu'il convient de reconnaître pour contextualiser correctement ses résultats. La taille de l'échantillon de 300 étudiants, bien qu'acceptable pour une étude exploratoire, reste relativement modeste selon les standards contemporains du machine learning où les datasets contiennent souvent des milliers voire des millions d'observations. Cette limitation pourrait affecter la capacité du modèle à capturer des patterns rares ou subtils, ainsi que sa généralisabilité à des populations plus larges. La concentration géographique des données, collectées uniquement dans trois établissements de l'État d'Assam, soulève des questions sur la transférabilité des résultats à d'autres régions de l'Inde présentant des caractéristiques socio-culturelles, économiques ou linguistiques différentes. L'étude ne prend pas en compte certains facteurs psychologiques potentiellement cruciaux comme la motivation intrinsèque des étudiants, leur bien-être mental et émotionnel, leurs croyances d'auto-efficacité, leurs stratégies d'apprentissage, ou encore la qualité de leurs relations avec les enseignants et les pairs. De plus, la nature statique de l'analyse, basée sur des données collectées à un moment donné, ne permet pas de capturer les dynamiques temporelles de l'apprentissage ni d'analyser comment les performances évoluent au fil du temps en réponse à diverses interventions pédagogiques.


En conclusion, l'étude de Hussain et ses collaborateurs apporte une contribution significative à la compréhension des déterminants de la réussite académique dans l'enseignement supérieur indien et démontre le potentiel transformateur des approches basées sur les données pour améliorer les systèmes éducatifs. L'identification de l'évaluation interne comme facteur prédictif majeur offre aux institutions un levier d'action concret et immédiat pour intervenir efficacement auprès des étudiants en difficulté. La supériorité démontrée de l'algorithme Random Forest établit une référence méthodologique pour les futures recherches en Educational Data Mining dans des contextes similaires. Au-delà de ses résultats spécifiques, cette étude illustre plus largement comment l'intelligence artificielle et l'analyse de données peuvent être mises au service de l'équité éducative, en identifiant précocement les étudiants vulnérables et en permettant des interventions personnalisées qui augmentent leurs chances de réussite. Alors que l'Inde poursuit son expansion rapide de l'enseignement supérieur avec l'objectif d'augmenter les taux de diplomation et de réduire les inégalités éducatives, les outils prédictifs comme celui développé dans cette étude représentent des ressources précieuses pour atteindre ces ambitions nationales. Les recherches futures devraient viser à affiner ces modèles en intégrant davantage de variables, en testant leur validité dans des contextes diversifiés, et en développant des interfaces conviviales permettant aux enseignants et administrateurs d'exploiter facilement ces prédictions pour prendre des décisions pédagogiques éclairées au quotidien.