## Indicateur de Performance des Étudiants

### Cycle de vie d'un projet de machine learning

* Définition du problème
* Compréhension des données
* Prétraitement des données
* Entraînement du modèle
* Évaluation
* Déploiement

#### 1. Définition du problème
Ce projet analyses comment la performance des étudiants(les resultats des tests) est affectée par divers facteur tels que le sexe,l'ethnicité, le petit déjeuner,le niveau d'éducation des parents et les cours de préparation aux tests.

#### 2. Compréhension de donneés

##### 2.1 Collecte de données

- source de données - https://www.kaggle.com/datasets/spscientist/students-performance-in-exams?datasetId=74977
- Les  données consister de  8 colonnes et 1000 lignes.


##### 2.2 Importer données et des package requis


In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

import warnings
warnings.filterwarnings("ignore")



##### importer les données CSV en tant que dataframe pandas.

In [7]:

df = pd.read_csv(r"C:\Users\Will\Desktop\CA\AI\MLOPs\student_score\notebook\stud.csv")

#### afficher les 5 premiers enregistrements

In [6]:

df.head()

Unnamed: 0,gender,race_ethnicity,parental_level_of_education,lunch,test_preparation_course,math_score,reading_score,writing_score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75


In [8]:
# la forme du jeu de données

df.shape

(1000, 8)

#### 2.3 L'information du jeu de données

- le sexe: le sexe des etudiants-(homme ou femme)
- l'ethncité: l'ethnicité des étudiants -(groupe A,B,C,D,E)
- le niveau d'éducation des parents -le niveau d'éducation final des parents-(licence, certaines collége,maîtrise,diplôme d'associé,lycée)
- le déjeuner: ayant déjeuné avant le test(standard ou réduit/gratuit)
- cours de préparation au test: complet ou non complet avant le test
- score en mathematique
- score en lecture
- score en éecriture




#### vérification de données à effectuer

- vérifier les valeurs manquantes
- vérifier le type de données
- vérifier le doublons
- vérifier le numbre de valeurs unique dans chaque colonne
- verifier le statisques de l'ensemble de données
- verifier les divers catégories présentes dan les différentes colonnes catégorielle

In [9]:
# verifier les valeur manquantes
df.isnull().sum()

gender                         0
race_ethnicity                 0
parental_level_of_education    0
lunch                          0
test_preparation_course        0
math_score                     0
reading_score                  0
writing_score                  0
dtype: int64

##### il n'y a aucune valeur manquante

In [10]:
# vérifier le type de données
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 8 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   gender                       1000 non-null   object
 1   race_ethnicity               1000 non-null   object
 2   parental_level_of_education  1000 non-null   object
 3   lunch                        1000 non-null   object
 4   test_preparation_course      1000 non-null   object
 5   math_score                   1000 non-null   int64 
 6   reading_score                1000 non-null   int64 
 7   writing_score                1000 non-null   int64 
dtypes: int64(3), object(5)
memory usage: 62.6+ KB


In [11]:
# vérifier le doublons 
df.duplicated().sum()

0

#### il n'y a pas de données dupliquées

In [12]:
# vérifier le nombre de valeur unique de chaque colonne
df.nunique()

gender                          2
race_ethnicity                  5
parental_level_of_education     6
lunch                           2
test_preparation_course         2
math_score                     81
reading_score                  72
writing_score                  77
dtype: int64

In [13]:
# vérifier le statistiques de l'ensemble données
df.describe()

Unnamed: 0,math_score,reading_score,writing_score
count,1000.0,1000.0,1000.0
mean,66.089,69.169,68.054
std,15.16308,14.600192,15.195657
min,0.0,17.0,10.0
25%,57.0,59.0,57.75
50%,66.0,70.0,69.0
75%,77.0,79.0,79.0
max,100.0,100.0,100.0


#### préspicacité

- D'après la description ci-dessus des données numériques, toutes les moyennes sont très proches les unes des autres - entre 66 et 68,05 ;
- Tous les écarts types sont également proches - entre 14,6 et 15,19 ;
- Alors qu'il y a un score minimum de 0 pour les mathématiques, pour l'écriture le minimum est beaucoup plus élevé = 10 et pour la lecture et plus = 17


#### 2.4 Analyse Exploratoire des données

In [16]:
print("Catégories de genre:    ",end=" ")
print(df.gender.unique())

print("Catégories de race_ethnicité:   ", end=" ")
print(df.race_ethnicity.unique())

print("Catégories de niveau d'éducation des parents:   ", end=" ")
print(df.parental_level_of_education.unique())

print("Catégories de déjeuner :     ",end=" " )
print(df['lunch'].unique())

print("Catégories dans cours de préparation au test:     ",end=" " )
print(df['test_preparation_course'].unique())



Catégories de genre:     ['female' 'male']
Catégories de race_ethnicité:    ['group B' 'group C' 'group A' 'group D' 'group E']
Catégories de niveau d'éducation des parents:    ["bachelor's degree" 'some college' "master's degree" "associate's degree"
 'high school' 'some high school']
Catégories de déjeuner :      ['standard' 'free/reduced']
Catégories dans cours de préparation au test:      ['none' 'completed']


In [18]:
# définir les colonnes catégorielles et numériques

cat_feature=[feature for feature in df.columns if df[feature].dtype=='O']
num_feature=[feature for feature in df.columns if df[feature].dtype!='O']

print("Nous avons {} caractéristiques catégorielles {}".format(len(cat_feature), cat_feature))
print("\nNous avons {} caractéristiques numeriques {}".format(len(num_feature),num_feature))

Nous avons 5 caractéristiques catégorielles ['gender', 'race_ethnicity', 'parental_level_of_education', 'lunch', 'test_preparation_course']

Nous avons 3 caractéristiques numeriques ['math_score', 'reading_score', 'writing_score']


#### Ajout des colonnes pour "Score Total" et "Moyenne"

In [20]:
df['total_score']=df['math_score']+df['reading_score']+df['writing_score']
df['average']=df['total_score']/3
df['average']=df['average'].round(2)
df.head()

Unnamed: 0,gender,race_ethnicity,parental_level_of_education,lunch,test_preparation_course,math_score,reading_score,writing_score,total_score,average
0,female,group B,bachelor's degree,standard,none,72,72,74,218,72.67
1,female,group C,some college,standard,completed,69,90,88,247,82.33
2,female,group B,master's degree,standard,none,90,95,93,278,92.67
3,male,group A,associate's degree,free/reduced,none,47,57,44,148,49.33
4,male,group C,some college,standard,none,76,78,75,229,76.33


In [38]:
reading_full_mark=df[df['reading_score']==100]['average'].count()
writing_full_mark=df[df['writing_score']==100]['average'].count()
math_full_mark=df[df['math_score']==100]['average'].count()

print(f"Nombre d'étudiants ayant obtenu la note maximale en lecture:  {reading_full_mark}")
print(f"Nombre d'étudiants ayant obtenu la note maximale en ecriture:  {writing_full_mark}")
print(f"Nombre d'étudiants ayant obtenu la note maximale en mathematiques:  {math_full_mark}")


Nombre d'étudiants ayant obtenu la note maximale en lecture:  17
Nombre d'étudiants ayant obtenu la note maximale en ecriture:  14
Nombre d'étudiants ayant obtenu la note maximale en mathematiques:  7


D'apres les information ci-dessus, nous constatons que les éleves obtiennent de meilleurs resultats en lecture et en ecriture qu'en mathematiques.