In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
data = pd.read_csv('student-mat.csv')
data.head()

Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,...,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
0,GP,F,18,U,GT3,A,4,4,at_home,teacher,...,4,3,4,1,1,3,6,5,6,6
1,GP,F,17,U,GT3,T,1,1,at_home,other,...,5,3,3,1,1,3,4,5,5,6
2,GP,F,15,U,LE3,T,1,1,at_home,other,...,4,3,2,2,3,3,10,7,8,10
3,GP,F,15,U,GT3,T,4,2,health,services,...,3,2,2,1,1,5,2,15,14,15
4,GP,F,16,U,GT3,T,3,3,other,other,...,4,3,2,1,2,5,4,6,10,10


In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 395 entries, 0 to 394
Data columns (total 33 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   school      395 non-null    object
 1   sex         395 non-null    object
 2   age         395 non-null    int64 
 3   address     395 non-null    object
 4   famsize     395 non-null    object
 5   Pstatus     395 non-null    object
 6   Medu        395 non-null    int64 
 7   Fedu        395 non-null    int64 
 8   Mjob        395 non-null    object
 9   Fjob        395 non-null    object
 10  reason      395 non-null    object
 11  guardian    395 non-null    object
 12  traveltime  395 non-null    int64 
 13  studytime   395 non-null    int64 
 14  failures    395 non-null    int64 
 15  schoolsup   395 non-null    object
 16  famsup      395 non-null    object
 17  paid        395 non-null    object
 18  activities  395 non-null    object
 19  nursery     395 non-null    object
 20  higher    

## Description du dataset

Le dataset contient 395 lignes correspondant chacune à un étudiant en mathématique dans le secondaire. Pour chaque étudiant, nous avons un jeu de 33 donnée (colonnes)

- **school**: école de l'étudiant. *GP* (Gabriel Pereira) ou *MS* (Mousinho da Silveira) **binary**
- **sex**:  sexe de l'étudiant, *F* (female) ou *M* (male) **binary**
- **age**: age de l'étudiant **numeric**
- **address**: type de logement, *U* (urban) ou *R* (rural) **binary**
- **famsize**: taille de la famille, *LE3* (moins ou 3 membres) ou *GT3* (plus de 3 membres) **binary**
- **Pstatus**: statut de cohabitation des parents, *T* (vivent ensemble) ou *A* (vivent séparément) **binary**
- **Medu**: niveau d'éducation de la mère. *0* (pas d'éducation), *1* (4th grade/primaire), *2* (5th to 9th grade/collège), *3* (secondary/lycée) et *4* (higher education/supérieur) **numeric**
- **Fedu**: niveau d'éducation du père. **numeric** 
- **Mjob**: travail de la mère. *teacher*, *health*, *services*, *at_home* ou *other* **string**
- **Fjob**: travail du père **string**
- **reason**: raison du choix de l'école *home* (près de la maison), *reputation* (réputation de l'école) *course* (préférence des cours) ou *other* **string**
- **guardian**: tuteur légal, *mother*, *father* ou *other* **string**
- **traveltime**: temps de trajet école - maison en heure. **numeric**
- **studytime**: temps d'étude par semaine. 1 = 10h **numeric** 
- **failures**: nombre de classe redoublés. Maximum 4 **numeric**
- **schoolsup**: extra support scolaire *yes* ou *no* **boolean**
- **famsup**: support scolaire apporté par la famille, *yes* ou *no* **boolean*
- **paid**: extra support scolaire payant en math, *yes* ou *no* **boolean**
- **activities**: activités extra scolaire *yes* ou *no* **boolean**
- **nursery**: aide au devoir/étude *yes* ou *no* **boolean**
- **higher**: veut entreprendre des études supérieurs *yes* ou *no* **boolean**
- **internet**: accès internet à la maison *yes* ou *no* **boolean**
- **romantic**: relation amoureuse *yes* ou *no* **boolean**
- **famrel**: qualité des relations familliales, de *1* (bas) à *5* (haut) **numeric**
- **freetime**: temps libre après l'école, de *1* (bas) à *5* (haut) **numeric**
- **goout**: taux de sortie avec des amis, de *1* (bas) à *5* (haut) **numeric**
- **Dalc**: taux de consomation d'acool un jour de semaine, de *1* (bas) à *5* (haut) **numeric**
- **Walc**: taux de consomation d'alcool le weekend, de *1* (bas) à *5* (haut) **numeric**
- **health**: niveau global de santé, de *1* (bas) à *5* (haut) **numeric**
- **absences**: nombre d'absences à l'école, de *0* à *93* **numeric**
- **G1**: moyenne au 1er trimestre, de *0* à *20* **numeric**
- **G2**: moyenne au 2nd trimestre, de *0* à *20* **numeric**
- **G3**: moyenne au 3ème trimestre, de *0* à *20* **numeric**data = data.assign( fullGrades = (data["G1"] + data["G2"] + data["G3"]) / 3 )

In [4]:
data = data.assign( annualMean = (data["G1"] + data["G2"] + data["G3"]) / 3 )
data = data.assign( weekAlc = (data["Walc"] + data["Dalc"]) / 2 )

In [None]:
plt.figure(figsize=(14,8))
sns.heatmap(data.corr(), annot=True);

In [None]:
gp = data[data['school'] == 'GP']
ms = data[data['school'] == 'MS']

In [None]:
plt.figure(figsize=(14,8))
sns.heatmap(gp.corr().sort_values(by=['weekAlc'],ascending=False), annot=True);

In [None]:
plt.figure(figsize=(14,8))
sns.heatmap(ms.corr().sort_values(by=['weekAlc'],ascending=False), annot=True);

In [None]:
print('moyenne consommation d\'alcool GP: ' + str(gp.weekAlc.mean()) + '%')
print('moyenne consommation d\'alcool MS: ' + str(ms.weekAlc.mean()) + '%')

La consommation d'alcool des étudiants de l'école MS est 5% plus haute que c'elle de l'école GP.

In [None]:
plt.figure(figsize=(15,5))
plt.subplot(121)
sns.countplot(x = 'sex', data = ms, hue = 'weekAlc')
plt.title("Répartition consommation d'alcool homme/femme MS")

plt.subplot(122)
sns.countplot(x = 'sex', data = gp, hue = 'weekAlc')
plt.title("Répartition consommation d'alcool homme/femme GP");