# Prosjekt 1 - Studentkarakterer/Rapport

I dette prosjektet ser vi på hvordan dataanalyse og maskinæring kan brukes for å bestemme skoleelevers karakterer. Vi gjør dette ved å trene modeller på et datasett som inneholder informasjon om portugisiske skoleelever.



### Innledning

I denne rapporten vurderer vi hvordan vi kan bruke Python og Pythons relevante maskinlærings-biblioteker til å lage modeller for å predikere skoleelevers karakterer.

Vi starter rapporten med å se på og forberede dataen. For enkelthets skyld, har vi valgt å bare bruke datasettet med elevenes portugisisk-karakterer, ikke datasettet med elevenes matte-karakterer. Vi valgte datasettet med portugisisk-karakterer fordi det er størst. Videre i rapporten lager vi tre forskjellige trebaserte modeller: modell 1, modell 2 og modell 3. De tre modellene bruker forskjellige forklaringsvariabler: modell 1 bruker alle forklaringsvariablene som er tilgjengelige i datasettet, modell 2 bruker bare elevenes tidligere karakterer, og modell 3 bruker noen utvalgte forklaringsvariabler. Forklaringsvariablene i modell 3 er valgt basert på etiske og juridiske vurderinger, hvilket diskuteres i den andre rapporten. Til slutt i rapporten sammenligner vi de tre modellene og plotter noen av egenskapene deres.



### Praktisk/Bedre navn

In [16]:
#Importering av relevante Python-bibliotek
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import LeaveOneOut, GridSearchCV, train_test_split
from sklearn.linear_model import LinearRegression

#Visningsinstillinger
pd.set_option('display.max_columns', None) 

### Lesing og tolking av dataene

Vi starter med å lese og tolke dataen. Vi ser at vi har 649 rader og 33 kolonner, altså har vi 649 elever og 33 variabler for hver elev. 1 av disse variablene, G3, er karakteren vi vil predikere. De 32 andre variablene er forklaringsvariabler. 

Videre plotter vi de variablene... Hvilke variabler og færre.

In [13]:
#Leser og viser dataene
df_tmp = pd.read_csv("../Data/student-por.csv")
display(df_tmp.head())
display(f"Antall elever = {df_tmp.shape[0]}")
display(f"Antall variabler = {df_tmp.shape[1]}")

#Plot
#pd.plotting.scatter_matrix(df_tmp, figsize=(20,20))
#plt.show()

Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,reason,guardian,traveltime,studytime,failures,schoolsup,famsup,paid,activities,nursery,higher,internet,romantic,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
0,GP,F,18,U,GT3,A,4,4,at_home,teacher,course,mother,2,2,0,yes,no,no,no,yes,yes,no,no,4,3,4,1,1,3,4,0,11,11
1,GP,F,17,U,GT3,T,1,1,at_home,other,course,father,1,2,0,no,yes,no,no,no,yes,yes,no,5,3,3,1,1,3,2,9,11,11
2,GP,F,15,U,LE3,T,1,1,at_home,other,other,mother,1,2,0,yes,no,no,no,yes,yes,yes,no,4,3,2,2,3,3,6,12,13,12
3,GP,F,15,U,GT3,T,4,2,health,services,home,mother,1,3,0,no,yes,no,yes,yes,yes,yes,yes,3,2,2,1,1,5,0,14,14,14
4,GP,F,16,U,GT3,T,3,3,other,other,home,father,1,2,0,no,yes,no,no,yes,yes,no,no,4,3,2,1,2,5,0,11,13,13


'Antall elever = 649'

'Antall variabler = 33'

### Forberedelse av dataene


Videre forbereder vi dataene. Vi start med å sjekke om vi mangler noe data, noe vi ikke gjør.

Deretter bruker vi "one hot encoding" på de kategoriske variablene. Vi setter "drop_first = True", for å fjerne unødvendige "dummy"-variabler; vi vil ha en så enkel modell som mulig. 

Vi splitter så variablene i forklaringsvariabler X og respons Y. Responsen Y er den samme for modell 1, modell 2 og modell 3, mens forklaringsvariablene varierer for de tre modellene. Vi lager derfor tre lister med forklaringsvariabler: X1, X2 og X3.

Til slutt splitter vi X-ene og Y inn i treningssett og testsett. Vi har valgt at treningssettet skal bestå av 20% av det totale datasettet. Dermed består testsettet av 80% av det totale datasettet. 

In [17]:
#Sjekker om det vi mangler noe data
df_tmp.isnull().sum()

#Bruker "one hot encoding" på de kategoriske variablene
categorical_cols=["sex", "school", "address", "Pstatus", "Mjob", "Fjob", "guardian", "famsize", "reason", "schoolsup", "famsup", "activities", "paid", "internet", "nursery", "higher", "romantic"]
df = pd.get_dummies(df_tmp, columns=categorical_cols, prefix=categorical_cols, prefix_sep="_", drop_first = True)

#Splitter forklaringsvariabler X og respons Y
X1 = df.drop(["G3", ], axis=1)
X2 = df[["G1", "G2"]]
X3 = df[["G1", "G2", "failures", "school_MS"]]
Y = df["G3"]

#Splitter treningsset og testsett
X1_train, X1_test, X2_train, X2_test, X3_train, X3_test, Y_train, Y_test = train_test_split(X1, X2, X3, Y, test_size = 0.20)


## Tren og test modellene (Bruk cross validation og grid search til å velge beste parametre til modellene)

### Model 1
M1 som bruker all data man vil til å predikere G3

### Model 2
M2 som kun bruker G1 og G2 til å predikere G3

### Model 3
M3 som man tenker er den “beste”, og argumenter for denne (både når det gjelder statistikken, men også etikken)

## Plot
Plot importance og partial dependance til modellene og drøft hva de forteller oss om hva som spiller en rolle i å påvirke avsluttende karakter. Se hva som skjer med predikert karakter for en elev om du endrer på bare en parameter til eleven. Prøv med ulike parametre og elever. (f.eks: Hadde noen fått en annen karakter om de var eldre?)

