In [1]:
import pandas as pd
import numpy as np

# https://www.kaggle.com/uciml/student-alcohol-consumption 

#### Celem naszej analizy jest ustalenie jak często uczniowie spożywają alkohol w dni szkolne - $Dalc$ oraz w weekendy - $Walc$. Na stronie ze zbiorem danych znajduje się dokładny opis parametrów. Jako, że jest to spotkanie związane z kursem Machine Learning by Stanford University, użyte metody uczenia maszynowego nie mają na celu stworzyć najlepszego modelu, lecz zaprezentować praktyczną aplikację poznanych narzędzi - w tym przypadku model regresji liniowej.

# Wczytanie danych z student-mat.csv

In [14]:
table = pd.read_csv("student-mat.csv")
table = table.sample(table.shape[0])
table = table.drop(columns=["school","Mjob","Fjob","reason","guardian"])

In [15]:
list(table)

['sex',
 'age',
 'address',
 'famsize',
 'Pstatus',
 'Medu',
 'Fedu',
 'traveltime',
 'studytime',
 'failures',
 'schoolsup',
 'famsup',
 'paid',
 'activities',
 'nursery',
 'higher',
 'internet',
 'romantic',
 'famrel',
 'freetime',
 'goout',
 'Dalc',
 'Walc',
 'health',
 'absences',
 'G1',
 'G2',
 'G3']

# Faktoryzacja danych w postaci tekstu

In [12]:
def stringToInt(df,name):
    df.loc[:,name] = pd.factorize(df.loc[:,name])[0]

namesToDrop = ["sex","address","famsize","Pstatus","schoolsup","famsup",
               "paid","activities","nursery","higher","romantic","internet"]

for name in namesToDrop:
    stringToInt(table, name)

# Podział na $y_{Walc}$, $y_{Dalc}$ i $X$ 

In [4]:
Dalc = np.array(table.loc[:,"Dalc"])
Walc = np.array(table.loc[:,"Walc"])
X = table.drop(columns = ["Dalc","Walc"]).dropna()
X = np.array(pd.concat([X.assign(x0=1).loc[:,"x0"], X], axis = 1))

In [5]:
Xtrain = X[0:350,:]
Walctrain = Walc[0:350]
Dalctrain = Dalc[0:350]

In [6]:
Xtest = X[350:395,:]
Walctest = Walc[350:395]
Dalctest = Dalc[350:395]

# $$ \Theta_{Walc} = (X^TX)^{-1}X^Ty$$

In [7]:
ThetaWalc = np.matmul(np.matmul(np.linalg.pinv(np.matmul(Xtrain.transpose(),Xtrain)),Xtrain.transpose()),Walctrain)

In [8]:
sum(np.around(np.matmul(Xtest,ThetaWalc)) == Walctest)/Walctest.size

0.4222222222222222

# $$ \Theta_{Dalc} = (X^TX)^{-1}X^Ty$$

In [9]:
ThetaDalc = np.matmul(np.matmul(np.linalg.pinv(np.matmul(Xtrain.transpose(),Xtrain)),Xtrain.transpose()),Dalctrain)

In [10]:
sum(np.around(np.matmul(Xtest,ThetaDalc)) == Dalctest)/Dalctest.size

0.6222222222222222