# Spiller4
# Implementasjon og oppsett for å lage en baseline for testscore ved hjelp av en Dummy Model
#### Tar i bruk en Regressor-versjon av modellen, som brukes til å estimere test error verdier innenfor Mean Absolute Error, Mean Squard Error of Coefficient of Determination (R^2). 

In [1]:
# Importer
import numpy as np
import pandas as pd


import matplotlib.pyplot as plt
plt.style.use('fivethirtyeight')
plt.rcParams['lines.linewidth'] = 1.5
%matplotlib inline
from sklearn import metrics

import warnings
warnings.filterwarnings('ignore')

from sklearn.dummy import DummyRegressor
from sklearn.model_selection import train_test_split
from sklearn.model_selection import train_test_split

# Steg 1: Importerer datasett
#### Bruker datasettet til én av de fire spillerne vi har valgt ut:

In [2]:
url = '../Spiller4.csv'
data = pd.read_csv(url, sep=',')
data

Unnamed: 0,Date,Fatigue,Mood,Readiness,SleepDurH,SleepQuality,Soreness,Stress
0,2020-03-20,,,,,,,
1,2020-03-21,2.0,3.0,5.0,8.0,3.0,4.0,4.0
2,2020-03-22,3.0,3.0,6.0,8.5,3.0,2.0,3.0
3,2020-03-23,3.0,3.0,6.0,8.5,3.0,2.0,3.0
4,2020-03-24,3.0,3.0,7.0,8.5,3.0,3.0,3.0
...,...,...,...,...,...,...,...,...
647,2021-12-27,4.0,5.0,9.0,9.0,4.0,4.0,5.0
648,2021-12-28,2.0,5.0,9.0,8.0,3.0,3.0,5.0
649,2021-12-29,3.0,5.0,8.0,8.5,3.0,3.0,4.0
650,2021-12-30,4.0,5.0,9.0,10.0,3.0,3.0,4.0


## Steg 2: Etter at dataen er importert, må den prepareres
#### Her velger vi ut Readiness-parameteren som skal brukes til å gjøre prediksjoner med, og tar med oss datoene til å opprette et nytt datasett med disse utvalgte kolonnene.
#### Deretter vil vi konvertere 'Date'-kolonnen til datetime, og setter videre dette som index. Frekvensen blir satt til 'D' (daglig).

In [3]:
data = data[['Date', 'Readiness']]

In [4]:
data['Date'] = pd.to_datetime(data['Date'], dayfirst=True)
data = data.set_index('Date')
data = data.rename(columns={'x': 'y'})
data = data.asfreq('D')
data = data.sort_index()
data.head(5)

Unnamed: 0_level_0,Readiness
Date,Unnamed: 1_level_1
2020-03-20,
2020-03-21,5.0
2020-03-22,6.0
2020-03-23,6.0
2020-03-24,7.0


# Steg 3: Størrelse på datasett
#### Datsettet avgrensens til å være fra 21.03.2020 til 31.12.2021. Gjøres likt hos alle fire spillere sine datasett.

In [5]:
data = (data.loc['2020-03-21':'2021-12-31'])

# Steg 4: Manglende verdier
#### Datasettet inneholder manglende verdier, og disse tomme verdiene blir fylt med en metode kalt 'ffill'. Det vil si at kolonnen med manglende verdi blir fylt inn med verdien fra foregående dag.

In [6]:
data['Readiness'] = data['Readiness'].fillna(method='ffill')

# Steg 5: Deler opp i trening- og testsett
### Fordelingen er følgende: Datasettene består av totalt 651 verdier, hvor 80% av disse skal brukes til trening og 20% skal brukes til test og prediksjon. Dette gir oss følgende:
#### Treningssett: 520 verdier
#### Testsett: 131 verdier

In [7]:
y = data['Readiness']
X = data.index

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

# Steg 6: Oppretter Dummy Regressor Modell
### Strategi: Setter modellen til å regne ut gjennomsnittsverdien i datasettet

In [8]:
dummy_regr = DummyRegressor(strategy='mean')

In [9]:
dummy_regr.fit(X_train, y_train)

DummyRegressor()

In [10]:
dummy_regr.fit(X_train, y_train)

DummyRegressor()

In [11]:
print('Prediksjon av gjennomsnittsverdi for Spiller1:')
y_predict = dummy_regr.predict(y_test)
y_predict

Prediksjon av gjennomsnittsverdi for Spiller1:


array([7.13653846, 7.13653846, 7.13653846, 7.13653846, 7.13653846,
       7.13653846, 7.13653846, 7.13653846, 7.13653846, 7.13653846,
       7.13653846, 7.13653846, 7.13653846, 7.13653846, 7.13653846,
       7.13653846, 7.13653846, 7.13653846, 7.13653846, 7.13653846,
       7.13653846, 7.13653846, 7.13653846, 7.13653846, 7.13653846,
       7.13653846, 7.13653846, 7.13653846, 7.13653846, 7.13653846,
       7.13653846, 7.13653846, 7.13653846, 7.13653846, 7.13653846,
       7.13653846, 7.13653846, 7.13653846, 7.13653846, 7.13653846,
       7.13653846, 7.13653846, 7.13653846, 7.13653846, 7.13653846,
       7.13653846, 7.13653846, 7.13653846, 7.13653846, 7.13653846,
       7.13653846, 7.13653846, 7.13653846, 7.13653846, 7.13653846,
       7.13653846, 7.13653846, 7.13653846, 7.13653846, 7.13653846,
       7.13653846, 7.13653846, 7.13653846, 7.13653846, 7.13653846,
       7.13653846, 7.13653846, 7.13653846, 7.13653846, 7.13653846,
       7.13653846, 7.13653846, 7.13653846, 7.13653846, 7.13653

In [12]:
print('Baseline for testscore - Spiller4:')

# Skriver ut MAE 
print('MAE:', metrics.mean_absolute_error(y_test, y_predict))

# Skriver ut MSE
print('MSE:', metrics.mean_squared_error(y_test, y_predict))

# Skriver ut R^2
print('R^2:', metrics.r2_score(y_test, y_predict))

Baseline for testscore - Spiller4:
MAE: 0.841441573693482
MSE: 1.1025241372690726
R^2: -0.012220025662024403
