## Use Case Vorhersage von Sales Daten mithilfe Linearer Regression
Falls wir keine kategorischen sondern metrisch skalierten Werte (numerisch) vorhersagen wollen, müssen wir eine Regression anwenden. Eine einfache Methode dies zu tun ist eine sogenannte Lineare Regression. 

In [1]:
#imports 
import pandas as pd
import plotly.express as px

In [2]:
sales = pd.read_csv('../Datasets/sales_all.csv')

Sie bereits eine kleine explorative Datenanalyse in der Vorschau gesehen. Diese ist äußerst wichtig um relevante Features zu extrahieren. Lassen sie sich mit sales.head() die ersten Zeilen ausgeben und entscheiden Sie dann mit sales.loc oder sales.iloc welche Features Sie übernehmen wollen und was Ihr target ist.

In [3]:
# Lassen Sie sich die ersten Zeilen ausgeben
sales.head()

Unnamed: 0,date,WeekdayNo,Weekday,HolidayFlag,SchoolHolidayFlag,Sales
0,2012-01-01,6,Sun,True,True,117.0
1,2012-01-02,0,Mon,False,True,106.0
2,2012-01-03,1,Tue,False,True,82.0
3,2012-01-04,2,Wed,False,True,70.0
4,2012-01-05,3,Thur,False,True,84.0


Jetzt wählen Sie Ihre Features und das target aus.

In [6]:
X = sales.iloc[:,1:-1]
y = sales.Sales

Da eine Regression eine Funktion aufstellt um Werte vorhersagen zu können, müssen alle kategorischen Features zu numerischen Features umgewandelt werden. Dies geht durch sogenanntes One-Hot-Encoding. Dies geht in pandas mit der Funktion pd.get_dummies(). Als Input müssen Sie lediglich Ihren Featureraum X angeben.

In [7]:
one_hot_encoded_data = pd.get_dummies(X)
one_hot_encoded_data

Unnamed: 0,WeekdayNo,HolidayFlag,SchoolHolidayFlag,Weekday_Fri,Weekday_Mon,Weekday_Sat,Weekday_Sun,Weekday_Thur,Weekday_Tue,Weekday_Wed
0,6,True,True,0,0,0,1,0,0,0
1,0,False,True,0,1,0,0,0,0,0
2,1,False,True,0,0,0,0,0,1,0
3,2,False,True,0,0,0,0,0,0,1
4,3,False,True,0,0,0,0,1,0,0
...,...,...,...,...,...,...,...,...,...,...
1918,6,False,False,0,0,0,1,0,0,0
1919,0,False,False,0,1,0,0,0,0,0
1920,1,False,False,0,0,0,0,0,1,0
1921,2,False,False,0,0,0,0,0,0,1


Um die Güte des Modells evaluieren zu können, machen wir zuvor einen Train-/Test split. Dieser teilt die Daten in verschiedene Partitionen auf. Die größte Partition wird dann für das Training benutzt und eine eher kleine Menge zum testen des Modells. Dies sieht wie folgt aus:

In [10]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(one_hot_encoded_data,y, test_size=0.2)

Nun können Sie Ihr Modell mit fit-Methode 'fitten' (trainieren) und anschließend mit den zuvor extrahierten Testdaten die Güte evaluieren.

In [11]:
# imports
from sklearn.linear_model import LinearRegression
lm = LinearRegression()
lm.fit(X_train, y_train)

lm.score(X_test, y_test)

0.9480643758370603

Sie können Werte mit der Methode predict vorhersagen.

In [12]:
lm.predict(X_test)

array([ 86.12217497, 106.18502202,  88.09810504,  79.45629964,
        62.09818059,  62.09818059, 100.1758327 , 115.25863535,
        79.45629964,  85.46548896,  86.12217497,  79.45629964,
        80.30163708,  93.91864292, 100.1758327 , 100.1758327 ,
        80.30163708,  69.89464854,  93.91864292,  93.91864292,
        69.89464854, 115.25863535, 100.1758327 ,  88.09810504,
        88.09810504, 109.13525581,  79.45629964,  79.45629964,
        69.89464854, 115.25863535, 109.13525581, 107.46216739,
        79.45629964, 100.1758327 ,  69.89464854,  80.30163708,
        69.89464854,  62.09818059, 100.1758327 ,  88.09810504,
        79.45629964,  80.30163708,  71.65983169,  79.45629964,
        79.45629964, 100.1758327 , 109.13525581,  79.45629964,
        93.91864292,  88.09810504,  92.37936474, 100.1758327 ,
        80.30163708,  88.09810504,  79.45629964,  69.89464854,
        71.65983169,  93.91864292, 100.1758327 , 100.1758327 ,
        62.09818059,  69.89464854, 122.94091308, 101.33

Da für eine Regression eher der Mean Squared Error benutzt wird, wollen wir diesen nun ausrechnen.

In [13]:
from sklearn.metrics import mean_squared_error
mse = mean_squared_error(lm.predict(X_test),y_test)

In [14]:
mse

11.864870196196952