### Laden des Advertising-Datensatzes

Zuerst laden wird die Daten aus der csv-Datei `advertising.csv` in einen Pandas Dataframe. Um den Inhalt zu prüfen,  schauen wir uns die ersten paar Zeilen mit Hilfe der `head` Funktion an.

In [1]:
import pandas as pd
data_raw = pd.read_csv("../advertising.csv")
data_raw.head()

Unnamed: 0,index,TV,radio,newspaper,sales
0,1,230.1,37.8,69.2,22.1
1,2,44.5,39.3,45.1,10.4
2,3,17.2,45.9,69.3,9.3
3,4,151.5,41.3,58.5,18.5
4,5,180.8,10.8,58.4,12.9


### Training der linearen Regression

Bevor wir mit dem Training beginnen, unterteilten wir die verfügbaren Daten in Trainings- und Testdaten, wobei die Trainingsdaten 80% der ursprünglichen Daten beinhalten sollen und die Testdaten 20%.

In [2]:
data = data_raw.drop(columns=['index'])
data.head()

train_data = data.sample(frac=0.8, random_state=0)
test_data = data.drop(train_data.index) # Remove all data in the index column

print('Trainingsdaten')
print(train_data.shape)
print('Testdaten')
print(test_data.shape)

Trainingsdaten
(160, 4)
Testdaten
(40, 4)


Anschließend trainieren wir auf den Trainingsdaten eine lineare Regression mit dem Feature `TV`, `radio`, `newspaper` und dem Label `sales`.

In [3]:
from sklearn.linear_model import LinearRegression

# Train TV feature on label sales
x_train_tv = train_data['TV'].values.reshape(-1,1) # notwendig wenn nur ein Feature vorhanden ist
y_train_tv = train_data['sales']
reg_tv = LinearRegression()
reg_tv.fit(x_train_tv, y_train_tv) # Praxis aus der Vorlesung

# Train Radio feature on label sales
x_train_radio = train_data['radio'].values.reshape(-1,1) # notwendig wenn nur ein Feature vorhanden ist
y_train_radio = train_data['sales']
reg_radio = LinearRegression()
reg_radio.fit(x_train_radio, y_train_radio) # Praxis aus der Vorlesung

# Train newspaper feature on label sales
x_train_newspaper = train_data['newspaper'].values.reshape(-1,1) # notwendig wenn nur ein Feature vorhanden ist
y_train_newspaper = train_data['sales']
reg_newspaper = LinearRegression()
reg_newspaper.fit(x_train_newspaper, y_train_newspaper) # Praxis aus der Vorlesung

LinearRegression()

### Testen des Regressionsmodells

Um die Qualität des trainierte Regressionsmodells zu überprüfen, machen wir damit Vorhersagen auf den Testdaten und messen den MSE.

In [4]:
from sklearn.metrics import mean_squared_error

# MSE auf TV Trainingsdaten
x_test_tv = test_data['TV'].values.reshape(-1,1)
y_test_tv = test_data['sales']
tv_prediction_test = reg_tv.predict(x_test_tv)
tv_mse_test =  mean_squared_error(y_test_tv, tv_prediction_test)
print(f"Mean squared error (MSE) auf die TV Trainingsdaten: {tv_mse_test}")

# MSE auf TV Trainingsdaten
x_test_radio = test_data['radio'].values.reshape(-1,1)
y_test_radio = test_data['sales']
radio_prediction_test = reg_radio.predict(x_test_radio)
radio_mse_test =  mean_squared_error(y_test_radio, radio_prediction_test)
print(f"Mean squared error (MSE) auf die radio Trainingsdaten: {radio_mse_test}")

# MSE auf TV Trainingsdaten
x_test_newspaper = test_data['newspaper'].values.reshape(-1,1)
y_test_newspaper = test_data['sales']
newspaper_prediction_test = reg_newspaper.predict(x_test_newspaper)
newspaper_mse_test =  mean_squared_error(y_test_newspaper, newspaper_prediction_test)
print(f"Mean squared error (MSE) auf die newspaper Trainingsdaten: {newspaper_mse_test}")
print(f"Best MSE value: {min([tv_mse_test, radio_mse_test, newspaper_mse_test])}")

Mean squared error (MSE) auf die TV Trainingsdaten: 14.41037265386388
Mean squared error (MSE) auf die radio Trainingsdaten: 14.678657098022956
Mean squared error (MSE) auf die newspaper Trainingsdaten: 25.543312576681807
Best MSE value: 14.41037265386388
