# Auto Insurance Regression

Zbiór danych opisuje szwedzkie ubezpieczenia samochodowe. Istnieje pojedyncza wyjaśniająca, która jest liczbą szkód, a zmienną wyjaśnianą jest łączna kwota wypłat za szkody w tysiącach szwedzkich koron. Celem jest przewidywanie łącznej kwoty wypłat na podstawie liczby zgłoszonych szkód.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
dane = pd.read_csv("data/auto-insurance.csv", header=None, names=['nr_claims', 'payment'])
dane

In [None]:
dane.info()

In [None]:
dane.describe()

Rozkłady obu zmiennych mają mocno skośny rozkład (niesymetryczny) co może utrudniać zadanie modelowania, rozwiążemy ten problem później

In [None]:
dane.hist()
plt.show()

In [None]:
dane.plot.scatter(x='nr_claims', y='payment')
plt.show()

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error

X, y = dane["nr_claims"].values, dane.payment.values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=222)

In [None]:
from sklearn.linear_model import LinearRegression

# ZADANIE: Zbuduj model regresji liniowej i sprawdź błąd absolutny dla zbioru testowego
lm = ___
yhat = ___
score = ___
print('MAE: %.3f' % score)

In [None]:
from tensorflow.keras import Sequential
from tensorflow.keras.layers import Dense

# ZADANIE: Stwórz model z jedną warstwą ukrytą z 10 neuronami, aktuwacją 'relu' oraz kernel_initializer='he_normal'
___
# ZADANIE: Skompiluj model z 'mse' jako funkcją straty i optymalizatorem 'adam'
___

In [None]:
# ZADANIE: Wytrenuj model ustawiając 100 epok, batch size 8 i validation_data=(X_test, y_test)
___

In [None]:
yhat = model.predict(X_test)
score = mean_absolute_error(y_test, yhat)
print('MAE: %.3f' % score)

In [None]:
plt.title('Learning Curves')
plt.xlabel('Epoch')
plt.ylabel('Mean Squared Error')
plt.plot(history.history['loss'], label='train')
plt.plot(history.history['val_loss'], label='val')
plt.legend()
plt.show()

Dokonamy teraz transformacji predyktora i zmiennej odpowiedzi i sprawdzimy czy polepszyło to naszą predykcję.

In [None]:
X_train, X_test = y_train.reshape((len(X_train),1)), y_test.reshape((len(X_test),1))
y_train, y_test = y_train.reshape((len(y_train),1)), y_test.reshape((len(y_test),1))

In [None]:
from sklearn.preprocessing import PowerTransformer
pt1 = PowerTransformer()
pt1.fit(X_train)
X_train = pt1.transform(X_train)
X_test = pt1.transform(X_test)
pt2 = PowerTransformer()
pt2.fit(y_train)
y_train = pt2.transform(y_train)
y_test = pt2.transform(y_test)

In [None]:
model = Sequential()
model.add(Dense(10, activation='relu', kernel_initializer='he_normal', input_shape=(1,)))
model.add(Dense(1))
model.compile(optimizer='adam', loss='mse')
history = model.fit(X_train, y_train, epochs=200, batch_size=8, verbose=1, validation_data=(X_test,y_test))

In [None]:
yhat = model.predict(X_test)
y_test = pt2.inverse_transform(y_test)
yhat = pt2.inverse_transform(yhat)
score = mean_absolute_error(y_test, yhat)
print('MAE: %.3f' % score)

In [None]:
plt.title('Learning Curves')
plt.xlabel('Epoch')
plt.ylabel('Mean Squared Error')
plt.plot(history.history['loss'][25:], label='train')
plt.plot(history.history['val_loss'][25:], label='val')
plt.legend()
plt.show()

Zauważmy, że dzięki transformacjom udało nam się znacząco zmniejszyć błąd!

In [None]:
from sklearn.model_selection import KFold
from numpy import mean
from numpy import std

kfold = KFold(10)
scores = list()
for train_ix, test_ix in kfold.split(X, y):
    X_train, X_test, y_train, y_test = X[train_ix], X[test_ix], y[train_ix], y[test_ix]
    
    X_train, X_test = y_train.reshape((len(X_train),1)), y_test.reshape((len(X_test),1))
    y_train, y_test = y_train.reshape((len(y_train),1)), y_test.reshape((len(y_test),1))
    
    pt1 = PowerTransformer()
    pt1.fit(X_train)
    X_train = pt1.transform(X_train)
    X_test = pt1.transform(X_test)
    pt2 = PowerTransformer()
    pt2.fit(y_train)
    y_train = pt2.transform(y_train)
    y_test = pt2.transform(y_test)
    
    model = Sequential()
    model.add(Dense(10, activation='relu', kernel_initializer='he_normal', input_shape=(1,)))
    model.add(Dense(1))
    model.compile(optimizer='adam', loss='mse')
    model.fit(X_train, y_train, epochs=100, batch_size=8, verbose=0)
    
    yhat = model.predict(X_test)
    y_test = pt2.inverse_transform(y_test)
    yhat = pt2.inverse_transform(yhat)
    
    score = mean_absolute_error(y_test, yhat)
    print('>%.3f' % score)
    scores.append(score)
print('Mean MAE: %.3f (%.3f)' % (mean(scores), std(scores)))