In [1]:
import numpy as np
import pandas as pd
import math

from sklearn.model_selection import train_test_split

from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet

from sklearn.metrics import mean_squared_error

from sklearn.preprocessing import PolynomialFeatures, StandardScaler
from sklearn.pipeline import Pipeline

import matplotlib.pyplot as plt
%matplotlib inline

In [49]:
data = pd.read_csv('communities.data', header=None)

to_drop = data.loc[:, data.isin(['?']).any()]
data = data.drop(to_drop, axis=1)

communites = data[3]
data = data.drop(3, axis=1)
X = data.iloc[:, :-1]
y = pd.concat([data.iloc[:, -1], communites], axis=1)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

test_cities = y_test
test_cities = test_cities.rename(columns={127: 'Scores', 3: 'Cities'})

y_test = y_test.drop(3, axis=1)
y_train = y_train.drop(3, axis=1)

In [50]:
model = LinearRegression().fit(X_train,y_train)

print('Training score: {}'.format(model.score(X_train, y_train)))
print('Test score: {}'.format(model.score(X_test, y_test)))

y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
rmse = math.sqrt(mse)

print('RMSE: {}'.format(rmse))

Training score: 0.7020599086036147
Test score: 0.6370068432172549
RMSE: 0.13185533117254244


In [51]:
steps = [
    ('scalar', StandardScaler()),
    ('poly', PolynomialFeatures(degree=1)),
    ('model', Ridge(alpha=100, fit_intercept=True))
]

ridge_pipe = Pipeline(steps)
ridge_pipe.fit(X_train, y_train)

print('Training Score: {}'.format(ridge_pipe.score(X_train, y_train)))
print('Test Score: {}'.format(ridge_pipe.score(X_test, y_test)))

y_pred_reg = ridge_pipe.predict(X_test)

mse_reg = mean_squared_error(y_test, y_pred_reg)
rmse_reg = math.sqrt(mse_reg)

print('RMSE: {}'.format(rmse_reg))

Training Score: 0.6896524635076151
Test Score: 0.6422659747677266
RMSE: 0.13089667041234931


In [52]:
dc = pd.Series(test_cities.Scores.values,index=test_cities.Cities).to_dict()

for index, city in enumerate(dc.keys()):
    print(f'Miasto: {city}')
    print(f'Wartość prawdziwa {dc[city]}')
    print(f'Wartość bez regularyzacji {abs(y_pred[index])}')
    print(f'Wartość z regularyzacja {abs(y_pred_reg[index])} \n')

Miasto: Rosevillecity
Wartość prawdziwa 0.22
Wartość bez regularyzacji [0.23420261]
Wartość z regularyzacja [0.22589523] 

Miasto: NorthHuntingdontownship
Wartość prawdziwa 0.04
Wartość bez regularyzacji [0.00573152]
Wartość z regularyzacja [0.00926159] 

Miasto: Gallowaytownship
Wartość prawdziwa 0.1
Wartość bez regularyzacji [0.21464421]
Wartość z regularyzacja [0.18418652] 

Miasto: Nortontown
Wartość prawdziwa 0.08
Wartość bez regularyzacji [0.08417478]
Wartość z regularyzacja [0.07524786] 

Miasto: LosAltoscity
Wartość prawdziwa 0.04
Wartość bez regularyzacji [0.01242393]
Wartość z regularyzacja [0.00245311] 

Miasto: SouthMilwaukeecity
Wartość prawdziwa 0.05
Wartość bez regularyzacji [0.01628658]
Wartość z regularyzacja [0.03441035] 

Miasto: SanRafaelcity
Wartość prawdziwa 0.23
Wartość bez regularyzacji [0.22008767]
Wartość z regularyzacja [0.27647129] 

Miasto: Lauderhillcity
Wartość prawdziwa 0.48
Wartość bez regularyzacji [0.67044162]
Wartość z regularyzacja [0.62130524] 

Mi