# Regressione lineare

In [None]:
# Import moduli per la manipolazione dei dataframe
import pandas as pd
import numpy as np

In [None]:
# Import modulo di regressione da sklearn-learn
#import sklearn
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

In [None]:
# Import modulo grafica
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
# Caricamento dei dati in un dataframe 
# df.to_csv('webinar_real_estate1.csv', index = False, sep = ';')
'''
Dataset concerns housing values in suburbs of Boston.

from https://archive.ics.uci.edu/ml/machine-learning-databases/housing/

     Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pupil-teacher ratio by town
        - B        1000(Bk - 0.63)^2 where Bk is the proportion of blacks by town
        - LSTAT    % lower status of the population
     Target:     
        - Price    Median value of owner-occupied homes in $1000's

'''        
df = pd.read_csv('webinar_real_estate_boston.csv', delimiter=';')

# Verifica dimensioni del frame e nomi delle colonne
print(df.shape, df.columns)

In [None]:
print(df)

In [None]:
# Conteggio delle case per prezzo
plt.hist(df['price'], bins='auto')
plt.xlabel('Prezzo delle case') #label
plt.ylabel('Numero di case')    #label
plt.show()

# Regressione lineare 1 variabile

In [None]:
# ====================
# Regressione LINEARE
# ====================
df1_data_x = df.iloc[:, 5:6] #pandas.core.frame.DataFrame
df1_prices_y = df['price']   #pandas.core.series.Series
print(df1_data_x)

In [None]:
print(df1_prices_y)

In [None]:
# Creazione di oggetti di training e di oggetti di test partendo dalle due parti del dataframe.
# df_data è un Dataframe e produce due Dataframe x_train, x_test (70%).
# df_prices è una Series e produce due Series y_train, y_test (30%).
x_train, x_test, y_train, y_test = train_test_split(df1_data_x, df1_prices_y, test_size = 0.3)
print('x_train:',x_train.shape, '   x_test:', x_test.shape, '   y_train:', y_train.shape, '   y_test:', y_test.shape)

In [None]:
plt.plot(x_train, y_train, 'go')
plt.plot(x_test, y_test, 'bo')
plt.xlabel('Rooms') #label
plt.ylabel('Price')    #label
plt.show()

In [None]:
# Creazione di un oggetto _base.LinearRegression per la definizione del modello, tramite i due oggetti di training x_train e y_train.
lr = LinearRegression()
lr.fit(x_train, y_train)

In [None]:
# Definizione della funzione y = a + bx
print ('y = a + bx :    ', '\ny = %f  +  %f * x' % (lr.intercept_, lr.coef_[0]) )

In [None]:
# In verde le occorrenze di training (70%), in blu quelle di test (30%)
x = np.matrix(df1_data_x)
plt.plot(x_train, y_train, 'go')
plt.plot(x_test, y_test, 'bo')
plt.plot([float(min(x)),float(max(x))],[lr.predict(min(x)),lr.predict(max(x))])
#plt.axis([0, 10, -40, 60])
#plt.axis('auto')
plt.xlabel('Rooms')    #label
plt.ylabel('Price') #label

In [None]:
# Dato il numero di stanze di un appartamento, quale è i prezzo giusto?
mat = np.matrix(6)
print('Pred. price: %f'  % lr.predict(mat)[0])

In [None]:
# Applicazione dei dati di test al modello, creando una lista (numpy.ndarray) di prezzi fedeli al modello, che possono discostare dai corrispondenti prezzi di test in y_test.
pred = lr.predict(x_test)

In [None]:
# Grafico di dispersione
plt.scatter(y_test, pred)

In [None]:
# Metriche per stima modello di regressione
from sklearn import metrics
print('MAE:', metrics.mean_absolute_error(y_test, pred))
print('MSE:', metrics.mean_squared_error(y_test, pred))

In [None]:
# Indice di correlazione lineare. Può variare tra 1 e 0; 1 si adatta perfettamente, 0 non si adatta.
r2 = metrics.r2_score(y_test, pred)
print ('Metrics:', r2)

# Regressione lineare multipla

In [None]:
# ====================
# Regressione MULTIPLA
# ====================
# Separazione del dataframe: dati casa e prezzi (target)
dfM_data_x = df.iloc[:, :13] #pandas.core.frame.DataFrame
dfM_prices_y = df['price']   #pandas.core.series.Series
print(dfM_prices_y)

In [None]:
print(dfM_data_x)

In [None]:
# Creazione di oggetti di training e di oggetti di test partendo dalle due parti del dataframe.
# df_data è un Dataframe e produce due Dataframe x_train, x_test.
# df_prices è una Series e produce due Series y_train, y_test.
x_train, x_test, y_train, y_test = train_test_split(dfM_data_x, dfM_prices_y, test_size = 0.3)
print('x_train:',x_train.shape, '   x_test:', x_test.shape, '   y_train:', y_train.shape, '   y_test:', y_test.shape)

In [None]:
# Creazione di un oggetto _base.LinearRegression per la definizione del modello, tramite i due oggetti di training x_train e y_train.
lr = LinearRegression()
lr.fit(x_train, y_train)

In [None]:
coefficienti = pd.DataFrame(lr.coef_, dfM_data_x.columns, columns=['coefficienti'])
print(coefficienti)

In [None]:
# Applicazione dei dati di test al modello, creando una lista (numpy.ndarray) di prezzi fedeli al modello, che possono discostare dai corrispondenti prezzi di test in y_test.
pred = lr.predict(x_test)

In [None]:
# Visualizzazione dei prezzi dei primi 10 casi di test
print(pred[0:10])

In [None]:
# Metriche per stima modello di regressione
from sklearn import metrics
print('MAE:', metrics.mean_absolute_error(y_test, pred))
print('MSE:', metrics.mean_squared_error(y_test, pred))

In [None]:
# Indice di correlazione lineare. Può variare tra 1 e 0; 1 si adatta perfettamente, 0 non si adatta.
r2 = metrics.r2_score(y_test, pred)
print ('Metrics:', r2)