In [None]:
# Importar librerías a utilizar
import numpy as np
import matplotlib.pyplot as plt 

import pandas as pd  
import seaborn as sns

In [None]:
# Carga del conjunto de datos de precios de casas de Boston
# de la librería sklearn
from sklearn.datasets import load_boston
boston = load_boston()
print(boston.data.shape)
print(boston.feature_names)

In [None]:
# Convertir el data set en DataFrame
import pandas as pd
df = pd.DataFrame(boston.data, columns=boston.feature_names)
df.head()

In [None]:
# Se agrega una columna al DataFrame con el dato objetivo
df['PRICE'] = boston.target
df.head()

In [None]:
# Verificar si hay datos perdidos
df.isnull().sum()

In [None]:
# Se utiliza displot de la librería seaborn para
# un análisis preliminar
sns.set(rc={'figure.figsize':(11.7,8.27)})
sns.distplot(df['PRICE'], bins=30)
plt.show()

In [None]:
# Analisis de relación de características 
# específicas con la variable dependiente
sns.lmplot("PRICE", "LSTAT", df)

In [None]:
# Probar un modelo de orden 2 entre
# la variable PRICE y LSTAT
sns.lmplot("PRICE", "LSTAT", df, order = 2)

In [None]:
# Se obtiene una matriz de correlación
correlation_matrix = df.corr().round(2)
# Se usa la matriz de correlación para dibujar un mapa de calor
# annot = True para mostrar los valores dentro del cuadro
sns.heatmap(data=correlation_matrix, annot=True)

In [None]:
# Matriz de correlación reducida en características
indices = [0,2,4,5,6,12]
df2 = pd.DataFrame(boston.data[:, indices], columns = boston.feature_names[indices])
df2['PRICE'] = boston.target
corrmat = df2.corr()
# Se usa la matriz de correlación para dibujar un mapa de calor
sns.heatmap(data=corrmat, vmax = .8, annot=True, square = True)

In [None]:
# Se revisa la correlación de las variables LSTAT y RM con PRICE
plt.figure(figsize=(20, 5))

features = ['LSTAT', 'RM']
target = df['PRICE']

for i, col in enumerate(features):
    plt.subplot(1, len(features) , i+1)
    x = df[col]
    y = target
    plt.scatter(x, y, marker='o')
    plt.title(col)
    plt.xlabel(col)
    plt.ylabel('PRICE')

In [None]:
# Elaboración de una matriz de gráficos de dispersión
indices = [5,6,12]
df2 = pd.DataFrame(boston.data[:, indices], columns=boston.feature_names[indices])
df2['PRICE'] = boston.target
pd.plotting.scatter_matrix(df2, figsize=(12.0, 12.0))

In [None]:
# Se preparan los datos para el entrenamiento del modelo
# Se concatenan las variables LSTAT y RM usando np.c_
X = pd.DataFrame(np.c_[df['LSTAT'], df['RM']], columns = ['LSTAT','RM'])
Y = df['PRICE']

In [None]:
# Se dividen los datos en datos de entrenamiento y validación
from sklearn.model_selection import train_test_split

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.2, random_state=5)
print(X_train.shape)
print(X_test.shape)
print(Y_train.shape)
print(Y_test.shape)

In [None]:
# Se entrena y prueba el modelo de aprendizaje
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score

lin_model = LinearRegression()
lin_model.fit(X_train, Y_train)

In [None]:
# Se evalua el modelo de entrenamiento con las medidas RMSE y R2-score
y_train_predict = lin_model.predict(X_train)
rmse = (np.sqrt(mean_squared_error(Y_train, y_train_predict)))
r2 = r2_score(Y_train, y_train_predict)

print('Coeficiente: ', lin_model.coef_)
print('Interceptor: ', lin_model.intercept_)

print("Rendimiento del modelo para el conjunto de entrenamiento")
print("--------------------------------------")
print('RMSE es {}'.format(rmse))
print('R2 score es {}'.format(r2))
print("\n")

# Evaluación del modelo de prueba
y_test_predict = lin_model.predict(X_test)
rmse = (np.sqrt(mean_squared_error(Y_test, y_test_predict)))
r2 = r2_score(Y_test, y_test_predict)

print("Rendimiento del modelo para el conjunto de prueba")
print("--------------------------------------")
print('RMSE es {}'.format(rmse))
print('R2 score es {}'.format(r2))

In [None]:
# Predicción de precios de datos originales y
# comparativa con el precio real
clf = LinearRegression ()
clf.fit(boston.data , boston.target)
predicted = clf.predict(boston.data)
plt.scatter(boston.target , predicted , alpha = 0.3)
plt.plot ([0, 50], [0, 50], '--k')
plt.axis('tight')
plt.xlabel('Precio real ($1000s)')
plt.ylabel('Precio calculado ($1000s)')