## Ejercicio de codificación #0406

### 1. Regresión lineal y diagnóstico:

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_boston
from sklearn import metrics
%matplotlib inline

#### 1.1. Cargue el conjunto de datos 'Boston' de Scikit-Learn:

In [None]:
data = load_boston()

In [None]:
# Muestra las claves del diccionario.
data.keys()

In [None]:
# Muestra la descripción de los datos.
print(data['DESCR'])

In [None]:
# Las variables explicativas.
X = data['data']
header = data['feature_names']

In [None]:
# La variable de respuesta.
Y = data['target']
Y = Y.reshape(-1, 1)

#### 1.2. Convierta los datos en un DataFrame y luego explore:

In [None]:
df = pd.DataFrame(np.append(X,Y,axis = 1))
df.columns = list(header)+['PRICE']

In [None]:
df.head(5)

In [None]:
df.tail(5)

In [None]:
# Estadística descriptiva de las variables (columnas).
df.describe()

In [None]:
# Matriz de correlación por pares.
np.round(df.corr(),2)

In [None]:
# Visualice la matriz de correlaciones.
sns.heatmap(df.corr(),cmap='coolwarm')
plt.show()

In [None]:
# Visualice RM vs PRICE.
plt.scatter(X[:,5],Y[:,0],c = 'g',s=15,alpha=0.5)
plt.xlabel('RM')
plt.ylabel('PRICE')
plt.show()

#### 1.3. Entrenar por regresión lineal:

In [None]:
# Entrenar.
lm = LinearRegression(fit_intercept=True)
lm.fit(X,Y)

In [None]:
# La intersección.
lm.intercept_

In [None]:
# El resto de coeficientes (parámetros).
lm.coef_

In [None]:
# Muestra los parámetros como un DataFrame.
parametersDF = pd.DataFrame(lm.coef_,index=['Parameter Value'],columns=header)
parametersDF['Intercept'] = lm.intercept_[0]
parametersDF

#### 1.4. Diagnóstico:

In [None]:
# Predicción en la muestra.
predY = lm.predict(X)

In [None]:
# Mostrar Y real frente a Y predicho.
plt.scatter(Y,predY,c = 'blue', s=15, alpha=0.5)
plt.xlabel('REAL PRICE')
plt.ylabel('PREDICTED PRICE')
plt.show()

In [None]:
# Calcule la correlación entre la Y real y la Y pronosticada.
pd.Series(Y[:,0]).corr(pd.Series(predY[:,0]))

In [None]:
# Coeficiente de determinación (R ^ 2):
lm.score(X,Y)

#### 1.5. Pruebas dentro y fuera de la muestra:

In [None]:
# Divida el conjunto de datos.
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=123)
print(X_train.shape)
print(X_test.shape)
print(Y_train.shape)
print(Y_test.shape)

In [None]:
# predY_in = predicción en la muestra de Y.
# predY_out = predicción fuera de muestra de Y.
lm = LinearRegression()
lm.fit(X_train,Y_train)
predY_in = lm.predict(X_train)
predY_out = lm.predict(X_test)

In [None]:
print('In-sample MSE is      : ' + str(metrics.mean_squared_error(Y_train, predY_in)))
print('Out-of-sample MSE is  : ' + str(metrics.mean_squared_error(Y_test, predY_out)))
print('-'*50)
print('In-sample RMSE is     : ' + str(np.sqrt(metrics.mean_squared_error(Y_train, predY_in))))
print('Out-of-sample RMSE is : ' + str(np.sqrt(metrics.mean_squared_error(Y_test, predY_out))))

NOTA: Los errores en la muestra son un poco más pequeños pero no mucho.

#### 1.6. Análisis residual:

In [None]:
# Calcular el vaor residual.
residual = Y_train - predY_in

In [None]:
# P: ¿Puede comprobar "visualmente" que la media = 0 y la varianza = constante?
plt.scatter(Y_train,residual,c = 'red', s=15, alpha=0.5)
plt.xlabel('Y')
plt.ylabel('Residual')
plt.title('Residual')
plt.show()

In [None]:
# P: ¿Están los residuos distribuidos normalmente centrados alrededor de 0?
sns.distplot(residual, bins=50, color='green').set_title("Residual Histogram")
plt.show()

#### 1.7. Dado un nuevo conjunto de valores para las variables explicativas, predecir la respuesta:
- CRIM     : 0.03
- ZN       : 0.0
- INDUS    : 13.0
- CHAS     : 0.0
- NOX      : 0.4
- RM       : 4.3
- AGE      : 23.5
- DIS      : 1.9
- RAD      : 1.0
- TAX      : 273.0
- PTRATIO  : 18.0 
- B        : 380.0
- LSTAT    : 7.5

In [None]:
X_new = np.array([0.03, 0.0, 13.0, 0.0, 0.4, 4.3, 23.5, 1.9, 1.0, 273.0, 18.0, 380.0, 7.5]).reshape(1,-1)  # Reformado como una fila.
Y_pred_new = lm.predict(X_new)
print(np.round(Y_pred_new[0,0],3))