### Desafío - Regresión desde el aprendizaje de máquinas
#### Descripción
Una consultora internacional radicada en EEUU está buscando analistas, por lo que han diseñado una prueba que permita poder seleccionar a quienes cuenten con las habilidades necesarias para crear modelación estadística. Para ello, ponen a disposición de los interesados una base de datos sobre los precios de las viviendas en Boston, utilizada en el paper Harrison Jr, D., & Rubinfeld, D. L. (1978). Hedonic housing prices and the demand for clean air. Journal of environmental economics and management, 5(1), 81-102. El objetivo del ejercicio de captación de talento es desarrollar un modelo predictivo para el valor mediano de las casas mediante el entrenamiento de un modelo de regresión lineal. 
- <code>crim</code>  Tasa de criminalidad por sector de Boston.
- <code>zn</code> proporción de terreno residencial asignado para terrenos baldíos.
- <code>indus</code> proporción de negocios no asociados al comercio por sector.
- <code>chas</code> Dummy. 1 si el sector colinda con el río Charles, 0 de lo contrario.
- <code>nox</code> Concentración de dióxido de carbono.
- <code>rm</code> cantidad promedio de habitaciones por casa.
- <code>age</code> proporción de casas construidas antes de 1940.
- <code>dis</code> distancia promedio a cinco centros de empleos.
- <code>rad</code> índice de accesibilidad a autopistas.
- <code>tax</code> nivel de impuestos asociados a viviendas.
- <code>ptratio</code> razón alumno:profesor por sector de Boston.
- <code>black</code> proporción de afroamericanos por sector de Boston.
- <code>lstat</code> porcentaje de población de estratos bajos.
- <code>medv</code> valor mediano de las casas

#### 1. Preparar el ambiente de trabajo (1 puntos)
- Importe las librerías básicas para el análisis de datos.
- Importe el módulo <code>linear_model </code>, y las funciones <code>mean_squared_error, r2_score y train_test_split </code>.
- Importe la base de datos boston.csv y elimine la columna <code>Unnamed: 0</code>.
- Obtenga las medidas descriptivas de la base de datos con <code>.describe()</code> 

In [3]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn import linear_model
from sklearn.metrics import mean_squared_error, r2_score

In [4]:
df = pd.read_csv("boston.csv",index_col=0)

In [5]:
df.describe()

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,black,lstat,medv
count,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0
mean,3.613524,11.363636,11.136779,0.06917,0.554695,6.284634,68.574901,3.795043,9.549407,408.237154,18.455534,356.674032,12.653063,22.532806
std,8.601545,23.322453,6.860353,0.253994,0.115878,0.702617,28.148861,2.10571,8.707259,168.537116,2.164946,91.294864,7.141062,9.197104
min,0.00632,0.0,0.46,0.0,0.385,3.561,2.9,1.1296,1.0,187.0,12.6,0.32,1.73,5.0
25%,0.082045,0.0,5.19,0.0,0.449,5.8855,45.025,2.100175,4.0,279.0,17.4,375.3775,6.95,17.025
50%,0.25651,0.0,9.69,0.0,0.538,6.2085,77.5,3.20745,5.0,330.0,19.05,391.44,11.36,21.2
75%,3.677083,12.5,18.1,0.0,0.624,6.6235,94.075,5.188425,24.0,666.0,20.2,396.225,16.955,25.0
max,88.9762,100.0,27.74,1.0,0.871,8.78,100.0,12.1265,24.0,711.0,22.0,396.9,37.97,50.0


#### 2. Dividir la muestra (1 puntos)
- Genere conjuntos de entrenamiento y pruebas con <code>train_test_split</code> .
- Reserve un 33% de la muestra para el conjunto de pruebas.
- Incluya una semilla pseudoaleatoria a su elección, esto lo puede hacer con el argumento random_state dentro del método <code>train_test_plit</code>.

In [6]:
y_vec= df.loc[:, 'crim']
X_mat = df.loc[:, ["indus","chas","nox","rm","age","dis","rad","tax","ptratio","black","lstat","medv"]]

In [7]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_mat, y_vec, test_size=.30, random_state=123123)
X_train, X_test, y_train, y_test = train_test_split(X_mat, y_vec, test_size=.30)

#### 3. Generar modelos (2 puntos)
- Ahora implementaremos dos versiones del modelo lineal:
    - Con intercepto.
    - Sin intercepto.
- Cada versión debe generarse en un nuevo objeto inicializado.
- Posteriormente se deben entrenar los modelos especificando la matriz y vector de entrenamiento.
- Con los modelos entrenados, genere una predicción de la matriz de pruebas con el método <code>.predict().<code>

In [8]:
modelo_intercepto = linear_model.LinearRegression(fit_intercept=True)
modelo_no_intercepto = linear_model.LinearRegression(fit_intercept=False)
modelo_intercepto.fit(X_train, y_train)
modelo_no_intercepto.fit(X_train, y_train)

In [9]:
earn_yhat = modelo_intercepto.predict(X_test)
print("La cantidad de predicciones realizadas son: ", len(earn_yhat))
print("las predicciones son ", earn_yhat)

La cantidad de predicciones realizadas son:  152
las predicciones son  [-1.04232444e+00 -1.11384482e+00 -4.32310207e-01 -1.97917841e+00
 -1.25767726e+00  1.40873369e+00  1.39532436e+01  6.35481772e-02
  7.60923999e-01 -1.01029874e+00  1.10191445e+01 -2.19608487e+00
  1.22291808e+00  1.54876481e+01  1.28209299e+00 -7.60216048e-01
  1.36840445e+01 -1.38460589e-01 -4.22502139e-01  8.00863022e-01
  1.29843513e+01  9.94594943e+00  1.47957854e+00  5.82978507e-01
 -1.19207217e+00  1.20617497e+01 -2.24331489e-02  1.02442495e+00
  4.05023708e-01 -6.86309157e-01  8.70365378e-02 -2.29952068e+00
  1.43545514e+01  1.05209735e+00  1.51768760e+00  2.13261301e+00
  9.86264220e+00  2.46842816e+00 -1.42729595e+00 -1.00338247e+00
 -2.26952399e-01 -3.80063918e+00  1.04011167e+01 -8.43157143e-01
  4.59864780e-01  3.16580686e+00  1.29092964e+01 -2.84461067e+00
  6.27450727e-01  8.08867261e-01 -8.10232502e-02  1.54716630e+00
  3.09600653e+00 -2.72429713e+00 -2.62801823e-01 -9.60156531e-01
 -4.98054725e-01 -1

In [10]:
earn_yhat_False = modelo_no_intercepto.predict(X_test)
print("La cantidad de predicciones realizadas son: ", len(earn_yhat))
print("las predicciones son ", earn_yhat)

La cantidad de predicciones realizadas son:  152
las predicciones son  [-1.04232444e+00 -1.11384482e+00 -4.32310207e-01 -1.97917841e+00
 -1.25767726e+00  1.40873369e+00  1.39532436e+01  6.35481772e-02
  7.60923999e-01 -1.01029874e+00  1.10191445e+01 -2.19608487e+00
  1.22291808e+00  1.54876481e+01  1.28209299e+00 -7.60216048e-01
  1.36840445e+01 -1.38460589e-01 -4.22502139e-01  8.00863022e-01
  1.29843513e+01  9.94594943e+00  1.47957854e+00  5.82978507e-01
 -1.19207217e+00  1.20617497e+01 -2.24331489e-02  1.02442495e+00
  4.05023708e-01 -6.86309157e-01  8.70365378e-02 -2.29952068e+00
  1.43545514e+01  1.05209735e+00  1.51768760e+00  2.13261301e+00
  9.86264220e+00  2.46842816e+00 -1.42729595e+00 -1.00338247e+00
 -2.26952399e-01 -3.80063918e+00  1.04011167e+01 -8.43157143e-01
  4.59864780e-01  3.16580686e+00  1.29092964e+01 -2.84461067e+00
  6.27450727e-01  8.08867261e-01 -8.10232502e-02  1.54716630e+00
  3.09600653e+00 -2.72429713e+00 -2.62801823e-01 -9.60156531e-01
 -4.98054725e-01 -1

#### 4. Obtención de métricas (1 puntos)
- Ahora generaremos una función llamada <code>report_scores</code> que ingrese como argumentos el vector de datos predichos y el vector de datos por validar.
- La función debe imprimir las métricas del Error Cuadrático Promedio y R2.
- Reporte las métricas para ambos modelos. En base a ello, seleccione el mejor modelo.

In [11]:
def report_scores(predicciones, validar):
    m1_mse = mean_squared_error(validar, predicciones).round(1)
    m1_r2 = r2_score(validar, predicciones).round(2)
    print("Mean Squared Error: ", m1_mse)
    print("R-cuadrado: ", m1_r2)
report_scores(earn_yhat, y_test)
report_scores(earn_yhat_False, y_test)

Mean Squared Error:  87.0
R-cuadrado:  0.32
Mean Squared Error:  87.7
R-cuadrado:  0.32


In [25]:
#for i in df.columns:
#    print(i)

#### 5. Refactorización del modelo (1 puntos)
- Genere una función llamada <code>fetch_features </code>que ingrese como argumentos la base de datos y el nombre del vector objetivo. El nombre del vector debe ser <code>medv</code> por defecto.
- La función debe retornar una lista con las correlaciones entre cada atributo y el vector objetivo y su nombre.
- Reporte brevemente cuales son los 6 atributos con una mayor correlación absoluta con <code>medv</code> (de mayor a menor correlación

In [13]:
def fetch_features(df, nombre_vector_objetivo="medv"):
    abs_pearson_r = []
    attr_name = []
    for col in df.columns:
        if col != nombre_vector_objetivo:
            attr_name.append(col)
            abs_pearson_r.append(abs(df[col].corr(df[nombre_vector_objetivo])))
    features = pd.DataFrame({'attribute': attr_name,'abs_corr':abs_pearson_r})
    features = features.set_index('attribute')
    print(features.sort_values(by=['abs_corr'], ascending=False))
fetch_features(df)

           abs_corr
attribute          
lstat      0.737663
rm         0.695360
ptratio    0.507787
indus      0.483725
tax        0.468536
nox        0.427321
crim       0.388305
rad        0.381626
age        0.376955
zn         0.360445
black      0.333461
dis        0.249929
chas       0.175260


In [14]:
atributos = ["lstat", "rm", "ptratio", "indus", "tax", "nox"]
y_vec= df.loc[:, 'medv']
X_mat = df.loc[:, atributos]
X_train, X_test, y_train, y_test = train_test_split(X_mat, y_vec, test_size=.33, random_state=123123)

In [15]:
modelo_no_intercepto = linear_model.LinearRegression(fit_intercept=True)
modelo_intercepto.fit(X_train, y_train)

In [16]:
earn_yhat = modelo_intercepto.predict(X_test)
report_scores(earn_yhat, y_test)

Mean Squared Error:  29.1
R-cuadrado:  0.69


In [17]:
worst_neighbor = np.array([37.9, 12.6, 3.5, 27.7, 187, 0.87]).reshape(1,-1)
best_neighbor = np.array([1.73, 22, 8.7, 0.46, 711, 0.38]).reshape(1,-1)

In [18]:
worst_neighbor_df = pd.DataFrame(worst_neighbor, columns=atributos)
best_neighbor_df =pd.DataFrame(best_neighbor, columns=atributos)

In [19]:
worst_neighbor_df

Unnamed: 0,lstat,rm,ptratio,indus,tax,nox
0,37.9,12.6,3.5,27.7,187.0,0.87


In [20]:
best_neighbor_df

Unnamed: 0,lstat,rm,ptratio,indus,tax,nox
0,1.73,22.0,8.7,0.46,711.0,0.38


In [21]:
modelo_worst_neighbor = modelo_intercepto.predict(worst_neighbor)



In [22]:
modelo_worst_neighbor

array([51.3753738])

In [23]:
modelo_best_neighbor = modelo_intercepto.predict(best_neighbor)



In [24]:
modelo_best_neighbor

array([109.99080032])