<h1 style="text-align: center;">Desafío - Estimando curvas de densidad de probabilidad</h1>

- Para realizar este desafío debes haber estudiado previamente todo el material disponible correspondiente a la unidad.
- Una vez terminado el desafío, comprime la carpeta que contiene el desarrollo de los requerimientos solicitados y sube el .zip en el LMS.
- Desarrollo desafío: Individual.
Para la realización del desafío necesitarás apoyarte del archivo <a href="https://empieza.desafiolatam.com/cohorts/2091/sections/78283/activities/119112/items/610889">Apoyo Desafío - Regresión desde el aprendizaje de máquinas</a>.

## Habilidades a evaluar
- Identificar la regresión lineal y sus fundamentos.
- Reconocer los supuestos en los que la regresión tiene sustento teórico.
- Utilizar transformaciones simples en las variables independientes.
- Implementar un modelo predictivo con `scikit-learn`.
- Reconocer la terminología asociada a la modelación estadística.

## Descripción

Una consultora internacional radicada en EEUU está buscando analistas, por lo que han diseñado una prueba que permita poder seleccionar a quienes cuenten con las habilidades necesarias para crear modelación estadística. Para ello, ponen a disposición de los interesados una base de datos sobre los precios de las viviendas en Boston, utilizada en el paper Harrison Jr, D., & Rubinfeld, D. L. (1978). Hedonic housing prices and the demand for clean air. Journal of environmental economics and management, 5(1), 81-102.

El objetivo del ejercicio de captación de talento es desarrollar un modelo predictivo para el valor mediano de las casas mediante el entrenamiento de un modelo de regresión lineal.

- `crim`: Tasa de criminalidad por sector de Boston.
- `zn`: Proporción de terreno residencial asignado para terrenos baldíos.
- `indus`: Proporción de negocios no asociados al comercio por sector.
- `chas`: Dummy. 1 si el sector colinda con el río Charles, 0 de lo contrario.
- `nox`: Concentración de dióxido de carbono.
- `rm`: Cantidad promedio de habitaciones por casa.
- `age`: Proporción de casas construidas antes de 1940.
- `dis`: Distancia promedio a cinco centros de empleos.
- `rad`: Índice de accesibilidad a autopistas.
- `tax`: Nivel de impuestos asociados a viviendas.
- `ptratio`: Razón alumno:profesor por sector de Boston.
- `black`: Proporción de afroamericanos por sector de Boston.
- `lstat`: Porcentaje de población de estratos bajos.
- `medv`: Valor mediano de las casas **(Vector objetivo)**.

## Requerimientos
A continuación revisaremos los requerimientos y acciones que la empresa a la cual postulas te pide realizar.


### 1. Preparar el ambiente de trabajo (1 puntos)

- Importe las librerías básicas para el análisis de datos.
- Importe la clase `LinearRegression` del módulo `linear_model`, y las funciones `mean_squared_error`, `r2_score` y `train_test_split`.
- Importe la base de datos `boston.csv` y elimine la columna `Unnamed: 0`.
- Obtenga las medidas descriptivas de la base de datos con `describe()`.

In [2]:
# Utiliza esta celda para realizar los import solicitados y leer el set de datos en la forma solicitada

import pandas as pd
import numpy as np
from sklearn import linear_model as lm
from sklearn.metrics import mean_squared_error, r2_score 
from sklearn.model_selection import train_test_split

df = pd.read_csv('boston.csv', index_col='Unnamed: 0')
df.head()

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,black,lstat,medv
1,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296,15.3,396.9,4.98,24.0
2,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,396.9,9.14,21.6
3,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,392.83,4.03,34.7
4,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,394.63,2.94,33.4
5,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,396.9,5.33,36.2


In [3]:
# Utiliza esta celda para explorar las medidas descriptivas del set de datos

df.describe()

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,black,lstat,medv
count,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0
mean,3.613524,11.363636,11.136779,0.06917,0.554695,6.284634,68.574901,3.795043,9.549407,408.237154,18.455534,356.674032,12.653063,22.532806
std,8.601545,23.322453,6.860353,0.253994,0.115878,0.702617,28.148861,2.10571,8.707259,168.537116,2.164946,91.294864,7.141062,9.197104
min,0.00632,0.0,0.46,0.0,0.385,3.561,2.9,1.1296,1.0,187.0,12.6,0.32,1.73,5.0
25%,0.082045,0.0,5.19,0.0,0.449,5.8855,45.025,2.100175,4.0,279.0,17.4,375.3775,6.95,17.025
50%,0.25651,0.0,9.69,0.0,0.538,6.2085,77.5,3.20745,5.0,330.0,19.05,391.44,11.36,21.2
75%,3.677082,12.5,18.1,0.0,0.624,6.6235,94.075,5.188425,24.0,666.0,20.2,396.225,16.955,25.0
max,88.9762,100.0,27.74,1.0,0.871,8.78,100.0,12.1265,24.0,711.0,22.0,396.9,37.97,50.0


**Comentarios de las medidas descriptivas**

### 2. Dividir la muestra (1 puntos)
- Genere conjuntos de entrenamiento y pruebas con `train_test_split`.
- Reserve un 33% de la muestra para el conjunto de pruebas.
- Incluya una semilla pseudoaleatoria a su elección, esto lo puede hacer con el argumento `random_state` dentro del método `train_test_plit`.

In [4]:
# Utiliza esta celda para generar los 4 subsets entregados por train_test_split

df_y = df['medv']
df_x = df.drop(['medv'], axis = 1)

X_train, X_test, y_train, y_test = train_test_split(df_x, df_y, test_size=0.33, random_state=42)

### 3. Generar modelos (2 puntos)
- Ahora implementaremos dos versiones del modelo lineal:
    - Con intercepto.
    - Sin intercepto.
- Cada versión debe generarse en un nuevo objeto inicializado.
- Posteriormente se deben entrenar los modelos especificando la matriz y vector de entrenamiento.
- Con los modelos entrenados, genere una predicción de la matriz de pruebas con el método `predict()`.

In [5]:
# Utiliza esta celda para instanciar y entrenar los dos modelos solicitados

#Para modelo con intercepto (ci)
reg_ci = lm.LinearRegression()
reg_ci.fit(X_train, y_train)


#Para modelo sin intercepto (si)
reg_si = lm.LinearRegression(fit_intercept = False)
reg_si.fit(X_train, y_train)


LinearRegression(fit_intercept=False)

In [6]:
# Utiliza esta celda para generar predicciones para ambos modelos

y_pred_ci = reg_ci.predict(X_test)
y_pred_si = reg_si.predict(X_test)

#Unimos la data de test y las predicciones de cada modelo
df_test = pd.concat([X_test,y_test], axis = 1)
df_test['predict_ci'] = y_pred_ci
df_test['predict_si'] = y_pred_si

df_test.head()

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,black,lstat,medv,predict_ci,predict_si
174,0.09178,0.0,4.05,0,0.51,6.416,84.1,2.6463,5,296,16.6,395.5,9.04,23.6,28.534695,26.70167
275,0.05644,40.0,6.41,1,0.447,6.758,32.9,4.0776,4,254,17.6,396.9,3.53,32.4,36.618701,35.536325
492,0.10574,0.0,27.74,0,0.609,5.983,98.8,1.8681,4,711,20.1,390.11,18.07,13.6,15.637511,17.482822
73,0.09164,0.0,10.81,0,0.413,6.065,7.8,5.2873,4,305,19.2,390.91,5.52,22.8,25.50145,24.378691
453,5.09017,0.0,18.1,0,0.713,6.297,91.8,2.3682,24,666,20.2,385.09,17.27,16.1,18.709673,20.194079


### 4. Obtención de métricas (1 puntos)
- Ahora generaremos una función llamada `report_scores` que ingrese como argumentos el vector de datos predichos y el vector de datos por validar.
- La función debe imprimir las métricas del Error Cuadrático Promedio y R2.
- Reporte las métricas para ambos modelos. En base a ello, seleccione el mejor modelo.

In [7]:
# Utiliza esta celda para definir la función solicitada

def report_scores(target_testeo, predicciones):
    """
        Objetivo:
            - Reportar las metricas MSE y R2 para un conjunto de datos de testeo y las predicciones de dicho conjunto de datos
        Parámetros:
            - target_testeo (serie): serie con los datos de testeo no probados.
            - predicciones (serie): serie con las predicciones de dichos datos 

        Retorno:
           - print con los scores de las metricas MSE y R2
    """

    print(f"  MSE: {mean_squared_error(target_testeo, predicciones):.2f}")
    print(f"  R^2: {r2_score(target_testeo, predicciones):.2f}")

In [8]:
# Utiliza esta celda para hacer el llamado a la función definida previamente para ambos modelos entrenados

print(f'Scores del modelo con Intercepto:')
report_scores(y_test, y_pred_ci)
print(f'Scores del modelo sin Intercepto:')
report_scores(y_test, y_pred_si)

Scores del modelo con Intercepto:
  MSE: 20.72
  R^2: 0.73
Scores del modelo sin Intercepto:
  MSE: 23.60
  R^2: 0.69


**Elección del mejor modelo y justificación**

**<font color='green'>Al evaluar los dos modelos, claramente se ve que el modelo con intercepto es mejor, ya que presenta un menor error cuadratico medio y un R2 mas alto que el modelo sin intercepto. Por lo tanto, decidimos y escogimos que el mejor modelo es el con incercepto</font>**

### 5. Refactorización del modelo (1 puntos)
- Genere una función llamada `fetch_features` que ingrese como argumentos el set de datos y el nombre del vector objetivo. El nombre del vector debe ser `medv` por defecto.
- La función debe retornar una lista con las correlaciones entre cada atributo y el vector objetivo y su nombre.
- Reporte brevemente cuáles son los 6 atributos con una mayor correlación _absoluta_ con `medv` (de mayor a menor correlación).

In [9]:
# Utiliza esta celda para definir la función solicitada

def fetch_features(df, target = 'medv'):
    """
        Objetivo:
            - Generar un dataframe con las correlaciones de un conjunto de datos con respecto a una variable objetivo o target, la cual mostrara solo las 6 primeras
        Parámetros:
            - df (Dataframe): Dataframe donde se encuentra las variables a calcular las correlaciones
            - target (string): nombre de la variable objetivo (target)

        Retorno:
           - (Dataframe) Dataframe con el nombre de las variables y el valor de la correlacion con respecto al target
    """

    df_corr = df.corr().reset_index().rename(columns={"index": "variables"})  #Guardamos las correlaciones en un dataframes
    df_corr['medv_abs'] = abs(df_corr[target])                                #Obtenemos el valor absoluto del vector objetivo o target
    df_corr = df_corr[df_corr['variables']!='medv']                           #Por conveniencia, sacamos el valor medv como fila para asi obtener solo las puntuaciones de las otras variables   

    return df_corr[['variables','medv_abs']].sort_values(by='medv_abs', ascending = False).head(6)   #Retornamos solo las 6 primeras correlaciones mas altas, para ser ocupado en el proximo enunciado

In [10]:
# Utiliza esta celda para hacer el llamado a la función definida previamente

fetch_features(df, 'medv')

Unnamed: 0,variables,medv_abs
12,lstat,0.737663
5,rm,0.69536
10,ptratio,0.507787
2,indus,0.483725
9,tax,0.468536
4,nox,0.427321


### 6. Refactorización del modelo predictivo (2 puntos)
- Genere otros conjuntos de entrenamiento y validación en base a una matriz con los 6 atributos identificados en el ejercicio anterior, y el vector objetivo.
- Entrene un modelo en base al mejor desempeño.
- Reporte las métricas para el nuevo modelo.

In [11]:
# Utiliza esta celda para generar los nuevos subserts de train y test

columns = fetch_features(df)['variables'].to_list()

df_subset_x = df[columns]

X_train, X_test, y_train, y_test = train_test_split(df_subset_x, df_y, test_size=0.33, random_state=42)

In [12]:
# Utiliza esta celda para entrenar el nuevo modelo

reg_6var = lm.LinearRegression()

reg_6var.fit(X_train, y_train)

y_pred = reg_6var.predict(X_test)

In [13]:
# Utiliza esta celda para reportar las métricas del nuevo modelo

report_scores(y_test, y_pred)

  MSE: 25.00
  R^2: 0.67


**Comentarios**

**<font color='green'>Se puede apreciar que considerando solo las 6 primeras variables con mayor correlacion del target, no se logra tener un mejor rendimiento del modelo comparado con los otros dos implemtnados anteriormente (con y sin intercepto, considerando todas las variables).</font>**

**<font color='green'>Finalmente, se llega a la conclusion que el mejor modelo implementado en este desafio es el que posee todas las variables, considerando el intercepto.</font>**

### 7. Predicción de casos (2 puntos): 

- A continuación se generaron dos `np.array` que representan el peor escenario posible (worst_neighbor) y el mejor escenario posible (best_neighbor).
- Las variables representan, para cada caso, los valores de los siguientes atributos (en el mismo orden entregado): `lstat`, `rm`, `ptratio`, `indus`, `tax`, `nox`.
- Ingrese los `np.array` en el modelo entrenado en el ejercicio anterior, y reporte la predicción entregada por el modelo.

In [14]:
# Utiliza esta celda para realizar una predicción para worst_neighbor

worst_neighbor = np.array([37.9, 12.6, 3.5, 27.7, 187, 0.87]).reshape(1,-1)

y_pred_worst = reg_6var.predict(worst_neighbor)

print(f'peor escenario: {y_pred_worst}')

peor escenario: [49.78447706]


In [15]:
# Utiliza esta celda para realizar una predicción para best_neighbor

best_neighbor = np.array([1.73, 22, 8.7, 0.46, 711, 0.38]).reshape(1,-1)

y_pred_best = reg_6var.predict(best_neighbor)

print(f'mejor escenario: {y_pred_best}')

mejor escenario: [106.28725843]


**Comentarios**

**<font color='green'>Se puede ver que el modelo si logra entender los escenarios, pronosticando un valor adecuado para cada escenario. Para un escenario malo, se esperaria un valor pequeño tratandose de el valor mediano de casas; y para un escenario positivo se deberia esperar que el resultado fuera mas alto tal y como lo pronostica el modelo.</font>**