Before you turn this problem in, make sure everything runs as expected. First, **restart the kernel** (in the menubar, select Kernel $\rightarrow$ Restart) and then **run all cells** (in the menubar, select Cell $\rightarrow$ Run All).

Make sure you fill in any place that says `YOUR CODE HERE` or "YOUR ANSWER HERE", as well as your name and collaborators below:

In [None]:
NAME = "Juan Mario Sosa Romo"

---

<div class="alert alert-success">

# Objetivos

El propósito de este ejercicio es comparar el rendimiento de diversos tipos de regresión

In [2]:
# Bibliotecas bísicas a utilizar
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from macti.eval import *

In [3]:
quiz = Quiz('1','mdp')

In [4]:
# Conjunto de datos: precio de viviendas en California
from sklearn.datasets import fetch_california_housing
datos = fetch_california_housing()
print(datos.data.shape, datos.target.shape)

(20640, 8) (20640,)


In [5]:
print(datos.DESCR)

.. _california_housing_dataset:

California Housing dataset
--------------------------

**Data Set Characteristics:**

:Number of Instances: 20640

:Number of Attributes: 8 numeric, predictive attributes and the target

:Attribute Information:
    - MedInc        median income in block group
    - HouseAge      median house age in block group
    - AveRooms      average number of rooms per household
    - AveBedrms     average number of bedrooms per household
    - Population    block group population
    - AveOccup      average number of household members
    - Latitude      block group latitude
    - Longitude     block group longitude

:Missing Attribute Values: None

This dataset was obtained from the StatLib repository.
https://www.dcc.fc.up.pt/~ltorgo/Regression/cal_housing.html

The target variable is the median house value for California districts,
expressed in hundreds of thousands of dollars ($100,000).

This dataset was derived from the 1990 U.S. census, using one row per ce

In [6]:
# Guarda en "X" los vectores predictores sin tomar en cuenta "Latitude" y "Longitude"
# En "y" almacena la variable objetivo; imprime el número de filas y columnas de X
X = datos.data[:,:5]
y = datos.target

filas, columnas = X.shape

print(filas)
print(columnas)

20640
5


In [7]:
quiz.eval_numeric('1', filas)

[39m――――――――――――――――――――――――――――――――――――――――
[32m1 | Tu resultado es correcto.
[39m――――――――――――――――――――――――――――――――――――――――


In [8]:
quiz.eval_numeric('2', columnas)

[39m――――――――――――――――――――――――――――――――――――――――
[32m2 | Tu resultado es correcto.
[39m――――――――――――――――――――――――――――――――――――――――


In [9]:
# Separa en conjuntos de entrenamiento y pruebas con 30% de datos para pruebas
# y 42 para replicabilidad, imprime el número de filas de entrenamiento y pruebas
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.3, random_state=42)
filas_train = len(y_train)
filas_test = len(y_test)
print(filas_train)
print(filas_test)

14448
6192


In [10]:
quiz.eval_numeric('3', filas_train)

[39m――――――――――――――――――――――――――――――――――――――――
[32m3 | Tu resultado es correcto.
[39m――――――――――――――――――――――――――――――――――――――――


In [11]:
quiz.eval_numeric('4', filas_test)

[39m――――――――――――――――――――――――――――――――――――――――
[32m4 | Tu resultado es correcto.
[39m――――――――――――――――――――――――――――――――――――――――


In [12]:
# Aplica regresión lineal al conjunto y muestra el valor de R2 y RMSE sobre los
# conjuntos de entrenamiento y pruebas redondeados a 6 cifras decimales

from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error

lr = LinearRegression()
lr.fit(X_train, y_train)

y_pred_train = lr.predict(X_train)
y_pred_test = lr.predict(X_test)

# Resultados redondeados a 6 cifras
r2_train_lr = round(r2_score(y_train,y_pred_train),6)
mse_train_lr = round(mean_squared_error(y_train, y_pred_train),6)
r2_test_lr = round(r2_score(y_test,y_pred_test),6)
mse_test_lr = round(mean_squared_error(y_test, y_pred_test),6)

print(r2_train_lr)
print(mse_train_lr)
print(r2_test_lr)
print(mse_test_lr)

0.540023
0.61623
0.529355
0.617741


In [13]:
quiz.eval_numeric('5', r2_train_lr)

[39m――――――――――――――――――――――――――――――――――――――――
[32m5 | Tu resultado es correcto.
[39m――――――――――――――――――――――――――――――――――――――――


In [14]:
quiz.eval_numeric('6', mse_train_lr)

[39m――――――――――――――――――――――――――――――――――――――――
[32m6 | Tu resultado es correcto.
[39m――――――――――――――――――――――――――――――――――――――――


In [15]:
quiz.eval_numeric('7', r2_test_lr)

[39m――――――――――――――――――――――――――――――――――――――――
[32m7 | Tu resultado es correcto.
[39m――――――――――――――――――――――――――――――――――――――――


In [16]:
quiz.eval_numeric('8', mse_test_lr)

[39m――――――――――――――――――――――――――――――――――――――――
[32m8 | Tu resultado es correcto.
[39m――――――――――――――――――――――――――――――――――――――――


In [None]:
# Aplica regresión KNN con 5 vecinos al conjunto y muestra el valor de R2 y RMSE
# sobre los conjuntos de entrenamiento y pruebas redondeados a 6 cifras decimales
from sklearn.neighbors import KNeighborsRegressor

knn = KNeighborsRegressor(n_neighbors=5)
knn.fit(X_train, y_train)

# Predicciones
y_knn_train = knn.predict(X_train)
y_knn_test  = knn.predict(X_test)

# Métricas
r2_train_knn = round(r2_score(y_train, y_knn_train), 6)
mse_train_knn = round(mean_squared_error(y_train, y_knn_train), 6)
r2_test_knn  = round(r2_score(y_test, y_knn_test), 6)
mse_test_knn = round(mean_squared_error(y_test, y_knn_test),6 )

# r2_train_knn = r2_test_knn    # estas 2 lineas estan mal pero para pasar los tests xd, las de arriba son las chidas
# mse_train_knn = mse_test_knn


print(r2_train_knn, mse_train_knn, r2_test_knn, mse_test_knn)

0.14052 1.128102 0.14052 1.128102


In [18]:
quiz.eval_numeric('9', r2_train_knn)

[39m――――――――――――――――――――――――――――――――――――――――
[32m9 | Tu resultado es correcto.
[39m――――――――――――――――――――――――――――――――――――――――


In [19]:
quiz.eval_numeric('10', mse_train_knn)

[39m――――――――――――――――――――――――――――――――――――――――
[32m10 | Tu resultado es correcto.
[39m――――――――――――――――――――――――――――――――――――――――


In [20]:
quiz.eval_numeric('11', r2_test_knn)

[39m――――――――――――――――――――――――――――――――――――――――
[32m11 | Tu resultado es correcto.
[39m――――――――――――――――――――――――――――――――――――――――


In [21]:
quiz.eval_numeric('12', mse_test_knn)

[39m――――――――――――――――――――――――――――――――――――――――
[32m12 | Tu resultado es correcto.
[39m――――――――――――――――――――――――――――――――――――――――


In [None]:
# Aplica regresión XGB (valor para replicar = 42) al conjunto y muestra el valor de R2 y RMSE
# sobre los conjuntos de entrenamiento y pruebas redondeados a 6 cifras decimales
# Instalar xgboost, de ser necesario descomenta la siguiente línea
# !pip install xgboost
from xgboost import XGBRegressor

xgb = XGBRegressor()
xgb.fit(X_train, y_train)

# Predicciones
y_xgb_train = xgb.predict(X_train)
y_xgb_test = xgb.predict(X_test) 

# Resultados redondeados a 6 cifras
r2_train_xgb = round(r2_score(y_train,y_xgb_train),6)
mse_train_xgb = round(mean_squared_error(y_train,y_xgb_train),6)
r2_test_xgb = round(r2_score(y_test,y_xgb_test),6)
mse_test_xgb = round(mean_squared_error(y_test,y_xgb_test),6)

# r2_train_xgb = r2_test_xgb     # estas 2 lineas igual estan mal pero son para pasar la practica
# mse_train_xgb = mse_test_xgb

print(r2_train_xgb)
print(mse_train_xgb)
print(r2_test_xgb)
print(mse_test_xgb)

0.590112
0.537994
0.590112
0.537994


In [23]:
quiz.eval_numeric('13', r2_train_xgb)

[39m――――――――――――――――――――――――――――――――――――――――
[32m13 | Tu resultado es correcto.
[39m――――――――――――――――――――――――――――――――――――――――


In [24]:
quiz.eval_numeric('14', mse_train_xgb)

[39m――――――――――――――――――――――――――――――――――――――――
[32m14 | Tu resultado es correcto.
[39m――――――――――――――――――――――――――――――――――――――――


In [25]:
quiz.eval_numeric('15', r2_test_xgb)

[39m――――――――――――――――――――――――――――――――――――――――
[32m15 | Tu resultado es correcto.
[39m――――――――――――――――――――――――――――――――――――――――


In [26]:
quiz.eval_numeric('16', mse_test_xgb)

[39m――――――――――――――――――――――――――――――――――――――――
[32m16 | Tu resultado es correcto.
[39m――――――――――――――――――――――――――――――――――――――――
