# Template de proyectos Regresión

In [1]:
import proj_code.dataset as d              # Funciones y rutinas para descargar, procesar los datos, y cargarlos
import proj_code.model as m                # Clase con el modelo a implementar
import proj_code.metric as me              # Metrics utilizadas para el análisis
from sklearn.model_selection import train_test_split   # Para separar datos en entrenamiento y evaluación

# 1. Cargar datos

Sección en que se utilizaran las funciones del módulo dataset.py para facilitar la gestión y manejo de nuestros datos.

In [2]:
help(d.load_auto_mpg_web)

Help on function load_auto_mpg_web in module proj_code.dataset:

load_auto_mpg_web(URL='https://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg/auto-mpg.data')
    Descarga desde el repositorio UCI el dataset auto-mpg y retorna un diccionario con el 'dataset', una tupla que
    contiene X (input) e y (output).



In [3]:
data = d.load_auto_mpg_web()
X, y = data['dataset']

Datos cargados con éxito


Inspeccionamos las dimensioens del _dataset_ [Auto-MPG](https://archive-beta.ics.uci.edu/ml/datasets/auto+mpg):

In [4]:
X.shape, y.shape

((392, 7), (392, 1))

Vemos las primeras 2 observaciones para verificar el formato:

In [5]:
X.head(n=2)

Unnamed: 0,cylinders,displacement,horsepower,weight,acceleration,model_year,origin
0,8,307.0,130.0,3504.0,12.0,70,1
1,8,350.0,165.0,3693.0,11.5,70,1


In [6]:
y.head(n=2)

Unnamed: 0,mpg
0,18.0
1,15.0


Ahora vamos a dejar un 20% del dataset destinado a evaluar que tan bien ajusta nuestro modelo.

Fraccionaremos el conjunto de datos de manera aleatoria, para garantizar la reproducibilidad de los resultados utilizaremos el argumento `random_state` dandole una semilla que permite replicar los resultados.


In [7]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [8]:
X_train.shape, X_test.shape

((313, 7), (79, 7))

In [9]:
y_train.shape, y_test.shape

((313, 1), (79, 1))

# 2. Modelo

Sección en que se utilizaremos los modelos especificados en el módulo `model.py`.

Entrenaremos dos modelos:

* Regresión Lineal Multiple
* KNN (Vecino más cercano)

Los que requieren los datos de entrenamiento que consisten en pares de inputs (X_train) y output (y_train). Diferentes formas, pero que finalmente usaran los datos para "aprender" y ajustar sus parámetros.


In [17]:
modelo_reg_lineal = m.reg_lineal(X_train, y_train.values.ravel())
modelo_reg_knn = m.reg_KNN(X_train, y_train.values.ravel())


Nuestros modelos ya fueron ajustados y podemos utilizarlos para obtener las predicciones sobre el conjunto que separamos para medir el desempeño. La idea de probar el modelo en datos que no utilizó es medir la generalización en datos nunca antes vistos.


In [18]:
reg_lineal_preds = modelo_reg_lineal.predict(X_test)
reg_knn_preds = modelo_reg_knn.predict(X_test)

# 3. Métricas


Sección en que se utilizaran las métricas especificadas en el módulo `metric.py`.

Ver documentación para más métricas: https://scikit-learn.org/stable/modules/model_evaluation.html

In [19]:
print(f'Desempeño regresión lineal según MSE: {me.metrica_mse(y_test, reg_lineal_preds)}')
print(f'Desempeño KNN regresión según MSE: {me.metrica_mse(y_test, reg_knn_preds)}')

Desempeño regresión lineal según MSE: 10.710864418838366
Desempeño KNN regresión según MSE: 17.752617721518984


In [20]:
print(f'Desempeño regresión lineal según MAE: {me.metrica_mae(y_test, reg_lineal_preds)}')
print(f'Desempeño KNN regresión según MAE: {me.metrica_mae(y_test, reg_knn_preds)}')

Desempeño regresión lineal según MAE: 2.4197802491974496
Desempeño KNN regresión según MAE: 2.9473417721518986
