# Métodos predictivos: tarea de asignación (semana 2)
Ya conoces una gran variedad de métodos de regresión múltiple y cómo pueden ajustarse utilizando las librerías *statsmodels* y *scikit-learn*. El objetivo de esta tarea es analizar un conjunto de datos y comparar varios métodos de regresión múltiple para estudiar cómo de bien se ajustan a los datos.

## Descripción de la tarea
La tarea consta de tres apartados:
1. Selección y análisis de un conjunto de datos.
2. Ejecución de dos métodos de regresión múltiple.
3. Evaluación de los modelos de regresión obtenidos, analizando cuál de ellos consigue un mejor ajuste a los datos.

## Instrucciones
En este *notebook* no se presenta parte del código desarrollado, pero sí se indican los pasos mínimos que debe seguir el estudiante para completar la tarea. El estudiante puede añadir otras celdas de código según sea necesario, pero respetando la organización de apartados propuesta. El estudiante puede elegir entre trabajar con *statsmodels* o con *scikit-learn*.


## 1. Selección y análisis de un conjunto de datos
Paso 1.1: Importa los paquetes necesarios.

In [1]:
#COMPLETAR
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
from sklearn.linear_model import Ridge, LogisticRegression
import pandas as pd

Paso 1.2: Carga un conjunto de datos de entre los disponibles en la librería seleccionada. Puedes encontrarlos en:


*   statsmodels: https://www.statsmodels.org/stable/datasets/index.html
*   scikit-learn: https://scikit-learn.org/stable/datasets.html



In [2]:
#COMPLETAR
dataset = load_wine()

Paso 1.3: Muestra información acerca de la distribución de las características en el conjunto de datos elegido.

In [3]:
#COMPLETAR
data = pd.DataFrame(dataset["data"], columns=dataset["feature_names"])
target = pd.DataFrame(dataset["target"], columns= ["class"])

data["class"] = target["class"]

data.describe()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,class
count,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0
mean,13.000618,2.336348,2.366517,19.494944,99.741573,2.295112,2.02927,0.361854,1.590899,5.05809,0.957449,2.611685,746.893258,0.938202
std,0.811827,1.117146,0.274344,3.339564,14.282484,0.625851,0.998859,0.124453,0.572359,2.318286,0.228572,0.70999,314.907474,0.775035
min,11.03,0.74,1.36,10.6,70.0,0.98,0.34,0.13,0.41,1.28,0.48,1.27,278.0,0.0
25%,12.3625,1.6025,2.21,17.2,88.0,1.7425,1.205,0.27,1.25,3.22,0.7825,1.9375,500.5,0.0
50%,13.05,1.865,2.36,19.5,98.0,2.355,2.135,0.34,1.555,4.69,0.965,2.78,673.5,1.0
75%,13.6775,3.0825,2.5575,21.5,107.0,2.8,2.875,0.4375,1.95,6.2,1.12,3.17,985.0,2.0
max,14.83,5.8,3.23,30.0,162.0,3.88,5.08,0.66,3.58,13.0,1.71,4.0,1680.0,2.0


Paso 1.4: Si es necesario, realiza un preprocesado de las variables (eliminar valores perdidos, escalar valores, etc).

In [4]:
#COMPLETAR
print(target["class"].value_counts())

# Equilibramos las clases igualando a la clase minoritaria
class_2 = data[data["class"] == 2]
class_0 = data[data["class"] == 0][0:len(class_2)]
class_1 = data[data["class"] == 1][0:len(class_2)]

data_balanced = pd.DataFrame(columns=["class"])
data_balanced = data_balanced.append(class_2).append(class_1).append(class_0)

print(data_balanced["class"].value_counts())

class_type = pd.CategoricalDtype([0, 1, 2], ordered=False)

y = data_balanced["class"].astype(class_type)

x = data_balanced.drop(["class"], axis=1)


1    71
0    59
2    48
Name: class, dtype: int64
2    48
1    48
0    48
Name: class, dtype: int64


*Añade aquí una breve explicación de las decisiones tomadas en el apartado 1.*

## 2. Ejecución de métodos de regresión múltiple
Paso 2.1: Particiona el conjunto de datos en entrenamiento y test.

In [5]:
#COMPLETAR
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.33)


Paso 2.2: Configura y realiza el ajuste del primer método de regresión elegido. Utiliza solo la partición de entrenamiento.

In [6]:
#COMPLETAR
alg = LogisticRegression() 

modelo_logistic = alg.fit(x_train, y_train)

Paso 2.3: Configura y realiza el ajuste del segundo método de regresión elegido. Utiliza solo la partición de entrenamiento.

In [7]:
#COMPLETAR
alg = Ridge()

modelo_ridge = alg.fit(x_train, y_train)

*Añade aquí una breve explicación de las decisiones tomadas en el apartado 2*

## 3. Evaluación de los modelos de regresión obtenidos


Paso 3.1: Muesta la información sobre los modelos obtenidos (valores de los coeficientes, calidad del ajuste, estadísticos, etc.)

In [8]:
print("LogisticRegression - intercepto: " + str(modelo_logistic.intercept_))
print("LogisticRegression - coeficientes :", list(zip(x_train.columns, modelo_logistic.coef_.flatten(), )))
print("LogisticRegression - R^2: " + str(modelo_logistic.score(x_train, y_train)))

LogisticRegression - intercepto: [-0.03950783  0.08557232 -0.04606449]
LogisticRegression - coeficientes : [('alcohol', -0.195366347141348), ('malic_acid', 0.22351712348257965), ('ash', 0.1449145786832566), ('alcalinity_of_ash', -0.3102898914354726), ('magnesium', -0.013271683305096635), ('total_phenols', 0.23039569010073796), ('flavanoids', 0.4325999149019296), ('nonflavanoid_phenols', -0.017534065203801564), ('proanthocyanins', 0.13400807972585696), ('color_intensity', 0.10769871168164213), ('hue', -0.020102409134289928), ('od280/od315_of_diluted_wines', 0.2267305853903654), ('proline', 0.009029964870805682)]
LogisticRegression - R^2: 0.9583333333333334


In [9]:
#COMPLETAR
print("Ridge - intercepto: " + str(modelo_ridge.intercept_))
print("Ridge - coeficientes :", list(zip(x_train.columns, modelo_ridge.coef_.flatten(), )))
print("Ridge - R^2: " + str(modelo_ridge.score(x_train, y_train)))


Ridge - intercepto: 2.485751736135754
Ridge - coeficientes : [('alcohol', -0.026070367509317238), ('malic_acid', 0.031546211616761306), ('ash', -0.32828233635671256), ('alcalinity_of_ash', 0.051437210030541095), ('magnesium', -0.001381253515372192), ('total_phenols', 0.20260120080352792), ('flavanoids', -0.4054903926744441), ('nonflavanoid_phenols', -0.20629399075053279), ('proanthocyanins', 0.03321978479535253), ('color_intensity', 0.06527584520994045), ('hue', -0.13507099194367117), ('od280/od315_of_diluted_wines', -0.2617720632884559), ('proline', -0.000698909524835084)]
Ridge - R^2: 0.9200581488409152


Paso 3.2: Utiliza los modelos obtenidos en el apartado anterior para predecir sobre la partición de test.

In [10]:
#COMPLETAR
y_pred_log = modelo_logistic.predict(x_test)
y_pred_ridge = modelo_ridge.predict(x_test)

Paso 3.3: Calcula métricas de evaluación para estudiar la calidad de la estimación

In [11]:
#COMPLETAR
print("LogisticeRegression - RMSE: " + str(mean_squared_error(y_test, y_pred_log)))
print("LogisticeRegression - MAE: " + str(mean_absolute_error(y_test, y_pred_log)))
print("LogisticeRegression - R_2: " + str(r2_score(y_test, y_pred_log)))

print()
print()

print("Ridge - RMSE: " + str(mean_squared_error(y_test, y_pred_ridge)))
print("Ridge - MAE: " + str(mean_absolute_error(y_test, y_pred_ridge)))
print("Ridge - R_2: " + str(r2_score(y_test, y_pred_ridge)))

LogisticeRegression - RMSE: 0.0625
LogisticeRegression - MAE: 0.0625
LogisticeRegression - R_2: 0.9085714285714286


Ridge - RMSE: 0.07575753304330281
Ridge - MAE: 0.23061008454314744
Ridge - R_2: 0.8891775516623684


*Añade aquí una breve explicación de los resultados obtenidos en el apartado 3.*