---
# Caso ECommerce SKLearn

En este notebook, elaboraremos un modelo regresivo utilizando el enfoque de Aprendizaje de Máquina, utilizando la librería SKLearn.

### Imports y Lectura de datos

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
sns.set()

In [2]:
df = pd.read_csv('Ecommerce.csv')

In [5]:
df.head(2)

Unnamed: 0,Email,Address,Avatar,Avg. Session Length,Time on App,Time on Website,Length of Membership,Yearly Amount Spent
0,mstephenson@fernandez.com,"835 Frank Tunnel\nWrightmouth, MI 82180-9605",Violet,34.497268,12.655651,39.577668,4.082621,587.951054
1,hduke@hotmail.com,"4547 Archer Common\nDiazchester, CA 06566-8576",DarkGreen,31.926272,11.109461,37.268959,2.664034,392.204933


### Definición del modelo

En el contexto del aprendizaje automático y la estadística, el término "modelo" se refiere a una representación matemática o computacional de un sistema, fenómeno o proceso que intenta capturar sus relaciones subyacentes. Un modelo se utiliza para hacer predicciones, explicar observaciones o comprender la estructura subyacente de los datos.

In [8]:
# Defina las variables que corresponden a features (X) y a la variable objetivo (Y).
X = df[['Avg. Session Length','Time on App','Time on Website','Length of Membership']]
y = df['Yearly Amount Spent']

In [10]:
# verifique los datos


### Validación Cruzada

La validación cruzada es una técnica utilizada en el aprendizaje automático y la estadística, para evaluar el rendimiento de un modelo predictivo. Su objetivo principal es estimar la precisión de un modelo en datos no vistos. Esto se logra dividiendo el conjunto de datos en subconjuntos de entrenamiento y prueba de manera repetida y sistemática.

In [13]:
# importamos funcion que permite hacer una division de los datos de forma aleatoria (ejecute la instrucción)
from sklearn.model_selection import train_test_split

La función **train_test_split()** se utiliza para dividir un conjunto de datos en dos subconjuntos: uno para entrenamiento del modelo y otro para evaluar su rendimiento. La división se realiza de manera aleatoria, pero asegurando que los dos subconjuntos resultantes mantengan la misma proporción de clases o etiquetas si estamos trabajando con problemas de clasificación.

Donde:

- **X**: es la matriz de características o variables independientes.
- **y**: es el vector de la variable objetivo o variable dependiente.
- **test_size**: es el tamaño del conjunto de prueba en proporción al conjunto de datos total. Por ejemplo, si test_size=0.- 2, el 20% de los datos se utilizarán como conjunto de prueba y el 80% restante se utilizará como conjunto de entrenamiento.
- **random_state**: es una semilla aleatoria que asegura que la división se realice de la misma manera en diferentes ejecuciones del código.

In [16]:
# dividimos en train y test set (ejecute la instrucción)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

Después de ejecutar **train_test_split()**, obtendrás cuatro conjuntos de datos:

- **X_train**: matriz de características para entrenamiento.
- **X_test**: matriz de características para pruebas.
- **y_train**: vector de variable objetivo para entrenamiento.
- **y_test**: vector de variable objetivo para pruebas.

In [None]:
# imprima las dimensiones de cada una de estas variables




### Entrenamiento del Modelo

Durante esta etapa, el modelo se ajusta a los datos de entrenamiento para minimizar una función de pérdida o error. El objetivo es encontrar los valores óptimos de los parámetros del modelo que minimicen la diferencia entre las predicciones del modelo y las etiquetas verdaderas en los datos de entrenamiento.

In [7]:
# importamos la clase LinearRegression de la libreria sklearn (ejecute)
from sklearn.linear_model import LinearRegression

In [9]:
# creamos un objeto regresor lineal (ejecute)
lm = LinearRegression()

# entrenamos al modelo, con los datos de entrenamiento
lm.fit(X_train,y_train)

El objeto **lm** es el **modelo entrenado**, y almacena atributos con la información de resultado del entrenamiento así como también métodos convenientes.

In [10]:
# este atributo permite ver los coeficientes resultantes del entrenamiento (ejecute)
lm.coef_

array([25.5962591 , 38.78534598,  0.31038593, 61.89682859])

In [11]:
# este atributo contiene el coeficiente del intercepto (ejecute)
lm.intercept_

-1044.2574146365575

### Predicciones con el modelo entrenado

El modelo entrenado permite que podamos realizar predicciones sobre datos nuevos. A continuación, vamos a crear una función que permita hacer predicciones a un set de datos X con el modelo entrenado.

In [None]:
# cree una función que reciba una matriz X de features y retorne un vector y con las predicciones
def predecir(X):
    pass


In [None]:
# haga predicciones con su función y aplíquela al primer registro del set de datos



Otra forma más sencilla, es utilizando el método **predict()**. El método **predict()** en el objeto **LinearRegression()** se utiliza para hacer predicciones basadas en un modelo de regresión lineal que ha sido entrenado previamente. En términos simples, una vez que has entrenado tu modelo de regresión lineal con datos conocidos, puedes usar el método predict() para predecir valores para nuevas entradas. Acá hay un ejemplo:

In [13]:
# note que vamos a hacer predicciones sobre el set de test, 
# que es data nueva que no se utilizó durante el entrenamiento (ejecute)
y_pred = lm.predict(X_test)


In [None]:
# imprima las primeras 5 predicciones



### Evaluación del Modelo

El módulo metrics de la biblioteca Scikit-learn (sklearn) proporciona una variedad de funciones para evaluar la calidad y el rendimiento de los modelos de aprendizaje automático. Estas métricas son herramientas importantes para comprender cómo se desempeña un modelo en la tarea para la que fue entrenado y para comparar diferentes modelos entre sí.

In [11]:
# importamos libreria de métricas (ejecute)
from sklearn import metrics

La evaluación del modelo en el conjunto de datos no visto por el algoritmo, también conocido como conjunto de prueba (test set), es una parte esencial del proceso de evaluación del rendimiento de un modelo de aprendizaje automático. Cuando entrenamos un modelo de aprendizaje automático, utilizamos un conjunto de datos conocidos como conjunto de entrenamiento para ajustar los parámetros del modelo y hacerlo aprender patrones a partir de esos datos.

Sin embargo, para determinar cómo se desempeñará el modelo en datos que no ha visto durante el entrenamiento, necesitamos evaluarlo en un conjunto de datos separado, llamado conjunto de prueba o test set. Este conjunto de prueba debe contener ejemplos que no hayan sido utilizados en el proceso de entrenamiento y que representen datos del mundo real que el modelo encontrará después de su despliegue.

In [None]:
# imprima las métricas MAE, MSE y RMSE utilizando el módulo metrics
# puede ver la documentación en el siguiente link: 
# https://scikit-learn.org/stable/modules/model_evaluation.html
#
print('MAE:',  metrics.??  )
print('MSE:',  metrics.??  )
print('RMSE:',  metrics.??  )

### Score del Modelo

En un modelo de regresión lineal, el "score" se refiere a la medida de rendimiento del modelo en el conjunto de datos de prueba. En Scikit-learn, la función **score()** para modelos de regresión lineal devuelve el coeficiente de determinación $R^{2}$ del modelo.

In [13]:
# el objeto modelo provee un método sencillo para obtener el score (ejecute)
lm.score(X_test,y_test)

0.9843155370226726

#### R-squared ajustado

La librería SKLearn, que se especializa en machine learning, no cuenta con todas las métricas de estadística que aprendimos con la librería Statsmodels. Si deseamos utilizar el R cuadrado ajustado, entonces debemos calcularlo. La fórmula es la siguiente:

$R^2_{adj} = 1 - (1-R^2)*\frac{n-1}{n-p-1}$

- n: cantidad de mediciones
- p: cantidad de dimensiones

In [14]:
# cree una función que permita realizar al cálculo del r-cuadrado-ajustado
def r2adj():
    pass


In [14]:
# ¿qué valor se obtiene?


### Selección de Features del Modelo

La selección de características del modelo, también conocida como selección de variables o selección de atributos, es el proceso de elegir un subconjunto relevante de características (o variables independientes) para utilizar en la construcción del modelo de aprendizaje automático. El objetivo de la selección de características es mejorar el rendimiento del modelo al eliminar características irrelevantes, redundantes o que pueden estar causando sobreajuste.

Con el método estadístico, deberíamos aplicar métodos de selección basados en el valor-p, donde descartamos las variables que no tenemos certeza que influyan en la variable objetivo. Con el enfoque de aprendizaje de máquina, nos basta con descartar los coeficientes que tenga poca incidencia o que comparativamente son despreciables respecto a otros features.

Para seleccionar variables comparando los coeficientes, es recomendable realizar un escalamiento de los datos. La razón principal para escalar los datos es asegurarse de que todas las características tengan un rango similar de valores. En particular:

- Si algunas características tienen escalas mucho mayores que otras, pueden dominar la optimización del modelo, lo que significa que el modelo puede enfocarse excesivamente en esas características y pasar por alto otras características importantes.

- Cuando se utilizan modelos lineales, como la regresión lineal, los coeficientes estimados representan la contribución de cada característica a la predicción. Escalar los datos asegura que los coeficientes sean comparables entre sí y facilita la interpretación de la importancia relativa de cada característica.

In [16]:
# importe la siguiente librería que nos ayudará a realizar el escalamiento (ejecute)
from sklearn.preprocessing import StandardScaler

In [17]:
# instanciamos objeto escalador
scaler = StandardScaler()

# le presentamos los datos para que calcule los parametros de escalamiento
scaler.fit(X)

# aplicamos la transformacion de escalamiento y creamos una nueva variable para almacenar el resultado
X_sc = scaler.transform(X)

In [39]:
# despliegue los primeros 5 registros de la matriz X_sc. ¿qué tipo de datos es?



### Reentrenamiento con datos escalados

Vamos a repetir el proceso de entrenamiento, a objeto de ajustar los parámetros del modelo con los datos escalador. Recuerde que debemos aplicar validación cruzada.

In [18]:
# dividimos en train y test set (ejecute la instrucción)
# note que ahora utilizamos X_sc
X_train, X_test, y_train, y_test = train_test_split(X_sc, y, test_size=0.2, random_state=42)

Ahora ajustamos el modelo lineal con los datos escalados

In [None]:
# entrene el modelo nuevamente (complete)
lm = LinearRegression()
# complete...


En Machine Learning, se emplean los siguientes términos:

- A los **Predictores** se les llama **Features** (características)
- A los **Coeficientes** se les llama **Pesos** (estandarizados)
- Al **Intercepto** se le llama **Bias** (sesgo)

In [None]:
# imprima los pesos de cada feature (ejecute)
summary = pd.DataFrame(X.columns, columns=['Features'])
summary['Weights'] = lm.coef_
summary.append(['Intercept',lm.intercept_])
summary

En machine learning, no es tan relevante el valor de p para la selección del modelo, se compara el aporte de pesos para descartar un feature del modelo.

In [None]:
# ¿qué variables seleccionaría? (comente)





#### Realizando una predicción con los features estandarizados

In [29]:
# debe ser un arreglo 2D (ejecute)
p1 = [[34.497268,12.655651,39.577668,4.082621]]

In [None]:
# aplicamos el escalador (ejecute)
p1_sc = scaler.transform(p1)
p1_sc

In [None]:
# realizamos la predicción (ejecute)
lm.predict(p1_sc)

#### Removiendo una variable del modelo

Vamos a remover el feature que tiene menos peso en el modelo (Time on Website)

In [40]:
X = df[['Avg. Session Length','Time on App','Length of Membership']]
y = df['Yearly Amount Spent']

In [41]:
# Vuelva a repetir el proceso (escalamiento, validacion cruzada y entrenamiento)

















### Prediciendo en Test set

Con el modelo ajustado con 3 features, realice predicciones sobre el set de tests y evalúe el modelo

In [55]:
# complete
y_pred = ??

In [None]:
# (ejecute)
plt.scatter(y_test,y_pred)
plt.xlabel('Y Test')
plt.ylabel('Predicted Y')

In [None]:
# ejecute

print('MAE:', metrics.mean_absolute_error(y_test, y_pred))
print('MSE:', metrics.mean_squared_error(y_test, y_pred))
print('RMSE:', np.sqrt(metrics.mean_squared_error(y_test, y_pred)))

In [None]:
# ejecute
metrics.r2_score(y_test, y_pred)

#### Residuales

También podemos realizar el análisis de residuales del modelo. Este análisis es importante porque podemos darnos cuenta que un modelo lineal puede ser demasiado simple para el problema.

In [None]:
sns.displot( y_test - y_pred )

---