# Sprint 11 - Modelos de Regresión (Sesiones)
**Versión para estudiantes**

En el siguiente caso vamos a enfocarnos en el aprendizaje supervisado de regresión. Vale recordar que en los modelos de este tipo el propósito es pronosticar variables objetivo de tipo numérico. Es así que introduciremos e implementaremos dos tipos de algoritmos básicos:

* Regresión lineal
* Vecinos más cercanos

Adicionalmente, seguiremos ahondando en técnicas que nos ayuden a procesar los datos de manera adecuada para nuestro modelo. En concreto veremos:

* Tratamiento de atributos por variabilidad.
* Tratamiento de valores atípicos multidimensionales.
* Escalamiento de atributos por normalización.

Finalmente, presentaremos una técnica de mejoramiento de modelos que adicional a optimizar la asertividad, permite un mejor control del sobreajuste: la validación cruzada.

## Entendimiento del contexto

En los últimos años se ha evidenciado el surgimiento de un nuevo canal de comunicación entre empresas y consumidores. En efecto, una buena parte de la publicidad en productos o servicios se lo hace a través de los llamados *influencers*, quienes aprovechan de su *engagement* en distintas redes sociales para mostrar productos o servicios a sus seguidores y ante lo cual reciben una compensación por parte de la empresa proveedora. Dado el volumen de actividades que suelen mantener en su día a día, muchos de estos *influencers* se han organizado en agencias que les ayuden a gestionar y administrar su negocio digital, generando a la vez economías de escala importantes.  

Justamente, una de estas agencias se ha puesto en contacto contigo a fin de que le ayudes a comprender de mejor manera el comportamiento de sus posteos dentro de la red social Facebook. Entre las distintas actividades que te plantean los socios, te piden crear una herramienta que de forma anticipada les permita conocer el volumen de interacciones en una publicación de esta red, pues de esta forma ellos podrán contar con un insumo importante para la realización de cotizaciones hacia las empresas clientes. Para esto conviene además que sepas que una interacción se entiende como cualquier acción realizada a nivel de una publicación o posteo, es decir, comentar, dar *like* o compartir.

Visto esto, tu propones crear un modelo de aprendizaje computacional supervisado de tipo regresión que pronostique cuántas interacciones tendrá un posteo determinado sobre la base de sus características específicas.  

## Entendimiento de los datos

Importa todas las librerías y funciones que utilizarás en este caso. Adicional a aquellas que usualmente manejas, incorpora las siguientes de **Scikit-Learn**:

* `LinearRegression` del grupo `linear_model`.
* `KNeighborsRegressor` del grupo `neighbors`.
* `MinMaxScaler`del grupo `preprocessing`.
* `cross_validate` del grupo `model_selection`.
* `PCA` del grupo `decomposition`.

Para iniciar con tu trabajo, la agencia comparte contigo la tabla **facebook_posts** que contiene datos respecto a una muestra de 500 posteos realizados en Facebook durante el año pasado. En este archivo se muestran las siguientes columnas:

* tipo: Categoría del contenido que muestra el posteo (Foto, EStado, Link, Video).
* categoria: Enfoque temático que pretende apuntar el posteo (Acción, Inspiración, Producto).
* mes: Mes en el que se hizo el posteo.
* dia_semana: Dia de la semana en que se hizo el posteo.
* hora: Hora del día en que se hizo el posteo.
* pautado: Si el posteo está asociado a una campaña publicitaria específica de la empresa proveedora.
* alcance: Público objetivo al que se pretendió llegar con el posteo (seguidores y usuarios de Facebook con perfiles similares).
* impresiones: Número de impresiones realizadas del posteo.
* usuarios: Número de seguidores a quienes les apareció el posteo.
* clicks: Número de clicks que se hicieron en el posteo.
* interacciones: Número de comentarios, likes y acciones de compartir que se hicieron en el posteo.

Explora este dataset, y a partir de ello define un objetivo técnico, los algoritmos y métricas a considerar, y un plan de acción para la preparación e ingeniería de los datos.

**OBJETIVO TÉCNICO**

< Aquí tu respuesta >

**ALGORITMO Y METRICAS DE RENDIMIENTO**

< Aquí tu respuesta >

**PLAN DE ACCIÓN PARA PREPARACIÓN E INGENIERÍA DE DATOS**

< Aquí tu respuesta >

## Preparación de datos

Ejecuta las actividades especificadas en tu plan de acción.

## Ingeniería de datos

Recordemos nuestro simil y adicionemos un nuevo criterio de aprendizaje a los que ya conocemos:

*Para que nuestro niño aprenda mejor a sumar, debemos presentarle ejercicios variados, es decir, intentar que las sumas que resuelva contengan distintos números como sumandos y que no se repitan con tanta frecuencia respecto a otros. Si siempre resuelve operaciones que incluyan el número 5 por ejemplo, no será capaz de dar la con respuesta correcta de $7 + 8$.*    

En este sentido, notemos que para que el modelo cuente con el mencionado criterio, es importante que exista un buen balanceo de todos los atributos que deseamos incorporar como insumo del algoritmo a implementar.

Recuerda que ya estudiamos sobre cómo balancear las clases de la variable objetivo, lo cual nos permitía generar confiabilidad en la evaluación de asertividad de un modelo de clasificación. Ahora bien, extendiendo este concepto hacia los atributos, se dice que una variable numérica está balanceado si su nivel de **dispersión** es suficientemente alto; y cuando la misma es no numérica, si su nivel de **concentración** es bajo. 

Al respecto, existen muchos indicadores para estudiar la concentración de una variable, sin embargo por ahora nos enfocaremos en los dos más utilizados:

* Razón de frecuencia ($R_f$): Mide el número de veces que la frecuencia de la clase del atributo más común ($f_m$) representa frente a la frecuencia promedio de las otras clases ($f_p$). En este sentido, si la razón de frecuencia es alta se dice que existe concentración en el atributo, y por tanto desbalanceo.

$$ R_f = \frac{f_{m}}{f_{s}} $$

* Razón de unicidad ($R_u$): Mide la relación entre la cantidad de clases existentes del atributo ($q_a$) y el total de registros observados en el dataset ($n$). En este sentido, si la razón de unicidad es baja se dice que existe concentración en el atributo, y por tanto desbalanceo.

$$ R_u = \frac{q_a}{n}$$

Construye una función que estime estos indicadores para cualquier atributo no numérico que reciba como entrada.

Aplica la función creada a la columna tipo del dataset.

Los resultados alcanzados dan cuenta que este atributo presenta desbalanceo, lo cual es coherente porque gran parte de las publicaciones en el dataset son "Fotos" (426 de 500). Ante esto, existen 3 posibles rutas de acción en cuanto al proceso de ingeniería:

* Si la razón de frecuencia es mayor a 5 y la razón de unicidad es menor a 3%, entonces el atributo debería eliminarse dado que su desbalanceo es significativamente alto y por tanto no aportará nada en la construcción de un modelo predictivo. 
* Si el ratio de frecuencia es mayor a 5 pero la razón de unicidad es mayor o igual a 3%, entonces el atributo debe transformarse mediante un proceso de agrupamiento de sus valores que generen un mayor balanceo. 
* En cualquier otro escenario, el atributo se puede considerar suficientemente balanceado.

Modifica la función creada para que despliegue un mensaje pertinente en base a estas condiciones, y comprueba su funcionamiento con la variable tipo.

Sigue el plan de acción planteado por tu función para la columna tipo.

Evalúa el balanceo de los otros atributos no numéricos y aplica el plan de acción sugerido.

Pongamos ahora nuestra atención en el atributo hora del dataset. Si bien los valores aquí presentes son números, poseen ciertas características particulares que podrían hacer que lo consideremos como una variable no numérica:

* Los valores posibles están acotados entre 0 y 23.
* Los valores que toma no son operables aritméticamente, sino de forma modular (i.e. $20 + 10 = 6$).
* Para describir estadísticamente a la variable hace más sentido hablar de la "hora más frecuente" y no de la "hora promedio".

Por lo anterior, trata a esta variable como no numérica y has la evaluación de concentración del caso.

Dado este resultado, debemos decidir la forma más adecuada para agrupar esta variable en el contexto del modelo a desarrollar. Mira por tanto el comprotamiento de las interacciones a través de las horas, para investigar si existe algún patrón relevante.

Sobre la base de esta visualización, se evidencian 3 grandes grupos horarios:

* Entre 0 am y 8 am: volatilidad de interacciones baja.
* Entre 9 am y 4 pm: volatilidad de interacciones moderada.
* Entre las 5pm hasta las 11 pm: volatilidad de interacciones alta.

Transforma este atributo en base a estos grupos horarios detectados, y valida nuevamente su balanceo.

Considera ahora este nuevo criterio de aprendizaje para nuestro niño que aprende a sumar:

*Para que el niño sume mejor, los ejercicios que le entreguemos a resolver deben ser desafiantes pero evitando siempre presentarle casos que le sean imposibles de resolver por contener aspectos ajenos a sus capacidades. Por ejemplo, vale entregarle sumas como $65 + 87$ que contienen números naturales, pero no aportaría en su aprendizaje enviarle a resolver $(4 + 5i) + e^{i}$, que contiene expresiones complejas.*

Pues bien, lo anterior encaja perfectamente con el concepto de datos atípicos. Hasta ahora hemos estudiado estos valores en columnas dentro de un dataset de forma individualizada, es decir, identificándolos y de ser el caso ajustándolos una columna a la vez. Sin embargo, cuando se trabaja con tablas multidimensionales este proceso puede ser extremadamente tedioso, por lo que conviene contar con un mecanismo eficiente para identificar *outliers* aprovechando la potencial interrelación de variables.

Con este propósito en mente, conviene introducir un método matemático basado en el álgebra lineal y llamado **reducción dimensional**. Dicho método busca transformar un dataset con $D$ columnas numéricas en otro de tamaño $d$ tal que $d<D$, y sin que esto implique pérdida de información relevante.

Para un mejor entendimiento de la utilidad asociada a la reducción dimensional, notemos que en nuestra tabla existen 5 variables numéricas cuya visualización conjunta es prácticamente imposible considerando nuestra “realidad” de 3 dimensiones espaciales (en efecto, no es factible generar ningún gráfico relativamente sencillo con 5 variables). Por tanto, utilicemos este método para primero reducir estas 5 dimensiones a solamente 2, y a partir de aquí poder identificar cuáles son potencialmente datos atípicos.

Extrae en un nuevo dataset las 5 variable numéricas referidas.

Una forma de realizar una reducción dimensional es mediante el algoritmo de **Análisis de Componentes Principales** (PCA por sus siglas en inglés). En el siguiente video, se da una explicación resumida de cómo funciona este algoritmo: https://www.youtube.com/watch?v=HMOI_lkzW08. No te preocupes si aún te cuesta comprender este algoritmo, porque en siguientes casos vamos a profundizar acerca de él.

Por ahora, transforma el dataset de variables numéricas con la función `PCA`, y define el argumento *n_componentes = 2* ya que queremos solamente 2 dimensiones.

Como ya se mencionó, con este cálculo hemos llevado toda la información de 5 variables a solamente 2 que podemos estudiar y visualizar fácilmente. Aplica entonces el criterio 3-sigma a cada una de las columnas obtenidas para identificar los límites superior e inferior a partir de los cuales podríamos considerar un valor como dato atípico.

Has un diagrama de dispersión de estas variables e incluye los límites calculados a fin de identificar visualmente los casos atípicos.

Todos aquellos registros que estén fuera del rectángulo corresponden a los valores atípicos "multidimensionales", y para garantizar un buen funcionamiento del algoritmo conviene que los elimines del dataset.

Procede con la ingeniería de datos realizando las siguientes actividades ya conocidas:

* Separar los atributos del objetivo.
* Codificar atributos no numéricos con One-Hot. 

Nos queda únicamente escalar los atributos. Otra forma de hacerlo es mediante el método de **Normalización**, el cual transforma una variable numérica $x$ en otra $x_{n}$ tal que

$$ x_n = \frac{x-x_{min}}{x_{max} - x_{min}} $$

donde $x_{min}$ es el valor mínimo de la varible $x$, y $x_{max}$ es el máximo.

De una mirada rápida a la fórmula anterior, podemos darnos cuenta que la variable normalizada solamente podrá tomar valores entre $0$ y $1$,

Utiliza la función `MinMaxScaler` para normalizar los atributos alcance, impresiones, usuarios y clicks (los demás al haber sido derivados de la codificación one-hot no lo necesitan). 

Seguramente te diste cuenta que no particionamos el dataset en conjuntos de entrenamiento y prueba. Esto se debe a que en las siguientes etapas aplicaremos una técnica nueva de validación más robusta y ante la cual esta partición no es necesaria.

## Creación de modelo base

En esta oportunidad vamos a presentar dos diferentes algoritmos para aprendizaje de regresión. El primero y más común es el de **Regresión Lineal**, y el segundo es el de **K Vecinos más Cercanos (KNN por sus siglas en inglés)**.

### Modelo base con regresión lineal

El algoritmo de regresión lineal busca pronosticar la variable objetivo $y$ mediante un proceso de linearización de los atributos tal que

$$ y = \sum_{x\in X} w_{x}x = w_1 x_1 + w_2 x_2 + ... $$

donde $w_x$ son los pesos de los distintos atributos $x$, y corresponden a parámetros que se estiman en el proceso de aprendizaje.

Este algoritmo cuenta con un hiperparámetro importante, y es la existencia de un intercepto ($w_0$) en la ecuación lineal antes descrita, por lo que en caso de definir su existencia la misma queda expresada por:

$$ y = w_0 + \sum_{x\in X} w_{x}x = w_0 + w_1 x_1 + w_2 x_2 + ... $$

Este algoritmo presenta como principal ventaja que es extremadamente sencillo de generar e interpretar. Sin embargo, esa simpleza también conlleva que no pueda ser optimizado más allá de la ya mencionada definición de existencia del intercepto. Además vale señalar que para un correcto funcionamiento del algoritmo es importante que se cumplan algunas condiciones a nivel de los atributos y la variable objetivo:

* Linealidad: Los atributos y la variable objetivo deben poder relacionarse de manera lineal.
* No multicolinealidad: Los atributos no deberían estar relacionados entre sí.
* Normalidad: La variable objetivo debería seguir una distribuir aproximadamente Normal.

Trataremos estos aspectos en próximos casos, pero por ahora supondremos que se cumplen satisfactoriamente.

Crea y entrena un modelo base con la función `LinearRegression` en donde se incluya un intercepto.

Extrae los pesos del modelo para visualizar mejor su funcionamiento mediante los elementos `coef_` e `intercept_`.

Estos resultados muestran la relación entre distintos atributos e interacciones de los posteos en Facebook, pudiendo generarse a partir de aquí una caracterízación de las publicaciones con mejor capacidad de que los seguidores de influencers interactúen con las mismas:

* Posteos con enfoque inspirador de influencers con muchos seguidores activos (alto alcance y usuarios)
* Posteos que sean publicados a partir del mes de septiembre los días jueves.
* Posteos que no estén vinculados a campañas publicitarias de las empresas proveedoras de la agencia.

Verificaremos esta hipótesis a medida que tengamos un modelo óptimo.

Por ahora evalúa el rendimiento de este modelo, para lo cual calcula las métricas *R2*, *MAE* y *RMSE* para este modelo. Puedes emplear las funciones `metrics.r2_score`, `metrics.mean_absolute_error` y `metrics.mean_squared_error`.

Considerando que existen $n$ observaciones, el coeficiente de determinación (*R2*) del modelo se lo define por la siguiente fórmula:

$$ R^2 = 1 - \frac{\sum_n (y - y_{pred})^2}{\sum_n (y - \bar y)^2}$$

Si todos los valores predichos son igual a los valores observados entonces se cumple que $R^2 = 1$, y cualquier situación distinta hará que $R^2 < 1$. Por tanto, un modelo será mejor a medida que el coeficiente de determinacion esté más próximo a 1.

Por su parte el error absoluto medio (*MAE*) se define por la siguiente fórmula:

$$ MAE = \frac{\sum_n |y - y_{pred}|}{n} $$

Por consiguiente, si este índice es cercano a 0 el modelo será mejor.

Finalmente la raiz del error cuadrático medio (*RMSE*) se lo define por la siguiente fórmula:

$$ RMSE = \sqrt{\frac{\sum_n (y - y_{pred})^2}{n}} $$

E igual que en el indice anterior, si el *RMSE* es cercano a 0 el modelo será mejor.

Ahora bien, para evaluar nuestro modelo vamos a utilizar una nueva técnica conocida como **validación cruzada**, la cual permite un control más robusto del sobreajuste a través de la determinación objetiva de la asertividad que potencialmente se puede alcanzar ante distintos escenarios.

Dividamos a nuestros datos ya no solamente en 2 subconjuntos de entrenamiento y prueba, sino que ahora particionémoslo en $c$ grupos. Una vez hecho esto, a través de iteraciones tomemos como conjunto de validación a cada una de esas $c$ partes y evaluemos el rendimiento del modelo creado. Al final de este proceso tendremos una simulación exhaustiva de su funcionamiento con $c$ distintos resultados a nivel de métricas de asertividad.

Modifica entonces el modelo base con regresión lineal de forma que aprenda con validación cruzada. Utiliza la función `cross_validate` con $c = 15$ y tomando como métrica referencia al coeficiente de determinación, dado que es el de uso más común en este tipo de modelos. 

Guarda el valor mediano de estos resultados para tener una referencia de la asertividad de este modelo.

### Modelo base con vecinos más cercanos

El algoritmo de **K vecinos más cercanos (KNN)** es un modelo de predicción bastante sencillo el cual consiste en predecir un valor de la variable objetivo a partir del promedio de otras $k$ observaciones "similares". Por ejemplo, si la mayoría de los posteos sobre productos con alto alcance y usuarios, publicadas en marzo los lunes a las 7 am tiene 100 interacciones como media, es esperable que un nuevo posteo con estas mismas características tenga un número similar de ellas.  

Pues bien, para determinar esta similitud entre observaciones desde una perspectiva más técnica, se toma en consideración el concepto de distancia $d$, la cual está normalmente definida para dos observaciones $a$ y $b$ de la siguiente forma:

$$ d(a,b) = \left(\sum_{x\in X}|x_a-x_b|^p\right)^{1/p} $$

donde $p$ corresponde a un argumento que determina el tipo de distancia a utilizar. Notemos que si $p = 2$ la distancia es de tipo "euclideo":

$$ d_e(a,b) = \sqrt{\sum_{x\in X}|x_a-x_b|^2} $$

Y si $p = 1$ la distancia es de tipo "manhattan":

$$ d_m(a,b) = \sum_{x\in X}|x_a-x_b| $$

La principal ventaja de este algoritmo es que no requiere del cumplimiento de ningún supuesto asociado a los atributos y a la variable objetivo, como sí sucede con la regresión lineal. Sin embargo, su adecuado funcionamiento depende exclusivamente de que exista una suficiente variabilidad en los datos como para que el modelo a implementar sea capaz de identificar patrones de similitud consistentes.

Visto esto, crea un modelo base con la función `KNeighborsRegressor` y evalúalo con validación cruzada. Utiliza distancia euclideana y 3 vecinos como hiperparámetros iniciales.

Guarda el valor mediano de estos resultados para tener una referencia de la asertividad de este modelo.

Al comparar los dos modelos base, parece que aquel que utiliza regresión lineal tiene mejores resultados. Veamos si existen cambios luego de los procesos de optimización.

## Optimización de modelos

La **validación cruzada** igualmente puede servirnos para optimizar los hiperparámetros de los algoritmos utilizados. Define para esto una función que genere una validación cruzada con 15 grupos de prueba dado un modelo y que devuelva el *R2* mediano. 

Aplica esta función para determinar si el algoritmo de **regresión lineal** funciona mejor con o sin intercepto.

Parece que en este caso, el no incorporar el intercepto en la regresión lineal brinda una mayor asertividad en el modelo.

Ahora aplica la función para determinar los hiperparámetros óptimos en el algoritmo **KNN**.

Selecciona la combinación óptima de hiperparámetros en el modelo KNN y muestra el *R2* alcanzado.

Si bien hay una mejora significativa respecto al modelo base con este algoritmo de aprendizaje, aún no se alcanzaron los resultados de asertividad del modelo con regresión lineal.

Genera por tanto un modelo optimizado a partir de esta optimización.

Compara las predicciones de este modelo con los valores reales de la variable objetivo. Puedes utilizar una gráfica de dispersión.

Finalmente extrae los pesos calculados por el modelo optimizado para confirmar las hipótesis planteadas respecto a las características que inciden en posteos con alta interacción.

Las características planteadas y que determinan publicaciones con alto volumen de interacciones se confirman por los resultados anterior. Una recomendación importante a realizar a la agencia sería entonces que para las cotizaciones que realice en el futuro, se establezcan fees de éxito a ser pagados por las empresas proveedoras en posteos con las particularidades expuestas.