# 5. Predicción de ingresos de clientes usando regresión lineal

En este capítulo se resuelven problemas de negocio que requieren la predicción de cantidades. 

- La regresión es un enfoque de aprendizaje **supervisado** para predecir resultados continuos. 

- La regresión lineal, una técnica simple para el modelado predictivo en la industria. 

Se implementan aunos pasos clave en el proceso de modelado:  

- Limpieza de datos,
- Ingeniería de características y 
- Implementación de modelos de regresión lineal 
- Interpretación de resultados para obtener información comercial.

## Introducción

ZARA, un gran minorista de moda rápida de gama alta que opera en todo el mundo, aprobó su presupuesto de marketing para la última campaña en un país en particular. El equipo de marketing ahora busca asignar el presupuesto a cada canal de marketing, pero tiene muchas preguntas:

- ¿Cuánto deberían gastar en email? Las tasas de lectura son bajas, pero la calidad de las conversiones es alta.
- ¿Qué hay de las redes sociales? Parece ser un canal efectivo en general.
- ¿Deberían haber alguna promoción **offline**? Si es así, ¿en qué medida?
- ¿Qué hay de paid search como canal?

IMAGEN

- Un gasto increíblemente bajo en un canal con un gran ROI es un **potencial perdido** 
- y un gasto alto en un canal con un ROI extremadamente bajo es una **pérdida de recursos**.

Si la empresa pudiera modelar matemáticamente el impacto de varios canales en las ventas o, en otras palabras, modelar la relación entre:  
- los gastos del canal y 
- las ventas, 
podría predecir las ventas para cualquier asignación y, en consecuencia, elegir los niveles correctos. 

En ML los modelos supervisado es donde se tiene datos históricos que se pueden aprovechar y la máquina puede aprender. 

- En el aprendizaje supervisado, entrena a la máquina para aprender de los datos históricos para hacer predicciones. 

- Puede predecir cantidades: ingresos, precios de acciones, precios de viviendas, líneas de crédito, calificaciones de un producto, etc. 

- también puede predecir categorías/clases: hacer clic en un anuncio, abandono de clientes (el cliente no regresa a un sitio web), compras de un producto, la apertura de una notificación push promocional, el canal de tráfico preferido, otros. 

Al utilizar los datos históricos de los clientes, se puede utilizar el aprendizaje supervisado para predecir los ingresos futuros que generará un cliente en función de la actividad anterior. 

## Problemas de regresión

La predicción de cantidades es una tarea recurrente en marketing. 

- Un ejemplo es predecir las unidades vendidas de una marca en función del gasto en visibilidad (impresiones) asignado a los productos de la marca. 

- Otro ejemplo podría ser la predicción de ventas en función de la inversión publicitaria en campañas de televisión. 

Predecir el valor de por vida de un cliente (los ingresos totales que genera un cliente durante un período definido) en función de los atributos de un cliente es otro requisito común. Todas estas situaciones pueden formularse como problemas de regresión.

La regresión se refiere a una clase de problemas donde el valor a predecir es una cantidad. Hay varias técnicas disponibles para la regresión, que van desde las más simples y fáciles de interpretar.

Desde la regresión lineal simple, hasta los enfoques de caja negra extremadamente complejos (donde la forma en que el modelo hace una predicción es prácticamente imposible de entender; como las redes neuronales profundas o métodos de conjunto como el aumento de gradiente).

Podemos pensar en los modelos como formas de describir matemáticamente las relaciones entre:
- objetivo/resultado/variables dependientes 
- y el predictor/característica/variables independientes. 

Una **variable dependiente** es la variable que se intenta predecir. 

Por ejemplo, si desea predecir los ingresos en función de los gastos de marketing en las redes sociales, los ingresos serían la variable objetivo/**dependiente**. Gasto en redes sociales, la variable que se utiliza para predecir los ingresos es la variable predictora/**independiente**.



Puede haber diferentes tipos de relaciones entre las variables dependientes e independientes

Las dos primeras gráficas de la figura anterior muestran relaciones lineales, donde la variable dependiente (en el eje vertical) se relaciona con la variable independiente (en el eje horizontal) de forma lineal simple: una línea en un gráfico puede describir una buena relación.


<figure>
<center><img src='https://drive.google.com/uc?export=view&id=1Ih27LtJ82UYG4Gbf3pCVz2sSd5SzZ4t3' width="800" />
<figcaption>
Figure 5.1: Regression problems</figcaption></center>
</figure>


La tercera gráfica muestra una relación no lineal más compleja, donde una curva captura mejor la relación.

<figure>
<center><img src='https://drive.google.com/uc?export=view&id=1-06vIZU00zb59l55mt3tARhVGFo3V8FT' width="800" />
<figcaption>
Figure 5.2: Revenue versus social media spend</figcaption></center>
</figure>

Para el ejemplo del gasto en redes sociales, considere los datos de la Figura 5.2, donde ha trazado algunos datos hipotéticos que representan la relación entre **Ingresos** y **Gastos**: cada punto del gráfico representa algún período de tiempo en el pasado en el que se obtuvo un determinado ingreso correspondiente a la gasto en redes sociales.


Si describe matemáticamente la relación anterior, puede hacer lo siguiente:

• Predecir los ingresos para cualquier nivel de gasto en las redes sociales.
• Calcular el gasto requerido en las redes sociales para lograr los ingresos deseados.

Esto puede ser extremadamente útil para el equipo de marketing. 

- ¿Qué tipo de relación, cree usted, describe mejor los datos observados? 

Aquí es donde puede tener múltiples enfoques y, por lo tanto, necesita tomar una decisión. Mire la Figura 5.3 donde ha visualizado tres posibles elecciones de relaciones para describir los datos. Algunos de nosotros preferiríamos la línea simple (a) como un ajuste suficiente a los datos, mientras que otros preferirían la curva compleja denotada por c. Algunos pueden preferir b ya que es algo así como un equilibrio entre a y c. Las tres son opciones válidas para modelar la relación.

<figure>
<center><img src='https://drive.google.com/uc?export=view&id=1jTCo1gn7DltLuGrM_5qawsz4w7GVzFns' width="800" />
<figcaption>
Figure 5.2: Revenue versus social media spend</figcaption></center>
</figure>

En este capítulo, se concentrará en el modelo lineal simple (a), es decir, describirá las relaciones usando líneas. Este enfoque de usar una línea para describir la relación entre el objetivo/resultado y las variables predictoras se denomina regresión lineal. Dicho de otro modo, en la regresión lineal, predice el objetivo a partir de las variables predictoras modelando su relación como una línea.


La forma matemática del modelo de regresión lineal es simple. Para un solo predictor/variable independiente, el modelo se puede describir en una ecuación simple, de la siguiente manera:

$y=\alpha +\beta x$     
Y = b0 + b1.X1

Aquí, $y$ es el valor pronosticado de la variable dependiente y $x$ representa la variable independiente. 



<figure>
<center><img src='https://drive.google.com/uc?export=view&id=1hJ-ju3jWmnBXDCQGC3CMgRZPSBIBtBg3' width="800" />
<figcaption>
Figure 5.2: Revenue versus social media spend</figcaption></center>
</figure>



$\alpha$ (b0) es la intersección (donde la línea cruza el eje y), el resultado predicho cuando la variable independiente es 0. $\beta$ es la pendiente de la línea y captura qué tan bruscamente aumenta el valor de las variables dependientes en un cambio de unidad en la variable independiente. 

b1 también se denomina coeficiente de la variable independiente. 
- Con múltiples variables independientes, la interpretación geométrica se vuelve compleja. 


Usaremos el modelo LinearRegression de scikit-learn, que tiene una sintaxis  sencilla. La sintaxis es similar al enfoque de ajuste y predicción que usó para las técnicas de agrupamiento en capítulos anteriores.

 
``` py
from sklearn.linear_model import LinearRegression
lr = LinearRegression()

# Luego, proporcionar las variables dependientes e independientes

lr.fit(independent_variable, dependent_variable)
```

Eso debería hacer un `fit` al modelo. Para hacer predicciones solo es necesario usar el método de predicción como se hizo en la agrupación. 

## Ejercicio 5.01: Predicción de ventas a partir del gasto publicitario mediante regresión lineal

HINA Inc. es una gran empresa de bienes de consumo masivo que está racionalizando su presupuesto de marketing. 
- Esto implica hacer un balance de todas sus estrategias de marketing. 
- Esto, a su vez, significa volver a evaluar la eficacia de su gasto actual en varios canales de marketing. 

Averiguar si gastar dinero en campañas publicitarias de televisión genera un aumento directo de las ventas.

En otras palabras, debe averiguar si el gasto en publicidad televisiva y las cifras de ventas comparten una relación lineal.

Se tienen los datos publicitarios históricos (ventas semanales y gasto en cada canal) durante casi los 4 años anteriores. 

Utilizando la regresión lineal, creará un modelo que prediga las ventas en función del gasto del canal de televisión y estudiará la relación obtenida.

1. Importar las bibliotecas relevantes para graficar y manipular datos, cargar el conjunto de datos `advertising.csv` en un DataFrame e imprimir los cinco registros principales