# 7. Aprendizaje supervisado: predicción de la rotación de clientes

## Introducción

El éxito de una empresa depende en gran medida de su capacidad para:
- atraer nuevos clientes y 
- conservar los existentes. 

**Churn** se refiere a la situación en la que un cliente de una empresa deja de usar su producto y abandona la empresa. 

Churn puede ser: 
- abandono de empleados de una empresa, 
- abandono de clientes de una suscripción móvil, etc. 

Predecir la rotación de clientes es importante para una organización porque adquirir nuevos clientes es fácil, pero retenerlos es más difícil. 

La predicción de abandono es uno de los casos de uso más comunes del aprendizaje automático.

Para predecir la rotación de clientes, la mayoría de los casos de uso implican tareas de clasificación supervisadas. 

Es por eso que comenzará este capítulo revisa problemas de clasificación. Luego sobre el algoritmo de regresión logística.



# Problemas de clasificación

Considere una situación en la que se le ha pedido que construya un modelo para predecir si un producto comprado por un cliente será devuelto o no.

Un modelo de regresión dará valores continuos como salida (por ejemplo, 0.1, 100, 100.25, etc.), pero en nuestro estudio de caso solo tenemos dos valores como salida: 
- se devolverá un producto o 
- no se devolverá. 

En tal caso, todos los demás valores serán incorrectos/no válidos. Si bien podemos decir que el producto devuelto se puede considerar como el valor 0, y el producto no devuelto se puede considerar como el valor 1, todavía no podemos definir qué significa un valor de 1,5.

En escenarios como estos, los modelos de clasificación entran en escena. 
- Las tareas de clasificación son diferentes de las tareas de regresión en el sentido de que en las tareas de clasificación,
predecimos una etiqueta de clase discreta (por ejemplo, el producto será devuelto o no devuelto), 
- mientras que, en el caso de regresión, predecimos valores continuos (por ejemplo, el precio de una casa, la edad de una persona y pronto). 

Otra diferencia notable entre los problemas de clasificación y los problemas de regresión radica en la elección de las métricas de rendimiento. Con problemas de clasificación, la precisión se elige comúnmente como una métrica de **rendimiento**, mientras que la **raíz cuadrática** media es bastante común en el caso de regresión

Hay muchos casos de uso comercial importantes para problemas de clasificación en los que la variable dependiente (también denominada variable objetivo, que es el valor que
están tratando de predecir) es discreto, como abandono o detección de fraude. En estos casos, la variable respuesta tiene solo dos valores, es decir, churn o no churn y fraude o no fraude. 

Por ejemplo, supongamos que queremos predecir si un cliente abandonará $(y = 1)$ o no abandonará $(y = 0)$ después de suscribirse a un contrato de servicio móvil. 

Aquí, la probabilidad de que un cliente abandone se indica como $p = P(Abandono)$, y la posible variable explicativa $x$ incluye la antigüedad de la cuenta, el monto de facturación actual y el promedio de días de morosidad (es decir, el número promedio de días que una persona pierde realizar su pago). 

La siguiente figura ilustra cómo funciona una tarea de clasificación supervisada:



<figure>
<center><img src='https://drive.google.com/uc?export=view&id=1klL0Yma4R0Tw8iiG2CX7W2m8FR7efJWm' width="800" />
<figcaption>
Figura 7.1: El flujo de trabajo de una tarea de clasificación supervisada</figcaption></center>
</figure>


Como supervisor, proporcionamos al modelo las variables $(x,y)$, lo que permite al modelo calculer el parámetro theta $\theta$. Este parámetro se aprende de los datos de entrenamiento y también se denomina coeficiente. $x$ incluye las variables explicativas y
$y$ es la etiqueta de destino que proporcionamos al modelo para que el modelo aprenda los parámetros. Usando esto, el modelo produce una función $h(\theta)$, que asigna la entrada $x$ a una predicción $h_\theta(x)$.

Para el estudio de caso de predicción de abandono, $x$ se referirá a los atributos del cliente, que se introducirán en la función de mapeo $h(\theta)$ para predecir la probabilidad de abandono del cliente (variable objetivo $y$).

Los problemas de clasificación generalmente se pueden dividir en dos tipos:
- Clasificación binaria: la variable de destino solo puede tener dos valores categóricos o clases. Por ejemplo, dada una imagen, clasificar si es un gato o no.
- Clasificación multiclase: la variable de destino puede tener varias clases. Por ejemplo, dada una imagen, clasifique si es un gato, un perro, un conejo o un pájaro.

Ahora que hemos repasado los conceptos básicos de una tarea de clasificación supervisada, comencemos con el aprendizaje del modelo de línea de base de uso común en la clasificación 
- regresión logística.

#### Comprender la regresión logística
La regresión logística es uno de los métodos de clasificación más utilizados y funciona bien cuando los datos son linealmente separables. El objetivo de la regresión logística es
para aplastar la salida de la regresión lineal a las clases 0 y 1. 

Primero comprendamos la parte de "regresión" del nombre y por qué, a pesar de su nombre, la regresión logística es un modelo de clasificación.


## Revisando la regresión lineal

En el caso de la regresión lineal, nuestra función de mapeo sería la siguiente:
<h1><center>

$h_\theta(x) = \theta_o + \theta_1 * x$

Figura 7.2: Ecuación de regresión lineal
</center></h1>

Aquí, $x$ se refiere a los datos de entrada, $\theta_0$ y $\theta_1$ son parámetros que se aprenden de los datos de entrenamiento.

<!-- revisar este punto del capitulo anterior???  -->
Además, la **función de costo en el caso de la regresión lineal**, que debe minimizarse, es la raíz del error cuadrático medio (RMSE), que analizamos en el capítulo anterior.

Esto funciona bien para datos continuos, pero el problema surge cuando tenemos una variable objetivo categórica, como 0 ó 1. Cuando tratamos de usar la regresión lineal
para predecir la variable objetivo, podemos obtener un valor entre −$\infty$ y +$\infty$, que no es lo que necesitamos. 
<!-- necesitamos un 0 ó un 1 -->

Ahora que sabemos por qué no se puede usar la regresión lineal en tareas de clasificación, comprendamos cómo se puede usar la regresión logística como modelo de clasificación.

# Regresión logística

Si una variable de respuesta tiene valores binarios, los supuestos de regresión lineal no son válidos por las siguientes razones:

- La relación entre la variable independiente y la variable predictora no es lineal.
- Los términos de error son heteroscedásticos. Recuerde que heteroscedástico significa que la varianza de los términos de error no es la misma en todo el rango de x (datos de entrada).
- Los términos de error no se distribuyen normalmente.

Si procedemos, considerando estas violaciones, los resultados serían los siguientes:

- Las probabilidades pronosticadas pueden ser mayores que 1 o menores que 0.
- La magnitud de los efectos de las variables independientes puede estar subestimada.

Con la regresión logística, estamos interesados ​​en modelar la media de la variable de respuesta, $p$, en términos de una variable explicativa, $x$, como un modelo probabilístico en términos de la razón de posibilidades. La razón de posibilidades es la relación de dos probabilidades: la probabilidad de que ocurra el evento y la probabilidad de que no ocurra. Una razón de probabilidades alta significa que las posibilidades de que ocurra el evento son altas. De manera similar, un evento que ocurre raramente tendrá una razón de probabilidad baja. Una fórmula de modelo de regresión logística simple, que utiliza el concepto de razón de probabilidades, es la siguiente:

<center>
$logit(p)= log(\frac{p}{1-p}) =  \theta_0 + \theta_1 *  x_1 + \theta_2 *  x_2 + \theta_3 *  x_3 ... $

donde, $p$ es la probabilidad que un evento ocurra $p(y=1)$

$(\frac{p}{1-p})$ es la razón impar

$log(\frac{p}{1-p})$es el registro de probabilidades, o $logit$.

Figura 7.3: Fórmula del modelo de regresión logística simple
</center>






Con la regresión logística, todavía usamos la fórmula de regresión lineal. Sin embargo, aplastaremos la salida de la función lineal a un rango de 0 y 1 usando la función sigmoidea. La función sigmoidea es la inversa de la función logit:

<h1><center>

$ p =g(z) = \frac{1}{1+e^{-z} }$

Figura 7.4: Función sigmoidea
</center></h1>



<h1><center>

$ h_\theta(x) = \theta_0 + \theta_1 *  x_1 + \theta_2 *  x_2 + \theta_3 *  x_3 ...$

tomando $ (\theta_0 + \theta_1 *  x_1 + \theta_2 *  x_2 + \theta_3 *  x_3 ...) $ como $\theta^Tx $


$ g(\theta^Tx) = \frac{1}{1+e^{-\theta^Tx} }$

Figura 7.5: Aplastamiento de salida de ecuación lineal usando sigmoide
</center></h1>

Aquí, $z$ es cualquier número real.
Aplaste la salida de la ecuación lineal de la siguiente manera:

Aquí, tomamos la salida de hθ(x) y se la damos a la función g(z), que devuelve la función aplastada en el rango de 0 a 1.
Si ahora tratamos de trazar la función sigmoidea, terminaremos con una curva en forma de S, como se muestra en la Figura 7.6:

<figure>
<center><img src='https://drive.google.com/uc?export=view&id=1sgSAEVOXdUyKuwXeDnNysUS16Lagd4Mu' width="300" />
<figcaption>
Figura 7.6: Gráfico de la función sigmoidea</figcaption></center>
</figure>



Del gráfico anterior, es evidente que la función sigmoidea aplasta los valores
de −10 a +10 entre 0 y 1, mientras que la función lineal no puede hacerlo.
Hasta ahora, hemos cubierto el concepto de la función sigmoidea. Sin embargo, todavía tenemos que discutir la función de costo que podemos usar aquí. Todos los algoritmos de aprendizaje automático tienen como objetivo minimizar el valor de la función de costo para encontrar el mejor ajuste. También discutimos por qué RMSE no es una buena función de costo en el caso de las tareas de clasificación. Analicemos la función de costo utilizada en la regresión logística en la siguiente sección.

### Función de costo para regresión logística

La función sigmoidea que describimos anteriormente contiene un término no lineal. Debemos convertirlo en un término lineal, de lo contrario tendríamos una función compleja que sería difícil de optimizar. La función de costo de la regresión logística se puede definir
como sigue:

Aquí, tomamos la salida de $h\theta_0(x)$ y se la damos a la función $g(z)$, que devuelve la función aplastada en el rango de 0 a 1.
Si ahora tratamos de trazar la función sigmoidea, terminaremos con una curva en forma de S, como se muestra en la Figura 7.6:

<center>
$ cost  (g(\theta^Tx), y) =
\biggl\{
    \begin{array}{l}
        -log(g(\theta^Tx)) y = 1\\
        -log(1 - g(\theta^Tx)) y = 0
    \end{array}
$ 

Figura 7.7: Función de costo de regresión logística
</center>

Es fácil para el algoritmo optimizar la función de costo cuando tenemos un término lineal (vea la gráfica a la izquierda en la siguiente figura), mientras que se vuelve difícil para el algoritmo optimizar si nuestra función de costo no es lineal (vea la gráfico a la derecha en la siguiente figura):


<figure>
<center><img src='https://drive.google.com/uc?export=view&id=15_yUjiEfxzNOzLYQFpbXqeIc8a40ioHd' width="500" />
<figcaption>

Figura 7.8: Diferencia entre parcelas con términos lineales y no lineales</figcaption></center>
</figure>


Después de convertir nuestra función de costo $(J(\theta))$ para la regresión logística a un término lineal, finalmente obtenemos la siguiente ecuación:


<h1><center>

$j(\theta) = - \frac{1}{\text{no of rows}} \sum_{i=0}^{i = \text{no of rows}} y^i* log(g(\theta^Tx)+(1-y^i)*log(1 - g(\theta^Tx))$

Figure 7.9: Optimized logistic regression cost function
</center></h1>

Aquí, $\theta$ es el parámetro que el modelo aprende de los datos de entrenamiento. Ahora que hemos cubierto tanto la función de mapeo como la función de costo para la regresión logística, repasemos los supuestos del algoritmo de regresión logística, que nos ayudarán a comprender los escenarios en los que se puede aplicar.

### Supuestos de regresión logística

Los siguientes son los supuestos del algoritmo de regresión logística:
- A diferencia de la regresión lineal, la regresión logística no asume linealidad entre
las variables independientes (x) y la variable objetivo (y).
- La variable dependiente debe ser binaria (es decir, tener dos categorías).
- La variable independiente no necesita tener intervalos, estar normalmente distribuida, linealmente relacionada o tener la misma varianza dentro de cada grupo.
- Las categorías deben ser mutuamente excluyentes y exhaustivas.

Ahora que hemos repasado la teoría y los supuestos de la regresión logística, veamos cómo podemos implementarla usando el módulo scikit-learn. Estos son los pasos que debemos seguir:

1. Importe el módulo linear_model de scikit-learn:

In [1]:
from sklearn import linear_model


2. Cree un modelo de regresión logística:

In [2]:
logit = linear_model.LogisticRegression()

3. A continuación, podemos entrenar el modelo en el conjunto de datos de entrenamiento de la siguiente manera:

In [4]:
# logit.fit(X_train,y_train)

4. Finalmente, similar a la regresión lineal, podemos usar logit.predict(X) para hacer predicciones para un valor específico. Además, podemos usar logit.score(X_train,y_train) para obtener el puntaje de entrenamiento y logit.score(X_test,y_test) para obtener el puntaje de prueba para el modelo entrenado.

En las secciones anteriores, hemos discutido los supuestos junto con la función de mapeo y la función de costo de la regresión logística. También vimos cómo implementar la regresión logística usando la biblioteca scikit-learn en Python. Ahora es el momento de usar estos conceptos en el enunciado de un problema de la vida real.