# Regresión Logistica

#### ¿Que es?
La regresión logística es una técnica de análisis de datos utilizada para encontrar las relaciones entre dos factores de datos. Una vez hallada esta relación, se utiliza para predecir el valor de uno de esos factores basándose en el otro. Habitualmente, la predicción tiene un número finito de resultados, como un sí o un no.

#### Ejemplo:
Supongamos que buscamos adivinar si el potencial visitante de su sitio web va a hacer clic en el botón de pago de su carrito de compras o no. El análisis de regresión logística analiza el comportamiento de los visitantes previos, obteniendo datos tales como el tiempo que permanecen en el sitio web y la cantidad de artículos que tienen en su carrito. Se determina que, si anteriormente los visitantes pasaban más de cinco minutos en el sitio y agregaban más de tres artículos al carrito, hacían clic en el botón de pago. Con esta información, la función de regresión logística puede predecir el comportamiento de un nuevo visitante en el sitio web.

#### Importancia de la regresión logística
La regresión logística es una técnica importante en el campo de la inteligencia artificial y el machine learning (AI/ML). Los modelos de ML son programas de software que puede entrenar para realizar tareas complejas de procesamiento de datos sin intervención humana. Los modelos de ML creados mediante regresión logística ayudan a las organizaciones a obtener información procesable a partir de sus datos empresariales. Pueden usar esta información para el análisis predictivo a fin de reducir los costos operativos, aumentar la eficiencia y escalar más rápido. Por ejemplo, las empresas pueden descubrir patrones que mejoran la retención de los empleados o conducen a un diseño de productos más rentable.

A continuación, enumeramos algunos beneficios del uso de la regresión logística en comparación con otras técnicas de ML.

- **Simplicidad:**
Son matemáticamente mas sencillos que otros métodos de ML. Por lo tanto, puede implementarlos incluso si nadie en su equipo tiene una gran experiencia en ML.

- **Velocidad:**
Pueden procesar grandes volúmenes de datos a alta velocidad porque requieren menos capacidad computacional. Esto los hace ideales para que las organizaciones que están comenzando con proyectos de ML obtengan resultados rápidos.

- **Flexibilidad:**
Se puede utilizar ara encontrar respuestas a preguntas que tienen dos o más resultados finitos. Además se puede usar para preprocesar datos. Por ejemplo, se pueden ordenar los datos con un amplio rango de valores, como las transacciones bancarias, en un rango de valores más pequeño y finito mediante esta regresión. A continuación, puede procesar este conjunto de datos más pequeño a través el uso de otras técnicas de ML para obtener un análisis más preciso y completo.

- **Visibilidad:**
La solución de problemas y la corrección de errores también son más fáciles porque los cálculos son menos complejos ofreciendo a los desarrolladores una mayor visibilidad de los procesos de software internos.

#### Aplicaciones

- **Fabricación:**
Las empresas de fabricación utilizan este análisis para estimar la probabilidad de fallo de las piezas en la maquinaria. Luego, planifican los programas de mantenimiento en función de esta estimación para minimizar los fallos futuros.

- **Sanidad:**
Los investigadores médicos planifican la atención y el tratamiento preventivos mediante la predicción de la probabilidad de enfermedad en los pacientes. Utilizan modelos de regresión logística para comparar el impacto de los antecedentes familiares o los genes en las enfermedades.

- **Finanzas:**
Las empresas financieras tienen que analizar las transacciones financieras en busca de fraudes y evaluar las solicitudes de préstamos y seguros en busca de riesgos. Estos problemas son adecuados para un modelo de regresión logística porque tienen resultados discretos, como alto riesgo o bajo riesgo y fraudulento o no fraudulento.

- **Marketing:**
Las herramientas de publicidad en línea utilizan el modelo de regresión logística para predecir si los usuarios harán clic en un anuncio. Como resultado, los especialistas en marketing pueden analizar las respuestas de los usuarios a diferentes palabras e imágenes y crear anuncios de alto rendimiento con los que los clientes interactuarán.

#### Funcionamiento del análisis de regresión
Esta regresión es una de las diferentes técnicas de análisis de regresión que los científicos de datos utilizan habitualmente en machine learning (ML).
Para entender la regresión logística, primero debemos entender el análisis de regresión básica. A continuación, mostraremos un ejemplo de análisis de regresión lineal para demostrarlo.

- **Identificar la pregunta:**
Cualquier análisis de datos comienza con una pregunta empresarial. Para la regresión logística, hay que formular la pregunta para obtener resultados concretos:

¿Los días de lluvia afectan nuestras ventas mensuales? (sí o no)
¿Qué tipo de actividad de tarjeta de crédito realiza el cliente? (autorizado, fraudulento o potencialmente fraudulento)

1. **Recopilar datos históricos:**
Una vez identificada la pregunta, se identifican los factores de los datos que intervienen. Luego, recopilará datos anteriores para todos los factores. Por ejemplo, para responder a la primera pregunta que se muestra arriba, puede recopilar el número de días de lluvia y los datos de ventas mensuales de cada mes en los últimos tres años.

2. **Entrenar el modelo de análisis de regresión:**
Se procesan los datos históricos mediante un software de regresión. El software procesará los diferentes puntos de datos y los conectará matemáticamente mediante ecuaciones. Por ejemplo, si el número de días lluviosos durante tres meses es 3, 5 y 8 y el número de ventas en esos meses es 8, 12 y 18, el algoritmo de regresión conectará los factores con la ecuación:

Número de ventas = 2* (número de días lluviosos) + 2

4. **Realizar predicciones para valores desconocidos:**
Para valores desconocidos, el software utiliza la ecuación para hacer una predicción. Si sabe que lloverá durante seis días en julio, el software calculará el valor de venta de julio en 14.

#### Funcionamiento del modelo de regresión
Para entender el modelo de regresión logística, primero vamos a entender las ecuaciones y las variables.

**Ecuaciones:**
En matemáticas, las ecuaciones dan la relación entre dos variables: x e y. Puede usar estas ecuaciones, o funciones, para trazar un gráfico a lo largo de los ejes x e y poniendo diferentes valores de x e y. Por ejemplo, si traza el gráfico para la función y = 2*x, obtendrá una línea recta como se muestra a continuación. Por lo tanto, esta función también se denomina función lineal.

![alt text](gráfico1.png)

- **Variables:**
En estadística, las variables son los factores o atributos de datos cuyos valores varían. Para cualquier análisis, ciertas variables son independientes o explicativas. Estos atributos son la causa de un resultado. Otras variables son variables dependientes o de respuesta; sus valores dependen de las variables independientes. En general, la regresión logística explora cómo las variables independientes afectan a una variable dependiente al observar los valores de datos históricos de ambas variables.

En nuestro ejemplo anterior,x se denomina variable independiente, variable predictora o variable explicativa porque tiene un valor conocido. Y se denomina variable dependiente, variable de resultado o variable de respuesta porque se desconoce su valor.

- **Función de regresión logística:**
La regresión logística es un modelo estadístico que utiliza la función logística, o función logit, en matemáticas como la ecuación entre x ey. La función logit mapea y como una función sigmoidea de x.

![alt text](fórmula1.png)

Si representa esta ecuación de regresión logística, obtendrá una curva en S como la que se muestra a continuación.

![alt text](gráfico2.png)

Como puede ver, la función logit devuelve solo valores entre 0 y 1 para la variable dependiente, al margen de los valores de la variable independiente. Así es como la regresión logística estima el valor de la variable dependiente. Los métodos de regresión logística también modelan ecuaciones entre múltiples variables independientes y una variable dependiente.

- **Análisis de regresión logística con múltiples variables independientes:**
En muchos casos, múltiples variables explicativas afectan al valor de la variable dependiente. Para modelar dichos conjuntos de datos de entrada, las fórmulas de regresión logística asumen una relación lineal entre las diferentes variables independientes. Puede modificar la función sigmoidea y calcular la variable de salida final como

y = f(β0 + β1x1 + β2x2+… βnxn)

El símbolo β representa el coeficiente de regresión. El modelo logit puede calcular de forma inversa estos valores de coeficientes cuando se le proporciona un conjunto de datos experimentales suficientemente grande con valores conocidos de variables dependientes e independientes.

- **Registrar probabilidades:**
El modelo logit también puede determinar la relación entre el éxito y el fracaso o registrar las probabilidades. Por ejemplo, si estaba jugando al póker con sus amigos y ganó cuatro partidos de 10, sus probabilidades de ganar son cuatro sextos, o cuatro de seis, que es la relación entre su éxito y su fracaso. La probabilidad de ganar, por otro lado, es de cuatro sobre 10.

Matemáticamente, sus probabilidades en términos de probabilidad son p/(1 - p), y sus registros de probabilidades son (p/[1 - p]). Se puede representar la función logística como registro de probabilidades como se muestra a continuación:

![alt text](fórmula2.png)

#### Típos de análisis de regresión logística
Hay tres enfoques para el análisis de regresión logística basados en los resultados de la variable dependiente.

- **Regresión logística binaria:**
La regresión logística binaria funciona bien para problemas de clasificación binaria que solo tienen dos resultados posibles. La variable dependiente solo puede tener dos valores, como sí y no o 0 y 1.

Aunque la función logística calcula un rango de valores entre 0 y 1, el modelo de regresión binaria redondea la respuesta a los valores más cercanos. Por lo general, las respuestas por debajo de 0,5 se redondean a 0 y las respuestas por encima de 0,5 se redondean a 1, de modo que la función logística devuelve un resultado binario.

- **Regresión logística multinomial:**
La regresión multinomial puede analizar problemas que tienen varios resultados posibles, siempre y cuando el número de resultados sea finito. Por ejemplo, puede predecir si los precios de la vivienda aumentarán un 25 %, 50 %, 75 % o 100 % en función de los datos de población, pero no puede predecir el valor exacto de una casa.

La regresión logística multinomial funciona mapeando los valores de resultado con diferentes valores entre 0 y 1. Como la función logística puede devolver un rango de datos continuos, como 0,1, 0,11, 0,12, etc., la regresión multinomial también agrupa el resultado a los valores más cercanos posibles.

- **Regresión logística ordinal**
La regresión logística ordinal, o el modelo logit ordenado, es un tipo especial de regresión multinomial para problemas en los que los números representan rangos en lugar de valores reales. Por ejemplo, puede utilizar la regresión ordinal para predecir la respuesta a una pregunta de una encuesta en la que se pide a los clientes que clasifiquen su servicio como malo, regular, bueno o excelente en función de un valor numérico, como el número de artículos que le han comprado a lo largo del año.

#### Comparación de regresión logística con otras técnicas
Las dos técnicas comunes de análisis de datos son el análisis de regresión lineal y el aprendizaje profundo.

- **Análisis de regresión lineal:**
Como se explicó anteriormente, la regresión lineal modela la relación entre variables dependientes e independientes mediante el uso de una combinación lineal. La ecuación de regresión lineal es

y= β0X0 + β1X1 + β2X2+… βnXn+ ε, donde β1 a βn y ε son coeficientes de regresión.

- **Regresión logística vs. regresión lineal:**
La regresión lineal predice una variable dependiente continua mediante el uso de un conjunto dado de variables independientes. Una variable continua puede tener un rango de valores, como el precio o la antigüedad. Por lo tanto, la regresión lineal puede predecir los valores reales de la variable dependiente. Puede responder a preguntas como “¿Cuál será el precio del arroz después de 10 años?”

A diferencia de la regresión lineal, la regresión logística es un algoritmo de clasificación. No puede predecir los valores reales de los datos continuos. Puede responder a preguntas como “¿Aumentará el precio del arroz un 50 % en 10 años?”

- **Aprendizaje profundo**
El aprendizaje profundo utiliza redes neuronales o componentes de software que simulan el cerebro humano para analizar la información. Los cálculos de aprendizaje profundo se basan en el concepto matemático de vectores.

- **Regresión logística frente a aprendizaje profundo**
La regresión logística es menos compleja y requiere menos recursos informáticos que el aprendizaje profundo. Y lo que es más importante, los desarrolladores no pueden investigar ni modificar los cálculos de aprendizaje profundo, debido a su naturaleza compleja y dirigida por la máquina. Por otro lado, los cálculos de regresión logística son transparentes y más fáciles de solucionar.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
import seaborn as sn

Cargamos el dataset y lo convertimos en un DataFrame. Vamos a utilizar un dataset conocido, el de las flores de iris.


In [None]:
iris = datasets.load_iris()
df_iris = pd.DataFrame(iris['data'],columns = iris['feature_names'])
df_iris['target'] = iris['target']

# Here, I have selected only two classes 0 and 1
df_iris = df_iris[df_iris.target != 2]

df_iris

Creamos el modelo

In [None]:
iris_model = LogisticRegression(max_iter=1000)

Construimos nuestro X e Y

In [None]:
X = df_iris.iloc[:,[0,1]]
y = df_iris['target']

X

Al igual que con la regresión lineal, vamos a separar el dataset para el entrenamiento

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.30)

In [None]:
iris_model.fit(X_train, y_train)

In [None]:
iris_model.intercept_, iris_model.coef_

In [None]:
weights = [iris_model.intercept_[0],iris_model.coef_[0,0],iris_model.coef_[0,1]]

### Trazado del límite de decisión

In [None]:
g =sn.scatterplot(x="sepal length (cm)",y="sepal width (cm)",
              hue="target",
              data=df_iris,palette=['green','red']);

x1 = (-weights[0] - weights[2] * df_iris.iloc[0,1])/weights[1]
x2 = (-weights[0] - weights[2] * df_iris.iloc[4,1])/weights[1]

plt.axline((x1, df_iris.iloc[0,1]), (x2, df_iris.iloc[4,1]), color = "green")
