La regresión logística es una herramienta estadística poderosa que nos permite modelar la probabilidad de que ocurra un evento. A diferencia de la regresión lineal, que predice valores numéricos continuos, la regresión logística se enfoca en predecir eventos binarios (sí/no, 1/0).

## ¿Cómo funciona en términos estadísticos?

## Modelo Matemático:

Función Logística: La base de la regresión logística es la función logística, también conocida como función sigmoide. Esta función transforma cualquier valor real en un valor entre 0 y 1, representando una probabilidad. La ecuación es:

$ p = \frac{1}{1 + e^{-z}} $ 

donde:
p: Probabilidad del evento
z: Combinación lineal de las variables predictoras y sus coeficientes (similar a la ecuación de la recta en la regresión lineal).

## Combinación Lineal:

z = β0 + β1*X1 + β2*X2 + ... + βn*Xn

donde:
β0: Intercepto
β1, β2, ..., βn: Coeficientes de las variables independientes
X1, X2, ..., Xn: Valores de las variables independientes

## Estimación de Coeficientes:

- Máxima Verosimilitud: El objetivo es encontrar los valores de los coeficientes que maximicen la probabilidad de obtener los datos observados. Esto se logra mediante un proceso iterativo que ajusta los coeficientes hasta encontrar el mejor ajuste.

## Interpretación de Coeficientes:

- Signo: Un coeficiente positivo indica que al aumentar el valor de la variable - independiente correspondiente, aumenta la probabilidad del evento. Un coeficiente negativo indica lo contrario.
- Magnitud: La magnitud del coeficiente refleja la importancia de la variable en la predicción.

## Predicción:

Una vez que tenemos los coeficientes estimados, podemos calcular la probabilidad de que ocurra el evento para nuevos datos. Si la probabilidad es mayor que un umbral determinado (por ejemplo, 0.5), se predice que el evento ocurrirá.

## ¿Por qué la función logística?

- Limita la probabilidad: Asegura que las predicciones siempre estén entre 0 y 1, lo que es ideal para probabilidades.
- No linealidad: Permite modelar relaciones no lineales entre las variables.

## En resumen:
La regresión logística es un modelo estadístico que utiliza una función logística para modelar la probabilidad de un evento binario en función de una o más variables independientes. Al estimar los coeficientes del modelo, podemos entender la importancia de cada variable y hacer predicciones precisas.

In [None]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Generar datos de ejemplo
np.random.seed(0)
X = np.random.rand(100, 2)
y = (X[:, 0] + X[:, 1] > 1).astype(int)