# Maestría en Ciencia de Datos e Inteligencia Artificial
## Módulo: 09: Minería de Datos
### 2025

### *Msc Renzo Claure*
---

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
import pandas as pd
import seaborn as sns

## 1. Visualizando la Función Logística
La función logística es:

$f(x) = \frac{1}{1 + e^{-x}}$  


In [None]:
def logistic(x):
    return 1 / (1 + np.exp(-x))

x = np.linspace(-10, 10, 400)
y = logistic(x)

#función logistica
plt.figure(figsize=(8, 5))
plt.plot(x, y, label='f(x) = 1/(1+exp(-x))')
plt.title('Función Logística')
plt.xlabel('x')
plt.ylabel('f(x)')
plt.legend()
plt.grid(True)
plt.show()

## 2. Ejemplo Práctico: Ajuste de un Modelo de Regresión Logística

Generaremos un conjunto de datos sintético para un problema de clasificación binaria y ajustaremos un modelo de regresión logística.

In [None]:
X, y = make_classification(n_samples=1000, n_features=1, n_informative=1, 
                           n_redundant=0, n_clusters_per_class=1, random_state=42)

# Visualizar los datos
plt.figure(figsize=(8, 5))
plt.scatter(X, y, alpha=0.4)
plt.title('Datos Sintéticos para Clasificación Binaria')
plt.xlabel('Característica')
plt.ylabel('Clase')
plt.grid(True)
plt.show()

In [None]:
#modelo de RL
model = LogisticRegression()
model.fit(X, y)

#oeficiente e intersección
coef = model.coef_[0][0]
intercept = model.intercept_[0]
print(f"Coeficiente: {coef:.3f}")
print(f"Intercepción: {intercept:.3f}")

# curva de regresión logística sobre los datos
X_plot = np.linspace(X.min()-1, X.max()+1, 300).reshape(-1, 1)
y_prob = model.predict_proba(X_plot)[:, 1]

plt.figure(figsize=(8, 5))
plt.scatter(X, y, alpha=0.4, label='Datos reales')
plt.plot(X_plot, y_prob, color='red', linewidth=2, label='Curva logística')
plt.title('Regresión Logística Ajustada')
plt.xlabel('Característica')
plt.ylabel('Probabilidad')
plt.legend()
plt.grid(True)
plt.show()

En la regresión logística, el coeficiente se puede interpretar en términos de odds ratio.  
La relación es:  

$
OR = p/(1-p)
$

$
OR = e^{\beta}
$  

Donde $\beta$ es el coeficiente estimado.  
Calculemos el odds ratio para nuestro modelo:

In [None]:
# odds ratio
odds_ratio = np.exp(coef)
print(f"Odds Ratio: {odds_ratio:.3f}")

Interpretación:  
Un odds ratio (OR) de 36.601 implica que, manteniendo constantes las demás variables del modelo, un incremento de una unidad en la variable predictora asociada multiplica los odds (la razón de probabilidades de éxito frente a fracaso) por aproximadamente 36.6. En otras palabras:

- Interpretación directa: Si, por ejemplo, la variable predictora aumenta en una unidad, la probabilidad de que ocurra el evento de interés (por ejemplo, una enfermedad, un resultado positivo en un diagnóstico, etc.) se incrementa de forma tan significativa que los odds pasan a ser 36.601 veces mayores que los originales.

- Impacto significativo: Este valor indica una asociación muy fuerte entre la variable predictora y el resultado. Es decir, dicha variable tiene un efecto sustancial en la probabilidad del evento.

- Cautela en la interpretación: Es importante considerar el contexto y la escala de la variable. Si la variable se mide en una escala en la que un cambio de una unidad representa un cambio muy grande, el OR puede verse inflado. Además, conviene evaluar el intervalo de confianza del OR para determinar la precisión de esa estimación y descartar que el valor extremo sea producto de la variabilidad muestral o de algún problema en los datos.