# Regresión Logística: Conceptos Básicos  
**Objetivo**: Predecir la probabilidad de que una observación pertenezca a una clase (ej. 0 o 1) usando variables predictoras (X).  

## Ecuación  
$$ P(Y=1) = {1}/({1 + e^{-(beta_0 + beta_1 X)}}) $$  
- $P(Y=1)$: Probabilidad de pertenecer a la clase 1.  
- $\\beta_0$: Intercepto.  
- $\\beta_1$: Coeficiente de X.  

## Interpretación de Coeficientes  
- **Odds Ratio**: $e^{\\beta_1}$ indica cuánto aumentan las probabilidades de Y=1 por unidad de X.  
  - Ejemplo: Si $\\beta_1 = 0.5$, entonces $e^{0.5} → 65$% más de probabilidad.  
- **Umbral de Decisión**: Si $P(Y=1) >= 0.5$, clasificar como 1; de lo contrario, 0.  

## Pasos del Proceso  
1. **Preprocesamiento**: Limpieza, escalado y división de datos.  
2. **Entrenamiento**: Ajustar la función sigmoide que maximiza la verosimilitud.  
3. **Evaluación**: Calcular precisión, matriz de confusión y AUC-ROC.  

## Ejercicio  
Usa datos de salud del SENAMHI para predecir el riesgo de enfermedades respiratorias.  

**Dataset**: enfermedades_respiratorias.csv (edad, nivel_contaminacion, humedad, enfermo)  


# --- Carga de Datos

In [None]:
import pandas as pd
url = "https://raw.githubusercontent.com/ejemplo-umsa/datos/main/enfermedades_respiratorias.csv"
datos = pd.read_csv(url)

## Explorar datos con .head() y .describe()

# --- Preprocesamiento

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

## Seleccionar características (ej. edad, nivel_contaminacion, humedad)

In [None]:
X = datos[['edad', 'nivel_contaminacion', 'humedad']]
y = datos['enfermo']

## Manejar valores faltantes (¿Eliminar? ¿Imputar?)

## Estandarizar/normalizar características

# --- Modelado

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split



## Dividir datos en entrenamiento y prueba (80-20)

## Entrenar modelo y predecir

# --- Evaluación

## Calcular precisión, AUC-ROC y matriz de confusión

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix, roc_auc_score



## Generar curva ROC

## Matriz de Confusión  
Herramienta para evaluar el desempeño de un modelo de clasificación.  

|                     | Predicción 0 | Predicción 1 |  
|---------------------|--------------|--------------|  
| **Real 0**          | TN           | FP           |  
| **Real 1**          | FN           | TP           |  

- **TN (True Negative)**: Correctamente clasificado como 0.  
- **FP (False Positive)**: Incorrectamente clasificado como 1.  
- **FN (False Negative)**: Incorrectamente clasificado como 0.  
- **TP (True Positive)**: Correctamente clasificado como 1.  

**Métricas Derivadas**:  
- **Precisión**: $\\frac{TP + TN}{TP + TN + FP + FN}$  
- **Sensibilidad (Recall)**: $\\frac{TP}{TP + FN}$  
- **Especificidad**: $\\frac{TN}{TN + FP}$  

## Teoría sobre Curva ROC

Curva ROC y AUC  
- **ROC (Receiver Operating Characteristic)**: Gráfica de TPR (Tasa de Verdaderos Positivos) vs. FPR (Tasa de Falsos Positivos) para diferentes umbrales.  
- **AUC (Área Bajo la Curva)**: Medida de desempeño del modelo (1 = perfecto, 0.5 = aleatorio).  

**Interpretación**:  
- AUC > 0.9: Excelente.  
- AUC > 0.8: Bueno.  
- AUC > 0.7: Aceptable.  

# --- Preguntas de Repaso ---

1. ¿Qué representa el odds ratio en la regresión logística?  
2. ¿Por qué usamos la función sigmoide en lugar de una línea recta?  
3. ¿Qué indica un AUC-ROC de 0.75?  