## Regresión Logística

### <font color='navy'> ¿Qué es?  <font color='black'>

Es un modelo utilizado para predecir la probabilidad de ocurrencia de un evento binario. Se utiliza principalmente en problemas de clasificación donde existen dos clases, con base en esta probabilidad calculada asigna una clase a la observación. Habitualmente si $p > 0.5$ se clasifica como 1, si $p < 0.5$ se clasifica como 0.

Para calcular las probabilidades de predicción se realiza lo siguiente:

---

### <font color='navy'> ¿Cómo se calcula?  <font color='black'>

$$
z (\text{log odds}) = \beta^T X
$$

p se calcula:

$$
p = \frac{1}{1 + e^{-z}}
$$

---

### <font color='navy'> Verosimilitud  <font color='black'>

Dado un conjunto de datos $(X_i, y_i)$ con \( i = 1, $\dots$, m \), la **función de verosimilitud** es:

$$
L(\theta, \sigma^2) = \prod_{i=1}^{m} \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(y_i - \theta^T X_i)^2}{2\sigma^2}\right)
$$

Tomamos el **logaritmo de la verosimilitud**:

$$
\log L(\theta, \sigma^2) = \sum_{i=1}^{m} \left( -\frac{1}{2} \log(2\pi\sigma^2) - \frac{(y_i - \theta^T X_i)^2}{2\sigma^2} \right)
$$

#### **Relación con OLS**  

Para **maximizar la verosimilitud respecto a $\theta$ **, ignoramos términos constantes:

$$
\max_{\theta} \sum_{i=1}^{m} -\frac{(y_i - \theta^T X_i)^2}{2\sigma^2}
$$

Esto equivale a **minimizar el error cuadrático**:

$$
\min_{\theta} \sum_{i=1}^{m} (y_i - \theta^T X_i)^2
$$


**Conclusión:** Minimizar el error cuadrático con **OLS** es lo mismo que **maximizar la verosimilitud** bajo una **distribución normal de los errores**.


## <font color='navy'> Odds y Log Odds

### <font color='navy'> Odds  <font color='black'>

**Odds:** Mi equipo gana 1 a 4

Eso significa que odds = $\frac{1}{4}$

**Probabilidad de ganar:** 

$$
\frac{1}{1+4} = 0.2
$$

**Probabilidad de perder:** 

$$
1 - \frac{1}{1+4} = 0.8
$$

#### Otro ejemplo:

**Odds:** Mi equipo gana 5 a 3

Eso significa que odds = $\frac{5}{3}$

**Probabilidad de ganar:** 

$$
\frac{5}{5+3} = 0.625
$$

**Probabilidad de perder:** 

$$
1 - \frac{5}{5+3} = 0.375
$$

**Definición.** La probabilidad de ganar entre la probabilidad de perder.

$$
odds = \frac{p}{1-p}
$$

donde:
- $p$ es la probabilidad de ganar.

---

### <font color='navy'> Log Odds  <font color='black'>

$$
ln (odds) = ln (\frac{p}{1-p})
$$

Los coeficientes de la regresión logística se multiplican por X al igual que en la regresión lineal.

z (log odds) se calcula:

$$
z = \beta^T X
$$

p se calcula:

$$
p = \frac{1}{1 + e^{-z}}
$$

Si $p > 0.5$ se clasifica como 1, si $p < 0.5$ se clasifica como 0.

## <font color='navy'> Softmax

### <font color='navy'> ¿Qué es?  <font color='black'>

Se utiliza similar a la regresión logística, pero para problemas de clasificación de más de dos clases.

La función Softmax convierte los logits (salidas de la función lineal) en probabilidades:

$$
P(y = k | \mathbf{x}) = \frac{\exp(\mathbf{w}_k \cdot \mathbf{x} + b_k)}{\sum_{j=1}^{K} \exp(\mathbf{w}_j \cdot \mathbf{x} + b_j)}
$$

---

#### <font color='navy'> Ejemplo Numérico  <font color='black'>
Si tenemos 3 clases y logits calculados como:
$$
z_1 = 2.0, \quad z_2 = 1.0, \quad z_3 = -1.0
$$
Aplicamos Softmax:
$$
P(y=1) = \frac{e^2}{e^2 + e^1 + e^{-1}} = 0.72
$$
$$
P(y=2) = \frac{e^1}{e^2 + e^1 + e^{-1}} = 0.26
$$
$$
P(y=3) = \frac{e^{-1}}{e^2 + e^1 + e^{-1}} = 0.04
$$
Esto indica que la clase 1 es la más probable.

In [6]:
from sklearn.datasets import load_wine
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.model_selection import train_test_split
import pandas as pd 
import warnings
warnings.filterwarnings('ignore')

# Cargar el dataset Wine
data = load_wine()
X = data.data
y = data.target

# Crear un DataFrame con nombres de columnas
df = pd.DataFrame(X, columns=data.feature_names)
df["target"] = y  # Agregar la columna de la clase

from sklearn import linear_model

target = 'target'

X = df.drop(target, axis=1)

# Normalizar las características
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=42, stratify=y)

# Crear y entrenar el modelo de Regresión Logística Multiclase (Softmax)
model = linear_model.LogisticRegression(multi_class='multinomial').fit(X_train, y_train)

coeficientes = pd.DataFrame({
    'variables': X_train.columns,
    'thetas0': model.coef_[0],
    'thetas1': model.coef_[1],
    'thetas2': model.coef_[2]
})
coeficientes

Unnamed: 0,variables,thetas0,thetas1,thetas2
0,alcohol,-0.235408,0.400842,-0.165434
1,malic_acid,-0.01492,-0.585382,0.600302
2,ash,0.118567,-0.136948,0.018381
3,alcalinity_of_ash,-0.228178,0.001881,0.226297
4,magnesium,0.015556,0.053547,-0.069103
5,total_phenols,0.229336,0.154185,-0.383521
6,flavanoids,0.403906,0.352244,-0.756149
7,nonflavanoid_phenols,-0.018296,-0.015802,0.034098
8,proanthocyanins,0.004513,0.309328,-0.313841
9,color_intensity,-0.128707,-1.230895,1.359602


Las $\theta$'s generan los valores de z ($\theta^T X$) que se introducen al softmax.

## <font color='navy'> Redes Neuronales