# Prueba de Independencia Chi-cuadrado ($\chi^2$)

La prueba Chi-cuadrado se utiliza para determinar si existe una **asociación significativa** entre dos variables categóricas. En ML, la usamos para saber si una característica (feature) aporta información relevante para predecir nuestra etiqueta.

### 1. La Intuición Detrás de la Prueba
Imagina que queremos saber si el género de una persona influye en si compra o no un producto.
* **Hipótesis Nula ($H_0$):** No hay relación. El género y la compra son independientes.
* **Hipótesis Alternativa ($H_1$):** Existe una relación significativa.

La prueba compara los **Valores Observados** (lo que pasó en la realidad) contra los **Valores Esperados** (lo que debería pasar si no hubiera ninguna relación).

### 2. La Fórmula
Para calcular el estadístico, usamos:

$$\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}$$

Donde:
* $O_i$: Frecuencia observada.
* $E_i$: Frecuencia esperada.

### 3. Ejemplo Didáctico: El Helado y el Clima
Queremos ver si la elección del sabor de helado (Chocolate vs. Vainilla) depende de si es Verano o Invierno.

#### Tabla de Contingencia (Observados)
| Clima / Sabor | Chocolate | Vainilla | Total |
| :--- | :---: | :---: | :---: |
| **Verano** | 80 | 20 | **100** |
| **Invierno** | 30 | 70 | **100** |
| **Total** | **110** | **90** | **200** |

#### ¿Cómo calculamos lo "Esperado"?
Si el clima **no influyera**, esperaríamos que los sabores se repartieran proporcionalmente. 
El valor esperado para (Verano, Chocolate) sería: 
$$E = \frac{\text{Total Fila} \times \text{Total Columna}}{\text{Total General}} = \frac{100 \times 110}{200} = 55$$

#### Interpretación de Resultados
1.  Si el valor $\chi^2$ calculado es **muy alto**, significa que hay una gran diferencia entre lo observado y lo esperado $\rightarrow$ **Las variables están relacionadas.**
2.  Si el valor es **cercano a cero**, las variables son independientes.
3.  **P-valor:** Si el $p \text{-valor} < 0.05$, rechazamos la independencia y decimos que la variable es útil para nuestro modelo.

---



### 4. ¿Por qué es útil en Machine Learning?
* **Feature Selection:** Si una variable categórica tiene un p-valor muy alto (ej. 0.8), significa que no tiene relación con el target y puedes eliminarla para simplificar el modelo.
* **Ahorro de recursos:** Entrenarás modelos más rápidos al usar solo variables que estadísticamente "importan".