## üß™ Prueba de Little (MCAR) desde cero

---

### üë®‚Äçüè´ ¬øQu√© busca la prueba?

La prueba de **Little (1988)** eval√∫a si los valores faltantes son **completamente aleatorios** (**MCAR**), usando un enfoque similar a una **chi-cuadrada multivariada** sobre las medias y covarianzas de los datos.

### üìã Idea central:

Se basa en:

* Separar los datos en **patrones de ausencia de datos**
* Calcular medias y covarianzas por patr√≥n
* Comparar esas estad√≠sticas con el total usando una f√≥rmula de **estad√≠stico chi-cuadrado**

---

## üî¢ Paso a paso (con explicaci√≥n):

### 1. **Identificar los patrones de valores faltantes**

```python
import pandas as pd
import numpy as np

# Dataset de ejemplo
df = pd.DataFrame({
    'x1': [1.2, 2.4, np.nan, 1.5, 2.1],
    'x2': [3.1, 2.9, 3.5, np.nan, 3.0],
    'x3': [np.nan, 4.0, 4.2, 4.1, 4.3]
})

# Crear un patr√≥n por fila basado en valores faltantes
patterns = df.isnull().astype(int)
df['pattern'] = patterns.apply(lambda row: ''.join(row.astype(str)), axis=1)
```

Esto te da, por ejemplo:

```
pattern:
101
000
010
100
000
```

---

### 2. **Calcular la media y covarianza total (para datos completos)**

```python
# Solo usamos las filas completas para calcular la "media poblacional"
complete_cases = df[df['pattern'] == '000'].drop(columns='pattern')

mu = complete_cases.mean()
Sigma = complete_cases.cov()
Sigma_inv = np.linalg.inv(Sigma)
```

Esto es importante porque **comparamos cada patr√≥n de datos faltantes contra estos par√°metros "generales"**.

---

### 3. **Para cada patr√≥n, computar su estad√≠stico chi-cuadrado**

F√≥rmula:

$$
\chi^2 = \sum_{g=1}^{G} n_g \cdot (\bar{x}_g - \mu_g)^T \Sigma_g^{-1} (\bar{x}_g - \mu_g)
$$

Donde:

* $g$ es cada patr√≥n
* $n_g$: n√∫mero de observaciones con ese patr√≥n
* $\bar{x}_g$: vector media de ese patr√≥n
* $\mu_g$: vector media total solo en las variables disponibles
* $\Sigma_g^{-1}$: submatriz de la inversa de covarianza correspondiente a las variables presentes

---

### 4. **Implementaci√≥n del c√°lculo completo**

```python
chi2 = 0
df_total = df.drop(columns='pattern')

for pattern, group in df.groupby('pattern'):
    observed_vars = [col for col, flag in zip(df_total.columns, list(pattern)) if flag == '0']
    
    if len(observed_vars) == 0 or len(group) < 2:
        continue  # no puedes calcular media o covarianza con menos de 2 filas

    x_g_bar = group[observed_vars].mean()
    mu_g = mu[observed_vars]
    Sigma_g = Sigma.loc[observed_vars, observed_vars]
    Sigma_g_inv = np.linalg.inv(Sigma_g)
    
    diff = (x_g_bar - mu_g).values.reshape(-1, 1)
    chi2 += len(group) * float(diff.T @ Sigma_g_inv @ diff)
```

---

### 5. **Grados de libertad y p-valor**

$$
\text{gl} = \sum_{g} p_g - p
$$

Donde:

* $p_g$ = n√∫mero de variables observadas en patr√≥n $g$
* $p$ = n√∫mero total de variables

```python
from scipy.stats import chi2 as chi2_dist

df_list = []
for pattern, group in df.groupby('pattern'):
    p_g = sum([1 for i in pattern if i == '0'])
    df_list.append(p_g)

total_df = sum(df_list) - len(df_list) * df_total.shape[1]
p_value = 1 - chi2_dist.cdf(chi2, df=total_df)
```

---

## ‚úÖ Resultado final

```python
print(f"Estad√≠stico Chi-cuadrado: {chi2:.4f}")
print(f"Grados de libertad: {total_df}")
print(f"Valor p: {p_value:.4f}")

if p_value > 0.05:
    print("‚úÖ No se rechaza MCAR. Los valores faltantes podr√≠an ser completamente aleatorios.")
else:
    print("‚ùå Se rechaza MCAR. Los valores faltantes no parecen completamente aleatorios (probablemente MAR o MNAR).")
```

---

## üìå Conclusi√≥n

Esto reproduce la l√≥gica de la **Prueba de Little** *sin usar librer√≠as externas* (excepto `scipy.stats.chi2` para calcular el p-valor, aunque tambi√©n podr√≠as hacerlo con tablas).

¬øTe gustar√≠a que convierta todo esto a un solo bloque limpio para tu `.ipynb`, con comentarios inline y ejemplos listos para correr?
