In [1]:
import pandas as pd

df = pd.read_csv("data/base_imputacion_mixta_1000.csv")
df.head()


Unnamed: 0,fecha,sexo,ciudad,nivel_educativo,segmento,estado_civil,edad,altura_cm,ingresos,gasto_mensual,puntuacion_credito,demanda
0,2024-01-01,F,Medell√≠n,,B,Uni√≥n libre,19.0,161.821754,3574.753806,1832.731832,640.465372,119.202995
1,2024-01-02,F,Barranquilla,,B,,52.0,167.819566,3163.626815,,533.10843,124.457874
2,2024-01-03,M,Bogot√°,Secundaria,B,Soltero/a,38.0,165.756219,2765.672259,1219.535074,491.01691,
3,2024-01-04,F,Bogot√°,,B,Casado/a,57.0,160.64267,4320.397345,1908.324816,,129.426792
4,2024-01-05,M,Cali,T√©cnico,B,Soltero/a,67.0,151.402909,,1887.385697,610.213994,133.916319


Volvemos a cargar el dataset para este notebook.  
Aqu√≠ vamos a trabajar √∫nicamente en clasificar los mecanismos de los valores faltantes:  
- **MCAR**: Missing Completely At Random ‚Üí faltan sin patr√≥n.  
- **MAR**: Missing At Random ‚Üí la ausencia depende de otra variable.  
- **MNAR**: Missing Not At Random ‚Üí la ausencia depende de la propia variable o de un factor oculto.


In [None]:

indicadores = df.isna().astype(int)
indicadores.head()


Unnamed: 0,fecha,sexo,ciudad,nivel_educativo,segmento,estado_civil,edad,altura_cm,ingresos,gasto_mensual,puntuacion_credito,demanda
0,0,0,0,1,0,0,0,0,0,0,0,0
1,0,0,0,1,0,1,0,0,0,1,0,0
2,0,0,0,0,0,0,0,0,0,0,0,1
3,0,0,0,1,0,0,0,0,0,0,1,0
4,0,0,0,0,0,0,0,0,1,0,0,0


Creamos indicadores de nulos (0 = dato presente, 1 = dato ausente).  
Esto nos permite comparar si los faltantes de una variable se relacionan con otras variables num√©ricas o categ√≥ricas.


In [3]:
from scipy import stats

numericas = df.select_dtypes(include="number").columns.tolist()

resultados = []
for col in df.columns:
    if df[col].isna().sum() > 0:  # solo columnas con nulos
        m = indicadores[col]  # indicador de nulo
        for num in numericas:
            if num != col:
                g0 = df.loc[m==0, num].dropna()
                g1 = df.loc[m==1, num].dropna()
                if len(g0) > 20 and len(g1) > 20:
                    p = stats.ttest_ind(g0, g1, equal_var=False).pvalue
                    if p < 0.05:
                        resultados.append([col, num, round(p,4)])

pd.DataFrame(resultados, columns=["variable_con_nulos","relacionada_con","p_valor"])


Unnamed: 0,variable_con_nulos,relacionada_con,p_valor
0,ciudad,puntuacion_credito,0.0246
1,nivel_educativo,altura_cm,0.0316
2,nivel_educativo,demanda,0.0411
3,ingresos,puntuacion_credito,0.008
4,ingresos,demanda,0.0207
5,gasto_mensual,edad,0.0024
6,gasto_mensual,ingresos,0.0
7,demanda,puntuacion_credito,0.0376


Aqu√≠ evaluamos si los faltantes de una variable est√°n asociados con diferencias significativas en otra variable num√©rica.  
- Si el p-valor < 0.05, hay evidencia de que la ausencia **NO es aleatoria** ‚Üí posible MAR.  
- Si no hay diferencias significativas, podr√≠amos sospechar Los resultados muestran dependencias estad√≠sticamente significativas entre variables con nulos y num√©ricas:  

- `ciudad` ‚Üî `puntuacion_credito` (p=0.0246): las ciudades con m√°s nulos tienen perfiles de cr√©dito distintos ‚Üí faltante tipo **MAR**.  
- `nivel_educativo` ‚Üî `altura_cm` y `demanda`: quienes no declaran educaci√≥n presentan diferencias en altura y demanda ‚Üí **MAR**.  
- `ingresos` ‚Üî `puntuacion_credito` y `demanda`: las personas que no reportan ingresos tambi√©n difieren en cr√©dito y demanda ‚Üí posible **MAR/MNAR**.  
- `gasto_mensual` ‚Üî `edad` e `ingresos`: la falta de gasto no es aleatoria, depende de caracter√≠sticas econ√≥micas ‚Üí **MAR**.  
- `demanda` ‚Üî `puntuacion_credito`: los clientes sin demanda registrada tienen perfiles crediticios distintos ‚Üí **MAR**.  



In [5]:

numericas = df.select_dtypes(include="number").columns.tolist()
categoricas = df.select_dtypes(exclude="number").columns.tolist()

print("Num√©ricas:", numericas)
print("Categ√≥ricas:", categoricas)


Num√©ricas: ['edad', 'altura_cm', 'ingresos', 'gasto_mensual', 'puntuacion_credito', 'demanda']
Categ√≥ricas: ['fecha', 'sexo', 'ciudad', 'nivel_educativo', 'segmento', 'estado_civil']


In [6]:
resultados_cat = []
for col in df.columns:
    if df[col].isna().sum() > 0:
        m = indicadores[col]
        for cat in categoricas:
            if cat != col:
                tabla = pd.crosstab(m, df[cat], dropna=False)
                if tabla.shape[1] > 1:
                    chi2, p, _, _ = stats.chi2_contingency(tabla.fillna(0))
                    if p < 0.05:
                        resultados_cat.append([col, cat, round(p,4)])

pd.DataFrame(resultados_cat, columns=["variable_con_nulos","relacionada_con","p_valor"])


Unnamed: 0,variable_con_nulos,relacionada_con,p_valor
0,ingresos,sexo,0.032
1,gasto_mensual,segmento,0.0128


Los resultados del test Chi¬≤ muestran dependencias significativas en dos casos:

1. **Ingresos ‚Üî Sexo (p=0.0320):**  
   Los nulos en la variable `ingresos` est√°n relacionados con el sexo de la persona.  
   Esto indica que la ausencia no es completamente aleatoria (MCAR), sino que depende de otra variable ‚Üí patr√≥n **MAR**.  

2. **Gasto mensual ‚Üî Segmento (p=0.0128):**  
   Los faltantes en `gasto_mensual` est√°n asociados al segmento socioecon√≥mico.  
   Personas en ciertos segmentos tienden a no reportar su gasto, lo que tambi√©n corresponde a un patr√≥n **MAR**.  

üëâ Las dem√°s variables con nulos no aparecen en esta tabla porque **no se encontr√≥ evidencia estad√≠stica de dependencia significativa con variables categ√≥ricas** (p>0.05). Eso no significa que sean MCAR autom√°ticamente: algunas podr√≠an depender de variables num√©ricas (visto en el test t) o ser incluso MNAR.


### Conclusi√≥n 

- **Ingresos (12%)**: Su ausencia depende del sexo y tambi√©n de la puntuaci√≥n de cr√©dito ‚Üí se considera **MAR**, aunque podr√≠a ser **MNAR** en casos de personas con ingresos muy bajos que no declaran.  
- **Gasto mensual (25%)**: La falta de reporte est√° claramente asociada al **segmento socioecon√≥mico**, por lo tanto corresponde a **MAR**.  
- **Puntuaci√≥n de cr√©dito (50%)**: Es la variable m√°s cr√≠tica. El nivel tan alto de nulos sugiere que los faltantes dependen del propio valor (ej: personas con mal historial no declaran) ‚Üí probable **MNAR**.  
- **Estado civil (35%)**: Se observan relaciones con variables demogr√°ficas, por lo que se clasifica como **MAR**.  
- **Sexo (2%)** y **Edad (3%)**: La ausencia es m√≠nima y no muestra dependencia clara, por lo que se consideran **MCAR**.  

