In [1]:
import pandas as pd

In [2]:
def dist_condicionada(data,col,cond,rev=False,dropna=True):
    
    """ Distribución de la columna col condicionada por la columna cond y diferencias relativas con la
    distribución no condicionada de la variable col.
    Si rev=True, distribución de cond condicionada por col.
    Si dropna=True, prescinde de registros NaN."""
    
    df=data[[col,cond]]

    # Permutación de col y cond con rev==True:
    if rev==True:
        temp=col
        col=cond
        cond=temp
    
    # Para incluir NaNs en la cuenta con groupby: 
    if dropna==False: 
        df=df.astype(str)
        
    # Frecuencias relativas condicionadas:
    fr=pd.DataFrame(df.groupby(cond)[col].value_counts(normalize=True))
    fr.rename(columns={fr.columns[-1]:'1. fr. relativas condicionadas'},inplace=True)
    
    # Columna con distribución no condicionada de variable col (frecuencias relativas):
    no_cond=pd.DataFrame(df[col].value_counts(normalize=True))
    no_cond.rename(columns={no_cond.columns[-1]:'no condicionada'},inplace=True)
    fr=fr.merge(no_cond,left_on=col,right_index=True)
    
    # Columna de diferencias entre distribuciones condicionadas y no condicionada:
    fr['dif']=fr['1. fr. relativas condicionadas'].sub(fr['no condicionada'])
    
    # Columna auxiliar de diferencias relativas (respecto a frecuencias no condicionadas):
    fr['3. dif relativas']=fr['dif'].div(fr['no condicionada'])
    
    pt=pd.pivot_table(data=fr,index=col,columns=[cond],\
                      values=['1. fr. relativas condicionadas','3. dif relativas'])
    pt.sort_index(inplace=True)
    
    # Nueva columna de frecuencias no condicionadas (más sencillo que ajustar la auxiliar):
    pt['2. fr relativas '+str(col)]=df[col].value_counts(normalize=True)
    
    # Reordenación de columnas:
    pt=pt[pt.sort_index(axis=1,ascending=True).columns]
    
    # Formato: 
    n=df[cond].nunique()
    m=pt.shape[1]
    d_style=dict(zip(pt.columns,['{:,.2}']*(m-n)+['{:+,.2%}']*n))
    pt=pt.style.format(d_style)
    
    return pt

In [3]:
# Ilustración: 

df=pd.DataFrame({'Nombre': ['Lola',None,'Lola','Lola','Juana','Juana','Erika','Filomena','Filomena','Filomena'],
        'Edad':['edad 1','edad 2','edad 2','edad 3','edad 2','edad 2','edad 1','edad 2','edad 3',None]})
df

Unnamed: 0,Nombre,Edad
0,Lola,edad 1
1,,edad 2
2,Lola,edad 2
3,Lola,edad 3
4,Juana,edad 2
5,Juana,edad 2
6,Erika,edad 1
7,Filomena,edad 2
8,Filomena,edad 3
9,Filomena,


In [4]:
dist_condicionada(df,'Nombre','Edad',dropna=False)

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas Nombre,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas
Edad,None,edad 1,edad 2,edad 3,Unnamed: 5_level_1,None,edad 1,edad 2,edad 3
Nombre,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
Erika,,0.5,,,0.1,+nan%,+400.00%,+nan%,+nan%
Filomena,1.0,,0.2,0.5,0.3,+233.33%,+nan%,-33.33%,+66.67%
Juana,,,0.4,,0.2,+nan%,+nan%,+100.00%,+nan%
Lola,,0.5,0.2,0.5,0.3,+nan%,+66.67%,-33.33%,+66.67%
,,,0.2,,0.1,+nan%,+nan%,+100.00%,+nan%


In [5]:
dist_condicionada(df,'Nombre','Edad')

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas Nombre,3. dif relativas,3. dif relativas,3. dif relativas
Edad,edad 1,edad 2,edad 3,Unnamed: 4_level_1,edad 1,edad 2,edad 3
Nombre,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
Erika,0.5,,,0.11,+350.00%,+nan%,+nan%
Filomena,,0.25,0.5,0.33,+nan%,-25.00%,+50.00%
Juana,,0.5,,0.22,+nan%,+125.00%,+nan%
Lola,0.5,0.25,0.5,0.33,+50.00%,-25.00%,+50.00%


In [6]:
dist_condicionada(df,'Nombre','Edad',rev=True)

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas Edad,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas
Nombre,Erika,Filomena,Juana,Lola,Unnamed: 5_level_1,Erika,Filomena,Juana,Lola
Edad,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
edad 1,1.0,,,0.33,0.22,+350.00%,+nan%,+nan%,+50.00%
edad 2,,0.5,1.0,0.33,0.56,+nan%,-10.00%,+80.00%,-40.00%
edad 3,,0.5,,0.33,0.22,+nan%,+125.00%,+nan%,+50.00%
