# Comparacion de Documento de Pato.xlsx vs Clusters.xlsx

In [17]:
import pandas as pd
import numpy as np

In [18]:
# Cargar ambos archivos.
Df_Pato = pd.read_excel('Datos crudos/Clusters.xlsx')
Df_Clusters = pd.read_excel('items_clusters_gyb.xlsx')

print(f'Documento de Pato: {Df_Pato.shape}')
print(f'Clusters.xlsx: {Df_Clusters.shape}')

Documento de Pato: (4040, 28)
Clusters.xlsx: (4040, 26)


In [19]:
# Ver columnas de cada archivo.
print('Columnas en Documento de Pato:')
print(Df_Pato.columns.tolist())
print()
print('Columnas en Clusters.xlsx:')
print(Df_Clusters.columns.tolist())

Columnas en Documento de Pato:
['ID', 'IP_Item_3_Respuesta', 'IP_Item_4_Respuesta', 'IP_Item_7_Respuesta', 'IP_Item_8_Respuesta', 'IP_Item_10_Respuesta', 'IP_Item_19_Respuesta', 'IP_Item_22_Respuesta', 'IP_Item_23_Respuesta', 'IP_Item_29_Respuesta', 'IP_Item_30_Respuesta', 'IP_Item_5_Respuesta', 'IP_Item_6_Respuesta', 'IP_Item_9_Respuesta', 'IP_Item_11_Respuesta', 'IP_Item_16_Respuesta', 'IP_Item_20_Respuesta', 'IP_Item_24_Respuesta', 'IP_Item_25_Respuesta', 'IP_Item_27_Respuesta', 'IP_Item_28_Respuesta', 'Election', 'Conservative_Vector', 'Progressive_Vector', 'Conservative_Cluster', 'Progressive_Cluster', 'Conservative_Median', 'Progressive_Median']

Columnas en Clusters.xlsx:
['ID', 'IP_Item_3_Respuesta', 'IP_Item_4_Respuesta', 'IP_Item_7_Respuesta', 'IP_Item_8_Respuesta', 'IP_Item_10_Respuesta', 'IP_Item_19_Respuesta', 'IP_Item_22_Respuesta', 'IP_Item_23_Respuesta', 'IP_Item_29_Respuesta', 'IP_Item_30_Respuesta', 'IP_Item_5_Respuesta', 'IP_Item_6_Respuesta', 'IP_Item_9_Respuesta', 

In [20]:
# Columnas a comparar.
Columnas_Comparar = [
    'ID',
    'Conservative_Vector',
    'Progressive_Vector',
    'Conservative_Median',
    'Progressive_Median',
    'Conservative_Cluster',
    'Progressive_Cluster'
]

# Verificar que existan en ambos.
for Col in Columnas_Comparar:
    En_Pato = Col in Df_Pato.columns
    En_Clusters = Col in Df_Clusters.columns
    print(f'{Col}: Pato={En_Pato}, Clusters={En_Clusters}')

ID: Pato=True, Clusters=True
Conservative_Vector: Pato=True, Clusters=True
Progressive_Vector: Pato=True, Clusters=True
Conservative_Median: Pato=True, Clusters=False
Progressive_Median: Pato=True, Clusters=False
Conservative_Cluster: Pato=True, Clusters=True
Progressive_Cluster: Pato=True, Clusters=True


In [21]:
# Comparar cantidad de filas.
print(f'Filas en Documento de Pato: {len(Df_Pato)}')
print(f'Filas en Clusters.xlsx: {len(Df_Clusters)}')

Filas en Documento de Pato: 4040
Filas en Clusters.xlsx: 4040


In [22]:
# Comparar IDs.
Ids_Pato = set(Df_Pato['ID'].tolist())
Ids_Clusters = set(Df_Clusters['ID'].tolist())

print(f'IDs unicos en Pato: {len(Ids_Pato)}')
print(f'IDs unicos en Clusters: {len(Ids_Clusters)}')
print(f'IDs en comun: {len(Ids_Pato & Ids_Clusters)}')
print(f'IDs solo en Pato: {len(Ids_Pato - Ids_Clusters)}')
print(f'IDs solo en Clusters: {len(Ids_Clusters - Ids_Pato)}')

IDs unicos en Pato: 4040
IDs unicos en Clusters: 4040
IDs en comun: 4040
IDs solo en Pato: 0
IDs solo en Clusters: 0


In [23]:
# Comparacion celda a celda por ID.
# Ordenar ambos DataFrames por ID para comparar.
Df_Pato_Ordenado = Df_Pato.sort_values('ID').reset_index(drop=True)
Df_Clusters_Ordenado = Df_Clusters.sort_values('ID').reset_index(drop=True)

print('Primeros 5 IDs en Pato ordenado:')
print(Df_Pato_Ordenado['ID'].head().tolist())
print()
print('Primeros 5 IDs en Clusters ordenado:')
print(Df_Clusters_Ordenado['ID'].head().tolist())

Primeros 5 IDs en Pato ordenado:
[1349, 1354, 1355, 1356, 1359]

Primeros 5 IDs en Clusters ordenado:
[1349, 1354, 1355, 1356, 1359]


In [24]:
# Funcion para comparar dos valores (maneja listas/strings).
def Comparar_Valores(Val_1, Val_2):
    """
    Compara dos valores, manejando el caso de listas
    que pueden estar como strings.
    
    """
    
    # Si ambos son NaN.
    if pd.isna(Val_1) and pd.isna(Val_2):
        return True
    
    # Si uno es NaN y otro no.
    if pd.isna(Val_1) or pd.isna(Val_2):
        return False
    
    # Convertir strings de listas a listas reales.
    if isinstance(Val_1, str) and Val_1.startswith('['):
        Val_1 = eval(Val_1)
    if isinstance(Val_2, str) and Val_2.startswith('['):
        Val_2 = eval(Val_2)
    
    # Comparar.
    if isinstance(Val_1, list) and isinstance(Val_2, list):
        return Val_1 == Val_2
    
    return Val_1 == Val_2

In [25]:
# Comparar celda a celda para IDs en comun.
Ids_Comunes = Ids_Pato & Ids_Clusters

Resultados_Comparacion = []

for Id in sorted(Ids_Comunes):
    Fila_Pato = Df_Pato[Df_Pato['ID'] == Id].iloc[0]
    Fila_Clusters = Df_Clusters[Df_Clusters['ID'] == Id].iloc[0]
    
    Resultado_Fila = {'ID': Id}
    
    for Col in Columnas_Comparar:
        if Col == 'ID':
            continue
        
        if Col not in Df_Pato.columns or Col not in Df_Clusters.columns:
            Resultado_Fila[f'{Col}_Match'] = 'N/A'
            continue
        
        Val_Pato = Fila_Pato[Col]
        Val_Clusters = Fila_Clusters[Col]
        
        Es_Igual = Comparar_Valores(Val_Pato, Val_Clusters)
        Resultado_Fila[f'{Col}_Match'] = Es_Igual
        
        if not Es_Igual:
            Resultado_Fila[f'{Col}_Pato'] = Val_Pato
            Resultado_Fila[f'{Col}_Clusters'] = Val_Clusters
    
    Resultados_Comparacion.append(Resultado_Fila)

Df_Comparacion = pd.DataFrame(Resultados_Comparacion)
print(f'Comparacion realizada para {len(Df_Comparacion)} IDs')

Comparacion realizada para 4040 IDs


In [26]:
# Resumen de coincidencias por columna.
print('RESUMEN DE COINCIDENCIAS:')
print('=' * 50)

for Col in Columnas_Comparar:
    if Col == 'ID':
        continue
    
    Col_Match = f'{Col}_Match'
    if Col_Match in Df_Comparacion.columns:
        Total = len(Df_Comparacion)
        Coinciden = (Df_Comparacion[Col_Match] == True).sum()
        No_Coinciden = (Df_Comparacion[Col_Match] == False).sum()
        
        Porcentaje = (Coinciden / Total) * 100
        
        print(f'{Col}:')
        print(f'  Coinciden: {Coinciden}/{Total} ({Porcentaje:.2f}%)')
        print(f'  No coinciden: {No_Coinciden}')
        print()

RESUMEN DE COINCIDENCIAS:
Conservative_Vector:
  Coinciden: 4040/4040 (100.00%)
  No coinciden: 0

Progressive_Vector:
  Coinciden: 4040/4040 (100.00%)
  No coinciden: 0

Conservative_Median:
  Coinciden: 0/4040 (0.00%)
  No coinciden: 0

Progressive_Median:
  Coinciden: 0/4040 (0.00%)
  No coinciden: 0

Conservative_Cluster:
  Coinciden: 53/4040 (1.31%)
  No coinciden: 3987

Progressive_Cluster:
  Coinciden: 1078/4040 (26.68%)
  No coinciden: 2962



In [27]:
# Mostrar filas con diferencias.
Columnas_Match = [c for c in Df_Comparacion.columns if c.endswith('_Match')]

# Filtrar filas donde al menos una columna no coincide.
Mascara_Diferencias = Df_Comparacion[Columnas_Match].apply(
    lambda Row: any(Val == False for Val in Row), axis=1
)

Df_Diferencias = Df_Comparacion[Mascara_Diferencias]

print(f'Filas con al menos una diferencia: {len(Df_Diferencias)}')

if len(Df_Diferencias) > 0:
    print()
    print('Primeras 10 filas con diferencias:')
    display(Df_Diferencias.head(10))

Filas con al menos una diferencia: 4009

Primeras 10 filas con diferencias:


Unnamed: 0,ID,Conservative_Vector_Match,Progressive_Vector_Match,Conservative_Median_Match,Progressive_Median_Match,Conservative_Cluster_Match,Conservative_Cluster_Pato,Conservative_Cluster_Clusters,Progressive_Cluster_Match,Progressive_Cluster_Pato,Progressive_Cluster_Clusters
0,1349,True,True,,,False,0.0,2.0,False,1.0,0.0
1,1354,True,True,,,False,2.0,1.0,True,,
2,1355,True,True,,,False,2.0,1.0,False,2.0,1.0
3,1356,True,True,,,False,2.0,1.0,False,2.0,1.0
4,1359,True,True,,,False,2.0,1.0,False,2.0,1.0
5,1361,True,True,,,False,2.0,1.0,False,2.0,1.0
6,1363,True,True,,,False,2.0,1.0,False,2.0,1.0
7,1364,True,True,,,False,2.0,1.0,True,,
8,1366,True,True,,,False,2.0,1.0,False,2.0,1.0
9,1367,True,True,,,False,2.0,1.0,False,2.0,1.0


In [28]:
# Mostrar detalle de diferencias en Conservative_Vector.
if 'Conservative_Vector_Match' in Df_Comparacion.columns:
    Diferencias_Vector = Df_Comparacion[
        Df_Comparacion['Conservative_Vector_Match'] == False
    ]
    
    print(f'Diferencias en Conservative_Vector: {len(Diferencias_Vector)}')
    
    if len(Diferencias_Vector) > 0 and len(Diferencias_Vector) <= 20:
        print()
        for _, Fila in Diferencias_Vector.iterrows():
            print(f"ID {Fila['ID']}:")
            if 'Conservative_Vector_Pato' in Fila:
                print(f"  Pato: {Fila['Conservative_Vector_Pato']}")
            if 'Conservative_Vector_Clusters' in Fila:
                print(f"  Clusters: {Fila['Conservative_Vector_Clusters']}")
            print()

Diferencias en Conservative_Vector: 0


In [29]:
# Mostrar detalle de diferencias en Progressive_Vector.
if 'Progressive_Vector_Match' in Df_Comparacion.columns:
    Diferencias_Vector = Df_Comparacion[
        Df_Comparacion['Progressive_Vector_Match'] == False
    ]
    
    print(f'Diferencias en Progressive_Vector: {len(Diferencias_Vector)}')
    
    if len(Diferencias_Vector) > 0 and len(Diferencias_Vector) <= 20:
        print()
        for _, Fila in Diferencias_Vector.iterrows():
            print(f"ID {Fila['ID']}:")
            if 'Progressive_Vector_Pato' in Fila:
                print(f"  Pato: {Fila['Progressive_Vector_Pato']}")
            if 'Progressive_Vector_Clusters' in Fila:
                print(f"  Clusters: {Fila['Progressive_Vector_Clusters']}")
            print()

Diferencias en Progressive_Vector: 0


In [30]:
# Conclusion final.
print('=' * 60)
print('CONCLUSION')
print('=' * 60)

Todas_Coinciden = all(
    (Df_Comparacion[Col] == True).all() 
    for Col in Columnas_Match 
    if Col in Df_Comparacion.columns
)

if Todas_Coinciden and len(Ids_Pato) == len(Ids_Clusters):
    print('Los archivos son IDENTICOS en las columnas comparadas.')
else:
    print('Los archivos tienen DIFERENCIAS.')
    print(f'  - IDs diferentes: {len(Ids_Pato - Ids_Clusters) + len(Ids_Clusters - Ids_Pato)}')
    print(f'  - Filas con diferencias en valores: {len(Df_Diferencias)}')

CONCLUSION
Los archivos tienen DIFERENCIAS.
  - IDs diferentes: 0
  - Filas con diferencias en valores: 4009
