# Filtrado Cruzado entre Elecciones

Este notebook implementa el an√°lisis de **filtrado cruzado** entre Generales y Ballotage.

## Concepto:

Actualmente, cada elecci√≥n usa sus propios √≠tems significativos:
- Generales ‚Üí filtra con √≠tems significativos de Generales
- Ballotage ‚Üí filtra con √≠tems significativos de Ballotage

**NUEVO: Filtrado Cruzado**
- Ballotage filtrado con √≠tems significativos de **Generales**
- Generales filtrado con √≠tems significativos de **Ballotage**

## Objetivo:

1. Validaci√≥n cruzada de hallazgos
2. Robustez de √≠tems significativos
3. Comparar consistencia entre elecciones

## Proceso:

1. Identificar √≠tems significativos (p<0.05, Kruskal-Wallis) en cada elecci√≥n
2. Crear variables filtradas cruzadas
3. Agregar a df_Elecciones
4. An√°lisis estad√≠stico comparativo

In [1]:
import pandas as pd
import numpy as np
import os
from scipy import stats
from scipy.stats import kruskal, wilcoxon
from openpyxl import Workbook
from openpyxl.styles import Font, PatternFill, Alignment, Border, Side
from openpyxl.utils import get_column_letter

print("‚úì Librer√≠as cargadas exitosamente")

‚úì Librer√≠as cargadas exitosamente


## 1. Cargar Datos

In [2]:
# Rutas
Ruta_Base = os.path.join(os.getcwd(), '..', 'Data', 'Bases definitivas')
Excel_Generales = os.path.join(Ruta_Base, 'Generales.xlsx')
Excel_Ballotage = os.path.join(Ruta_Base, 'Ballotage.xlsx')

# Cargar DataFrames
df_Generales = pd.read_excel(Excel_Generales)
df_Ballotage = pd.read_excel(Excel_Ballotage)

dfs_Finales = {
    'Generales': df_Generales,
    'Ballotage': df_Ballotage
}

print(f"‚úì Datos cargados:")
print(f"  - Generales: {len(df_Generales)} registros")
print(f"  - Ballotage: {len(df_Ballotage)} registros")

‚úì Datos cargados:
  - Generales: 2786 registros
  - Ballotage: 1254 registros


## 2. Definir Listas de √çtems

In [3]:
# √çTEMS PROGRESISTAS: 5, 6, 9, 11, 16, 20, 24, 25, 27, 28
# √çTEMS CONSERVADORES: 3, 4, 7, 8, 10, 19, 22, 23, 29, 30

# Cambio de Opini√≥n
CO_Progresistas_Izquierda = [
    'CO_Item_5_Izq', 'CO_Item_6_Izq', 'CO_Item_9_Izq', 'CO_Item_11_Izq', 'CO_Item_16_Izq',
    'CO_Item_20_Izq', 'CO_Item_24_Izq', 'CO_Item_25_Izq', 'CO_Item_27_Izq', 'CO_Item_28_Izq'
]

CO_Progresistas_Derecha = [
    'CO_Item_5_Der', 'CO_Item_6_Der', 'CO_Item_9_Der', 'CO_Item_11_Der', 'CO_Item_16_Der',
    'CO_Item_20_Der', 'CO_Item_24_Der', 'CO_Item_25_Der', 'CO_Item_27_Der', 'CO_Item_28_Der'
]

CO_Conservadores_Izquierda = [
    'CO_Item_3_Izq', 'CO_Item_4_Izq', 'CO_Item_7_Izq', 'CO_Item_8_Izq', 'CO_Item_10_Izq',
    'CO_Item_19_Izq', 'CO_Item_22_Izq', 'CO_Item_23_Izq', 'CO_Item_29_Izq', 'CO_Item_30_Izq'
]

CO_Conservadores_Derecha = [
    'CO_Item_3_Der', 'CO_Item_4_Der', 'CO_Item_7_Der', 'CO_Item_8_Der', 'CO_Item_10_Der',
    'CO_Item_19_Der', 'CO_Item_22_Der', 'CO_Item_23_Der', 'CO_Item_29_Der', 'CO_Item_30_Der'
]

# Cambio de Tiempo
CT_Progresistas_Izquierda = [
    'CT_Item_5_Izq', 'CT_Item_6_Izq', 'CT_Item_9_Izq', 'CT_Item_11_Izq', 'CT_Item_16_Izq',
    'CT_Item_20_Izq', 'CT_Item_24_Izq', 'CT_Item_25_Izq', 'CT_Item_27_Izq', 'CT_Item_28_Izq'
]

CT_Progresistas_Derecha = [
    'CT_Item_5_Der', 'CT_Item_6_Der', 'CT_Item_9_Der', 'CT_Item_11_Der', 'CT_Item_16_Der',
    'CT_Item_20_Der', 'CT_Item_24_Der', 'CT_Item_25_Der', 'CT_Item_27_Der', 'CT_Item_28_Der'
]

CT_Conservadores_Izquierda = [
    'CT_Item_3_Izq', 'CT_Item_4_Izq', 'CT_Item_7_Izq', 'CT_Item_8_Izq', 'CT_Item_10_Izq',
    'CT_Item_19_Izq', 'CT_Item_22_Izq', 'CT_Item_23_Izq', 'CT_Item_29_Izq', 'CT_Item_30_Izq'
]

CT_Conservadores_Derecha = [
    'CT_Item_3_Der', 'CT_Item_4_Der', 'CT_Item_7_Der', 'CT_Item_8_Der', 'CT_Item_10_Der',
    'CT_Item_19_Der', 'CT_Item_22_Der', 'CT_Item_23_Der', 'CT_Item_29_Der', 'CT_Item_30_Der'
]

# Todas las columnas CO y CT
Columnas_CO = (CO_Progresistas_Izquierda + CO_Progresistas_Derecha + 
               CO_Conservadores_Izquierda + CO_Conservadores_Derecha)

Columnas_CT = (CT_Progresistas_Izquierda + CT_Progresistas_Derecha + 
               CT_Conservadores_Izquierda + CT_Conservadores_Derecha)

print(f"‚úì Definidas {len(Columnas_CO)} columnas CO y {len(Columnas_CT)} columnas CT")

‚úì Definidas 40 columnas CO y 40 columnas CT


## 3. Identificar √çtems Significativos en Cada Elecci√≥n

Aplicar Kruskal-Wallis para cada √≠tem individual y determinar cu√°les son significativos (p < 0.05).

In [4]:
# Categor√≠as v√°lidas
Categorias_Validas = [
    'Left_Wing', 'Progressivism', 'Centre',
    'Moderate_Right_A', 'Moderate_Right_B', 'Right_Wing_Libertarian'
]

# Diccionario para almacenar √≠tems significativos
Items_Significativos = {
    'Generales': {'CO': [], 'CT': []},
    'Ballotage': {'CO': [], 'CT': []}
}

print("="*70)
print("IDENTIFICACI√ìN DE √çTEMS SIGNIFICATIVOS (Kruskal-Wallis, p < 0.05)")
print("="*70)

for Nombre_df, df in dfs_Finales.items():
    print(f"\nüìä {Nombre_df}:")
    print("-"*70)
    
    # Filtrar categor√≠as v√°lidas
    df_filtrado = df[df['Categoria_PASO_2023'].isin(Categorias_Validas)]
    
    # AN√ÅLISIS CO
    print("\n  üîç Analizando √≠tems CO...")
    for columna in Columnas_CO:
        if columna in df_filtrado.columns:
            # Agrupar por categor√≠a
            grupos = [
                df_filtrado[df_filtrado['Categoria_PASO_2023'] == cat][columna].dropna()
                for cat in Categorias_Validas
            ]
            
            # Verificar que todos los grupos tengan datos
            if all(len(grupo) > 1 for grupo in grupos):
                estadistico, p_valor = kruskal(*grupos)
                
                if p_valor < 0.05:
                    Items_Significativos[Nombre_df]['CO'].append(columna)
    
    print(f"    ‚úì √çtems CO significativos: {len(Items_Significativos[Nombre_df]['CO'])}")
    
    # AN√ÅLISIS CT
    print("\n  üîç Analizando √≠tems CT...")
    for columna in Columnas_CT:
        if columna in df_filtrado.columns:
            # Agrupar por categor√≠a
            grupos = [
                df_filtrado[df_filtrado['Categoria_PASO_2023'] == cat][columna].dropna()
                for cat in Categorias_Validas
            ]
            
            # Verificar que todos los grupos tengan datos
            if all(len(grupo) > 1 for grupo in grupos):
                estadistico, p_valor = kruskal(*grupos)
                
                if p_valor < 0.05:
                    Items_Significativos[Nombre_df]['CT'].append(columna)
    
    print(f"    ‚úì √çtems CT significativos: {len(Items_Significativos[Nombre_df]['CT'])}")

print("\n" + "="*70)
print("RESUMEN DE √çTEMS SIGNIFICATIVOS")
print("="*70)
print(f"\nGenerales:")
print(f"  - CO: {Items_Significativos['Generales']['CO']}")
print(f"  - CT: {Items_Significativos['Generales']['CT']}")
print(f"\nBallotage:")
print(f"  - CO: {Items_Significativos['Ballotage']['CO']}")
print(f"  - CT: {Items_Significativos['Ballotage']['CT']}")
print("\n" + "="*70)

IDENTIFICACI√ìN DE √çTEMS SIGNIFICATIVOS (Kruskal-Wallis, p < 0.05)

üìä Generales:
----------------------------------------------------------------------

  üîç Analizando √≠tems CO...
    ‚úì √çtems CO significativos: 11

  üîç Analizando √≠tems CT...
    ‚úì √çtems CT significativos: 14

üìä Ballotage:
----------------------------------------------------------------------

  üîç Analizando √≠tems CO...
    ‚úì √çtems CO significativos: 9

  üîç Analizando √≠tems CT...
    ‚úì √çtems CT significativos: 5

RESUMEN DE √çTEMS SIGNIFICATIVOS

Generales:
  - CO: ['CO_Item_5_Izq', 'CO_Item_9_Izq', 'CO_Item_24_Izq', 'CO_Item_25_Izq', 'CO_Item_3_Izq', 'CO_Item_7_Izq', 'CO_Item_8_Izq', 'CO_Item_10_Izq', 'CO_Item_30_Izq', 'CO_Item_10_Der', 'CO_Item_30_Der']
  - CT: ['CT_Item_16_Izq', 'CT_Item_9_Der', 'CT_Item_16_Der', 'CT_Item_25_Der', 'CT_Item_3_Izq', 'CT_Item_4_Izq', 'CT_Item_7_Izq', 'CT_Item_22_Izq', 'CT_Item_30_Izq', 'CT_Item_3_Der', 'CT_Item_4_Der', 'CT_Item_7_Der', 'CT_Item_10_Der'

## 4. Crear Variables Filtradas Cruzadas

Crear las nuevas variables usando el filtro "cruzado":
- En Ballotage: usar √≠tems significativos de Generales
- En Generales: usar √≠tems significativos de Ballotage

In [5]:
print("="*70)
print("CREANDO VARIABLES FILTRADAS CRUZADAS")
print("="*70)

def Filtrar_Items_Por_Categoria(items_significativos, lista_categoria):
    """Filtra los √≠tems significativos que pertenecen a una categor√≠a espec√≠fica."""
    return [item for item in items_significativos if item in lista_categoria]

# BALLOTAGE con filtro de GENERALES
print("\nüìä Ballotage (usando √≠tems significativos de Generales):")
print("-"*70)

# CO en Ballotage con filtro de Generales
Items_CO_Pro_Izq_Gen = Filtrar_Items_Por_Categoria(
    Items_Significativos['Generales']['CO'], CO_Progresistas_Izquierda
)
Items_CO_Pro_Der_Gen = Filtrar_Items_Por_Categoria(
    Items_Significativos['Generales']['CO'], CO_Progresistas_Derecha
)
Items_CO_Con_Izq_Gen = Filtrar_Items_Por_Categoria(
    Items_Significativos['Generales']['CO'], CO_Conservadores_Izquierda
)
Items_CO_Con_Der_Gen = Filtrar_Items_Por_Categoria(
    Items_Significativos['Generales']['CO'], CO_Conservadores_Derecha
)

df_Ballotage['CO_Filt_Pro_Izq_SegunGen'] = (
    df_Ballotage[Items_CO_Pro_Izq_Gen].sum(axis=1) if Items_CO_Pro_Izq_Gen else 0
)
df_Ballotage['CO_Filt_Pro_Der_SegunGen'] = (
    df_Ballotage[Items_CO_Pro_Der_Gen].sum(axis=1) if Items_CO_Pro_Der_Gen else 0
)
df_Ballotage['CO_Filt_Con_Izq_SegunGen'] = (
    df_Ballotage[Items_CO_Con_Izq_Gen].sum(axis=1) if Items_CO_Con_Izq_Gen else 0
)
df_Ballotage['CO_Filt_Con_Der_SegunGen'] = (
    df_Ballotage[Items_CO_Con_Der_Gen].sum(axis=1) if Items_CO_Con_Der_Gen else 0
)

print(f"  CO_Filt_Pro_Izq_SegunGen: {len(Items_CO_Pro_Izq_Gen)} √≠tems")
print(f"  CO_Filt_Pro_Der_SegunGen: {len(Items_CO_Pro_Der_Gen)} √≠tems")
print(f"  CO_Filt_Con_Izq_SegunGen: {len(Items_CO_Con_Izq_Gen)} √≠tems")
print(f"  CO_Filt_Con_Der_SegunGen: {len(Items_CO_Con_Der_Gen)} √≠tems")

# CT en Ballotage con filtro de Generales
Items_CT_Pro_Izq_Gen = Filtrar_Items_Por_Categoria(
    Items_Significativos['Generales']['CT'], CT_Progresistas_Izquierda
)
Items_CT_Pro_Der_Gen = Filtrar_Items_Por_Categoria(
    Items_Significativos['Generales']['CT'], CT_Progresistas_Derecha
)
Items_CT_Con_Izq_Gen = Filtrar_Items_Por_Categoria(
    Items_Significativos['Generales']['CT'], CT_Conservadores_Izquierda
)
Items_CT_Con_Der_Gen = Filtrar_Items_Por_Categoria(
    Items_Significativos['Generales']['CT'], CT_Conservadores_Derecha
)

df_Ballotage['CT_Filt_Pro_Izq_SegunGen'] = (
    df_Ballotage[Items_CT_Pro_Izq_Gen].sum(axis=1) if Items_CT_Pro_Izq_Gen else 0
)
df_Ballotage['CT_Filt_Pro_Der_SegunGen'] = (
    df_Ballotage[Items_CT_Pro_Der_Gen].sum(axis=1) if Items_CT_Pro_Der_Gen else 0
)
df_Ballotage['CT_Filt_Con_Izq_SegunGen'] = (
    df_Ballotage[Items_CT_Con_Izq_Gen].sum(axis=1) if Items_CT_Con_Izq_Gen else 0
)
df_Ballotage['CT_Filt_Con_Der_SegunGen'] = (
    df_Ballotage[Items_CT_Con_Der_Gen].sum(axis=1) if Items_CT_Con_Der_Gen else 0
)

print(f"\n  CT_Filt_Pro_Izq_SegunGen: {len(Items_CT_Pro_Izq_Gen)} √≠tems")
print(f"  CT_Filt_Pro_Der_SegunGen: {len(Items_CT_Pro_Der_Gen)} √≠tems")
print(f"  CT_Filt_Con_Izq_SegunGen: {len(Items_CT_Con_Izq_Gen)} √≠tems")
print(f"  CT_Filt_Con_Der_SegunGen: {len(Items_CT_Con_Der_Gen)} √≠tems")

# GENERALES con filtro de BALLOTAGE
print("\nüìä Generales (usando √≠tems significativos de Ballotage):")
print("-"*70)

# CO en Generales con filtro de Ballotage
Items_CO_Pro_Izq_Bal = Filtrar_Items_Por_Categoria(
    Items_Significativos['Ballotage']['CO'], CO_Progresistas_Izquierda
)
Items_CO_Pro_Der_Bal = Filtrar_Items_Por_Categoria(
    Items_Significativos['Ballotage']['CO'], CO_Progresistas_Derecha
)
Items_CO_Con_Izq_Bal = Filtrar_Items_Por_Categoria(
    Items_Significativos['Ballotage']['CO'], CO_Conservadores_Izquierda
)
Items_CO_Con_Der_Bal = Filtrar_Items_Por_Categoria(
    Items_Significativos['Ballotage']['CO'], CO_Conservadores_Derecha
)

df_Generales['CO_Filt_Pro_Izq_SegunBal'] = (
    df_Generales[Items_CO_Pro_Izq_Bal].sum(axis=1) if Items_CO_Pro_Izq_Bal else 0
)
df_Generales['CO_Filt_Pro_Der_SegunBal'] = (
    df_Generales[Items_CO_Pro_Der_Bal].sum(axis=1) if Items_CO_Pro_Der_Bal else 0
)
df_Generales['CO_Filt_Con_Izq_SegunBal'] = (
    df_Generales[Items_CO_Con_Izq_Bal].sum(axis=1) if Items_CO_Con_Izq_Bal else 0
)
df_Generales['CO_Filt_Con_Der_SegunBal'] = (
    df_Generales[Items_CO_Con_Der_Bal].sum(axis=1) if Items_CO_Con_Der_Bal else 0
)

print(f"  CO_Filt_Pro_Izq_SegunBal: {len(Items_CO_Pro_Izq_Bal)} √≠tems")
print(f"  CO_Filt_Pro_Der_SegunBal: {len(Items_CO_Pro_Der_Bal)} √≠tems")
print(f"  CO_Filt_Con_Izq_SegunBal: {len(Items_CO_Con_Izq_Bal)} √≠tems")
print(f"  CO_Filt_Con_Der_SegunBal: {len(Items_CO_Con_Der_Bal)} √≠tems")

# CT en Generales con filtro de Ballotage
Items_CT_Pro_Izq_Bal = Filtrar_Items_Por_Categoria(
    Items_Significativos['Ballotage']['CT'], CT_Progresistas_Izquierda
)
Items_CT_Pro_Der_Bal = Filtrar_Items_Por_Categoria(
    Items_Significativos['Ballotage']['CT'], CT_Progresistas_Derecha
)
Items_CT_Con_Izq_Bal = Filtrar_Items_Por_Categoria(
    Items_Significativos['Ballotage']['CT'], CT_Conservadores_Izquierda
)
Items_CT_Con_Der_Bal = Filtrar_Items_Por_Categoria(
    Items_Significativos['Ballotage']['CT'], CT_Conservadores_Derecha
)

df_Generales['CT_Filt_Pro_Izq_SegunBal'] = (
    df_Generales[Items_CT_Pro_Izq_Bal].sum(axis=1) if Items_CT_Pro_Izq_Bal else 0
)
df_Generales['CT_Filt_Pro_Der_SegunBal'] = (
    df_Generales[Items_CT_Pro_Der_Bal].sum(axis=1) if Items_CT_Pro_Der_Bal else 0
)
df_Generales['CT_Filt_Con_Izq_SegunBal'] = (
    df_Generales[Items_CT_Con_Izq_Bal].sum(axis=1) if Items_CT_Con_Izq_Bal else 0
)
df_Generales['CT_Filt_Con_Der_SegunBal'] = (
    df_Generales[Items_CT_Con_Der_Bal].sum(axis=1) if Items_CT_Con_Der_Bal else 0
)

print(f"\n  CT_Filt_Pro_Izq_SegunBal: {len(Items_CT_Pro_Izq_Bal)} √≠tems")
print(f"  CT_Filt_Pro_Der_SegunBal: {len(Items_CT_Pro_Der_Bal)} √≠tems")
print(f"  CT_Filt_Con_Izq_SegunBal: {len(Items_CT_Con_Izq_Bal)} √≠tems")
print(f"  CT_Filt_Con_Der_SegunBal: {len(Items_CT_Con_Der_Bal)} √≠tems")

print("\n" + "="*70)
print("‚úÖ VARIABLES FILTRADAS CRUZADAS CREADAS EXITOSAMENTE")
print("="*70)

CREANDO VARIABLES FILTRADAS CRUZADAS

üìä Ballotage (usando √≠tems significativos de Generales):
----------------------------------------------------------------------
  CO_Filt_Pro_Izq_SegunGen: 4 √≠tems
  CO_Filt_Pro_Der_SegunGen: 0 √≠tems
  CO_Filt_Con_Izq_SegunGen: 5 √≠tems
  CO_Filt_Con_Der_SegunGen: 2 √≠tems

  CT_Filt_Pro_Izq_SegunGen: 1 √≠tems
  CT_Filt_Pro_Der_SegunGen: 3 √≠tems
  CT_Filt_Con_Izq_SegunGen: 5 √≠tems
  CT_Filt_Con_Der_SegunGen: 5 √≠tems

üìä Generales (usando √≠tems significativos de Ballotage):
----------------------------------------------------------------------
  CO_Filt_Pro_Izq_SegunBal: 2 √≠tems
  CO_Filt_Pro_Der_SegunBal: 2 √≠tems
  CO_Filt_Con_Izq_SegunBal: 3 √≠tems
  CO_Filt_Con_Der_SegunBal: 2 √≠tems

  CT_Filt_Pro_Izq_SegunBal: 0 √≠tems
  CT_Filt_Pro_Der_SegunBal: 0 √≠tems
  CT_Filt_Con_Izq_SegunBal: 2 √≠tems
  CT_Filt_Con_Der_SegunBal: 3 √≠tems

‚úÖ VARIABLES FILTRADAS CRUZADAS CREADAS EXITOSAMENTE


## 5. Cargar df_Elecciones y Agregar Nuevas Variables

In [6]:
# Cargar df_Elecciones
Ruta_Procesados = os.path.join(os.getcwd(), '..', 'Data', 'Procesados')
Excel_Elecciones = os.path.join(Ruta_Procesados, 'df_Elecciones.xlsx')

if os.path.exists(Excel_Elecciones):
    df_Elecciones = pd.read_excel(Excel_Elecciones)
    print(f"‚úì df_Elecciones cargado: {len(df_Elecciones)} registros")
else:
    print("‚ö†Ô∏è df_Elecciones no existe, creando desde cero...")
    # Crear df_Elecciones concatenando Generales y Ballotage
    df_Gen_Copy = df_Generales[['ID']].copy()
    df_Gen_Copy['Eleccion'] = 'Generales'
    
    df_Bal_Copy = df_Ballotage[['ID']].copy()
    df_Bal_Copy['Eleccion'] = 'Ballotage'
    
    df_Elecciones = pd.concat([df_Gen_Copy, df_Bal_Copy], ignore_index=True)
    print(f"‚úì df_Elecciones creado: {len(df_Elecciones)} registros")

‚úì df_Elecciones cargado: 2786 registros


In [7]:
# Preparar datos para merge
Variables_Cruzadas = [
    'CO_Filt_Pro_Izq_SegunGen', 'CO_Filt_Pro_Der_SegunGen',
    'CO_Filt_Con_Izq_SegunGen', 'CO_Filt_Con_Der_SegunGen',
    'CT_Filt_Pro_Izq_SegunGen', 'CT_Filt_Pro_Der_SegunGen',
    'CT_Filt_Con_Izq_SegunGen', 'CT_Filt_Con_Der_SegunGen',
    'CO_Filt_Pro_Izq_SegunBal', 'CO_Filt_Pro_Der_SegunBal',
    'CO_Filt_Con_Izq_SegunBal', 'CO_Filt_Con_Der_SegunBal',
    'CT_Filt_Pro_Izq_SegunBal', 'CT_Filt_Pro_Der_SegunBal',
    'CT_Filt_Con_Izq_SegunBal', 'CT_Filt_Con_Der_SegunBal'
]

# Crear DataFrames temporales para merge
df_Gen_Merge = df_Generales[['ID'] + [v for v in Variables_Cruzadas if 'SegunBal' in v]].copy()
df_Bal_Merge = df_Ballotage[['ID'] + [v for v in Variables_Cruzadas if 'SegunGen' in v]].copy()

# Merge con df_Elecciones
# Primero, eliminar variables cruzadas si ya existen
for var in Variables_Cruzadas:
    if var in df_Elecciones.columns:
        df_Elecciones.drop(columns=[var], inplace=True)

# Merge Generales (variables SegunBal)
df_Elecciones = df_Elecciones.merge(
    df_Gen_Merge,
    on='ID',
    how='left'
)

# Merge Ballotage (variables SegunGen)
df_Elecciones = df_Elecciones.merge(
    df_Bal_Merge,
    on='ID',
    how='left'
)

print(f"‚úì Variables cruzadas agregadas a df_Elecciones")
print(f"  Total columnas: {len(df_Elecciones.columns)}")
print(f"  Nuevas variables: {len(Variables_Cruzadas)}")

‚úì Variables cruzadas agregadas a df_Elecciones
  Total columnas: 138
  Nuevas variables: 16


## 6. An√°lisis Estad√≠stico: Comparar Variables Originales vs Cruzadas

Comparar las variables filtradas originales (usando filtro propio) vs las cruzadas.

In [8]:
print("="*70)
print("AN√ÅLISIS ESTAD√çSTICO: FILTRO ORIGINAL vs FILTRO CRUZADO")
print("="*70)

# Verificar si existen variables originales filtradas
Variables_Originales = [
    'Cambio_Op_Filt_Pro_Izq', 'Cambio_Op_Filt_Pro_Der',
    'Cambio_Op_Filt_Con_Izq', 'Cambio_Op_Filt_Con_Der',
    'Cambio_Tiempo_Filt_Pro_Izq', 'Cambio_Tiempo_Filt_Pro_Der',
    'Cambio_Tiempo_Filt_Con_Izq', 'Cambio_Tiempo_Filt_Con_Der'
]

Comparaciones_Resultados = []

# BALLOTAGE: Comparar original (filtro Ballotage) vs cruzado (filtro Generales)
print("\nüìä BALLOTAGE: Filtro Original vs Filtro de Generales")
print("-"*70)

Mapeo_Ballotage = {
    'Cambio_Op_Filt_Pro_Izq': 'CO_Filt_Pro_Izq_SegunGen',
    'Cambio_Op_Filt_Pro_Der': 'CO_Filt_Pro_Der_SegunGen',
    'Cambio_Op_Filt_Con_Izq': 'CO_Filt_Con_Izq_SegunGen',
    'Cambio_Op_Filt_Con_Der': 'CO_Filt_Con_Der_SegunGen',
    'Cambio_Tiempo_Filt_Pro_Izq': 'CT_Filt_Pro_Izq_SegunGen',
    'Cambio_Tiempo_Filt_Pro_Der': 'CT_Filt_Pro_Der_SegunGen',
    'Cambio_Tiempo_Filt_Con_Izq': 'CT_Filt_Con_Izq_SegunGen',
    'Cambio_Tiempo_Filt_Con_Der': 'CT_Filt_Con_Der_SegunGen'
}

for var_orig, var_cruz in Mapeo_Ballotage.items():
    if var_orig in df_Ballotage.columns and var_cruz in df_Ballotage.columns:
        datos_pareados = df_Ballotage[[var_orig, var_cruz]].dropna()
        
        if len(datos_pareados) > 1:
            try:
                stat, p_valor = wilcoxon(datos_pareados[var_orig], datos_pareados[var_cruz])
                
                sig = '***' if p_valor < 0.001 else '**' if p_valor < 0.01 else '*' if p_valor < 0.05 else 'ns'
                
                print(f"\n  {var_orig}:")
                print(f"    Media Original: {datos_pareados[var_orig].mean():.4f}")
                print(f"    Media Cruzada:  {datos_pareados[var_cruz].mean():.4f}")
                print(f"    p-valor: {p_valor:.6f} ({sig})")
                
                Comparaciones_Resultados.append({
                    'Eleccion': 'Ballotage',
                    'Variable': var_orig,
                    'n': len(datos_pareados),
                    'Media_Original': datos_pareados[var_orig].mean(),
                    'Media_Cruzada': datos_pareados[var_cruz].mean(),
                    'p_valor': p_valor,
                    'Sig': sig
                })
            except Exception as e:
                print(f"\n  {var_orig}: Error - {e}")

# GENERALES: Comparar original (filtro Generales) vs cruzado (filtro Ballotage)
print("\nüìä GENERALES: Filtro Original vs Filtro de Ballotage")
print("-"*70)

Mapeo_Generales = {
    'Cambio_Op_Filt_Pro_Izq': 'CO_Filt_Pro_Izq_SegunBal',
    'Cambio_Op_Filt_Pro_Der': 'CO_Filt_Pro_Der_SegunBal',
    'Cambio_Op_Filt_Con_Izq': 'CO_Filt_Con_Izq_SegunBal',
    'Cambio_Op_Filt_Con_Der': 'CO_Filt_Con_Der_SegunBal',
    'Cambio_Tiempo_Filt_Pro_Izq': 'CT_Filt_Pro_Izq_SegunBal',
    'Cambio_Tiempo_Filt_Pro_Der': 'CT_Filt_Pro_Der_SegunBal',
    'Cambio_Tiempo_Filt_Con_Izq': 'CT_Filt_Con_Izq_SegunBal',
    'Cambio_Tiempo_Filt_Con_Der': 'CT_Filt_Con_Der_SegunBal'
}

for var_orig, var_cruz in Mapeo_Generales.items():
    if var_orig in df_Generales.columns and var_cruz in df_Generales.columns:
        datos_pareados = df_Generales[[var_orig, var_cruz]].dropna()
        
        if len(datos_pareados) > 1:
            try:
                stat, p_valor = wilcoxon(datos_pareados[var_orig], datos_pareados[var_cruz])
                
                sig = '***' if p_valor < 0.001 else '**' if p_valor < 0.01 else '*' if p_valor < 0.05 else 'ns'
                
                print(f"\n  {var_orig}:")
                print(f"    Media Original: {datos_pareados[var_orig].mean():.4f}")
                print(f"    Media Cruzada:  {datos_pareados[var_cruz].mean():.4f}")
                print(f"    p-valor: {p_valor:.6f} ({sig})")
                
                Comparaciones_Resultados.append({
                    'Eleccion': 'Generales',
                    'Variable': var_orig,
                    'n': len(datos_pareados),
                    'Media_Original': datos_pareados[var_orig].mean(),
                    'Media_Cruzada': datos_pareados[var_cruz].mean(),
                    'p_valor': p_valor,
                    'Sig': sig
                })
            except Exception as e:
                print(f"\n  {var_orig}: Error - {e}")

df_Comparaciones = pd.DataFrame(Comparaciones_Resultados)
print("\n" + "="*70)
print("‚úÖ AN√ÅLISIS COMPLETADO")
print("="*70)

AN√ÅLISIS ESTAD√çSTICO: FILTRO ORIGINAL vs FILTRO CRUZADO

üìä BALLOTAGE: Filtro Original vs Filtro de Generales
----------------------------------------------------------------------

  Cambio_Op_Filt_Pro_Izq:
    Media Original: -0.0742
    Media Cruzada:  -0.1292
    p-valor: 0.226500 (ns)

  Cambio_Op_Filt_Pro_Der:
    Media Original: -0.1168
    Media Cruzada:  0.0000
    p-valor: 0.000171 (***)

  Cambio_Op_Filt_Con_Izq:
    Media Original: 0.0829
    Media Cruzada:  0.2109
    p-valor: 0.028896 (*)

  Cambio_Op_Filt_Con_Der:
    Media Original: 0.1140
    Media Cruzada:  0.0638
    p-valor: 0.136938 (ns)

  Cambio_Tiempo_Filt_Pro_Izq:
    Media Original: 0.0000
    Media Cruzada:  -0.8603
    p-valor: 0.000000 (***)

  Cambio_Tiempo_Filt_Pro_Der:
    Media Original: 0.0000
    Media Cruzada:  -2.2430
    p-valor: 0.000000 (***)

  Cambio_Tiempo_Filt_Con_Izq:
    Media Original: -1.6320
    Media Cruzada:  -2.7781
    p-valor: 0.000001 (***)

  Cambio_Tiempo_Filt_Con_Der:
    Me

## 7. Guardar Resultados

In [9]:
# Crear carpeta de salida si no existe
if not os.path.exists(Ruta_Procesados):
    os.makedirs(Ruta_Procesados)

# Guardar df_Elecciones actualizado
Ruta_Elecciones_Actualizado = os.path.join(Ruta_Procesados, 'df_Elecciones.xlsx')
df_Elecciones.to_excel(Ruta_Elecciones_Actualizado, index=False)
print(f"‚úì df_Elecciones actualizado guardado: {Ruta_Elecciones_Actualizado}")

# Guardar resultados de comparaciones
if len(df_Comparaciones) > 0:
    Ruta_Comparaciones = os.path.join(Ruta_Procesados, 'Resultados_Filtrado_Cruzado.xlsx')
    df_Comparaciones.to_excel(Ruta_Comparaciones, index=False)
    print(f"‚úì Resultados de comparaciones guardados: {Ruta_Comparaciones}")

# Guardar √≠tems significativos identificados
Items_Sig_Data = []
for eleccion in ['Generales', 'Ballotage']:
    for tipo in ['CO', 'CT']:
        for item in Items_Significativos[eleccion][tipo]:
            Items_Sig_Data.append({
                'Eleccion': eleccion,
                'Tipo': tipo,
                'Item': item
            })

df_Items_Sig = pd.DataFrame(Items_Sig_Data)
Ruta_Items_Sig = os.path.join(Ruta_Procesados, 'Items_Significativos_Por_Eleccion.xlsx')
df_Items_Sig.to_excel(Ruta_Items_Sig, index=False)
print(f"‚úì √çtems significativos guardados: {Ruta_Items_Sig}")

print("\n‚úÖ Todos los archivos guardados exitosamente")

‚úì df_Elecciones actualizado guardado: c:\Users\Patricio\Documents\Codigo\Python\Investigacion\Tesis\C√≥digo\..\Data\Procesados\df_Elecciones.xlsx
‚úì Resultados de comparaciones guardados: c:\Users\Patricio\Documents\Codigo\Python\Investigacion\Tesis\C√≥digo\..\Data\Procesados\Resultados_Filtrado_Cruzado.xlsx
‚úì √çtems significativos guardados: c:\Users\Patricio\Documents\Codigo\Python\Investigacion\Tesis\C√≥digo\..\Data\Procesados\Items_Significativos_Por_Eleccion.xlsx

‚úÖ Todos los archivos guardados exitosamente


## 8. Resumen Final

In [10]:
print("="*70)
print("RESUMEN FINAL: FILTRADO CRUZADO ENTRE ELECCIONES")
print("="*70)

print("\nüìä Variables creadas (16 en total):")
print("\n  En Ballotage (usando filtro de Generales):")
print("    - 4 variables CO: Pro_Izq, Pro_Der, Con_Izq, Con_Der")
print("    - 4 variables CT: Pro_Izq, Pro_Der, Con_Izq, Con_Der")
print("\n  En Generales (usando filtro de Ballotage):")
print("    - 4 variables CO: Pro_Izq, Pro_Der, Con_Izq, Con_Der")
print("    - 4 variables CT: Pro_Izq, Pro_Der, Con_Izq, Con_Der")

print("\nüìà An√°lisis realizados:")
print("  1. Kruskal-Wallis para identificar √≠tems significativos")
print("  2. Creaci√≥n de variables filtradas cruzadas")
print("  3. Wilcoxon pareado: Filtro Original vs Filtro Cruzado")

print("\nüìÅ Archivos generados:")
print("  - df_Elecciones.xlsx (actualizado con 16 nuevas variables)")
print("  - Resultados_Filtrado_Cruzado.xlsx (comparaciones estad√≠sticas)")
print("  - Items_Significativos_Por_Eleccion.xlsx (listado de √≠tems)")

print("\nüéØ Interpretaci√≥n:")
print("  - Si Filtro Original ‚âà Filtro Cruzado ‚Üí Hallazgos robustos entre elecciones")
print("  - Si Filtro Original ‚â† Filtro Cruzado ‚Üí √çtems espec√≠ficos de cada elecci√≥n")
print("  - Permite validaci√≥n cruzada de resultados")

if len(df_Comparaciones) > 0:
    sig_count = len(df_Comparaciones[df_Comparaciones['Sig'] != 'ns'])
    print(f"\nüìä Resultados:")
    print(f"  - Total comparaciones: {len(df_Comparaciones)}")
    print(f"  - Diferencias significativas: {sig_count}")
    print(f"  - No significativas: {len(df_Comparaciones) - sig_count}")

print("\n" + "="*70)
print("‚úÖ AN√ÅLISIS COMPLETADO")
print("="*70)

RESUMEN FINAL: FILTRADO CRUZADO ENTRE ELECCIONES

üìä Variables creadas (16 en total):

  En Ballotage (usando filtro de Generales):
    - 4 variables CO: Pro_Izq, Pro_Der, Con_Izq, Con_Der
    - 4 variables CT: Pro_Izq, Pro_Der, Con_Izq, Con_Der

  En Generales (usando filtro de Ballotage):
    - 4 variables CO: Pro_Izq, Pro_Der, Con_Izq, Con_Der
    - 4 variables CT: Pro_Izq, Pro_Der, Con_Izq, Con_Der

üìà An√°lisis realizados:
  1. Kruskal-Wallis para identificar √≠tems significativos
  2. Creaci√≥n de variables filtradas cruzadas
  3. Wilcoxon pareado: Filtro Original vs Filtro Cruzado

üìÅ Archivos generados:
  - df_Elecciones.xlsx (actualizado con 16 nuevas variables)
  - Resultados_Filtrado_Cruzado.xlsx (comparaciones estad√≠sticas)
  - Items_Significativos_Por_Eleccion.xlsx (listado de √≠tems)

üéØ Interpretaci√≥n:
  - Si Filtro Original ‚âà Filtro Cruzado ‚Üí Hallazgos robustos entre elecciones
  - Si Filtro Original ‚â† Filtro Cruzado ‚Üí √çtems espec√≠ficos de cada elecc