# Gr√°ficos de Viol√≠n: Congruencia vs Incongruencia Ideol√≥gica

Este notebook genera **gr√°ficos de viol√≠n** para visualizar las distribuciones de Cambio de Opini√≥n (CO) y Cambio de Tiempo (CT) seg√∫n congruencia ideol√≥gica.

## Objetivo:

Visualizar la distribuci√≥n completa de las variables de congruencia/incongruencia (no solo las medias), permitiendo identificar:
- Asimetr√≠a de las distribuciones
- Presencia de m√∫ltiples modas
- Outliers y valores extremos
- Diferencias en dispersi√≥n entre grupos

## Variables analizadas:

- **CO_Congruente**: √çtems Progresistas ‚Üí Izquierda + √çtems Conservadores ‚Üí Derecha
- **CO_Incongruente**: √çtems Progresistas ‚Üí Derecha + √çtems Conservadores ‚Üí Izquierda
- **CT_Congruente**: Tiempos en direcci√≥n ideol√≥gicamente consistente
- **CT_Incongruente**: Tiempos en direcci√≥n ideol√≥gicamente inconsistente

## Elecciones:

- Generales
- Ballotage

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
from scipy import stats
import warnings
warnings.filterwarnings('ignore')

# Configurar estilo
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette('Set2')
sns.set_context('notebook', font_scale=1.1)

print('‚úì Librer√≠as cargadas exitosamente')

## 1. Cargar Datos

In [None]:
# Rutas a los archivos
Ruta_Base = os.path.join(os.getcwd(), '..', 'Data', 'Procesados')
Archivo_Generales = os.path.join(Ruta_Base, 'Generales_con_Congruencia.xlsx')
Archivo_Ballotage = os.path.join(Ruta_Base, 'Ballotage_con_Congruencia.xlsx')

# Cargar datos
df_Generales = pd.read_excel(Archivo_Generales)
df_Ballotage = pd.read_excel(Archivo_Ballotage)

print(f'‚úì Datos cargados:')
print(f'  - Generales: {len(df_Generales)} registros')
print(f'  - Ballotage: {len(df_Ballotage)} registros')

# Verificar variables
vars_necesarias = ['CO_Congruente', 'CO_Incongruente', 'CT_Congruente', 'CT_Incongruente']

for nombre, df in [('Generales', df_Generales), ('Ballotage', df_Ballotage)]:
    faltantes = [v for v in vars_necesarias if v not in df.columns]
    if faltantes:
        print(f'  ‚ö†Ô∏è  {nombre}: Faltan variables {faltantes}')
    else:
        print(f'  ‚úì {nombre}: Todas las variables presentes')

## 2. Preparar Datos para Visualizaci√≥n

In [None]:
def Crear_Grafico_Violin(df_long, variable_nombre, eleccion_nombre, guardar=True):
    """
    Crea gr√°fico de viol√≠n para una variable espec√≠fica usando seaborn.
    
    Par√°metros:
    -----------
    df_long : DataFrame en formato largo
    variable_nombre : 'Cambio de Opini√≥n' o 'Cambio de Tiempo'
    eleccion_nombre : 'Generales' o 'Ballotage'
    guardar : bool, si True guarda el gr√°fico
    """
    
    # Filtrar datos
    df_plot = df_long[df_long['Variable'] == variable_nombre].copy()
    
    # Crear figura m√°s grande
    fig, ax = plt.subplots(figsize=(12, 9))
    
    # Paleta de colores: Verde menta y Lavanda
    palette = {
        'Congruente': '#8dd3c7',
        'Incongruente': '#bebada'
    }
    
    # Crear gr√°fico de viol√≠n con seaborn
    sns.violinplot(
        data=df_plot,
        x='Tipo',
        y='Valor',
        palette=palette,
        cut=0,  # No extender m√°s all√° de los datos reales
        inner='box',  # Mostrar cuartiles con cajita
        linewidth=2,
        alpha=0.85,
        ax=ax
    )
    
    # Configurar fondo con grid sutil
    ax.set_facecolor('#fafafa')
    ax.grid(True, alpha=0.25, linestyle='-', linewidth=0.5, color='gray')
    ax.set_axisbelow(True)
    
    # Configurar ejes
    ax.set_xlabel('Tipo de Congruencia', fontsize=14, fontweight='bold')
    ax.set_ylabel('Valor', fontsize=14, fontweight='bold')
    ax.tick_params(axis='both', labelsize=12)
    
    # T√≠tulo
    tipo_corto = 'CO' if variable_nombre == 'Cambio de Opini√≥n' else 'CT'
    ax.set_title(f'{variable_nombre}: Congruente vs Incongruente\n{eleccion_nombre}',
                 fontsize=16, fontweight='bold', pad=20)
    
    # A√±adir l√≠nea en cero
    ax.axhline(y=0, color='red', linestyle='--', linewidth=1.5, alpha=0.6, zorder=0)
    
    # Crear leyenda fuera del gr√°fico
    from matplotlib.patches import Patch
    from matplotlib.lines import Line2D
    
    legend_elements = [
        Patch(facecolor='#8dd3c7', edgecolor='black', linewidth=1.5, 
              label='Congruente', alpha=0.85),
        Patch(facecolor='#bebada', edgecolor='black', linewidth=1.5, 
              label='Incongruente', alpha=0.85),
        Line2D([0], [0], color='black', linewidth=6, label='Mediana'),
        Line2D([0], [0], color='black', linewidth=2, label='Cuartiles (Q1-Q3)'),
        Line2D([0], [0], color='red', linestyle='--', linewidth=1.5, 
               label='L√≠nea de cero', alpha=0.6)
    ]
    
    # Posicionar leyenda fuera del √°rea de ploteo
    ax.legend(handles=legend_elements, 
              loc='upper left', 
              bbox_to_anchor=(1.02, 1),
              fontsize=11,
              frameon=True,
              fancybox=True,
              shadow=True,
              framealpha=0.95)
    
    # Ajustar layout para que la leyenda no se corte
    plt.tight_layout()
    
    # Guardar como SVG
    if guardar:
        carpeta = 'Graficos_Violin'
        if not os.path.exists(carpeta):
            os.makedirs(carpeta)
        
        nombre_archivo = f'Violin_{tipo_corto}_{eleccion_nombre}.svg'
        ruta = os.path.join(carpeta, nombre_archivo)
        plt.savefig(ruta, format='svg', bbox_inches='tight', facecolor='white')
        print(f'‚úì Gr√°fico guardado: {ruta}')
    
    plt.show()
    
    return fig, ax

In [None]:
# Transformar datos a formato largo para seaborn
def preparar_datos_long(df):
    """
    Transforma datos de formato ancho a formato largo para visualizaci√≥n.
    """
    df_long_list = []
    
    # CO: Cambio de Opini√≥n
    df_co = pd.DataFrame({
        'Valor': pd.concat([df['CO_Congruente'], df['CO_Incongruente']]),
        'Tipo': ['Congruente'] * len(df) + ['Incongruente'] * len(df),
        'Variable': 'Cambio de Opini√≥n'
    })
    
    # CT: Cambio de Tiempo
    df_ct = pd.DataFrame({
        'Valor': pd.concat([df['CT_Congruente'], df['CT_Incongruente']]),
        'Tipo': ['Congruente'] * len(df) + ['Incongruente'] * len(df),
        'Variable': 'Cambio de Tiempo'
    })
    
    # Combinar
    df_long = pd.concat([df_co, df_ct], ignore_index=True)
    df_long = df_long.dropna(subset=['Valor'])
    
    return df_long

# Crear datasets en formato largo
df_gen_long = preparar_datos_long(df_Generales)
df_bal_long = preparar_datos_long(df_Ballotage)

print('‚úì Datos transformados a formato largo:')
print(f'  - Generales: {len(df_gen_long)} observaciones')
print(f'  - Ballotage: {len(df_bal_long)} observaciones')
print(f'\nColumnas: {list(df_gen_long.columns)}')
print(f'\nPrimeras filas:')
print(df_gen_long.head(10))

## 3. Estad√≠sticas Descriptivas

In [None]:
print('='*70)
print('ESTAD√çSTICAS DESCRIPTIVAS POR GRUPO')
print('='*70)

for nombre, df_long in [('Generales', df_gen_long), ('Ballotage', df_bal_long)]:
    print(f'\nüìä {nombre}:')
    print('-'*70)
    
    for variable in ['Cambio de Opini√≥n', 'Cambio de Tiempo']:
        print(f'\n  {variable}:')
        
        df_var = df_long[df_long['Variable'] == variable]
        
        for tipo in ['Congruente', 'Incongruente']:
            datos = df_var[df_var['Tipo'] == tipo]['Valor']
            
            print(f'\n    {tipo}:')
            print(f'      n     = {len(datos)}')
            print(f'      Media = {datos.mean():.4f}')
            print(f'      Mediana = {datos.median():.4f}')
            print(f'      DE    = {datos.std():.4f}')
            print(f'      Min   = {datos.min():.4f}')
            print(f'      Max   = {datos.max():.4f}')
            print(f'      Q25   = {datos.quantile(0.25):.4f}')
            print(f'      Q75   = {datos.quantile(0.75):.4f}')

print('\n' + '='*70)

## 4. Gr√°ficos de Viol√≠n

### 4.1. Gr√°ficos: Generales

In [None]:
print('Generando gr√°ficos para Generales...\n')

# CO Generales
fig_co_gen, ax_co_gen = Crear_Grafico_Violin(
    df_gen_long,
    'Cambio de Opini√≥n',
    'Generales'
)

In [None]:
# CT Generales
fig_ct_gen, ax_ct_gen = Crear_Grafico_Violin(
    df_gen_long,
    'Cambio de Tiempo',
    'Generales'
)

### 4.2. Gr√°ficos: Ballotage

In [None]:
print('Generando gr√°ficos para Ballotage...\n')

# CO Ballotage
fig_co_bal, ax_co_bal = Crear_Grafico_Violin(
    df_bal_long,
    'Cambio de Opini√≥n',
    'Ballotage'
)

In [None]:
# CT Ballotage
fig_ct_bal, ax_ct_bal = Crear_Grafico_Violin(
    df_bal_long,
    'Cambio de Tiempo',
    'Ballotage'
)

## 5. Pruebas de Significancia Estad√≠stica

In [None]:
print('='*70)
print('TEST DE WILCOXON PAREADO')
print('='*70)
print('\nH‚ÇÄ: No hay diferencia entre Congruente e Incongruente')
print('H‚ÇÅ: Hay diferencia entre Congruente e Incongruente\n')

resultados_tests = []

for nombre_df, df in [('Generales', df_Generales), ('Ballotage', df_Ballotage)]:
    print(f'\nüìä {nombre_df}:')
    print('-'*70)
    
    for var_tipo, var_cong, var_incong in [
        ('CO', 'CO_Congruente', 'CO_Incongruente'),
        ('CT', 'CT_Congruente', 'CT_Incongruente')
    ]:
        datos_pareados = df[[var_cong, var_incong]].dropna()
        
        if len(datos_pareados) > 0:
            stat, p_valor = stats.wilcoxon(
                datos_pareados[var_cong],
                datos_pareados[var_incong]
            )
            
            # Determinar significancia
            if p_valor < 0.001:
                sig = '***'
            elif p_valor < 0.01:
                sig = '**'
            elif p_valor < 0.05:
                sig = '*'
            else:
                sig = 'ns'
            
            media_cong = datos_pareados[var_cong].mean()
            media_incong = datos_pareados[var_incong].mean()
            
            print(f'\n  {var_tipo}:')
            print(f'    n = {len(datos_pareados)}')
            print(f'    Media Congruente:    {media_cong:8.4f}')
            print(f'    Media Incongruente:  {media_incong:8.4f}')
            print(f'    Diferencia:          {media_cong - media_incong:8.4f}')
            print(f'    Estad√≠stico W:       {stat:8.2f}')
            print(f'    p-valor:             {p_valor:.6f}')
            print(f'    Significancia:       {sig}')
            
            if sig != 'ns':
                if media_cong > media_incong:
                    print(f'    ‚úì Mayor en CONGRUENTE')
                else:
                    print(f'    ‚úì Mayor en INCONGRUENTE')
            
            resultados_tests.append({
                'Eleccion': nombre_df,
                'Variable': var_tipo,
                'n': len(datos_pareados),
                'Media_Congruente': media_cong,
                'Media_Incongruente': media_incong,
                'W': stat,
                'p_valor': p_valor,
                'Significancia': sig
            })

print('\n' + '='*70)

# Crear DataFrame con resultados
df_resultados = pd.DataFrame(resultados_tests)
print('\nüìã Resumen de Resultados:\n')
print(df_resultados.to_string(index=False))

## 6. An√°lisis de Distribuciones

In [None]:
print('='*70)
print('AN√ÅLISIS DE FORMA DE DISTRIBUCIONES')
print('='*70)

for nombre, df in [('Generales', df_Generales), ('Ballotage', df_Ballotage)]:
    print(f'\nüìä {nombre}:')
    print('-'*70)
    
    for var_nombre, var_col in [
        ('CO_Congruente', 'CO_Congruente'),
        ('CO_Incongruente', 'CO_Incongruente'),
        ('CT_Congruente', 'CT_Congruente'),
        ('CT_Incongruente', 'CT_Incongruente')
    ]:
        datos = df[var_col].dropna()
        
        if len(datos) > 3:
            # Calcular asimetr√≠a (skewness) y curtosis
            skewness = stats.skew(datos)
            kurtosis = stats.kurtosis(datos)
            
            print(f'\n  {var_nombre}:')
            print(f'    Asimetr√≠a (skewness): {skewness:6.3f}', end='')
            
            if abs(skewness) < 0.5:
                print(' (aproximadamente sim√©trica)')
            elif skewness > 0:
                print(' (sesgada a la derecha)')
            else:
                print(' (sesgada a la izquierda)')
            
            print(f'    Curtosis:             {kurtosis:6.3f}', end='')
            
            if abs(kurtosis) < 1:
                print(' (mesoc√∫rtica, similar a normal)')
            elif kurtosis > 0:
                print(' (leptoc√∫rtica, m√°s puntiaguda)')
            else:
                print(' (platic√∫rtica, m√°s aplanada)')
            
            # Test de normalidad (Shapiro-Wilk para n < 5000)
            if len(datos) < 5000:
                w_stat, p_normal = stats.shapiro(datos)
                print(f'    Test Shapiro-Wilk:    p = {p_normal:.6f}', end='')
                
                if p_normal < 0.05:
                    print(' (NO normal)')
                else:
                    print(' (aproximadamente normal)')

print('\n' + '='*70)

## 7. Guardar Resumen de Resultados

In [None]:
# Guardar tabla de resultados
Carpeta_Salida = os.path.join(os.getcwd(), '..', 'Data', 'Resultados_Violin')
if not os.path.exists(Carpeta_Salida):
    os.makedirs(Carpeta_Salida)

archivo = os.path.join(Carpeta_Salida, 'Resultados_Tests_Congruencia.xlsx')
df_resultados.to_excel(archivo, index=False)
print(f'‚úì Resultados guardados: {archivo}')

## 8. Resumen Final

In [None]:
print('='*70)
print('RESUMEN: GR√ÅFICOS DE VIOL√çN - CONGRUENCIA IDEOL√ìGICA')
print('='*70)

print('\nüìä An√°lisis completado:')
print('  - Gr√°ficos generados: 4 (2 por elecci√≥n)')
print('  - Variables analizadas: CO y CT (Congruente vs Incongruente)')
print('  - Elecciones: Generales y Ballotage')

print('\nüìÅ Archivos generados:')
print('  Gr√°ficos:')
print('    - Graficos_Violin/Violin_CO_Generales.svg')
print('    - Graficos_Violin/Violin_CT_Generales.svg')
print('    - Graficos_Violin/Violin_CO_Ballotage.svg')
print('    - Graficos_Violin/Violin_CT_Ballotage.svg')
print('  Datos:')
print('    - Data/Resultados_Violin/Resultados_Tests_Congruencia.xlsx')

print('\nüí° Interpretaci√≥n de gr√°ficos de viol√≠n:')
print('  - Ancho del viol√≠n: densidad de observaciones en ese valor')
print('  - L√≠nea horizontal (mediana): divide la distribuci√≥n en 2 mitades iguales')
print('  - Diamante (media): centro de gravedad de la distribuci√≥n')
print('  - Forma sim√©trica: distribuci√≥n balanceada')
print('  - M√∫ltiples "barrigas": posible distribuci√≥n multimodal')

print('\nüéØ Hallazgos principales:')

for _, row in df_resultados.iterrows():
    if row['Significancia'] != 'ns':
        direccion = 'Congruente > Incongruente' if row['Media_Congruente'] > row['Media_Incongruente'] else 'Incongruente > Congruente'
        print(f"  {row['Eleccion']} - {row['Variable']}: {direccion} (p = {row['p_valor']:.4f} {row['Significancia']})")

print('\n' + '='*70)
print('‚úì AN√ÅLISIS COMPLETADO')
print('='*70)