Se importan las bibliotecas necesarias para el análisis de datos, manipulación de datos, y creación de modelos estadísticos.

In [285]:
import pandas as pd
import statsmodels.api as sm
import statsmodels.formula.api as smf
import unidecode

Se carga el archivo de Excel en un DataFrame de pandas.

In [286]:
df = pd.read_excel('Databases/1. Generales - Original.xlsx')

Se renombra una columna para evitar problemas con el nombre.

In [287]:
df = df.rename(columns={'autopercep_izq-der': 'autopercep_izq_der'})

Se definen las variables dependientes (la variable que se quiere predecir) y las variables independientes (las que influyen en la dependiente).

In [288]:
# Variables a explicar.
Variables_Dependientes = ['cercania_Massa' 
                          #'cercania_Milei', 
                          #'cercania_Bregman', 
                          #'cercania_Bullrich', 
                          #'cercania_Schiaretti'
                          ]

# Variables que influyen en las otras.
Variables_Todas = [
                            # 'genero',
                            # 'edad',
                            # 'nacionalidad',
                            # 'provincia',
                            'e_social',
                            # 'niv_educativo',
                            'voto_2019',
                            # 'voto_PASO_2023',
                            'candidato_PASO_2023',
                            # 'autopercep_izq_der',
                            # 'autopercep_conpro',
                            # 'autopercep_perantiper',
                            'indice_positividad',
                            'massa_ip_izqder',
                            'massa_ip_conpro'
                            # 'bullrich_ip_izqder',
                            # 'bullrich_ip_conpro',
                            # 'schiaretti_ip_izqder',
                            # 'schiaretti_ip_conpro',
                            # 'milei_ip_izqder',
                            # 'milei_ip_conpro',
                            # 'bregman_ip_izqder',
                            # 'bregman_ip_conpro',
                            # 'indice_progresismo',
                            # 'indice_conservadurismo'
                            ]

Se crea una lista de variables que se utilizarán para el análisis de un candidato específico (Massa).

In [289]:
Variables_Massa = [
    'voto_2019',
    'autopercep_perantiper',
    'massa_ip_conpro',
    'indice_conservadurismo',
    'massa_ip_izqder',
    'edad',
    'autopercep_conpro',
    'indice_progresismo',
    'autopercep_izq_der',
    'indice_positividad',
    'candidato_PASO_2023',
    'schiaretti_ip_conpro',
    'schiaretti_ip_izqder'
]
Variables_Independientes = Variables_Massa

Se crea un df solo con las variables de interés.

In [290]:
df = df[Variables_Independientes + Variables_Dependientes]

In [291]:
# 1. Eliminar filas con valores nulos
df = df.dropna()

In [292]:
# 2. Identificar y convertir las variables categóricas
Categorical_Columns = df.select_dtypes(include=['category', 'object']).columns

In [293]:
# Convertir variables categóricas en variables dummies
df = pd.get_dummies(df, columns=Categorical_Columns, drop_first=True)

In [294]:
# 4. Renombrar columnas para eliminar acentos y caracteres especiales
df.columns = [unidecode.unidecode(col).replace(' ', '_').replace('.', '') for col in df.columns]

# 5. Imprimir columnas para verificar
print("Columns in DataFrame:", df.columns)

df


Columns in DataFrame: Index(['autopercep_perantiper', 'massa_ip_conpro', 'indice_conservadurismo',
       'massa_ip_izqder', 'edad', 'autopercep_conpro', 'indice_progresismo',
       'autopercep_izq_der', 'indice_positividad', 'schiaretti_ip_conpro',
       'schiaretti_ip_izqder', 'cercania_Massa', 'voto_2019_J_Gomez_Centurion',
       'voto_2019_JL_Espert', 'voto_2019_Mauricio_Macri',
       'voto_2019_Nicolas_Del_Cano', 'voto_2019_Roberto_Lavagna',
       'voto_2019_Voto_en_blanco', 'voto_2019_no_vote',
       'voto_2019_prefiero_no_decirlo', 'candidato_PASO_2023_Guillermo_Moreno',
       'candidato_PASO_2023_Horacio_Rodriguez_Larreta',
       'candidato_PASO_2023_Javier_Milei', 'candidato_PASO_2023_Jesus_Escobar',
       'candidato_PASO_2023_Juan_Grabois',
       'candidato_PASO_2023_Juan_Schiaretti',
       'candidato_PASO_2023_Julio_Barbaro',
       'candidato_PASO_2023_Manuela_Castaneira',
       'candidato_PASO_2023_Marcelo_Ramal',
       'candidato_PASO_2023_Mempo_Giardinelli',

Unnamed: 0,autopercep_perantiper,massa_ip_conpro,indice_conservadurismo,massa_ip_izqder,edad,autopercep_conpro,indice_progresismo,autopercep_izq_der,indice_positividad,schiaretti_ip_conpro,...,candidato_PASO_2023_Myriam_Bregman,candidato_PASO_2023_Nazareno_Etchepare,candidato_PASO_2023_Patricia_Bullrich,candidato_PASO_2023_Prefiero_no_decirlo,candidato_PASO_2023_Santiago_Cuneo,candidato_PASO_2023_Sergio_Massa,candidato_PASO_2023_Voto_en_blanco,candidato_PASO_2023_no_aplica,candidato_PASO_2023_votoPASO2023no,candidato_PASO_2023_votoPASO2023si
0,10,3,4.111111,3,67,8,2.000000,6,15,10,...,False,False,True,False,False,False,False,False,False,False
1,3,8,2.700000,4,54,2,3.555556,8,15,5,...,False,False,False,False,False,False,False,False,False,False
2,10,10,2.600000,1,68,10,3.000000,10,15,10,...,False,False,False,False,False,False,False,False,False,False
3,10,10,3.444444,1,50,2,2.800000,10,13,7,...,True,False,False,False,False,False,False,False,False,False
4,6,5,4.000000,1,37,5,2.400000,6,13,5,...,False,False,False,False,False,False,False,True,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2834,10,3,2.777778,4,45,10,3.600000,10,16,5,...,False,False,False,False,False,False,False,False,False,False
2835,1,6,4.333333,5,24,8,3.000000,4,18,4,...,False,False,False,False,False,False,False,True,False,False
2836,10,10,1.700000,1,40,1,3.444444,10,11,4,...,False,False,False,False,False,False,False,False,False,False
2837,10,10,2.700000,6,53,1,4.111111,6,11,6,...,False,False,False,False,False,False,False,False,False,False


In [295]:
# 1. Convertir las columnas booleanas a numéricas
for column in df.columns:
    if df[column].dtype == 'bool':
        df[column] = df[column].astype(int)  # Convert boolean to int

In [296]:
# 3. Ajustar el modelo de regresión logística multinomial
# Asegúrate de que 'cercania_Massa' sea la variable dependiente
#df['cercania_Massa'] = df['cercania_Massa'].astype('category')

In [297]:
# Ajustar el modelo
Formula = 'cercania_Massa ~ ' + ' + '.join(df.columns.difference(['cercania_Massa']))
Model = smf.mnlogit(Formula, data=df).fit()

Optimization terminated successfully.
         Current function value: nan
         Iterations 24


  eXB = np.column_stack((np.ones(len(X)), np.exp(X)))
  return eXB/eXB.sum(1)[:,None]


In [298]:
# 4. Imprimir el resumen para obtener los p-valores
summary = Model.summary2()
print(summary)

                                  Results: MNLogit
Model:                      MNLogit                 Method:                  MLE    
Dependent Variable:         cercania_Massa          Pseudo R-squared:        nan    
Date:                       2024-10-21 14:24        AIC:                     nan    
No. Observations:           2839                    BIC:                     nan    
Df Model:                   156                     Log-Likelihood:          nan    
Df Residuals:               2679                    LL-Null:                 -4320.1
Converged:                  1.0000                  LLR p-value:             nan    
No. Iterations:             24.0000                 Scale:                   1.0000 
------------------------------------------------------------------------------------
              cercania_Massa = 0              Coef. Std.Err.  t  P>|t| [0.025 0.975]
------------------------------------------------------------------------------------
              

In [299]:
from statsmodels.stats.outliers_influence import variance_inflation_factor

# Calculando el VIF para cada variable
X = df.drop(columns=['cercania_Massa'])
vif_data = pd.DataFrame()
vif_data['feature'] = X.columns
vif_data['VIF'] = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]
print(vif_data)

                                          feature        VIF
0                           autopercep_perantiper   8.171600
1                                 massa_ip_conpro  12.014879
2                          indice_conservadurismo  81.536591
3                                 massa_ip_izqder  11.629319
4                                            edad  15.706047
5                               autopercep_conpro  13.889025
6                              indice_progresismo  20.304790
7                              autopercep_izq_der  11.253126
8                              indice_positividad  26.425285
9                            schiaretti_ip_conpro   6.919393
10                           schiaretti_ip_izqder  20.623801
11                    voto_2019_J_Gomez_Centurion   1.096572
12                            voto_2019_JL_Espert   1.226938
13                       voto_2019_Mauricio_Macri   3.164698
14                     voto_2019_Nicolas_Del_Cano   1.701658
15                      