In [4]:
import pandas as pd
import numpy as np
url = 'https://raw.githubusercontent.com/lfot/Py_DDS_trabajo_final/main/data/base_85.csv'
df = pd.read_csv(url, sep=';')

**Se realizará un análisis de algunas variables asociadas al plebiscito (de entrada) por una nueva consitución (25 de octubre de 2020), considerando variables sociodemográficas y otras vinculadas a opiniones de carácter ideológico, político y social.**

**Plan de Análisis**

1.- Análisis descrptivo de las variales de interés:

| Variable         | Descripción                                                                                             |
|------------------|---------------------------------------------------------------------------------------------------------|
| zona_u_r         | Zona                                                                                                    |
| eval_gob_1       | Independientemente de su posición política, ¿Ud. aprueba o desaprueba la forma como Sebastián Piñera está conduciendo su gobierno? |
| iden_pol_2       | Los conceptos de izquierda y derecha son útiles para resumir de una manera muy simplificada lo que piensa la gente en muchos temas. Me gustaría que por favor se clasificara en la escala que va de 1 a 10 donde 1 representa a la izquierda y 10 representa a la derecha. |
| confianza_8_a    | En general, ¿Ud. diría que se puede confiar en las personas o que hay que ser cuidadoso en el trato con la gente? |
| interes_pol_1_b  | ¿Cuán interesado está Ud. en la política?                                                              |
| democracia_21    | ¿Con cuál de las siguientes frases está Ud. más de acuerdo?                                            |
| democracia_19    | En las democracias se aspira a que haya libertades públicas y privadas y que haya orden público y seguridad ciudadana. En su caso, ¿a cuál valor le da más importancia? |
| constitucion_4_a | ¿Votó Ud. en el plebiscito sobre una nueva constitución realizado en octubre del año pasado?           |
| constitucion_4_b | Con respecto a la pregunta "¿Quiere usted una Nueva Constitución?", ¿podría decirme por cuál de las opciones votó? |
| estallido_5      | Con respecto a las manifestaciones que empezaron en octubre 2019, Ud. diría que…                        |
| sexo             | Sexo                                                                                                   |
| edad             | ¿Cuál es su edad? Edad exacta                                                                           |
| bienestar_21     | Considerando todos los ingresos percibidos por su familia, esto es, todos los ingresos que reciben ustedes, ¿cuál de las frases que aparecen en esta tarjeta cree Ud. que se ajusta mejor a su situación de ingresos? |
| gse              | Grupo socioeconómico                                                                                  |


2.- Transformaciones y recodificaciones funcionales, particularmente eliminación de valores considerados "no útiles".

3.- Creación de un nuevo df que sólo contenga las variables seleccionadas y con las modificaciones realizadas.

Análisis descriptivo

In [3]:
import pandas as pd

# Lista de variables para tablas de frecuencia
variables = [
    'zona_u_r', 'eval_gob_1', 'iden_pol_2', 'confianza_8_a', 
    'interes_pol_1_b', 'democracia_21', 'democracia_19', 
    'constitucion_4_a', 'constitucion_4_b', 'estallido_5', 
    'sexo', 'bienestar_21', 'gse'
]

# Definir el orden personalizado para algunas variables específicas (luego de varios intentos)
order_dict = {
    'iden_pol_2': [
        '1.- Izquierda', '2', '3', '4', '5', 
        '6', '7', '8', '9', '10.- Derecha', 
        '88.- No sabe (no leer)', '99.- No contesta (no leer)', 'NaN'
    ],
    'eval_gob_1': [
        '1. - APRUEBA', '2. - DESAPRUEBA', 
        '3. - (no leer) NO APRUEBA NI DESAPRUEBA', 
        '8. - No sabe ( no leer )', '9. - No contesta ( no leer )', 'NaN'
    ],
    'democracia_19': [
        '1.- Que haya libertades públicas y privadas', 
        '2', '3', '4', '5', '6', '7', '8', 
        '9', '10.- Que haya orden público y seguridad ciudadana', 
        '88.- No sabe (no leer)', '99.- No responde (no leer)', 'NaN'
    ],
    'constitucion_4_b': [
        '1.- APRUEBO', '2.- RECHAZO', 
        '3.- VOTÉ BLANCO (no leer)', '4.- VOTÉ NULO (no leer)', 
        '88.- No sabe (no leer)', '99.- No responde (no leer)', 
        'NaN'
    ],
    'constitucion_4_a': [
        'Si', 'No', '88.- No sabe (no leer)', '99.- No responde (no leer)', 'NaN'
    ]
}

# Calcular tablas de frecuencia para cada variable
for var in variables:
    # Calcular frecuencia absoluta
    freq_abs = df[var].value_counts(dropna=False)
    
    # Calcular frecuencia relativa como porcentaje
    freq_rel = df[var].value_counts(normalize=True, dropna=False) * 100
    
    # Crear un DataFrame con las frecuencias
    freq_df = pd.DataFrame({
        'Frecuencia': freq_abs,
        'Porcentaje': freq_rel
    }).reset_index()
    
    # Renombrar columnas
    freq_df.columns = [var, 'Frecuencia', 'Porcentaje']
    
    # Ordenar el DataFrame según el orden personalizado si se proporciona
    if var in order_dict:
        order = order_dict[var]
        freq_df[var] = pd.Categorical(freq_df[var], categories=order, ordered=True)
        freq_df = freq_df.sort_values(by=var)
    else:
        # Ordenar en orden ascendente para variables con menos de 9 categorías
        freq_df = freq_df.sort_values(by=var, ascending=True)
    
    # Resetear el índice
    freq_df = freq_df.reset_index(drop=True)
    
    # Imprimir resultados
    print(f"\nTabla de Frecuencia para {var}:\n")
    print(freq_df)

# Análisis descriptivo básica de la variable 'edad', incluyendo NaN
edad_desc = df['edad'].describe(include='all')

# Agregar conteo de NaN
nan_count = df['edad'].isna().sum()

# Crear un DataFrame para el análisis descriptivo
edad_desc_df = pd.DataFrame(edad_desc).T
edad_desc_df['count_NaN'] = nan_count

# Imprimir análisis descriptivo para 'edad'
print(f"\nAnálisis Descriptivo para 'edad':\n")
print(edad_desc_df)



Tabla de Frecuencia para zona_u_r:

  zona_u_r  Frecuencia  Porcentaje
0    RURAL         182   12.612613
1   URBANA        1261   87.387387

Tabla de Frecuencia para eval_gob_1:

                                eval_gob_1  Frecuencia  Porcentaje
0                             1. - APRUEBA         254   17.602218
1                          2. - DESAPRUEBA         933   64.656965
2  3. - (no leer) NO APRUEBA NI DESAPRUEBA         202   13.998614
3                 8. - No sabe ( no leer )          27    1.871102
4             9. - No contesta ( no leer )          27    1.871102

Tabla de Frecuencia para iden_pol_2:

                    iden_pol_2  Frecuencia  Porcentaje
0                1.- Izquierda          71    4.920305
1                            2          27    1.871102
2                            3          70    4.851005
3                            4          67    4.643105
4                            5         383   26.541927
5                            6         104    7.

Selección de variables en un nuevo df (df_ok) y eliminación de categorías (no respuesta nominal) que pueden ser consideradas como "NaN" para un adecuado análisis.

In [7]:
# Variables seleccionadas
variables = [
    'zona_u_r', 'eval_gob_1', 'iden_pol_2', 'confianza_8_a', 
    'interes_pol_1_b', 'democracia_21', 'democracia_19', 
    'constitucion_4_a', 'constitucion_4_b', 'estallido_5', 
    'sexo', 'edad', 'bienestar_21', 'gse'
]

# Definir categorías a reemplazar por NaN
replace_categories = {
    'zona_u_r': ['88.- No sabe (no leer)', '99.- No responde (no leer)', 'NaN'],
    'eval_gob_1': ['8. - No sabe ( no leer )', '9. - No contesta ( no leer )', 'NaN'],
    'iden_pol_2': ['88.- No sabe (no leer)', '99.- No contesta (no leer)', 'NaN'],
    'confianza_8_a': ['88 No sabe', 'NaN'],
    'interes_pol_1_b': ['8. - No Sabe ( no leer )', '9. - No contesta ( no leer )', 'NaN'],
    'democracia_21': ['8 No sabe', '9 No contesta', 'NaN'],
    'democracia_19': ['88.- No sabe (no leer)', '99.- No responde (no leer)', 'NaN'],
    'constitucion_4_a': ['88.- No sabe (no leer)', '99.- No responde (no leer)', 'NaN'],
    'constitucion_4_b': ['88.- No sabe (no leer)', '99.- No responde (no leer)', 'NaN'],
    'estallido_5': ['8 No sabe', '9 No contesta', 'NaN'],
    'sexo': ['NaN'],
    'bienestar_21': ['88.- No sabe (no leer)', '99.- No contesta (no leer)', 'NaN'],
    'gse': ['NaN']
}

# Crear un nuevo DataFrame solo con las variables seleccionadas
df_ok = df[variables].copy()

# Reemplazar las categorías por NaN en el nuevo DataFrame
for var, categories in replace_categories.items():
    df_ok[var] = df_ok[var].replace(categories, np.nan)

Exportar nuevo df

In [8]:
# Guardar el nuevo df (df_ok) en un archivo CSV separado por "punto y coma"
df_ok.to_csv('df_ok.csv', sep=';', index=False)

# Mostrar el nuevo DataFrame
print(df_ok.head())

  zona_u_r       eval_gob_1 iden_pol_2  \
0   URBANA  2. - DESAPRUEBA        NaN   
1   URBANA  2. - DESAPRUEBA        NaN   
2   URBANA  2. - DESAPRUEBA        NaN   
3   URBANA  2. - DESAPRUEBA        NaN   
4   URBANA     1. - APRUEBA        NaN   

                            confianza_8_a        interes_pol_1_b  \
0  4.- CASI SIEMPRE HAY QUE SER CUIDADOSO    5.- NADA INTERESADO   
1   3.- NORMALMENTE HAY QUE SER CUIDADOSO    5.- NADA INTERESADO   
2  4.- CASI SIEMPRE HAY QUE SER CUIDADOSO    5.- NADA INTERESADO   
3   3.- NORMALMENTE HAY QUE SER CUIDADOSO    5.- NADA INTERESADO   
4  4.- CASI SIEMPRE HAY QUE SER CUIDADOSO  4.- NO MUY INTERESADO   

                                       democracia_21 democracia_19  \
0  1.- LA DEMOCRACIA ES PREFERIBLE A CUALQUIER OT...             7   
1                                                NaN           NaN   
2                                                NaN           NaN   
3  1.- LA DEMOCRACIA ES PREFERIBLE A CUALQUIER OT...      