# Análisis Exploratorio de Datos de Encuesta (Muestra)

Este notebook se utiliza para realizar un análisis exploratorio básico de un archivo de datos de encuesta en formato SPSS (`.sav`). El objetivo es cargar los datos junto con sus metadatos (etiquetas de variables y valores) para una inspección inicial.

## 1. Carga de Datos y Metadatos

Utilizamos la biblioteca `pyreadstat` para leer el archivo `.sav`. Esta biblioteca es ideal para este propósito porque puede extraer tanto el `DataFrame` con los datos como un objeto de metadatos que contiene información valiosa como:
- **Etiquetas de las variables**: El texto completo de la pregunta asociada a cada columna.
- **Etiquetas de los valores**: El significado de los códigos numéricos utilizados en las variables categóricas.

In [1]:
import pyreadstat

# Se define la ruta del archivo .sav. 
# NOTA: Esta es una ruta local y necesitará ser ajustada si el script se ejecuta en una máquina diferente.
df, meta = pyreadstat.read_sav(
        "/Users/blanc/Library/CloudStorage/GoogleDrive-dblancbellido@gmail.com/.shortcut-targets-by-id/153DRxBD4jspE3sko8JH1R6j2AYv7OrgD/PBI - Comunidad Zona/sample_dataset.sav",
        apply_value_formats=True,  # Aplica las etiquetas de valor a los datos (ej. 1 -> 'Hombre')
        formats_as_category=True, # Trata las variables con formato como categóricas
        formats_as_ordered_category=False # No trata las variables como categóricas ordenadas
)

# Se extraen los diccionarios de etiquetas de los metadatos
dict_value_labels = meta.variable_value_labels
dict_column_labels = meta.column_names_to_labels

# Se muestran las primeras 5 filas del DataFrame para una vista previa de los datos
df.head()

Unnamed: 0,id,region,sexo,a1,c1a,c1b,c1c,c1d,c1e,c1f,d1,ponderador
0,1.0,Montevideo,Hombre,Buena,0.0,1.0,0.0,1.0,0.0,0.0,50000.0,0.9
1,2.0,Interior,Mujer,Muy buena,0.0,1.0,0.0,1.0,0.0,0.0,90000.0,1.2
2,3.0,Interior,Mujer,Muy buena,0.0,1.0,0.0,1.0,0.0,0.0,120000.0,1.1
3,4.0,Interior,Hombre,Mala,1.0,0.0,1.0,0.0,0.0,0.0,40000.0,0.8
4,5.0,Interior,Hombre,,1.0,0.0,0.0,0.0,1.0,0.0,30000.0,0.7


## 2. Inspección de Etiquetas de Valores

El diccionario `dict_value_labels` contiene el mapeo de los códigos numéricos a sus etiquetas de texto para cada variable categórica. Esto es fundamental para interpretar correctamente los datos.

In [2]:
dict_value_labels

{'region': {1.0: 'Montevideo', 2.0: 'Interior'},
 'sexo': {1.0: 'Hombre', 2.0: 'Mujer'},
 'a1': {1.0: 'Muy buena', 2.0: 'Buena', 3.0: 'Mala', 4.0: 'Muy mala'}}

## 3. Inspección de Etiquetas de Variables

El diccionario `dict_column_labels` contiene el texto completo de la pregunta para cada nombre de variable (columna). Esto nos da el contexto completo de lo que cada variable representa.

In [4]:
dict_column_labels

{'id': 'identificador',
 'region': 'En qué región vive?',
 'sexo': 'Cúal es su sexo?',
 'a1': 'Cuál es su percepción sobre la economía?',
 'c1a': 'Cuáles son los principales problemas del país? Seleccione hasta dos. (Economía)',
 'c1b': 'Cuáles son los principales problemas del país? Seleccione hasta dos. (Educación)',
 'c1c': 'Cuáles son los principales problemas del país? Seleccione hasta dos. (Trabajo)',
 'c1d': 'Cuáles son los principales problemas del país? Seleccione hasta dos. (Seguridad)',
 'c1e': 'Cuáles son los principales problemas del país? Seleccione hasta dos. (Corrupción)',
 'c1f': 'Cuáles son los principales problemas del país? Seleccione hasta dos. (Política exterior)',
 'd1': 'Cuál es su ingreso?',
 'ponderador': 'Ponderador'}