# 1. Import microdata from Macroencuesta 2011

In [None]:
import os

import pandas as pd
import pyreadstat

In [2]:
dataset_dir = os.path.join("datasets", "raw", "CIS", "CIS003-Macroencuesta2011")
dataset_path = os.path.join(dataset_dir, "2858.sav")
df, meta = pyreadstat.read_sav(dataset_path, apply_value_formats=True)
df

Unnamed: 0,CUES,A1,CCAA,PROV,MUN,TAMUNI,AREA,DISTR,SECCION,ENTREV,...,P6,P14,P22,P34,P51B,RECUERDO,ESTUDIOS,OCUPA,CONDICION,ESTATUS
0,1.0,285800001,País Vasco,Álava,,Menos o igual a 2.000 habitantes,,,,,...,162.0,,,108.0,,IU,Primaria,Trabajadores de servicios de restauración y pe...,Parados,Obreros cualificados
1,2.0,285800002,País Vasco,Álava,,Menos o igual a 2.000 habitantes,,,,,...,276.0,,,252.0,,En blanco+Nulos,Primaria,N.C.,Trabajo doméstico no remunerado,
2,3.0,285800003,País Vasco,Álava,,Menos o igual a 2.000 habitantes,,,,,...,96.0,,,72.0,,PSOE,Primaria,Trabajadores cualificados de agricultura y pesca,Agricultores,Viejas clases medias
3,4.0,285800004,País Vasco,Álava,,Menos o igual a 2.000 habitantes,,,,,...,,,48.0,,,En blanco+Nulos,Medios universitarios,Técnicos y profesionales de apoyo,Técnicos y cuadro medios,Clase alta/media-alta
4,5.0,285800005,País Vasco,Álava,,Menos o igual a 2.000 habitantes,,,,,...,,,,,,No votó,Sin estudios,Trabajadores cualificados de agricultura y pesca,Trabajo doméstico no remunerado,Viejas clases medias
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7893,8003.0,285808003,Rioja (La),Rioja (La),89.0,100.001 a 400.000 habitantes,,,,,...,,,75.0,,109.0,,Primaria,Empleados de tipo administrativo,Empleados de oficinas y servicios,Nuevas clases medias
7894,8004.0,285808004,Rioja (La),Rioja (La),89.0,100.001 a 400.000 habitantes,,,,,...,,,8.0,,,No votó,Primaria,Empleados de tipo administrativo,Empleados de oficinas y servicios,Nuevas clases medias
7895,8005.0,285808005,Rioja (La),Rioja (La),89.0,100.001 a 400.000 habitantes,,,,,...,,,60.0,,60.0,,Primaria,Trabajadores de servicios de restauración y pe...,Trabajo doméstico no remunerado,Obreros no cualificados
7896,8006.0,285808006,Rioja (La),Rioja (La),89.0,100.001 a 400.000 habitantes,,,,,...,,,36.0,,120.0,No votó,F.P.,Trabajadores de servicios de restauración y pe...,Parados,Obreros cualificados


# 2. Data Exploration

In [None]:
len(df)

7898

In [None]:
df["P11"]

0       Hombre
1       Hombre
2       Hombre
3          NaN
4       Hombre
         ...  
7893       NaN
7894       NaN
7895       NaN
7896       NaN
7897     Mujer
Name: P11, Length: 7898, dtype: category
Categories (3, object): ['Hombre', 'Mujer', 'N.C.']

# 3. Extract variables, labels and values

In [None]:
var_values = pd.DataFrame(columns=["Code", "UniqueValues"])
var_values["Code"] = list(df.columns)
var_values["UniqueValues"] = var_values["Code"].apply(lambda cod: df[cod].unique())
var_values

Unnamed: 0,Code,UniqueValues
0,CUES,"[1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, ..."
1,A1,"[285800001, 285800002, 285800003, 285800004, 2..."
2,CCAA,"['País Vasco', 'Castilla La Mancha', 'Comuni..."
3,PROV,"['Álava', 'Albacete', 'Alicante', 'Almería', '..."
4,MUN,"[nan, 59.0, 3.0, 65.0, 14.0, 13.0, 19.0, 15.0,..."
...,...,...
354,RECUERDO,"['IU', 'En blanco+Nulos', 'PSOE', 'No votó', '..."
355,ESTUDIOS,"['Primaria', 'Medios universitarios', 'Sin est..."
356,OCUPA,['Trabajadores de servicios de restauración y ...
357,CONDICION,"['Parados', 'Trabajo doméstico no remunerado',..."


In [None]:
syntax_file_path = os.path.join(dataset_dir, "ES2858")
with open(syntax_file_path, "r", encoding="utf-8") as f:
    rows = f.readlines()[35:252]

stripped_rows = [row.strip().split("'", 1) for row in rows]
var_names = pd.DataFrame(stripped_rows, columns=["Code", "VariableName"])

# Uppercase, no whitespace, semicollons or slasches
var_names["Code"] = var_names["Code"].str.upper()
var_names["Code"] = var_names["Code"].str.replace(" ", "", regex=False)
var_names["VariableName"] = var_names["VariableName"].str.replace("'", "", regex=False)
var_names.loc[1:, "Code"] = var_names.loc[1:, "Code"].apply(lambda cod: cod[1:])
var_names

Unnamed: 0,Code,VariableName
0,CCAA,Comunidad autónoma
1,PROV,Provincia
2,TAMUNI,Tamaño de hábitat
3,AREA,Área metropolitana
4,MUN,Municipio
...,...,...
212,RECUERDO,Recuerdo de voto
213,ESTUDIOS,Estudios del entrevistado
214,OCUPA,Ocupación del entrevistado
215,CONDICION,Condición socioeconómica


In [None]:
vars = pd.merge(var_values, var_names, on="Code", how="left")
vars

Unnamed: 0,Code,UniqueValues,VariableName
0,CUES,"[1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, ...",
1,A1,"[285800001, 285800002, 285800003, 285800004, 2...",
2,CCAA,"['País Vasco', 'Castilla La Mancha', 'Comuni...",Comunidad autónoma
3,PROV,"['Álava', 'Albacete', 'Alicante', 'Almería', '...",Provincia
4,MUN,"[nan, 59.0, 3.0, 65.0, 14.0, 13.0, 19.0, 15.0,...",Municipio
...,...,...,...
354,RECUERDO,"['IU', 'En blanco+Nulos', 'PSOE', 'No votó', '...",Recuerdo de voto
355,ESTUDIOS,"['Primaria', 'Medios universitarios', 'Sin est...",Estudios del entrevistado
356,OCUPA,['Trabajadores de servicios de restauración y ...,Ocupación del entrevistado
357,CONDICION,"['Parados', 'Trabajo doméstico no remunerado',...",Condición socioeconómica


In [None]:
vars.to_excel("vars.xlsx", index=False)