# 1. Import microdata from Macroencuesta 2015

In [None]:
import os

import pandas as pd
import pyreadstat
from dotenv import load_dotenv

In [None]:
load_dotenv()
root_path = os.getenv("ROOT_PATH")
dataset_dir = os.path.join(root_path, "datasets", "CIS", "CIS002-Macroencuesta2015")
dataset_path = os.path.join(dataset_dir, "3027.sav")
df, meta = pyreadstat.read_sav(dataset_path, apply_value_formats=True)
df

Unnamed: 0,ESTU,CUES,CCAA,PROV,MUN,TAMUNI,AREA,DISTR,SECCION,ENTREV,...,C4,P87A10,ESTUDIPAR,ESTUDIOS,OCUMAR11,RAMA09,CONDICION11,ESTATUS,PESO,PESOCA
0,3027.0,1.0,País Vasco,Araba-Álava,Burgos / Vitoria-Gasteiz,100.001 a 400.000 habitantes,No pertenece,Anonimizado,Anonimizado,Anonimizado,...,Anonimizado,,Primaria,Primaria,"Operadores/as de instalaciones y maquinaria, y...",Industria,Jubilados/as y pensionistas,Obreros/as cualificados/as,,
1,3027.0,2.0,País Vasco,Araba-Álava,Burgos / Vitoria-Gasteiz,100.001 a 400.000 habitantes,No pertenece,Anonimizado,Anonimizado,Anonimizado,...,Anonimizado,,F.P.,Superiores,Directores/as y gerentes,Servicios,Parados/as,Clase alta/media-alta,,
2,3027.0,3.0,País Vasco,Araba-Álava,Burgos / Vitoria-Gasteiz,100.001 a 400.000 habitantes,No pertenece,Anonimizado,Anonimizado,Anonimizado,...,Anonimizado,,Superiores,Superiores,Técnicos/as y profesionales científicos/as e i...,Servicios,Técnicos/as y cuadros medios,Clase alta/media-alta,,
3,3027.0,4.0,País Vasco,Araba-Álava,Burgos / Vitoria-Gasteiz,100.001 a 400.000 habitantes,No pertenece,Anonimizado,Anonimizado,Anonimizado,...,Anonimizado,,Superiores,Superiores,Directores/as y gerentes,Industria,Pequeños/as empresarios/as,Viejas clases medias,,
4,3027.0,5.0,País Vasco,Araba-Álava,Burgos / Vitoria-Gasteiz,100.001 a 400.000 habitantes,No pertenece,Anonimizado,Anonimizado,Anonimizado,...,Anonimizado,,Superiores,Secundaria 2ª etapa,Trabajadores/as de los servicios de restauraci...,Servicios,Jubilados/as y pensionistas,Nuevas clases medias,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10166,3027.0,10254.0,Melilla (Ciudad Autónoma de),Melilla,Ceuta / Melilla,50.001 a 100.000 habitantes,No pertenece,Anonimizado,Anonimizado,Anonimizado,...,Anonimizado,,Sin estudios,Sin estudios,N.C.,N.C.,Jubilados/as y pensionistas,No consta,,
10167,3027.0,10255.0,Melilla (Ciudad Autónoma de),Melilla,Ceuta / Melilla,50.001 a 100.000 habitantes,No pertenece,Anonimizado,Anonimizado,Anonimizado,...,Anonimizado,,Secundaria 1ª etapa,Primaria,Trabajadores/as de los servicios de restauraci...,Servicios,Trabajo doméstico no remunerado,Nuevas clases medias,,
10168,3027.0,10256.0,Melilla (Ciudad Autónoma de),Melilla,Ceuta / Melilla,50.001 a 100.000 habitantes,No pertenece,Anonimizado,Anonimizado,Anonimizado,...,Anonimizado,,Sin estudios,Sin estudios,Ocupaciones militares,Servicios,Jubilados/as y pensionistas,Nuevas clases medias,,
10169,3027.0,10257.0,Melilla (Ciudad Autónoma de),Melilla,Ceuta / Melilla,50.001 a 100.000 habitantes,No pertenece,Anonimizado,Anonimizado,Anonimizado,...,Anonimizado,,Primaria,Primaria,Ocupaciones elementales,Servicios,Obreros/as no cualificados/as,Obreros/as no cualificados/as,,


# 2. Data Exploration

In [None]:
num_participants = len(df)
num_participants

10171

# 3. Extract variables, labels and values

In [None]:
syntax_file_path = os.path.join(dataset_dir, "ES3027")
with open(syntax_file_path, "r", encoding="utf-8") as f:
    rows = f.readlines()[70:652]

stripped_rows = [line.strip().split("'", 1) for line in rows]
vars = pd.DataFrame(stripped_rows, columns=["Code", "VariableName"])

# Uppercase, no whitespace, semicollons or slasches
vars["Code"] = vars["Code"].str.upper()
vars["Code"] = vars["Code"].str.replace(" ", "", regex=False)
vars["VariableName"] = vars["VariableName"].str.replace("'", "", regex=False)
vars.loc[1:, "Code"] = vars.loc[1:, "Code"].apply(lambda cod: cod[1:])
vars

Unnamed: 0,Code,VariableName
0,CCAA,Comunidad autónoma
1,PROV,Provincia
2,MUN,Municipio
3,TAMUNI,Tamaño de municipio
4,AREA,Área metropolitana
...,...,...
577,RAMA09,Rama de actividad de la persona entrevistada (...
578,CONDICION11,Condición socioeconómica de la persona entrevi...
579,ESTATUS,Estatus socioeconómico de la persona entrevist...
580,PESO,Ponderación


In [None]:
vars["UniqueValues"] = vars["Code"].apply(lambda code: df[code].unique())
vars

Unnamed: 0,Code,VariableName,UniqueValues
0,CCAA,Comunidad autónoma,"['País Vasco', 'Castilla-La Mancha', 'Comunita..."
1,PROV,Provincia,"['Araba-Álava', 'Albacete', 'Alicante', 'Grana..."
2,MUN,Municipio,"['Burgos / Vitoria-Gasteiz', 'Mun.<=100.000 ha..."
3,TAMUNI,Tamaño de municipio,"['100.001 a 400.000 habitantes', 'Menos o igua..."
4,AREA,Área metropolitana,"['No pertenece', 'Pertenece'] Categories (2, o..."
...,...,...,...
577,RAMA09,Rama de actividad de la persona entrevistada (...,"['Industria', 'Servicios', 'Agricultura', 'N.S..."
578,CONDICION11,Condición socioeconómica de la persona entrevi...,"['Jubilados/as y pensionistas', 'Parados/as', ..."
579,ESTATUS,Estatus socioeconómico de la persona entrevist...,"['Obreros/as cualificados/as', 'Clase alta/med..."
580,PESO,Ponderación,[nan]


In [None]:
vars.to_excel("vars.xlsx", index=False)