# 1. Import Microdata from Macroencuesta 2019

In [None]:
import os

import pandas as pd
import pyreadstat
from dotenv import load_dotenv

In [None]:
load_dotenv()
root_path = os.getenv("ROOT_PATH")
dataset_dir = os.path.join(root_path, "datasets", "raw", "CIS", "CIS001_Macroencuesta2019")
dataset_path = os.path.join(dataset_dir, "3235.sav")
df, meta = pyreadstat.read_sav(dataset_path, apply_value_formats=True)
df

Unnamed: 0,ESTUDIO,REGISTRO,CUES,FECHAINI,HORAINI,FECHAFIN,HORAFIN,DURACION,CCAA,PROV,...,SDE10A_9,SDE10A_10,SDE10A_11,SDE10A_12,SDE10A_13,SDE10A_99,SDE11,SDE16_1,SDE16_2,PESOCCAA
0,3235,72,1,12/09/2019,10:52:16,12/09/2019,11:10:09,1072,Andalucía,Granada,...,,,,,,,De 901 a 1.200 &euro;,No menciona,Menciona,0.95756
1,3235,75,2,12/09/2019,11:14:36,12/09/2019,11:32:55,1099,Andalucía,Granada,...,,,,,,,De 1.801 a 2.400 &euro;,Menciona,No menciona,0.96421
2,3235,79,3,12/09/2019,11:37:06,12/09/2019,11:56:49,1182,Andalucía,Granada,...,,,,,,,De 301 a 600 &euro;,Menciona,No menciona,1.02901
3,3235,81,4,12/09/2019,11:57:52,12/09/2019,12:11:35,822,Andalucía,Granada,...,,,,,,,De 901 a 1.200 &euro;,Menciona,No menciona,0.95756
4,3235,84,5,12/09/2019,12:13:53,12/09/2019,12:27:20,806,Andalucía,Granada,...,,,,,,,De 901 a 1.200 &euro;,Menciona,No menciona,1.02901
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9563,3235,180225,9693,28/11/2019,12:51:44,01/12/2019,11:19:14,3504,Melilla (Ciudad Autónoma de),Melilla,...,,,,,,,De 2.401 a 3.000 &euro;,No menciona,Menciona,0.90295
9564,3235,180247,9694,29/11/2019,19:15:20,29/11/2019,19:53:32,2290,Melilla (Ciudad Autónoma de),Melilla,...,,,,,,,De 2.401 a 3.000 &euro;,No menciona,Menciona,1.09138
9565,3235,180313,9695,01/12/2019,13:18:13,01/12/2019,14:00:22,2528,Melilla (Ciudad Autónoma de),Melilla,...,,,,,,,De 1.201 a 1.800 &euro;,No menciona,Menciona,0.99035
9566,3235,180359,9696,01/12/2019,18:13:17,01/12/2019,19:06:42,3204,Melilla (Ciudad Autónoma de),Melilla,...,,,Menciona,,,,(NO LEER) N.S.,No menciona,Menciona,0.90348


# 2. Data Exploration

In [None]:
num_participants = len(df)
num_participants

9568

In [None]:
# Porcentaje mujeres cuya pareja actual trata o ha tratado
# de impedirle que vea a sus amigos o amigas frecuentemente
total = (df["M1P1_0_1"] == "Frecuentemente").sum()
porcentaje = (total / num_participants) * 100
porcentaje

np.float64(0.3658026755852843)

In [None]:
# Violencia psicológica de control en pareja actual
tipo_violencia = "M1P1"
campos = []
for prevalencia in ["0", "A", "B"]:
    for num_preg in range(1, 12):
        campos.append(f"{tipo_violencia}_{prevalencia}_{num_preg}")

filtro = df[campos].apply(lambda campo: campo.isin(["Frecuentemente", "Algunas veces"])).any(axis=1)
datos_filtrados = df[filtro]
len(datos_filtrados)

735

In [None]:
# Violencia psicológica de control en parejas pasadas
tipo_violencia = "M2P1"
campos = []
for prevalencia in ["0", "A", "B"]:
    for num_preg in range(1, 12):
        campos.append(f"{tipo_violencia}_{prevalencia}_{num_preg}")

filtro = df[campos].apply(lambda campo: campo.isin(["Frecuentemente", "Algunas veces"])).any(axis=1)
datos_filtrados = df[filtro]
datos_filtrados[campos]
len(datos_filtrados)

2022

In [None]:
# Violencia psicológica emocional en pareja actual
tipo_violencia = "M1P3"
campos = []
for prevalencia in ["0", "A", "B"]:
    campos.append(f"{tipo_violencia}_{prevalencia}_2")
print(campos)

filtro = df[campos].apply(lambda campo: campo == "Sí").any(axis=1)
datos_filtrados = df[filtro]
len(datos_filtrados)

['M1P3_0_2', 'M1P3_A_2', 'M1P3_B_2']


213

In [None]:
# Comprobación de que el campo duración no es un campo calculado
print(df["FECHAINI"].loc[9563])
print(df["FECHAFIN"].loc[9563])
print(df["DURACION"].loc[9563])

28/11/2019
01/12/2019
3504


In [None]:
filtro_no_violencia_pareja = df["NOVIOLENCIA_P"].apply(lambda x: x == "Menciona")
no_violencia_pareja = df[filtro_no_violencia_pareja]
len(df) - len(no_violencia_pareja)

3576

# 3. Extract variables, labels and values

In [None]:
syntax_file_path = os.path.join(dataset_dir, "ES3235")
with open(syntax_file_path, "r", encoding="utf-8") as f:
    rows = f.readlines()[151:1272]

stripped_rows = [row.strip().split("'", 1) for row in rows]
vars = pd.DataFrame(stripped_rows, columns=["Code", "VariableName"])

# Uppercase, no whitespace, semicollons or slasches
vars["Code"] = vars["Code"].str.upper()
vars["Code"] = vars["Code"].str.replace(" ", "", regex=False)
vars["VariableName"] = vars["VariableName"].str.replace("'", "", regex=False)
vars.loc[1:, "Code"] = vars.loc[1:, "Code"].apply(lambda cod: cod[1:])
vars

Unnamed: 0,Code,VariableName
0,ESTUDIO,Código del estudio
1,REGISTRO,Número de registro
2,CUES,Nº de cuestionario
3,FECHAINI,Fecha de inicio de la entrevista
4,HORAINI,Hora de inicio de la entrevista
...,...,...
1116,SDE10A_99,N.C.
1117,SDE11,Ingresos del hogar
1118,SDE16_1,Teléfono: Da teléfono fijo
1119,SDE16_2,Teléfono: Da teléfono móvil


In [None]:
vars["UniqueValues"] = vars["Code"].apply(lambda cod: df[cod].unique())
vars

Unnamed: 0,Code,VariableName,UniqueValues
0,ESTUDIO,Código del estudio,"['3235'] Categories (1, object): ['3235']"
1,REGISTRO,Número de registro,"['72', '75', '79', '81', '84', ..., '180225', ..."
2,CUES,Nº de cuestionario,"['1', '2', '3', '4', '5', ..., '9693', '9694',..."
3,FECHAINI,Fecha de inicio de la entrevista,"[12/09/2019, 13/09/2019, 14/09/2019, 15/09/201..."
4,HORAINI,Hora de inicio de la entrevista,"[10:52:16, 11:14:36, 11:37:06, 11:57:52, 12:13..."
...,...,...,...
1116,SDE10A_99,N.C.,"[NaN, 'Menciona'] Categories (1, object): ['Me..."
1117,SDE11,Ingresos del hogar,"['De 901 a 1.200 &euro;', 'De 1.801 a 2.400 &e..."
1118,SDE16_1,Teléfono: Da teléfono fijo,"['No menciona', 'Menciona'] Categories (2, obj..."
1119,SDE16_2,Teléfono: Da teléfono móvil,"['Menciona', 'No menciona'] Categories (2, obj..."


In [None]:
vars.to_excel("vars.xlsx", index=False)