In [None]:
import os
import sys

import pandas as pd
import pyreadstat
from dotenv import load_dotenv

load_dotenv()
root_path = os.getenv("ROOT_PATH")
utils_path = os.path.join(root_path, "scripts", "utils")
sys.path.append(utils_path)

from region_normalization import normalize_name_comunidad_autonoma, normalize_name_provincia

In [None]:
output_dir = os.path.join(root_path, "datasets", "preliminary-merge")

# PRE001 - Feminicidios Pareja

In [None]:
pre001_path = os.path.join(root_path, "datasets", "raw", "DGVG", "DGVG001-010FeminicidiosPareja.csv")
pre001 = pd.read_csv(pre001_path)
pre001.rename(columns={"Provincia (As)": "Provincia"}, inplace=True)
pre001["Provincia"] = pre001["Provincia"].apply(normalize_name_provincia)
pre001.head()

Unnamed: 0,Provincia,Año,Mes,VM Grupo de edad,AG Grupo de edad,Feminicidios pareja o expareja,Huérfanas y huérfanos menores de edad -1-
0,Almería,2003,Enero,41-50 años,51-60 años,1.0,0.0
1,Almería,2004,Marzo,21-30 años,31-40 años,1.0,0.0
2,Almería,2004,Julio,31-40 años,41-50 años,1.0,0.0
3,Almería,2005,Marzo,18-20 años,21-30 años,1.0,0.0
4,Almería,2005,Septiembre,18-20 años,No consta,1.0,0.0


In [None]:
# Save to .csv
pre001_csv_path = os.path.join(output_dir, "PRE001-FeminicidiosPareja.csv")
pre001.to_csv(pre001_csv_path, index=False)

# PRE002 - Feminicidios Fuera Pareja

In [None]:
pre002_path = os.path.join(root_path, "datasets", "raw", "DGVG", "DGVG002-020FeminicidiosFueraParejaExpareja.csv")
pre002 = pd.read_csv(pre002_path)
pre002.rename(columns={"Comunidad autónoma (As)": "Comunidad autónoma"}, inplace=True)
pre002["Comunidad autónoma"] = pre002["Comunidad autónoma"].apply(normalize_name_comunidad_autonoma)
pre002.head()

Unnamed: 0,Comunidad autónoma,Año,Tipo de feminicidio,Feminicidos fuera pareja o expareja
0,Andalucía,2022,F. familiar,6.0
1,Andalucía,2022,F. sexual,1.0
2,Andalucía,2023,F. familiar,3.0
3,Andalucía,2023,F. sexual,1.0
4,Andalucía,2023,F. social,1.0


In [None]:
# Save to .csv
pre002_csv_path = os.path.join(output_dir, "PRE002-FeminicidiosFueraPareja.csv")
pre002.to_csv(pre002_csv_path, index=False)

# PRE003 - VioGen

In [None]:
pre003_path = os.path.join(root_path, "datasets", "raw", "DGVG", "DGVG008-090VioGenSistemaSeguimientoIntegral.csv")
pre003 = pd.read_csv(pre003_path)
pre003["Comunidad autónoma"] = pre003["Comunidad autónoma"].apply(normalize_name_comunidad_autonoma)
pre003.head()

Unnamed: 0,Año,Mes,Comunidad autónoma,Provincia,Nivel de riesgo,Número de casos,Número de casos con protección policial
0,Año 2013,Julio,Andalucía,Almería,No apreciado,1920.0,0.0
1,Año 2013,Julio,Andalucía,Almería,Bajo,491.0,491.0
2,Año 2013,Julio,Andalucía,Almería,Medio,36.0,36.0
3,Año 2013,Julio,Andalucía,Almería,Alto,2.0,2.0
4,Año 2013,Julio,Andalucía,Almería,Extremo,0.0,0.0


In [None]:
# Save to .csv
pre003_csv_path = os.path.join(output_dir, "PRE003-VioGen.csv")
pre003.to_csv(pre003_csv_path, index=False)

# PRE004 - Servicio 016

In [None]:
pre004 = os.path.join(root_path, "datasets", "raw", "DGVG", "DGVG004-040Servicio016.csv")
pre004 = pd.read_csv(pre004)
pre004["Provincia"] = pre004["Provincia"].apply(normalize_name_provincia)
pre004.head()

Unnamed: 0,Provincia,Año,Mes,Idioma,Tipo violencia,Total consultas pertinentes
0,Almería,2007,Septiembre,No consta,V. pareja o expareja,3.0
1,Almería,2007,Octubre,No consta,V. pareja o expareja,52.0
2,Almería,2007,Noviembre,No consta,V. pareja o expareja,57.0
3,Almería,2007,Diciembre,No consta,V. pareja o expareja,69.0
4,Almería,2008,Enero,No consta,V. pareja o expareja,91.0


In [None]:
# Save to .csv
pre004_csv_path = os.path.join(output_dir, "PRE004-Servicio016.csv")
pre004.to_csv(pre004_csv_path, index=False)

# PRE005 - Denuncias VDG Incoadas según Tipo de Infracción

In [None]:
pre005_path = os.path.join(root_path, "datasets", "raw", "INE", "INE011-DenunciasIncoadasTipoInfracción.csv")
pre005 = pd.read_csv(pre005_path, sep=";")
pre005.rename(columns={"Comunidades y ciudades autónomas": "Comunidad autónoma"}, inplace=True)
pre005["Comunidad autónoma"] = pre005["Comunidad autónoma"].apply(normalize_name_comunidad_autonoma)
pre005.head()

Unnamed: 0,Tipo de infracción,Comunidad autónoma,Periodo,Total
0,Total Infracciones,España,2024,44.718
1,Total Infracciones,España,2023,47.086
2,Total Infracciones,España,2022,40.613
3,Total Infracciones,España,2021,36.362
4,Total Infracciones,España,2020,34.369


In [None]:
# Save to .csv
pre005_csv_path = os.path.join(output_dir, "PRE005-DenunciasVDG.csv")
pre005.to_csv(pre005_csv_path, index=False)

# PRE006 - Macroencuestas Violencia de Género

In [None]:
pre006_dir = os.path.join(root_path, "datasets", "raw", "CIS")

pre006_path_2019 = os.path.join(root_path, pre006_dir, "CIS001-Macroencuesta2019", "3235.sav")
pre006_path_2015 = os.path.join(root_path, pre006_dir, "CIS002-Macroencuesta2015", "3027.sav")
# pre006_path_2011 = os.path.join(root_path, pre006_dir, "CIS003-Macroencuesta2011", "2858.sav")
pre006_2019, meta = pyreadstat.read_sav(pre006_path_2019, apply_value_formats=True)
pre006_2015, meta = pyreadstat.read_sav(pre006_path_2015, apply_value_formats=True)
# pre006_2011, meta = pyreadstat.read_sav(pre006_path_2011, apply_value_formats=True)

In [None]:
# Extract common variables and add metadata for both years
pre006_2019_subset = pre006_2019[["CUES", "CCAA", "PROV"]].copy()
pre006_2019_subset["ESTUDIO"] = 3235
pre006_2019_subset["AÑO"] = 2019
pre006_2019_subset["MES"] = "Septiembre"

pre006_2015_subset = pre006_2015[["CUES", "CCAA", "PROV"]].copy()
pre006_2015_subset["ESTUDIO"] = 3027
pre006_2015_subset["AÑO"] = 2014
pre006_2015_subset["MES"] = "Septiembre"

In [None]:
# Define the variable mappings
var_mapping_2019 = {
    "VS1P": ["M1P5_0_4", "M2P5_0_4"],
    "VS2P": ["M1P5_0_2", "M2P5_0_2"],
    "VS3P": ["M1P5_0_8", "M2P5_0_8"],
    "VS1FP": ["M3P2_4"],
    "VF1P": ["M1P4_0_1", "M2P4_0_1"],
    "VF2P": ["M1P4_0_2", "M2P4_0_2"],
    "VF3P": ["M1P4_0_3", "M2P4_0_3"],
    "VF4P": ["M1P4_0_4", "M2P4_0_4"],
    "VF5P": ["M1P4_0_5", "M2P4_0_5"],
    "VF6P": ["M1P4_0_6", "M2P4_0_6"],
    "VF2FP": ["M3P1_2"],
    "VF5FP": ["M3P1_5"],
    "VF6FP": ["M3P1_6"],
}

var_mapping_2015 = {
    "VS1P": ["P2201", "P3101"],
    "VS2P": ["P2202", "P3102"],
    "VS3P": ["P2203", "P3103"],
    "VS1FP": ["P52"],
    "VF1P": ["P2101", "P3001"],
    "VF2P": ["P2102", "P3002"],
    "VF3P": ["P2103", "P3003"],
    "VF4P": ["P2104", "P3004"],
    "VF5P": ["P2105", "P3005"],
    "VF6P": ["P2106", "P3006"],
    "VF2FP": ["P4803"],
    "VF5FP": ["P4804"],
    "VF6FP": ["P4805"],
}

# Apply conditions for 2019
for var, columns in var_mapping_2019.items():
    pre006_2019_subset[var] = pre006_2019[columns].eq("Sí").any(axis=1)

# Apply conditions for 2015
for var, columns in var_mapping_2015.items():
    pre006_2015_subset[var] = pre006_2015[columns].eq("Sí").any(axis=1)

In [None]:
pre006 = pd.concat([pre006_2019_subset, pre006_2015_subset], ignore_index=True)
pre006.rename(
    columns={
        "CCAA": "Comunidad autónoma",
        "PROV": "Provincia",
        "CUES": "Numero cuesionario",
        "ESTUDIO": "Código estudio",
        "AÑO": "Año",
        "MES": "Mes",
    },
    inplace=True,
)
pre006["Comunidad autónoma"] = pre006["Comunidad autónoma"].apply(normalize_name_comunidad_autonoma)
pre006["Provincia"] = pre006["Provincia"].apply(normalize_name_provincia)
pre006.head()

Unnamed: 0,Numero cuesionario,Comunidad autónoma,Provincia,Código estudio,Año,Mes,VS1P,VS2P,VS3P,VS1FP,VF1P,VF2P,VF3P,VF4P,VF5P,VF6P,VF2FP,VF5FP,VF6FP
0,1,Andalucía,Granada,3235,2019,Septiembre,False,False,False,False,False,False,False,False,False,False,False,False,False
1,2,Andalucía,Granada,3235,2019,Septiembre,False,False,False,False,False,False,False,False,False,False,False,False,False
2,3,Andalucía,Granada,3235,2019,Septiembre,False,False,False,False,False,False,False,False,False,False,False,False,False
3,4,Andalucía,Granada,3235,2019,Septiembre,False,False,False,False,False,False,False,False,False,False,False,False,False
4,5,Andalucía,Granada,3235,2019,Septiembre,False,False,False,False,False,False,False,False,False,False,False,False,False


In [None]:
# Save to .csv
pre006_csv_path = os.path.join(output_dir, "PRE006-MacroencuestasVDG.csv")
pre006.to_csv(pre006_csv_path, index=False)