------------
# Combinación Archivos SAV
##### DefuncionesFetales.sav & Nacimientos.sav

En este primer archivo, se busca poder determinar la estructura de los diferentes archivos a analizar. Esto con el propósito de posteriormente poder unirlos todos en 1 o 2 archivos finales. A partir de esto se busca que el análisis exploratorio y el modelaje de datos se facilite. 

------------

Como primer paso, se procederá a importar a todas las respectivas a utilizar.

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import os
import pandas as pd
import seaborn as sns
from sklearn import datasets

Posteriormente, se analizará la estructura de los archivos de DefuncionesFetales.sav de cada año.

In [17]:
# Columnas comunes a todos los archivos
columnas = []

In [74]:
for year in range(2009, 2022):
    ruta = "./Dataset/Vitales/"+str(year)+"/DefuncionesFetales.sav"
    df = pd.read_spss(ruta)

    # Imprimir los nombres de las columnas
    print(year,"\t",df.columns.values, df.shape, "\n")

    # Agregar las columnas a la lista
    columnas.append(df.columns.values)

2009 	 ['Depreg' 'Mupreg' 'Mesreg' 'Añoreg' 'Depocu' 'Mupocu' 'Areag' 'Sexo'
 'Diaocu' 'Mesocu' 'Añoocu' 'Tipar' 'Clapar' 'semges' 'Edadm' 'Deprem'
 'Muprem' 'Gretnm' 'Escivm' 'Naciom' 'Ocupam' 'Caudef' 'Asisrec'
 'Sitioocu' 'Tohite' 'Tohinm' 'Tohivi'] (3233, 27) 

2010 	 ['Depreg' 'mupreg' 'Mesreg' 'Añoreg' 'Depocu' 'mupocu' 'Areag' 'Sexo'
 'Diaocu' 'Mesocu' 'Añoocu' 'Tipar' 'Clapar' 'Viapar' 'Semges' 'Edadm'
 'Deprem' 'muprem' 'Gretnm' 'Escivm' 'Naciom' 'Escolam' 'Ocupam' 'Caudef'
 'Asisrec' 'Sitioocu' 'Tohite' 'Tohinm' 'Tohivi'] (3377, 29) 

2011 	 ['Depreg' 'mupreg' 'Mesreg' 'Añoreg' 'Depocu' 'mupocu' 'Areag' 'Sexo'
 'Diaocu' 'Mesocu' 'Añoocu' 'Tipar' 'Clapar' 'Viapar' 'Semges' 'Edadm'
 'Deprem' 'muprem' 'Gretnm' 'Escivm' 'Naciom' 'Escolam' 'Ocupam' 'Caudef'
 'Asisrec' 'Sitioocu' 'Tohite' 'Tohinm' 'Tohivi'] (3266, 29) 

2012 	 ['DEPREG' 'MUPREG' 'MESREG' 'AÑOREG' 'DEPOCU' 'MUPOCU' 'AREAG' 'SEXO'
 'DIAOCU' 'MESOCU' 'TIPAR' 'CLAPAR' 'VIAPAR' 'SEMGES' 'EDADM' 'PAISREM'
 'DEPREM' 'MUPR

En base a esto, se puede determinar cuales son las columnas que aparecen todos los años. Esto para poder unir todos los archivos de defunciones natales en uno solo. 

In [75]:
# Imprimir las columnas comunes
columns_comunes = np.intersect1d(columnas[0], columnas[1])
print("Columnas comunes: ", columns_comunes)

# Crear un DataFrame con las columnas comunes
df = pd.DataFrame(columns=columns_comunes)

# Iterar a través de cada archivo
for year in range(2009, 2022):
    ruta = "./Dataset/Vitales/"+str(year)+"/DefuncionesFetales.sav"
    df_temp = pd.read_spss(ruta)

    # Iterar a través de cada nombre de columna del archivo

    # Convertir los nombres de las columnas a mayúsculas
    df_temp.columns = df_temp.columns.str.upper()
    df_temp_columns = df_temp.columns.values

    # New DataFrame
    df_new = pd.DataFrame(columns=columns_comunes)

    for columna in df.columns.values:

        if columna.upper() in df_temp_columns:
            df_new[columna] = df_temp[columna.upper()]

    # Concatenar los DataFrames
    df = pd.concat([df, df_new], ignore_index=True)
    #print(df.size, df_new.size)

Columnas comunes:  ['Areag' 'Asisrec' 'Añoocu' 'Añoreg' 'Caudef' 'Clapar' 'Depocu' 'Depreg'
 'Deprem' 'Diaocu' 'Edadm' 'Escivm' 'Gretnm' 'Mesocu' 'Mesreg' 'Naciom'
 'Ocupam' 'Sexo' 'Sitioocu' 'Tipar' 'Tohinm' 'Tohite' 'Tohivi']


In [76]:
# Cambiar el nombre de las columnas para que sean mas descriptivas
nombres_actualizados = [ "Área_Geográfica",  "Asistencia_Recibida",  "Año_Ocurrencia",  "Año_Registro",  "Causa_Defunción",  "Clase_Parto",  "Departamento_Ocurrencia",  "Departamento_Registro",  "Departamento_Residencia_Madre",  "Día_Ocurrencia",  "Edad_Madre",  "Estado_Civil_Madre",  "Grupo_Etnico_Madre",  "Mes_Ocurrencia",  "Mes_Registro",  "Nacionalidad_Madre",  "Ocupación_Madre",  "Sexo",  "Sitio_Ocurrencia",  "Tipo_Atencion",  "Total_Hijos_Nacidos",  "Total_Hijos_Nacidos_Muertos",  "Total_Hijos_Vivos"]

# Renombrar las columnas
df.columns = nombres_actualizados

# Imprimir el DataFrame
df.head()

Unnamed: 0,Área_Geográfica,Asistencia_Recibida,Año_Ocurrencia,Año_Registro,Causa_Defunción,Clase_Parto,Departamento_Ocurrencia,Departamento_Registro,Departamento_Residencia_Madre,Día_Ocurrencia,...,Mes_Ocurrencia,Mes_Registro,Nacionalidad_Madre,Ocupación_Madre,Sexo,Sitio_Ocurrencia,Tipo_Atencion,Total_Hijos_Nacidos,Total_Hijos_Nacidos_Muertos,Total_Hijos_Vivos
0,Ignorado,Empírica,9.0,9.0,P95X,Eutocio,Totonicapan,Totonicapan,Totonicapan,8.0,...,Mayo,Mayo,Guatemalteca,Oficios domésticos no remunerados,Hombre,Domicilio,Simple,Ignorado,2.0,1.0
1,Ignorado,Médica,9.0,9.0,P240,Eutocio,Baja Verapaz,Baja Verapaz,Baja Verapaz,22.0,...,Junio,Junio,Guatemalteca,Maestros de enseñanza primaria,Hombre,Casa de salud,Simple,Ignorado,3.0,2.0
2,Ignorado,Comadrona,9.0,9.0,P95X,Eutocio,Alta Verapaz,Alta Verapaz,Alta Verapaz,24.0,...,Enero,Enero,Guatemalteca,Oficios domésticos no remunerados,Hombre,Domicilio,Simple,Ignorado,3.0,2.0
3,Ignorado,Comadrona,9.0,9.0,P964,Eutocio,Chimaltenango,Chimaltenango,Chimaltenango,29.0,...,Mayo,Mayo,Guatemalteca,Oficios domésticos no remunerados,Hombre,Domicilio,Simple,Ignorado,0.0,0.0
4,Ignorado,Comadrona,9.0,9.0,P964,Eutocio,Totonicapan,Totonicapan,Totonicapan,7.0,...,Mayo,Mayo,Guatemalteca,Oficios domésticos no remunerados,Mujer,Domicilio,Simple,Ignorado,10.0,6.0


In [77]:
# Exportar el DataFrame a un archivo CSV
df.to_csv("./Dataset/Vitales/DefuncionesFetales.csv", index=False)

----------------
Ahora se analizará la estructura de los archivos de Nacimientos.sav de cada año.

In [78]:
# Columnas comunes a todos los archivos
columnas = []

In [79]:
for year in range(2009, 2022):
    ruta = "./Dataset/Vitales/"+str(year)+"/Nacimientos.sav"
    df = pd.read_spss(ruta)

    # Imprimir los nombres de las columnas
    print(year,"\t",df.columns.values, df.shape, "\n")

    # Agregar las columnas a la lista
    columnas.append(df.columns.values)

2009 	 ['Depreg' 'mupreg' 'Mesreg' 'Añoreg' 'Depocu' 'Mupocu' 'Areag' 'Libras'
 'Onzas' 'Diaocu' 'Mesocu' 'Añoocu' 'Sexo' 'Tipar' 'Edadp' 'Deprep'
 'muprep' 'Gretnp' 'Escivp' 'Depnap' 'Mupnap' 'Naciop' 'Ocupap' 'Edadm'
 'Deprem' 'Muprem' 'Gretnm' 'Escivm' 'Depnam' 'Mupnam' 'Naciom' 'Ocupam'
 'Asisrec' 'Sitioocu' 'Tohite' 'Tohinm' 'Tohivi'] (351628, 37) 

2010 	 ['Depreg' 'mupreg' 'Mesreg' 'Añoreg' 'Depocu' 'Mupocu' 'Areag' 'Libras'
 'Onzas' 'Diaocu' 'Mesocu' 'Añoocu' 'Sexo' 'Tipar' 'Edadp' 'Deprep'
 'muprep' 'Gretnp' 'Escivp' 'Depnap' 'mupnap' 'Naciop' 'Escolap' 'Ocupap'
 'Edadm' 'Deprem' 'muprem' 'grupetma' 'Escivm' 'Depnam' 'mupnam' 'Naciom'
 'Escolam' 'Ocupam' 'Asisrec' 'Sitioocu' 'Tohite' 'Tohinm' 'Tohivi'] (361906, 39) 

2011 	 ['Depreg' 'Mupreg' 'Mesreg' 'Añoreg' 'Depocu' 'Mupocu' 'Areag' 'Libras'
 'Onzas' 'Diaocu' 'Mesocu' 'Añoocu' 'Sexo' 'Tipar' 'Edadp' 'Deprep'
 'Muprep' 'Gretnp' 'Escivp' 'Depnap' 'Mupnap' 'Naciop' 'Escolap' 'Ocupap'
 'Edadm' 'Deprem' 'Muprem' 'grupetma' 'Esci

En base a esto, se puede determinar cuales son las columnas que aparecen todos los años. Esto para poder unir todos los archivos de defunciones natales en uno solo. 

In [80]:
# Imprimir las columnas comunes
columns_comunes = np.intersect1d(columnas[0], columnas[1])
print("Columnas comunes: ", columns_comunes)

# Crear un DataFrame con las columnas comunes
df = pd.DataFrame(columns=columns_comunes)

# Iterar a través de cada archivo
for year in range(2009, 2022):
    ruta = "./Dataset/Vitales/"+str(year)+"/Nacimientos.sav"
    df_temp = pd.read_spss(ruta)

    # Iterar a través de cada nombre de columna del archivo

    # Convertir los nombres de las columnas a mayúsculas
    df_temp.columns = df_temp.columns.str.upper()
    df_temp_columns = df_temp.columns.values

    # New DataFrame
    df_new = pd.DataFrame(columns=columns_comunes)

    for columna in df.columns.values:

        if columna.upper() in df_temp_columns:
            df_new[columna] = df_temp[columna.upper()]

    # Concatenar los DataFrames
    df = pd.concat([df, df_new], ignore_index=True)
    #print(df.size, df_new.size)

Columnas comunes:  ['Areag' 'Asisrec' 'Añoocu' 'Añoreg' 'Depnam' 'Depnap' 'Depocu' 'Depreg'
 'Deprem' 'Deprep' 'Diaocu' 'Edadm' 'Edadp' 'Escivm' 'Escivp' 'Gretnp'
 'Libras' 'Mesocu' 'Mesreg' 'Mupocu' 'Naciom' 'Naciop' 'Ocupam' 'Ocupap'
 'Onzas' 'Sexo' 'Sitioocu' 'Tipar' 'Tohinm' 'Tohite' 'Tohivi' 'mupreg'
 'muprep']


In [None]:
# Cambiar el nombre de las columnas para que sean mas descriptivas
nombres_actualizados = [ "Área_Geográfica",  "Asistencia_Recibida",  "Año_Ocurrencia",  "Año_Registro",  "Causa_Defunción",  "Clase_Parto",  "Departamento_Ocurrencia",  "Departamento_Registro",  "Departamento_Residencia_Madre",  "Día_Ocurrencia",  "Edad_Madre",  "Estado_Civil_Madre",  "Grupo_Etnico_Madre",  "Mes_Ocurrencia",  "Mes_Registro",  "Nacionalidad_Madre",  "Ocupación_Madre",  "Sexo",  "Sitio_Ocurrencia",  "Tipo_Atencion",  "Total_Hijos_Nacidos",  "Total_Hijos_Nacidos_Muertos",  "Total_Hijos_Vivos"]

# Renombrar las columnas
df.columns = nombres_actualizados

# Imprimir el DataFrame
df.head()