------------
# Combinación Archivos SAV
##### DefuncionesFetales.sav & Nacimientos.sav

En este primer archivo, se busca poder determinar la estructura de los diferentes archivos a analizar. Esto con el propósito de posteriormente poder unirlos todos en 1 o 2 archivos finales. A partir de esto se busca que el análisis exploratorio y el modelaje de datos se facilite. 

------------

Como primer paso, se procederá a importar a todas las respectivas a utilizar.

In [50]:
import numpy as np
import matplotlib.pyplot as plt
import os
import pandas as pd
import seaborn as sns
from sklearn import datasets

Posteriormente, se analizará la estructura de los archivos de DefuncionesFetales.sav de cada año.

In [51]:
# Columnas comunes a todos los archivos
columnas = []

In [52]:
for year in range(2009, 2022):
    ruta = "./Dataset/Vitales/"+str(year)+"/DefuncionesFetales.sav"
    df = pd.read_spss(ruta)

    # Imprimir los nombres de las columnas
    print(year,"\t",df.columns.values, df.shape, "\n")

    # Agregar las columnas a la lista
    columnas.append(df.columns.values)

2009 	 ['Depreg' 'Mupreg' 'Mesreg' 'Añoreg' 'Depocu' 'Mupocu' 'Areag' 'Sexo'
 'Diaocu' 'Mesocu' 'Añoocu' 'Tipar' 'Clapar' 'semges' 'Edadm' 'Deprem'
 'Muprem' 'Gretnm' 'Escivm' 'Naciom' 'Ocupam' 'Caudef' 'Asisrec'
 'Sitioocu' 'Tohite' 'Tohinm' 'Tohivi'] (3233, 27) 

2010 	 ['Depreg' 'mupreg' 'Mesreg' 'Añoreg' 'Depocu' 'mupocu' 'Areag' 'Sexo'
 'Diaocu' 'Mesocu' 'Añoocu' 'Tipar' 'Clapar' 'Viapar' 'Semges' 'Edadm'
 'Deprem' 'muprem' 'Gretnm' 'Escivm' 'Naciom' 'Escolam' 'Ocupam' 'Caudef'
 'Asisrec' 'Sitioocu' 'Tohite' 'Tohinm' 'Tohivi'] (3377, 29) 

2011 	 ['Depreg' 'mupreg' 'Mesreg' 'Añoreg' 'Depocu' 'mupocu' 'Areag' 'Sexo'
 'Diaocu' 'Mesocu' 'Añoocu' 'Tipar' 'Clapar' 'Viapar' 'Semges' 'Edadm'
 'Deprem' 'muprem' 'Gretnm' 'Escivm' 'Naciom' 'Escolam' 'Ocupam' 'Caudef'
 'Asisrec' 'Sitioocu' 'Tohite' 'Tohinm' 'Tohivi'] (3266, 29) 

2012 	 ['DEPREG' 'MUPREG' 'MESREG' 'AÑOREG' 'DEPOCU' 'MUPOCU' 'AREAG' 'SEXO'
 'DIAOCU' 'MESOCU' 'TIPAR' 'CLAPAR' 'VIAPAR' 'SEMGES' 'EDADM' 'PAISREM'
 'DEPREM' 'MUPR

En base a esto, se puede determinar cuales son las columnas que aparecen todos los años. Esto para poder unir todos los archivos de defunciones natales en uno solo. 

In [53]:
# sacar el conteo de las columnas a un array
columnas = np.concatenate(columnas)

for i in range(len(columnas)):
    columnas[i] = columnas[i].upper()

# Imprimir las columnas unicas de todos los archivos
columns_comunes = np.unique(columnas)

# Crear un DataFrame con las columnas comunes
df = pd.DataFrame(columns=columns_comunes)

# Iterar a través de cada archivo
for year in range(2009, 2022):
    ruta = "./Dataset/Vitales/"+str(year)+"/DefuncionesFetales.sav"
    df_temp = pd.read_spss(ruta)

    # Iterar a través de cada nombre de columna del archivo

    # Convertir los nombres de las columnas a mayúsculas
    df_temp.columns = df_temp.columns.str.upper()
    df_temp_columns = df_temp.columns.values

    # New DataFrame
    df_new = pd.DataFrame(columns=columns_comunes)

    for columna in df.columns.values:

        if columna.upper() in df_temp_columns:
            df_new[columna] = df_temp[columna.upper()]

        else:
            df_new[columna] = np.nan

    # Concatenar los DataFrames
    df = pd.concat([df, df_new], ignore_index=True)
    #print(df.size, df_new.size)

# Imprimir el DataFrame
print(df.head())

      AREAG    ASISREC  AÑOOCU  AÑOREG CAUDEF CIUOMAD   CLAPAR         DEPOCU  \
0  Ignorado   Empírica     9.0     9.0   P95X     NaN  Eutocio    Totonicapan   
1  Ignorado     Médica     9.0     9.0   P240     NaN  Eutocio   Baja Verapaz   
2  Ignorado  Comadrona     9.0     9.0   P95X     NaN  Eutocio   Alta Verapaz   
3  Ignorado  Comadrona     9.0     9.0   P964     NaN  Eutocio  Chimaltenango   
4  Ignorado  Comadrona     9.0     9.0   P964     NaN  Eutocio    Totonicapan   

          DEPREG         DEPREM  ...  PAISREM PUEBLOPM    SEMGES    SEXO  \
0    Totonicapan    Totonicapan  ...      NaN      NaN  Ignorado  Hombre   
1   Baja Verapaz   Baja Verapaz  ...      NaN      NaN  Ignorado  Hombre   
2   Alta Verapaz   Alta Verapaz  ...      NaN      NaN  Ignorado  Hombre   
3  Chimaltenango  Chimaltenango  ...      NaN      NaN  Ignorado  Hombre   
4    Totonicapan    Totonicapan  ...      NaN      NaN  Ignorado   Mujer   

        SITIOOCU   TIPAR    TOHINM TOHITE TOHIVI VIAPAR 

In [54]:
# Combinar NACIOM y NACIONM
df['NACIONALIDAD'] = df['NACIOM'].fillna(df['NACIONM'])

# Eliminar las columnas NACIOM y NACIONM
df.drop(['NACIOM', 'NACIONM'], axis=1, inplace=True)


# Combinar PUEBLOPM y GRETNM
df['PUEBLO'] = df['PUEBLOPM'].fillna(df['GRETNM'])

# Eliminar PUEBLOPM y GRETNM
df.drop(['PUEBLOPM', 'GRETNM'], axis=1, inplace=True)

# Eliminar CIUOMAD
df.drop(['CIUOMAD'], axis=1, inplace=True)

# Eliminar CIUOMAD
df.drop(['PAISREM'], axis=1, inplace=True)

# Eliminar MUPREG

# imprimir nombre de las columnas
print(df.columns.values)

['AREAG' 'ASISREC' 'AÑOOCU' 'AÑOREG' 'CAUDEF' 'CLAPAR' 'DEPOCU' 'DEPREG'
 'DEPREM' 'DIAOCU' 'EDADM' 'ESCIVM' 'ESCOLAM' 'MESOCU' 'MESREG' 'MUPOCU'
 'MUPREG' 'MUPREM' 'OCUPAM' 'SEMGES' 'SEXO' 'SITIOOCU' 'TIPAR' 'TOHINM'
 'TOHITE' 'TOHIVI' 'VIAPAR' 'NACIONALIDAD' 'PUEBLO']


In [57]:
# Cambiar el nombre de las columnas para que sean mas descriptivas
nombres_actualizados = [ "Área_Geográfica",  "Asistencia_Recibida",  "Año_Ocurrencia",  "Año_Registro",  "Causa_Defunción",  "Clase_Parto",  "Departamento_Ocurrencia",  "Departamento_Registro",  "Departamento_Residencia_Madre",  "Día_Ocurrencia",  "Edad_Madre",  "Estado_Civil_Madre", "Escolaridad_Madre",  "Mes_Ocurrencia",  "Mes_Registro", "Municipio_Ocurrencia",  "Municipio_Registro", "Municipio_Residencia_Madre",  "Ocupación_Madre",  "Semanas_Gestacion", "Sexo",  "Sitio_Ocurrencia",  "Tipo_Atencion",  "Total_Hijos_Nacidos",  "Total_Hijos_Nacidos_Muertos",  "Total_Hijos_Vivos", "Via_Parto", "Nacionalidad_Madre", "Grupo_Etnico_Madre"]

# Renombrar las columnas
df.columns = nombres_actualizados

# Imprimir el DataFrame
df.head(-10)

Unnamed: 0,Área_Geográfica,Asistencia_Recibida,Año_Ocurrencia,Año_Registro,Causa_Defunción,Clase_Parto,Departamento_Ocurrencia,Departamento_Registro,Departamento_Residencia_Madre,Día_Ocurrencia,...,Semanas_Gestacion,Sexo,Sitio_Ocurrencia,Tipo_Atencion,Total_Hijos_Nacidos,Total_Hijos_Nacidos_Muertos,Total_Hijos_Vivos,Via_Parto,Nacionalidad_Madre,Grupo_Etnico_Madre
0,Ignorado,Empírica,9.0,9.0,P95X,Eutocio,Totonicapan,Totonicapan,Totonicapan,8.0,...,Ignorado,Hombre,Domicilio,Simple,Ignorado,2.0,1.0,,Guatemalteca,No indigena
1,Ignorado,Médica,9.0,9.0,P240,Eutocio,Baja Verapaz,Baja Verapaz,Baja Verapaz,22.0,...,Ignorado,Hombre,Casa de salud,Simple,Ignorado,3.0,2.0,,Guatemalteca,No indigena
2,Ignorado,Comadrona,9.0,9.0,P95X,Eutocio,Alta Verapaz,Alta Verapaz,Alta Verapaz,24.0,...,Ignorado,Hombre,Domicilio,Simple,Ignorado,3.0,2.0,,Guatemalteca,No indigena
3,Ignorado,Comadrona,9.0,9.0,P964,Eutocio,Chimaltenango,Chimaltenango,Chimaltenango,29.0,...,Ignorado,Hombre,Domicilio,Simple,Ignorado,0.0,0.0,,Guatemalteca,No indigena
4,Ignorado,Comadrona,9.0,9.0,P964,Eutocio,Totonicapan,Totonicapan,Totonicapan,7.0,...,Ignorado,Mujer,Domicilio,Simple,Ignorado,10.0,6.0,,Guatemalteca,No indigena
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
39283,,Médica,2021.0,2021.0,P95X,Eutócico,Alta Verapaz,Alta Verapaz,Ignorado,12.0,...,38.0,Mujer,Hospital Público,Simple,Ignorado,Ignorado,Ignorado,Vaginal,Guatemala,Ignorado
39284,,Médica,2021.0,2021.0,P95X,Eutócico,Alta Verapaz,Alta Verapaz,Ignorado,23.0,...,39.0,Hombre,Hospital Público,Simple,Ignorado,Ignorado,Ignorado,Vaginal,Guatemala,Ignorado
39285,,Médica,2021.0,2021.0,P209,Eutócico,Guatemala,Guatemala,Ignorado,20.0,...,28.0,Hombre,Hospital Público,Simple,Ignorado,Ignorado,Ignorado,Vaginal,Guatemala,Ignorado
39286,,Médica,2021.0,2021.0,P95X,Eutócico,Alta Verapaz,Alta Verapaz,Ignorado,15.0,...,25.0,Mujer,Hospital Público,Simple,Ignorado,Ignorado,Ignorado,Vaginal,Guatemala,Ignorado


In [58]:
# Exportar el DataFrame a un archivo CSV
df.to_csv("./Dataset/Vitales/DefuncionesFetales.csv", index=False)

----------------
Ahora se analizará la estructura de los archivos de Nacimientos.sav de cada año.

In [None]:
# Columnas comunes a todos los archivos
columnas = []

In [None]:
for year in range(2009, 2022):
    ruta = "./Dataset/Vitales/"+str(year)+"/Nacimientos.sav"
    df = pd.read_spss(ruta)

    # Imprimir los nombres de las columnas
    print(year,"\t",df.columns.values, df.shape, "\n")

    # Agregar las columnas a la lista
    columnas.append(df.columns.values)

2009 	 ['Depreg' 'mupreg' 'Mesreg' 'Añoreg' 'Depocu' 'Mupocu' 'Areag' 'Libras'
 'Onzas' 'Diaocu' 'Mesocu' 'Añoocu' 'Sexo' 'Tipar' 'Edadp' 'Deprep'
 'muprep' 'Gretnp' 'Escivp' 'Depnap' 'Mupnap' 'Naciop' 'Ocupap' 'Edadm'
 'Deprem' 'Muprem' 'Gretnm' 'Escivm' 'Depnam' 'Mupnam' 'Naciom' 'Ocupam'
 'Asisrec' 'Sitioocu' 'Tohite' 'Tohinm' 'Tohivi'] (351628, 37) 

2010 	 ['Depreg' 'mupreg' 'Mesreg' 'Añoreg' 'Depocu' 'Mupocu' 'Areag' 'Libras'
 'Onzas' 'Diaocu' 'Mesocu' 'Añoocu' 'Sexo' 'Tipar' 'Edadp' 'Deprep'
 'muprep' 'Gretnp' 'Escivp' 'Depnap' 'mupnap' 'Naciop' 'Escolap' 'Ocupap'
 'Edadm' 'Deprem' 'muprem' 'grupetma' 'Escivm' 'Depnam' 'mupnam' 'Naciom'
 'Escolam' 'Ocupam' 'Asisrec' 'Sitioocu' 'Tohite' 'Tohinm' 'Tohivi'] (361906, 39) 

2011 	 ['Depreg' 'Mupreg' 'Mesreg' 'Añoreg' 'Depocu' 'Mupocu' 'Areag' 'Libras'
 'Onzas' 'Diaocu' 'Mesocu' 'Añoocu' 'Sexo' 'Tipar' 'Edadp' 'Deprep'
 'Muprep' 'Gretnp' 'Escivp' 'Depnap' 'Mupnap' 'Naciop' 'Escolap' 'Ocupap'
 'Edadm' 'Deprem' 'Muprem' 'grupetma' 'Esci

En base a esto, se puede determinar cuales son las columnas que aparecen todos los años. Esto para poder unir todos los archivos de defunciones natales en uno solo. 

In [None]:
# Imprimir las columnas comunes
columns_comunes = np.intersect1d(columnas[0], columnas[1])
print("Columnas comunes: ", columns_comunes)

# Crear un DataFrame con las columnas comunes
df = pd.DataFrame(columns=columns_comunes)

# Iterar a través de cada archivo
for year in range(2009, 2022):
    ruta = "./Dataset/Vitales/"+str(year)+"/Nacimientos.sav"
    df_temp = pd.read_spss(ruta)

    # Iterar a través de cada nombre de columna del archivo

    # Convertir los nombres de las columnas a mayúsculas
    df_temp.columns = df_temp.columns.str.upper()
    df_temp_columns = df_temp.columns.values

    # New DataFrame
    df_new = pd.DataFrame(columns=columns_comunes)

    for columna in df.columns.values:

        if columna.upper() in df_temp_columns:
            df_new[columna] = df_temp[columna.upper()]

    # Concatenar los DataFrames
    df = pd.concat([df, df_new], ignore_index=True)
    #print(df.size, df_new.size)

Columnas comunes:  ['Areag' 'Asisrec' 'Añoocu' 'Añoreg' 'Depnam' 'Depnap' 'Depocu' 'Depreg'
 'Deprem' 'Deprep' 'Diaocu' 'Edadm' 'Edadp' 'Escivm' 'Escivp' 'Gretnp'
 'Libras' 'Mesocu' 'Mesreg' 'Mupocu' 'Naciom' 'Naciop' 'Ocupam' 'Ocupap'
 'Onzas' 'Sexo' 'Sitioocu' 'Tipar' 'Tohinm' 'Tohite' 'Tohivi' 'mupreg'
 'muprep']


In [None]:
# Cambiar el nombre de las columnas para que sean mas descriptivas
nombres_actualizados = ["Área_Geográfica", "Asistencia_Recibida", "Año_Ocurrencia", "Año_Registro", "Departamento_Nacimiento_Madre", "Departamento_Nacimiento_Padre", "Departamento_Ocurrencia", "Departamento_Registro", "Departamento_Residencia_Madre", "Departamento_Residencia_Padre", "Día_Ocurrencia", "Edad_Madre", "Edad_Padre", "Estado_Civil_Madre", "Estado_Civil_Padre", "Grupo_Etnico_Padre", "Libras", "Mes_Ocurrencia", "Mes_Registro", "Municipio_Ocurrencia", "Nacionalidad_Madre", "Nacionalidad_Padre", "Ocupación_Madre", "Ocupación_Padre", "Onzas", "Sexo", "Sitio_Ocurrencia", "Tipo_Atencion", "Total_Hijos_Nacidos", "Total_Hijos_Nacidos_Muertos", "Total_Hijos_Vivos", "Municipio_Registro", "Municipio_Residencia_Padre"]
# Renombrar las columnas
df.columns = nombres_actualizados

# Imprimir el DataFrame
df.head()

Unnamed: 0,Área_Geográfica,Asistencia_Recibida,Año_Ocurrencia,Año_Registro,Departamento_Nacimiento_Madre,Departamento_Nacimiento_Padre,Departamento_Ocurrencia,Departamento_Registro,Departamento_Residencia_Madre,Departamento_Residencia_Padre,...,Ocupación_Padre,Onzas,Sexo,Sitio_Ocurrencia,Tipo_Atencion,Total_Hijos_Nacidos,Total_Hijos_Nacidos_Muertos,Total_Hijos_Vivos,Municipio_Registro,Municipio_Residencia_Padre
0,Urbano,Medica,9.0,9.0,Guatemala,Guatemala,Guatemala,Guatemala,Guatemala,Guatemala,...,Comerciantes de tiendas,2.0,Hombre,Domicilio,Simple,0.0,2.0,2.0,Guatemala,Guatemala
1,Urbano,Medica,9.0,10.0,Guatemala,Guatemala,Guatemala,Guatemala,Guatemala,Guatemala,...,Estudiante,6.0,Hombre,Domicilio,Simple,0.0,1.0,1.0,Guatemala,Guatemala
2,Urbano,Medica,9.0,9.0,Guatemala,Guatemala,Guatemala,Guatemala,Guatemala,Guatemala,...,Técnicos en redes y sistemas de computadores,10.0,Mujer,Domicilio,Simple,0.0,3.0,3.0,Guatemala,Guatemala
3,Urbano,Medica,9.0,10.0,Guatemala,Guatemala,Guatemala,Guatemala,Guatemala,Guatemala,...,Analistas de sistemas,0.0,Mujer,Domicilio,Simple,0.0,2.0,2.0,Guatemala,Guatemala
4,Urbano,Medica,9.0,9.0,Guatemala,Guatemala,Guatemala,Guatemala,Guatemala,Guatemala,...,Ingenieros civiles,10.0,Hombre,Domicilio,Simple,0.0,2.0,2.0,Guatemala,Guatemala


In [None]:
# Exportar el DataFrame a un archivo CSV
df.to_csv("./Dataset/Vitales/Nacimientos.csv", index=False)