In [96]:
# Step 1: convert sav files to unified csv
import os
import pandas as pd
import pyreadstat

def read_sav_files():

    df_list = []
    for year in range(2013, 2023):
        file = f'DB_defunciones/{year}.sav'
        if os.path.exists(file):
            df, meta = pyreadstat.read_sav(file)
            df_list.append(df)

    df_all = pd.concat(df_list, ignore_index=True)
    df_all.to_csv('defunciones.csv', index=False)

read_sav_files()


In [24]:
# Step 2: read the csv file and clean it
# First load the data to get the column names
df = pd.read_csv('defunciones.csv')

# Get a list of all column names
cols = df.columns.tolist()

# Create a dictionary with all columns set to str
col_types = {col: str for col in cols}

# Set 'Añoreg' to int
col_types['Añoreg'] = int
col_types['Edadif'] = int

# Reload the data with the correct dtypes
defunciones = pd.read_csv('defunciones.csv', dtype=col_types)

defunciones = defunciones[['Depocu', 'Mupocu', 'Sexo', 'Añoreg', 'Edadif', 'Perdif', 'Puedif', 'Escodif', 'Ciuodif', 'Caudef', 'Asist', 'Ocur']]

# Print null values
# print(defunciones.isnull().sum())
# Get shape
# print(defunciones.shape)

# Renaming columns
defunciones = defunciones.rename(columns={'Depocu': 'departamento', 'Mupocu': 'municipio', 'Sexo': 'sexo', 'Añoreg': 'año_registrado', 'Edadif': 'edad', 'Perdif': 'periodo', 'Puedif': 'etnia', 'Escodif': 'escolaridad', 'Ciuodif': 'ocupacion', 'Caudef': 'causa', 'Asist': 'asistencia', 'Ocur': 'lugar'})

# Order by year 
defunciones = defunciones.sort_values(by='año_registrado')

# Save the cleaned dataframe to a csv file
defunciones.to_csv('defunciones_clean.csv', index=False)

# convert floats to strings since they are categorical (except for año), remove leading and trailing whitespaces, and put most important categories first
for column in defunciones.columns:
    if column != 'año_registrado' and column != 'edad':
        defunciones[column] = defunciones[column].astype(str).str.strip()
        defunciones[column] = defunciones[column].astype('category')

# Print the first 5 rows
# print(defunciones.head())

# print Mupocu = '0101' 
# print(defunciones[defunciones['municipio'] == '0101'])

# print all datatypes per column to be sure
print(defunciones.dtypes)
print(defunciones.head())


  df = pd.read_csv('defunciones.csv')


departamento      category
municipio         category
sexo              category
año_registrado       int64
edad                 int64
periodo           category
etnia             category
escolaridad       category
ocupacion         category
causa             category
asistencia        category
lugar             category
dtype: object
      departamento municipio sexo  año_registrado  edad periodo etnia  \
0             13.0      1327  1.0            2013    79     3.0   4.0   
50876         10.0      1002  1.0            2013    32     3.0   4.0   
50875          1.0      0110  1.0            2013    78     3.0   1.0   
50874          1.0      0105  1.0            2013    76     3.0   4.0   
50873          5.0      0507  1.0            2013    69     3.0   4.0   

      escolaridad ocupacion causa asistencia lugar  
0             1.0        61  R000        1.0   6.0  
50876         1.0        61  K297        5.0   6.0  
50875         1.0        61  K297        5.0   6.0  
50874      