In [436]:
import pandas as pd
import re
from unidecode import unidecode

#### **Utils**

In [437]:
def format_column_name(column_name):
    try:
        name_without_digits = re.sub(r'\d', '', column_name)
        formatted_name = name_without_digits.lower().replace(' ', '', 1)

        if 'municipioignorado' in formatted_name:
            return 'desconhecido'
        
        return unidecode(formatted_name)
    except:
        print(f'Error: {column_name}')
        
        return column_name

def format_city_name(city_name: str) -> str:
    name_without_digits = re.sub(r'\d', '', city_name)
    formatted_name = name_without_digits.lower().replace(' ', '', 1)

    if 'municipioignorado' in formatted_name:
        return 'desconhecido'
    
    return unidecode(formatted_name)

In [438]:
def get_numerical_columns(df):
    return df.select_dtypes(include=[np.number]).columns.tolist()

def get_categorical_columns(df):
    return df.select_dtypes(include=['object', 'category']).columns.tolist()

#### **Handling death by city/group age data**

In [439]:
df_group_age = pd.read_csv('./data/raw/A3DATA_-_MUNICIPIO.csv')
df_group_age.head()

Unnamed: 0,Município,5 a 9 anos,10 a 14 anos,15 a 19 anos,20 a 29 anos,30 a 39 anos,40 a 49 anos,50 a 59 anos,60 a 69 anos,70 a 74 anos,Total
0,MUNICIPIO IGNORADO - PE,-,-,1,8,11,12,19,11,3,65
1,260005 ABREU E LIMA,1,1,8,33,41,68,156,176,114,598
2,260010 AFOGADOS DA INGAZEIRA,-,1,4,8,12,26,50,43,42,186
3,260020 AFRANIO,1,-,3,5,8,10,9,17,13,66
4,260030 AGRESTINA,-,-,5,8,20,32,15,36,25,141


In [440]:
df_group_age = df_group_age.rename(columns={'Município': 'municipio'})
df_group_age['municipio'] = df_group_age['municipio'].apply(format_city_name)
df_group_age = df_group_age.drop('Total', axis=1)

numeric_cols = df_group_age.columns[1:]
df_group_age[numeric_cols] = df_group_age[numeric_cols].apply(pd.to_numeric, errors='coerce')
df_group_age.head()

Unnamed: 0,municipio,5 a 9 anos,10 a 14 anos,15 a 19 anos,20 a 29 anos,30 a 39 anos,40 a 49 anos,50 a 59 anos,60 a 69 anos,70 a 74 anos
0,desconhecido,,,1.0,8.0,11.0,12.0,19,11,3.0
1,abreu e lima,1.0,1.0,8.0,33.0,41.0,68.0,156,176,114.0
2,afogados da ingazeira,,1.0,4.0,8.0,12.0,26.0,50,43,42.0
3,afranio,1.0,,3.0,5.0,8.0,10.0,9,17,13.0
4,agrestina,,,5.0,8.0,20.0,32.0,15,36,25.0


In [441]:
df_group_age.to_csv('./data/valid/df_group_age.csv', index=False)

#### **Handling region data**

In [442]:
df_region = pd.read_csv('./data/raw/A3DATA_-_MicroRegiaoFE.csv')
df_region.head()

Unnamed: 0,Microrregião IBGE,5 a 9 anos,10 a 14 anos,15 a 19 anos,20 a 24 anos,25 a 29 anos,30 a 34 anos,35 a 39 anos,40 a 44 anos,45 a 49 anos,50 a 54 anos,55 a 59 anos,60 a 64 anos,65 a 69 anos,70 a 74 anos,Total
0,26001 ARARIPINA,3,4,39,40,47,63,77,100,83,132,142,122,189,225,1266
1,26002 SALGUEIRO,5,5,11,26,20,38,36,47,55,71,66,90,109,121,700
2,26003 PAJEU,2,9,30,45,43,57,71,87,110,149,166,162,224,314,1469
3,26004 SERTAO DO MOXOTO,4,6,21,29,29,28,59,59,57,97,110,131,142,167,939
4,26005 PETROLINA,8,12,44,67,103,114,131,140,170,225,249,240,291,347,2141


##### Deaths by Region

In [443]:
df_region = df_region.rename(columns={'Microrregião IBGE': 'microrregião'})
df_region['microrregião'] = df_region['microrregião'].apply(format_column_name)
df_region = df_region.drop('Total', axis=1)

numeric_cols = df_region.columns[1:]
df_region[numeric_cols] = df_region[numeric_cols].apply(pd.to_numeric, errors='coerce')
df_region.head()

Unnamed: 0,microrregião,5 a 9 anos,10 a 14 anos,15 a 19 anos,20 a 24 anos,25 a 29 anos,30 a 34 anos,35 a 39 anos,40 a 44 anos,45 a 49 anos,50 a 54 anos,55 a 59 anos,60 a 64 anos,65 a 69 anos,70 a 74 anos
0,araripina,3.0,4.0,39.0,40.0,47.0,63.0,77,100.0,83.0,132,142,122,189.0,225.0
1,salgueiro,5.0,5.0,11.0,26.0,20.0,38.0,36,47.0,55.0,71,66,90,109.0,121.0
2,pajeu,2.0,9.0,30.0,45.0,43.0,57.0,71,87.0,110.0,149,166,162,224.0,314.0
3,sertao do moxoto,4.0,6.0,21.0,29.0,29.0,28.0,59,59.0,57.0,97,110,131,142.0,167.0
4,petrolina,8.0,12.0,44.0,67.0,103.0,114.0,131,140.0,170.0,225,249,240,291.0,347.0


In [444]:
df_region.to_csv('./data/valid/df_micro_region.csv', index=False)

##### Micro and Meso region data

In [445]:
df_micro_regions = pd.read_csv('./data/raw/MunicipiosMicrorregiaoMesorregiPE.csv')
df_micro_regions.head()

Unnamed: 0,municipio,microrregiao,mesorregiao
0,Araripina,Araripina,Sertão Pernambucano
1,Bodocó,Araripina,Sertão Pernambucano
2,Exu,Araripina,Sertão Pernambucano
3,Granito,Araripina,Sertão Pernambucano
4,Ipubi,Araripina,Sertão Pernambucano


In [446]:
df_micro_regions = df_micro_regions.applymap(lambda x: unidecode(x).lower())
df_micro_regions.head()

Unnamed: 0,municipio,microrregiao,mesorregiao
0,araripina,araripina,sertao pernambucano
1,bodoco,araripina,sertao pernambucano
2,exu,araripina,sertao pernambucano
3,granito,araripina,sertao pernambucano
4,ipubi,araripina,sertao pernambucano


In [447]:
df_micro_region_map = df_micro_regions.groupby('microrregiao')['municipio'].apply(list)
df_meso_region_map = df_micro_regions.groupby('mesorregiao')['municipio'].apply(list)

In [448]:
df_micro_region_map.reset_index(name='municipios').head()

Unnamed: 0,microrregiao,municipios
0,alto capibaribe,"[casinhas, frei miguelinho, santa cruz do capi..."
1,araripina,"[araripina, bodoco, exu, granito, ipubi, morei..."
2,brejo pernambucano,"[agrestina, altinho, barra de guabiraba, bonit..."
3,garanhuns,"[angelim, bom conselho, brejao, caetes, calcad..."
4,itamaraca,"[aracoiaba, igarassu, ilha de itamaraca, itapi..."


In [449]:
df_micro_region_map.reset_index(name='municipios').to_csv('./data/valid/df_micro_region_map.csv', index=False)
df_meso_region_map.reset_index(name='municipios').to_csv('./data/valid/df_meso_region_map.csv', index=False)

#### **Handling deaths by group of diseases**

In [450]:
df_cid = pd.read_csv('./data/raw/A3DATA_-_ObitosPorMunicipioCapCid.csv')
df_cid.head()

Unnamed: 0,Município,Cap I,Cap II,Cap III,Cap IV,Cap V,Cap VI,Cap VIII,Cap IX,Cap X,Cap XI,Cap XII,Cap XIII,Cap XIV,Cap XV,Cap XVII,Cap XVIII,Cap XX,Total
0,MUNICIPIO IGNORADO - PE,2,2,-,-,1,-,-,6,6,8,-,-,1,-,-,-,39,65
1,260005 ABREU E LIMA,152,65,4,42,7,11,-,96,53,31,4,1,17,-,1,40,74,598
2,260010 AFOGADOS DA INGAZEIRA,40,37,-,14,3,2,-,35,13,11,2,-,3,-,-,6,20,186
3,260020 AFRANIO,8,12,-,3,1,1,-,14,3,4,-,-,1,-,1,6,12,66
4,260030 AGRESTINA,30,10,-,11,5,4,-,18,11,11,1,-,3,-,-,12,25,141


In [451]:
df_cid = df_cid.rename(columns={'Município': 'municipio'})
df_cid['municipio'] = df_cid['municipio'].apply(format_column_name)
df_cid = df_cid.drop('Total', axis=1)

numeric_cols = df_cid.columns[1:]
df_cid[numeric_cols] = df_cid[numeric_cols].apply(pd.to_numeric, errors='coerce')
df_cid.head()

Unnamed: 0,municipio,Cap I,Cap II,Cap III,Cap IV,Cap V,Cap VI,Cap VIII,Cap IX,Cap X,Cap XI,Cap XII,Cap XIII,Cap XIV,Cap XV,Cap XVII,Cap XVIII,Cap XX
0,desconhecido,2,2,,,1.0,,,6,6.0,8.0,,,1.0,,,,39.0
1,abreu e lima,152,65,4.0,42.0,7.0,11.0,,96,53.0,31.0,4.0,1.0,17.0,,1.0,40.0,74.0
2,afogados da ingazeira,40,37,,14.0,3.0,2.0,,35,13.0,11.0,2.0,,3.0,,,6.0,20.0
3,afranio,8,12,,3.0,1.0,1.0,,14,3.0,4.0,,,1.0,,1.0,6.0,12.0
4,agrestina,30,10,,11.0,5.0,4.0,,18,11.0,11.0,1.0,,3.0,,,12.0,25.0


In [452]:
df_cid.to_csv('./data/valid/df_cid.csv')

##### Reference: https://www.ciddez.com.br/capitulos

In [453]:
disease_data = {
    'cid': [
        'Capítulo I', 'Capítulo II', 'Capítulo III', 'Capítulo IV', 'Capítulo V',
        'Capítulo VI', 'Capítulo VII', 'Capítulo VIII', 'Capítulo IX', 'Capítulo X',
        'Capítulo XI', 'Capítulo XII', 'Capítulo XIII', 'Capítulo XIV', 'Capítulo XV',
        'Capítulo XVI', 'Capítulo XVII', 'Capítulo XVIII', 'Capítulo XIX', 'Capítulo XX',
        'Capítulo XXI', 'Capítulo XXII'
    ],
    'doencas': [
        'Algumas doenças infecciosas e parasitárias', 'Neoplasias [tumores]',
        'Doenças do sangue e dos órgãos hematopoéticos e alguns transtornos imunitários',
        'Doenças endócrinas, nutricionais e metabólicas', 'Transtornos mentais e comportamentais',
        'Doenças do sistema nervoso', 'Doenças do olho e anexos', 'Doenças do ouvido e da apófise mastóide',
        'Doenças do aparelho circulatório', 'Doenças do aparelho respiratório', 'Doenças do aparelho digestivo',
        'Doenças da pele e do tecido subcutâneo', 'Doenças do sistema osteomuscular e do tecido conjuntivo',
        'Doenças do aparelho geniturinário', 'Gravidez, parto e puerpério', 'Algumas afecções originadas no período perinatal',
        'Malformações congênitas, deformidades e anomalias cromossômicas',
        'Sintomas, sinais e achados anormais de exames clínicos e de laboratório, não classificados em outra parte',
        'Lesões, envenenamento e algumas outras conseqüências de causas externas',
        'Causas externas de morbidade e de mortalidade', 'Fatores que influenciam o estado de saúde e o contato com os serviços de saúde',
        'Códigos para propósitos especiais'
    ]
}

df_cid_disease = pd.DataFrame(disease_data)
df_cid_disease['cid'] = df_cid_disease['cid'].str.replace('Capítulo', 'Cap')

df_cid_disease.head()

Unnamed: 0,cid,doencas
0,Cap I,Algumas doenças infecciosas e parasitárias
1,Cap II,Neoplasias [tumores]
2,Cap III,Doenças do sangue e dos órgãos hematopoéticos ...
3,Cap IV,"Doenças endócrinas, nutricionais e metabólicas"
4,Cap V,Transtornos mentais e comportamentais


In [454]:
df_cid_disease.to_csv('./data/valid/df_cid_disease.csv', index=False)

#### **Handling new born deaths data**

##### New born death by causes

In [455]:
df_born_causes = pd.read_csv('./data/raw/A3DATA_-_ObitosCausasEvitaveisMenoresDeCincoAnos.csv')
df_born_causes = df_born_causes.T
df_born_causes.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,51,52,53,54,55,56,57,58,59,60
Causas evitáveis,1. Causas evitáveis,1.2.1 Reduzíveis atenção à mulher na gestação,.. Sífilis congênita,.. Feto e recém-nasc afet compl placenta membr...,.. Feto e recém-nascido afet afecções maternas,.. Feto e recém-nasc afet por compl matern gravid,.. Crescimento fetal retardado e desnutrição f...,.. Transt gest curta duração e peso baixo nascer,.. Síndrome da angústia respiratória recém-nas...,.. Hemorragia pulmonar originada período perin...,...,.. Afogamento e submersão acidentais,.. Outros riscos acidentais à respiração,.. Expos corr elétr radiação temperat press ex...,.. Agressões,.. Eventos (fatos) cuja intenção é indeterminada,.. Exposição a forças mecânicas inanimadas,2. Causas mal definidas,".. Sintomas, sinais e achados anormais",.. Afecções orig período perinatal não especific,3. Demais causas (não claramente evitáveis)
0 a 6 dias,629,349,7,25,92,86,3,64,39,15,...,-,1,-,-,2,-,24,2,22,211
7 a 27 dias,181,83,2,6,36,12,3,-,1,5,...,-,7,-,-,-,-,8,-,8,72
28 a 364 dias,211,38,2,-,15,3,1,-,-,-,...,-,26,2,1,8,1,25,25,-,206
1 a 4 anos,111,-,-,-,-,-,-,-,-,-,...,15,14,5,3,7,3,9,9,-,103


In [456]:
df_born_causes

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,51,52,53,54,55,56,57,58,59,60
Causas evitáveis,1. Causas evitáveis,1.2.1 Reduzíveis atenção à mulher na gestação,.. Sífilis congênita,.. Feto e recém-nasc afet compl placenta membr...,.. Feto e recém-nascido afet afecções maternas,.. Feto e recém-nasc afet por compl matern gravid,.. Crescimento fetal retardado e desnutrição f...,.. Transt gest curta duração e peso baixo nascer,.. Síndrome da angústia respiratória recém-nas...,.. Hemorragia pulmonar originada período perin...,...,.. Afogamento e submersão acidentais,.. Outros riscos acidentais à respiração,.. Expos corr elétr radiação temperat press ex...,.. Agressões,.. Eventos (fatos) cuja intenção é indeterminada,.. Exposição a forças mecânicas inanimadas,2. Causas mal definidas,".. Sintomas, sinais e achados anormais",.. Afecções orig período perinatal não especific,3. Demais causas (não claramente evitáveis)
0 a 6 dias,629,349,7,25,92,86,3,64,39,15,...,-,1,-,-,2,-,24,2,22,211
7 a 27 dias,181,83,2,6,36,12,3,-,1,5,...,-,7,-,-,-,-,8,-,8,72
28 a 364 dias,211,38,2,-,15,3,1,-,-,-,...,-,26,2,1,8,1,25,25,-,206
1 a 4 anos,111,-,-,-,-,-,-,-,-,-,...,15,14,5,3,7,3,9,9,-,103
Total,1132,470,11,31,143,101,7,64,40,20,...,15,48,7,4,17,4,66,36,30,592


In [457]:
death_causes = dict(zip(list(df_born_causes.columns), list(df_born_causes.loc['Causas evitáveis'])))
df_born_causes = df_born_causes.rename(columns=death_causes)
df_born_causes = df_born_causes.rename(columns=format_column_name)
df_born_causes = df_born_causes.drop(index='Causas evitáveis')
df_born_causes = df_born_causes.drop(index='Total')

df_born_causes = df_born_causes.apply(pd.to_numeric, errors='coerce')
df_born_causes = df_born_causes.T

df_born_causes = df_born_causes[df_born_causes.index.str.startswith('..')]
df_born_causes.head()

Unnamed: 0,0 a 6 dias,7 a 27 dias,28 a 364 dias,1 a 4 anos
..reduziveis atencao a mulher na gestacao,349.0,83.0,38.0,
..sifilis congenita,7.0,2.0,2.0,
..feto e recem-nasc afet compl placenta membranas,25.0,6.0,,
..feto e recem-nascido afet afeccoes maternas,92.0,36.0,15.0,
..feto e recem-nasc afet por compl matern gravid,86.0,12.0,3.0,


In [458]:
df_born_causes.to_csv('./data/born_deaths_causes.csv')

##### New born deaths by region

In [459]:
df_child = pd.read_csv('./data/raw/A3DATA - ObitosPorMunicipio&FaixaEtariaMenoresDeCindoAnos.csv')
df_child.head()

Unnamed: 0,Município,0 a 6 dias,7 a 27 dias,28 a 364 dias,1 a 4 anos,Total
0,260005 ABREU E LIMA,6,3,5,5,19
1,260010 AFOGADOS DA INGAZEIRA,3,1,-,1,5
2,260020 AFRANIO,1,2,-,-,3
3,260030 AGRESTINA,1,2,3,-,6
4,260040 AGUA PRETA,4,1,-,2,7


In [460]:
df_child = df_child.rename(columns={'Município': 'municipio'})
df_child['municipio'] = df_child['municipio'].apply(format_city_name)
df_child = df_child.drop('Total', axis=1)

numeric_cols = df_child.columns[1:]
df_child[numeric_cols] = df_child[numeric_cols].apply(pd.to_numeric, errors='coerce')
df_child.head()

Unnamed: 0,municipio,0 a 6 dias,7 a 27 dias,28 a 364 dias,1 a 4 anos
0,abreu e lima,6.0,3.0,5.0,5.0
1,afogados da ingazeira,3.0,1.0,,1.0
2,afranio,1.0,2.0,,
3,agrestina,1.0,2.0,3.0,
4,agua preta,4.0,1.0,,2.0


In [461]:
df_child.to_csv('./data/valid/df_born.csv', index=False)

##### New born deaths by race

In [462]:
df_born_race = pd.read_csv('./data/raw/A3DATA - ObitosPorCausasEvitaveisCorRacaMenorDeCinco.csv')
df_born_race = df_born_race.T
df_born_race.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,51,52,53,54,55,56,57,58,59,60
Causas evitáveis,1. Causas evitáveis,1.2.1 Reduzíveis atenção à mulher na gestação,.. Sífilis congênita,.. Feto e recém-nasc afet compl placenta membr...,.. Feto e recém-nascido afet afecções maternas,.. Feto e recém-nasc afet por compl matern gravid,.. Crescimento fetal retardado e desnutrição f...,.. Transt gest curta duração e peso baixo nascer,.. Síndrome da angústia respiratória recém-nas...,.. Hemorragia pulmonar originada período perin...,...,.. Afogamento e submersão acidentais,.. Outros riscos acidentais à respiração,.. Expos corr elétr radiação temperat press ex...,.. Agressões,.. Eventos (fatos) cuja intenção é indeterminada,.. Exposição a forças mecânicas inanimadas,2. Causas mal definidas,".. Sintomas, sinais e achados anormais",.. Afecções orig período perinatal não especific,3. Demais causas (não claramente evitáveis)
Branca,228,80,1,6,26,16,2,11,3,4,...,2,12,1,1,2,3,23,11,12,157
Preta,14,6,-,-,5,-,-,1,-,-,...,-,1,-,-,-,-,1,1,-,6
Amarela,1,-,-,-,-,-,-,-,-,-,...,-,1,-,-,-,-,-,-,-,-
Parda,818,349,9,23,99,77,5,46,35,15,...,13,31,5,3,14,1,37,21,16,396


In [463]:
death_races = dict(zip(list(df_born_race.columns), list(df_born_race.loc['Causas evitáveis'])))
df_born_race = df_born_race.rename(columns=death_races)
df_born_race = df_born_race.rename(columns=format_column_name)
df_born_race = df_born_race.drop(index='Causas evitáveis')
df_born_race = df_born_race.drop(index='Total')

df_born_race = df_born_race.apply(pd.to_numeric, errors='coerce')
df_born_race = df_born_race.T

df_born_race = df_born_race[df_born_race.index.str.startswith('..')]
df_born_race.head()

Unnamed: 0,Branca,Preta,Amarela,Parda,Indígena,Ignorado
..reduziveis atencao a mulher na gestacao,80.0,6.0,,349.0,6.0,29.0
..sifilis congenita,1.0,,,9.0,,1.0
..feto e recem-nasc afet compl placenta membranas,6.0,,,23.0,,2.0
..feto e recem-nascido afet afeccoes maternas,26.0,5.0,,99.0,1.0,12.0
..feto e recem-nasc afet por compl matern gravid,16.0,,,77.0,,8.0


In [464]:
df_born_race = df_born_race.reset_index().rename(columns={'index': 'causa'})

In [465]:
df_born_race.to_csv('./data/valid/df_born_race.csv', index=False)

In [466]:
import pandas as pd
import numpy as np

import re
from unidecode import unidecode

In [467]:
df_child.to_csv('./data/born_deaths_races.csv')

#### **Handling deaths by Micro and Meso region data**

##### New born alive

In [468]:
df_born_alive = pd.read_csv('./data/raw/A3DATA - NacidosVivos.csv')

In [469]:
df_born_alive = df_born_alive.rename(columns={'Município de Residência': 'municipio', 'Nascidos_vivos': 'nascido vivo'})
df_born_alive['municipio'] = df_born_alive['municipio'].apply(format_column_name)

In [470]:
df_born_alive.head()

Unnamed: 0,municipio,nascido vivo
0,abreu e lima,1275
1,afogados da ingazeira,575
2,afranio,241
3,agrestina,371
4,agua preta,408


In [471]:
df_born_alive.to_csv('./data/valid/df_born_alive.csv', index=False)

#### **Handling health places**

In [472]:
df_health_centers = pd.read_csv('./data/raw/A3DATA - TipodDeEstabelecimentoPorMunicipio.csv')
df_health_centers.head()

Unnamed: 0,Município,POSTO DE SAUDE,CENTRO DE SAUDE/UNIDADE BASICA,POLICLINICA,HOSPITAL GERAL,HOSPITAL ESPECIALIZADO,UNIDADE MISTA,PRONTO SOCORRO GERAL,PRONTO SOCORRO ESPECIALIZADO,CONSULTORIO ISOLADO,CLINICA/CENTRO DE ESPECIALIDADE,UNIDADE DE APOIO DIAGNOSE E TERAPIA (SADT ISOLADO),UNIDADE MOVEL TERRESTRE,UNIDADE MOVEL DE NIVEL PRE-HOSPITALAR NA AREA DE URGENCIA,FARMACIA,UNIDADE DE VIGILANCIA EM SAUDE,COOPERATIVA OU EMPRESA DE CESSAO DE TRABALHADORES NA SAUDE,CENTRO DE PARTO NORMAL - ISOLADO,HOSPITAL/DIA - ISOLADO,LABORATORIO CENTRAL DE SAUDE PUBLICA LACEN
0,260005 ABREU E LIMA,4,26,-,2,-,-,-,-,32,22,5,1,2,8,-,-,-,2,-
1,260010 AFOGADOS DA INGAZEIRA,-,16,-,3,-,-,-,-,11,14,6,-,1,-,-,-,-,-,-
2,260020 AFRANIO,1,12,-,2,-,-,-,-,-,6,-,1,-,1,1,-,1,-,-
3,260030 AGRESTINA,16,2,-,1,1,-,-,-,3,6,-,-,1,-,1,-,-,-,-
4,260040 AGUA PRETA,-,15,-,-,-,1,-,-,-,2,1,-,1,1,-,-,-,-,-


In [473]:
df_health_centers = df_health_centers.rename(columns={'Município': 'municipio'})
df_health_centers['municipio'] = df_health_centers['municipio'].apply(format_city_name)

numeric_cols = df_health_centers.columns[1:]
df_health_centers[numeric_cols] = df_health_centers[numeric_cols].apply(pd.to_numeric, errors='coerce')
df_health_centers.head()

Unnamed: 0,municipio,POSTO DE SAUDE,CENTRO DE SAUDE/UNIDADE BASICA,POLICLINICA,HOSPITAL GERAL,HOSPITAL ESPECIALIZADO,UNIDADE MISTA,PRONTO SOCORRO GERAL,PRONTO SOCORRO ESPECIALIZADO,CONSULTORIO ISOLADO,CLINICA/CENTRO DE ESPECIALIDADE,UNIDADE DE APOIO DIAGNOSE E TERAPIA (SADT ISOLADO),UNIDADE MOVEL TERRESTRE,UNIDADE MOVEL DE NIVEL PRE-HOSPITALAR NA AREA DE URGENCIA,FARMACIA,UNIDADE DE VIGILANCIA EM SAUDE,COOPERATIVA OU EMPRESA DE CESSAO DE TRABALHADORES NA SAUDE,CENTRO DE PARTO NORMAL - ISOLADO,HOSPITAL/DIA - ISOLADO,LABORATORIO CENTRAL DE SAUDE PUBLICA LACEN
0,abreu e lima,4.0,26.0,,2.0,,,,,32.0,22.0,5.0,1.0,2.0,8.0,,,,2.0,
1,afogados da ingazeira,,16.0,,3.0,,,,,11.0,14.0,6.0,,1.0,,,,,,
2,afranio,1.0,12.0,,2.0,,,,,,6.0,,1.0,,1.0,1.0,,1.0,,
3,agrestina,16.0,2.0,,1.0,1.0,,,,3.0,6.0,,,1.0,,1.0,,,,
4,agua preta,,15.0,,,,1.0,,,,2.0,1.0,,1.0,1.0,,,,,


In [474]:
useful_places = ['municipio', 'POSTO DE SAUDE', 'CENTRO DE SAUDE/UNIDADE BASICA', 'UNIDADE MISTA']
df_health_centers = df_health_centers[useful_places]

cols_lower = map(str.lower, useful_places)

df_health_centers = df_health_centers.rename(columns=dict(zip(df_health_centers.columns, cols_lower)))

In [475]:
df_health_centers.head()

Unnamed: 0,municipio,posto de saude,centro de saude/unidade basica,unidade mista
0,abreu e lima,4.0,26.0,
1,afogados da ingazeira,,16.0,
2,afranio,1.0,12.0,
3,agrestina,16.0,2.0,
4,agua preta,,15.0,1.0


In [476]:
df_health_centers.to_csv('./data/valid/df_health_centers.csv', index=False)

#### **Handling population data**

In [477]:
df_population = pd.read_csv('./data/raw/A3DATA - NumeroDePopulacaoPorMunicipio.csv')
df_population.head()

Unnamed: 0,Municipio,população
0,260005 Abreu e Lima,100699
1,260010 Afogados da Ingazeira,37545
2,260020 Afrânio,19978
3,260030 Agrestina,25240
4,260040 Água Preta,37385


In [478]:
df_population = df_population.rename(columns={'Municipio': 'municipio', 'população': 'populacao'})
df_population['municipio'] = df_population['municipio'].apply(format_city_name)

numeric_cols = df_population.columns[1:]
df_population[numeric_cols] = df_population[numeric_cols].apply(pd.to_numeric, errors='coerce')
df_population.head()

Unnamed: 0,municipio,populacao
0,abreu e lima,100699
1,afogados da ingazeira,37545
2,afranio,19978
3,agrestina,25240
4,agua preta,37385


In [479]:
df_population.to_csv('./data/valid/df_population.csv', index=False)

#### **Handling babies weight**

In [480]:
df_babies_weight = pd.read_csv('./data/raw/A3DATA - PesoAoNascerVivoPorConsultaPreNatal.csv')

In [481]:
df_babies_weight.drop('Total', axis=1, inplace=True)
df_babies_weight.rename(columns=dict(zip(df_babies_weight.columns, map(str.lower, df_babies_weight.columns))), inplace=True)

df_babies_weight['peso ao nascer'] = df_babies_weight['peso ao nascer'].apply(lambda x: x.replace(' ', ''))

df_babies_weight.set_index('peso ao nascer', inplace=True)
df_babies_weight.drop(index=['Total', 'ign'], inplace=True)

In [482]:
df_babies_weight

Unnamed: 0_level_0,nenhuma,1-3 vezes,4-6 vezes,7 e +,não informado,ignorado
peso ao nascer,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
101-499,6,33,48,87,0,4
500-999,23,185,305,95,0,21
1000-1499,43,162,494,295,1,23
1500-2499,211,813,2797,5338,4,109
2500-2999,407,1475,5920,20305,11,228
3000-3999,804,3349,14188,64547,48,536
4000-4999,75,282,1113,6053,1,30


In [483]:
df_babies_weight.to_csv('./data/valid/df_babies_weight.csv', index=False)

#### **Handling avoidable deaths adulthood**

In [484]:
df_avoidable_deaths = pd.read_csv('./data/raw/A3DATA - ObitosPorFaixaEtariaCausasEvitaveisCincoAsetGeral .csv')
df_avoidable_deaths = df_avoidable_deaths.T
df_avoidable_deaths.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8
Faixa Etária,5 a 9 anos,10 a 14 anos,15 a 19 anos,20 a 29 anos,30 a 39 anos,40 a 49 anos,50 a 59 anos,60 a 69 anos,70 a 74 anos
1.1. Reduzíveis pelas ações de imunoprevenção,-,-,1,-,3,10,8,11,1
1.2. Reduz ações prom prev contr atenç doenç infec,13,7,28,173,320,548,737,1088,738
1.3. Reduz ações prom prev contr atenç doe ñ trans,14,20,37,230,781,2027,4058,6054,3771
1.4. Reduz ações prev contr atenção causas matern,-,1,7,39,56,16,-,-,-


In [485]:
age_groups = dict(zip(list(df_avoidable_deaths.columns), list(df_avoidable_deaths.loc['Faixa Etária'])))
df_avoidable_deaths = df_avoidable_deaths.rename(columns=age_groups)
df_avoidable_deaths = df_avoidable_deaths.drop(index='Faixa Etária')
df_avoidable_deaths = df_avoidable_deaths.apply(pd.to_numeric, errors='coerce')

In [486]:
df_avoidable_deaths.to_csv('./data/avoidable_deaths_age_group.csv')
df_avoidable_deaths.to_csv('./data/valid/avoidable_deaths_age_group.csv')

#### **Handling avoidable deaths adulthood**

In [487]:
df_causes_adulthood = pd.read_csv('./data/raw/A3DATA - ObitosCausasEvitaveisCincoSetentaAnosDetalhado.csv')
df_causes_adulthood = df_causes_adulthood.T

In [488]:
death_causes = dict(zip(list(df_causes_adulthood.columns), list(df_causes_adulthood.loc['Causas evitáveis'])))
df_causes_adulthood = df_causes_adulthood.rename(columns=death_causes)
df_causes_adulthood = df_causes_adulthood.rename(columns=format_column_name)
df_causes_adulthood = df_causes_adulthood.drop(index='Causas evitáveis')
df_causes_adulthood = df_causes_adulthood.drop(index='Total')

df_causes_adulthood = df_causes_adulthood.apply(pd.to_numeric, errors='coerce')
df_causes_adulthood = df_causes_adulthood.T

df_causes_adulthood = df_causes_adulthood[df_causes_adulthood.index.str.startswith('..')]
df_causes_adulthood.head()

Unnamed: 0,5 a 9 anos,10 a 14 anos,15 a 19 anos,20 a 29 anos,30 a 39 anos,40 a 49 anos,50 a 59 anos,60 a 69 anos,70 a 74 anos
..reduziveis pelas acoes de imunoprevencao,,,1.0,,3.0,10.0,8.0,11.0,1.0
..tuberculose do sistema nervoso,,,1.0,,2.0,3.0,,1.0,1.0
..tuberculose miliar,,,,,,4.0,5.0,3.0,
..tetano,,,,,,,1.0,2.0,
..rubeola,,,,,,1.0,,,


In [489]:
df_causes_adulthood.to_csv('./data/adulthood_deaths_causes.csv')

In [490]:
df_idh = pd.read_csv('./data/raw/idh_pernambuco.csv')
df_idh.head()

Unnamed: 0,idx,municipio,idh
0,1,Fernando de Noronha,0.788
1,2,Recife,0.772
2,3,Olinda,0.735
3,4,Paulista,0.732
4,5,Jaboatão dos Guararapes,0.717


In [491]:
df_idh['municipio'] = df_idh['municipio'].apply(format_column_name)
df_idh = df_idh.drop('idx', axis=1)
df_idh.head()

Unnamed: 0,municipio,idh
0,fernandode noronha,0.788
1,recife,0.772
2,olinda,0.735
3,paulista,0.732
4,jaboataodos guararapes,0.717


In [492]:
df_idh.to_csv('./data/valid/df_idh.csv', index=False)