In [1]:
import pandas as pd
import re
from unidecode import unidecode

#### **Utils**

In [2]:
def format_column_name(column_name):
    name_without_digits = re.sub(r'\d', '', column_name)
    formatted_name = name_without_digits.lower().replace(' ', '', 1)

    if 'municipioignorado' in formatted_name:
        return 'desconhecido'
    
    return unidecode(formatted_name)

#### **Handling death by city/group age data**

In [3]:
df_city = pd.read_csv('./data/raw/A3DATA_-_MUNICIPIO.csv')
df_city = df_city.T

In [4]:
city_name = dict(zip(list(df_city.columns), list(df_city.loc['Município'])))
df_city = df_city.rename(columns=city_name)
df_city = df_city.rename(columns=format_column_name)
df_city = df_city.drop(index='Município')
df_city = df_city.drop(index='Total')
df_city = df_city.drop('total', axis=1)

df_city = df_city.apply(pd.to_numeric, errors='coerce')
df_city.head()

Unnamed: 0,desconhecido,abreu e lima,afogados da ingazeira,afranio,agrestina,agua preta,aguas belas,alagoinha,alianca,altinho,...,triunfo,tupanatinga,tuparetama,venturosa,verdejante,vertente do lerio,vertentes,vicencia,vitoria de santo antao,xexeu
5 a 9 anos,,1,,1.0,,1.0,1,,1,,...,,,,,,,,1,3,
10 a 14 anos,,1,1.0,,,,2,1.0,1,,...,,2.0,,,,,,1,5,
15 a 19 anos,1.0,8,4.0,3.0,5.0,2.0,4,1.0,3,4.0,...,3.0,2.0,,2.0,,,2.0,2,12,2.0
20 a 29 anos,8.0,33,8.0,5.0,8.0,11.0,5,2.0,24,10.0,...,4.0,11.0,1.0,4.0,4.0,4.0,4.0,15,46,4.0
30 a 39 anos,11.0,41,12.0,8.0,20.0,12.0,14,2.0,19,16.0,...,8.0,6.0,3.0,3.0,4.0,2.0,11.0,14,76,12.0


In [5]:
df_city.to_csv('./data/deaths_by_city.csv')

#### **Handling deaths by Micro and Meso region data**

In [6]:
df_region = pd.read_csv('./data/raw/A3DATA_-_MicroRegiaoFE.csv')
df_region = df_region.T

##### Deaths by Region

In [7]:
region_name = dict(zip(list(df_region.columns), list(df_region.loc['Microrregião IBGE'])))

df_region = df_region.rename(columns=region_name)
df_region = df_region.rename(columns=format_column_name)
df_region = df_region.drop(index='Microrregião IBGE')
df_region = df_region.drop(index='Total')
# df_region = df_region.drop('total', axis=1)

df_region = df_region.apply(pd.to_numeric, errors='coerce')
df_region.head()

Unnamed: 0,araripina,salgueiro,pajeu,sertao do moxoto,petrolina,itaparica,vale do ipanema,vale do ipojuca,alto capibaribe,medio capibaribe,garanhuns,brejo pernambucano,mata setentrional pernambucana,vitoria de santo antao,mata meridional pernambucana,itamaraca,recife,suape,fernando de noronha
5 a 9 anos,3,5,2,4,8,4,2,13,4,3,8,1,9,6,6,3,31,4,
10 a 14 anos,4,5,9,6,12,6,5,20,5,4,13,1,5,5,7,4,53,3,
15 a 19 anos,39,11,30,21,44,10,21,93,24,28,43,31,73,26,81,20,304,56,
20 a 24 anos,40,26,45,29,67,18,22,157,43,28,82,32,90,43,98,23,484,60,
25 a 29 anos,47,20,43,29,103,22,21,134,35,33,64,40,93,41,96,23,537,65,


##### Micro and Meso region data

In [8]:
df_micro_regions = pd.read_csv('./data/raw/MunicipiosMicrorregiaoMesorregiPE.csv')
df_micro_regions = df_micro_regions.applymap(lambda x: unidecode(x).lower())
df_micro_regions = df_micro_regions.rename(columns={
    'municipio': 'city',
    'microrregiao': 'microregion',
    'mesorregiao': 'mesoregion'
})
df_micro_regions.head()

Unnamed: 0,city,microregion,mesoregion
0,araripina,araripina,sertao pernambucano
1,bodoco,araripina,sertao pernambucano
2,exu,araripina,sertao pernambucano
3,granito,araripina,sertao pernambucano
4,ipubi,araripina,sertao pernambucano


In [9]:
micro_region_map = df_micro_regions.groupby('microregion')['city'].apply(list)
meso_region_map = df_micro_regions.groupby('mesoregion')['city'].apply(list)

In [10]:
micro_region_map

microregion
alto capibaribe                     [casinhas, frei miguelinho, santa cruz do capi...
araripina                           [araripina, bodoco, exu, granito, ipubi, morei...
brejo pernambucano                  [agrestina, altinho, barra de guabiraba, bonit...
garanhuns                           [angelim, bom conselho, brejao, caetes, calcad...
itamaraca                           [aracoiaba, igarassu, ilha de itamaraca, itapi...
itaparica                           [belem do sao francisco, carnaubeira da penha,...
mata meridional pernambucana        [agua preta, amaraji, barreiros, belem de mari...
mata setentrional cha de alegria                                           [vicencia]
mata setentrional pernambucana      [alianca, buenos aires, camutanga, carpina, co...
medio capibaribe                    [bom jardim, cumaru, feira nova, joao alfredo,...
pajeu                               [afogados da ingazeira, brejinho, calumbi, car...
petrolina                           [afran

In [11]:
micro_region_map.reset_index(name='cities').to_csv('./data/cities_by_microregion.csv', index=False)
meso_region_map.reset_index(name='cities').to_csv('./data/cities_by_mesoregion.csv', index=False)

#### **Handling deaths by group of diseases**

In [12]:
df_cid = pd.read_csv('./data/raw/A3DATA_-_ObitosPorMunicipioCapCid.csv')
df_cid = df_cid.T

In [13]:
cid_num = dict(zip(list(df_cid.columns), list(df_cid.loc['Município'])))

df_cid = df_cid.rename(columns=cid_num)
df_cid = df_cid.rename(columns=format_column_name)
df_cid = df_cid.drop(index='Município')
df_cid = df_cid.drop(index='Total')
df_cid = df_cid.drop('total', axis=1)

df_cid = df_cid.apply(pd.to_numeric, errors='coerce')
df_cid.head()

Unnamed: 0,desconhecido,abreu e lima,afogados da ingazeira,afranio,agrestina,agua preta,aguas belas,alagoinha,alianca,altinho,...,triunfo,tupanatinga,tuparetama,venturosa,verdejante,vertente do lerio,vertentes,vicencia,vitoria de santo antao,xexeu
Cap I,2.0,152.0,40.0,8.0,30.0,23.0,27.0,18.0,40.0,23.0,...,11.0,12.0,10.0,14.0,9.0,9.0,20.0,27.0,179.0,14.0
Cap II,2.0,65.0,37.0,12.0,10.0,13.0,26.0,8.0,27.0,12.0,...,9.0,9.0,5.0,9.0,6.0,6.0,15.0,18.0,103.0,15.0
Cap III,,4.0,,,,,1.0,,2.0,1.0,...,1.0,1.0,,2.0,,,,,2.0,1.0
Cap IV,,42.0,14.0,3.0,11.0,9.0,9.0,2.0,16.0,9.0,...,5.0,4.0,3.0,8.0,4.0,1.0,4.0,11.0,79.0,5.0
Cap V,1.0,7.0,3.0,1.0,5.0,3.0,4.0,3.0,2.0,2.0,...,1.0,3.0,1.0,1.0,1.0,1.0,1.0,2.0,6.0,3.0


##### Reference: https://www.ciddez.com.br/capitulos

In [14]:
disease_data = {
    'cid': [
        'Capítulo I', 'Capítulo II', 'Capítulo III', 'Capítulo IV', 'Capítulo V',
        'Capítulo VI', 'Capítulo VII', 'Capítulo VIII', 'Capítulo IX', 'Capítulo X',
        'Capítulo XI', 'Capítulo XII', 'Capítulo XIII', 'Capítulo XIV', 'Capítulo XV',
        'Capítulo XVI', 'Capítulo XVII', 'Capítulo XVIII', 'Capítulo XIX', 'Capítulo XX',
        'Capítulo XXI', 'Capítulo XXII'
    ],
    'disease': [
        'Algumas doenças infecciosas e parasitárias', 'Neoplasias [tumores]',
        'Doenças do sangue e dos órgãos hematopoéticos e alguns transtornos imunitários',
        'Doenças endócrinas, nutricionais e metabólicas', 'Transtornos mentais e comportamentais',
        'Doenças do sistema nervoso', 'Doenças do olho e anexos', 'Doenças do ouvido e da apófise mastóide',
        'Doenças do aparelho circulatório', 'Doenças do aparelho respiratório', 'Doenças do aparelho digestivo',
        'Doenças da pele e do tecido subcutâneo', 'Doenças do sistema osteomuscular e do tecido conjuntivo',
        'Doenças do aparelho geniturinário', 'Gravidez, parto e puerpério', 'Algumas afecções originadas no período perinatal',
        'Malformações congênitas, deformidades e anomalias cromossômicas',
        'Sintomas, sinais e achados anormais de exames clínicos e de laboratório, não classificados em outra parte',
        'Lesões, envenenamento e algumas outras conseqüências de causas externas',
        'Causas externas de morbidade e de mortalidade', 'Fatores que influenciam o estado de saúde e o contato com os serviços de saúde',
        'Códigos para propósitos especiais'
    ]
}

df_disease = pd.DataFrame(disease_data)
df_disease['cid'] = df_disease['cid'].str.replace('Capítulo', 'Cap')

df_disease.head()

Unnamed: 0,cid,disease
0,Cap I,Algumas doenças infecciosas e parasitárias
1,Cap II,Neoplasias [tumores]
2,Cap III,Doenças do sangue e dos órgãos hematopoéticos ...
3,Cap IV,"Doenças endócrinas, nutricionais e metabólicas"
4,Cap V,Transtornos mentais e comportamentais


In [15]:
df_disease.to_csv('./data/cid_diseases.csv', index=False)

#### **Handling new born deaths data**

##### New born death by causes

In [16]:
df_born_causes = pd.read_csv('./data/raw/A3DATA_-_ObitosCausasEvitaveisMenoresDeCincoAnos.csv')
df_born_causes = df_born_causes.T

In [17]:
death_causes = dict(zip(list(df_born_causes.columns), list(df_born_causes.loc['Causas evitáveis'])))
df_born_causes = df_born_causes.rename(columns=death_causes)
df_born_causes = df_born_causes.rename(columns=format_column_name)
df_born_causes = df_born_causes.drop(index='Causas evitáveis')
df_born_causes = df_born_causes.drop(index='Total')

df_born_causes = df_born_causes.apply(pd.to_numeric, errors='coerce')
df_born_causes = df_born_causes.T

df_born_causes = df_born_causes[df_born_causes.index.str.startswith('..')]
df_born_causes.head()

Unnamed: 0,0 a 6 dias,7 a 27 dias,28 a 364 dias,1 a 4 anos
..reduziveis atencao a mulher na gestacao,349.0,83.0,38.0,
..sifilis congenita,7.0,2.0,2.0,
..feto e recem-nasc afet compl placenta membranas,25.0,6.0,,
..feto e recem-nascido afet afeccoes maternas,92.0,36.0,15.0,
..feto e recem-nasc afet por compl matern gravid,86.0,12.0,3.0,


In [18]:
df_born_causes.to_csv('./data/born_deaths_causes.csv', index=False)

##### New born deaths by region

In [19]:
df_born_region = pd.read_csv('./data/raw/A3DATA - ObitosPorMunicipio&FaixaEtariaMenoresDeCindoAnos.csv')
df_born_region = df_born_region.T

In [20]:
new_born_region = dict(zip(list(df_born_region.columns), list(df_born_region.loc['Município'])))
df_born_region = df_born_region.rename(columns=new_born_region)
df_born_region = df_born_region.rename(columns=format_column_name)
df_born_region = df_born_region.drop(index='Município')
df_born_region = df_born_region.drop(index='Total')

df_born_region = df_born_region.apply(pd.to_numeric, errors='coerce')
df_born_region = df_born_region.T
df_born_region.head()

Unnamed: 0,0 a 6 dias,7 a 27 dias,28 a 364 dias,1 a 4 anos
abreu e lima,6.0,3.0,5.0,5.0
afogados da ingazeira,3.0,1.0,,1.0
afranio,1.0,2.0,,
agrestina,1.0,2.0,3.0,
agua preta,4.0,1.0,,2.0


In [21]:
df_born_region.to_csv('./data/born_deaths_region.csv')

##### New born deaths by race

In [22]:
df_born_race = pd.read_csv('./data/raw/A3DATA - ObitosPorCausasEvitaveisCorRacaMenorDeCinco.csv')
df_born_race = df_born_race.T

In [23]:
death_races = dict(zip(list(df_born_race.columns), list(df_born_race.loc['Causas evitáveis'])))
df_born_race = df_born_race.rename(columns=death_races)
df_born_race = df_born_race.rename(columns=format_column_name)
df_born_race = df_born_race.drop(index='Causas evitáveis')
df_born_race = df_born_race.drop(index='Total')

df_born_race = df_born_race.apply(pd.to_numeric, errors='coerce')
df_born_race = df_born_race.T

df_born_race = df_born_race[df_born_race.index.str.startswith('..')]
df_born_race.head()

Unnamed: 0,Branca,Preta,Amarela,Parda,Indígena,Ignorado
..reduziveis atencao a mulher na gestacao,80.0,6.0,,349.0,6.0,29.0
..sifilis congenita,1.0,,,9.0,,1.0
..feto e recem-nasc afet compl placenta membranas,6.0,,,23.0,,2.0
..feto e recem-nascido afet afeccoes maternas,26.0,5.0,,99.0,1.0,12.0
..feto e recem-nasc afet por compl matern gravid,16.0,,,77.0,,8.0


In [24]:
df_born_region.to_csv('./data/born_deaths_races.csv')

##### New born alive

In [25]:
df_born_alive = pd.read_csv('./data/raw/A3DATA - NacidosVivos.csv')

In [26]:
df_born_alive = df_born_alive.rename(columns={'Município de Residência': 'city', 'Nascidos_vivos': 'born_alive'})
df_born_alive['city'] = df_born_alive['city'].apply(format_column_name)

In [27]:
df_born_alive.to_csv('./data/born_alive.csv', index=False)

#### **Handling health places**

In [28]:
df_places = pd.read_csv('./data/raw/A3DATA - TipodDeEstabelecimentoPorMunicipio.csv')

In [29]:
df_places = df_places.rename(columns={'Município': 'city'})
df_places.rename(columns=dict(zip(df_places.columns, map(str.lower, df_places.columns))), inplace=True)
df_places['city'] = df_places['city'].apply(format_column_name)

df_places.set_index('city', inplace=True)
df_places.drop('total', inplace=True)

In [30]:
useful_places = ['posto de saude', 'centro de saude/unidade basica', 'unidade mista']
df_places = df_places[useful_places]

In [31]:
df_places.to_csv('./data/health_places.csv', index=False)

In [32]:
df_places

Unnamed: 0_level_0,posto de saude,centro de saude/unidade basica,unidade mista
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
abreu e lima,4,26,-
afogados da ingazeira,-,16,-
afranio,1,12,-
agrestina,16,2,-
agua preta,-,15,1
...,...,...,...
vertente do lerio,1,4,-
vertentes,-,6,-
vicencia,3,11,-
vitoria de santo antao,-,40,-


#### **Handling population data**

In [33]:
df_population = pd.read_csv('./data/raw/A3DATA - NumeroDePopulacaoPorMunicipio.csv')

In [34]:
df_population = df_population.rename(columns={'Municipio': 'city', 'população': 'population'})
df_population['city'] = df_population['city'].apply(format_column_name)

In [35]:
df_population.to_csv('./data/pe_population.csv', index=False)

#### **Handling babies weight**

In [36]:
df_weight = pd.read_csv('./data/raw/A3DATA - PesoAoNascerVivoPorConsultaPreNatal.csv')

In [37]:
df_weight.drop('Total', axis=1, inplace=True)
df_weight.rename(columns=dict(zip(df_weight.columns, map(str.lower, df_weight.columns))), inplace=True)

In [38]:
df_weight.to_csv('./data/babies_weight.csv', index=False)