In [14]:
import pandas as pd

# Creating dataset with sociodemographic variables to analysis

## Loading data

In [15]:
df = pd.read_csv('data/input/df_sociodemographic.csv', index_col=0)

## Treating data

In [16]:
df_dataset = df[['codigo_municipio_7','municipio', 'População residente (Pessoas)', 'latitude', 'longitude']].copy()

In [17]:
df_dataset = df_dataset.rename(columns={'codigo_municipio_7': 'code_municipality_7', 'municipio': 'municipality', 'População residente (Pessoas)': 'population'})

### Percentual population by age range

In [18]:
df['population_age_range_0_19'] = df['0 a 4 anos'] + df['5 a 9 anos'] + df['10 a 14 anos'] + df['15 a 19 anos']
df['population_age_range_20_39'] = df['20 a 24 anos'] + df['25 a 29 anos'] + df['30 a 34 anos'] + df['35 a 39 anos']
df['population_age_range_40_59'] = df['40 a 44 anos'] + df['45 a 49 anos'] + df['50 a 54 anos'] + df['55 a 59 anos']
df['population_age_range_60_more'] = df['60 a 64 anos'] + df['65 a 69 anos'] + df['70 a 74 anos'] + df['75 a 79 anos'] + df['80 a 84 anos'] + df['85 a 89 anos'] + df['90 a 94 anos'] + df['95 a 99 anos'] + df['100 anos ou mais']

In [19]:
df_dataset['percentage_population_age_range_0_19'] = df['population_age_range_0_19'] / df['População residente (Pessoas)'] * 100
df_dataset['percentage_population_age_range_20_39'] = df['population_age_range_20_39'] / df['População residente (Pessoas)'] * 100
df_dataset['percentage_population_age_range_40_59'] = df['population_age_range_40_59'] / df['População residente (Pessoas)'] * 100
df_dataset['percentage_population_age_range_60_more'] = df['population_age_range_60_more'] / df['População residente (Pessoas)'] * 100

### Demographic attributes

In [20]:
df_dataset['percentage_urban_population'] = df['populacao_urbana'] / df['populacao_2010'] * 100
df_dataset['demographic_density'] = df['Densidade demográfica (Habitante por quilômetro quadrado)']
df_dataset['average_residents_per_households'] = df['Média de moradores em domicílios particulares permanentes ocupados (Pessoas)']
df_dataset['percentage_population_in_households_more_2_residents_per_bedroom'] = df['percentual_populacao_vive_domicilios_densidade_maior_2_por_dormitorio']
df_dataset['percentage_male_population'] = df['Percentual Homens']
df_dataset['percentage_indigenous_population'] = df['percentual_declara_indigena']
df_dataset['percentage_black_and_brown_population'] = df['percentual_cor_raca_preta'] + df['percentual_cor_raca_parda']
df_dataset['life_expectancy_at_birth'] = df['espectativa_vida_ao_nascer']

### Income and poverty

In [21]:
df_dataset['per_capita_income'] = df['renda_per_capita']
df_dataset['gini'] = df['gini']
df_dataset['per_capita_cash_transfer_program'] = df['transferencia_percapita_bolsa_familia']

### Informal settlements

In [22]:
df_dataset['percentage_estimated_households_in_informal_settlements'] = df['percentual_domicilios_aglomerados_subnormais_estimado']
df_dataset['percentage_population_in_informal_settlements'] = df['populacao_aglomerados'] / df['populacao_2010'] * 100
df_dataset['demographic_density_in_informal_settlements'] = df['densidade_demografica_aglomerados']

### Basic sanitation

In [23]:
df_dataset['percentage_population_in_households_without_bathroom'] = 100 - df['percentual_moradores_domicilios_com_banheiro']
df_dataset['percentage_hospitalizations_diseases_inadequate_sanitation'] = df['percentual_internacoes_doencas_saneamento_inadequado']

### Labor market

In [24]:
df_dataset['activity_rate'] = df['taxa_atividade']
df_dataset['percentage_self_employed_workers'] = df['percentual_trabalhadores_conta_propria']
df_dataset['unemployment_rate'] = df['taxa_desocupacao']
df_dataset['percentage_informal_workers'] = 100 - df['percentual_trabalhadores_formais']
df_dataset['percentage_poor_population_spending_more_1_hour_to_work'] = df['percentual_populacao_vulneravel_pobreza_gastam_mais_uma_hora_trabalho']
df_dataset['percentage_workers_agriculture'] = df['percentual_ocupados_agropecuaria']
df_dataset['percentage_workers_commerce'] = df['percentual_ocupados_comercio']
df_dataset['percentage_workers_services'] = df['percentual_ocupados_servico']
df_dataset['percentage_workers_industry'] = df['percentual_ocupados_industria']

### Education

In [25]:
df_dataset['illiteracy_rate'] = 100 - df['taxa_alfabetizacao']
df_dataset['expected_years_of_schooling_at_age_18'] = df['espectativa_anos_estudo_aos_18_anos']

## Saving data

In [26]:
df_dataset.to_csv('data/output/df_dataset.csv', index=True)