## Preparando o dataframe referente aos bairros, regionais renda e população

In [1]:
# Fontes extraídas do link passado pelo professor Luiz Celso
# https://gitlab.com/luizcelso/mobilidade-curitiba-covid19/-/raw/master/data/bairros_por_regional.csv
# https://gitlab.com/luizcelso/mobilidade-curitiba-covid19/-/raw/master/data/renda.csv
import pandas as pd


In [2]:
# Importando dataframes com os dados economicos dos bairros e uma lista de bairros e suas respectivas regionais

df_regionais = pd.read_csv("../dados/bairro_regional.csv", sep=',')
df_regionais['Bairro'] = df_regionais['Bairro'].str.upper()
df_renda = pd.read_csv("../dados/renda_bairro.csv", sep=',')

df_renda.head(3)

Unnamed: 0,Bairros,código,Média de Media latitude,Média de media longitude,Tempo,RMR,Resíduo padrão,Label,Área (km²),Homens,Mulheres,População Total,Domicilios particulares,Rendimento mensal médio por responsáveis dos domicílios (R$)
0,ALTO BOQUEIRAO,47,-255333703446815,-492421297196611,19,29,-244201144966097,Alto Boqueirão,1211,24824,26331,51155,14301,111063
1,LAMENHA PEQUENA,63,-253663199254971,-49329475340023,12,24,-194536383937777,Lamenha Pequena,34,353,348,701,188,66599
2,XAXIM,23,-255090296034033,-49267007631085,13,36,-146226860276454,Xaxim,892,26747,27944,54691,15482,12116


In [3]:
# Filtrando e tratando os dados do dataframe

renda = df_renda[['Bairros', 'Label','População Total', 'Rendimento mensal médio por responsáveis dos domicílios (R$)']]
renda = renda.rename(columns={'Rendimento mensal médio por responsáveis dos domicílios (R$)': 'Renda'})
renda['Renda'] = renda['Renda'].replace(',','.', regex=True).astype(float)
renda['Renda Bruta'] = renda['População Total'] * renda['Renda']
renda.head(3)

Unnamed: 0,Bairros,Label,População Total,Renda,Renda Bruta
0,ALTO BOQUEIRAO,Alto Boqueirão,51155,1110.63,56814277.65
1,LAMENHA PEQUENA,Lamenha Pequena,701,665.99,466858.99
2,XAXIM,Xaxim,54691,1211.6,66263615.6


In [4]:
df_merge = renda.merge(df_regionais, how='left', left_on='Bairros', right_on='Bairro', suffixes=(False, False))
df_merge[df_merge.isna().any(axis=1)]

Unnamed: 0,Bairros,Label,População Total,Renda,Renda Bruta,Bairro,Regional


In [7]:
df_merge.head(3)

Unnamed: 0,Bairros,Label,População Total,Renda,Renda Bruta,Bairro,Regional
0,ALTO BOQUEIRAO,Alto Boqueirão,51155,1110.63,56814277.65,ALTO BOQUEIRAO,Boqueirão
1,LAMENHA PEQUENA,Lamenha Pequena,701,665.99,466858.99,LAMENHA PEQUENA,Santa Felicidade
2,XAXIM,Xaxim,54691,1211.6,66263615.6,XAXIM,Boqueirão


In [5]:
df_merge[df_merge['Regional'] == 'CIC']

Unnamed: 0,Bairros,Label,População Total,Renda,Renda Bruta,Bairro,Regional
3,RIVIERA,Riviera,203,423.13,85895.39,RIVIERA,CIC
4,SAO MIGUEL,São Miguel,4911,409.43,2010711.0,SAO MIGUEL,CIC
10,AUGUSTA,Augusta,3617,619.54,2240876.0,AUGUSTA,CIC
14,CIDADE INDUSTRIAL DE CURITIBA,Cidade Industrial,157461,639.09,100631800.0,CIDADE INDUSTRIAL DE CURITIBA,CIC


In [7]:
# Agrupando por regionais e somando a renda bruta e população. Depois, criando a renda média por regional

regionais = df_merge.groupby('Regional').agg({'População Total':'sum','Renda Bruta':'sum'})
regionais['Renda Média'] =  regionais['Renda Bruta']/regionais['População Total']
regionais.sort_values('Renda Média')

Unnamed: 0_level_0,População Total,Renda Bruta,Renda Média
Regional,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Tatuquara,46149,22242190.0,481.964742
CIC,166192,104969200.0,631.614234
Bairro Novo,124330,114631500.0,921.994247
Pinheirinho,121491,114176900.0,939.797274
Cajuru,202787,224688400.0,1108.001763
Boqueirão,188192,242273500.0,1287.374094
Santa Felicidade,100762,151001900.0,1498.599244
Boa Vista,218741,332156900.0,1518.493802
Fazendinha,194675,386340100.0,1984.538745
Matriz,202304,591892700.0,2925.75879


In [10]:
regionais.to_csv("../dados/dados_limpos/renda_media_regionais.csv")