# Tratamento de Dados 2

## Percentual de população residente em até 300 metros da infraestrutura cicloviária (ciclovias, ciclofaixas e ciclorrotas) em 2019.
Arquivo: [proporcao_pessoas_prox_infra_cicloviaria](https://basedosdados.org/dataset/br-mobilidados-indicadores?bdm_table=proporcao_pessoas_prox_infra_cicloviaria)

In [1]:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

In [2]:
dataset = pd.read_csv("../datasets/proporcao_pessoas_prox_infra_cicloviaria.csv")

In [3]:
dataset.head()

Unnamed: 0,ano,sigla_uf,id_municipio,indicador,prop_pessoas_proximas_ciclovias
0,2019,SE,280030,PNB Geral,20
1,2019,PA,150140,PNB Geral,30
2,2019,MG,310620,PNB Geral,11
3,2019,RR,140010,PNB Geral,15
4,2019,DF,530010,PNB Geral,28


In [184]:
# estados presentes no dataset
estados = dataset["sigla_uf"].unique()
estados

array(['SE', 'PA', 'MG', 'RR', 'DF', 'MS', 'MT', 'PR', 'SC', 'CE', 'GO',
       'PB', 'AP', 'AL', 'AM', 'RN', 'TO', 'RS', 'RO', 'PE', 'AC', 'RJ',
       'BA', 'MA', 'SP', 'PI', 'ES'], dtype=object)

In [96]:
# HashMap de estados por região
regioes = {"Norte": {"PA", "RR", "AP", "AM", "TO", "RO", "AC", "MA"},
           "Nordeste": {"SE", "CE", "PB", "AL", "RN", "PE", "BA", "PI"},
           "Sudeste": {"MG", "RJ", "SP", "ES"},
           "Centro-Oeste": {"DF", "MS", "MT", "GO"},
           "Sul": {"PR", "SC", "RS"}}

In [127]:
def get_media_prop_by_regiao(regiao, indicador, ano):
    """
    :param regiao: região a ser selecionada
    :param indicador: indicador a ser selecionado
    :param ano: ano a ser selecionado
    :return: média do percentual de pessoas próximas a redes de transporte
    """
    media = dataset[(dataset["ano"] == ano) & (dataset["indicador"] == indicador) &
                    (dataset["sigla_uf"].isin(regioes[regiao]))]["prop_pessoas_proximas_ciclovias"].mean()
    return media

In [134]:
def get_media_prop_by_indicador(ano, indicador):
    """
    
    """
    media = dataset[(dataset["ano"] == ano) & 
                    (dataset["indicador"] == indicador)]["prop_pessoas_proximas_ciclovias"].mean()
    return media

### Analisando a média da porcentagem geral das regiões em 2019 e 2021

In [129]:
periodo = (2019, 2021)

In [130]:
medias_regiao = [get_media_prop_by_regiao(regiao, "PNB Geral", ano) 
                 for ano in periodo
                 for regiao in regioes]

df1 = pd.DataFrame(np.array(medias_regiao).reshape(2, 5),
                   index=periodo, columns=regioes)
df1.index.name, df1.columns.name = "ano", "regiões"
df1

regiões,Norte,Nordeste,Sudeste,Centro-Oeste,Sul
ano,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2019,6.625,15.875,16.5,12.0,15.333333
2021,10.0,18.0,19.75,12.5,16.0


#### Observação
A partir dos dados acima, é possível notar que as regiões que tiveram maior crescimento da infraestrutura cicloviária foram Nordeste, Sudeste e Norte. Em contrapartida, as regiões Sul e Centro-Oeste apresentaram um crescimento inferior a 1%.

### Analisando a média da porcentagem dos indicadores em 2019 e 2021

In [272]:
indicadores = ("PNB Geral", "PNB 0 1/2", "PNB 1/2 1", "PNB 1 3", "PNB 3 mais", 
               "PNB Mulheres negras", "PNB Mulheres menos 1 salário mínimo")

In [291]:
medias_indicador = [get_media_prop_by_indicador(ano, indicador)
                    for ano in periodo
                    for indicador in indicadores]
df2 = pd.DataFrame(np.array(medias_indicador).reshape(2, 7),
                   index=periodo, columns=indicadores)
df2.index.name, df2.columns.name = "ano", "indicador"
df2

indicador,PNB Geral,PNB 0 1/2,PNB 1/2 1,PNB 1 3,PNB 3 mais,PNB Mulheres negras,PNB Mulheres menos 1 salário mínimo
ano,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2019,12.592593,9.592593,10.481481,13.703704,21.259259,11.037037,11.62963
2021,14.851852,11.851852,12.666667,16.111111,23.740741,13.185185,13.740741


#### Observação
Podemos notar, tendo em vista os dados da tabela acima, que a maior parte das pessoas não possui acesso próximo a mais de 3 insfraestruturas cicloviárias, pois somente menos de 25% da população tem acesso. Além disso, somente pouco mais de 10% da população feminina negra e de classe baixa vive com acesso fácil a essas estruturas.

### Analisando a variação da porcentagem dos indicadores

In [292]:
df2.loc["diferenca"] = df2.loc[2021] - df2.loc[2019]

#### Observação
A partir dos dados acima, podemos notar que o maior crescimento se deu entre as pessoas com acesso entre 1 a 3 ou mais de 3 infraestruturas. Enquanto isso, o menor crescimento se deu entre as mulheres que recebem menos de 1 salário mínimo e mulheres negras. Isso pode ser um indício de que a maior disponibilidade de infraestrutura cicloviária no Brasil se deu de forma desigual, com a população feminina negra e de classe baixa sendo as menos beneficiadas.

In [293]:
df2.T.sort_values(by=["diferenca"], ascending=False)

ano,2019,2021,diferenca
indicador,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
PNB 3 mais,21.259259,23.740741,2.481481
PNB 1 3,13.703704,16.111111,2.407407
PNB Geral,12.592593,14.851852,2.259259
PNB 0 1/2,9.592593,11.851852,2.259259
PNB 1/2 1,10.481481,12.666667,2.185185
PNB Mulheres negras,11.037037,13.185185,2.148148
PNB Mulheres menos 1 salário mínimo,11.62963,13.740741,2.111111


### Analisando a variação da porcentagem dos estados

In [234]:
frame_2019 = dataset[(dataset["ano"] == 2019)]["prop_pessoas_proximas_ciclovias"]

frame_est_ind_2019 = pd.DataFrame(np.array(frame_2019.values).reshape(7, 27), 
                                  columns=estados, index=indicadores)
frame_est_ind_2019

Unnamed: 0,SE,PA,MG,RR,DF,MS,MT,PR,SC,CE,...,RS,RO,PE,AC,RJ,BA,MA,SP,PI,ES
PNB Geral,20,30,11,15,28,13,2,18,15,38,...,13,1,22,4,15,20,1,19,9,21
PNB 0 1/2,16,24,10,12,22,11,2,14,10,33,...,10,0,16,2,12,15,1,15,6,13
PNB 1/2 1,19,29,10,14,24,12,2,13,9,35,...,9,0,17,4,11,17,1,15,8,15
PNB 1 3,23,36,12,18,28,14,2,17,13,40,...,14,1,27,6,14,22,1,20,11,21
PNB 3 mais,23,44,14,24,42,18,3,29,25,59,...,22,1,42,9,30,36,5,31,16,30
PNB Mulheres negras,19,30,10,15,26,13,2,13,9,36,...,10,0,19,4,12,18,1,15,8,17
PNB Mulheres menos 1 salário mínimo,19,29,11,14,26,13,2,16,13,37,...,11,0,20,4,13,18,1,17,8,19


In [235]:
frame_2021 = dataset[(dataset["ano"] == 2021)]["prop_pessoas_proximas_ciclovias"]

frame_est_ind_2021 = pd.DataFrame(np.array(frame_2021.values).reshape(7, 27), 
                                  columns=estados, index=indicadores)
frame_est_ind_2021

Unnamed: 0,SE,PA,MG,RR,DF,MS,MT,PR,SC,CE,...,RS,RO,PE,AC,RJ,BA,MA,SP,PI,ES
PNB Geral,20,31,11,15,28,13,3,17,17,47,...,14,1,26,9,16,20,1,20,9,32
PNB 0 1/2,16,25,10,12,22,12,3,14,12,42,...,10,0,20,6,12,15,1,15,6,32
PNB 1/2 1,20,29,11,14,24,13,3,12,10,45,...,9,0,22,7,11,16,1,16,8,32
PNB 1 3,23,36,12,18,28,14,3,17,15,50,...,15,1,31,11,14,22,1,21,11,32
PNB 3 mais,24,44,14,24,41,17,5,29,28,67,...,24,1,45,17,30,40,5,34,16,33
PNB Mulheres negras,19,30,11,15,26,13,3,13,10,45,...,10,0,23,8,12,18,1,15,8,32
PNB Mulheres menos 1 salário mínimo,19,30,11,14,26,13,3,16,15,45,...,11,0,24,8,14,18,1,18,8,32


In [298]:
dif_frames = frame_est_ind_2021 - frame_est_ind_2019
dif_frames.index.name = 'indicador'
dif_frames.columns.name = 'sigla_uf'
dif_frames

sigla_uf,SE,PA,MG,RR,DF,MS,MT,PR,SC,CE,...,RS,RO,PE,AC,RJ,BA,MA,SP,PI,ES
indicador,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
PNB Geral,0,1,0,0,0,0,1,-1,2,9,...,1,0,4,5,1,0,0,1,0,11
PNB 0 1/2,0,1,0,0,0,1,1,0,2,9,...,0,0,4,4,0,0,0,0,0,19
PNB 1/2 1,1,0,1,0,0,1,1,-1,1,10,...,0,0,5,3,0,-1,0,1,0,17
PNB 1 3,0,0,0,0,0,0,1,0,2,10,...,1,0,4,5,0,0,0,1,0,11
PNB 3 mais,1,0,0,0,-1,-1,2,0,3,8,...,2,0,3,8,0,4,0,3,0,3
PNB Mulheres negras,0,0,1,0,0,0,1,0,1,9,...,0,0,4,4,0,0,0,0,0,15
PNB Mulheres menos 1 salário mínimo,0,1,0,0,0,0,1,0,2,8,...,0,0,4,4,1,0,0,1,0,13


In [305]:
dif_med_frames = pd.DataFrame(dif_frames.mean().values, index=estados, columns=["sigla_uf"])
dif_med_frames.sort_values(by="sigla_uf", ascending=False)

Unnamed: 0,sigla_uf
TO,19.142857
ES,12.714286
CE,9.0
AC,4.714286
PE,4.0
RN,2.142857
SC,1.857143
AM,1.428571
PB,1.285714
MT,1.142857


#### Observação
Podemos notar, com os dados, acima que os estados que tiveram maior crescimento na porcentagem de pessoas próximas a infraestruturas cicloviárias foram Tocantis, Espírito Santo, Ceará, Acre e Pernambuco. Em contrapartida, Distrito Federal e Paraná diminuíram suas porcentagens, demonstrando uma possível piora da sua situação em 2019.