# Tratamento de Dados 4

## Dados sobre tempo médio de deslocamento casa-trabalho assim como de percentual de pessoas que gastam mais de uma hora neste deslocamento para o ano de 2010. 
Arquivo: [tempo_deslocamento_casa_trabalho](https://basedosdados.org/dataset/br-mobilidados-indicadores?bdm_table=tempo_deslocamento_casa_trabalho)

In [2]:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

In [3]:
dataset = pd.read_csv("../datasets/tempo_deslocamento_casa_trabalho.csv")

In [4]:
dataset.head()

Unnamed: 0,ano,sigla_uf,id_municipio,tempo_medio_deslocamento,prop_deslocamento_acima_1_hora
0,2010,RO,1100205,28,7.0
1,2010,AC,1200401,26,5.0
2,2010,PA,1202400,21,3.0
3,2010,PA,1206500,25,7.0
4,2010,AM,1302603,41,17.0


In [5]:
estados = dataset["sigla_uf"].unique()
estados

array(['RO', 'AC', 'PA', 'AM', 'RR', 'AP', 'TO', 'MA', 'PI', 'CE', 'RN',
       'PB', 'PE', 'AL', 'SE', 'BA', 'MG', 'ES', 'RJ', 'SP', 'PR', 'SC',
       'RS', 'MS', 'MT', 'GO', 'DF'], dtype=object)

In [6]:
# HashMap de estados por região
regioes = {"Norte": {"PA", "RR", "AP", "AM", "TO", "RO", "AC", "MA"},
           "Nordeste": {"SE", "CE", "PB", "AL", "RN", "PE", "BA", "PI"},
           "Sudeste": {"MG", "RJ", "SP", "ES"},
           "Centro-Oeste": {"DF", "MS", "MT", "GO"},
           "Sul": {"PR", "SC", "RS"}}

In [7]:
def get_media_by_regiao(regiao, campo):
    """
    :param regiao: região a ser selecionada
    :return: média do percentual de pessoas próximas a redes de transporte
    """
    media = dataset[(dataset["sigla_uf"].isin(regioes[regiao]))][campo].mean()
    return media

### Analisando as médias de tempo de deslocamento por região

In [8]:
medias_regiao = [get_media_by_regiao(regiao, "tempo_medio_deslocamento") for regiao in regioes]
pd.DataFrame(medias_regiao, index=regioes, columns=["media_tempo"]).sort_values(by="media_tempo",
                                                                                ascending=False)

Unnamed: 0,media_tempo
Sudeste,40.535354
Sul,33.451613
Norte,31.928571
Nordeste,31.480769
Centro-Oeste,30.424242


### Analisando as médias da porcentagem deslocamentos com duração acima de 1 hora

In [9]:
medias_regiao = [get_media_by_regiao(regiao, "prop_deslocamento_acima_1_hora") 
                 for regiao in regioes]
pd.DataFrame(medias_regiao, index=regioes, columns=["media_prop"]).sort_values(by="media_prop",
                                                                               ascending=False)

Unnamed: 0,media_prop
Sudeste,21.323232
Sul,14.258065
Centro-Oeste,13.272727
Nordeste,11.846486
Norte,11.242763


### Tabela com código e nome dos municípios

In [12]:
id_municipio = pd.read_csv("../outros/RELATORIO_DTB_BRASIL_MUNICIPIO.csv")[["Código Município Completo", 
                                                                              "Nome_Município"]]

In [13]:
id_municipio.columns = ["id_municipio", "nome_municipio"]
id_municipio.head()

Unnamed: 0,id_municipio,nome_municipio
0,1100015,Alta Floresta D'Oeste
1,1100379,Alto Alegre dos Parecis
2,1100403,Alto Paraíso
3,1100346,Alvorada D'Oeste
4,1100023,Ariquemes


In [14]:
maiores_tempo = dataset.sort_values(by="tempo_medio_deslocamento", ascending=False)[:5]

In [15]:
maiores_tempo

Unnamed: 0,ano,sigla_uf,id_municipio,tempo_medio_deslocamento,prop_deslocamento_acima_1_hora
111,2010,RJ,3302270,67,53.0
137,2010,SP,3516309,66,54.0
136,2010,SP,3515707,60,47.0
119,2010,RJ,3304144,60,46.0
105,2010,RJ,3300456,59,43.0


In [16]:
maiores_prop = dataset.sort_values(by="prop_deslocamento_acima_1_hora", ascending=False)[:5]

In [17]:
maiores_prop

Unnamed: 0,ano,sigla_uf,id_municipio,tempo_medio_deslocamento,prop_deslocamento_acima_1_hora
137,2010,SP,3516309,66,54.0
111,2010,RJ,3302270,67,53.0
136,2010,SP,3515707,60,47.0
119,2010,RJ,3304144,60,46.0
221,2010,GO,5217609,55,45.0
