# Análise Turistas

Neste notebook ficarão análises que utilizam apenas os datasets da chegada de turistas estrangeiros no Brasil.
Diferentemente dos demais datasets utilizados neste trabalho, os datasets utilizados neste notebook foram obtidos através de um extrator de dados (http://www.dadosefatos.turismo.gov.br/extrator-turistas.html) disponibilizado pelo Ministério do Turismo.
Devido ao tempo de execução da ferramenta mencionada acima, foi extraído um dataset por ano.

## Imports

Aqui devem ficar os imports, assim só os executo uma vez.

In [2]:
import pandas as pd
import numpy as np

## Pré-processamento

Aqui ficarão as funções de leitura e pré-processamento dos datasets.

In [132]:
#Dicionario para converter o texto do mês em número
mes_string_int = {
    'Janeiro': 1,
    'Fevereiro': 2,
    'Março': 3,
    'Abril': 4,
    'Maio': 5,
    'Junho': 6,
    'Julho': 7,
    'Agosto': 8,
    'Setembro': 9,
    'Outubro': 10,
    'Novembro': 11,
    'Dezembro': 12
}

def remove_dots(x):
    '''Remove os pontos de uma string, usado para remover os pontos que vêm nos números de chegadas.'''
    return x.replace('.', '')

def leitura_turistas(ano):
    '''Lê os CSVs dos turistas.'''
    saida = pd.read_csv('Datasets/chegadas_' + str(ano) + '.csv', sep=';', encoding='latin1', skiprows=1,\
                        dtype={'Continente': 'category', 'País': 'category',\
                               'UF': 'category', 'Mês': 'category', 'Chegadas': object},\
                        names=['Continente', 'País', 'UF', 'Mês', 'Chegadas'])
    saida['Mês'] = saida['Mês'].apply(lambda x: mes_string_int[x]).astype(np.uint8)
    saida['Chegadas'] = saida['Chegadas'].apply(remove_dots).astype(np.uint32)
    return pd.DataFrame(saida)

## Carregamento

Aqui os datasets serão carregados

In [133]:
chegadas_2014 = leitura_turistas(2014)
chegadas_2015 = leitura_turistas(2015)
chegadas_2016 = leitura_turistas(2016)
chegadas_2017 = leitura_turistas(2017)
chegadas_2014

Unnamed: 0,Continente,País,UF,Mês,Chegadas
0,África,África do Sul,Acre,1,0
1,África,África do Sul,Acre,2,0
2,África,África do Sul,Acre,3,0
3,África,África do Sul,Acre,4,0
4,África,África do Sul,Acre,5,0
5,África,África do Sul,Acre,6,0
6,África,África do Sul,Acre,7,0
7,África,África do Sul,Acre,8,0
8,África,África do Sul,Acre,9,0
9,África,África do Sul,Acre,10,0


## Análise exploratória

Observação dos dados com a intenção de achar coisas interessantes para trabalhar.

### 2014

In [143]:
display("Total de turistas: " + str(chegadas_2014['Chegadas'].sum()))
display("Continentes")
display(pd.DataFrame(chegadas_2014.groupby(['Continente']).Chegadas.sum()).sort_values('Chegadas', ascending=False))
display("Países")
display(pd.DataFrame(chegadas_2014.groupby(['País']).Chegadas.sum()).sort_values('Chegadas', ascending=False).head())
display("UF")
display(pd.DataFrame(chegadas_2014.groupby(['UF']).Chegadas.sum()).sort_values('Chegadas', ascending=False).head())
display("Mês")
display(pd.DataFrame(chegadas_2014.groupby(['Mês']).Chegadas.sum()))

'Total de turistas: 6429852'

'Continentes'

Unnamed: 0_level_0,Chegadas
Continente,Unnamed: 1_level_1
América do Sul,3133629
Europa,1847834
América do Norte,844969
Ásia,332585
África,128252
Oceania,80447
América Central e Caribe,61968
Continente não especificado,168


'Países'

Unnamed: 0_level_0,Chegadas
País,Unnamed: 1_level_1
Argentina,1743930
Estados Unidos,656801
Chile,336950
Paraguai,293841
França,282375


'UF'

Unnamed: 0_level_0,Chegadas
UF,Unnamed: 1_level_1
São Paulo,2219917
Rio de Janeiro,1597153
Rio Grande do Sul,907669
Paraná,837046
Santa Catarina,156976


'Mês'

Unnamed: 0_level_0,Chegadas
Mês,Unnamed: 1_level_1
1,580616
2,535096
3,329779
4,389943
5,349819
6,1018876
7,717769
8,401094
9,373555
10,414408


### 2015

In [144]:
display("Total de turistas: " + str(chegadas_2015['Chegadas'].sum()))
display("Continentes")
display(pd.DataFrame(chegadas_2015.groupby(['Continente']).Chegadas.sum()).sort_values('Chegadas', ascending=False))
display("Países")
display(pd.DataFrame(chegadas_2015.groupby(['País']).Chegadas.sum()).sort_values('Chegadas', ascending=False).head())
display("UF")
display(pd.DataFrame(chegadas_2015.groupby(['UF']).Chegadas.sum()).sort_values('Chegadas', ascending=False).head())
display("Mês")
display(pd.DataFrame(chegadas_2015.groupby(['Mês']).Chegadas.sum()))

'Total de turistas: 6305838'

'Continentes'

Unnamed: 0_level_0,Chegadas
Continente,Unnamed: 1_level_1
América do Sul,3420349
Europa,1631514
América do Norte,734450
Ásia,299270
África,110983
Oceania,55421
América Central e Caribe,53709
Continente não especificado,142


'Países'

Unnamed: 0_level_0,Chegadas
País,Unnamed: 1_level_1
Argentina,2079823
Estados Unidos,575796
Chile,306331
Paraguai,301831
Uruguai,267321


'UF'

Unnamed: 0_level_0,Chegadas
UF,Unnamed: 1_level_1
São Paulo,2248811
Rio de Janeiro,1375978
Rio Grande do Sul,1080478
Paraná,758973
Bahia,151660


'Mês'

Unnamed: 0_level_0,Chegadas
Mês,Unnamed: 1_level_1
1,915056
2,719513
3,619939
4,414084
5,372818
6,350156
7,454624
8,366300
9,243336
10,491491


### 2016

In [145]:
display("Total de turistas: " + str(chegadas_2016['Chegadas'].sum()))
display("Continentes")
display(pd.DataFrame(chegadas_2016.groupby(['Continente']).Chegadas.sum()).sort_values('Chegadas', ascending=False))
display("Países")
display(pd.DataFrame(chegadas_2016.groupby(['País']).Chegadas.sum()).sort_values('Chegadas', ascending=False).head())
display("UF")
display(pd.DataFrame(chegadas_2016.groupby(['UF']).Chegadas.sum()).sort_values('Chegadas', ascending=False).head())
display("Mês")
display(pd.DataFrame(chegadas_2016.groupby(['Mês']).Chegadas.sum()))

'Total de turistas: 6546696'

'Continentes'

Unnamed: 0_level_0,Chegadas
Continente,Unnamed: 1_level_1
América do Sul,3701344
Europa,1606495
América do Norte,735062
Ásia,304786
África,81391
Oceania,66116
América Central e Caribe,51412
Continente não especificado,90


'Países'

Unnamed: 0_level_0,Chegadas
País,Unnamed: 1_level_1
Argentina,2294900
Estados Unidos,570350
Paraguai,316714
Chile,311813
Uruguai,284113


'UF'

Unnamed: 0_level_0,Chegadas
UF,Unnamed: 1_level_1
São Paulo,2248297
Rio de Janeiro,1480121
Rio Grande do Sul,1106845
Paraná,846387
Santa Catarina,203662


'Mês'

Unnamed: 0_level_0,Chegadas
Mês,Unnamed: 1_level_1
1,1084359
2,808533
3,625098
4,398071
5,345264
6,355441
7,472342
8,537727
9,418981
10,439357


### 2017

In [146]:
display("Total de turistas: " + str(chegadas_2017['Chegadas'].sum()))
display("Continentes")
display(pd.DataFrame(chegadas_2017.groupby(['Continente']).Chegadas.sum()).sort_values('Chegadas', ascending=False))
display("Países")
display(pd.DataFrame(chegadas_2017.groupby(['País']).Chegadas.sum()).sort_values('Chegadas', ascending=False).head())
display("UF")
display(pd.DataFrame(chegadas_2017.groupby(['UF']).Chegadas.sum()).sort_values('Chegadas', ascending=False).head())
display("Mês")
display(pd.DataFrame(chegadas_2017.groupby(['Mês']).Chegadas.sum()))

'Total de turistas: 6588770'

'Continentes'

Unnamed: 0_level_0,Chegadas
Continente,Unnamed: 1_level_1
América do Sul,4112327
Europa,1451544
América do Norte,605961
Ásia,255841
África,70351
América Central e Caribe,49320
Oceania,43380
Continente não especificado,46


'Países'

Unnamed: 0_level_0,Chegadas
País,Unnamed: 1_level_1
Argentina,2622327
Estados Unidos,475232
Chile,342143
Paraguai,336646
Uruguai,328098


'UF'

Unnamed: 0_level_0,Chegadas
UF,Unnamed: 1_level_1
São Paulo,2144606
Rio de Janeiro,1355616
Rio Grande do Sul,1270618
Paraná,892629
Santa Catarina,205470


'Mês'

Unnamed: 0_level_0,Chegadas
Mês,Unnamed: 1_level_1
1,1107628
2,863252
3,563667
4,462810
5,349843
6,319853
7,477118
8,410100
9,419239
10,440087


## Análises de hipóteses