# Brazilian cities to travel

<b> Goal: </b> This portfolio project showcases our expertise in data analysis through an in-depth examination of Brazilian cities identified by the Brazilian Ministry of Tourism as key destinations in their public policy plan (Mapa do Turismo/Tourism Map)

In [None]:
## adicionar índice [[indice]]

### 1. Descriptive Analysis

In [7]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## 1.1 Categories

In [52]:
df = pd.read_excel(r"data\relatorio_categorizacao_2019-portal.xls")

df.head()

Unnamed: 0,MACRO,UF,REGIAO_TURISTICA,MUNICIPIO,COD_IBGE,QUANTIDADE_EMPREGOS,QUANTIDADE_ ESTABELECIMENTOS,QUANTIDADE_VISITAS_ESTIMADAS_ INTERNACIONAL,QUANTIDADE_VISITAS_ESTIMADAS_ NACIONAL,ARRECADACAO,CLUSTER
0,Centro-Oeste,MT,Região Turística Portal do Agronegócio,Nova Mutum,5106224,89,14,0,15309,708887,C
1,Nordeste,MA,Polo Lagos e Campos Floridos,Cajapió,2102408,0,0,0,1376,0,D
2,Sudeste,MG,Caminhos da Mantiqueira,Brazópolis,3108909,6,3,0,25587,0,D
3,Sudeste,MG,Ouro,Caeté,3110004,310,11,0,23757,4944942,B
4,Sudeste,MG,Pedras Preciosas,Catuji,3115458,0,0,149,0,0,D


In [5]:
#showcasing data types and non-null cells in each column
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2694 entries, 0 to 2693
Data columns (total 11 columns):
 #   Column                                       Non-Null Count  Dtype 
---  ------                                       --------------  ----- 
 0   MACRO                                        2694 non-null   object
 1   UF                                           2694 non-null   object
 2   REGIAO_TURISTICA                             2694 non-null   object
 3   MUNICIPIO                                    2694 non-null   object
 4   COD_IBGE                                     2694 non-null   int64 
 5   QUANTIDADE_EMPREGOS                          2694 non-null   int64 
 6   QUANTIDADE_ ESTABELECIMENTOS                 2694 non-null   int64 
 7   QUANTIDADE_VISITAS_ESTIMADAS_ INTERNACIONAL  2694 non-null   int64 
 8   QUANTIDADE_VISITAS_ESTIMADAS_ NACIONAL       2694 non-null   int64 
 9   ARRECADACAO                                  2694 non-null   int64 
 10  CLUSTER     

In [72]:
#distribution of uf (States) in the 2019 dataset

#creating the pivot_table in which the pie chart will be based on
df_count_uf = pd.pivot_table(data = df,
                             values = 'MUNICIPIO',
                             index = 'UF',
                             aggfunc='count').sort_values(by='MUNICIPIO',ascending=False).reset_index()

df_count_uf['% MUNICIPIO TURISMO'] = round((df_count_uf['MUNICIPIO']/df_count_uf['MUNICIPIO'].sum())*100,1)
df_count_uf

Unnamed: 0,UF,MUNICIPIO,% MUNICIPIO TURISMO
0,MG,471,17.5
1,SP,354,13.1
2,RS,345,12.8
3,PR,217,8.1
4,SC,177,6.6
5,BA,133,4.9
6,MT,85,3.2
7,RJ,83,3.1
8,RN,79,2.9
9,GO,79,2.9


In [69]:
df_munic = pd.read_excel(r"data\RELATORIO_DTB_BRASIL_MUNICIPIO.xls", header = 6)

df_munic.head()

Unnamed: 0,Cod_UF,Nome_UF,Região Geográfica Intermediária,Nome Região Geográfica Intermediária,Região Geográfica Imediata,Nome Região Geográfica Imediata,Mesorregião Geográfica,Nome_Mesorregião,Microrregião Geográfica,Nome_Microrregião,Município,Código Município Completo,MUNICIPIO,UF
0,11,Rondônia,1102,Ji-Paraná,110005,Cacoal,2,Leste Rondoniense,6,Cacoal,15,1100015,Alta Floresta D'Oeste,RO
1,11,Rondônia,1102,Ji-Paraná,110005,Cacoal,2,Leste Rondoniense,6,Cacoal,379,1100379,Alto Alegre dos Parecis,RO
2,11,Rondônia,1101,Porto Velho,110002,Ariquemes,2,Leste Rondoniense,3,Ariquemes,403,1100403,Alto Paraíso,RO
3,11,Rondônia,1102,Ji-Paraná,110004,Ji-Paraná,2,Leste Rondoniense,5,Alvorada D'Oeste,346,1100346,Alvorada D'Oeste,RO
4,11,Rondônia,1101,Porto Velho,110002,Ariquemes,2,Leste Rondoniense,3,Ariquemes,23,1100023,Ariquemes,RO


In [73]:
#making a pivot table of the total cities in Brazil 
#in order to compare the distribution of the total turist cities 

df_count_munic_total = pd.pivot_table(data = df_munic,
                             values = 'MUNICIPIO',
                             index = 'UF',
                             aggfunc='count').sort_values(by='MUNICIPIO',ascending=False).reset_index()

df_count_munic_total['% MUNICIPIO TOTAL'] = round((df_count_munic_total['MUNICIPIO']/df_count_munic_total['MUNICIPIO'].sum())*100,1)

#merging the first pivot table and the total
df_compare = pd.merge(df_count_uf[['UF','% MUNICIPIO TURISMO']],
                     df_count_munic_total[['UF','% MUNICIPIO TOTAL']], 
                     how = "outer", 
                     on='UF')

### making a graph


Unnamed: 0,UF,% MUNICIPIO TURISMO,% MUNICIPIO TOTAL
0,MG,17.5,15.3
1,SP,13.1,11.6
2,RS,12.8,8.9
3,PR,8.1,7.2
4,SC,6.6,5.3
5,BA,4.9,7.5
6,MT,3.2,2.5
7,RJ,3.1,1.7
8,RN,2.9,3.0
9,GO,2.9,4.4


In [None]:
## pie chart: distribuição por estado
## stacked bar chart: distribuição de cluster por estado

In [6]:
#seeing most numbers
df.describe()

Unnamed: 0,COD_IBGE,QUANTIDADE_EMPREGOS,QUANTIDADE_ ESTABELECIMENTOS,QUANTIDADE_VISITAS_ESTIMADAS_ INTERNACIONAL,QUANTIDADE_VISITAS_ESTIMADAS_ NACIONAL,ARRECADACAO
count,2694.0,2694.0,2694.0,2694.0,2694.0,2694.0
mean,3405169.0,93.380475,7.516333,3850.519,63835.54,1238121.0
std,931085.2,555.239839,26.20306,46671.17,393017.0,13101790.0
min,1100015.0,0.0,0.0,0.0,0.0,0.0
25%,2905852.0,0.0,0.0,0.0,0.0,0.0
50%,3302650.0,6.0,2.0,38.0,5376.5,0.0
75%,4205982.0,35.0,6.0,373.0,27891.75,0.0
max,5300108.0,17946.0,785.0,1651696.0,13478630.0,473309200.0


[[ANÁLISE SOBRE:
- 25%-50% de demanda internacional e nacional é zero ((fazer boxplots))
- a distância de mediana e mean em todas as métricas
- entender o perfil de cada categoria/classe
- entender a distribuição de 0 -- provavelmente todos os null foram convertidos em 0]]

In [None]:
##boxplot de todas as métricas
## count 0 (possi)

## 1.2 Histórico

avaliar quais métricas conseguem ser cruzadas com o histórico 2016 e 2017.