<a href="https://colab.research.google.com/github/possebon/bigdata-data-management/blob/main/international_tourists.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Inicialização

- Clone do repositório do GitHub
- Instalação dos pré-requisitos



In [38]:
import sys
from google.colab import drive
drive.mount('/content/drive/', force_remount=True)


sys.path.append('bigdata-data-management')

%cd '/content/drive/bigdata-data-management'
!rm * -r -f
!git clone https://github.com/possebon/bigdata-data-management.git
%cd bigdata-data-management
!pip install -r requirements.txt


Mounted at /content/drive/
[Errno 2] No such file or directory: '/content/drive/bigdata-data-management'
/content/bigdata-data-management/bigdata-data-management/bigdata-data-management/bigdata-data-management/bigdata-data-management/bigdata-data-management/bigdata-data-management/bigdata-data-management/bigdata-data-management/bigdata-data-management/bigdata-data-management/bigdata-data-management/bigdata-data-management
Cloning into 'bigdata-data-management'...
remote: Enumerating objects: 100, done.[K
remote: Counting objects: 100% (100/100), done.[K
remote: Compressing objects: 100% (78/78), done.[K
remote: Total 100 (delta 56), reused 49 (delta 21), pack-reused 0[K
Receiving objects: 100% (100/100), 2.23 MiB | 7.62 MiB/s, done.
Resolving deltas: 100% (56/56), done.
/content/bigdata-data-management/bigdata-data-management/bigdata-data-management/bigdata-data-management/bigdata-data-management/bigdata-data-management/bigdata-data-management/bigdata-data-management/bigdata-data-m

#Carga dos Dados

## Preparação dos dados

Ao realizar os dados referente às chegadas dos turistas diretamente do portal do Ministério do Turismo, pudemos identificar uma diferença na estrutura dos arquivos CSV.

Foi necessário realizar uma adequação dos arquivos para que ficassem na mesma estrutura e fazer a carga em um único dataframe do Pandas.

Optamos pelo tratamento dos arquivos antes da carga ao invés de manipularmos os mesmos no dataframe.

Os dados de chegadas não possuem a sigla das Unidades Federativas (UF), somente o nome das UFs.

Nossa intentção é de realizar exploração dos dados usando informações georeferenciais, e para isso encontramos dois datasets que contêm essas informações.

Estes dois datasets possuem a sigla da UF então criamos um CSV somente com o nome da Unidade Federativa e sua respectiva sigla: uf_sigla.csv

No dataset principal, o de chegadas, os nomes das Unidades Federativas não possuem caracteres acentuados.

Foi necessário fazer um tratamento, após a carga dos dados para que pudéssemos manter a coerência com os demais datasets que possuem os caracteres acentuados e também na visualização, para que os nomes das respectivas Unidades Federativas exibissem com a correta ortografia.

---



In [39]:
import csv
import pandas as pd
import sys, getopt, pprint
from pymongo import MongoClient
from calendar import monthrange
import datetime
import os
import glob
import geopandas


def parse_date_value(year, month):
    # The date information on dataset it's only month name in Portuguese 
    # and the year with 4 digits
    # we need to convert this information to a datetime field

    month_name = {'Janeiro': 'January', 'Fevereiro': 'February', 
                  'Marco': 'March', 'Março': 'March', 'Abril': 'April', 
                  'Maio': 'May', 'Junho': 'June', 'Julho': 'July', 
                  'Agosto': 'August', 'Setembro': 'September', 
                  'Outubro':'October', 'Novembro':'November', 
                  'Dezembro': 'December'}

    datetime_object = datetime.datetime.strptime(month_name[month], "%B")
    month_number = format(datetime_object.month,'02')
    date_str = year + '-' + month_number + '-01 23:59:59'
    date_time_obj = datetime.datetime.strptime(date_str, '%Y-%m-%d %H:%M:%S')
    return date_time_obj.replace(day = monthrange(date_time_obj.year, 
                                                  date_time_obj.month)[1])

data_path = './data'


ufs = {'Amapa': 'Amapá', 'Ceara' : 'Ceará', 'Espirito Santo' : 'Espírito Santo',
       'Goias' : 'Goiás', 'Maranhao' : 'Maranhão', 'Para' : 'Pará', 
       'Paraiba' : 'Paraíba', 'Parana' : 'Paraná', 'Rondonia' : 'Rondônia', 
       'Sao Paulo': 'São Paulo' }

df = pd.concat([pd.read_csv(f) for f in glob.glob(data_path + "/chegadas*.csv")],
                      ignore_index=True)


df['Ano'] = df['Ano'].astype(str)
df['Mes'] = df['Mes'].astype(str)


df['date_value'] = df.apply(lambda x: parse_date_value(x['Ano'], x['Mes']), 
                            axis=1)


# Update the UF names after the load
for uf in ufs:
  df.loc[df['Estado'] == uf, 'Estado'] = ufs[uf]


# Load UF Codes
df_uf_codes = pd.read_csv(data_path + "/uf_sigla.csv", encoding="utf-8")

# Load UF Coordinates
df_uf_points = pd.read_csv(data_path + "/coordenadas_ufs.csv", encoding="utf-8")


# UF GeoJSON data
df_uf_polygons = pd.read_json('./data/uf_polygons.json', encoding = "utf-8")

database = "international-tourists"

mongo_uri = "mongodb+srv://bigdata:k9Wqj6n9qn9Kklkv@cluster0.h7q5i.mongodb.net/test?retryWrites=true&w=majority"
client = MongoClient(mongo_uri)

if ('arrivals' in db.list_collection_names()):
  collection = db['arrivals']
  collection.drop()

if ('uf_polygons' in db.list_collection_names()):
  collection = db['uf_polygons']
  collection.drop()

if ('uf_points' in db.list_collection_names()):
  collection = db['uf_points']
  collection.drop()

if ('uf_codes' in db.list_collection_names()):
  collection = db['uf_codes']
  collection.drop()

db = client[database]
collection = db['arrivals']

df.reset_index(inplace=True)
data_dict = df.to_dict("records")
# Insert collection
collection.insert_many(data_dict)

# Insert UF_polygons collection
df_uf_polygons.reset_index(inplace=True)
data_dict = df_uf_polygons.to_dict("records")

collection = db['uf_polygons']
collection.insert_many(data_dict)

# Insert UF_points collection
df_uf_points.reset_index(inplace=True)
data_dict = df_uf_points.to_dict("records")

collection = db['uf_points']
collection.insert_many(data_dict)

# Insert UF_codes collection
df_uf_codes.reset_index(inplace=True)
data_dict = df_uf_codes.to_dict("records")

collection = db['uf_codes']
collection.insert_many(data_dict)

<pymongo.results.InsertManyResult at 0x7fa7557a0a48>

# Exploração dos Dados


In [None]:
# collection = db['arrivals']

# {
#   from: 'uf_codes',
#   localField: 'Estado',
#   foreignField: 'Estado',
#   as: 'uf_codes'
# }


cursor = db.arrivals.aggregate([{
        "$lookup": {
          "from": "uf_codes",
          "localField": "Estado",
          "foreignField": "Estado",
          "as": "uf_codes"
        }
      }])



# Visualização dos Dados

In [41]:
import plotly.graph_objects as go
import pandas as pd

# load dataset
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/volcano.csv")

# create figure
fig = go.Figure()

# Add surface trace
fig.add_trace(go.Surface(z=df.values.tolist(), colorscale="Viridis"))

# Update plot sizing
fig.update_layout(
    width=800,
    height=900,
    autosize=False,
    margin=dict(t=0, b=0, l=0, r=0),
    template="plotly_white",
)

# Update 3D scene options
fig.update_scenes(
    aspectratio=dict(x=1, y=1, z=0.7),
    aspectmode="manual"
)

# Add dropdown
fig.update_layout(
    updatemenus=[
        dict(
            buttons=list([
                dict(
                    args=["type", "surface"],
                    label="3D Surface",
                    method="restyle"
                ),
                dict(
                    args=["type", "heatmap"],
                    label="Heatmap",
                    method="restyle"
                )
            ]),
            direction="down",
            pad={"r": 10, "t": 10},
            showactive=True,
            x=0.1,
            xanchor="left",
            y=1.1,
            yanchor="top"
        ),
    ]
)

# Add annotation
fig.update_layout(
    annotations=[
        dict(text="Trace type:", showarrow=False,
        x=0, y=1.085, yref="paper", align="left")
    ]
)

fig.show()
