# Desafio Técnico - Cientista de Dados Júnior

### Código Fonte para extração dos dados do GCP

##### Autor: Thiago Vilarinho Lemes 
##### Data: 15/02/2024

<font color="#ff6666">OBS.: Neste notebook foram extraídos os dados a partir da data 01/01/2022 a 31/12/2023 da tabela `datario.administracao_servicos_publicos.chamado_1746`, dados estes utilizados para resolver as questões do desafio. Caso utilizasse todo os registros poderia haver um bloqueio na GCP, devido ao grande volume de dados e grandes consultas realizadas na mesma. </font>

In [1]:
from google.cloud import bigquery
import os
import pandas as pd

# Arquivo com a configurações para acessar o GCP
os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = '../key_only_read.json'

# Nome do projeto no GCP
project_id = 'projeto-desafio-dados-rio'

client = bigquery.Client(project=project_id)

In [2]:
# Extração dos dados da tabela datario.administracao_servicos_publicos.chamado_1746
query                       = '''SELECT 
                                    id_chamado, 
                                    data_inicio, 
                                    data_fim, 
                                    id_bairro, 
                                    categoria, 
                                    id_tipo, 
                                    tipo, 
                                    id_subtipo,    
                                    subtipo,
                                    status,
                                    data_alvo_finalizacao,
                                    situacao, 
                                    tipo_situacao,
                                    reclamacoes,
                                    data_particao
                                FROM `datario.administracao_servicos_publicos.chamado_1746`
                                WHERE DATE(data_inicio) >= '2022-01-01' 
                                    AND data_inicio IS NOT NULL 
                                    AND DATE(data_inicio) IS NOT NULL;'''

# Realizando a consulta no Banco de Dados
df_chamados_1746_2022_2024   = client.query(query).to_dataframe()

# Criando Dataframe com os dados consultados
df_chamados_1746_2022_2024   = pd.DataFrame(df_chamados_1746_2022_2024)

In [3]:
# Extração dos dados da tabela datario.dados_mestres.bairro
query          = "SELECT * FROM datario.dados_mestres.bairro;"

# Realizando a consulta no Banco de Dados
df_bairro   = client.query(query).to_dataframe()

# Criando Dataframe com os dados consultados
df_bairro   = pd.DataFrame(df_bairro)

In [None]:
# Extração dos dados da tabela datario.turismo_fluxo_visitantes.rede_hoteleira_ocupacao_eventos
query           = "SELECT * FROM datario.turismo_fluxo_visitantes.rede_hoteleira_ocupacao_eventos;"

# Realizando a consulta no Banco de Dados

df_eventos      = client.query(query).to_dataframe()

# Criando Dataframe com os dados consultados
df_eventos      = pd.DataFrame(df_eventos)

In [5]:
# Criando os arquivos Parquet e CSV com os dados referentes aos anos de 2022 a 2024
df_chamados_1746_2022_2024.to_parquet('./chamado_1746_2022_2024')
df_chamados_1746_2022_2024.to_csv('./chamado_1746_2022_2024.csv')

In [6]:
# Filtrando os dados a partir de 
df_chamados_1746_2022_2023 = df_chamados_1746_2022_2024[df_chamados_1746_2022_2024['data_inicio'] < '2024-01-01']

# Criando os arquivos Parquet e CSV com os dados referentes aos anos de 2022 a 2023 
df_chamados_1746_2022_2023.to_parquet('./chamado_1746_2022_2023')
df_chamados_1746_2022_2023.to_csv('./chamado_1746_2022_2023.csv')

In [None]:
# Criação os arquivos Parquet e CSV com os dados da tabela datario.dados_mestres.bairro
df_bairro.to_parquet('./dados_mestres.bairro')
df_bairro.to_csv('./dados_mestres.bairro.csv')

In [18]:
# Criação os arquivos Parquet e CSV com os dados da tabela datario.turismo_fluxo_visitantes.rede_hoteleira_ocupacao_eventos
df_eventos.to_parquet('./rede_hoteleira_ocupacao_eventos')
df_eventos.to_csv('./rede_hoteleira_ocupacao_eventos.csv')