<a href="https://colab.research.google.com/github/gustavoalcantara/dasa/blob/main/code.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**Case Dasa**
###**Gustavo Alcântara**
#####**11/7/2024**

#**Proposta**#
Que você defina uma arquitetura de referência com tecnologias de nuvem pública, preferencialmente AWS ou GCP.
Você deve considerar os seguintes requisitos:
- Persistir as camadas de ingestão, processamento, armazenamento, consumo, análise, segurança e governança;

- Substituição gradativa do cenário on-premises atual;

- Incorporação de componentes e tecnologias que permitam análise de dados em tempo real;

- Que a arquitetura considere componentes que a habilitem a empresa organizar e fornecer dados para diferentes fins, tais como: Analytics, Data Science, API’s e serviços para integrações com aplicações. Ressaltando que necessariamente precisaremos manter a comunicação on-premises x cloud para diversas finalidades.

- Que você prepare uma apresentação para discussão da arquitetura escolhida, detalhando a motivação da escolha dos componentes, especificando as vantagens, desvantagens e riscos do modelo definido.

- Apresentação através de videoconferência para nosso time de arquitetura. Você terá 30 minutos para apresentação.

- Que você traga exemplos práticos, onde tenha aplicado anteriormente a utilização dos componentes escolhidos para a arquitetura proposta.

**ETL das Tabelas**

In [None]:
#Importar as bibliotecas
import pandas as pd
import numpy as np

In [None]:
files = ['Base 2020.xlsx', 'Base 2021.xlsx', 'Base 2022.xlsx']

In [None]:
#Ler os arquivos localmente.
x = pd.read_excel('Base 2020.xlsx')
y = pd.read_excel('Base 2021.xlsx')
z = pd.read_excel('Base 2022.xlsx')

In [None]:
#Rename das variáveis
rename = {'CNPJ' : 'cnpj',
          'PROCEDIMENTO': 'procedimento',
          'DT_ATENDIMENTO' : 'data_atendimento',
          'TIPO_CONTA': 'tipo_conta',
          'VR_SINISTRO_PAGO': 'valor_sinistro_pago'}

In [None]:
#Criando uma lista para juntar tudo posteriormente
tabelas = []

In [None]:
#Fazendo um append para juntar todas as tabelas
for file in files:
    df = pd.read_excel(file)
    print(f"Leitura do arquivo {file}:\n", df.head())  # Verificação inicial se deu a leitura dos arquivos
    tabelas.append(df)

Leitura do arquivo Base 2020.xlsx:
                  CNPJ                                       PROCEDIMENTO  \
0  59.042.622/0001-25  CLORETO DE SÓDIO 0.9% - 9 MG/ML SOL INJ IV CX ...   
1  59.042.622/0001-25  AGULHA DE BIOPSIA CEREBRAL 2.11X24CM DESC.DBN-...   
2  59.042.622/0001-25  XYLESTESIN - 2 PCC SOL INJ CX 10 FA VD INC X 2...   
3  59.042.622/0001-25                         RX - Tórax - 2 incidências   
4  59.042.622/0001-25  TAXA DE SALA DE REPOUSO/OBSERVAÇÃO PA / OS. AT...   

  DT_ATENDIMENTO   TIPO_CONTA  VR_SINISTRO_PAGO  
0     2020-12-16  Ambulatório             11.97  
1     2020-05-31  Ambulatório             12.83  
2     2020-10-22  Ambulatório             20.29  
3     2020-06-19  Ambulatório             26.02  
4     2020-01-27  Ambulatório             48.84  
Leitura do arquivo Base 2021.xlsx:
                  CNPJ                                       PROCEDIMENTO  \
0  59.042.622/0001-25                         RX - Omoplata ou escápula    
1  60.884.855/0022-

In [None]:
#Concatenação e rename das variáveis
alfa = pd.concat(tabelas, ignore_index=True)
alfa.rename(columns=rename, inplace=True)
alfa

Unnamed: 0,cnpj,procedimento,data_atendimento,tipo_conta,valor_sinistro_pago
0,59.042.622/0001-25,CLORETO DE SÓDIO 0.9% - 9 MG/ML SOL INJ IV CX ...,2020-12-16,Ambulatório,11.97
1,59.042.622/0001-25,AGULHA DE BIOPSIA CEREBRAL 2.11X24CM DESC.DBN-...,2020-05-31,Ambulatório,12.83
2,59.042.622/0001-25,XYLESTESIN - 2 PCC SOL INJ CX 10 FA VD INC X 2...,2020-10-22,Ambulatório,20.29
3,59.042.622/0001-25,RX - Tórax - 2 incidências,2020-06-19,Ambulatório,26.02
4,59.042.622/0001-25,TAXA DE SALA DE REPOUSO/OBSERVAÇÃO PA / OS. AT...,2020-01-27,Ambulatório,48.84
...,...,...,...,...,...
2995,60.884.855/0033-31,PACOTE ARTRODESE DE COLUNA,2022-10-14,Internação,888.00
2996,29.435.005/0057-83,MASCARA FACIAL COMFORT FULL LARGE 1004951 - 1...,2022-09-07,Internação,272.00
2997,29.435.005/0057-83,CANETA PARA ELETRO-BISTURI - BMSD100,2022-09-08,Internação,259.70
2998,29.435.005/0057-83,IOMERON 612.4 MG/ML SOL INJ CT FA VD INC X 100...,2022-09-07,Internação,187.40


In [None]:
#Partição (Se necessário)
alfa['data_atendimento'] = pd.to_datetime(alfa['data_atendimento'])
anos = alfa['data_atendimento'].dt.year.unique()

for ano in anos:
    df_ano = alfa[alfa['data_atendimento'].dt.year == ano]
    df_ano.to_csv(f'tabela_{ano}.csv', index=False, header = True)
    print(f'Tabela para o ano {ano} salva como tabela_{ano}.csv')

print('Particionamento e salvamento concluídos.')

Tabela para o ano 2020 salva como tabela_2020.csv
Tabela para o ano 2021 salva como tabela_2021.csv
Tabela para o ano 2022 salva como tabela_2022.csv
Particionamento e salvamento concluídos.


####**Tentativa de subir os arquivos direto para o Bigquery**

Aqui esbarrei na dificuldade de subida via próprio Colab/Python porque minha chave .json não funcionou. Optei, portanto, em subir direto para do Storage e posteriormente para o Bigquery.

In [None]:
import os
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = '/content/estufa2-9f91b111b0aa.json'

In [None]:
from google.colab import files
files.upload()  # Use isso para fazer upload do arquivo JSON de credenciais

import os
from google.cloud import bigquery

# Substitua 'nome_do_arquivo.json' pelo nome do arquivo JSON que você carregou
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = 'estufa2-9f91b111b0aa.json'

# Inicializar o cliente do BigQuery
client = bigquery.Client()

Saving estufa2-9f91b111b0aa.json to estufa2-9f91b111b0aa (3).json


In [None]:
import google.auth
credentials, project = google.auth.default()

In [None]:
from google.colab import files
files.upload()  # Use isso para fazer upload do arquivo JSON

In [None]:
import os
from google.cloud import bigquery

# Substitua 'nome_do_arquivo.json' pelo nome do arquivo JSON que você carregou
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = 'estufa2-9f91b111b0aa.json'

# Inicializar o cliente do BigQuery
client = bigquery.Client()

In [None]:
client = bigquery.Client()

# Definir variáveis
project_id = 'estufa2'
dataset_id = 'etl'
table_id_1 = 'tabela_2020'
table_id_2 = 'tabela_2021'
table_id_3 = 'tabela_2022'

# Caminhos dos arquivos CSV
csv_file_1 = '/content/tabela_2020.csv'
csv_file_2 = '/content/tabela_2021.csv'
csv_file_3 = '/content/tabela_2022.csv'

In [None]:
def upload_csv_to_bigquery(csv_file, project_id, dataset_id, table_id):
    # Ler o arquivo CSV
    df = pd.read_csv(csv_file)

    # ID totalmente qualificado da tabela
    table_ref = f'{project_id}.{dataset_id}.{table_id}'

    # Carregar o dataframe para o BigQuery
    job = client.load_table_from_dataframe(df, table_ref)
    job.result()  # Aguarde até que a carga esteja completa
    print(f'Tabela {table_id} carregada com sucesso.')

# Carregar os arquivos CSV para o BigQuery
upload_csv_to_bigquery(csv_file_1, project_id, dataset_id, table_id_1)
upload_csv_to_bigquery(csv_file_2, project_id, dataset_id, table_id_2)
upload_csv_to_bigquery(csv_file_3, project_id, dataset_id, table_id_3)

Forbidden: 403 GET https://bigquery.googleapis.com/bigquery/v2/projects/estufa2/datasets/etl/tables/tabela_2020?prettyPrint=false: Access Denied: Table estufa2:etl.tabela_2020: Permission bigquery.tables.get denied on table estufa2:etl.tabela_2020 (or it may not exist).