# Michel Souza Santana
## Projeto Desafio Aceleras
## Trilha 1
> Start: 15/05/2023

## Fase 1 - Transformação do ER proposto em um BI, realizando o ETL usando uma ferrmenta local (Talend, Apache Hop, Nifi, Airflow, SSIS, Pentaho,…)

* Entenda o modelo ER: Familiarize-se com o modelo ER existente, incluindo as tabelas, relacionamentos e atributos. Isso ajudará você a mapear corretamente os dados durante a transformação.

* Identifique os requisitos de BI: Compreenda as necessidades e requisitos do seu projeto de BI. Identifique as informações que você precisa extrair e apresentar no ambiente de BI.

* Escolha uma ferramenta ETL: Pesquise e selecione uma ferramenta ETL adequada para sua transformação de dados. Existem várias opções disponíveis, como Pentaho Data Integration, Talend, Microsoft SQL Server Integration Services (SSIS), entre outras.

* Instale a ferramenta ETL: Faça o download e instale a ferramenta ETL selecionada no seu ambiente local.

* Conecte-se ao banco de dados: Configure a conexão da ferramenta ETL com o banco de dados que contém os dados do modelo ER. Forneça as credenciais de acesso necessárias para estabelecer a conexão.

* Extração de dados: Utilizando a ferramenta ETL, extraia os dados do banco de dados conforme necessário para o seu projeto de BI. Isso pode envolver a seleção de tabelas específicas, filtragem de dados ou até mesmo a união de várias tabelas para obter as informações desejadas.

* Limpeza e transformação de dados: Aplique as transformações necessárias nos dados extraídos para adequá-los às necessidades do ambiente de BI. Isso pode incluir a remoção de dados duplicados, preenchimento de valores ausentes, conversão de formatos de data, entre outros processos de limpeza e transformação.

* Mapeamento para o modelo dimensional: Se você estiver construindo um data warehouse ou uma solução de BI baseada em modelo dimensional, mapeie os dados extraídos para as dimensões e fatos do seu modelo dimensional. Isso envolve a definição de hierarquias, chaves e relacionamentos.

* Desenvolva fluxos de trabalho ETL: Utilizando a ferramenta ETL, crie fluxos de trabalho que automatizem a transformação de dados. Isso pode envolver a criação de transformações, tarefas agendadas e outras operações para garantir a integridade e atualização dos dados.

* Carregamento dos dados: Carregue os dados transformados no ambiente de BI, que pode incluir um data warehouse, um banco de dados ou outra solução de armazenamento de dados.

* Desenvolva visualizações e relatórios: Com os dados carregados no ambiente de BI, desenvolva visualizações e relatórios interativos para fornecer insights acionáveis aos usuários finais. Isso pode ser feito usando ferramentas de visualização de dados como Tableau, Power BI, QlikView, entre outras.

* Teste e valide: Realize testes para garantir a precisão e a integridade dos dados transformados. Verifique se as visualiza

## Diagrama Entidade Relacionamento

Entidades:
- Cliente (Customer)
- Pedido (Order)
- Item do Pedido (Order Item)
- Produto (Product)
- Vendedor (Seller)
- Categoria de Produto (Product Category)
- Avaliação (Review)
- Localização Geográfica (Geolocation)

Relacionamentos:
- O Cliente (Customer) pode fazer vários Pedidos (Order)
- Um Pedido (Order) pertence a um único Cliente (Customer)
- Um Pedido (Order) possui vários Itens do Pedido (Order Item)
- Cada Item do Pedido (Order Item) está associado a um único Produto (Product)
- Um Produto (Product) pertence a uma Categoria de Produto (Product Category)
- Um Produto (Product) é vendido por um Vendedor (Seller)
- Um Pedido (Order) pode ter várias Avaliações (Review)
- Cada Avaliação (Review) está associada a um único Pedido (Order)
- Cada Vendedor (Seller) está associado a uma Localização Geográfica (Geolocation)


![Alt text](../Tabela-relacionamneto-olist.png)

* PAYMENT:
    * pk_payment_order_id (chave primária)
    * fk_order_id (chave estrangeira referenciando ORDERS)
    * payment_sequential
    * payment_type
    * payment_installments
    * payment_value

****

* PRODUCT:
    * pk_product_id (chave primária)
    * product_category
    * product_name
    
****

* REVIEW:
    * pk_review_id (chave primária)
    * fk_order_id (chave estrangeira referenciando ORDERS)
    * review_score
    * review_comment_title
    * review_comment_message
    * review_creation_date
    * review_answer_timestamp
    
****

* ORDERS:
    * pk_order_id (chave primária)
    * fk_payment_order_id (chave estrangeira referenciando PAYMENT)
    * fk_customer_id (chave estrangeira referenciando CUSTOMER)
    * order_status
    * order_purchase_timestamp
    * order_approved_at
    * order_delivered_carrier_date
    * order_delivered_customer_date
    * order_estimated_delivery_date
    
****

* ORDER_ITEM:
    * pk_order_item_id (chave primária)
    * fk_order_id (chave estrangeira referenciando ORDERS)
    * fk_product_id (chave estrangeira referenciando PRODUCT)
    * fk_seller_id (chave estrangeira referenciando SELLERS)
    * shipping_limit_date
    * price
    * freight_value
    
****

* SELLERS:
    * pk_seller_id (chave primária)
    * fk_geolocation_zip_code_prefix (chave estrangeira referenciando GEOLOCATION)
    * seller_city
    * seller_state
    
****

* CUSTOMER:
    * pk_customer_id (chave primária)
    * fk_zip_code_prefix (chave estrangeira referenciando GEOLOCATION)
    * customer_unique_id
    * customer_city
    * customer_state
    
****

* GEOLOCATION:
    * pk_geolocation_zip_code_prefix (chave primária)
    * geolocation_lat
    * geolocation_lng
    * geolocation_city
    * geolocation_state

## Carregando as bibliotecas

In [69]:
import pandas as pd
import numpy as np
import pyarrow
import os
import csv

## Instalando o pyrrow para conversão dos arquivos csv em parquet

In [70]:
#!pip install pyarrow


## Criando os diretórios estruturais do projeto

In [147]:
f = pd.read_csv('/opt/projetos/keggle-desafio-aceleras/controller_folders.csv')
lista_folders = f['Folders'].to_list()

In [149]:
for i in lista_folders:
    diretorio = "/opt/projetos/keggle-desafio-aceleras" 

    if not os.path.exists(diretorio + '/' + i):
        os.makedirs(diretorio + '/' + i)
        print(f"Diretório {i} criado com sucesso!")
    else:
        print(f"O diretório {i} já existe.")


O diretório engineer já existe.
O diretório raw já existe.
O diretório refined já existe.
O diretório transient já existe.
O diretório trusted já existe.


## Criando o arquivo 'controller.csv' na pasta enginner

In [76]:
# Caminho do arquivo CSV
caminho_arquivo = '/opt/projetos/keggle-desafio-aceleras/engineer/controller.csv'
dados = ''

# Verificar se já existe o arquivo, se não, abrir o arquivo CSV em modo de escrita e criá-lo
if not os.path.exists(caminho_arquivo):
    with open(caminho_arquivo, 'w', newline='') as arquivo_csv:
        writer = csv.writer(arquivo_csv)
        writer.writerows(dados)

    print("Arquivo CSV criado com sucesso.")
else:
    print("Arquivo CSV já existe.")

Arquivo CSV já existe.


# Identificar as fontes de dados: 

https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce

A URL em questão se refere a um conjunto de dados disponibilizado no site Kaggle, que contém informações sobre o comércio eletrônico no Brasil. O conjunto de dados é intitulado "Brazilian E-Commerce Public Dataset by Olist" e foi criado pela empresa Olist, que é uma plataforma de vendas on-line que conecta pequenos e médios varejistas a marketplaces.

O conjunto de dados contém informações de mais de 100 mil pedidos de clientes, com dados que incluem informações do produto, preços, prazos de entrega, avaliações de clientes e informações sobre o vendedor. Além disso, o conjunto de dados contém informações sobre geolocalização dos clientes, categoria de produtos e informações sobre a própria loja virtual.

Este conjunto de dados pode ser extremamente útil para análises sobre comércio eletrônico no Brasil, permitindo a análise de tendências de consumo, comportamento dos clientes, performance de vendas e muito mais. A disponibilização de dados desse tipo é importante para o desenvolvimento de modelos de negócios mais eficientes e para a tomada de decisões mais informadas no setor de e-commerce brasileiro.

## Copia os dados das fontes do kaggle

### Instalando o Kaggle

In [77]:
#!pip install kaggle --upgrade

### Baixando os arquivos csv

In [78]:
if not os.path.exists('/opt/projetos/keggle-desafio-aceleras/transient/brazilian-ecommerce.zip'):
    !cd /opt/projetos/keggle-desafio-aceleras/transient/ && kaggle datasets download -d olistbr/brazilian-ecommerce
    !cd /opt/projetos/keggle-desafio-aceleras/transient/ && unzip brazilian-ecommerce.zip
    print('Arquivo carregado e descompactado.')
else:
    print('Arquivo já existe.')

Arquivo já existe.


## Criando as variáveis necessárias para manipulação dos arquivos csv's

In [79]:
# Path's das pastas
path_transient = '/opt/projetos/keggle-desafio-aceleras/transient'
path_raw = '/opt/projetos/keggle-desafio-aceleras/raw'

# Path's dos arquivos
path_customers = path_transient + '/olist_customers_dataset.csv'
path_geolocation = path_transient + '/olist_geolocation_dataset.csv'
path_order_items = path_transient + '/olist_order_items_dataset.csv'
path_order_payments = path_transient + '/olist_order_payments_dataset.csv'
path_order_reviews = path_transient + '/olist_order_reviews_dataset.csv'
path_orders = path_transient + '/olist_orders_dataset.csv'
path_products = path_transient + '/olist_products_dataset.csv'
path_sellers = path_transient + '/olist_sellers_dataset.csv'


In [80]:
df_customers = pd.read_csv(path_customers)
df_customers = df_customers.astype('str')
df_customers.to_parquet(path_raw + "/customers.parquet")

# Verificar os tipos de dados convertidos
print(df_customers.dtypes)


customer_id                 object
customer_unique_id          object
customer_zip_code_prefix    object
customer_city               object
customer_state              object
dtype: object


In [81]:
df_geolocation = pd.read_csv(path_geolocation)
df_geolocation = df_geolocation.astype('str')
df_geolocation.to_parquet(path_raw + "/geolocation.parquet")

# Verificar os tipos de dados convertidos
print(df_geolocation.dtypes)


geolocation_zip_code_prefix    object
geolocation_lat                object
geolocation_lng                object
geolocation_city               object
geolocation_state              object
dtype: object


In [82]:
df_order_items = pd.read_csv(path_order_items)
df_order_items = df_order_items.astype('str')
df_order_items.to_parquet(path_raw + "/order_items.parquet")

# Verificar os tipos de dados convertidos
print(df_order_items.dtypes)


order_id               object
order_item_id          object
product_id             object
seller_id              object
shipping_limit_date    object
price                  object
freight_value          object
dtype: object


In [83]:
df_order_payments = pd.read_csv(path_order_payments)
df_order_payments = df_order_payments.astype('str')
df_order_payments.to_parquet(path_raw + "/order_payments.parquet")

# Verificar os tipos de dados convertidos
print(df_order_payments.dtypes)


order_id                object
payment_sequential      object
payment_type            object
payment_installments    object
payment_value           object
dtype: object


In [84]:
df_order_reviews = pd.read_csv(path_order_reviews)
df_order_reviews = df_order_reviews.astype('str')
df_order_reviews.to_parquet(path_raw + "/order_reviews.parquet")

# Verificar os tipos de dados convertidos
print(df_order_reviews.dtypes)


review_id                  object
order_id                   object
review_score               object
review_comment_title       object
review_comment_message     object
review_creation_date       object
review_answer_timestamp    object
dtype: object


In [85]:
df_orders = pd.read_csv(path_orders)
df_orders = df_orders.astype('str')
df_orders.to_parquet(path_raw + "/orders.parquet")

# Verificar os tipos de dados convertidos
print(df_orders.dtypes)


order_id                         object
customer_id                      object
order_status                     object
order_purchase_timestamp         object
order_approved_at                object
order_delivered_carrier_date     object
order_delivered_customer_date    object
order_estimated_delivery_date    object
dtype: object


In [86]:
df_products = pd.read_csv(path_products)
df_products = df_products.astype('str')
df_products.to_parquet(path_raw + "/products.parquet")

# Verificar os tipos de dados convertidos
print(df_products.dtypes)


product_id                    object
product_category_name         object
product_name_lenght           object
product_description_lenght    object
product_photos_qty            object
product_weight_g              object
product_length_cm             object
product_height_cm             object
product_width_cm              object
dtype: object


In [87]:
df_sellers = pd.read_csv(path_sellers)
df_sellers = df_sellers.astype('str')
df_sellers.to_parquet(path_raw + "/sellers.parquet")

# Verificar os tipos de dados convertidos
print(df_sellers.dtypes)


seller_id                 object
seller_zip_code_prefix    object
seller_city               object
seller_state              object
dtype: object


## Criando uma tabela via conexão com Mysql existente

### instalando mysql connector

In [88]:
#!pip install mysql-connector-python

### Modelagem

![Alt text](Captura%20de%20tela%20de%202023-05-15%2021-17-16.png)

In [89]:
lista = list(df_customers.columns)
lista

['customer_id',
 'customer_unique_id',
 'customer_zip_code_prefix',
 'customer_city',
 'customer_state']

In [90]:
lista = list(df_geolocation.columns)
lista

['geolocation_zip_code_prefix',
 'geolocation_lat',
 'geolocation_lng',
 'geolocation_city',
 'geolocation_state']

In [91]:
lista = list(df_orders.columns)
lista

['order_id',
 'customer_id',
 'order_status',
 'order_purchase_timestamp',
 'order_approved_at',
 'order_delivered_carrier_date',
 'order_delivered_customer_date',
 'order_estimated_delivery_date']

In [92]:
lista = list(df_order_items.columns)
lista

['order_id',
 'order_item_id',
 'product_id',
 'seller_id',
 'shipping_limit_date',
 'price',
 'freight_value']

In [93]:
df_order_items.head()

Unnamed: 0,order_id,order_item_id,product_id,seller_id,shipping_limit_date,price,freight_value
0,00010242fe8c5a6d1ba2dd792cb16214,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-09-19 09:45:35,58.9,13.29
1,00018f77f2f0320c557190d7a144bdd3,1,e5f2d52b802189ee658865ca93d83a8f,dd7ddc04e1b6c2c614352b383efe2d36,2017-05-03 11:05:13,239.9,19.93
2,000229ec398224ef6ca0657da4fc703e,1,c777355d18b72b67abbeef9df44fd0fd,5b51032eddd242adc84c38acab88f23d,2018-01-18 14:48:30,199.0,17.87
3,00024acbcdf0a6daa1e931b038114c75,1,7634da152a4610f1595efa32f14722fc,9d7a1d34a5052409006425275ba1c2b4,2018-08-15 10:10:18,12.99,12.79
4,00042b26cf59d7ce69dfabb4e55b4fd9,1,ac6c3623068f30de03045865e4e10089,df560393f3a51e74553ab94004ba5c87,2017-02-13 13:57:51,199.9,18.14


In [94]:
lista = list(df_order_payments.columns)
lista

['order_id',
 'payment_sequential',
 'payment_type',
 'payment_installments',
 'payment_value']

In [95]:
lista = list(df_order_reviews.columns)
lista

['review_id',
 'order_id',
 'review_score',
 'review_comment_title',
 'review_comment_message',
 'review_creation_date',
 'review_answer_timestamp']

In [96]:
lista = list(df_products.columns)
lista

['product_id',
 'product_category_name',
 'product_name_lenght',
 'product_description_lenght',
 'product_photos_qty',
 'product_weight_g',
 'product_length_cm',
 'product_height_cm',
 'product_width_cm']

In [97]:
lista = list(df_products.columns)
lista


['product_id',
 'product_category_name',
 'product_name_lenght',
 'product_description_lenght',
 'product_photos_qty',
 'product_weight_g',
 'product_length_cm',
 'product_height_cm',
 'product_width_cm']

In [98]:
lista = list(df_sellers.columns)
lista

['seller_id', 'seller_zip_code_prefix', 'seller_city', 'seller_state']

In [107]:
import mysql.connector

# Conectando ao banco de dados MySQL
cnx = mysql.connector.connect(
    host='localhost',
    user='root',
    password='*Mss140920@',
    database='olist_db'
)

# Cursor para executar as consultas SQL
cursor = cnx.cursor()

# Lista de queries SQL para criação das tabelas
create_table_queries = [
    """
    -- Criação da tabela GEOLOCATION
    CREATE TABLE IF NOT EXISTS GEOLOCATION (
      pk_geolocation_zip_code_prefix INT PRIMARY KEY,
      geolocation_lat DECIMAL(10, 6),
      geolocation_lng DECIMAL(10, 6),
      geolocation_city VARCHAR(50),
      geolocation_state VARCHAR(50)
    )
    """,
    """
    -- Criação da tabela CUSTOMER
    CREATE TABLE IF NOT EXISTS CUSTOMER (
      pk_customer_id INT PRIMARY KEY,
      fk_zip_code_prefix INT,
      customer_unique_id VARCHAR(50),
      customer_city VARCHAR(50),
      customer_state VARCHAR(50),
      FOREIGN KEY (fk_zip_code_prefix) REFERENCES GEOLOCATION(pk_geolocation_zip_code_prefix)
    )
    """,
    """
    -- Criação da tabela SELLERS
    CREATE TABLE IF NOT EXISTS SELLERS (
      pk_seller_id INT PRIMARY KEY,
      fk_geolocation_zip_code_prefix INT,
      seller_city VARCHAR(50),
      seller_state VARCHAR(50),
      FOREIGN KEY (fk_geolocation_zip_code_prefix) REFERENCES GEOLOCATION(pk_geolocation_zip_code_prefix)
    )
    """,
    """
    -- Criação da tabela PRODUCT
    CREATE TABLE IF NOT EXISTS PRODUCT (
      pk_product_id INT PRIMARY KEY,
      product_category VARCHAR(50),
      product_name VARCHAR(50)
    )
    """,
    """
    -- Criação da tabela ORDERS
    CREATE TABLE IF NOT EXISTS ORDERS (
      pk_order_id INT PRIMARY KEY,
      fk_payment_order_id INT,
      fk_customer_id INT,
      order_status VARCHAR(50),
      order_purchase_timestamp DATE,
      order_approved_at DATE,
      order_delivered_carrier_date DATE,
      order_delivered_customer_date DATE,
      order_estimated_delivery_date DATE
    )
    """,
    """
    -- Criação da tabela REVIEW
    CREATE TABLE IF NOT EXISTS REVIEW (
      pk_review_id INT PRIMARY KEY,
      fk_order_id INT,
      review_score INT,
      review_comment_title VARCHAR(50),
      review_comment_message VARCHAR(200),
      review_creation_date DATE,
      review_answer_timestamp DATE,
      FOREIGN KEY (fk_order_id) REFERENCES ORDERS(pk_order_id)
    )
    """,
    """
    -- Criação da tabela PAYMENT
    CREATE TABLE IF NOT EXISTS PAYMENT (
      pk_payment_order_id INT PRIMARY KEY,
      fk_order_id INT,
      payment_sequential INT,
      payment_type VARCHAR(50),
      payment_installments INT,
      payment_value DECIMAL(10, 2)
    )
    """,
    """
    -- Adição da chave estrangeira para a tabela PAYMENT referenciando a tabela ORDERS
    ALTER TABLE PAYMENT
    ADD FOREIGN KEY (fk_order_id) REFERENCES ORDERS(pk_order_id)
    """
]

# Executar as consultas SQL para criar as tabelas
for query in create_table_queries:
    cursor.execute(query)

# Confirmar as alterações no banco de dados
cnx.commit()

# Fechar a conexão com o banco de dados
cursor.close()
cnx.close()



In [109]:
import mysql.connector

# Conectando ao banco de dados MySQL
cnx = mysql.connector.connect(
    host='localhost',
    user='root',
    password='*Mss140920@',
    database='olist_db'
)

# Cursor para executar as consultas SQL
cursor = cnx.cursor()

# Adicionar tabela ORDER_ITEM
cursor.execute('''
    CREATE TABLE IF NOT EXISTS ORDER_ITEM (
        pk_order_item_id INT AUTO_INCREMENT PRIMARY KEY,
        fk_order_id INT,
        fk_product_id INT,
        fk_seller_id INT,
        shipping_limit_date DATETIME,
        price DECIMAL(10, 2),
        freight_value DECIMAL(10, 2),
        FOREIGN KEY (fk_order_id) REFERENCES ORDERS(pk_order_id),
        FOREIGN KEY (fk_product_id) REFERENCES PRODUCT(pk_product_id),
        FOREIGN KEY (fk_seller_id) REFERENCES SELLERS(pk_seller_id)
    )
''')

# Adicionando relações de chave estrangeira nas tabelas existentes
alter_table_queries = [
    """
    -- Adicionando relação de chave estrangeira na tabela PAYMENT
    ALTER TABLE PAYMENT
    ADD FOREIGN KEY (fk_order_id) REFERENCES ORDERS(pk_order_id)
    """,
    """
    -- Adicionando relação de chave estrangeira na tabela REVIEW
    ALTER TABLE REVIEW
    ADD FOREIGN KEY (fk_order_id) REFERENCES ORDERS(pk_order_id)
    """,
    """
    -- Adicionando relação de chave estrangeira na tabela ORDER_ITEM
    ALTER TABLE ORDER_ITEM
    ADD FOREIGN KEY (fk_order_id) REFERENCES ORDERS(pk_order_id),
    ADD FOREIGN KEY (fk_product_id) REFERENCES PRODUCT(pk_product_id),
    ADD FOREIGN KEY (fk_seller_id) REFERENCES SELLERS(pk_seller_id)
    """
]

# Executar as consultas SQL para adicionar as relações de chave estrangeira
for query in alter_table_queries:
    cursor.execute(query)

# Confirmar as alterações no banco de dados
cnx.commit()

# Fechar a conexão com o banco de dados
cursor.close()
cnx.close()

In [None]:
"""import pandas as pd
import mysql.connector

# Conectando ao banco de dados MySQL
cnx = mysql.connector.connect(
    host='localhost',
    user='seu_usuario',
    password='sua_senha',
    database='seu_banco_de_dados'
)

# Ler os dados do arquivo CSV usando o pandas
dados_csv = pd.read_csv('caminho_do_arquivo.csv')

# Nome da tabela no banco de dados
nome_tabela = 'nome_da_tabela'

# Colunas da tabela no banco de dados (devem corresponder às colunas do CSV)
colunas_tabela = ['coluna1', 'coluna2', 'coluna3']

# Cursor para executar as consultas SQL
cursor = cnx.cursor()

# Inserir os dados na tabela
for _, linha in dados_csv.iterrows():
    valores = [linha[coluna] for coluna in colunas_tabela]
    query = f"INSERT INTO {nome_tabela} ({', '.join(colunas_tabela)}) VALUES ({', '.join(['%s']*len(colunas_tabela))})"
    cursor.execute(query, valores)

# Confirmar as alterações no banco de dados
cnx.commit()

# Fechar a conexão com o banco de dados
cursor.close()
cnx.close()"""


## Fase 2 - Enviar esse BI para a Nuvem (Azure / GCP), pensando em uma cloud e desenvolvendo um pipeline fim a fim, entregando o DW em uma camada final para visualização.

* Defina a estratégia de nuvem: Avalie as necessidades do seu projeto e decida qual plataforma em nuvem (Azure ou GCP) atende melhor aos seus requisitos. Considere fatores como escalabilidade, disponibilidade de serviços e integração com suas ferramentas e tecnologias existentes.

* Provisione recursos na nuvem: Crie uma conta na plataforma escolhida (Azure ou GCP) e provisione os recursos necessários. Isso pode incluir máquinas virtuais, armazenamento, bancos de dados, serviços de data warehouse, entre outros.

* Migre o data warehouse para a nuvem: Realize a migração dos dados do seu data warehouse local para o ambiente em nuvem. Isso pode ser feito através de exportação/importação de dados ou replicação contínua, dependendo da sua estratégia e tamanho do conjunto de dados.

* Configure o ambiente de data warehouse na nuvem: Configure o ambiente de data warehouse na plataforma em nuvem, criando esquemas, tabelas e índices conforme necessário. Garanta que a estrutura do data warehouse na nuvem esteja alinhada com o modelo dimensional que você definiu.

* Desenvolva o pipeline de dados: Utilize as ferramentas disponíveis na plataforma em nuvem para criar um pipeline de dados automatizado. Isso pode incluir serviços como Azure Data Factory (Azure) ou Cloud Dataflow (GCP). Defina as etapas de extração, transformação e carga (ETL) dos dados do seu data warehouse local para o data warehouse na nuvem.

* Agende o pipeline de dados: Configure agendamentos regulares para o pipeline de dados, garantindo que as atualizações do data warehouse local sejam refletidas no ambiente em nuvem. Considere a frequência necessária para manter os dados atualizados e sincronizados.

* Implemente segurança e conformidade: Aplique as práticas recomendadas de segurança e conformidade na nuvem, como controle de acesso, criptografia e monitoramento de auditoria. Certifique-se de que os dados e o ambiente de BI estejam protegidos contra ameaças e em conformidade com as regulamentações aplicáveis.

* Escolha uma ferramenta de visualização de dados: Selecione uma ferramenta de visualização de dados adequada à plataforma em nuvem escolhida, como Power BI (Azure) ou Data Studio (GCP). Essas ferramentas permitem criar painéis interativos, relatórios e gráficos com base nos dados armazenados no data warehouse na nuvem.

* Desenvolva visualizações e relatórios: Utilize a ferramenta de visualização de dados escolhida para criar visualizações e relatórios interativos. Explore recursos como filtros, drill-downs e painéis personalizados para fornecer insights acionáveis aos usuários finais.

* Publique o BI na nuvem: Faça o deploy do seu ambiente de BI na nuvem para que os usuários possam acessá-lo. Isso pode ser feito através de compartilhamento de links, integração com portais corporativos

## Fase 3 - Apontar alternativas viáveis de evolução da solução proposta e apresentar um desenho da arquitetura da proposta final

* Avalie os requisitos atuais e futuros: Entenda os requisitos atuais da solução proposta e identifique possíveis necessidades futuras. Considere o crescimento esperado do volume de dados, a demanda por recursos computacionais e quaisquer outros requisitos específicos.

* Pesquise as tecnologias disponíveis: Realize uma pesquisa das tecnologias e soluções disponíveis no mercado que possam atender às necessidades identificadas. Verifique as tendências de mercado e as melhores práticas para obter insights sobre as opções mais recentes.

* Identifique as alternativas viáveis: Com base na pesquisa realizada, identifique as alternativas viáveis de evolução da solução proposta. Isso pode incluir a adoção de novas ferramentas de ETL, o uso de serviços de data lake, a implementação de data streaming, a integração de ferramentas de inteligência artificial ou aprendizado de máquina, entre outras opções.

* Analise os prós e contras de cada alternativa: Avalie os prós e contras de cada alternativa identificada. Considere aspectos como escalabilidade, desempenho, custo, complexidade de implementação, recursos disponíveis na plataforma em nuvem escolhida, compatibilidade com a solução atual e habilidades da equipe.

* Escolha a alternativa mais adequada: Com base na análise realizada, escolha a alternativa que seja mais adequada para atender aos requisitos atuais e futuros da solução proposta. Leve em consideração fatores como custo-benefício, viabilidade técnica e alinhamento estratégico com a organização.

* Desenhe a arquitetura proposta: Com a alternativa selecionada, elabore um desenho da arquitetura da proposta final. Isso envolve identificar os componentes principais, as integrações entre eles e o fluxo de dados. Considere a separação de camadas (por exemplo, ingestão, processamento, armazenamento, visualização) e a escalabilidade horizontal ou vertical.

* Especifique os componentes da arquitetura: Para cada componente da arquitetura proposta, especifique as tecnologias e serviços específicos a serem utilizados. Por exemplo, se você optar por um data lake, especifique a ferramenta de armazenamento, como Azure Data Lake Storage ou Google Cloud Storage. Se escolher um serviço de ETL, identifique a ferramenta específica.

* Considere a segurança e a governança: Certifique-se de incluir aspectos de segurança e governança na arquitetura proposta. Isso pode envolver a definição de políticas de acesso aos dados, a implementação de criptografia, a garantia da conformidade com regulamentações de privacidade de dados e a criação de um framework de governança para a solução.

* Documente a arquitetura proposta: Documente todos os detalhes da arquitetura proposta, incluindo os componentes, integrações, fluxo de dados, tecnologias e serviços utilizados. Isso ajudará na comunicação com as partes interessadas e no entendimento da