# GCP

## Passo no GCP

### Criando um projeto no GCP:

![passo1](images/image-1.png)
![passo2](images/image-2.png)

### Conta de serviço e suas credencias

![passo3](images/image-3.png)
![passo4](images/image-4.png)
![passo5](images/image-5.png)
![passo6](images/image-6.png)
![passo7](images/image-7.png)
![passo8](images/image-8.png)
![passo9](images/image-9.png)
![passo10](images/image-10.png)
![passo11](images/image-11.png)

### BigQuery

![passo12](images/image-12.png)
![passo13](images/image-13.png)

#### Utilizar dbt_shop (com underline) ao invés de dbt-shop

![passo14](images/image-14.png)
![passo15](images/image-15.png)
![passo16](images/image-16.png)
![passo17](images/image-17.png)
![passo18](images/image-18.png)

---

---

# Especializando dados com o DBT

O DBT (Data Build Tool) é uma ferramenta de orquestração de dados open source criada para ajudar equipes de dados a transformar, gerenciar e monitorar fluxos de dados de maneira mais eficiente. Com o dbt, é possível realizar tarefas como extrair, transformar e carregar dados, além de criar e gerenciar modelos de dados e tabelas.

## 1. Instalando

Abra o terminal do seu computador e execute o seguinte comando:

In [None]:
!pip install dbt-core

Como vamos utilizar o BigQuery como banco de dados, temos que instalar o plugin dbt-bigquery

In [None]:
!pip install dbt-bigquery

Para certificar-se de ter o dbt Core instalado, verifique a versão usando o comando:

In [None]:
!dbt --version

---

## 2. Criando um projeto

Vamos aprender a usar uma série de comandos no Terminal para criar um projeto. 

O dbt Core possui um comando ``init`` que ajuda a estruturar um projeto dbt.

Para criar seu projeto dbt:

### 2.1. Crie uma pasta chamada `dbt` dentro do repositório e inicie um projeto dbt dentro dessa pasta

Abra o terminal, e utilize o comando `cd dbt` para entrar na pasta dbt, a seguir rode o comando:

```
dbt init shop
````

##### Explicação das peguntas da inicialização do dbt

Em seguida, o dbt fará algumas perguntas para ajudá-lo a configurar seu projeto. As perguntas que o dbt faz podem variar um pouco dependendo da versão do dbt e das opções que você escolheu.

Algumas das perguntas que o dbt pode fazer incluem:

- *__Which database do you want to use?__*
    
  O dbt pode trabalhar com vários tipos de banco de dados, incluindo PostgreSQL, Redshift, BigQuery e Snowflake (veja a lista completa em: https://docs.getdbt.com/docs/supported-data-platforms). 
  
  Como vamos usar o Big Query, podemos escolher [1]

Agora, o dbt fará algumas perguntas específicas para configurar nosso projeto com o BigQuery. 

- __*Desired authentication method option (enter a number)*__

    Essa pergunta é feita para permitir que você escolha como deseja autenticar sua conexão com o BigQuery.

    O dbt suporta vários métodos de autenticação com o BigQuery, como autenticação baseada em chave de API, autenticação com credenciais de serviço do Google Cloud Platform (GCP) ou autenticação com OAuth. Dependendo do método de autenticação escolhido, o dbt precisará de diferentes informações de autenticação para se conectar com o BigQuery.

    O dbt fornece uma lista numerada das opções de autenticação suportadas. Iremos optar por [2] service_account.

Após selecionar o método de autenticação, o dbt fará algumas perguntas adicionais para configurar a conexão com o BigQuery. 
- **keyfile**: Como escolhemos a opção de autenticação baseada em credenciais de serviço do GCP, aqui é onde devemos fornecer o caminho para o arquivo JSON com as credenciais de serviço.
- **project**: Aqui você deve informar o **id do projeto** no GCP que contém o BigQuery dataset que deseja acessar.
- **dataset**: Informe o nome do dataset no BigQuery que você deseja usar para o seu projeto dbt.
- **Desired location option (enter a number)**: Informe a região do BigQuery em que o dataset está localizado. Por exemplo, us-central1, europe-west1, etc.


Em seguida, o dbt init irá fazer mais algumas perguntas para personalizar o ambiente do projeto.

- **threads (1 or more)**: quantas threads você deseja usar ao executar tarefas do dbt em paralelo. Threads são como fluxos de trabalho separados que podem ser executados simultaneamente. O dbt usa threads para paralelizar a execução de tarefas, como a compilação de modelos ou a execução de consultas. O número de threads que você escolher pode depender de vários fatores, como o tamanho do seu conjunto de dados e a capacidade de processamento do seu hardware. Você pode optar por escolher o número padrão sugerido pelo dbt ou ajustar o número de threads com base em suas necessidades específicas.


- **job_execution_timeout_seconds [300]**: permite definir um limite de tempo para a execução das tarefas do dbt. Isso é útil para garantir que as tarefas não sejam executadas indefinidamente e evita que o dbt fique preso em uma tarefa que nunca será concluída. O valor padrão para o tempo limite é de 300 segundos (ou 5 minutos), mas você pode optar por aumentar ou diminuir esse valor com base nas necessidades do seu projeto.

##### Inicialização do dbt

```
Enter a name for your project (letters, digits, underscore): shop
Which database would you like to use?
[1] bigquery

(Don't see the one you want? https://docs.getdbt.com/docs/available-adapters)

Enter a number: 1
```

```
[1] oauth
[2] service_account
Desired authentication method option (enter a number): 2
```

```
keyfile (/path/to/bigquery/keyfile.json): [CAMINHO ABSOLUTO PARA AS CREDENCIAIS DA CONTA DE SERVIÇO]
project (GCP project id): [ID DO PROJETO NO GCP]
dataset (the name of your dbt dataset): dataset_fernando
threads (1 or more): 1
job_execution_timeout_seconds [300]: 300
```

```
[1] US
[2] EU
Desired location option (enter a number): 1
```

```
Profile proj written to C:\Users\lcode\.dbt\profiles.yml using target's profile_template.yml and your supplied values. Run 'dbt debug' to validate the connection.

Your new dbt project "shop" was created!

For more information on how to configure the profiles.yml file,
please consult the dbt documentation here:

  https://docs.getdbt.com/docs/configure-your-profile

One more thing:

Need help? Don't hesitate to reach out to us via GitHub issues or on Slack:

  https://community.getdbt.com/

Happy modeling!
```

### 2.2. Navegue até o diretório do seu projeto:

```
cd shop
```

### 2.3. Abra o arquivo *dbt_project.yml*, que deve estar localizado no diretório raiz do seu projeto, confira os seguintes valores:

```
name: dbt_shop # Altere do padrão, `my_new_project`

...

profile: dbt_shop # Altere do nome de perfil padrão, `default`

...

models:
  dbt_shop: # Obrigatoriamente deve corresponder ao valor de `name:`
...
```

Com essa configuração concluída, você poderá começar a usar o dbt para transformar seus dados e construir modelos no BigQuery.

---

## 3. Conectando ao BigQuery

Quando desenvolvemos localmente, o dbt se conecta ao seu data warehouse usando um perfil, que é um arquivo yaml com todos os detalhes de conexão com seu data warehouse.

1. Abra um arquivo chamado ``profiles.yml`` no diretório ``~/.dbt/``. E confira as informações que você inseriu.

2. Execute o comando ``debug`` para confirmar que você se conectou com sucesso:

    ```
    dbt debug
    ```

    Se tudo der certo, você deve obter uma resposta como a seguir:

    ```
        Configuration:
        profiles.yml file [OK found and valid]
        dbt_project.yml file [OK found and valid]

        Required dependencies:
        - git [OK found]

        Connection:
        method: service-account
        database: dbt-shop
        schema: dbt_fernando
        location: US
        priority: interactive
        timeout_seconds: 300
        maximum_bytes_billed: None
        execution_project: dbt-shop
        job_retry_deadline_seconds: None
        job_retries: 1
        job_creation_timeout_seconds: None
        job_execution_timeout_seconds: 300
        gcs_bucket: None
        Connection test: [OK connection ok]

        All checks passed!
    ```

---

## 4. Origem dos dados

Iremos utilizar o dataset Brazilian E-Commerce Public Dataset by Olist (https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce) um conjunto de dados públicos de comércio eletrônico brasileiro disponibilizado pela empresa Olist. O dataset inclui informações de pedidos, produtos, clientes, vendedores e pagamentos de mais de 100.000 pedidos realizados entre 2016 e 2018 em diferentes categorias de produtos. (Não é necessário baixar, pois os arquivos se encontram da pasta `aula7` dentro de `dados`)

---

## 5. Construindo um modelo 

### Dumb Job

Imagine que você precise gerar um relatório diário todas as manhãs antes das 10h para descobrir o número de pedidos por dia e representar o resultado em um dashboard (Looker ou Tableau, por exemplo).

Para isso, teria que criar uma tabela daily_order_count na IU do BigQuery para servir de entrada para o Looker ou Tableau com o seguinte esquema: 

``create table dbt_shop.daily_order_count (shipping_date date, num_orders int64)``

Depois, todos os dias você terá que executar esta consulta para inserir valores na tabela daily_order_count:



```sql
INSERT INTO `dbt_shop.daily_order_count`
SELECT
   DATE(shipping_limit_date) as shipping_date,
   count(order_id) as num_orders
FROM 
   `dbt_shop.order_items`
WHERE 
   DATE(shipping_limit_date)='2018-06-13'
GROUP BY 1
```

Editar e executar esse .sql para será demorado e sujeito a erros.

Agora, em vez de executar manualmente a partir da IU do BigQuery, vamos criar modelos dbt (como arquivos .sql) e deixar que o dbt cuide do resto. 

### Expert Job

Com o dbt instalado e configurado, podemos começar a usá-lo para preparar os dados e construir tabelas e visões especializadas. Para isso, precisamos criar arquivos SQL que definem como as transformações serão realizadas.

1. Crie um arquivo `daily_order_count.sql` em seu diretório `shop/models/daily_order_count.sql`. 

    __Atenção__: O nome do arquivo sql deve ser exatamente igual ao nome da tabela no BigQuery, que é daily_order_count.

2. Copie a seguinte consulta em seu _daily_order_count.sql_
   
   ```sql
   {{ config(materialized='table') }}

   SELECT
      DATE(shipping_limit_date) AS shipping_date, 
      count(order_id) AS num_orders 
   FROM 
      `dbt_shop.order_items` 
   WHERE 
      DATE(shipping_limit_date)='{{ var("ingestion_date") }}' 
   GROUP BY 
      1
    ```

#### Hard Coded vs Soft Coded

__Pergunta__: Qual a diferença entre o SQL que você executou agora comparando com o anterior?

__Resposta__: Removemos a instrução insert e mudamos os valores de shipping_limit_date para uma variável '{{ var("ingestion_date") }}'

O dbt fornece um mecanismo de variáveis para fornecer dados aos modelos para compilação. 

Nesse caso, as variáveis podem ser usadas para evitar que valores fiquem permanentes (hardcoded) na consulta. 

Para usar uma variável no modelo daily_order_count, use a função {{ var('...') }}

---

## 6. Execute seu projeto DBT

Agora vamos usar ``dbt run`` para inserir esses valores na tabela ``daily_order_count``. 

Execute os seguintes comandos, um por um.

`` dbt run --models shop.daily_order_count --vars "{'ingestion_date': '2018-06-29'}" ``

`` dbt run --models shop.daily_order_count --vars "{'ingestion_date': '2018-06-12'}" ``

#### Modelo

Acabamos de criar um **modelo**.

Modelo é um dos principais componentes de um projeto dbt. 

Cada modelo é declarado como um ``select`` e definido em um arquivo .sql. 

O nome do arquivo é usado como o nome do modelo. 

Voltando ao exemplo, o _daily_order_count.sql_ é um modelo.

---

## 7. Exercício

1. Utilizando a tabela costumer crie uma view que faça a contagem de cidades por estados.
2. Utilizando a tabela costumer crie uma view que faça a contagem de cidades para um estado específico, que será passado via variável, por exemplo: "SP".
   