<a href="https://colab.research.google.com/github/mbaliu-treino/Desenvolve/blob/main/LEARN_C_SQL_Acesso_Externo_Programatico.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <font color=orange><b>SQL: Acesso Externo (acessando o  BigQuery de forma externa - programática)</b></font>

<a href="https://cursos.alura.com.br/course/big-query-manipulacao-programatico-linguagens"><font size=2; color=gray>Arquivo Colab</a></font>

<ul><font size=2 color=gray>FICHA TÉCNICA
<li><a href=https://cursos.alura.com.br/course/bigquery-manipulacao-dados><font size=2 color=gray>Acesso ao Big Query: manipulação programático linguagens</a>
<li>Carga Horária: 12 h
<li>Instrutora: Victorino Vila
<li>Data de Início: 11-2022
</ul>


Este caderno contém algumas anotações sobre como acessar de forma externa o Google BigQuery para as principais operações através de linguagens de programação.

## <font color=orange><b>Conteúdo</b></font>

* Ambiente do Google Cloud
* Princípio do acesso externo
    * Linguagens programáticas
* Chaves de segurança
* Utilização de linguagens de programação para:
    * Executar códigos SQL
    * Criar novas tabelas
    * Carregar dados
    * Transferir dados de tabelas
    * Excluir tabelas e datasets

# <font color=orange><b>CURSO</b></font>


## <font color=orange><b>Google Cloud Environment</b></font>

As operações com o banco de dados do BIG QUERY são realizadas através de <font color=orange>API do BigQuery</font>, podendo ser realizadas ou através da Interface gráfica do Google Big Query ou acessadas através do Google Data Studio.

## <font color=orange><b>Acessos Externos</b></font>

Os acessos externos são operações realizadas fora do ambiente do Google, mas que utilizam os dados armazenados no ambiente do Big Query. Podem ser ferramentas de Dashboard como o PowerBI; ou na utilização de programas para aplicações (web, desktop, mobile etc).

Para acessar ao ambiente do Big Query de forma externa é necessário a <font color=orange>chave de segurança</font>, que pode ser armazenada em um JSON.

## <font color=orange><b>Ambiente de Desenvolvimento</b></font>

O ambiente de desenvolvimento é o conjunto de ferramentas necessárias para a criação e execução dos códigos de programação. Cada uma das ferramentas externas possui um jeito para acessar o Big Query. Mas todas exigirão:

* uma chave de acesso;
* métodos de comunicação com a API do Big Query (<font color=orange>bibliotecas</font>)


### <font color=orange>Visual Studio Community</font>

As operações realizadas no Visual Studio Community também podem ser realizada no VS Code.

O VS Code pode ser expandido com os plugins e é um editor leve, permitindo ser trabalho em diversos OS. Já o Community é uma IDE, mais pesado e de maior capacidade de execução.

### <font color=orange>C# - C Sharp</font>

Os arquivos CS são códigos de programação do C#. É desenvolvida pela Microsoft como parte da plataforma .NET. Este é uma framework aberto e livre para diversos sistemas operacionais. Ela foi baseada na orientação a objetos do C++. Surgiu me 2000.

### <font color=orange>Python</font>

Os projetos em Python podem também ser executados no VS Community.

### <font color=orange>Node.JS</font>

Para usar o Node.JS no VS Community é preciso primeiro instalar o framework na máquina de forma padrão.

Para identificar no VS Community é preciso modificar o software através do VS Installer.

### <font color=orange>JAVA</font>

Para rodar códigos JAVA

### <font color=orange>JSON de Segurança</font>

Para que as biliotecas das linguagens de programação possam se comunicar com o Big QUery é necessário a <font color=orange>chave de segurança</font>.


#### Big Query API

1. Ativação da API: `Google Console > Menu de Navegação > API e Serviços > Biblioteca`. Buscar por `Big Query API`.


#### **Credenciais**

Existem diversas formas de criar credenciais para os projetos. Aqui será usada a <font color=orange>Conta de Serviços</font>.

As Contas de Serviço permite identificar uma conta robô para ativação da autenticação. Essas credenciais permite o acesso para todos os recursos do sistema Google e não só para o Big Query.

> Uma conta de serviço é um tipo especial de conta usada por um aplicativo ou instância de máquina virtual (VM) não uma pessoa. Os aplicativos usam contas de serviço para fazer chamadas de API autorizadas como a própria conta de serviço

1. Ativação da API: `Google Console > Menu de Navegação > API e Serviços > Credenciais > Gerenciar Contas de Serviço`.
2. Criar Conta de Serviço
    * Projeto > Proprietário
3. Concluir
4. `... > Gerenciar Chaves > Adicionar Chaves > CriarNova Chave > Tipo: JSON`


### <font color=orange>Variável de Ambiente</font>

Os métodos dos componentes/bibliotecas/pacotes, que estarão acoplados ao prógrama do usuário, irão executar os métodos da API do Big Query. Para isso, eles precisam passar o JSON junto com as requisições para que o Google Cloud reconheça que é uma requisição segura. Então as requisições deverão passar pela segurança do Google Cloud, conversar com API do Big Query e alterando o banco de dados.

Para registrar a localização do JSON usa-se uma variável de ambiente no OS.
* Válido para todos os usuários
* Nome padrão (`GOOGLE_APPLICATION_CREDENTIALS`)

1. Editar variaveis de ambiente > Variáveis de Ambiente
2. Criar nova Variável de Sistema

Ou por linha de comando (adm):

`SETX var file_path /m`

`SETX GOOGLE_APPLICATION_CREDENTIALS C:\Users\BIGQUERY_acessoExterno\chave\bigquery-treinamento-8d3ecf5cd585.json /m`

### <font color=orange>Bibliotecas</font>

#### <font color=orange>PYTHON</font>

* CMD: `pip install google-cloud-bigquery`

## <font color=orange>Consulta SQL</font>

Os problemas operacionais podem ser resolvidos através da interação com o Big Query. As consultas SQL são as execuções mais comuns nas aplicações.

A consulta de referência será:

```sql
SELECT DISTINCT nome, periodo_id
FROM `BitbyteDW.curso`
WHERE periodo_id LIKE '2010.%'
```

**PYTHON**

* `Client`: pode ser especificado o projeto em que se pretende trabalhar. Pois dentro de um JSON pode haver diversos projetos.

* A biblioteca retorna uma objeto com as linhas do resultado da query. As colunas podem ser acessadas separadamente.
* Resulto: `google.cloud.bigquery.table.RowIterator`
* Linha: `google.cloud.bigquery.table.Row`


* [[DOCS] Query results as dataframe](https://cloud.google.com/bigquery/docs/samples/bigquery-query-results-dataframe)

In [None]:
from google.cloud import bigquery

# Conexão com o projeto
client = bigquery.Client()
consultaSQL = """
    SELECT DISTINCT nome, periodo_id 
    FROM `projeto-final-bq-ds-369013.BitbyteDW.curso` 
    WHERE periodo_id LIKE '2010.%'
    """

# Job no Google - criar um job para a consulta (fila de execução)
query_job = client.query(consultaSQL)
df = query_job.to_dataframe()

resultadoSQL = query_job.result()

for linha in resultadoSQL:
    print('NOME: ' + linha.nome + ', PERÍODO: ' + str(linha.periodo_id))

* CMD: `python programa001.py`

Amostra do retorno do programa
```
NOME: Scrum e métodos ágeis, PERÍODO: 2010.1
NOME: Desenvolvimento web com VRaptor, PERÍODO: 2010.1
NOME: Desenvolvimento mobile com iOS, PERÍODO: 2010.1
NOME: Desenvolvimento mobile com Android, PERÍODO: 2010.1
NOME: Ruby on Rails, PERÍODO: 2010.1
NOME: PHP e MySql, PERÍODO: 2010.1
NOME: C# e orientação a objetos, PERÍODO: 2010.1
NOME: Java e orientação a objetos, PERÍODO: 2010.1
```

```
df = query_job.to_dataframe()
print(df)

                                  nome periodo_id
0                Scrum e métodos ágeis     2010.1
1      Desenvolvimento web com VRaptor     2010.1
2       Desenvolvimento mobile com iOS     2010.1
3   Desenvolvimento mobile com Android     2010.1
```

In [None]:
# Obtenção da tabela (API request)
destination_table = client.get_table(table_id) 

## <font color=orange>Criação de Tabelas</font>

Durante o processo de ETL/ELT no Big Query é muito comum que seja trabalho com diversas **tabelas temporárias**. Então ter uma forma de criar dinamicamente estas tabelas, segundo um layoout previamente definifo seria muito útil.

A criação de uma tabela nova através da interface gráfica segue o seguinte processo:

1. Abrir Conjunto de Dados
2. Criar Tabela ...
3. Criar Tabela de: Tabela em branco
4. Destino
    * Projeto
    * Conjunto de dados
    * Nome da tabela
5. Esquema (campos) [UI ou por texto]
    * Nome do campo
    * Tipo de dado

Então o desafio é como fazer este processo através de linguagens de programação.



```sql
-- Esquema por texto
CODIGO:INTEGER,
DESCRITOR:STRING,
DATA:DATE,
CASADO:BOOLEAN
```

```json
[
    {
        "name": "CODIGO",
        "type": "INTEGER",
        "mode": "NULLABLE"
    },
    {
        "name": "DESCRITOR",
        "type": "STRING",
        "mode": "NULLABLE",
        "maxLength": "255"
    },
    {
        "name": "DATA",
        "type": "DATE",
        "mode": "NULLABLE"
    },
    {
        "name": "CASADO",
        "type": "BOOLEAN",
        "mode": "NULLABLE",
        "description": "Pergunta booleana"
    }
]
```

**PYTHON**

1. Conexão do Cliente com o projeto Google
2. Criação do ESQUEMA (estrutura dos campos)
3. Identificação do nome completo da nova tabela
4. Criação do Objeto Table
5. Solicitação do cliente de criação de tabela
6. Verificação

In [None]:
# CRIAÇÃO DE TABELAS
from google.cloud import bigquery

# 1. Projeto nomeado
client = bigquery.Client(project='projeto-final-bq-ds-369013')

# 2. SCHEMA - CAMPOS
schema = [
    bigquery.SchemaField('CODIGO', 'INTEGER'),
    bigquery.SchemaField('DESCRICAO', 'STRING'),
    bigquery.SchemaField('DATA', 'DATE'),
    bigquery.SchemaField('CASADO', 'BOOLEAN')
]

# 3. Nome completo
table_id = 'projeto-final-bq-ds-369013.BitbyteDW.CLIENTE_PYTHON'
# 4. Objeto Table
table = bigquery.Table(table_ref=table_id, schema=schema)
# 5. Requisição do cliente
table = client.create_table(table)
# 6. Verificação
print(f'TABELA CRIADA {table.project}.{table.dataset_id}.{table.table_id}')

In [None]:
# EXEMPLO 2: Criação de múltiplas tabelas
from google.cloud import bigquery

client = bigquery.Client(project="projeto-final-bq-ds-369013")

schemaAgencia = [
    bigquery.SchemaField("NUMERO_AGENCIA","STRING"),
    bigquery.SchemaField("NOME_AGENCIA","STRING")
    ]
schemaCliente = [
    bigquery.SchemaField("CPF","STRING"),
    bigquery.SchemaField("NOME_CLIENTE","STRING")
    ]
schemaContaCorrente = [
    bigquery.SchemaField("NUMERO_CONTA","STRING"),
    bigquery.SchemaField("NUMERO_AGENCIA","STRING"), 
    bigquery.SchemaField("NOME_CLIENTE","STRING"),
    bigquery.SchemaField("TIPO_CONTA","INTEGER")
    ]

table_idAgencias = "projeto-final-bq-ds-369013.BYTEBANK_PYTHON.AGENCIAS"
tableAgencias = bigquery.Table(table_idAgencias, schemaAgencia)
tableAgencias = client.create_table(tableAgencias)

table_idClientes = "projeto-final-bq-ds-369013.BYTEBANK_PYTHON.CLIENTES"
tableClientes = bigquery.Table(table_idClientes, schemaCliente)
tableClientes = client.create_table(tableClientes)

table_idContasCorrente = "projeto-final-bq-ds-369013.BYTEBANK_PYTHON.CONTAS_CORRENTE"
tableContasCorrente = bigquery.Table(table_idContasCorrente, schemaContaCorrente)
tableContasCorrente = client.create_table(tableContasCorrente)

print("Tabelas Criadas")

Ou ainda, a criação dos esquemas pode ser mais *pythonic*.

In [None]:
schemaContaCorrente = {
    "NUMERO_CONTA": "STRING",
    "NUMERO_AGENCIA": "STRING", 
    "NOME_CLIENTE": "STRING",
    "TIPO_CONTA": "INTEGER"
}

sd = schemaContaCorrente
schemaContaCorrente = [bigquery.SchemaField(field, sd[field]) for field in sd]

['bigquery.SchemaField(NUMERO_CONTA, STRING)',
 'bigquery.SchemaField(NUMERO_AGENCIA, STRING)',
 'bigquery.SchemaField(NOME_CLIENTE, STRING)',
 'bigquery.SchemaField(TIPO_CONTA, INTEGER)']

## <font color=orange>Carregando dados CSV</font>

Outro desafio comum é colocar dados dentro das tabelas através de **arquivos externos**.

Ao carregar um CSV, o Big Uqery interpreta a sua estrutura (schema) e cria uma nova tabela para os novos dados. Existem diversas formas de importar dados CSV. Neste caso será experimentado a importação de arquivos armazenados no Google Cloud Storage ([arquivo](https://caelum-online-public.s3.amazonaws.com/2115-acesso-big-query/05/_desktop-consideracoes-sobre-leitura.zip)).


1. **Cloud Storage**: Repositório interno do Google Cloud
    * **INTERVALO/BUCKET**: repositório dentro do qual poderá ter pastas e arquivos.
    * Localização do arquivo: `gs://curso-bigquery-1234/externo/DADOS_EXTERNO.csv`
2. Big Query
    * Origem: Google Cloud Storage
    * Detecção automática do esquema
    * Pular a primeira linha: cabeçalho

Então o desafio é como fazer este processo através de linguagens de programação.

**PYTHON**

Através do Python é possível executar o carregamento de dados externos a uma tabela do Big Query através dos métodos da biblioteca. Os métodos criarão e carregarão a tabela com os dados do arquivo.


Os métodos permitem os seguintes tipos de estruturas de arquivos para a carga de dados:

* CSV
* DstaFrame
* JSON
* URI

### GC Storage

**ROTEIRO DE CARGA VIA PYTHON**

1. Conexão do Cliente com o projeto Google
2. Criação do ESQUEMA (estrutura dos campos)
    * A ordem das colunas do CSV
3. Identificação do nome completo da nova tabela
4. Configuração do Job
5. URI de fonte (no caso do Google Cloud Storage)
6. Execução do Job
7. Verificação

In [None]:
# CARREGANDO DADOS EXTERNOS - Google Cloud Storage
# CRIAÇÃO DE TABELAS
from google.cloud import bigquery

# 1. Projeto nomeado
client = bigquery.Client(project='projeto-final-bq-ds-369013')

# 2. SCHEMA - CAMPOS
schema = [
    bigquery.SchemaField('CODIGO', 'INTEGER'),
    bigquery.SchemaField('DESCRICAO', 'STRING'),
    bigquery.SchemaField('DATA', 'DATE'),
    bigquery.SchemaField('CASADO', 'BOOLEAN')
]

# 3. Nome completo da tabela - destination
table_id = 'projeto-final-bq-ds-369013.BitbyteDW.CLIENTE_PYTHON'

# 4. Configuração do Job
"""
    * estrutura dos dados
    * linhas de cabeçalho
    * formato do arquivo
"""
job_config = bigquery.LoadJobConfig(
    schema=schema, 
    skip_leading_rows=1,
    source_format=bigquery.SourceFormat.CSV)

# 5. URI fonte
uri = 'gs://curso-bigquery-1234/externo/DADOS_EXTERNO.csv'

# 6. Load table job
load_job = client.load_table_from_uri(
    source_uris=uri,
    destination=table_id,
    job_config=job_config
)

# 7. Verificação
load_job.result()

print(f'TABELA CRIADA {table_id}')

* CMD: `python programa003.py`

### Arquivo Local

In [None]:
# CARREGANDO DADOS EXTERNOS
# CRIAÇÃO DE TABELAS
from google.cloud import bigquery

# 1. Projeto nomeado
client = bigquery.Client(project='projeto-final-bq-ds-369013')

# 2. SCHEMA - CAMPOS
schema = [
    bigquery.SchemaField('CODIGO', 'INTEGER'),
    bigquery.SchemaField('DESCRICAO', 'STRING'),
    bigquery.SchemaField('DATA', 'DATE'),
    bigquery.SchemaField('CASADO', 'BOOLEAN')
]

# 3. Nome completo da tabela - destination
table_id = 'projeto-final-bq-ds-369013.BitbyteDW.CLIENTE_PYTHON_csv'

# 4. Configuração do Job
"""
    * estrutura dos dados
    * linhas de cabeçalho
    * formato do arquivo
"""
job_config = bigquery.LoadJobConfig(
    schema=schema, 
    skip_leading_rows=1,
    source_format=bigquery.SourceFormat.CSV)

# 5. URI fonte
uri = 'gs://curso-bigquery-1234/externo/DADOS_EXTERNO.csv'

# 6. Load table job
with open('DADOS_EXTERNO.csv', 'rb') as file_csv:
    load_job = client.load_table_from_file(
        file_obj=file_csv,
        destination=table_id,
        job_config=job_config
    )

# 7. Verificação
load_job.result()

print(f'TABELA CRIADA {table_id}')

Um outro exemplo:

In [None]:
from google.cloud import bigquery

client = bigquery.Client(project="projeto-final-bq-ds-369013")

schemaAgencia = [
    bigquery.SchemaField("NUMERO_AGENCIA","STRING"),
    bigquery.SchemaField("NOME_AGENCIA","STRING")
    ]
schemaCliente = [
    bigquery.SchemaField("CPF","STRING"),
    bigquery.SchemaField("NOME_CLIENTE","STRING")
    ]
schemaContaCorrente = [
    bigquery.SchemaField("NUMERO_CONTA","STRING"),
    bigquery.SchemaField("NUMERO_AGENCIA","STRING"), 
    bigquery.SchemaField("NOME_CLIENTE","STRING"),
    bigquery.SchemaField("TIPO_CONTA","INTEGER")
    ]

table_idAgencias = "projeto-final-bq-ds-369013.BYTEBANK_PYTHON.AGENCIAS"
uriAgencias = "gs://projeto-final-bq-ds-369013/Exercicios/Agencias.csv"
job_configAgencias = bigquery.LoadJobConfig(schema=schemaAgencia, skip_leading_rows=1, source_format=bigquery.SourceFormat.CSV)
load_jobAgencias = client.load_table_from_uri(source_uris=uriAgencias, destination=table_idAgencias, job_config=job_configAgencias)
load_jobAgencias.result()

table_idClientes = "projeto-final-bq-ds-369013.BYTEBANK_PYTHON.CLIENTES"
uriClientes = "gs://projeto-final-bq-ds-369013/Exercicios/Clientes.csv"
job_configClientes = bigquery.LoadJobConfig(schema=schemaCliente, skip_leading_rows=1, source_format=bigquery.SourceFormat.CSV)
load_jobClientes = client.load_table_from_uri(source_uris=uriClientes, destination=table_idClientes, job_config=job_configClientes)
load_jobClientes.result()

table_idContasCorrente = "projeto-final-bq-ds-369013.BYTEBANK_PYTHON.CONTAS_CORRENTE"
uriContasCorrente = "gs://projeto-final-bq-ds-369013/Exercicios/ContasCorrente.csv"
job_configContasCorrente = bigquery.LoadJobConfig(schema=schemaContaCorrente, skip_leading_rows=1, source_format=bigquery.SourceFormat.CSV)
load_jobContasCorrente = client.load_table_from_uri(source_uris=uriContasCorrente, destination=table_idContasCorrente, job_config=job_configContasCorrente)
load_jobContasCorrente.result()

print("TABELAS CARREGADAS")

## <font color=orange>Transferências de Dados</font>

### <h3>Console</h3>

Através do Console a transferÊncia é mais simples, pois não exige Tokens e confirmações.

> Abas lateral `transferência` > Origem: `dataset copy`:

* Nome do Job
* Repetições
* Dataset destino
* Fonte
    * Dataset
    * Projeto

### <h3>G Shell</h3>

```shell
bq mk --transfer_config \ # criação de JOB de cópia
--project_id=curso-big-query-0965 \
--data_source=cross_region_copy \ # constante \
--target_dataset=Suco_de_Frutas_3 \ # nome do destino
--display_name="Job de copia de conjunto de dados curso ALURA" \ # nome do JOB
--params='{"source_dataset_id":"Suco_de_Frutas_2","source_project_id":"curso-big-query-0965","overwrite_destination_table":"true"}'
```

## <font color=orange>Apagando Tabelas</font>



**PYTHON**

In [None]:
# REMOÇÃO DE TABELAS
from google.cloud import bigquery

# 1. Projeto nomeado
client = bigquery.Client(project='projeto-final-bq-ds-369013')
table_id = 'projeto-final-bq-ds-369013.BitbyteDW.CLIENTE_PYTHON_csv'
client.delete_table(
    table_id,
    not_found_ok=True)

print('TABELA EXCLUÍDA COM SUCESSO')



---



## <font color=orange>Excluir Datasets</font>



### <h3>Console / Área de Trabalho</h3>

> Ícone de Remover Conjunto de Dados



### <h3>G Shell</h3>

```shell
bq rm -r -d Suco_de_Frutas_2
```