In [None]:
# Copyright 2023 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

# Criando código GoogleSQL para o BigQuery com GenAI

<table align="left">
  <td>
    <a href="https://colab.research.google.com/github/GoogleCloudPlatform/generative-ai/blob/main/language/intro_palm_api.ipynb">
      <img src="https://cloud.google.com/ml-engine/images/colab-logo-32px.png" alt="Colab logo"> Execute no Colab
    </a>
  </td>
  <td>
    <a href="https://github.com/GoogleCloudPlatform/generative-ai/blob/main/language/intro_palm_api.ipynb">
      <img src="https://cloud.google.com/ml-engine/images/github-logo-32px.png" alt="GitHub logo">
      Veja no GitHub
    </a>
  </td>
  <td>
    <a href="https://console.cloud.google.com/vertex-ai/workbench/deploy-notebook?download_url=https://raw.githubusercontent.com/GoogleCloudPlatform/generative-ai/blob/main/language/intro_palm_api.ipynb">
      <img src="https://lh3.googleusercontent.com/UiNooY4LUgW_oTvpsNhPpQzsstV5W8F7rYgxgGBD85cWJoLmrOzhVs_ksK_vgx40SHs7jCqkTkCk=e14-rj-sc0xffffff-h130-w32" alt="Vertex AI logo">
      Execute no Vertex AI Workbench
    </a>
  </td>
</table>

## Visão geral

Segmentação de clientes é o processo de agrupar clientes base em características similares para ajudar no engajamento de uma marca ou de um produto com sua audiência. Isso pode ser feito usando uma variedade de fatores, como dados demográficos e comportamentais. Mecanismos de *machine learning* podem ser usados para automatizar o processo de segmentação de clientes, tornando-o mais eficiente e eficaz.

### BigQuery

O [BigQuery](https://cloud.google.com/bigquery/). é o serviço de base de dados gerenciado, serverless e escalável disponível na Google Cloud. O BigQuery permite gerenciar e analisar dados com recursos integrados, como *machine learning*, análise geoespacial e *business intelligence*. Para maiores detalhes, visite a [documentação oficial](https://cloud.google.com/bigquery/docs) do BigQuery.

### Vertex AI PaLM API
A Vertex AI PaLM API, [lançada em 10 de maio de 2023](https://cloud.google.com/vertex-ai/docs/generative-ai/release-notes#may_10_2023), é desenvolvida com [PaLM 2]( https://ai.google/discover/palm2).

### Usando a API Vertex AI PaLM

Você pode interagir com a API Vertex AI PaLM usando os seguintes métodos:

* Use a UI da [Vertex AI Studio](https://cloud.google.com/generative-ai-studio) para testes rápidos e geração de comandos.
* Faça chamadas REST no Cloud Shell.
* Use o Python SDK em um notebook Jupyter

Este notebook se concentra no uso do Python SDK para chamar a Vertex AI PaLM API. Para obter mais informações sobre como usar o Vertex AI Studio sem escrever código, você pode explorar [Introdução às instruções da interface do usuário](https://github.com/GoogleCloudPlatform/generative-ai/blob/main/getting-started/getting_started_ui.md)

Para obter mais informações, confira a [documentação sobre suporte de IA generativa para Vertex AI](https://cloud.google.com/vertex-ai/docs/generative-ai/learn/overview).

### Objetivos

Neste tutorial, você irá utilizar os serviços de Google Cloud para:

* Explorar dados do dataset público ``bigquery-public-data.chicago_crime`
* Utilizar as API do GenAI Studio para a geração de código GoogleSQL e entendimento dos dados do dataset

### Custos
Este tutorial usa os seguintes componentes de Google Cloud:

* Vertex AI Studio
* BigQuery

Saiba mais sobre possíveis custos envolvidos [preços da Vertex AI](https://cloud.google.com/vertex-ai/pricing),
[preços do BigQuery](https://cloud.google.com/bigquery/pricing),
e use a [Calculadora de preços](https://cloud.google.com/products/calculator/)
para gerar uma estimativa de custo com base no uso projetado.

### Segurança de dados
**P: O Google usa dados de clientes para melhorar seus modelos de base?**
R: Não, o Google não usa dados de clientes para melhorar os modelos de fundação. Os dados do cliente são usados apenas para gerar uma resposta do modelo.

**P: Os funcionários do Google veem os dados que envio ao modelo?**
R: Não, os funcionários do Google não têm acesso aos dados do cliente e todos os dados são criptografados em trânsito, em uso e em repouso.

**P: O Google armazena algum dos dados do cliente que são enviados para o modelo?**
R: Não, o Google não armazena dados de clientes. No entanto, o Google pode armazenar em cache temporariamente os dados do cliente durante a solicitação, como pipeline de ajuste de prompt e uso em batch.

**P: O Google registra dados?**
R: Não, o Google não loga os dados dos clientes. Os logs do lado do sistema ajudam o Google a garantir a integridade e a disponibilidade do sistema.

### IA Responsável
LLMs podem traduzir linguagem, resumir texto, gerar escrita criativa, gerar código, chatbots e assistentes virtuais, além de complementar mecanismos de pesquisa e sistemas de recomendação. Ao mesmo tempo, como uma tecnologia em estágio inicial, seus recursos e usos em evolução podem criar aplicações incorretas, uso indevido e consequências não intencionais ou imprevistas. LLMs podem gerar resultados inesperados, incluindo texto ofensivo, insensível ou incorreto.

Além disso, a incrível versatilidade dos LLMs também é o que torna difícil prever exatamente que tipos de saídas não intencionais ou imprevistas eles podem produzir. Dados esses riscos e complexidades, a API PaLM foi projetada com os [AI Principles do Google](https://ai.google/principles/) em mente. No entanto, é importante que os desenvolvedores entendam e testem seus modelos para implantá-los com segurança e responsabilidade. Para ajudar os desenvolvedores, o Vertex AI Studio possui filtragem de conteúdo integrada e a API PaLM possui pontuação de atributo de segurança para ajudar os clientes a testar os filtros de segurança do Google e definir limites de confiança adequados para seu caso de uso e negócios. Consulte a seção [Filtros e atributos de segurança](https://cloud.google.com/vertex-ai/docs/generative-ai/learn/responsible-ai#safety_filters_and_attributes) para saber mais.

Quando a API PaLM é integrada ao caso de uso e contexto exclusivos de um cliente, considerações adicionais de IA Responsável e [limitações PaLM](https://cloud.google.com/vertex-ai/docs/generative-ai/learn/responsible-ai #palm_limitations) precisam ser considerados. Incentivamos os clientes a usar *fairness*, interpretabilidade, privacidade e segurança [práticas recomendadas](https://ai.google/responsabilidades/responsible-ai-practices/).

## Primeiros Passos

### Instalando os SDK da Vertex AI

In [None]:
!pip install google-cloud-aiplatform==1.29.0 --upgrade --user

**Somente Colab:** Descomente a célula a seguir para reiniciar o kernel ou use o botão para reiniciar o kernel.

In [None]:
# # Reinicia automaticamente o kernel após as instalações para que seu ambiente possa acessar os novos pacotes
# import IPython

# app = IPython.Application.instance()
# app.kernel.do_shutdown(True)

### Autenticando seu ambiente de notebook
* Se você estiver usando o **Colab** para executar este notebook, descomente a célula abaixo e continue.
* Se você estiver usando o **Vertex AI Workbench**, confira as instruções de configuração [aqui](../setup-env/README.md).

In [None]:
# from google.colab import auth
# auth.authenticate_user()

### Importando as bibliotecas necessárias

**Somente Colab:** Descomente a célula a seguir para realizar o processo adequado de inicialização da SDK da Vertex AI.  

In [None]:
# import vertexai

# PROJECT_ID = "[seu-project-id]"  # @param {type:"string"}
# vertexai.init(project=PROJECT_ID, location="us-central1")

In [None]:
import os
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '3' 

import warnings
warnings.simplefilter("ignore", UserWarning)

import sys
import time
import pandas as pd
from typing import Union
from google.cloud import bigquery
from vertexai.language_models import TextGenerationModel, CodeGenerationModel

## Geração de texto com `code-bison@001`

O modelo de geração de texto da API PaLM que você usará neste notebook é `code-bison@001`. Já deixaremos seu objeto instanciado neste Jupyter notebook para uso futuro

#### Carregando o modelo `code-bison`

In [None]:
code_model = CodeGenerationModel.from_pretrained("code-bison@001")

### Preparando as funções necessárias 

Aqui vamos criar a função `pergunta()` que será utilizada para gerar as solicitações às API do Vertex GenAI Studio:

In [None]:
def codifique(prompt : str , temperature: float = .2) -> str:

    parameters = {
        "temperature": temperature,
        "max_output_tokens": 256,
    }

    response = code_model.predict(
        prompt,
        **parameters,
    )
    return(response.text)

### Criação do dataset no BigQuery

Para termos uma estrutura pronta no projeto do laboratório para salvar e explorar dados, vamos criar um projeto no BigQuery:

In [None]:
project_id = !gcloud config list project
project_id = project_id[1].split('=')[1].strip()
parent = f'projects/' + project_id

client = bigquery.Client(project=project_id)
dataset_id = f"{project_id}.geracao_googlesql"
dataset = bigquery.Dataset(dataset_id)
dataset.location = "US"

try:
    dataset = client.create_dataset(dataset, timeout=30)
    print("Dataset criado com sucesso {}.{}".format(project_id, dataset.dataset_id))
except:
    print(f"O dataset {dataset_id} já existe")

Agora utilizando somente linguagem natural, vamos solicitar oa modelo generativo do Vertex GenAI Studio para criar uma query GoogleSQL:

In [None]:
sql = codifique('''Usando a tabela "`bigquery-public-data.chicago_crime.crime`"
Escreva um GoogleSQL para encontrar os 10 principais números de case_number por location_description
onde a parte do ano do campo datetime "date" é 2010
não anexe "```" à resposta, não anexe "sql" a resposta
não crie ou exclua nenhum dado.
não utilizar markdowns e nem comentários.''')
sql = sql.split("```")[1].replace('sql\n', '')
print(sql)

Com a query criada pelo modelo generativo, podemos enviar a query diretamente como variável para o cliente da SDK do BigQuery e buscar os resultados:

In [None]:
query_job = client.query(sql.replace('```', ''))
results = query_job.result()

list_of_rows = ''
for row in results:
    list_of_rows += str(row.values()) + '\n'

print(list_of_rows)

De último podemos fazer uma busca no modelo generativo pela informação gerada pela query (neste caso, qual o local de crime mais comum na cidade de Chicago em 2010):

In [None]:
generation_model = TextGenerationModel.from_pretrained("text-bison@001")

resposta = generation_model.predict(prompt='De forma sucinta, diga que tipo de local aconteceram mais ocorrências em Chicago no ano de 2010?',
                                    top_k=20,
                                    top_p=0.2,
                                    temperature=0)
print(resposta.text)