# Engenharia de Dados - Enriquecimento com GenIA (Camada Silver)

**Objetivo**

Utilizar Inteligência Artificial Generativa (LLM) para extrair valor de dados desestruturados (textos de avaliações)

**Pipeline de IA:**

1. **Leitura:** Carregar a tabela Silver `silver.orders.reviews`.

2. **Amostragem:** Filtrar comentários válidos (não nulos) para evitar desperdício de tokens

3. **Inferência:** Utilizar o modelo **Google Gemini Flash 1.5** para classificar o sentimento do cliente (Positivo, Negativo ou Neutro)

4. **Persistência:** Salvar o resultado enriquecido em uma nova tabela Delta

**Stack Tecnológica:**

* Databricks (Spark)
* Google AI Studio SDK ('google-generativeai')

In [0]:
#Instalação do SDK do Google Generative AI
%pip install google-generativeai

Collecting google-generativeai
  Downloading google_generativeai-0.8.6-py3-none-any.whl.metadata (3.9 kB)
Collecting google-ai-generativelanguage==0.6.15 (from google-generativeai)
  Downloading google_ai_generativelanguage-0.6.15-py3-none-any.whl.metadata (5.7 kB)
Collecting google-api-python-client (from google-generativeai)
  Downloading google_api_python_client-2.187.0-py3-none-any.whl.metadata (7.0 kB)
Collecting tqdm (from google-generativeai)
  Downloading tqdm-4.67.1-py3-none-any.whl.metadata (57 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/57.7 kB[0m [31m?[0m eta [36m-:--:--[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m57.7/57.7 kB[0m [31m3.6 MB/s[0m eta [36m0:00:00[0m
Collecting google-auth-httplib2<1.0.0,>=0.2.0 (from google-api-python-client->google-generativeai)
  Downloading google_auth_httplib2-0.3.0-py3-none-any.whl.metadata (3.1 kB)
Collecting uritemplate<5,>=3.0.1 (from google-api-python-client->google-gener

In [0]:
#Reiniciando o kernel para carregar a lib
dbutils.library.restartPython()

## 1.0 Configuração do Modelo (LLM)

Nesta etapa, configuramos a conexão com a API do Google AI Studio

Utilizando o modelo **Gemini 2.5 Flash** por ser otimizado para tarefas de alta velocidade e baixo custo, ideal para classificar em lote.

In [0]:
#Importando bibliotecas
import google.generativeai as genai
from pyspark.sql.functions import col, udf
from pyspark.sql.types import StringType
import time
import random


All support for the `google.generativeai` package has ended. It will no longer be receiving 
updates or bug fixes. Please switch to the `google.genai` package as soon as possible.
See README for more details:

https://github.com/google-gemini/deprecated-generative-ai-python/blob/main/README.md

  module = self._original_builtins_import(name, *args, **kwargs)


In [0]:
# CONFIGURAÇÃO
# Em ambientes produtivos, utilizar: dbutils.secrets.get(scope="google", key="gemini_api_key")
API_KEY = "AIzaSyAckT7N9mUfOlaeLZjt9la9N-2hVHeoZdU"

genai.configure(api_key=API_KEY)

# Instancia o modelo leve (Flash)
model = genai.GenerativeModel('models/gemini-2.0-flash-lite')

print("O Modelo Gemini 2.0 Flash lite configurado com sucesso")

O Modelo Gemini 2.0 Flash lite configurado com sucesso


## 2.0 Engenharia de prompt e UDF

Criamos uma função Python encapsulada em uma **UDF (User Defined Function)** do Spark

O prompt foi desenhado para ser determinístico, instruindo o modelo a retornar **apenas** a classificação ("Positivo", "Negativo" ou "Neutro"), faciltiando o tratamento posterior dos dados

In [0]:
def analisar_sentimento_gemini(comentario):
    # 1. Validação
    if not comentario or len(str(comentario)) < 4:
        return "Neutro"
    
    # 2. Configuração
    import google.generativeai as genai
    genai.configure(api_key=API_KEY)
    
    model = genai.GenerativeModel('models/gemini-2.0-flash-lite')
    
    prompt = f"""
            Aja como um analista de qualidade de E-commerce.
            Classifique o sentimento do seguinte comentário de cliente em apenas uma categoria.

            Comentário: "{comentario}"

            Categorias possíveis:
            - Positivo
            - Negativo
            - Neutro

            Responda APENAS o nome da categoria, sem explicações ou justificativas.
            """
    
    # 3. Lógica de Retry (Tentativas)
    max_retries = 3
    for attempt in range(max_retries):
        try:
            # Pausa OBRIGATÓRIA para respeitar o limite de 5 a 15 RPM
            # 4 segundos garante que não passaremos de 5 req/minuto
            time.sleep(4) 
            
            response = model.generate_content(prompt)
            return response.text.strip().replace(".", "")
            
        except Exception as e:
            erro_str = str(e)
            # Se for erro de Cota (429), espera mais e tenta de novo
            if "429" in erro_str or "Quota" in erro_str:
                print(f"⚠️ Cota excedida. Aguardando 30s... (Tentativa {attempt+1}/{max_retries})")
                time.sleep(20) # Espera drástica sugerida pelo erro
                continue
            else:
                return f"ERRO: {erro_str}"
    
    return "Erro_Cota_Max_Retries"

## 3.0 Execução do Pipeline de amostra

Para validar a solução sem consumir a cota inteira da API Gratuita (Rate Limit), aplicamos o pipeline em uma amostra controlada de **50 avaliações** que possuem texto preenchido

In [0]:
# 1. Ler Tabela Silver Tratada
df_reviews = spark.read.table("workspace_ecommerce.silver.order_reviews")

# 2. Filtrar Amostra (Apenas quem escreveu algo relevante)
# Ignora 'nao_informado' que tratamos no notebook anterior
df_amostra = df_reviews.filter(
    (col("desc_comentario") != "nao_informado") &
    (col("desc_comentario").isNotNull())
).limit(20)

print(f"Enviando {df_amostra.count()} comentários para o Gemini...")

# Registra a função para uso no Dataframe Spark
analisar_udf = udf(analisar_sentimento_gemini, StringType())

# 3.0 Aplicar IA (Inferência)
df_enriquecido = df_amostra.repartition(1).withColumn("sentimento_ia", analisar_udf(col("desc_comentario")))

# 4.0 Exibir Resultado para Validação
display(df_enriquecido.select("desc_comentario", "sentimento_ia"))

Enviando 20 comentários para o Gemini...


desc_comentario,sentimento_ia
Recebi bem antes do prazo estipulado.,Erro_Cota_Max_Retries
Parabéns lojas lannister adorei comprar pela Internet seguro e prático Parabéns a todos feliz Páscoa,Erro_Cota_Max_Retries
aparelho eficiente. no site a marca do aparelho esta impresso como 3desinfector e ao chegar esta com outro nome...atualizar com a marca correta uma vez que é o mesmo aparelho,Erro_Cota_Max_Retries
"Mas um pouco ,travando...pelo valor ta Boa.",Erro_Cota_Max_Retries
"Vendedor confiável, produto ok e entrega antes do prazo.",Erro_Cota_Max_Retries
"GOSTARIA DE SABER O QUE HOUVE, SEMPRE RECEBI E ESSA COMPRA AGORA ME DECPCIONOU",Erro_Cota_Max_Retries
Péssimo,Erro_Cota_Max_Retries
Loja nota 10,Erro_Cota_Max_Retries
obrigado pela atençao amim dispensada,Erro_Cota_Max_Retries
A compra foi realizada facilmente.,Erro_Cota_Max_Retries


## 4.0 Persistência (Camada Silver Enriquecida)

Salvamos o resultado em uma tabela dedicada ('reviews_analise_ia') para alimentar o Dashboard de Sentimentos no Power BI/Streamlit.

In [0]:
# Salvar na Tabela Final
tabela_destino = "workspace_ecommerce.silver.reviews_analise_ia"

df_enriquecido.write.format("delta") \
    .mode("overwrite") \
    .option("inferSchema", "true") \
    .saveAsTable(tabela_destino)

print(f"Análise de IA concluída e salva em: {tabela_destino}")

com.databricks.backend.common.rpc.CommandCancelledException
	at com.databricks.spark.chauffeur.SequenceExecutionState.$anonfun$cancel$5(SequenceExecutionState.scala:132)
	at scala.Option.getOrElse(Option.scala:189)
	at com.databricks.spark.chauffeur.SequenceExecutionState.$anonfun$cancel$3(SequenceExecutionState.scala:132)
	at com.databricks.spark.chauffeur.SequenceExecutionState.$anonfun$cancel$3$adapted(SequenceExecutionState.scala:129)
	at scala.collection.immutable.Range.foreach(Range.scala:158)
	at com.databricks.spark.chauffeur.SequenceExecutionState.cancel(SequenceExecutionState.scala:129)
	at com.databricks.spark.chauffeur.ExecContextState.cancelRunningSequence(ExecContextState.scala:715)
	at com.databricks.spark.chauffeur.ExecContextState.$anonfun$cancel$1(ExecContextState.scala:435)
	at scala.Option.getOrElse(Option.scala:189)
	at com.databricks.spark.chauffeur.ExecContextState.cancel(ExecContextState.scala:435)
	at com.databricks.spark.chauffeur.ExecutionContextManagerV1.can

## 5.0 Listando todos os modelos de LLM disponiveis do Google Studios AI

In [0]:
import google.generativeai as genai
import os 

# Configuração da chave
API_KEY = "AIzaSyDIHzz7_c9uwIt6IWcQGwYPmd07ryff7p8"
genai.configure(api_key=API_KEY)

print("Listando modelos disponíveis para sua chave")
try:
    for m in genai.list_models():
        if 'generateContent' in m.supported_generation_methods:
            print(f" - {m.name}")
except Exception as e:
    print(f"Erro ao listar: {e}")

com.databricks.backend.common.rpc.CommandSkippedException
	at com.databricks.spark.chauffeur.SequenceExecutionState.$anonfun$cancel$3(SequenceExecutionState.scala:134)
	at com.databricks.spark.chauffeur.SequenceExecutionState.$anonfun$cancel$3$adapted(SequenceExecutionState.scala:129)
	at scala.collection.immutable.Range.foreach(Range.scala:158)
	at com.databricks.spark.chauffeur.SequenceExecutionState.cancel(SequenceExecutionState.scala:129)
	at com.databricks.spark.chauffeur.ExecContextState.cancelRunningSequence(ExecContextState.scala:715)
	at com.databricks.spark.chauffeur.ExecContextState.$anonfun$cancel$1(ExecContextState.scala:435)
	at scala.Option.getOrElse(Option.scala:189)
	at com.databricks.spark.chauffeur.ExecContextState.cancel(ExecContextState.scala:435)
	at com.databricks.spark.chauffeur.ExecutionContextManagerV1.cancelExecution(ExecutionContextManagerV1.scala:477)
	at com.databricks.spark.chauffeur.ChauffeurState.$anonfun$process$1(ChauffeurState.scala:750)
	at com.data

----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

## 6.0 Criando tabela de sentimento de IA simulada para testes

In [0]:
import pandas as pd
from pyspark.sql.functions import col, lit, when

# 1. Ler a tabela Silver de Reviews
df_spark = spark.read.table("workspace_ecommerce.silver.order_reviews")

# 2. Filtrar Amostra (Pode pegar mais linhas agora, já que não pagamos API!)
# Vamos pegar 100 linhas para o gráfico ficar bonito
df_amostra = df_spark.filter(
    (col("desc_comentario") != "nao_informado") & 
    (col("desc_comentario").isNotNull())
).limit(100)

print(f"🚀 Iniciando 'Simulação de IA' em {df_amostra.count()} registros...")

# 3. Converter para Pandas para aplicar regra de negócio local
df_pandas = df_amostra.toPandas()

# --- FUNÇÃO DE MOCK (SIMULAÇÃO DA IA) ---
def simular_sentimento(texto):
    texto = str(texto).lower()
    
    # Palavras-chave positivas
    positivos = ['bom', 'otimo', 'ótimo', 'excelente', 'gostei', 'recomendo', 'rápido', 'rapido', 'chegou antes', 'adoramos', 'perfeito']
    # Palavras-chave negativas
    negativos = ['ruim', 'pessimo', 'péssimo', 'demorou', 'atraso', 'não recebi', 'nao recebi', 'defeito', 'errado', 'jamais']
    
    if any(p in texto for p in positivos):
        return "Positivo"
    elif any(n in texto for n in negativos):
        return "Negativo"
    else:
        return "Neutro"

# 4. Aplicar a simulação
df_pandas['sentimento_ia'] = df_pandas['desc_comentario'].apply(simular_sentimento)

# 5. Voltar para Spark e Salvar
df_final = spark.createDataFrame(df_pandas)

print("💾 Salvando tabela enriquecida (Simulada)...")
df_final.write.format("delta").mode("overwrite").option("overwriteSchema", "true").saveAsTable("workspace_ecommerce.silver.reviews_analise_ia")

# 6. Mostrar Resultado
display(df_final.select("desc_comentario", "sentimento_ia"))

🚀 Iniciando 'Simulação de IA' em 100 registros...
💾 Salvando tabela enriquecida (Simulada)...


desc_comentario,sentimento_ia
Recebi bem antes do prazo estipulado.,Neutro
Parabéns lojas lannister adorei comprar pela Internet seguro e prático Parabéns a todos feliz Páscoa,Neutro
aparelho eficiente. no site a marca do aparelho esta impresso como 3desinfector e ao chegar esta com outro nome...atualizar com a marca correta uma vez que é o mesmo aparelho,Neutro
"Mas um pouco ,travando...pelo valor ta Boa.",Neutro
"Vendedor confiável, produto ok e entrega antes do prazo.",Neutro
"GOSTARIA DE SABER O QUE HOUVE, SEMPRE RECEBI E ESSA COMPRA AGORA ME DECPCIONOU",Neutro
Péssimo,Negativo
Loja nota 10,Neutro
obrigado pela atençao amim dispensada,Neutro
A compra foi realizada facilmente.,Neutro


------------------------------------------------------------------------------------------------------------------------------------------------------------------------

In [0]:
import google.generativeai as genai
import pandas as pd
import time

# --- CONFIGURAÇÃO ---
API_KEY = "AIzaSyDIHzz7_c9uwIt6IWcQGwYPmd07ryff7p8"
genai.configure(api_key=API_KEY)
model = genai.GenerativeModel('models/gemini-2.0-flash-lite')

# 1. Ler Amostra do Spark e converter para Pandas (Driver)
# Como são poucas linhas, isso é super rápido e seguro
df_spark_source = spark.read.table("workspace_ecommerce.silver.order_reviews")
df_pandas = df_spark_source.filter("desc_comentario IS NOT NULL AND length(desc_comentario) > 3").limit(20).toPandas()

print(f"🚀 Iniciando processamento de {len(df_pandas)} linhas no Driver (Modo Debug)...")

# Lista para guardar resultados
sentimentos = []

# 2. Loop Python Puro (Com Prints Visíveis!)
for index, row in df_pandas.iterrows():
    comentario = row['desc_comentario']
    
    print(f"[{index+1}/{len(df_pandas)}] Processando: '{comentario[:30]}...' -> ", end="")
    
    # Lógica de Retry
    sucesso = False
    for attempt in range(3):
        try:
            # Pausa tática (4s para o Lite é seguro)
            time.sleep(4)
            
            response = model.generate_content(
                f"Classifique o sentimento (Positivo, Negativo, Neutro). Texto: {comentario}"
            )
            
            resultado = response.text.strip().replace(".", "")
            print(f"✅ {resultado}")
            sentimentos.append(resultado)
            sucesso = True
            break
            
        except Exception as e:
            if "429" in str(e):
                print(f"⏳ (429 Cota) Aguardando 15s...", end=" ")
                time.sleep(15)
            else:
                print(f"❌ Erro: {str(e)}")
                break
    
    if not sucesso:
        sentimentos.append("Erro_Processamento")

# 3. Adicionar coluna ao Pandas e voltar para Spark
df_pandas['sentimento_ia'] = sentimentos

# Criar DataFrame Spark Final
# Ajuste o schema se necessário, ou deixe inferir para string
df_final_spark = spark.createDataFrame(df_pandas)

# 4. Salvar
print("\n💾 Salvando tabela final...")
df_final_spark.write.format("delta").mode("overwrite").option("overwriteSchema", "true").saveAsTable("workspace_ecommerce.silver.reviews_analise_ia")

display(df_final_spark)


All support for the `google.generativeai` package has ended. It will no longer be receiving 
updates or bug fixes. Please switch to the `google.genai` package as soon as possible.
See README for more details:

https://github.com/google-gemini/deprecated-generative-ai-python/blob/main/README.md

  module = self._original_builtins_import(name, *args, **kwargs)


🚀 Iniciando processamento de 20 linhas no Driver (Modo Debug)...
[1/20] Processando: 'Recebi bem antes do prazo esti...' -> ❌ Erro: 400 API key expired. Please renew the API key. [reason: "API_KEY_INVALID"
domain: "googleapis.com"
metadata {
  key: "service"
  value: "generativelanguage.googleapis.com"
}
, locale: "en-US"
message: "API key expired. Please renew the API key."
]
[2/20] Processando: 'Parabéns lojas lannister adore...' -> ❌ Erro: 400 API key expired. Please renew the API key. [reason: "API_KEY_INVALID"
domain: "googleapis.com"
metadata {
  key: "service"
  value: "generativelanguage.googleapis.com"
}
, locale: "en-US"
message: "API key expired. Please renew the API key."
]
[3/20] Processando: 'aparelho eficiente. no site a ...' -> ❌ Erro: 400 API key expired. Please renew the API key. [reason: "API_KEY_INVALID"
domain: "googleapis.com"
metadata {
  key: "service"
  value: "generativelanguage.googleapis.com"
}
, locale: "en-US"
message: "API key expired. Please renew the AP

id_avaliacao,id_pedido,vl_nota,desc_titulo_comentario,desc_comentario,dt_envio_pesquisa,dt_resposta_pesquisa,dt_ingestao,arquivo_origem,sentimento_ia
e64fb393e7b32834bb789ff8bb30750e,658677c97b385a9be170737859d3511b,5.0,nao_informado,Recebi bem antes do prazo estipulado.,2017-04-21T00:00:00Z,2017-04-21T22:02:06Z,2025-12-30T13:23:18.121641Z,olist_order_reviews_dataset.csv,Erro_Processamento
f7c4243c7fe1938f181bec41a392bdeb,8e6bfb81e283fa7e4f11123a3fb894f1,5.0,nao_informado,Parabéns lojas lannister adorei comprar pela Internet seguro e prático Parabéns a todos feliz Páscoa,2018-03-01T00:00:00Z,2018-03-02T10:26:53Z,2025-12-30T13:23:18.121641Z,olist_order_reviews_dataset.csv,Erro_Processamento
8670d52e15e00043ae7de4c01cc2fe06,b9bf720beb4ab3728760088589c62129,4.0,recomendo,aparelho eficiente. no site a marca do aparelho esta impresso como 3desinfector e ao chegar esta com outro nome...atualizar com a marca correta uma vez que é o mesmo aparelho,2018-05-22T00:00:00Z,2018-05-23T16:45:47Z,2025-12-30T13:23:18.121641Z,olist_order_reviews_dataset.csv,Erro_Processamento
4b49719c8a200003f700d3d986ea1a19,9d6f15f95d01e79bd1349cc208361f09,4.0,nao_informado,"Mas um pouco ,travando...pelo valor ta Boa.",,,2025-12-30T13:23:18.121641Z,olist_order_reviews_dataset.csv,Erro_Processamento
3948b09f7c818e2d86c9a546758b2335,e51478e7e277a83743b6f9991dbfa3fb,5.0,Super recomendo,"Vendedor confiável, produto ok e entrega antes do prazo.",2018-05-23T00:00:00Z,2018-05-24T03:00:01Z,2025-12-30T13:23:18.121641Z,olist_order_reviews_dataset.csv,Erro_Processamento
9314d6f9799f5bfba510cc7bcd468c01,0dacf04c5ad59fd5a0cc1faa07c34e39,2.0,nao_informado,"GOSTARIA DE SABER O QUE HOUVE, SEMPRE RECEBI E ESSA COMPRA AGORA ME DECPCIONOU",2018-01-18T00:00:00Z,2018-01-20T21:25:45Z,2025-12-30T13:23:18.121641Z,olist_order_reviews_dataset.csv,Erro_Processamento
373cbeecea8286a2b66c97b1b157ec46,583174fbe37d3d5f0d6661be3aad1786,1.0,Não chegou meu produto,Péssimo,2018-08-15T00:00:00Z,2018-08-15T04:10:37Z,2025-12-30T13:23:18.121641Z,olist_order_reviews_dataset.csv,Erro_Processamento
d21bbc789670eab777d27372ab9094cc,4fc44d78867142c627497b60a7e0228a,5.0,Ótimo,Loja nota 10,2018-07-10T00:00:00Z,2018-07-11T14:10:25Z,2025-12-30T13:23:18.121641Z,olist_order_reviews_dataset.csv,Erro_Processamento
0e0190b9db53b689b285d3f3916f8441,79832b7cb59ac6f887088ffd686e1d5e,5.0,nao_informado,obrigado pela atençao amim dispensada,2017-12-01T00:00:00Z,2017-12-09T22:58:58Z,2025-12-30T13:23:18.121641Z,olist_order_reviews_dataset.csv,Erro_Processamento
fe3db7c069d694bab50cc43463f91608,2ca73e2ff9e3a186ad1e1ffb9b1d9c10,5.0,nao_informado,A compra foi realizada facilmente.,,,2025-12-30T13:23:18.121641Z,olist_order_reviews_dataset.csv,Erro_Processamento
