#**Trabalho final - Classificador de produtos com GenAI**

**Nota de atenção:**
- Leia com atenção o descritivo do trabalho e as orientações do template.
- O trabalho deve ser entregue **respeitando a estrutura do arquivo de template**, utilizando o notebook "Template Trabalho final - Classificador de produtos com GenAI.ipynb" e compactado no formato .zip.
- Deve haver apenas um arquivo no formato .ipynb, consolidando todo o trabalho.

**Participantes (RM - NOME):**<br>
xxxx - xxxxx<br>
xxxx - xxxxx<br>
xxxx - xxxxx<br>
xxxx - xxxxx<br>

###**Caso de uso:**

Uma empresa de marketplace, disponibiliza sua plataforma para diversos vendedores cadastrarem seus produtos em diferentes categorias previamente definidas. Essas categorias são utilizadas para melhor distribuir e divulgar seus produtos para os clientes e usuários da plataforma. Mas nem todos os vendedores respeitam essas categorias, regras e as diretrizes do marketplace.

Pense nos diversos problemas que podemos enfrentar:
- Vendedores que cadastram produtos em categorias erradas;
- Vendedores que querem vender produtos ilícitos;
- Vendedores que querem vender produtos que não são permitidos pelas políticas do marketplace e por aí vai...

**Será que é possível validar o cadastro desses produtos e categorias, produto por produto**? Um por um?... Que trampo, não???

###**Desafio:**
- Conseguimos ajudar a mitigar parte desse problema?
- Você conseguiria criar algum **processo** que diminua esse trabalho manual e que **valide a categoria** desses produtos?

Bom, podemos criar um **processo que seja capaz de classificar um produto através do nome e da descrição**, e depois podemos confrontar com a categoria e premissas da plataforma usando **IA Generativa e modelos LLMs**.

###**Orientações:**

---
####**Usem o Google Colab com Python e esse template para desenvolverem o trabalho.**
---

**1. Análise exploratória**, vamos começar explorando a base de dados de produtos [1]?
  - Faça uma análise exploratória para entender os dados e estrutura do dataframe.
  - Crie uma nova coluna no dataframe chamada **`texto`** concatenando as colunas **`nome`** e **`descricao`**. Ex.: `nome + " " + descricao`.
  - Crie um dataframe novo e selecionando uma amostra aleatória de **100 registros** usando o `random_state = 42` (veja o exemplo abaixo).
  
  ***Obs**.:
    - É importante manter essa configuração da amostra para os trabalhos ficarem comparáveis e classificando os mesmos produtos.
    - Faça a análise exploratória com a base completa e não apenas com o sample.

**2. Desenvolvimento e testes**, nessa parte é onde vocês podem explorar o desenvolvimento do trabalho aplicando as técnicas, ferramentas e serviços de GenAI.  
  - Explore diferentes formas de tratar o problema. Comece selecionando casos individuais para testar as ferramentas, framework, APIs e técnicas de prompt engineering.
  - Fiquem à vontade para explorar os serviços e frameworks vistos em aula: API da OpenAI Platform, API da Azure AI Foundry e LangChain.
  - Sejam criativo, mas não precisa de complexidade e podem explorar outras formas de desenvolver.
  - Explique as decisões e racional do desenvolvimento. Abuse dos comentários.

**3. Processo final**, aqui nessa parte separe apenas o processo final com um pipeline completo para classificar a categoria dos produtos.
  - Crie uma função de receba um `texto` (nome + descrição do produto) e retorne a categoria classificada pelo texto.
  - Aplique essa função no dataframe com os 100 casos.
  - Resultado esperado: No dataframe de produto com os 100 casos, crie uma nova coluna de categoria: `categoria_genai`.
  - Valide se a classificação da Ia Generativa de cada produto está correta ou divergente comparando com a coluna `categora` escolhida pelo vendedor. Crie uma nova coluna `validacao_categoria` com os valores da validação: `correta` ou `divergente`.

###**Avaliação:**
O trabalho será avaliado pelas seguintes diretrizes:
  - Demonstração de conhecimento com os temas abordados em sala de aula.
  - Utilização correta dos frameworks, APIs e aplicação das técnicas de prompt engineering.
  - Organização, comentários e explicação certamente vão ajudar na nota.
  - Resultado esperado seguindo as orientações do professor nesse template.

###**Atenção:**
- Use sua conta da **Azure AI Foundry** ou da **OpenAI Platform** para desenvolver o trabalho, mas dê preferência para a conta da Azure por causa dos limites de crédito. **Não deixe suas credenciais no trabalho, por favor!**
- Trabalhos iguais são passíveis de reprovação ou desconto de nota.
- Respeite a estrutura do template fornecido pelo professor.
- Limite de 4 pessoas por grupo, de preferência o mesmo grupo do Startup One.

###**[1] Base de dados de produtos - https://dados-ml-pln.s3-sa-east-1.amazonaws.com/produtos.csv**


##**1. Análise exploratória**

Desenvolva aqui:

In [None]:
!pip install pandas

In [None]:
# Exemplo de como ficaria o sample de 100 casos
import pandas as pd

df = pd.read_csv(
    "https://dados-ml-pln.s3-sa-east-1.amazonaws.com/produtos.csv",
    delimiter=";",
    encoding='utf-8' ).sample(100, random_state=42)

df.head()

In [None]:
df.info()

In [None]:
pd.get_option('display.max_colwidth') #50

In [None]:
# Descriptive statistics for the dataframe
print("General Info:")
df.info()

print("\nMissing values per column:")
print(df.isnull().sum())

print("\nUnique values per column:")
print(df.nunique())

print("\nSample value counts for 'categoria':")
print(df['categoria'].value_counts())

print("\nDescriptive statistics for text length in 'nome' and 'descricao':")
df['nome_length'] = df['nome'].str.len()
df['descricao_length'] = df['descricao'].str.len()
print(df[['nome_length', 'descricao_length']].describe())

In [None]:
df['texto'] = df['nome'] + " " + df['descricao'].fillna("")


In [None]:
df_sample = df.sample(100, random_state=42)
df_sample.head()

In [None]:
%pip install python-dotenv

In [None]:
import os
from dotenv import load_dotenv
load_dotenv()

OPENAI_API_KEY = os.getenv("AZURE_OPENAI_API_KEY")
OPENAI_ENDPOINT = os.getenv("AZURE_OPENAI_ENDPOINT")

print("API Key:", OPENAI_API_KEY)
print("Endpoint:", OPENAI_ENDPOINT)

In [None]:
!pip install openai

In [19]:
# Texto de exemplo para testar o prompt
texto_exemplo = 'Vendo Food Truck Sprinter - Food truck pronto para trabalhar, com cozinha industrial montada. Chamar no e-mail: venda.foodtruck@email.com'
texto_exemplo

'Vendo Food Truck Sprinter - Food truck pronto para trabalhar, com cozinha industrial montada. Chamar no e-mail: venda.foodtruck@email.com'

In [20]:
# Estruturação do prompt
prompt = [
    {
            "role": "developer",
            "content": [
                {
                  "type": "input_text",
                  "text": """
                      Você é um especialista em segurança de dados e é respossável por fazer análise na descrição de veículos publicados no marketplace.
                      No marketplace existem algumas regras de publicação e uso, como:
                      - Não é permitido divulgar veículos com descrições com números de celular, telefone, whatsapp, endereço de e-mail, endereço de localização, redes sóciais ou qualquer outra informação que permita a localização e contato que não seja liberado pela plataforma.
                      - Informações com a marca, logotipo, nome do vendedor e nome da concessionária são permitidos.

                      Analise a descrição a seguir e valide se ela possui algum tipo de contato que não seja permitido pela plataforma.
                      Responda no formato JSON solicitado e deve conter as tags 'flg_suspeito' e 'comentario' para cada descrição.

                      EXEMPLO DE RESPOSTA:
                      {"flg_suspeito":"suspeito/não suspeito", "comentario": "comentário resumido sobre o motivo da suspeita, se não houver suspeita colcoar 'sem suspeita'."}

                      Não adicione explicações extras, responda **apenas** com o JSON.
                    """
                  }
              ]
            },
         {
             "role": "user",
             "content": [
                 {
                     "type": "input_text",
                     "text": f"Descrição do veículo: {texto_exemplo}"},
        ],
    }]

prompt

[{'role': 'developer',
  'content': [{'type': 'input_text',
    'text': '\n                      Você é um especialista em segurança de dados e é respossável por fazer análise na descrição de veículos publicados no marketplace.\n                      No marketplace existem algumas regras de publicação e uso, como:\n                      - Não é permitido divulgar veículos com descrições com números de celular, telefone, whatsapp, endereço de e-mail, endereço de localização, redes sóciais ou qualquer outra informação que permita a localização e contato que não seja liberado pela plataforma.\n                      - Informações com a marca, logotipo, nome do vendedor e nome da concessionária são permitidos.\n\n                      Analise a descrição a seguir e valide se ela possui algum tipo de contato que não seja permitido pela plataforma.\n                      Responda no formato JSON solicitado e deve conter as tags \'flg_suspeito\' e \'comentario\' para cada descrição.\n\n       

In [None]:
from openai import AzureOpenAI as OpenAI

client = OpenAI(
    api_version="2025-06-01", #2025-04-14
    api_key=OPENAI_API_KEY,
    azure_endpoint=OPENAI_ENDPOINT
)

# response = client.chat.completions.create(
#     model="gpt-4.1-mini",
#     temperature=0.7,
#     messages=prompt
# )

# print(response.output_text)

simple_completion = client.chat.completions.create(
    model="gpt-35-turbo",  
    messages=[
        {
            "role": "user",
            "content": "Explain the difference between OpenAI and Azure OpenAI in 20 words",
        },
    ],
)

print(simple_completion.to_json())


In [None]:
response = client.chat.completions.create(
    model="gpt-35-turbo",  # Substitua pelo nome correto do seu deployment
    messages=messages,
    temperature=0.7
)

print(response.choices[0].message.content)


In [None]:
%pip install google
%pip install google-generativeai


In [None]:
prompt = [
    {
            "role": "developer",
            "content": [
                {
                  "type": "input_text",
                  "text": """
                      Você é um especialista em segurança de dados e é respossável por fazer análise na descrição de veículos publicados no marketplace.
                      No marketplace existem algumas regras de publicação e uso, como:
                      - Não é permitido divulgar veículos com descrições com números de celular, telefone, whatsapp, endereço de e-mail, endereço de localização, redes sóciais ou qualquer outra informação que permita a localização e contato que não seja liberado pela plataforma.
                      - Informações com a marca, logotipo, nome do vendedor e nome da concessionária são permitidos.

                      Analise a descrição a seguir e valide se ela possui algum tipo de contato que não seja permitido pela plataforma.
                      Responda no formato JSON solicitado e deve conter as tags 'flg_suspeito' e 'comentario' para cada descrição.

                      EXEMPLO DE RESPOSTA:
                      {"flg_suspeito":"suspeito/não suspeito", "comentario": "comentário resumido sobre o motivo da suspeita, se não houver suspeita colcoar 'sem suspeita'."}

                      Não adicione explicações extras, responda **apenas** com o JSON.
                    """
                  }
              ]
            },
         {
             "role": "user",
             "content": [
                 {
                     "type": "input_text",
                     "text": f"Descrição do veículo: {texto_exemplo}"},
        ],
    }]

In [None]:
import google.generativeai as genai
import os
import json

# Acessa a variável de ambiente, garantindo que não dê erro se ela não existir
GENAI_API_KEY = os.environ.get("GEMINI_API_KEY")
print("API Key:", GENAI_API_KEY)

# Configura a API com sua chave. Isso substitui a linha `client = genai.Client...`
genai.configure(api_key=GENAI_API_KEY)

# Define o modelo que você quer usar
model = genai.GenerativeModel('gemini-2.5-flash')

# Faz a chamada para gerar o conteúdo
# 3. Preparar a lista de mensagens no formato da API
prompt = [
    {
        "role": "user",
        "parts": [
            "Você é um especialista em segurança de dados e é responsável por fazer análise na descrição de veículos publicados no marketplace.\n\n"
            "- Não é permitido divulgar veículos com descrições com números de celular, telefone, whatsapp, endereço de e-mail, endereço de localização, redes sociais ou qualquer outra informação que permita a localização e contato que não seja liberado pela plataforma.\n"
            "- Informações com a marca, logotipo, nome do vendedor e nome da concessionária são permitidos.\n\n"
            "Analise a descrição a seguir e valide se ela possui algum tipo de contato que não seja permitido pela plataforma.\n"
            "Responda no formato JSON solicitado, contendo as tags 'flg_suspeito' e 'comentario' para cada descrição.\n"
            "EXEMPLO DE RESPOSTA:\n"
            '{"flg_suspeito":"suspeito/não suspeito", "comentario": "comentário resumido sobre o motivo da suspeita, se não houver suspeita, colocar \'sem suspeita\'."}\n\n'
            "Não adicione explicações extras, responda apenas com o JSON."
        ]
    },
    {
        "role": "user",
        "parts": [
            f"Descrição do veículo: 'Venda de Toyota Corolla 2022. Carro impecável, entre em contato pelo meu whatsapp 98765-4321 para mais detalhes.'"
        ]
    }
]

# 4. Definir as configurações de geração
# Aqui você pode ajustar a criatividade, o tamanho da resposta, etc.
generation_config = {
    "temperature": 0.2,       # Mais próximo de 0.0 para respostas mais previsíveis e factuais.
    "max_output_tokens": 1024, # Limita o tamanho máximo da resposta.
    "top_p": 0.9,             # Controle de diversidade (mais próximo de 1.0 para maior diversidade).
    "top_k": 40               # Limita a escolha de palavras para as 40 mais prováveis.
}

# 5. Enviar a lista de mensagens e as configurações para o modelo
response = model.generate_content(
    prompt,
    generation_config=generation_config
)

# 6. Imprimir a resposta do modelo
try:
    if response.text:
        clean_response_text = response.text.replace('```json', '').replace('```', '').strip()
        response_json = json.loads(clean_response_text)
        print("Resposta em JSON (formatado):")
        print(json.dumps(response_json, indent=4, ensure_ascii=False))
    else:
        finish_reason = response.candidates[0].finish_reason
        if finish_reason == FinishReason.MAX_TOKENS:
            print("O modelo parou de gerar a resposta por limite de tokens.")
            print("Aumente o valor de 'max_output_tokens' em sua 'generation_config'.")
        elif finish_reason == FinishReason.SAFETY:
            print("O conteúdo da requisição ou da resposta foi bloqueado por motivos de segurança.")
        else:
            print(f"Ocorreu um erro inesperado. Motivo de parada: {finish_reason.name}")
except json.JSONDecodeError:
    print("A resposta não é um JSON válido. Resposta da API:")
    print(response.text)
except Exception as e:
    print("Ocorreu um erro ao processar a resposta:", str(e))


# # Imprime a resposta
# print(response.text)

API Key: AIzaSyBfmoi8kQr7NJ1bd0N9Z1zVBMPMnJHTeb8
Resposta em JSON (formatado):
{
    "flg_suspeito": "suspeito",
    "comentario": "A descrição contém um número de WhatsApp para contato direto, o que não é permitido pela plataforma."
}


In [26]:
# Exemplo de uso da função de contagem de tokens
tokens_count = model.count_tokens("Este é um prompt de teste.")
print(f"Este prompt tem {tokens_count.total_tokens} tokens.")

Este prompt tem 7 tokens.


##**2. Desenvolvimento e testes**

Desenvolva aqui:

##**3. Processo final**

Desenvolva aqui: