# Classificador de Produtos com GPT-3 - Curie

![image.jpg](attachment:image.jpg)

---

In [None]:
# !pip install python-dotenv
# !pip install openai

In [1]:
import csv
from dotenv import load_dotenv
import openai
import os
import pandas as pd
import time

> Warning: OpenAI pode cobrar por chamadas à API após um determinado número de solicitações, portanto, certifique-se de ler e entender os termos e condições antes de começar a usar a API.

In [2]:
load_dotenv()  # Carrega as variáveis do arquivo .env
openai.api_key = os.getenv('OPENAI_API_KEY')

As engines davinci, curie e babbage são os três modelos mais poderosos disponíveis na plataforma OpenAI atualmente. Cada um desses modelos tem capacidades diferentes e é recomendado para diferentes tipos de tarefas.

- Davinci: é a engine mais poderosa da OpenAI atualmente. Ela é capaz de lidar com uma ampla variedade de tarefas, incluindo geração de linguagem natural, tradução, resumo de texto, análise de sentimentos e muito mais. É a engine recomendada para tarefas de alta complexidade, em que é necessário obter a melhor qualidade possível.


- Curie: é uma engine intermediária, que oferece uma combinação equilibrada de potência e eficiência. Ela é recomendada para tarefas que exigem uma capacidade razoável, mas não precisam da potência total da engine Davinci.


- Babbage: é a engine mais leve e econômica da OpenAI. Ela é recomendada para tarefas que exigem uma capacidade mais simples e econômica, como a classificação de texto e a análise de sentimentos básica.

> Nesse notebook estamos utilizando a engine `curie`.

In [3]:
def classify_product(product_description):
    # Define o prompt para a solicitação à API OpenAI
    prompt = f"Classifique as descrições de produtos abaixo por marca, volume, embalagem e unidade:\n{product_description}"
    
    # Faz a solicitação à API OpenAI
    response = openai.Completion.create(
        engine='curie',
        prompt=prompt,
        max_tokens=1024,
        n=1,
        stop='\n'
    )
    
    # Pausa por 0.5 segundos para limitar a quantidade de requisições por segundo
    time.sleep(0.5)
    
    # Retorna a resposta da API OpenAI
    return response.choices[0].text.strip()

In [4]:
data = pd.read_excel('catalogo-produtos-grupos-validado.xlsx')
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11385 entries, 0 to 11384
Data columns (total 13 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   COD_PROD             11385 non-null  object 
 1   COD_NCM              11385 non-null  int64  
 2   COD_GTIN             11376 non-null  object 
 3   COD_GTIN_TRIB        11379 non-null  object 
 4   DSC_PRODUTO          11385 non-null  object 
 5   descr_prod           11385 non-null  object 
 6   pred_volume          10892 non-null  float64
 7   pred_marca           10892 non-null  object 
 8   pred_embalagem       10892 non-null  object 
 9   pred_tipo_embalagem  10892 non-null  object 
 10  grupo                11385 non-null  object 
 11  grupo_cod            11385 non-null  object 
 12  grupo_descricao      11209 non-null  object 
dtypes: float64(1), int64(1), object(11)
memory usage: 1.1+ MB


In [11]:
prod_list = data[['DSC_PRODUTO']]
# Seleciona uma amostra aleatória de 10% das linhas do DataFrame
amostra = prod_list.sample(frac=0.01)
amostra.to_csv('lista_produtos_sample.csv', index=False)

In [12]:
amostra

Unnamed: 0,DSC_PRODUTO
115,KUAT PET 2L
470,CERV PETRA PURA MALTE GRF RET 600ML CX24
2576,GATORADE LIMAO PET 500ML SIX PACK
8229,REF SCHWEPPES CITRUS
1326,GUARANA CHP ANTARCTICA PET 200ML SH C/12 (PROM...
...,...
9979,BIG ENERGY 01X2000ML QTD. 12.00 UN
3358,AM CRYS BR PET 350ML S/G
7320,AG MIN CRYSTAL C G 1
4387,SODA LIMONADA ANTARCTICA PET 200ML SH C/12


In [14]:
# Define o caminho para o arquivo CSV com a lista de descrições de produtos
csv_path = 'lista_produtos_sample.csv'

In [15]:
# Lê o arquivo CSV e classifica cada descrição de produto
results = []
with open(csv_path, newline='', encoding='utf-8') as csvfile:
    reader = csv.DictReader(csvfile)
    for row in reader:
        product_description = row['DSC_PRODUTO']
        classification = classify_product(product_description)
        
        # Salva a classificação em uma lista de dicionários
        results.append({
            'product_description': product_description,
            'classification': classification
        })

In [16]:
results

[{'product_description': 'KUAT PET 2L', 'classification': 'Imeinda'},
 {'product_description': 'CERV PETRA PURA MALTE GRF RET 600ML CX24',
  'classification': '180 HAIR JAR CQ22650 HR Cerdos comem esponja córnea em retalho para aplicação directamente no veículo coletor CERV PETRA PURA MALTE GRF RET 200ML CX33868 HAIR JAR CQ22650 HR Cerdos comem esponja córnea em retalho para aplicação directamente no veículo coletor MERINA COSTA DA PENHA ALTA ALFA ALFA ALFA ALFA ALFA ALFA ALFA ALFA ALFA ALFA ALFA ALFA ALFA ALFA ALFA ALFA ALFA ALFA ALFA ALFA ALFA ALFA ALFA ALFA ALFA ALFA ALFA ALFA ALFA ALFA ALFA ALFA ALFA ALFA ALFA ALFA ALFA ALFA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALHA ALH

> Esse notebook apresentou muitos problemas na classificação. Vamos para a próxima tentativa!

In [17]:
# Cria um DataFrame com os resultados e salva em um arquivo Excel
df = pd.DataFrame(results)
df.to_excel('produtos-classificados-engine.xlsx', index=False)