# André Pinotti
# Camily Milsoni Rodrigues
# Diogo José Bernardo
# Matheus de Oliveira Cortez Cervantes


### Instalação de pacotes
Esta célula instala as bibliotecas `gradio`, `liqfit` e `sentencepiece`, além de suas dependências.

In [None]:
pip install gradio liqfit sentencepiece

Collecting gradio
  Downloading gradio-5.4.0-py3-none-any.whl.metadata (16 kB)
Collecting liqfit
  Downloading liqfit-1.0.0-py3-none-any.whl.metadata (383 bytes)
Collecting aiofiles<24.0,>=22.0 (from gradio)
  Downloading aiofiles-23.2.1-py3-none-any.whl.metadata (9.7 kB)
Collecting fastapi<1.0,>=0.115.2 (from gradio)
  Downloading fastapi-0.115.3-py3-none-any.whl.metadata (27 kB)
Collecting ffmpy (from gradio)
  Downloading ffmpy-0.4.0-py3-none-any.whl.metadata (2.9 kB)
Collecting gradio-client==1.4.2 (from gradio)
  Downloading gradio_client-1.4.2-py3-none-any.whl.metadata (7.1 kB)
Collecting httpx>=0.24.1 (from gradio)
  Downloading httpx-0.27.2-py3-none-any.whl.metadata (7.1 kB)
Collecting huggingface-hub>=0.25.1 (from gradio)
  Downloading huggingface_hub-0.26.1-py3-none-any.whl.metadata (13 kB)
Collecting markupsafe~=2.0 (from gradio)
  Downloading MarkupSafe-2.1.5-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (3.0 kB)
Collecting orjson~=3.0 (from gradio)
  

### Importação de bibliotecas
Importa classes e funções necessárias para a classificação de texto usando a biblioteca `liqfit`:
- `ZeroShotClassificationPipeline` para criar o pipeline de classificação.
- `T5ForZeroShotClassification` para o modelo T5 específico de classificação.
- `T5Tokenizer` para tokenizar o texto de entrada.

Além disso, importamos a biblioteca `gradio` para criar uma interface visual onde o usuário pode inserir descrições de produtos e receber uma previsão de categoria.

In [None]:
from liqfit.pipeline import ZeroShotClassificationPipeline
from liqfit.models import T5ForZeroShotClassification
from transformers import T5Tokenizer
import gradio as gr

  @torch.cuda.amp.custom_fwd(cast_inputs=torch.float32)


### Configuração do modelo de classificação
Nesta célula, o modelo de classificação e o tokenizador são carregados usando o modelo pré-treinado `comprehend_it-multilingual-t5-base`.
Em seguida, é configurado o pipeline de classificação zero-shot, que permite classificar textos sem necessidade de treinamento adicional.


In [None]:
modelo = T5ForZeroShotClassification.from_pretrained('knowledgator/comprehend_it-multilingual-t5-base')
tokenizador = T5Tokenizer.from_pretrained('knowledgator/comprehend_it-multilingual-t5-base')
classificador = ZeroShotClassificationPipeline(model=modelo, tokenizer=tokenizador,hypothesis_template = '{}', encoder_decoder = True)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/1.23k [00:00<?, ?B/s]

You are using a model of type T5 to instantiate a model of type t5. This is not supported for all configurations of models and can yield errors.


pytorch_model.bin:   0%|          | 0.00/1.56G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/477 [00:00<?, ?B/s]

spiece.model:   0%|          | 0.00/4.31M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/74.0 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/16.3M [00:00<?, ?B/s]

You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565


### Importação de bibliotecas para manipulação de dados
Importa a biblioteca `pandas`, que é comumente utilizada para leitura, manipulação e análise de dados em formato tabular, como arquivos CSV.

In [None]:
import pandas as pd

### Leitura do arquivo CSV
Nesta célula, o arquivo CSV é lido utilizando a função `pd.read_csv()`, que carrega os dados em um DataFrame do pandas.
O DataFrame permite manipular os dados de forma eficiente, facilitando operações como filtragem, agregação e análise.

In [None]:
dados = pd.read_csv('produtos.csv')
dados

Unnamed: 0,Descrição
0,Carrinho de brinquedo para crianças com estrut...
1,"Boneca com cabelo macio, vestuário intercambiá..."
2,Conjunto de blocos de construção em diferentes...
3,"Quebra-cabeça com uma imagem deslumbrante, pro..."
4,"Trenzinho elétrico com trilhos e vagões, movid..."
5,Brinquedo interativo que ajuda no desenvolvime...
6,Conjunto de roupas de banho coloridas e confor...
7,Carro de controle remoto com alta velocidade e...
8,"Kit completo com tintas, pincéis e papel para ..."
9,"Boneca interativa que fala e canta, com difere..."


### Definição de categorias e função de categorização

1. **Criação da lista de categorias**:
   - Uma lista chamada `categorias` é criada com os itens `'ferramentas'`, `'eletrônicos'`, `'beleza'`, `'brinquedos'`, e `'cozinha'`. Essas categorias representam os grupos possíveis para classificar descrições de produtos.

2. **Definição da função `categorizar`**:
   - A função `categorizar(descricao)` recebe uma descrição de produto como argumento.
   - Utiliza o pipeline de classificação (`classificador`) para predizer a categoria da descrição, comparando-a com as categorias fornecidas na lista.
   - O parâmetro `multi_label=False` indica que apenas uma categoria será atribuída para cada descrição.
   - A função calcula a categoria com a maior pontuação (probabilidade) usando `max()` e a retorna. Isso é feito comparando os pares `(categoria, pontuação)` para determinar a categoria mais provável.



In [None]:
categorias = ['ferramentas', 'eletrônicos', 'beleza', 'brinquedos', 'cozinha']

def categorizar(descricao):
  resultado = classificador(descricao, categorias, multi_label=False)
  categoria_max = max(zip(resultado['labels'],resultado['scores']), key=lambda x: x[1])[0]
  return categoria_max

### Aplicação e visualização das categorias no DataFrame

1. **Aplicação da função de categorização**:
   - A função `categorizar` é aplicada em cada linha da coluna `'Descrição'` do DataFrame `dados` usando o método `.apply()`. Essa função analisa o conteúdo da descrição e identifica a categoria mais provável para cada item.
   - O resultado de cada categorização é armazenado em uma nova coluna, chamada `'Categoria'`, onde cada linha do DataFrame passa a ter uma categoria associada à sua respectiva descrição.

2. **Visualização do DataFrame com as categorias**:
   - Após a categorização, o DataFrame `dados` é ordenado pela coluna `'Categoria'` usando o método `.sort_values()`. Isso organiza os dados em grupos por categoria, facilitando a visualização e análise dos itens dentro de cada uma.


In [None]:
dados['Categoria'] = dados['Descrição'].apply(categorizar)
dados.sort_values(by=['Categoria'])

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Unnamed: 0,Descrição,Categoria
16,Creme enriquecido com nutrientes para hidratar...,beleza
19,"Pó compacto para aplicação fácil e uniforme, p...",beleza
18,Desodorante em srapy com fórmula antitranspira...,beleza
17,Shampoo formulado para combater e prevenir a c...,beleza
15,Cadeira ajustável e confortável para uso em sa...,beleza
14,Secador de cabelo com várias configurações de ...,beleza
13,Sérum facial de vitaminca C com fórmula bifási...,beleza
12,Máscara de aplicação fácil que fornece uma int...,beleza
11,Creme facial formulado para reduzir sinais de ...,beleza
10,"Conjunto de maquiagem com base, corretivo, som...",beleza


### Criação da Interface para Classificação de Produtos

1. **Configuração da Interface**:
   - Utiliza `gr.Interface` para criar uma interface onde o usuário insere uma descrição de produto e recebe uma categoria prevista.

2. **Função de Classificação**:
   - A interface usa a função `categorizar` para processar a descrição do produto e prever a categoria correspondente.

3. **Elementos da Interface**:
   - **Campo de Entrada**: Um `Textbox` para a "Descrição do Produto", onde o usuário digita a descrição a ser classificada.
   - **Campo de Saída**: Outro `Textbox` que exibe a "Categoria Prevista" para o produto.
   - **Título e Descrição**: A interface tem um título, "Classificação de Produtos por Categoria", e uma descrição que orienta o usuário sobre a funcionalidade.

4. **Lançamento da Aplicação**:
   - A aplicação é lançada com `app.launch(share=True)`, permitindo que a interface seja temporariamente acessível para compartilhamento.

Essa interface torna a classificação automática de produtos prática e interativa para o usuário, facilitando a categorização com uma descrição simples.

In [None]:
app = gr.Interface(
    fn=categorizar,
    inputs=gr.Textbox(label="Descrição do Produto", placeholder="Digite a descrição do produto"),
    outputs=gr.Textbox(label="Categoria Prevista"),
    title="Classificação de Produtos por Categoria",
    description="Digite a descrição de um produto para classificá-lo automaticamente em uma categoria."
)

app.launch(share=True)

Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
* Running on public URL: https://3a0f7bf51cc47a3dc9.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)


