In [1]:
import pandas as pd
import json
import os
from bs4 import BeautifulSoup
import re
from unidecode import unidecode

import warnings
warnings.filterwarnings("ignore")

In [2]:
def cleanHTML(html):
    """Formata o HTML recebido e retorna somente o texto"""
    return BeautifulSoup(html, "html.parser").text

In [3]:
def refineCategory(categories:list) -> list:
    """Dado o padrão com que as categorias são recebidas, retorna uma lista com os elementos exclusivos contidos nas categorias"""
    elements = []
    for cat in categories:
        c = cat.split("/")
        for element in c:
            if element != "":
                elements.append(element)
    elements = list(set(elements))
    elements = [unidecode(element.upper()) for element in elements]
    return elements

In [4]:
def normText(text:str) -> str:
    """Normaliza o texto retirando acentuação e colocando totalmente em letras maiúsculas"""
    return unidecode(text).upper()

In [7]:
json_file_names = [filename for filename in os.listdir("D:/Users/joaom/Pucrs/6° SEMESTRE/Projeto em Ciência de Dados I/Dataset Kobe") if filename.endswith('.json')]
json_file_names

['multi_100_to_149.json',
 'multi_150_to_199.json',
 'muti_200_to_249.json',
 'produtos_multi.json']

In [8]:
produtos = pd.DataFrame()

for json_file in json_file_names:
    produtos = pd.concat([produtos,pd.read_json(rf"D:/Users/joaom/Pucrs/6° SEMESTRE/Projeto em Ciência de Dados I/Dataset Kobe/{json_file}")]).reset_index(drop=True)

In [9]:
colunas = ["productId","productName","brand","metaTagDescription","description","categories","linkText","link"]
df_filtrado = produtos[colunas]

In [10]:
df_filtrado["description"] = df_filtrado["description"].apply(cleanHTML)
df_filtrado["description"] = df_filtrado["description"].str.replace("\n","")
df_filtrado["description"] = df_filtrado["description"].str.replace("\r","")
# df_filtrado["description"] = df_filtrado["description"].apply(normText)
df_filtrado["description"]

0      O fone de ouvido Sony traz o novo processador ...
1      Evolve BT Multilaser, um novo conceito em som ...
2      O seu cão feliz e sua casa mais limpa O tapete...
3      A Mochila Executive te oferece conforto, prati...
4      Smartphones. tablets e outros dispositivos.Has...
                             ...                        
195    Com a Balança Digital BioHealth da linha Multi...
196    O Monitor De Pressão De Pulso da linha Multi S...
197    MOMENTO DE TRANQUILIDADE COM O DIFUSOR DE AROM...
198    Qualidade sonora surpreendenteIdeal para smart...
199    LIVRE-SE DEFINITIVAMENTE DOS PELOS SEM DORSUA ...
Name: description, Length: 200, dtype: object

In [11]:
df_filtrado["filtered_categories"] = df_filtrado["categories"].apply(refineCategory)
df_filtrado["filtered_categories"]

0      [AUDIO, FONES DE OUVIDO, FONE DE OUVIDO BLUETO...
1      [MULTILASER, AUTOMOTIVO, RADIO PARA CARRO, SOM...
2      [HIGIENE, BLUE, CACHORROS, MULTILASER, MIMO, T...
3      [MULTILASER, INFORMATICA E TABLETS, BOLSAS, MO...
4      [MULTILASER, SMARTPHONES E CELULARES, ACESSORI...
                             ...                        
195    [MULTILASER, CONTROLE DO PESO, SAUDE E BEM EST...
196    [MULTILASER, SAUDE E BEM ESTAR, MONITORES DE P...
197    [MULTILASER, DIFUSOR DE AROMAS, SAUDE E BEM ES...
198    [MULTILASER, SMARTPHONES E CELULARES, ACESSORI...
199    [CUIDADOS COM A PELE, BELEZA, MULTILASER, MULT...
Name: filtered_categories, Length: 200, dtype: object

In [27]:
# df_filtrado["productName"] = df_filtrado["productName"].apply(normText)
# df_filtrado["metaTagDescription"] = df_filtrado["metaTagDescription"].apply(normText)

In [12]:
df_filtrado["description"][0]

'O fone de ouvido Sony traz o novo processador HDQN1 foi reconfigurado e ficou muito mais rápido. conseguindo analisar até 700x por segundo a informação que recebe. e assim cancelar o ruído de maneira muito mais rápida e eficaz. Além disso. possui o sistema SoC (System on Chip) no Bluetooth que auxilia na agilidade do processamento de dados e qualidade de áudio. Usando o Edge-AI (inteligência artificial). o DSEE Extreme™ aprimora os arquivos de música digital compactados em tempo real. Ele restaura o som de alto alcance perdido na compactação. reconhecendo dinamicamente instrumentos. gêneros musicais e elementos individuais das músicas. como vocais ou interlúdios. para uma experiência de audição mais rica e completa. O LDAC transmite cerca de três vezes mais dados (a uma taxa de transferência máxima de 990 Kbps) que o áudio BLUETOOTH convencional. permitindo que você curta conteúdo de Áudio de alta resolução com qualidade. o mais próximo possível de uma conexão com fio dedicada. Quando

In [30]:
display(df_filtrado[0:5])

Unnamed: 0,productId,productName,brand,metaTagDescription,description,categories,linkText,link,filtered_categories
0,8745,Fone de Ouvido Sony Sem Fio Preto - WH1000XM4BMUC,Sony,"Mergulhe no som ao seu redor, tão real quanto ...",O fone de ouvido Sony traz o novo processador ...,"[/Sony/Fone de Ouvido Bluetooth/, /Sony/, /Mul...",fone-de-ouvido-sem-fio-sony-preto-wh1000xm4bmuc,https://multilaser.vtexcommercestable.com.br/f...,"[AUDIO, FONES DE OUVIDO, FONE DE OUVIDO BLUETO..."
1,8533,Som Automotivo Evolve BT 4x35W RMS 12V Multila...,Multilaser,"Evolve BT Multilaser, um novo conceito em som ...","Evolve BT Multilaser, um novo conceito em som ...",[/Multilaser/Automotivo/Som Automotivo/Rádio p...,som-automotivo-evolve-bt-4x35w-rms-12v-multila...,https://multilaser.vtexcommercestable.com.br/s...,"[MULTILASER, AUTOMOTIVO, RADIO PARA CARRO, SOM..."
2,8476,Tapete Higiênico One Pads 30 unidades 70x60cm ...,Blue,Os tapetes higiênicos One Pads ajudam a manter...,O seu cão feliz e sua casa mais limpa O tapete...,"[/Mimo/Cachorros/Higiene/Tapete Higiênico/, /M...",tapete-higienico-one-pads-30-unidades-70x60cm-...,https://multilaser.vtexcommercestable.com.br/t...,"[HIGIENE, BLUE, CACHORROS, MULTILASER, MIMO, T..."
3,8424,Mochila Executive Para Notebook até 15.6 Pol P...,Multilaser,"Conforto, praticidade e design onde você for!","A Mochila Executive te oferece conforto, prati...",[/Multilaser/Informática e Tablets/Informática...,mochila-executiva-para-notebook-at-156-pol-pre...,https://multilaser.vtexcommercestable.com.br/m...,"[MULTILASER, INFORMATICA E TABLETS, BOLSAS, MO..."
4,8276,Fone de Ouvido Pop Bluetooth P2 Preto Multilas...,Multilaser,Os Melhores Fones de Ouvido Aqui! Adquira o Fo...,Smartphones. tablets e outros dispositivos.Has...,[/Multilaser/Smartphones e Celulares/Acessório...,fone-de-ouvido-pop-bluetooth-p2-preto-multilas...,https://multilaser.vtexcommercestable.com.br/f...,"[MULTILASER, SMARTPHONES E CELULARES, ACESSORI..."


In [29]:
df_filtrado.to_csv('./PROCESS.csv', index=False)

___
# Modelo
___


## BERTimbau Base (aka "bert-base-portuguese-cased")

https://huggingface.co/neuralmind/bert-base-portuguese-cased

In [30]:
from transformers import AutoTokenizer  # Or BertTokenizer
from transformers import AutoModelForPreTraining  # Or BertForPreTraining for loading pretraining heads
from transformers import AutoModel  # or BertModel, for BERT without pretraining heads

model_name = 'rufimelo/Legal-BERTimbau-base'
model = AutoModelForPreTraining.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name, do_lower_case=False)

Downloading (…)lve/main/config.json: 100%|██████████| 863/863 [00:00<00:00, 847kB/s]
Downloading pytorch_model.bin: 100%|██████████| 436M/436M [00:40<00:00, 10.7MB/s] 
Some weights of BertForPreTraining were not initialized from the model checkpoint at rufimelo/Legal-BERTimbau-base and are newly initialized: ['bert.pooler.dense.bias', 'cls.seq_relationship.bias', 'cls.seq_relationship.weight', 'bert.pooler.dense.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
Downloading (…)okenizer_config.json: 100%|██████████| 567/567 [00:00<00:00, 420kB/s]
Downloading (…)solve/main/vocab.txt: 100%|██████████| 210k/210k [00:00<00:00, 964kB/s] 
Downloading (…)cial_tokens_map.json: 100%|██████████| 125/125 [00:00<00:00, 115kB/s]


In [31]:
from transformers import pipeline

pipe = pipeline('fill-mask', model=model_name, tokenizer=tokenizer)

pipe('Mochila Executiva Para [MASK].')

[{'score': 0.08811705559492111,
  'token': 119,
  'token_str': '.',
  'sequence': 'Mochila Executive Para..'},
 {'score': 0.06688158214092255,
  'token': 131,
  'token_str': ':',
  'sequence': 'Mochila Executive Para :.'},
 {'score': 0.04625271260738373,
  'token': 705,
  'token_str': '##gem',
  'sequence': 'Mochila Executive Paragem.'},
 {'score': 0.018698927015066147,
  'token': 3872,
  'token_str': 'transporte',
  'sequence': 'Mochila Executive Para transporte.'},
 {'score': 0.016532042995095253,
  'token': 4859,
  'token_str': 'Todos',
  'sequence': 'Mochila Executive Para Todos.'}]

## pierreguillou/bert-large-cased-squad-v1.1-portuguese

https://huggingface.co/pierreguillou/bert-large-cased-squad-v1.1-portuguese

In [32]:
# import transformers
# from transformers import pipeline

# source: https://pt.wikipedia.org/wiki/Pandemia_de_COVID-19
context = r"""
A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, 
uma doença respiratória causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). 
O vírus tem origem zoonótica e o primeiro caso conhecido da doença remonta a dezembro de 2019 em Wuhan, na China. 
Em 20 de janeiro de 2020, a Organização Mundial da Saúde (OMS) classificou o surto 
como Emergência de Saúde Pública de Âmbito Internacional e, em 11 de março de 2020, como pandemia. 
Em 18 de junho de 2021, 177 349 274 casos foram confirmados em 192 países e territórios, 
com 3 840 181 mortes atribuídas à doença, tornando-se uma das pandemias mais mortais da história.
Os sintomas de COVID-19 são altamente variáveis, variando de nenhum a doenças com risco de morte. 
O vírus se espalha principalmente pelo ar quando as pessoas estão perto umas das outras. 
Ele deixa uma pessoa infectada quando ela respira, tosse, espirra ou fala e entra em outra pessoa pela boca, nariz ou olhos.
Ele também pode se espalhar através de superfícies contaminadas. 
As pessoas permanecem contagiosas por até duas semanas e podem espalhar o vírus mesmo se forem assintomáticas.
"""

model_name = 'pierreguillou/bert-large-cased-squad-v1.1-portuguese'
nlp = pipeline("question-answering", model=model_name)

question = "Quando começou a pandemia de Covid-19 no mundo?"

result = nlp(question=question, context=context)

print(f"Answer: '{result['answer']}', score: {round(result['score'], 4)}, start: {result['start']}, end: {result['end']}")

# Answer: 'dezembro de 2019', score: 0.5087, start: 290, end: 306


Downloading (…)lve/main/config.json: 100%|██████████| 918/918 [00:00<00:00, 539kB/s]
Downloading pytorch_model.bin: 100%|██████████| 1.33G/1.33G [02:15<00:00, 9.86MB/s]
Downloading (…)okenizer_config.json: 100%|██████████| 506/506 [00:00<00:00, 193kB/s]
Downloading (…)solve/main/vocab.txt: 100%|██████████| 210k/210k [00:00<00:00, 264kB/s]
Downloading (…)cial_tokens_map.json: 100%|██████████| 112/112 [00:00<00:00, 86.4kB/s]


Answer: 'dezembro de 2019', score: 0.5087, start: 290, end: 306


In [52]:
for texto in df_filtrado["description"][0:10]:
    context = texto
    print(context)

    question = "De qual produto está sendo falado?"

    result = nlp(question=question,context=context) #Contexto deve sempre estar preenchido

    print(f"Produto: '{result['answer']}', score: {round(result['score'], 4)}, start: {result['start']}, end: {result['end']}")

    question = "Qual a marca deste produto?"
    result = nlp(question=question,context=context) #Contexto deve sempre estar preenchido

    print(f"Marca: '{result['answer']}', score: {round(result['score'], 4)}, start: {result['start']}, end: {result['end']}")
    print()

O fone de ouvido Sony traz o novo processador HDQN1 foi reconfigurado e ficou muito mais rápido. conseguindo analisar até 700x por segundo a informação que recebe. e assim cancelar o ruído de maneira muito mais rápida e eficaz. Além disso. possui o sistema SoC (System on Chip) no Bluetooth que auxilia na agilidade do processamento de dados e qualidade de áudio. Usando o Edge-AI (inteligência artificial). o DSEE Extreme™ aprimora os arquivos de música digital compactados em tempo real. Ele restaura o som de alto alcance perdido na compactação. reconhecendo dinamicamente instrumentos. gêneros musicais e elementos individuais das músicas. como vocais ou interlúdios. para uma experiência de audição mais rica e completa. O LDAC transmite cerca de três vezes mais dados (a uma taxa de transferência máxima de 990 Kbps) que o áudio BLUETOOTH convencional. permitindo que você curta conteúdo de Áudio de alta resolução com qualidade. o mais próximo possível de uma conexão com fio dedicada. Quando 

___
# Rede Neural
___

In [16]:
def getText(text:str):
    if "setup" in text.lower():
        return text

In [17]:
df_filtrado["description"].apply(getText)

0      None
1      None
2      None
3      None
4      None
       ... 
245    None
246    None
247    None
248    None
249    None
Name: description, Length: 250, dtype: object

___
# NLP Clássico
___

impor

In [None]:
df_filtrado["filtered_categories"].value_counts()

In [11]:
def uniqueCategories(categories:pd.Series):
    values = []
    for category in categories:
        values.extend(category)
    values = list(set(values))
    print(len(values))
    print((values))


In [12]:
uniqueCategories(df_filtrado["filtered_categories"])

223
['INFORMATICA E TABLETS', 'LAMPADA INTELIGENTE', 'RADIO PARA CARRO', 'PLASTICOS, QUADROS, FLAGS E BLOCOS ADESIVOS', 'CONVERSOR DIGITAL', 'NOKIA', 'CURATIVOS', 'ZTE', 'CADEIRAS PARA AUTO', 'CUIDADOS COM A PELE', 'PIPOQUEIRAS', 'ACESSORIOS AUTOMOTIVO', 'TENS', 'NOTEBOOKS', 'REFIL DE ESCOVA ELETRICA', 'MTB', 'MICROSOFT', 'TRATAMENTO MUSCULAR', 'SECADOR', 'BALANCAS DIGITAIS', 'FONE DE OUVIDO BLUETOOTH', 'TELAS', 'LIMPEZA', 'CHAPINHA', 'PATINETES ELETRICOS MOBILIDADE', 'VELAS AROMATICAS', 'NOSSA COZINHA', 'MULTIKIDSBABY', 'CAMERAS E SENSORES', 'JOGOS DIVERSOS', 'SMART 4K', 'MONITORES', 'MOUSE', 'MULTI E', 'FERRAMENTAS', 'MASCARA ADULTA', 'EARPHONE', 'SMARTPHONE', 'CONTRA INSETOS', 'ROTEADORES', 'PARA PREPARAR', 'MOUSE PAD', 'MIXER', 'CENTRAIS MULTIMIDIA', 'LAR', 'PATINETES ELETRICOS', 'BLOCOS ADESIVOS', 'RESPIRACAO', 'ACESSORIOS PESSOAIS', 'MULTILASER', 'ESTETOSCOPIO SIMPLES', 'HIGIENE E SAUDE', 'TELAS, AUDIO E VIDEO', 'ARTIGOS PARA ESCRITORIO', 'BOLSAS, MOCHILAS, CASES E PASTAS', 'SUPR