# NLP: trabalhando com similaridade de sentenças

## 01. Buscando a similaridade

### Entendendo as reviews

In [1]:
import pandas as pd

In [2]:
url = 'https://raw.githubusercontent.com/Mirlaa/NLP-trabalhando-similaridade-sentencas/refs/heads/main/reviews_zoop.csv'

In [3]:
dados = pd.read_csv(url)
dados

Unnamed: 0,nota_review,review
0,5,Recebi bem antes do prazo estipulado.
1,5,Parabéns lojas Zoop adorei comprar pela Intern...
2,4,aparelho eficiente. no site a marca do aparelh...
3,4,"Mas um pouco ,travando...pelo valor ta Boa.\r\n"
4,5,"Vendedor confiável, produto ok e entrega antes..."
...,...,...
39457,5,Entregou dentro do prazo. O produto chegou em ...
39458,3,"O produto não foi enviado com NF, não existe v..."
39459,5,"Excelente mochila, entrega super rápida. Super..."
39460,1,Solicitei a compra de uma capa de retrovisor c...


In [4]:
dados.loc[1, 'review']

'Parabéns lojas Zoop adorei comprar pela Internet seguro e prático Parabéns a todos feliz Páscoa'

In [5]:
dados.loc[8, 'review']

'A compra foi realizada facilmente.\r\nA entrega foi efetuada muito antes do prazo dado.\r\nO produto já começou a ser usado e até o presente,\r\nsem problemas.'

In [6]:
dados.loc[11, 'review']

'Sempre compro pela Internet e a entrega ocorre antes do prazo combinado, que acredito ser o prazo máximo. No  o prazo máximo já se esgotou e ainda não recebi o produto.'

In [7]:
dados.loc[18, 'review']

'otimo vendedor chegou ate antes do prazo , adorei o produto'

### Encontrando a similaridade entre as palavras

In [8]:
from nltk.tokenize import word_tokenize
from functools import partial

word_tokenize_pt = partial(word_tokenize, language='portuguese')

In [9]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     /home/cristoffer_pogan/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [10]:
from gensim.models import Word2Vec

modelo = Word2Vec(
    sentences=dados['review'].apply(word_tokenize_pt),
    vector_size=100,
    min_count=1,
    window=5,
    workers=1,
    seed=45
)

In [11]:
modelo.wv.most_similar('entrega')

[('Entrega', 0.7498418092727661),
 ('entregue', 0.7159781455993652),
 ('compra', 0.7053419947624207),
 ('chegou', 0.684488832950592),
 ('entregou', 0.6609741449356079),
 ('envio', 0.6265928745269775),
 ('preparar', 0.6262397170066833),
 ('Chegou', 0.6237499117851257),
 ('cadastrado', 0.6185978055000305),
 ('mercadoria', 0.6085348725318909)]

In [12]:
modelo.wv.most_similar('vendedor')

[('atendimento', 0.8561373353004456),
 ('serviço', 0.8025533556938171),
 ('fornecedor', 0.758338451385498),
 ('veiculo', 0.7335066199302673),
 ('produto', 0.722102701663971),
 ('parceiro', 0.6946040987968445),
 ('processo', 0.6933586597442627),
 ('cumpriram', 0.693082869052887),
 ('joystick', 0.6896744966506958),
 ('produto/lindo', 0.680659830570221)]

In [13]:
modelo.wv.most_similar('produto')

[('relógio', 0.7583332657814026),
 ('pedido', 0.7512000799179077),
 ('vendedor', 0.722102701663971),
 ('endereço', 0.7047474384307861),
 ('Produto', 0.7023006677627563),
 ('mesmo', 0.6931533217430115),
 ('tempo', 0.6783879399299622),
 ('Mas', 0.6685039401054382),
 ('porém', 0.6542227864265442),
 ('precisao', 0.6458510756492615)]

### Para saber mais: o que é o Word2Vec

O Word2Vec é uma ferramenta que permite compreender o significado das **palavras** com base no **contexto** em que elas aparecem. Introduzido no artigo [*Efficient Estimation of Word Representations in Vector Space*](https://arxiv.org/pdf/1301.3781) em 2013 por pesquisadores do Google, o Word2Vec permite que computadores reconheçam palavras que têm significados parecidos e as "aproximem" dentro de um espaço matemático, chamado de **espaço vetorial**.

A lógica por trás do Word2Vec é simples: palavras que aparecem em contextos semelhantes provavelmente têm significados parecidos. Imagine as palavras “*gato*”, “*filhote*” e “*gatinho*“. Elas podem ser usadas em contextos similares, como em frases com palavras como “*fofinho*”, “*bonito*” e “*adorável*”. Por isso, o Word2Vec posiciona essas palavras próximas umas das outras em seu mapa vetorial de palavras - o espaço vetorial. Isso só funciona porque o Word2Vec consegue representar cada palavra por um conjunto de números, chamados de **vetores**, que preservam essas semelhanças.

Uma das inovações mais interessantes do Word2Vec é que ele permite fazer operações com esses vetores, que mostram relações entre palavras. Por exemplo, ele consegue entender que a relação entre “rei” e “rainha” é parecida com a relação entre “homem” e “mulher”. Isso porque ele faz uma conta nos vetores das palavras parar encontrar essas ligações semânticas, alfgo assim como `rei - homem + mulher ≃ rainha`, segundo informa sua [documentação](https://radimrehurek.com/gensim/auto_examples/tutorials/run_word2vec.html#sphx-glr-auto-examples-tutorials-run-word2vec-py).

Para realizar isso, o Word2Vec utiliza duas maneiras de aprender os contextos das palavras: ele pode tanto “adivinhar/sugerir” uma palavra com base nas palavras próximas a ela ou identificar palavras ao redor de uma palavra central. Essas duas técnicas ajudam o modelo a entender o uso e o significado das palavras de uma forma completa, mas são processos internos que o usuário não precisa configurar manualmente. Se desejar saber mais, recomendo você a explorar a [documentação do Word2Vec](https://radimrehurek.com/gensim/models/word2vec.html), onde há explicações mais técnicas.

O Word2Vec foi amplamente adotado e já está disponível em várias linguagens de programação, com uma versão popular em Python na biblioteca [Gensim](https://radimrehurek.com/gensim/index.html). Isso torna o Word2Vec acessível para muitas aplicações de linguagem natural, como sistemas de recomendação, tradução automática, e classificação de textos. Além disso, o Word2Vec facilita o uso desses vetores em tarefas de agrupamento ([clustering](https://www.alura.com.br/artigos/machine-learning#:~:text=de%20classifica%C3%A7%C3%A3o.-,K%2Dmeans%20clustering,-O%20algoritmo%20de)) e detecção de similaridade entre palavras ou frases, tornando-se uma ferramenta bem conhecida em NLP (Processamento de Linguagem Natural).

### Encontrando a similaridade entre sentenças

In [14]:
dados['review_token'] = dados['review'].apply(word_tokenize_pt)

In [15]:
from gensim.models.doc2vec import TaggedDocument

dados_tag = [TaggedDocument(words=linha['review_token'], tags=[str(i)]) for i, linha in dados.iterrows()]

In [16]:
dados_tag[:10]

[TaggedDocument(words=['Recebi', 'bem', 'antes', 'do', 'prazo', 'estipulado', '.'], tags=['0']),
 TaggedDocument(words=['Parabéns', 'lojas', 'Zoop', 'adorei', 'comprar', 'pela', 'Internet', 'seguro', 'e', 'prático', 'Parabéns', 'a', 'todos', 'feliz', 'Páscoa'], tags=['1']),
 TaggedDocument(words=['aparelho', 'eficiente', '.', 'no', 'site', 'a', 'marca', 'do', 'aparelho', 'esta', 'impresso', 'como', '3desinfector', 'e', 'ao', 'chegar', 'esta', 'com', 'outro', 'nome', '...', 'atualizar', 'com', 'a', 'marca', 'correta', 'uma', 'vez', 'que', 'é', 'o', 'mesmo', 'aparelho'], tags=['2']),
 TaggedDocument(words=['Mas', 'um', 'pouco', ',', 'travando', '...', 'pelo', 'valor', 'ta', 'Boa', '.'], tags=['3']),
 TaggedDocument(words=['Vendedor', 'confiável', ',', 'produto', 'ok', 'e', 'entrega', 'antes', 'do', 'prazo', '.'], tags=['4']),
 TaggedDocument(words=['GOSTARIA', 'DE', 'SABER', 'O', 'QUE', 'HOUVE', ',', 'SEMPRE', 'RECEBI', 'E', 'ESSA', 'COMPRA', 'AGORA', 'ME', 'DECPCIONOU'], tags=['5']),
 T

In [17]:
from gensim.models import Doc2Vec

modelo = Doc2Vec(
    dados_tag,
    vector_size=100,
    min_count=2,
    window=2,
    workers=1,
    seed=45,
    epochs=20
)

In [18]:
vetor_inferido = modelo.infer_vector(['entrega'])
vetor_inferido

array([-0.11079632, -0.11661782,  0.0589161 , -0.04769255,  0.0426267 ,
        0.06790742, -0.04020266, -0.03714304, -0.00928332, -0.10257757,
       -0.0727789 , -0.01087988, -0.08662613,  0.07893309, -0.07188454,
       -0.06449367, -0.01680628,  0.06684663, -0.05465575,  0.02516714,
        0.02624136, -0.05613028,  0.10209514, -0.01114018, -0.02254769,
       -0.02509444, -0.11638889, -0.05027169, -0.01814787, -0.04193629,
        0.06392185, -0.01183351,  0.07421906,  0.06104642,  0.04848541,
        0.02243694, -0.08759743,  0.12767455, -0.1083685 , -0.00794186,
        0.0227665 ,  0.05983805,  0.02678579, -0.0245443 , -0.02416988,
       -0.12192062, -0.00607314,  0.03472563, -0.09147759, -0.01124905,
        0.02523114, -0.00704602,  0.01572832, -0.01857754,  0.10463165,
       -0.15280968, -0.00213643, -0.02727931, -0.00314973, -0.07413662,
        0.01094078,  0.00783683,  0.00939784, -0.04749319, -0.00395508,
       -0.02454654,  0.03499888, -0.0197158 ,  0.01911379,  0.02

In [19]:
frases_similares = modelo.dv.most_similar([vetor_inferido], topn=5)
frases_similares

[('24666', 0.8535433411598206),
 ('9304', 0.8445022106170654),
 ('33496', 0.8391063213348389),
 ('7314', 0.8352361917495728),
 ('15297', 0.8334299921989441)]

In [20]:
for idx, similaridade in frases_similares:
    print(f"Review: {dados.loc[int(idx), 'review']} - Similaridade: {similaridade:.4f}%")

Review: entrega antes do prazo - Similaridade: 0.8535%
Review: entrega no prazo. - Similaridade: 0.8445%
Review: Ainda estou esperando a entrega!  - Similaridade: 0.8391%
Review: entrega antes do prazo. - Similaridade: 0.8352%
Review: Muito satisfeito com os produtos e entrega. - Similaridade: 0.8334%


### Para saber mais: o que é o Doc2Vec

O Doc2Vec é um modelo de aprendizado de máquina apresentado em 2014 por Quoc Le e Tomas Mikolov no paper [*Distributed Representations of Sentences and Documents*](https://cs.stanford.edu/~quocle/paragraph_vector.pdf), que permite **representar documentos, parágrafos ou frases como vetores** em um espaço contínuo, de forma que textos com conteúdos semelhantes fiquem próximos entre si. Criado para superar as limitações de métodos tradicionais, que representam textos apenas pela frequência de palavras, o Doc2Vec captura a ordem e o contexto em que elas aparecem, o que enriquece a representação do significado geral do texto.

No Doc2Vec, cada documento é mapeado para um vetor único, chamado de vetor de documento. O modelo funciona com duas abordagens principais: o método *Distributed Memory* (PV-DM) e o método *Distributed Bag of Words* (PV-DBOW). Como informado em sua [documentação](https://radimrehurek.com/gensim/auto_examples/tutorials/run_doc2vec_lee.html#sphx-glr-auto-examples-tutorials-run-doc2vec-lee-py), PV-DM, o modelo usa as palavras ao redor de uma palavra central e o vetor do documento como contexto para prever a palavra central. Assim, o vetor do documento, que é “lembrado” durante o processo de treinamento, ajuda o modelo a capturar o tema geral do texto.

Já no PV-DBOW, o modelo utiliza apenas o vetor do documento para prever palavras aleatórias dentro dele, focando mais na identificação de palavras representativas do conteúdo geral do texto. Com isso, ambos os métodos permitem que o modelo gere vetores que representam com precisão o conteúdo semântico de documentos inteiros.

O processo de utilização do Doc2Vec envolve etapas como a limpeza e a preparação dos textos, seguidas pelo treinamento do modelo em um corpus de documentos, para que cada um deles seja mapeado para um único vetor. Quando um novo documento é analisado, o modelo infere um vetor com base nas representções aprendidas, permitindo comparações e análises semânticas com documentos já treinados.

O Doc2Vec encontra os vetores mais similares calculando a similaridade entre o vetor do documento-alvo e os vetores dos demais documentos no conjunto de dados. Após treinar o modelo, cada documento recebe um vetor único que o representa. Para encontrar documentos semelhantes, o modelo simplesmente compara o vetor do documento-alvo com os vetores armazenados de outros documentos, identificando os mais próximos de acordo com a métrica de similaridade escolhida.

Tradicionalmente, a métrica escolhida é a **similaridade de cosseno**. Essa medida calcula o ângulo entre os vetores de dois documentos. Quanto menor o ângulo, mais próximos os documentos estão em termos de conteúdo. Desse modo, a similaridade de cosseno vai indicar como os documentos se relacionam no espaço vetorial, independentemente da diferença na magnitude dos vetores.

Para você explorar mais a fundo, a [documentação oficial do Doc2Vec no Gensim](https://radimrehurek.com/gensim/models/doc2vec.html) oferece explicações detalhadas sobre o funcionamento do modelo e suas aplicações práticas.

## 02. Ajustando os textos de review

### Iniciando o tratamento do texto

In [21]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     /home/cristoffer_pogan/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [22]:
import re
from nltk.corpus import stopwords


def tratamento_inicial(texto: str) -> str:
    texto = re.sub(r'\W', ' ', texto.lower())
    tokens = word_tokenize_pt(texto)
    stop_words = set(stopwords.words('portuguese'))
    stop_words.discard('não')
    return ' '.join([w for w in tokens if w not in stop_words])

In [23]:
dados['tratamento_1'] = dados['review'].apply(tratamento_inicial)

In [24]:
dados['tratamento_1']

0                        recebi bem antes prazo estipulado
1        parabéns lojas zoop adorei comprar internet se...
2        aparelho eficiente site marca aparelho impress...
3                              pouco travando valor ta boa
4        vendedor confiável produto ok entrega antes prazo
                               ...                        
39457    entregou dentro prazo produto chegou condições...
39458    produto não enviado nf não existe venda nf cer...
39459    excelente mochila entrega super rápida super r...
39460    solicitei compra capa retrovisor celta prisma ...
39461    produto chegou ja devolver pois defeito não se...
Name: tratamento_1, Length: 39462, dtype: object

In [25]:
dados.loc[11, 'review']

'Sempre compro pela Internet e a entrega ocorre antes do prazo combinado, que acredito ser o prazo máximo. No  o prazo máximo já se esgotou e ainda não recebi o produto.'

In [26]:
dados.loc[11, 'tratamento_1']

'sempre compro internet entrega ocorre antes prazo combinado acredito prazo máximo prazo máximo esgotou ainda não recebi produto'

### Uniformizando o texto

In [27]:
from unidecode import unidecode

sem_acentos = [unidecode(texto) for texto in dados['tratamento_1']]

In [28]:
dados['tratamento_2'] = sem_acentos
dados['tratamento_2']

0                        recebi bem antes prazo estipulado
1        parabens lojas zoop adorei comprar internet se...
2        aparelho eficiente site marca aparelho impress...
3                              pouco travando valor ta boa
4        vendedor confiavel produto ok entrega antes prazo
                               ...                        
39457    entregou dentro prazo produto chegou condicoes...
39458    produto nao enviado nf nao existe venda nf cer...
39459    excelente mochila entrega super rapida super r...
39460    solicitei compra capa retrovisor celta prisma ...
39461    produto chegou ja devolver pois defeito nao se...
Name: tratamento_2, Length: 39462, dtype: object

In [29]:
dados['review_token'] = dados['tratamento_2'].apply(word_tokenize_pt)
dados_tag = [TaggedDocument(words=linha['review_token'], tags=[str(i)]) for i, linha in dados.iterrows()]
modelo = Doc2Vec(dados_tag, vector_size=100, min_count=2, window=2, workers=1, seed=45, epochs=20)
frases_similares = modelo.dv.most_similar([modelo.infer_vector(['entrega'])], topn=5)
for idx, similaridade in frases_similares:
    print(f"Review: {dados.loc[int(idx), 'tratamento_2']} - Similaridade: {similaridade:.4f}%")

Review: prazo entrega gigante assim conseguiram atrasar entrega - Similaridade: 0.8814%
Review: entrega prazo produto acordo anuncio - Similaridade: 0.8578%
Review: relogio lindo entrega antes prazo - Similaridade: 0.8554%
Review: entrega rapida - Similaridade: 0.8488%
Review: entrega prazo produto conforme solicitado - Similaridade: 0.8473%


### Executando correções nos dados

In [30]:
df = dados.drop_duplicates(subset=['tratamento_2'])
df

Unnamed: 0,nota_review,review,review_token,tratamento_1,tratamento_2
0,5,Recebi bem antes do prazo estipulado.,"[recebi, bem, antes, prazo, estipulado]",recebi bem antes prazo estipulado,recebi bem antes prazo estipulado
1,5,Parabéns lojas Zoop adorei comprar pela Intern...,"[parabens, lojas, zoop, adorei, comprar, inter...",parabéns lojas zoop adorei comprar internet se...,parabens lojas zoop adorei comprar internet se...
2,4,aparelho eficiente. no site a marca do aparelh...,"[aparelho, eficiente, site, marca, aparelho, i...",aparelho eficiente site marca aparelho impress...,aparelho eficiente site marca aparelho impress...
3,4,"Mas um pouco ,travando...pelo valor ta Boa.\r\n","[pouco, travando, valor, ta, boa]",pouco travando valor ta boa,pouco travando valor ta boa
4,5,"Vendedor confiável, produto ok e entrega antes...","[vendedor, confiavel, produto, ok, entrega, an...",vendedor confiável produto ok entrega antes prazo,vendedor confiavel produto ok entrega antes prazo
...,...,...,...,...,...
39457,5,Entregou dentro do prazo. O produto chegou em ...,"[entregou, dentro, prazo, produto, chegou, con...",entregou dentro prazo produto chegou condições...,entregou dentro prazo produto chegou condicoes...
39458,3,"O produto não foi enviado com NF, não existe v...","[produto, nao, enviado, nf, nao, existe, venda...",produto não enviado nf não existe venda nf cer...,produto nao enviado nf nao existe venda nf cer...
39459,5,"Excelente mochila, entrega super rápida. Super...","[excelente, mochila, entrega, super, rapida, s...",excelente mochila entrega super rápida super r...,excelente mochila entrega super rapida super r...
39460,1,Solicitei a compra de uma capa de retrovisor c...,"[solicitei, compra, capa, retrovisor, celta, p...",solicitei compra capa retrovisor celta prisma ...,solicitei compra capa retrovisor celta prisma ...


In [31]:
df.loc[120, 'review']

'A'

In [32]:
df.loc[120, 'tratamento_2']

''

In [33]:
df = df[df['tratamento_2'] != '']

In [34]:
df.loc[3319, 'tratamento_2']

'simplismeente ameiii'

In [35]:
df.loc[8354, 'tratamento_2']

'recebi rapido antes prazo otimo qualidade adoreii'

In [36]:
df.loc[12843, 'tratamento_2']

'produto chegou direitinho antes muuuito antes prazo superou expectativas'

In [37]:
def normalizar_repeticoes(texto: str) -> str:
    return re.sub(r'(?!rr|ss)(.)\1+', r'\1', texto)

In [38]:
df['tratamento_3'] = df['tratamento_2'].apply(normalizar_repeticoes)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['tratamento_3'] = df['tratamento_2'].apply(normalizar_repeticoes)


In [39]:
df.loc[3319, 'tratamento_3']

'simplismente amei'

In [40]:
df.loc[8354, 'tratamento_3']

'recebi rapido antes prazo otimo qualidade adorei'

In [41]:
df.reset_index(drop=True, inplace=True)

### Aplicando a Lematização

In [42]:
import stanza

stanza.download('pt')

  from .autonotebook import tqdm as notebook_tqdm
Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.9.0.json: 392kB [00:00, 40.3MB/s]                                  
2025-05-21 09:25:38 INFO: Downloaded file to /home/cristoffer_pogan/stanza_resources/resources.json
2025-05-21 09:25:38 INFO: Downloading default packages for language: pt (Portuguese) ...
2025-05-21 09:25:39 INFO: File exists: /home/cristoffer_pogan/stanza_resources/pt/default.zip
2025-05-21 09:25:41 INFO: Finished downloading models and saved to /home/cristoffer_pogan/stanza_resources


In [43]:
nlp = stanza.Pipeline(
    lang='pt',
    processors='tokenize, lemma',
    use_gpu=False,
    batch_size=64,
    n_process=4
)

2025-05-21 09:25:41 INFO: Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES
Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.9.0.json: 392kB [00:00, 37.5MB/s]                                  
2025-05-21 09:25:41 INFO: Downloaded file to /home/cristoffer_pogan/stanza_resources/resources.json
2025-05-21 09:25:41 INFO: Loading these models for language: pt (Portuguese):
| Processor | Package         |
-------------------------------
| tokenize  | bosque          |
| mwt       | bosque          |
| lemma     | bosque_nocharlm |

2025-05-21 09:25:41 INFO: Using device: cpu
2025-05-21 09:25:41 INFO: Loading: tokenize
2025-05-21 09:25:42 INFO: Loading: mwt
2025-05-21 09:25:42 INFO: Loading: lemma
2025-05-21 09:25:42 INFO: Done loading processors!


In [44]:
def lematizar_textos(textos):
    textos_lematizados = []
    for texto in textos:
        doc_frase = nlp(texto)
        frase_lematizada = ' '.join([palavra.lemma for frase in doc_frase.sentences for palavra in frase.words])
        textos_lematizados.append(frase_lematizada)

    return textos_lematizados

In [45]:
textos = [
    'gostei muito experiencia comprar',
    'minha filha gostou produto',
    'compra foi facil compra rapida'
]
lematizar_textos(textos)

['gostar muito experiencia comprar',
 'meu filha gostar produto',
 'compra ser facil compra rapido']

In [46]:
df['tratamento_4'] = lematizar_textos(df['tratamento_3'])

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['tratamento_4'] = lematizar_textos(df['tratamento_3'])


In [47]:
df['tratamento_4']

0                        recebi bem antes prazo estipulado
1        parabem loja zop adorei comprar internet segur...
2        aparelho eficiente site marca aparelho imprimi...
3                                pouco travar valor to bom
4        vendedor confiavel produto ok entregar antes p...
                               ...                        
31469    entregar dentro prazo produto chegar condico p...
31470    produto nao enviado em f nao existir venda em ...
31471    excelente mochila entregar super rapido super ...
31472    solicitei compra capa retrovisor celta prisma ...
31473    produto chegar ja devolver pois defeito nao se...
Name: tratamento_4, Length: 31474, dtype: object

### Para saber mais: técnicas de NLP para limpeza e pré-processamento

Durante a aula conhecemos algumas das principais técnicas de limpeza e pré-processamento de dados de texto. Os passos que tomamos ajudaram a transformar textos em formatos mais consistentes e limpos, facilitando para que um modelo consiga extrair padrões e informações úteis. Esse processo envolveu diversas técnicas, desde a tokenização até a remoção de palavras desnecessárias, que vamos explorar em mais detalhes abaixo.

#### Tokenização

A tokenização é o primeiro passo no pré-processamento de texto, onde as frases são divididas em unidades menores chamadas “tokens”. Esses tokens podem ser palavras individuais, frases curtas ou até mesmo subpalavras, dependendo da abordagem adotada. Além de separar as palavras, esse processo geralmente remove pontuação e caracteres especiais que não contribuem para o significado do texto. Por exemplo, a frase “*Eu amo NLP!*” é dividida em tokens `["Eu", "amo", "NLP"]`. É importante lembrar que, em casos de palavras compostas, como “arco-íris” ou “bate-papo”, essas combinações possuem significados próprios e podem requerer um tratamento especial na tokenização.

#### Remoção de Stop Words

Stop words são palavras de alta frequência, como “e”, “o”, “de”, que aparecem em quase todos os textos mas não acrescentam valor semântico significativo para muitos modelos. A remoção dessas palavras ajuda a reduzir o ruído e mantém apenas os termos mais relevantes, facilitando o desempenho do modelo. Bibliotecas como [NLTK](https://www.nltk.org/) ou [spaCy](https://spacy.io/) oferecem listas de stop words para diversos idiomas, e é possível personalizar essas listas conforme a necessidade, adicionando ou removendo palavras para um ajuste mais preciso do modelo.

#### Normalização: Minúsculas e Remoção de Pontuações

Normalizar o texto colocando tudo em minúsculas garante consistência, evitando que “Loja” e “loja” sejam tratados como tokens diferentes. Além disso, a remoção de pontuação, como vírgulas, pontos e pontos de interrogação, é uma prática comum, especialmente em análises onde esses sinais não alteram o significado. Isso torna o texto mais limpo para o modelo e evita resultados ruins.

#### Stemming e Lematização

Tanto o stemming quanto a lematização são técnicas usadas para reduzir palavras à sua forma base, mas com abordagens diferentes. O **Stemming** simplifica palavras para suas raízes por meio de regras, removendo sufixos e prefixos. Por exemplo, “amando”, “amada” e “amar” podem ser reduzidos a “am”. No entanto, essa técnica pode ser um pouco *agressiva*, levando a resultados como “jogadores” se tornando “jog” em vez de “jogar”.

Já a **Lematização** leva em conta a estrutura gramatical e reduz as palavras à sua forma base, ou *lema*, com base no significado. Por exemplo, palavras como, “correu” e “correndo” seriam convertidas para “correr”. A lematização é mais precisa, mas exige que o modelo tenha conhecimento do contexto da palavra, como se ela é um verbo ou subtantivo. Para implementações, bibliotecas como [spaCy](https://spacy.io/) e [NLTK](https://www.nltk.org/) oferecem suporte para ambas as técnicas e [stanza](https://stanfordnlp.github.io/stanza/) tem suporte para lematização.

> Para se aprofundar ainda mais em NLP suas técnicas mais comuns consulte o artigo [Guia de NLP - conceitos e técnicas](https://www.alura.com.br/artigos/guia-nlp-conceitos-tecnicas).

## 03. Otimizando o Doc2Vec

### Obtendo resultados dos dados tratados

In [48]:
df_lem = df.drop_duplicates(subset=['tratamento_4'])
df_lem

Unnamed: 0,nota_review,review,review_token,tratamento_1,tratamento_2,tratamento_3,tratamento_4
0,5,Recebi bem antes do prazo estipulado.,"[recebi, bem, antes, prazo, estipulado]",recebi bem antes prazo estipulado,recebi bem antes prazo estipulado,recebi bem antes prazo estipulado,recebi bem antes prazo estipulado
1,5,Parabéns lojas Zoop adorei comprar pela Intern...,"[parabens, lojas, zoop, adorei, comprar, inter...",parabéns lojas zoop adorei comprar internet se...,parabens lojas zoop adorei comprar internet se...,parabens lojas zop adorei comprar internet seg...,parabem loja zop adorei comprar internet segur...
2,4,aparelho eficiente. no site a marca do aparelh...,"[aparelho, eficiente, site, marca, aparelho, i...",aparelho eficiente site marca aparelho impress...,aparelho eficiente site marca aparelho impress...,aparelho eficiente site marca aparelho impress...,aparelho eficiente site marca aparelho imprimi...
3,4,"Mas um pouco ,travando...pelo valor ta Boa.\r\n","[pouco, travando, valor, ta, boa]",pouco travando valor ta boa,pouco travando valor ta boa,pouco travando valor ta boa,pouco travar valor to bom
4,5,"Vendedor confiável, produto ok e entrega antes...","[vendedor, confiavel, produto, ok, entrega, an...",vendedor confiável produto ok entrega antes prazo,vendedor confiavel produto ok entrega antes prazo,vendedor confiavel produto ok entrega antes prazo,vendedor confiavel produto ok entregar antes p...
...,...,...,...,...,...,...,...
31469,5,Entregou dentro do prazo. O produto chegou em ...,"[entregou, dentro, prazo, produto, chegou, con...",entregou dentro prazo produto chegou condições...,entregou dentro prazo produto chegou condicoes...,entregou dentro prazo produto chegou condicoes...,entregar dentro prazo produto chegar condico p...
31470,3,"O produto não foi enviado com NF, não existe v...","[produto, nao, enviado, nf, nao, existe, venda...",produto não enviado nf não existe venda nf cer...,produto nao enviado nf nao existe venda nf cer...,produto nao enviado nf nao existe venda nf cer...,produto nao enviado em f nao existir venda em ...
31471,5,"Excelente mochila, entrega super rápida. Super...","[excelente, mochila, entrega, super, rapida, s...",excelente mochila entrega super rápida super r...,excelente mochila entrega super rapida super r...,excelente mochila entrega super rapida super r...,excelente mochila entregar super rapido super ...
31472,1,Solicitei a compra de uma capa de retrovisor c...,"[solicitei, compra, capa, retrovisor, celta, p...",solicitei compra capa retrovisor celta prisma ...,solicitei compra capa retrovisor celta prisma ...,solicitei compra capa retrovisor celta prisma ...,solicitei compra capa retrovisor celta prisma ...


In [49]:
df_lem.reset_index(drop=True, inplace=True)

In [50]:
df_lem['review_token'] = df_lem['tratamento_2'].apply(word_tokenize_pt)
dados_tag = [TaggedDocument(words=linha['review_token'], tags=[str(i)]) for i, linha in df_lem.iterrows()]
modelo = Doc2Vec(dados_tag, vector_size=100, min_count=2, window=2, workers=1, seed=45, epochs=20)
frases_similares = modelo.dv.most_similar([modelo.infer_vector(['entrega'])], topn=5)
for idx, similaridade in frases_similares:
    print(f"Review: {df_lem.loc[int(idx), 'tratamento_2']} - Similaridade: {similaridade:.4f}%")

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_lem['review_token'] = df_lem['tratamento_2'].apply(word_tokenize_pt)


Review: preco entrega vale pena - Similaridade: 0.9167%
Review: entrega prazo conforme anunciado - Similaridade: 0.9127%
Review: entrega nota 10 - Similaridade: 0.8983%
Review: entrega imediata satisfatoria - Similaridade: 0.8917%
Review: prazo entrega dia 27 03 2018 hoje dia 29 03 2018 ainda nao recebi produto - Similaridade: 0.8891%


### Melhorando o treinamento do Doc2Vec

In [51]:
modelo = Doc2Vec(
    vector_size=300,
    min_count=2,
    window=5,
    workers=1,
    seed=45,
    epochs=15
)
modelo.build_vocab(dados_tag)
modelo.train(
    dados_tag,
    total_examples=modelo.corpus_count,
    epochs=modelo.epochs
)

### Verificando a similaridade

In [52]:
frases_similares = modelo.dv.most_similar([modelo.infer_vector(['entrega'])], topn=5)
for idx, similaridade in frases_similares:
    print(f"Review: {df_lem.loc[int(idx), 'tratamento_1']} - Similaridade: {similaridade:.4f}%")

Review: entrega prazo melhor preço - Similaridade: 0.9192%
Review: favor gostaria saber entrega - Similaridade: 0.9066%
Review: otima compra entrega - Similaridade: 0.8972%
Review: prazo entrega gigante assim conseguiram atrasar entrega - Similaridade: 0.8888%
Review: produto chegou perfeitas condições entrega prazo - Similaridade: 0.8875%


In [53]:
frases_similares = modelo.dv.most_similar([modelo.infer_vector(['vendedor'])], topn=5)
for idx, similaridade in frases_similares:
    print(f"Review: {df_lem.loc[int(idx), 'tratamento_1']} - Similaridade: {similaridade:.4f}%")

Review: produto devolvido vendedor - Similaridade: 0.9356%
Review: vendedor pontualíssimo recomendo - Similaridade: 0.9293%
Review: produto conforme descrito vendedor - Similaridade: 0.9255%
Review: vendedor super - Similaridade: 0.9254%
Review: exelente vendedor - Similaridade: 0.9219%


In [54]:
frases_similares = modelo.dv.most_similar([modelo.infer_vector(['reputacao loja'])], topn=5)
for idx, similaridade in frases_similares:
    print(f"Review: {df_lem.loc[int(idx), 'tratamento_1']} - Similaridade: {similaridade:.4f}%")

Review: objeto veio perfeita condições superou expectativas excelente produto obrigada - Similaridade: 0.1969%
Review: bom atendimento recebi antes previsto chegou perfeitas condições - Similaridade: 0.1837%
Review: inicio fiquei receio adorei rápido pratico obrigado - Similaridade: 0.1818%
Review: bom fiquei medo observei entregue via correio sempre deixa entregar qualquer encomenda surpreendeu dia seguinte entregue - Similaridade: 0.1800%
Review: excelente atendimento totalmente confiável - Similaridade: 0.1779%


### Para saber mais: entendendo os vetores e a similaridade

O Doc2Vec, modelo que utilizamos até agora no nosso projeto, gera vetores dos textos, o que também chamamos de embeddings. Embeddings são representações numéricas de palavras ou frases em um espaço vetorial multidimensional, permitindo que computadores compreendam relações semânticas de maneira eficaz.

Diferente da tokenização, que converte o texto em unidades menores (tokens) e os mapeia para índices numéricos fixos, os embeddings atribuem coordenadas a esses tokens, posicionando-os em um espaço vetorial de forma que elementos semanticamente similares fiquem próximos.

A construção dos embeddings pelo Doc2Vec se dá através de um processo de treinamento que envolve contextos de palavras e o próprio documento. Existem duas abordagens principais no Doc2Vec: PV-FM (Distributed Memory) e PV-DBOW (Distributed Bag of Words). Ambas a abordagens treinam um modelo para prever palavras com base em contextos e também para associar cada documento a um vetor que reflete seu conteúdo geral.

No final, esses vetores se tornam embeddings que representam semanticamente o documento completo em um espaço multidimensional, de forma que a proximidade entre eles reflete sua similaridade de significado. Por exemplo, textos como “*meu cachorro*” e “*meu gato fofo*” podem ser colocados perto um do outro, pois ambos se referem a animais de estimação, enquanto uma frase como “*eu fui ao banco*” estaria mais distante, indicando um contexto diferente.

A similaridade entre esses vetores é medida com técnicas como a **distância euclidiana** ou a **similaridade de cosseno**. Essas medidas indicam quão próximas ou distantes duas palavras estão no espaço vetorial, refletindo sua semelhança semântica.

A Norma L2, também conhecida como **Distância Euclidiana**, é uma medida matemática amplamente usada para calcular a distância entre dois pontos em um espaço vetorial. Na prática, ela mede o “caminho mais curto” entre dois vetores, o que faz dela uma escolha comum para avaliar similaridades em tarefas de machine learning e NLP.

A distância entre dois pontos no plano pode ser calculada pela fórmula da hipotenusa, uma aplicação direta do [Teorema de Pitágoras](https://pt.wikipedia.org/wiki/Teorema_de_Pit%C3%A1goras) como mostrado na figura abaixo:

![Distância Euclidiana](https://cdn3.gnarususercontent.com.br/3973-nlp/Imagens%20das%20atividades/Distancia%20euclidiana.png)

A mesma lógica pode ser estendida a espaços de dimensões superiores, como aqueles utilizados em embeddings de palavras ou documentos. Por exemplo, se temos dois vetores de embeddings em um espaço multidimensional, a fórmula continua se aplicando, calculando a raiz quadrada da soma dos quadrados das diferenças entre cada componente dos vetores.

Essa medida vai representar de forma intuitiva a proximidade entre pontos: quanto menor a distância, mais próximos os vetores estão e, por consequência, mais similares são os elementos que eles representam. No caso de embeddings, isso significa que palavras ou documentos com significados semelhantes terão valores que estarão mais próximos uns dos outros no espaço vetorial.

A **similaridade do cosseno**, ou **distância cosseno**, é uma medida amplamente utilizada em processamento de linguagem natural (NLP) para avaliar o grau de semelhança entre dois vetores. Ao contrário de outras medidas como a distância euclidiana, a similaridade do cosseno foca apenas na direção dos vetores, ignorando a magnitude. Isso significa que ela funciona para comparar textos em que o conteúdo é importante, mas o comprimento das frases pode variar.

A similaridade do cosseno é definida pelo cosseno do ângulo entre dois vetores no espaço vetorial. Se o ângulo entre os vetores é zero, isso significa que eles apontam na mesma direção e são completamente semelhantes, com a similaridade de cosseno sendo igual a 1 (máxima similaridade). Por outro lado, se os vetores forem ortogonais, ou seja, se formarem um ângulo de 90 graus, a similaridade será 0, indicando que não possuem relação semântica. Ângulos maiores, como 180° geram um resultado negativo, sendo ele igual a 1, indicando vetores opostos.

![Similaridade cosseno](https://cdn3.gnarususercontent.com.br/3973-nlp/Imagens%20das%20atividades/Similaridade%20cosseno.png)

> Para se aprofundar no uso prático da similaridade de cosseno em NLP, você pode explorar [esta demonstração sobre embeddings e similaridades no Gensim](https://radimrehurek.com/gensim/auto_examples/core/run_similarity_queries.html) e verificar exemplos práticos de implementação na [documentação do scikit-learn](https://scikit-learn.org/stable/modules/metrics.html#cosine-similarity).

## 04. Considerando o significado das frases

### Utilizando um modelo mais robusto

In [55]:
modulo_url = 'https://tfhub.dev/google/universal-sentence-encoder/4'

In [56]:
import tensorflow_hub as hub

modelo = hub.load(modulo_url)

2025-05-21 09:29:32.246626: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2025-05-21 09:29:32.374491: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:485] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2025-05-21 09:29:32.425431: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:8454] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2025-05-21 09:29:32.439325: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1452] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2025-05-21 09:29:32.533170: I tensorflow/core/platform/cpu_feature_guar

In [57]:
modelo

<tensorflow.python.saved_model.load.Loader._recreate_base_user_object.<locals>._UserObject at 0x75a63bbb82f0>

In [58]:
reviews = df['tratamento_3'].tolist()
reviews_emb = modelo(reviews)
reviews_emb

2025-05-21 09:30:07.854168: E tensorflow/core/util/util.cc:131] oneDNN supports DT_INT64 only on platforms with AVX-512. Falling back to the default Eigen-based implementation if present.


<tf.Tensor: shape=(31474, 512), dtype=float32, numpy=
array([[ 0.0477517 ,  0.01094662, -0.05415082, ...,  0.0907801 ,
        -0.02599914, -0.09261212],
       [-0.00746652, -0.06605156, -0.04505714, ...,  0.05561578,
        -0.02624756, -0.07801282],
       [-0.00820427,  0.04282851, -0.02907444, ...,  0.07496072,
        -0.06071885, -0.07618524],
       ...,
       [ 0.02074313, -0.05436159, -0.06415591, ...,  0.07194226,
         0.01059286, -0.07603392],
       [-0.04131036, -0.03054745,  0.01322935, ...,  0.06785525,
        -0.0252889 , -0.07106064],
       [ 0.05717908, -0.05808826, -0.02038887, ...,  0.07339787,
        -0.06409647, -0.08014238]], dtype=float32)>

In [59]:
from sklearn.metrics.pairwise import cosine_similarity

cosine_similarity(reviews_emb)

array([[1.0000002 , 0.6158628 , 0.5175547 , ..., 0.54277545, 0.57541025,
        0.6691027 ],
       [0.6158628 , 1.0000001 , 0.5666107 , ..., 0.63920605, 0.6011834 ,
        0.67117447],
       [0.5175547 , 0.5666107 , 0.99999964, ..., 0.58997357, 0.6564975 ,
        0.59229845],
       ...,
       [0.54277545, 0.63920605, 0.58997357, ..., 0.9999999 , 0.6378721 ,
        0.61628103],
       [0.57541025, 0.6011834 , 0.6564975 , ..., 0.6378721 , 1.0000002 ,
        0.6389235 ],
       [0.6691027 , 0.67117447, 0.59229845, ..., 0.61628103, 0.6389235 ,
        1.0000001 ]], dtype=float32)

### Para saber mais: o que é o Universal Sentence Encoder (USE)

O **Universal Sentence Encoder (USE)** é uma ferramenta desenvolvida pelo Google que gera embeddings de sentenças, ou seja, representações numéricas de frases em um espaço vetorial. Diferente dos embeddings de palavras tradicionais, como o Word2Vec, o USE cria vetores para sentenças completas, facilitando a captura do contexto e do significado da frase como um todo, o que se torna muito útil para tarefas que exigem a compreensão do sentido geral de um texto.

Para construir esses embeddings, o USE oferece duas arquiteturas:
- uma baseada em **Transformers** e
- outra em **Deep Averaging Network (DAN)**.

A aquitetura de Transformers é mais complexa e precisa, utilizando o mecanismo de atenção para capturar as relações entre palavras, levando em consideração tanto a ordem quanto o contexto das palavras em uma sentença. Já a arquitetura DAN, embora mais simples, utiliza uma média das palavras e bigramas para gerar o embedding, sendo mais ráṕida e eficiente em termos de computação. Ambas as abordagens produzem embeddings de tamanho fixo, com 512 dimensões, o que facilita o uso dos vetores para comparar sentenças de diferentes comprimentos.

Esses embeddings têm uma propriedade importante: ao converter frases em vetores no mesmo espaço vetorial, o USE permite que sentenças com significados parecidos fiquem próximas umas das outras. Por exemplo, frases como “eu gosto de maçãs” e “eu adoro frutas” terão vetores relativamente próximos, pois compartilham um contexto semelhante relacionado à apreciação de alimentos. Esse cálculo de similaridade pode ser feito facilmente usando medidas como a **similaridade de cosseno**.

> Consulte o artigo [*Universal Sentence Encoder*](https://static.googleusercontent.com/media/research.google.com/pt-BR//pubs/archive/46808.pdf) para entender de forma mais profunda e detalhada sobre o USE.

O Universal Sentece Encoder é disponibilizado gratuitamente no [TensorFlow Hub](https://tfhub.dev/google/universal-sentence-encoder/4), onde devs podem integrá-lo a sistemas de NLP para tarefas como análise de sentimentos, classificação de texto e busca de similaridade semântica. A simplicidade de implementação permite que ele seja amplamente utilizado para resolver problemas de similaridade entre sentenças, classificação e outras aplicações que dependem da compreensão do contexto e da semântica de frases completas.

Para experimentar o USE em suas aplicações, consulte a [documentação do TensorFlow Hub](https://www.tensorflow.org/hub/tutorials/semantic_similarity_with_tf_hub_universal_encoder?hl=pt-br) e acesse tutoriais e exemplos práticos no [GitHub do TensorFlow](https://github.com/tensorflow/docs/tree/master/site/en/hub/tutorials).

### Avaliando a similaridade

In [60]:
import numpy as np


def sentencas_similares(tema, reviews, reviews_emb, top_n=5):
    tema_emb = modelo([tema])
    similaridades = cosine_similarity(tema_emb, reviews_emb).flatten()
    indices_similaridades = np.argsort(-similaridades)
    for idx in indices_similaridades[:top_n]:
        print(f"Review: {reviews[idx]} - Similaridade: {similaridades[idx]:.4f}%")

In [61]:
sentencas_similares('entrega', reviews, reviews_emb)

Review: eficiente entrega - Similaridade: 0.6829%
Review: entrega eficiente - Similaridade: 0.6756%
Review: agil entrega - Similaridade: 0.6563%
Review: entrega prazo - Similaridade: 0.6473%
Review: entrega agil - Similaridade: 0.6471%


In [62]:
sentencas_similares('reputação loja', reviews, reviews_emb, top_n=10)

Review: otima loja - Similaridade: 0.8578%
Review: recomento loja - Similaridade: 0.8339%
Review: pessima loja - Similaridade: 0.8335%
Review: adorei loja - Similaridade: 0.8170%
Review: rapidez eficiencia loja - Similaridade: 0.8018%
Review: loja confianca - Similaridade: 0.7909%
Review: produto loja confianca - Similaridade: 0.7888%
Review: loja ruim - Similaridade: 0.7868%
Review: otimas experiencias loja - Similaridade: 0.7839%
Review: satisfeita produto loja - Similaridade: 0.7816%


## 05. Transformando a similaridade em aplicação

### Iniciando a construção da aplicação

In [63]:
nltk.download('punkt')
nltk.download('stopwords')

modulo_url = 'https://tfhub.dev/google/universal-sentence-encoder/4'
modelo = hub.load(modulo_url)

def tratar_texto(texto):
    texto = re.sub(r'\W', ' ', texto.lower())

    word_tokenize_pt = partial(word_tokenize, language='portuguese')
    tokens = word_tokenize_pt(texto)
    stop_words = set(stopwords.words('portuguese'))
    stop_words.discard('não')
    tokens = [w for w in tokens if w not in stop_words]

    texto_sem_acentos = unidecode(' '.join(tokens))

    texto_normalizado = re.sub(r'(?!rr|ss)(.)\1+', r'\1', texto_sem_acentos)
    return texto_normalizado

[nltk_data] Downloading package punkt to
[nltk_data]     /home/cristoffer_pogan/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /home/cristoffer_pogan/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [64]:
# dados_teste = pd.read_csv(url)
# dados_teste['review'].apply(tratar_texto)

### Finalizando os passos da aplicação

In [65]:
def process_csv(arquivo, tema):
    df = pd.read_csv(arquivo.name)

    df['review_tratada'] = df['review'].apply(tratar_texto)
    df = df[df['review_tratada'] != '']
    df.drop_duplicates(subset=['review_tratada'], inplace=True)

    reviews_emb = modelo(df['review_tratada'].tolist())
    tema_emb = modelo([tema])

    similaridades = cosine_similarity(tema_emb, reviews_emb).flatten()
    top_indices = np.argsort(-similaridades)

    similar_reviews = df[['nota_review', 'review']].iloc[top_indices]

    similar_df = similar_reviews.head(200)

    nome_arquivo = f"reviews_similares_{tema}.csv"
    similar_reviews.to_csv(nome_arquivo)
    return similar_df, nome_arquivo

In [66]:
# process_csv(url, 'entrega')

### Utilizando o Gradio para executar a aplicação

In [67]:
import gradio as gr

In [None]:
with gr.Blocks() as app:
    with gr.Row():
        gr.Markdown('## Encontrando as reviews mais similares ao tema')
    csv_entrada = gr.File(label='Envie o CSV com as reviews', file_types=['.csv'])
    tema_entrada = gr.Textbox(label='Digite o tema para busca (ex: “entrega”)')

    botao = gr.Button('Clique aqui para buscar as reviews')

    tabela_saida = gr.Dataframe(label='Top 200 reviews similares', headers=['Nota', 'Reviews'], interactive=False)
    arquivo_saida = gr.File(label='Baixar CSV ordenado com as reviews mais similares ao tema', interactive=False)

    botao.click(fn=process_csv, inputs=[csv_entrada, tema_entrada], outputs=[tabela_saida, arquivo_saida])
app.launch()

### Para saber mais: o que é o Gradio

O Gradio é um pacote de código aberto em Python que permite criar rapidamente uma demonstração ou aplicação web para modelos de machine learning, APIs ou qualquer função em Python. Com ele, é possível compartilhar um link para a demonstração ou aplicação web em questão de segundos, utilizando os recursos integrados de compartilhamento do Gradio. Além disso, não é necessário ter conhecimento em JavaScript, CSS ou experiência em hospedagem web.

> Você pode acessar informações sobre o Gradio, documentação e tutoriais nesse [link](https://www.gradio.app/).

Com ele podemos publicar diversas aplicações desenvolvidas em Python na web para que várias pessoas possam acessar. Por conta disso, o Gradio é uma ótima ferramenta para compartilhar o que foi criado durante as aulas e disponibilizar para as pessoas interessadas ou mesmo divulgar o trabalho que você desenvolveu em seus estudos como seu portfólio!

Para utilizar o Gradio no Google Colab é preciso fazer a instalação do pacote no ambiente, pois o Gradio não é uma biblioteca nativa do Colab.

```bash
!pip install gradio
```

Para entender como utilizar o Gradio, vamos construir uma interface simples!

> Acesse o código completo deste tutorial nesse [notebook Colab](https://cdn3.gnarususercontent.com.br/3973-nlp/Projeto/Demo-Gradio.ipynb) ou no [GitHub](https://github.com/Mirlaa/NLP-trabalhando-similaridade-sentencas/blob/3a1b8378aa2151e392d1cb0bd0c5de2feeca8722/Demo_Gradio.ipynb).

A aplicação busca receber o nome das duas primeiras colunas desejadas para um DataFrame pré-definido. Assim que o botão é clicado, a aplicação renomeia as colunas conforme especificado, exibe o dataframe com as novas colunas e permite o download em formato JSON.

#### Passo 1: Importar bibliotecas necessárias

Importando o Gradio e o Pandas, que usaremos para manipular o DataFrame. O Gradio permite criar interfaces visuais para funções Python de maneira simples e rápida.

```python
import gradio as gr
import pandas as pd
```

#### Passo 2: Definir o DataFrame

Para simplificar, definimos um DataFrame básico com duas colunas chamadas `Coluna1` e `Coluna2`. Esse DataFrame será utilizado na demonstração.

```python
df = pd.DataFrame({
    'Coluna1': ['A', 'B', 'C'],
    'Coluna2': [1, 2, 3]
})
```

#### Passo 3: Função para renomear coluna

Definimos a função `renomear_coluna`, que renomeia as duas primeiras colunas do DataFrame de acordo com os nomes fornecidos pelo usuário. Ela também converte o DataFrame atualizado em formato JSON para que a pessoa que usa a aplicação possa baixá-lo.

```python
def renomear_coluna(col1_name, col2_name):
  # Renomear as colunas
  df_renomeado = df.copy()
  df_renomeado.columns = [col1_name, col2_name]

  # Converter para JSON
  nome_arquivo = f'df_renomeado.json'
  df_renomeado.to_json(nome_arquivo, orient='records')
  return df_renomeado, nome_arquivo
```

A função `renomear_coluna` recebe dois argumentos: `col1_name` e `col2_name`, que são os novos nomes para as duas primeiras colunas. Em seguida, ela cria uma cópia do DataFrame original e renomeia suas colunas. A função então converte o DataFrame renomeado em formato JSON e retorna tanto o DataFrame quanto o caminho para o arquivo JSON.

> *Até aqui não usamos o Gradio, apenas constuímos a essência da nossa aplicação: renomeas colunas do DataFrame e criar um arquivo JSON*.

#### Passo 4: Interface Gradio

Agora construímos nossa interface no Gradio. Começamos **estruturando a interface**:

1. `with gr.Block() as app:`
    - `gr.Blocks()`cria um **contêiner** para a interface, onde podemos organizar visualmente os componentes em uma estutura hierárquica.
    - `as app:` armazena a interface em uma variável (`app`), que podemos usar para lançar a aplicação mais tarde com `app.launch()`.

2. `gr.Markdown()`
    - Exibe texto formatado usando a linguagem Markdown. Nesse caso, é usado para exibir o título “Renomeie as colunas do DataFrame”.
    - `gr.Markdown("Renomeie as colunas do DataFrame")`: `##` no Markdown cria um cabeçalho de segundo nível. É uma maneira simples de adicionar textos explicativos ou títulos à interface.

```python
with gr.Blocks() as app:
  gr.Markdown('## Renomeie as colunas do DataFrame')
```

Com a interface estruturada sequimos para a definição das **entradas** que a pessoa que usar a aplicação irá definir com `gr.Textbox()`:

3. `gr.Textbox()`
    - Cria uma **caixa de texto** onde o usuário pode inserir indormações.
    - `label="Nome da primeira coluna"`: Define o rótulo exibido ao lado da caixa de texto. No caso, “Nome da primeira coluna” ajuda o usuário a entender o que deve inserir.
    - `col1_entrada = gr.Textbox(label="Nome da primeira coluna")`: Aqui, criamos um campo onde o usuário insere o nome da primeira coluna. O segundo campo (`col2_entrada`) é para o nome da segunda coluna.

```python
with gr.Blocks() as app:
  gr.Markdown('## Renomeie as colunas do DataFrame')
  # Entradas
  col1_entrada = gr.Textbox(label='Nome da primeira coluna')
  col2_entrada = gr.Textbox(label='Nome da segunda coluna')
```

4. `gr.Button()`
    - Cria um botão interativo que, quando clicado, pode acionar uma função específica.
    - `gr.Button("Renomear Colunas")`: O parâmetro `"Renomear Colunas"` define o texto exibido no botão. Quando o botão é clicado, ele dispara uma função configurada com o método `.click()`.

```python
with gr.Blocks() as app:
  gr.Markdown('## Renomeie as colunas do DataFrame')
  # Entradas
  col1_entrada = gr.Textbox(label='Nome da primeira coluna')
  col2_entrada = gr.Textbox(label='Nome da segunda coluna')
  #Botão
  botao = gr.Button('Renomear Colunas')
```

Agora, definimos as saídas: uma visualização do dataframe renomeado e a opção de baixar o arquivo JSON da tabela renomeada.

5. `gr.Dataframe()`
   - Exibe um DataFrame na interface, permitindo que o usuário visualize os dados.
   - `label="DataFrame com colunas renomeadas"`: Define o rótulo exibido acima da tabela.
   - `interactive=False`: Define se o usuário pode interagir com o DataFrame exibido (como editar células). Aqui, `False` impede a interação direta do usuário com os dados exibidos.

6. `gr.File()`
   - Permite que o usuário baixe ou envie arquivos.
   - `label="Baixar JSON do DataFrame"`: Define o rótulo exibido para o componente de download.
   - `interactive=False`: Define que o usuário não pode modificar diretamente esse componente na interface. Aqui, ele só permite o download do arquivo JSON gerado.

```python
with gr.Block() as app:
    gr.Markdown('## Renomeie as colunas do DataFrame')
    # Entradas
    col1_entrada = gr.Textbox(label='Nome da primeira coluna')
    col2_entrada = gr.Textbox(label='Nome da segunda coluna')
    # Botão
    botao = gr.Button('Renomear colunas')
    # Saídas
    tabela_saida = gr.Dataframe(label='DataFrame com colunas renomeadas', interactive=False)
    arquivo_saida = gr.File(label='Baixar JSON do DataFrame', interactive=False)
```

Por fim, definimos a ação que vai ocorrer a partir do momento que uma pessoa clicar no botão.

7. `botao.click()`
   - Configura a ação que ocorre ao clicar no botão.
   - **Parâmetros**:
     - `fn=rename_columns`: A função que será executada ao clicar no botão. Neste caso, a função `rename_columns` renomeia as colunas do DataFrame e converte o resultado para JSON.
     - `inputs=[col1_entrada, col2_entrada]`: Lista de entradas que a função `rename_columns` recebe. Aqui, são os valores dos campos `col1_entrada` e `col2_entrada` (novos nomes das colunas).
     - `outputs=[tabela_saida, arquivo_saida]`: Lista dos componentes de saída onde os resultados da função serão exibidos. Aqui, o `DataFrame` renomeado é exibido em `tabela_saida` e o JSON gerado é disponibilizado para download em `arquivo_saida`.

O código final do bloco da interface pode ser verificado abaixo:

```python
with gr.Blocks() as app:
  gr.Markdown('## Renomeie as colunas do DataFrame')
  # Entradas
  col1_entrada = gr.Textbox(label='Nome da primeira coluna')
  col2_entrada = gr.Textbox(label='Nome da segunda coluna')
  #Botão
  botao = gr.Button('Renomear Colunas')
  # Saídas
  tabela_saida = gr.Dataframe(label='DataFrame com colunas renomeadas', interactive=False)
  arquivo_saida = gr.File(label='Baixar JSON do DataFrame', interactive=False)

  # Definindo o que acontece ao clicar no botão
  botao.click(
    renomear_coluna,
    inputs=[col1_entrada, col2_entrada],
    outputs=[tabela_saida, arquivo_saida]
  )
```

#### Passo 5: Iniciando a interface

Para terminar construção da aplicação, chamamos `app.launch()` para iniciar a aplicação e gerar a interface interativa.

```python
app.lauch()
```

#### Resultado

Obtemos acesso a interface do Gradio que podemos rodar diretamente no notebook Colab. Você pode observar o uso final da aplicação no gif abaixo:

![app](https://cdn3.gnarususercontent.com.br/3973-nlp/Imagens%20das%20atividades/demo-gradio.gif)

## Para ir mais a fundo

[Efficient Estimation of Word Representations in Vector Space](https://arxiv.org/pdf/1301.3781)

[Distibuted Representations of Sentences and Documents](https://cs.stanford.edu/~quocle/paragraph_vector.pdf)

[Distributed Representations of Words and Phrases and their Compositionality](https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf)

[Stanza: A Python Natural Language Processing Toolkit for Many Human Languages](https://arxiv.org/abs/2003.07082)

[Gradio Documentation](https://www.gradio.app/docs)

[Gensim Documentation](https://radimrehurek.com/gensim/auto_examples/index.html)