# üìä **Pipeline de Processamento de Linguagem Natural (NLP)**

## **Do Texto Bruto √† Modelagem Preditiva**

Neste projeto aplico t√©cnicas cl√°ssicas de Processamento de Linguagem Natural (NLP)
para transformar textos em representa√ß√µes num√©ricas e aplicar modelos de Machine Learning.

O objetivo √© demonstrar dom√≠nio pr√°tico do pipeline completo e an√°lise de texto com t√©cnicas de NLP.

Cada etapa est√° organizada com descri√ß√£o conceitual e explica√ß√£o do que est√° sendo realizado.



---

## üîé **Pipeline do Projeto**

Este notebook segue as seguintes etapas:

1. **Prepara√ß√£o dos dados** ‚Äì `pandas`, `numpy` e carregamento da base.  

2. **Pr√©-processamento textual** ‚Äì `regex`, `nltk` (stopwords), padroniza√ß√£o para lowercase e limpeza de caracteres.  

3. **Vetoriza√ß√£o** ‚Äì `CountVectorizer` (Bag of Words) e `TfidfVectorizer` (TF-IDF) para transforma√ß√£o do texto em matriz esparsa.  

4. **Similaridade** ‚Äì Similaridade do cosseno (`cosine similarity`) para medir proximidade entre documentos.  

5. **Modelagem** ‚Äì `LogisticRegression` (scikit-learn) para classifica√ß√£o supervisionada.  

6. **Avalia√ß√£o** ‚Äì `classification_report` e `confusion_matrix` para an√°lise de desempenho.

---

# **Importa√ß√£o das Bibliotecas** üß∞

In [32]:
# üìä Manipula√ß√£o de dados
import pandas as pd
import numpy as np

# üßπ Processamento de texto
import re
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords

# üî¢ Vetoriza√ß√£o (Representa√ß√£o Num√©rica)
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

# üß† Modelos Baseados em Transformers
from transformers import pipeline

# üìê Similaridade entre documentos
from sklearn.metrics.pairwise import cosine_similarity

# üß† Topic Modeling
from sklearn.decomposition import LatentDirichletAllocation

# ü§ñ Modelagem e Avalia√ß√£o (Machine Learning Cl√°ssico)
from sklearn.metrics import classification_report, accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


## üîπ **Etapa 1 ‚Äì Coleta e Carregamento dos Dados** üíæ

Nesta se√ß√£o realizamos a clonagem do reposit√≥rio p√∫blico contendo o dataset
de reviews de e-commerce.

Os dados utilizados s√£o **avalia√ß√µes de produtos do Mercado Livre**,
armazenadas em formato JSON.

O c√≥digo abaixo:

- Clona o reposit√≥rio via GitHub
- Lista os arquivos dispon√≠veis
- Carrega os arquivos JSON
- Concatena os dados em um √∫nico DataFrame para an√°lise

In [33]:
!git clone https://github.com/octaprice/ecommerce-product-dataset.git
!ls ecommerce-product-dataset/data/mercadolivre_com_br


df1 = pd.read_json("ecommerce-product-dataset/data/mercadolivre_com_br/reviews_mercadolivre_com_br_1.json")
df2 = pd.read_json("ecommerce-product-dataset/data/mercadolivre_com_br/reviews_mercadolivre_com_br_2.json")
df = pd.concat([df1, df2], ignore_index=True)

fatal: destination path 'ecommerce-product-dataset' already exists and is not an empty directory.
reviews_mercadolivre_com_br_1.json  reviews_mercadolivre_com_br_2.json


## üîπ **Etapa 2 ‚Äì Modelos de Emo√ß√£o e An√°lise de Sentimento** üòäüé≠

Nesta etapa utilizamos modelos baseados em **Transformers** capaz de capturar melhor o **contexto das frases** para analisar textos
sob duas perspectivas:

- üé≠ **An√°lise de Emo√ß√£o** ‚Üí identifica emo√ß√µes espec√≠ficas **(alegria, tristeza, raiva, medo, surpresa, nojo)**.
- üòä **An√°lise de Sentimento** ‚Üí classifica a polaridade geral **(positivo, neutro, negativo)**.

ü§ñ **Carregamento do Modelo de Emo√ß√£o** üé≠

In [34]:
classificador_emocao = pipeline(
    task="text-classification",
    model="bhadresh-savani/distilbert-base-uncased-emotion",
)

Loading weights:   0%|          | 0/104 [00:00<?, ?it/s]

üîé **Fun√ß√£o para Detec√ß√£o de Emo√ß√£o**

Recebe um texto e retorna a emo√ß√£o predominante identificada pelo modelo pr√©-treinado.

In [35]:
def detectar_emocao(texto):

    texto = str(texto)[:512]
    resultado = classificador_emocao(texto)[0]

    return resultado['label']

üìä **Aplica√ß√£o do Modelo em uma Amostra do Dataset**

In [36]:
# Seleciona amostra para demonstra√ß√£o
df_demo = df.sample(200, random_state=42).copy()

# Executa infer√™ncia em lote
resultados = classificador_emocao(
    df_demo["content"].astype(str).tolist()
)

# Armazena emo√ß√µes previstas
df_demo["emocao"] = [r["label"] for r in resultados]

df_demo.head()

Unnamed: 0,date,rating,content,product_url,emocao
170425,11 abr. 2024,5,Bom.,https://www.mercadolivre.com.br/wella-professi...,anger
84922,14 jan. 2024,5,Boa.,https://www.mercadolivre.com.br/premier-paste-...,anger
52542,22 jul. 2024,4,√â muito cheiroso.\nAgora √© s√≥ usar pra v√™ se p...,https://www.mercadolivre.com.br/kit-completo-5...,joy
126882,14 fev. 2025,5,Oti.,https://www.mercadolivre.com.br/kit-verniz-sha...,anger
154949,21 jul. 2024,5,Amei. Original. Meu cabelo ficou lindo.,https://www.mercadolivre.com.br/lanza-healing-...,joy


ü§ñ **Carregamento do Modelo de Sentimento** üòä

In [37]:
classificador_sentimento = pipeline(
    task="sentiment-analysis",
    model="cardiffnlp/twitter-xlm-roberta-base-sentiment"
)

def detectar_sentimento(texto):
    texto = str(texto)[:512]
    resultado = classificador_sentimento(texto)[0]
    return resultado['label']

Loading weights:   0%|          | 0/201 [00:00<?, ?it/s]

XLMRobertaForSequenceClassification LOAD REPORT from: cardiffnlp/twitter-xlm-roberta-base-sentiment
Key                             | Status     |  | 
--------------------------------+------------+--+-
roberta.embeddings.position_ids | UNEXPECTED |  | 

Notes:
- UNEXPECTED	:can be ignored when loading from different task/architecture; not ok if you expect identical arch.


üìä **Aplica√ß√£o do Modelo na Mesma Amostra**

In [38]:
resultados_sentimento = classificador_sentimento(
    df_demo["content"].astype(str).tolist()
)

df_demo["sentimento"] = [r["label"] for r in resultados_sentimento]

**üëÄ Visualiza√ß√£o e An√°lise das Emo√ß√µes**

In [39]:
df_demo[['content','emocao','sentimento']].sample(5)

Unnamed: 0,content,emocao,sentimento
73186,√ìtimo.,anger,positive
68499,Comprei em abril e s√≥ precisei repor a m√°scara...,joy,positive
83958,"Maravilhoso, excelente.",joy,positive
68688,Excelente.,joy,positive
154799,"O produto √© maravilhoso o cheiro √© agrad√°vel, ...",joy,positive


In [40]:
df_demo['sentimento'].value_counts().reset_index()

Unnamed: 0,sentimento,count
0,positive,165
1,negative,27
2,neutral,8


# üîπ **Etapa 3 ‚Äì Detec√ß√£o de Inconsist√™ncias** ‚ö†Ô∏è



### üìä **Objetivo**
Identificar contradi√ß√µes entre a **nota (rating)** e o **sentimento previsto no texto**.

Consideramos inconsist√™ncia quando:

- ‚≠ê Nota alta (4 ou 5) ‚Üí sentimento negativo  
- ‚≠ê Nota baixa (1 ou 2) ‚Üí sentimento positivo  

Essa an√°lise ajuda a identificar poss√≠veis erros de rotulagem,
ironia textual ou limita√ß√µes do modelo.

üîé **Defini√ß√£o das regras de inconsist√™ncia**

In [41]:
inconsistencias = df_demo[
    (
        (df_demo["rating"] >= 4) & (df_demo["sentimento"] == "negative")
    )
    |
    (
        (df_demo["rating"] <= 2) & (df_demo["sentimento"] == "positive")
    )
]

# Visualizar exemplos
inconsistencias[["content", "rating", "sentimento"]].head()

Unnamed: 0,content,rating,sentimento
126882,Oti.,5,negative
22571,,5,negative
188619,Apresentei hipersensibilidade tardia com sinto...,5,negative
34057,Diminuiu a caspa e a coceira na terceira lavag...,4,negative
23208,Atentem apenas que h√° dois tamanhos desse prot...,5,negative


In [42]:
print('Inconsistentes:', len(inconsistencias))
print('%:', round(len(inconsistencias)/len(df_demo)*100, 2))

Inconsistentes: 13
%: 6.5


### üìå **Interpreta√ß√£o**

A presen√ßa de inconsist√™ncias pode indicar:

- Uso ir√¥nico da linguagem
- Ambiguidade textual
- Diferen√ßa entre percep√ß√£o emocional e avalia√ß√£o final
- Limita√ß√µes do modelo pr√©-treinado

Essa etapa adiciona uma camada anal√≠tica ao projeto,
indo al√©m da simples classifica√ß√£o autom√°tica.

**Reviews muito curtas apresentaram maior propor√ß√£o de inconsist√™ncias, sugerindo que a baixa quantidade de contexto textual pode dificultar a interpreta√ß√£o correta pelo modelo.**

# üîπ **Etapa 4 ‚Äì Detec√ß√£o de Temas (Topic Modeling)** üß©

### üìå **Objetivo**
Identificar automaticamente os principais temas presentes nas reviews,
utilizando modelagem n√£o supervisionada.

Aplicamos:
- **Bag of Words (CountVectorizer)** para transformar texto em matriz num√©rica  
- **LDA (Latent Dirichlet Allocation)** para descobrir grupos de palavras recorrentes  

Essa abordagem permite responder:

> ‚ÄúQuais s√£o os principais assuntos discutidos nas avalia√ß√µes?‚Äù

### üî¢ **Vetoriza√ß√£o (Bag of Words)**

In [43]:
# Stopwords em portugu√™s
nltk.download("stopwords")
stopwords_pt = stopwords.words("portuguese")

# Vetoriza√ß√£o do texto
vetorizador = CountVectorizer(
    stop_words=stopwords_pt,
    max_features=1000
)

matriz_texto = vetorizador.fit_transform(df_demo["content"])

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


### **üß† Treinamento do Modelo LDA**

In [44]:
# Treinamento do modelo de t√≥picos
modelo_lda = LatentDirichletAllocation(
    n_components=5,
    random_state=42
)

modelo_lda.fit(matriz_texto)

### üîé **Principais Palavras por Tema**

In [45]:
# Visualizar palavras mais relevantes de cada tema
palavras = vetorizador.get_feature_names_out()

for indice_tema, tema in enumerate(modelo_lda.components_):
    principais_palavras = [palavras[i] for i in tema.argsort()[-10:]]
    print(f"Tema {indice_tema+1}")
    print(principais_palavras)

Tema 1
['adorei', 'tempo', '√≥tima', 'cumpre', 'cabelo', 'maravilhoso', 'recomendo', 'uso', 'produto', 'bom']
Tema 2
['realmente', 'cabelos', 'cabelo', 'caixa', 'faz', 'shampoo', 'melhor', 'excelente', 'produto', 'maravilhoso']
Tema 3
['lindo', 'bom', 'comprei', 'super', 'veio', 'amo', 'produto', 'cabelo', 'ficou', 'comprar']
Tema 4
['ainda', 'bem', 'excelente', 'bom', 'amei', 'shampoo', '√≥timo', 'produto', 'gostei', 'cabelo']
Tema 5
['maravilhoso', 'macio', 'cabelos', 'deixa', 'super', 'cheiroso', 'produto', 'perfeito', '√≥timo', 'cabelo']


### üìä **An√°lise dos Temas (Amostra)**

Identificamos o **tema dominante** de cada review com base na maior
probabilidade atribu√≠da pelo LDA.

Em seguida, analisamos a distribui√ß√£o dos temas
e sua rela√ß√£o com o sentimento.

In [46]:
# 4. Identificar tema principal de cada review
matriz_temas = modelo_lda.transform(matriz_texto)

df_demo["tema_principal"] = matriz_temas.argmax(axis=1)

**An√°lise Estat√≠stica Descritiva dos temas**

In [47]:
df_demo["tema_principal"].value_counts().reset_index()

Unnamed: 0,tema_principal,count
0,0,53
1,4,50
2,3,45
3,1,31
4,2,21


In [48]:
df_demo.groupby('tema_principal')['rating'].mean().reset_index()

Unnamed: 0,tema_principal,rating
0,0,4.698113
1,1,4.741935
2,2,4.571429
3,3,4.711111
4,4,4.6


### üòä **Distribui√ß√£o de Sentimento por Tema**

Analisamos como o sentimento se distribui dentro de cada tema,
permitindo identificar quais assuntos est√£o mais associados
a avalia√ß√µes positivas ou negativas.

In [49]:
df_demo.groupby(["tema_principal", "sentimento"]).size().unstack().reset_index()

sentimento,tema_principal,negative,neutral,positive
0,0,7,3,43
1,1,4,1,26
2,2,5,2,14
3,3,5,1,39
4,4,6,1,43


## üîπ **Etapa 5 ‚Äì An√°lise de Similaridade Textual** üìê

**üéØ Objetivo**

Nesta etapa utilizamos **TF-IDF** para representar os textos
e aplicamos **similaridade do cosseno** para medir proximidade entre reviews.

Essa abordagem permite identificar textos semanticamente semelhantes,
servindo como base para sistemas de recomenda√ß√£o ou busca textual.

üî¢ **Representa√ß√£o vetorial com TF-IDF**


In [50]:
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import TfidfVectorizer
stopwords_pt = stopwords.words("portuguese")


tfidf_vectorizer = TfidfVectorizer(
    stop_words=stopwords_pt,
    min_df=5
)

X_tfidf = tfidf_vectorizer.fit_transform(df["content"])

üìö **Vocabul√°rio criado pelo modelo**

In [51]:
vocab_tfidf = tfidf_vectorizer.get_feature_names_out()

üìê **Similaridade do cosseno entre duas reviews**


In [52]:
i, j = 11, 20

print("Review A:\n", df.loc[i, "content"])
print("\nReview B:\n", df.loc[j, "content"])

similaridade = cosine_similarity(
    X_tfidf[i],
    X_tfidf[j]
)[0][0]

print("\nSimilaridade:", similaridade)

Review A:
 Tudo de bom! gostei! eu recomendo.

Review B:
 Gostei bastante idrata da brilho! o cheiro da idrata√ß√£o e meio forte lembra uma progressiva! mas estou gostando do resultado pretendo comprar mais produto da linha.

Similaridade: 0.07180956523736445


üîé **Encontrar textos semelhantes a uma review espec√≠fica**

In [53]:
idx_base = 11

# Calcular similaridade com todas as reviews
similaridades = cosine_similarity(
    X_tfidf[idx_base],
    X_tfidf
)[0]

# Ordenar por maior similaridade
df_sim = (
    df.assign(similaridade=similaridades)
      .sort_values("similaridade", ascending=False)
)

# Top 5 mais semelhantes (excluindo a pr√≥pria)
df_sim.iloc[1:6][["rating", "similaridade", "content"]]

Unnamed: 0,rating,similaridade,content
94666,5,0.877802,Tudo de bom! recomendo üòä.
6802,5,0.877802,Tudo de bom. Recomendo.
13941,5,0.830025,Esse produto √© tudo de bom.\nEu recomendo.
50083,5,0.780823,"Tudo de bom, amei. Recomendo."
51179,4,0.769854,N√£o √© tudo aquilo no meu cabelo n√£o gostei.


üîç **Busca sem√¢ntica a partir de um texto digitado**

In [54]:
consulta = "produto deixou meu cabelo macio e cheiroso"

vetor_consulta = tfidf_vectorizer.transform([consulta])

similaridades_consulta = cosine_similarity(
    vetor_consulta,
    X_tfidf
)[0]

df_busca = (
    df.assign(similaridade=similaridades_consulta)
      .sort_values("similaridade", ascending=False)
)

df_busca.head(5)[["rating", "similaridade", "content"]]

Unnamed: 0,rating,similaridade,content
53432,5,1.0,Produto cheiroso e deixou meu cabelo macio.
204120,5,0.963071,Muito cheiroso e deixou meu cabelo macio.
156180,5,0.963071,Deixou meu cabelo mais macio e muito cheiroso.
142836,5,0.963071,√â muito cheiroso e deixou o meu cabelo muito m...
5455,5,0.946907,Produto maravilhoso deixou meu cabelo macio e ...


# üîπ **Etapa 6 ‚Äì Classifica√ß√£o de Texto com Regress√£o Log√≠stica** ü§ñ

Nesta etapa treinamos um modelo supervisionado para classificar reviews
em **negativo, neutro ou positivo**, a partir da nota atribu√≠da.

**Essa abordagem √© amplamente utilizada em:**
- Classifica√ß√£o de reviews
- Detec√ß√£o de spam
- Categoriza√ß√£o de tickets
- Identifica√ß√£o de inten√ß√£o em chatbots

### üéØ **Cria√ß√£o da Vari√°vel Alvo**

Para transformar o problema em uma tarefa de classifica√ß√£o supervisionada,
convertimos a nota num√©rica (`rating`) em categorias de sentimento:

- 1 ou 2 ‚Üí **negativo**
- 3 ‚Üí **neutro**
- 4 ou 5 ‚Üí **positivo**

**Aqui definimos a classe que o modelo ir√° prever, baseada na nota atribu√≠da pelo usu√°rio.**

In [55]:
def classificar_rating(r):
    if r <= 2:
        return "negativo"
    elif r == 3:
        return "neutro"
    else:
        return "positivo"

df["classe_sentimento"] = df["rating"].apply(classificar_rating)

### üîé **Defini√ß√£o das vari√°veis**

Aqui separamos o que ser√° usado como entrada **(texto)**
e o que o modelo deve prever **(classe de sentimento)**.

In [56]:
X = df["content"].astype(str)
y = df["classe_sentimento"]

### ‚úÇÔ∏è **Divis√£o em Treino e Teste**

Separamos os dados em **80% treino** e **20% teste**.

O objetivo √© treinar o modelo em uma parte dos dados
e avaliar seu desempenho em dados n√£o vistos garantindo uma avalia√ß√£o mais confi√°vel.


In [57]:
from sklearn.model_selection import train_test_split

X_treino, X_teste, y_treino, y_teste = train_test_split(
    X,
    y,
    test_size=0.2,
    random_state=42,
    stratify=y
)

### üî§ **Vetoriza√ß√£o com TF-IDF**

- Transforma√ß√£o do texto em representa√ß√£o num√©rica.

- max_features=5000 limita o vocabul√°rio

- O modelo passa a trabalhar com vetores num√©ricos

In [58]:
vetorizador = TfidfVectorizer(
    max_features=5000,
    stop_words=None
)

X_treino_vet = vetorizador.fit_transform(X_treino)
X_teste_vet = vetorizador.transform(X_teste)

### üìà **Treinamento do Modelo**

Treinamos uma Regress√£o Log√≠stica com **balanceamento de classes** para lidar com desbalanceamento do dataset.

In [59]:
modelo = LogisticRegression(
    max_iter=1000,
    class_weight="balanced",
    random_state=42
)

modelo.fit(X_treino_vet, y_treino)

### üîÆ**Realiza√ß√£o das Previs√µes**
Aplicamos o modelo no conjunto de teste.

**A vari√°vel predicoes** foi utilizada na etapa de avalia√ß√£o do modelo, sendo essencial para o **c√°lculo das m√©tricas de desempenho**, como **accuracy** e **relat√≥rio de classifica√ß√£o**, podendo ainda ser explorada em an√°lises adicionais de erro.

In [60]:
predicoes = modelo.predict(X_teste_vet)

### üìä**Avalia√ß√£o do Modelo**

Avaliamos o desempenho utilizando:

- Accuracy
- Precision
- Recall
- F1-score

In [61]:
print("Accuracy:", accuracy_score(y_teste, predicoes))
print("\nRelat√≥rio de classifica√ß√£o:")
print(classification_report(y_teste, predicoes))

Accuracy: 0.8605735546374815

Relat√≥rio de classifica√ß√£o:
              precision    recall  f1-score   support

    negativo       0.51      0.72      0.60      1999
      neutro       0.13      0.55      0.22      1143
    positivo       0.99      0.88      0.93     38249

    accuracy                           0.86     41391
   macro avg       0.55      0.72      0.58     41391
weighted avg       0.94      0.86      0.89     41391



### üìä **Interpreta√ß√£o dos Resultados**

O modelo alcan√ßou **86% de acur√°cia**, com desempenho elevado na classe **positiva**, que concentra a maior parte das amostras.

As classes **negativa** e principalmente **neutra** apresentaram m√©tricas inferiores, refletindo o desbalanceamento do dataset.

Foi utilizado `class_weight="balanced"` na Regress√£o Log√≠stica para tentar reduzir esse efeito, ajustando o peso das classes minorit√°rias durante o treinamento. Ainda assim, observa-se que o desbalanceamento impacta o desempenho final.

### üß™**Teste com Novos Textos**

Aplica√ß√£o pr√°tica do modelo em exemplos manuais.

In [62]:
# Exemplo 1
texto = ['Gostei muito, indico.']
texto_vet = vetorizador.transform(texto)
print("Predi√ß√£o:", modelo.predict(texto_vet)[0])

# Exemplo 2
texto = ['At√© que √© bom.']
texto_vet = vetorizador.transform(texto)
print("Predi√ß√£o:", modelo.predict(texto_vet)[0])

# Exemplo 3
texto = ['P√©ssimo produto, odiei o cheiro.']
texto_vet = vetorizador.transform(texto)
print("Predi√ß√£o:", modelo.predict(texto_vet)[0])

Predi√ß√£o: positivo
Predi√ß√£o: neutro
Predi√ß√£o: negativo


# **üìå Conclus√£o**

Neste projeto aplicamos um pipeline completo de NLP, incluindo:

- Pr√©-processamento textual  
- Representa√ß√£o vetorial (BoW e TF-IDF)  
- Modelagem supervisionada  
- Topic Modeling (LDA)  
- Similaridade textual  
- An√°lise com Transformers  

O teste com novos textos demonstra a aplica√ß√£o pr√°tica do modelo,
mostrando sua capacidade de generalizar para avalia√ß√µes n√£o vistas.

Como pr√≥ximos passos, seria poss√≠vel:
- Ajustar hiperpar√¢metros  
- Aplicar t√©cnicas de balanceamento mais avan√ßadas  
- Comparar com modelos baseados em Transformers  

**O projeto evidencia a aplica√ß√£o integrada de t√©cnicas cl√°ssicas e modernas de NLP em um cen√°rio real de reviews de e-commerce.**