In [1]:
import pandas as pd
import numpy as np
import re
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import SnowballStemmer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB, MultinomialNB, BernoulliNB
from sklearn.metrics import accuracy_score
from bs4 import BeautifulSoup
import os
import pickle
import warnings
warnings.filterwarnings("ignore")

In [2]:
data = pd.read_csv('imdb-reviews-pt-br.csv')
print(data.shape)
data.head


(49459, 4)


<bound method NDFrame.head of           id                                            text_en  \
0          1  Once again Mr. Costner has dragged out a movie...   
1          2  This is an example of why the majority of acti...   
2          3  First of all I hate those moronic rappers, who...   
3          4  Not even the Beatles could write songs everyon...   
4          5  Brass pictures movies is not a fitting word fo...   
...      ...                                                ...   
49454  49456  Seeing as the vote average was pretty low, and...   
49455  49457  The plot had some wretched, unbelievable twist...   
49456  49458  I am amazed at how this movieand most others h...   
49457  49459  A Christmas Together actually came before my t...   
49458  49460  Working-class romantic drama from director Mar...   

                                                 text_pt sentiment  
0      Mais uma vez, o Sr. Costner arrumou um filme p...       neg  
1      Este √© um exemplo d

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 49459 entries, 0 to 49458
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   id         49459 non-null  int64 
 1   text_en    49459 non-null  object
 2   text_pt    49459 non-null  object
 3   sentiment  49459 non-null  object
dtypes: int64(1), object(3)
memory usage: 1.5+ MB


In [4]:
data.sentiment.value_counts()

sentiment
neg    24765
pos    24694
Name: count, dtype: int64

In [5]:
print(data.columns)

Index(['id', 'text_en', 'text_pt', 'sentiment'], dtype='object')


In [6]:
print(data['text_pt'][0])

Mais uma vez, o Sr. Costner arrumou um filme por muito mais tempo do que o necess√°rio. Al√©m das terr√≠veis seq√º√™ncias de resgate no mar, das quais h√° muito poucas, eu simplesmente n√£o me importei com nenhum dos personagens. A maioria de n√≥s tem fantasmas no arm√°rio, e o personagem Costers √© realizado logo no in√≠cio, e depois esquecido at√© muito mais tarde, quando eu n√£o me importava. O personagem com o qual dever√≠amos nos importar √© muito arrogante e superconfiante, Ashton Kutcher. O problema √© que ele sai como um garoto que pensa que √© melhor do que qualquer outra pessoa ao seu redor e n√£o mostra sinais de um arm√°rio desordenado. Seu √∫nico obst√°culo parece estar vencendo Costner. Finalmente, quando estamos bem al√©m do meio do caminho, Costner nos conta sobre os fantasmas dos Kutchers. Somos informados de por que Kutcher √© levado a ser o melhor sem pressentimentos ou press√°gios anteriores. Nenhuma m√°gica aqui, era tudo que eu podia fazer para n√£o desligar uma h

1. Remove HTML tags

Regex rule:'<.*?'

In [7]:
def clean(text):
    cleaned = re.compile(r'<.*?>')
    return re.sub(cleaned,'',text)
    
data.text_pt = data.text_pt.apply(clean)
data.text_pt[0]

'Mais uma vez, o Sr. Costner arrumou um filme por muito mais tempo do que o necess√°rio. Al√©m das terr√≠veis seq√º√™ncias de resgate no mar, das quais h√° muito poucas, eu simplesmente n√£o me importei com nenhum dos personagens. A maioria de n√≥s tem fantasmas no arm√°rio, e o personagem Costers √© realizado logo no in√≠cio, e depois esquecido at√© muito mais tarde, quando eu n√£o me importava. O personagem com o qual dever√≠amos nos importar √© muito arrogante e superconfiante, Ashton Kutcher. O problema √© que ele sai como um garoto que pensa que √© melhor do que qualquer outra pessoa ao seu redor e n√£o mostra sinais de um arm√°rio desordenado. Seu √∫nico obst√°culo parece estar vencendo Costner. Finalmente, quando estamos bem al√©m do meio do caminho, Costner nos conta sobre os fantasmas dos Kutchers. Somos informados de por que Kutcher √© levado a ser o melhor sem pressentimentos ou press√°gios anteriores. Nenhuma m√°gica aqui, era tudo que eu podia fazer para n√£o desligar uma 

2. Remove special characters

In [8]:
def is_special(text):
    rem = ''
    for i in text:
        if i.isalnum():
            rem = rem + i
        else:
            rem = rem + ' '
    return rem

data.text_pt = data.text_pt.apply(is_special)
data.text_pt[0]
        

'Mais uma vez  o Sr  Costner arrumou um filme por muito mais tempo do que o necess√°rio  Al√©m das terr√≠veis seq√º√™ncias de resgate no mar  das quais h√° muito poucas  eu simplesmente n√£o me importei com nenhum dos personagens  A maioria de n√≥s tem fantasmas no arm√°rio  e o personagem Costers √© realizado logo no in√≠cio  e depois esquecido at√© muito mais tarde  quando eu n√£o me importava  O personagem com o qual dever√≠amos nos importar √© muito arrogante e superconfiante  Ashton Kutcher  O problema √© que ele sai como um garoto que pensa que √© melhor do que qualquer outra pessoa ao seu redor e n√£o mostra sinais de um arm√°rio desordenado  Seu √∫nico obst√°culo parece estar vencendo Costner  Finalmente  quando estamos bem al√©m do meio do caminho  Costner nos conta sobre os fantasmas dos Kutchers  Somos informados de por que Kutcher √© levado a ser o melhor sem pressentimentos ou press√°gios anteriores  Nenhuma m√°gica aqui  era tudo que eu podia fazer para n√£o desligar uma 

3. Convert everything to lowercase

In [9]:
def to_lower(text):
    return text.lower()

data['text_pt'] = data['text_pt'].apply(to_lower)
print(data['text_pt'][0])

mais uma vez  o sr  costner arrumou um filme por muito mais tempo do que o necess√°rio  al√©m das terr√≠veis seq√º√™ncias de resgate no mar  das quais h√° muito poucas  eu simplesmente n√£o me importei com nenhum dos personagens  a maioria de n√≥s tem fantasmas no arm√°rio  e o personagem costers √© realizado logo no in√≠cio  e depois esquecido at√© muito mais tarde  quando eu n√£o me importava  o personagem com o qual dever√≠amos nos importar √© muito arrogante e superconfiante  ashton kutcher  o problema √© que ele sai como um garoto que pensa que √© melhor do que qualquer outra pessoa ao seu redor e n√£o mostra sinais de um arm√°rio desordenado  seu √∫nico obst√°culo parece estar vencendo costner  finalmente  quando estamos bem al√©m do meio do caminho  costner nos conta sobre os fantasmas dos kutchers  somos informados de por que kutcher √© levado a ser o melhor sem pressentimentos ou press√°gios anteriores  nenhuma m√°gica aqui  era tudo que eu podia fazer para n√£o desligar uma h

4. Remove stopwords

In [10]:
import nltk
nltk.download('stopwords')
nltk.download('punkt')

def rem_stopwords(text):
    stop_words = set(stopwords.words('portuguese'))
    words = word_tokenize(text)
    return [w for w in words if w not in stop_words]

data['text_pt'] = data['text_pt'].apply(to_lower)
print(data['text_pt'][0])

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\jef\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\jef\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


mais uma vez  o sr  costner arrumou um filme por muito mais tempo do que o necess√°rio  al√©m das terr√≠veis seq√º√™ncias de resgate no mar  das quais h√° muito poucas  eu simplesmente n√£o me importei com nenhum dos personagens  a maioria de n√≥s tem fantasmas no arm√°rio  e o personagem costers √© realizado logo no in√≠cio  e depois esquecido at√© muito mais tarde  quando eu n√£o me importava  o personagem com o qual dever√≠amos nos importar √© muito arrogante e superconfiante  ashton kutcher  o problema √© que ele sai como um garoto que pensa que √© melhor do que qualquer outra pessoa ao seu redor e n√£o mostra sinais de um arm√°rio desordenado  seu √∫nico obst√°culo parece estar vencendo costner  finalmente  quando estamos bem al√©m do meio do caminho  costner nos conta sobre os fantasmas dos kutchers  somos informados de por que kutcher √© levado a ser o melhor sem pressentimentos ou press√°gios anteriores  nenhuma m√°gica aqui  era tudo que eu podia fazer para n√£o desligar uma h

5. Stem the words

In [11]:
def stem_txt(text):
    ss = SnowballStemmer('portuguese')
    return " ".join([ss.stem(w) for w in text])

data.text_pt = data.text_pt.apply(stem_txt)
data.text_pt[0]

'm a i s   u m a   v e z     o   s r     c o s t n e r   a r r u m o u   u m   f i l m e   p o r   m u i t o   m a i s   t e m p o   d o   q u e   o   n e c e s s √° r i o     a l √© m   d a s   t e r r √≠ v e i s   s e q √º √™ n c i a s   d e   r e s g a t e   n o   m a r     d a s   q u a i s   h √°   m u i t o   p o u c a s     e u   s i m p l e s m e n t e   n √£ o   m e   i m p o r t e i   c o m   n e n h u m   d o s   p e r s o n a g e n s     a   m a i o r i a   d e   n √≥ s   t e m   f a n t a s m a s   n o   a r m √° r i o     e   o   p e r s o n a g e m   c o s t e r s   √©   r e a l i z a d o   l o g o   n o   i n √≠ c i o     e   d e p o i s   e s q u e c i d o   a t √©   m u i t o   m a i s   t a r d e     q u a n d o   e u   n √£ o   m e   i m p o r t a v a     o   p e r s o n a g e m   c o m   o   q u a l   d e v e r √≠ a m o s   n o s   i m p o r t a r   √©   m u i t o   a r r o g a n t e   e   s u p e r c o n f i a n t e     a s h t o n   k u t c h e r     o   p r o b 

Creating the Model

1. Creating Bag of words (BOW)

In [12]:
X = np.array(data.iloc[:,0].values)
y = np.array(data.sentiment.values)
cv = CountVectorizer(max_features = 1000)
X = cv.fit_transform(data.text_pt).toarray()
print("X.shape = ",X.shape)
print("y.shape = ",y.shape)

ValueError: empty vocabulary; perhaps the documents only contain stop words

In [13]:
# 1. Preenche valores faltantes com string vazia e garante o tipo string
data['text_pt'] = data['text_pt'].fillna('').astype(str)

In [14]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
# Importar o NLTK e a lista de stop words em Portugu√™s
import nltk
from nltk.corpus import stopwords

# Certifique-se de que voc√™ baixou a lista de stop words do NLTK.
# Se for a primeira vez, execute: nltk.download('stopwords')

# 2. Obter a lista de stop words em Portugu√™s
pt_stopwords = stopwords.words('portuguese')

# 3. Aplicar o CountVectorizer
y = np.array(data.sentiment.values)

# O erro original provavelmente vinha daqui, pois o CountVectorizer 
# pode estar usando a lista padr√£o (ingl√™s) ou None, mas o NLTK tem a lista correta.
cv = CountVectorizer(max_features = 1000, stop_words = pt_stopwords)
X = cv.fit_transform(data.text_pt).toarray()

print("X.shape = ",X.shape)
print("y.shape = ",y.shape)

ValueError: empty vocabulary; perhaps the documents only contain stop words

In [15]:
import nltk
# Execute apenas a primeira vez que usar o NLTK
try:
    nltk.data.find('corpora/stopwords')
except nltk.downloader.DownloadError:
    print("Baixando dados de stopwords do NLTK...")
    nltk.download('stopwords')

In [16]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords
import pandas as pd # Assumindo que 'data' √© um DataFrame Pandas

# --- Passo 1: Limpeza e Download do NLTK (Garantindo que a lista exista) ---
# Se for a primeira vez, execute: nltk.download('stopwords')
# (Ou use o bloco 'try/except' acima para um download seguro)

# Limpeza dos dados: Garante que todos s√£o strings
data['text_pt'] = data['text_pt'].fillna('').astype(str)

# --- Passo 2: Configura√ß√£o da Vetoriza√ß√£o ---
y = np.array(data.sentiment.values)

# 1. Obter a lista de stop words em Portugu√™s
pt_stopwords = stopwords.words('portuguese')

# 2. Inicializar o CountVectorizer
# max_features = 1000
cv = CountVectorizer(max_features = 1000, stop_words = pt_stopwords)

# --- Passo 3: Execu√ß√£o (onde o erro ocorria) ---
try:
    X = cv.fit_transform(data.text_pt).toarray()
    print("Sucesso na vetoriza√ß√£o!")
    print("X.shape = ", X.shape)
    print("y.shape = ", y.shape)
except ValueError as e:
    # Se o erro persistir, provavelmente o texto √© muito curto/ru√≠do
    print(f"Erro persistente: {e}")
    print("\nTentando a vetoriza√ß√£o SEM Stop Words como alternativa...")
    
    # Tente sem nenhuma filtragem de stop words como alternativa
    cv_sem_stopwords = CountVectorizer(max_features = 1000) # stop_words=None √© o padr√£o
    X = cv_sem_stopwords.fit_transform(data.text_pt).toarray()
    print("Sucesso SEM Stop Words!")
    print("X.shape = ", X.shape)

Erro persistente: empty vocabulary; perhaps the documents only contain stop words

Tentando a vetoriza√ß√£o SEM Stop Words como alternativa...


ValueError: empty vocabulary; perhaps the documents only contain stop words

In [17]:
# 1. Checar quantos valores vazios existem (depois do fillna)
print("Contagem de Strings Vazias:", (data.text_pt == '').sum())

# 2. Checar a m√©dia de caracteres por documento para ver se s√£o muito curtos
print("M√©dia de Comprimento dos Textos:", data.text_pt.str.len().mean())

# 3. Mostrar algumas amostras dos textos que est√£o na coluna
print("\nPrimeiras 10 Amostras da Coluna:")
print(data.text_pt.head(10))

Contagem de Strings Vazias: 0
M√©dia de Comprimento dos Textos: 2562.6937261165813

Primeiras 10 Amostras da Coluna:
0    m a i s   u m a   v e z     o   s r     c o s ...
1    e s t e   √©   u m   e x e m p l o   d o   m o ...
2    p r i m e i r o   d e   t u d o   e u   o d e ...
3    n e m   m e s m o   o s   b e a t l e s   p u ...
4    f i l m e s   d e   f o t o s   d e   l a t √£ ...
5    u m a   c o i s a   e n g r a c a d a   a c o ...
6    e s t e   f i l m e   d e   t e r r o r   a l ...
7    s e n d o   u m   f √£   d e   l o n g a   d a ...
8      t o k y o   e y e s     f a l a   d e   u m ...
9    f a z e n d e i r o s   r i c o s   e m   b u ...
Name: text_pt, dtype: object


In [18]:
# Novo padr√£o: r'\b\w+\b' captura palavras de UMA ou mais letras.
new_token_pattern = r'\b\w+\b'

# Tentativa Final SEM Stop Words, mas com o padr√£o de tokeniza√ß√£o relaxado
cv_relaxed = CountVectorizer(max_features = 1000, token_pattern = new_token_pattern)

try:
    X_relaxed = cv_relaxed.fit_transform(data.text_pt).toarray()
    print("\nSucesso com Padr√£o Relaxado!")
    print("X_relaxed.shape = ", X_relaxed.shape)
except ValueError as e:
    # Se o erro ocorrer aqui, seus dados s√£o APENAS ru√≠do (pontua√ß√£o/emojis)
    print("\nERRO CR√çTICO: Seus textos n√£o cont√™m letras v√°lidas ap√≥s a limpeza.")
    print("Verifique se h√° pr√©-processamento que removeu todas as letras.")


Sucesso com Padr√£o Relaxado!
X_relaxed.shape =  (49459, 77)


In [19]:
import re
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords
import numpy as np

# Fun√ß√£o para remover espa√ßos excessivos e reformar as palavras
def clean_excess_spaces(text):
    # Substitui 2 ou mais espa√ßos seguidos por UM √∫nico espa√ßo
    # (Isso vai transformar "m a i s" em "m a i s")
    text = re.sub(r'\s{2,}', ' ', text)
    # Remove espa√ßos √† esquerda e √† direita
    return text.strip()

# 1. Aplicar a limpeza
data['text_pt_cleaned'] = data['text_pt'].apply(clean_excess_spaces)

# 2. Re-rodar o CountVectorizer (usando a lista de stop words correta)
y = np.array(data.sentiment.values)
pt_stopwords = stopwords.words('portuguese')

# Use o padr√£o padr√£o do CountVectorizer, que √© mais robusto para palavras
cv = CountVectorizer(max_features = 1000, stop_words = pt_stopwords) 

# Use a coluna LIMPA
X_final = cv.fit_transform(data.text_pt_cleaned).toarray()

print("--- Ap√≥s Limpeza dos Espa√ßos ---")
print("X_final.shape (Esperado > 77): ", X_final.shape)

ValueError: empty vocabulary; perhaps the documents only contain stop words

In [20]:
import numpy as np
import re
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords

# Fun√ß√£o de Limpeza Agressiva para garantir que as palavras se juntem
def clean_and_reassemble_words(text):
    # 1. Remove TODOS os espa√ßos (transforma "m a i s" em "mais")
    text = text.replace(' ', '')
    # 2. Substitui m√∫ltiplas ocorr√™ncias de caracteres alfab√©ticos por um espa√ßo
    # (Pode ser necess√°rio um pr√©-processamento mais complexo se houver pontua√ß√£o)
    # Mas vamos usar o m√©todo mais direto para o seu formato:
    
    # 3. Tentativa mais simples: Se o texto for apenas letras separadas por espa√ßos,
    # remova todos os espa√ßos e adicione UM espa√ßo onde existiam as palavras originais (se soubermos o delimitador)
    
    # Vamos reverter para a solu√ß√£o original, mas ajustando-a: 
    # Tenta juntar letras que estavam separadas por um √∫nico espa√ßo
    
    # Substitui 1 ou mais espa√ßos por um √∫nico espa√ßo. Esta √© a maneira mais robusta:
    text = re.sub(r'\s+', ' ', text)
    
    # Se isso n√£o funcionar, o texto pode ter sido originalmente 'm a i s' e n√£o 'm   a   i   s'.
    # A alternativa mais bruta √© for√ßar a jun√ß√£o de todas as letras:
    # return re.sub(r'(\w)\s(\w)', r'\1\2', text).strip() # Esta √© complexa.
    
    # **FOCANDO NO PROBLEMA**: Se 'm a i s' √© o problema, TUDO √© token de 1 letra.
    # O seu c√≥digo de limpeza deve ser o que apresentei na √∫ltima resposta:
    # text = re.sub(r'\s{2,}', ' ', text) # Substitui 2+ espa√ßos por 1 (deve lidar com o 'm a i s')
    
    # Se o erro persiste, vamos assumir que a limpeza n√£o est√° juntando 'm a i s'. 
    # Vamos tentar uma limpeza que remove todos os espa√ßos, exceto os que delimitavam as palavras.
    # Baseado na sua amostra: 'm a i s   u m a' => o delimitador de palavras era 3 espa√ßos ou mais.
    # Vamos usar uma REGRA SIMPLES: se h√° 3+ espa√ßos, √© um delimitador de palavras.
    
    text = re.sub(r'\s{3,}', ' [DELIMITER] ', text) # Marca o delimitador de palavras
    text = text.replace(' ', '') # Remove os espa√ßos entre as letras
    text = text.replace('[DELIMITER]', ' ') # Restaura o espa√ßo de palavras

    return text.strip()

# 1. Aplicar a nova limpeza agressiva
data['text_pt_cleaned_agressive'] = data['text_pt'].apply(clean_and_reassemble_words)

print("Amostras de Textos Limpos Agressivamente (Deve ser 'mais uma vez'):")
print(data.text_pt_cleaned_agressive.head(3))

# 2. VETORIZA√á√ÉO COM STOP WORDS (TENTATIVA 1)
y = np.array(data.sentiment.values)
pt_stopwords = stopwords.words('portuguese')

cv = CountVectorizer(max_features = 1000, stop_words = pt_stopwords) 

try:
    X_final = cv.fit_transform(data.text_pt_cleaned_agressive).toarray()
    print("\n-------------------------------------------")
    print("üéâ SUCESSO na Vetoriza√ß√£o ap√≥s a Limpeza Agressiva!")
    print("X_final.shape: ", X_final.shape)

except ValueError:
    # 3. VETORIZA√á√ÉO SEM STOP WORDS (TENTATIVA 2)
    cv_sem_stopwords = CountVectorizer(max_features = 1000)
    X_final = cv_sem_stopwords.fit_transform(data.text_pt_cleaned_agressive).toarray()
    print("\n-------------------------------------------")
    print("üéâ SUCESSO na Vetoriza√ß√£o (SEM Stop Words)!")
    print("X_final.shape: ", X_final.shape)

Amostras de Textos Limpos Agressivamente (Deve ser 'mais uma vez'):
0    maisumavezosrcostnerarrumouumfilmepormuitomais...
1    este√©umexemplodomotivopeloqualamaioriadosfilme...
2    primeirodetudoeuodeioessesrapsimbecisquen√£opod...
Name: text_pt_cleaned_agressive, dtype: object

-------------------------------------------
üéâ SUCESSO na Vetoriza√ß√£o ap√≥s a Limpeza Agressiva!
X_final.shape:  (49459, 1000)


In [21]:
print(X_final)

[[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]


In [22]:
print(y)

['neg' 'neg' 'neg' ... 'pos' 'pos' 'pos']


2. train test split

In [26]:
trainx, testx, trainy, testy = train_test_split(X_final,y,test_size=0.2,random_state=9)
print("Train shape : X = {}, y = {}".format(trainx.shape,trainy.shape))
print("Test shapes : X = {}, y = {}".format(testx.shape, testy.shape))

Train shape : X = (39567, 1000), y = (39567,)
Test shapes : X = (9892, 1000), y = (9892,)


In [None]:
3. Defining the models and training them

In [27]:
gnb,mnb,bnb = GaussianNB(),MultinomialNB(alpha=1.0,fit_prior=True),BernoulliNB(alpha=1.0,fit_prior=True)
gnb.fit(trainx,trainy)
mnb.fit(trainx,trainy)
bnb.fit(trainx,trainy)

4. Prediction and accuracy metrics to choose best model


In [28]:
ypg = gnb.predict(testx)
ypm = mnb.predict(testx)
ypb = bnb.predict(testx)

In [29]:
print("Gaussian = ",accuracy_score(testy,ypg))
print("Multinomial = ",accuracy_score(testy,ypm))
print("Bernoulli = ",accuracy_score(testy,ypb))

Gaussian =  0.5098059037606146
Multinomial =  0.503538212697129
Bernoulli =  0.5098059037606146


In [30]:
pickle.dump(bnb,open('modell.pkl','wb'))