In [2]:
# Célula 1: Importar o pandas e carregar o dataset
import pandas as pd

# Carrega o arquivo CSV para um DataFrame do pandas
df = pd.read_csv('IMDB Dataset.csv')

print("Dataset carregado com sucesso!")

Dataset carregado com sucesso!


In [3]:
# Célula 2: Ver as 5 primeiras linhas do DataFrame
df.head()

Unnamed: 0,review,sentiment
0,One of the other reviewers has mentioned that ...,positive
1,A wonderful little production. <br /><br />The...,positive
2,I thought this was a wonderful way to spend ti...,positive
3,Basically there's a family where a little boy ...,negative
4,"Petter Mattei's ""Love in the Time of Money"" is...",positive


In [4]:
# Célula 3: Exibir o número de linhas e colunas
print(f"O dataset possui {df.shape[0]} linhas e {df.shape[1]} colunas.")

O dataset possui 50000 linhas e 2 colunas.


In [5]:
# Célula 4: Contar a quantidade de cada sentimento
print("Distribuição dos sentimentos:")
print(df['sentiment'].value_counts())

Distribuição dos sentimentos:
sentiment
positive    25000
negative    25000
Name: count, dtype: int64


In [6]:
# Célula 5: Exibir uma avaliação positiva e uma negativa
print("--- Exemplo de Avaliação Positiva ---")
print(df['review'][0]) # Mostra a primeira avaliação do dataset

print("\n" + "="*50 + "\n") # Apenas uma linha para separar

print("--- Exemplo de Avaliação Negativa ---")
print(df['review'][49999]) # Mostra a última avaliação do dataset

--- Exemplo de Avaliação Positiva ---
One of the other reviewers has mentioned that after watching just 1 Oz episode you'll be hooked. They are right, as this is exactly what happened with me.<br /><br />The first thing that struck me about Oz was its brutality and unflinching scenes of violence, which set in right from the word GO. Trust me, this is not a show for the faint hearted or timid. This show pulls no punches with regards to drugs, sex or violence. Its is hardcore, in the classic use of the word.<br /><br />It is called OZ as that is the nickname given to the Oswald Maximum Security State Penitentary. It focuses mainly on Emerald City, an experimental section of the prison where all the cells have glass fronts and face inwards, so privacy is not high on the agenda. Em City is home to many..Aryans, Muslims, gangstas, Latinos, Christians, Italians, Irish and more....so scuffles, death stares, dodgy dealings and shady agreements are never far away.<br /><br />I would say the mai

In [7]:
# Célula 6: Definir a função para limpar o texto
import re

def limpar_texto(texto):
    # 1. Remove tags HTML
    texto_sem_html = re.sub(r'<.*?>', '', texto)

    # 2. Remove pontuação e caracteres não alfabéticos (mantém letras e espaços)
    texto_sem_pontuacao = re.sub(r'[^a-zA-Z\s]', '', texto_sem_html)

    # 3. Converte tudo para minúsculas
    texto_limpo = texto_sem_pontuacao.lower()

    return texto_limpo

print("Função 'limpar_texto' criada com sucesso!")

Função 'limpar_texto' criada com sucesso!


In [8]:
# Célula 7: Aplicar a função de limpeza na coluna 'review'
df['review_limpa'] = df['review'].apply(limpar_texto)

print("Limpeza aplicada! Nova coluna 'review_limpa' foi criada.")

Limpeza aplicada! Nova coluna 'review_limpa' foi criada.


In [9]:
# Célula 8: Exibir as colunas original e limpa lado a lado
df[['review', 'review_limpa']].head()

Unnamed: 0,review,review_limpa
0,One of the other reviewers has mentioned that ...,one of the other reviewers has mentioned that ...
1,A wonderful little production. <br /><br />The...,a wonderful little production the filming tech...
2,I thought this was a wonderful way to spend ti...,i thought this was a wonderful way to spend ti...
3,Basically there's a family where a little boy ...,basically theres a family where a little boy j...
4,"Petter Mattei's ""Love in the Time of Money"" is...",petter matteis love in the time of money is a ...


In [10]:
# Célula 9: Dividir os dados em conjuntos de treino e teste
from sklearn.model_selection import train_test_split

# X são as features 
X = df['review_limpa']

# y é o alvo (o sentimento que queremos prever)
y = df['sentiment']

# Divide os dados em 80% para treino e 20% para teste
X_train, X_test, y_train, y_test = train_test_split(
    X, y, 
    test_size=0.2, # Define que 20% dos dados serão para teste
    random_state=42 # Garante que a divisão seja a mesma toda vez que rodarmos
)

print(f"Tamanho do conjunto de treino: {len(X_train)} avaliações")
print(f"Tamanho do conjunto de teste: {len(X_test)} avaliações")

Tamanho do conjunto de treino: 40000 avaliações
Tamanho do conjunto de teste: 10000 avaliações


In [11]:
# Célula 10: Vetorizar o texto usando TF-IDF
from sklearn.feature_extraction.text import TfidfVectorizer

# Inicializa o vetorizador
# max_features=5000 diz para ele considerar apenas as 5000 palavras mais importantes
vectorizer = TfidfVectorizer(max_features=5000)

# Aprende o vocabulário e transforma os dados de TREINO
X_train_vetorizado = vectorizer.fit_transform(X_train)

# Apenas transforma os dados de TESTE com o vocabulário já aprendido
X_test_vetorizado = vectorizer.transform(X_test)

print("Vetorização concluída!")
print(f"Formato dos dados de treino vetorizados: {X_train_vetorizado.shape}")
print(f"Formato dos dados de teste vetorizados: {X_test_vetorizado.shape}")

Vetorização concluída!
Formato dos dados de treino vetorizados: (40000, 5000)
Formato dos dados de teste vetorizados: (10000, 5000)


In [12]:
# Célula 11: Importar, instanciar e treinar o modelo Naive Bayes
from sklearn.naive_bayes import MultinomialNB

# Cria o modelo
model = MultinomialNB()

# Treina o modelo com os dados de treino vetorizados e seus respectivos rótulos
model.fit(X_train_vetorizado, y_train)

print("Modelo treinado com sucesso!")

Modelo treinado com sucesso!


In [13]:
# Célula 12: Fazer previsões no conjunto de teste
y_pred = model.predict(X_test_vetorizado)

print("Previsões feitas no conjunto de teste!")
# Vamos ver as primeiras 10 previsões feitas pelo modelo
print("Primeiras 10 previsões:", y_pred[:10])

Previsões feitas no conjunto de teste!
Primeiras 10 previsões: ['negative' 'positive' 'negative' 'positive' 'negative' 'positive'
 'positive' 'negative' 'negative' 'negative']


In [14]:
# Célula 13: Avaliar a performance do modelo
from sklearn.metrics import accuracy_score, classification_report

# Calcula a acurácia
accuracy = accuracy_score(y_test, y_pred)
print(f"Acurácia do modelo: {accuracy * 100:.2f}%")

# Exibe o relatório de classificação detalhado
print("\nRelatório de Classificação:")
print(classification_report(y_test, y_pred))

Acurácia do modelo: 84.87%

Relatório de Classificação:
              precision    recall  f1-score   support

    negative       0.85      0.85      0.85      4961
    positive       0.85      0.85      0.85      5039

    accuracy                           0.85     10000
   macro avg       0.85      0.85      0.85     10000
weighted avg       0.85      0.85      0.85     10000



In [15]:
# Célula 14: Criar uma função para testar o modelo com novas frases

def prever_sentimento(frase_em_ingles):
    # 1. Limpa a frase usando a mesma função que criamos antes
    frase_limpa = limpar_texto(frase_em_ingles)
    
    # 2. Vetoriza a frase limpa usando o mesmo vetorizador do treino
    # Note que colocamos a frase_limpa dentro de colchetes [] porque o .transform espera uma lista
    frase_vetorizada = vectorizer.transform([frase_limpa])
    
    # 3. Faz a previsão com o modelo treinado
    previsao = model.predict(frase_vetorizada)
    
    # Retorna o resultado
    return previsao[0]

In [16]:
# Célula 15: Testando a função com exemplos

# Exemplo 1: Frase claramente positiva
frase_positiva = "This movie was absolutely fantastic! The acting was superb and the story was beautiful."
print(f"A frase: '{frase_positiva}'")
print(f"Previsão do modelo: {prever_sentimento(frase_positiva)}\n")

# Exemplo 2: Frase claramente negativa
frase_negativa = "I would not recommend this movie to anyone. It was boring, slow and a complete waste of my time."
print(f"A frase: '{frase_negativa}'")
print(f"Previsão do modelo: {prever_sentimento(frase_negativa)}\n")

# Exemplo 3: Frase mais neutra/mista
frase_neutra = "The special effects were good, but the plot was very predictable."
print(f"A frase: '{frase_neutra}'")
print(f"Previsão do modelo: {prever_sentimento(frase_neutra)}\n")

A frase: 'This movie was absolutely fantastic! The acting was superb and the story was beautiful.'
Previsão do modelo: positive

A frase: 'I would not recommend this movie to anyone. It was boring, slow and a complete waste of my time.'
Previsão do modelo: negative

A frase: 'The special effects were good, but the plot was very predictable.'
Previsão do modelo: negative



In [19]:
# Célula nova: Carregar o dataset SST2 (versão binária) do GLUE
from datasets import load_dataset
import pandas as pd

# Carrega a configuração 'sst2' do dataset 'glue'
dataset_sst = load_dataset('glue', 'sst2')

# O dataset já vem dividido em treino, validação e teste
print(dataset_sst)

# Vamos converter o conjunto de treino para um DataFrame do Pandas para explorar
df_sst_train = pd.DataFrame(dataset_sst['train'])

# Em sst2, label 0 é negativo e label 1 é positivo.
df_sst_train.head()

DatasetDict({
    train: Dataset({
        features: ['sentence', 'label', 'idx'],
        num_rows: 67349
    })
    validation: Dataset({
        features: ['sentence', 'label', 'idx'],
        num_rows: 872
    })
    test: Dataset({
        features: ['sentence', 'label', 'idx'],
        num_rows: 1821
    })
})


Unnamed: 0,sentence,label,idx
0,hide new secretions from the parental units,0,0
1,"contains no wit , only labored gags",0,1
2,that loves its characters and communicates som...,1,2
3,remains utterly satisfied to remain the same t...,0,3
4,on the worst revenge-of-the-nerds clichés the ...,0,4


In [20]:
# Célula nova: Adaptar o DataFrame sst2 para o formato do nosso pipeline

# 1. Renomeia a coluna 'sentence' para 'review' para manter a consistência
df_sst_train.rename(columns={'sentence': 'review'}, inplace=True)

# 2. Mapeia os labels numéricos para texto, criando a coluna 'sentiment'
#    0 -> 'negative'
#    1 -> 'positive'
df_sst_train['sentiment'] = df_sst_train['label'].map({0: 'negative', 1: 'positive'})

# 3. Vamos verificar o resultado. Agora temos as colunas 'review' e 'sentiment'!
print("DataFrame adaptado com sucesso!")
df_sst_train[['review', 'sentiment']].head()

DataFrame adaptado com sucesso!


Unnamed: 0,review,sentiment
0,hide new secretions from the parental units,negative
1,"contains no wit , only labored gags",negative
2,that loves its characters and communicates som...,positive
3,remains utterly satisfied to remain the same t...,negative
4,on the worst revenge-of-the-nerds clichés the ...,negative
