In [1]:
import nltk
from nltk.corpus import movie_reviews
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report

In [3]:
nltk.download("movie_reviews")
nltk.download("punkt")
nltk.download("stopwords")

[nltk_data] Downloading package movie_reviews to
[nltk_data]     C:\Users\HP\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\movie_reviews.zip.
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\HP\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\HP\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [5]:
reviews = [(movie_reviews.words(fileid), category) 
           for category in movie_reviews.categories() 
           for fileid in movie_reviews.fileids(category)]
stop_words = set(stopwords.words("english"))
stemmer = PorterStemmer()

In [7]:
def preprocess_text(tokens):
    filtered_tokens = [token.lower() for token in tokens if token.isalpha() and token.lower() not in stop_words]
    stemmed_tokens = [stemmer.stem(token) for token in filtered_tokens]
    return " ".join(stemmed_tokens)

X = [preprocess_text(tokens) for tokens, _ in reviews]
y = [category for _, category in reviews]

In [19]:
X

['plot two teen coupl go church parti drink drive get accid one guy die girlfriend continu see life nightmar deal watch movi sorta find critiqu mind fuck movi teen gener touch cool idea present bad packag make review even harder one write sinc gener applaud film attempt break mold mess head lost highway memento good bad way make type film folk snag one correctli seem taken pretti neat concept execut terribl problem movi well main problem simpli jumbl start normal downshift fantasi world audienc member idea go dream charact come back dead other look like dead strang apparit disappear looooot chase scene ton weird thing happen simpli explain person mind tri unravel film everi give clue get kind fed film biggest problem obvious got big secret hide seem want hide complet final five minut make thing entertain thrill even engag meantim realli sad part arrow dig flick like actual figur half way point strang start make littl bit sens still make film entertain guess bottom line movi like alway 

In [23]:
y

['neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',
 'neg',


In [8]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [9]:
vectorizer = TfidfVectorizer()
X_train_vectorized = vectorizer.fit_transform(X_train)
X_test_vectorized = vectorizer.transform(X_test)

In [10]:
classifier = MultinomialNB()
classifier.fit(X_train_vectorized, y_train)

In [11]:
y_pred = classifier.predict(X_test_vectorized)

In [25]:
y_pred

array(['pos', 'pos', 'pos', 'neg', 'pos', 'pos', 'neg', 'pos', 'neg',
       'pos', 'neg', 'pos', 'neg', 'neg', 'neg', 'neg', 'pos', 'neg',
       'pos', 'pos', 'neg', 'neg', 'pos', 'pos', 'neg', 'pos', 'pos',
       'neg', 'neg', 'pos', 'neg', 'neg', 'neg', 'neg', 'neg', 'neg',
       'pos', 'pos', 'pos', 'neg', 'neg', 'pos', 'neg', 'neg', 'pos',
       'neg', 'neg', 'pos', 'neg', 'pos', 'pos', 'neg', 'pos', 'neg',
       'pos', 'pos', 'pos', 'pos', 'neg', 'neg', 'neg', 'neg', 'pos',
       'neg', 'neg', 'pos', 'neg', 'pos', 'neg', 'pos', 'pos', 'neg',
       'neg', 'neg', 'neg', 'pos', 'pos', 'neg', 'neg', 'neg', 'neg',
       'neg', 'pos', 'neg', 'pos', 'pos', 'pos', 'neg', 'neg', 'pos',
       'pos', 'pos', 'neg', 'neg', 'neg', 'pos', 'neg', 'pos', 'pos',
       'pos', 'neg', 'neg', 'neg', 'pos', 'neg', 'neg', 'neg', 'neg',
       'neg', 'neg', 'neg', 'neg', 'pos', 'neg', 'neg', 'neg', 'neg',
       'neg', 'neg', 'pos', 'pos', 'pos', 'neg', 'neg', 'neg', 'pos',
       'neg', 'neg',

In [17]:
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)
print("\nClassification Report:")
print(classification_report(y_test, y_pred))

Accuracy: 0.805

Classification Report:
              precision    recall  f1-score   support

         neg       0.79      0.83      0.81       199
         pos       0.83      0.78      0.80       201

    accuracy                           0.81       400
   macro avg       0.81      0.81      0.80       400
weighted avg       0.81      0.81      0.80       400

