In [5]:
#Wczytanie dokumentu
import os  
import pandas as pd
import kagglehub

path = kagglehub.dataset_download("lakshmi25npathi/imdb-dataset-of-50k-movie-reviews")

print("Path to dataset files:", path)

csv_path = os.path.join(path, "IMDB Dataset.csv")

if os.path.exists(csv_path):
    df = pd.read_csv(csv_path)
    print(df.head())
else:
    print(f"Plik {csv_path} nie istnieje. Sprawdź nazwę pliku i ścieżkę.")


  from .autonotebook import tqdm as notebook_tqdm


Path to dataset files: C:\Users\LENOVO\.cache\kagglehub\datasets\lakshmi25npathi\imdb-dataset-of-50k-movie-reviews\versions\1
                                              review sentiment
0  One of the other reviewers has mentioned that ...  positive
1  A wonderful little production. <br /><br />The...  positive
2  I thought this was a wonderful way to spend ti...  positive
3  Basically there's a family where a little boy ...  negative
4  Petter Mattei's "Love in the Time of Money" is...  positive


In [6]:
#Funkcja czyszcząca do lematyzacji tekstu i usuwania interpunkcji, słów stop, białych znaków 
import spacy
nlp = spacy.load("en_core_web_sm")
def clean(text):
    doc = nlp(text)
    doc_cleaned = [
        token for token in doc 
        if not (token.is_punct or token.is_stop or token.is_space or token.is_bracket)
    ]
    doc_lemmatized = [token.lemma_ for token in doc_cleaned]
    text_lemmatized = " ".join(doc_lemmatized)
    
    return text_lemmatized


In [7]:
from tqdm import tqdm
tqdm.pandas(desc="Czyszczenie tekstów")  
df['review'] = df['review'].progress_apply(clean)
df.head()

Czyszczenie tekstów: 100%|██████████| 50000/50000 [31:30<00:00, 26.44it/s]  


Unnamed: 0,review,sentiment
0,reviewer mention watch 1 Oz episode hook right...,positive
1,wonderful little production br /><br />the fil...,positive
2,think wonderful way spend time hot summer week...,positive
3,basically family little boy Jake think zombie ...,negative
4,Petter Mattei love Time money visually stunnin...,positive


In [35]:
# Wektoryzacja tekstu za pomocą TF-IDF
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer()
tqdm.pandas(desc="Wektoryzacja")  
text_vectorized = tfidf_vectorizer.fit_transform(df['review'])  
x = text_vectorized
y = df['sentiment']

In [22]:
# Wektoryzacja tekstu za pomocą CountVectorizer
from sklearn.feature_extraction.text import CountVectorizer
count_vectorizer = CountVectorizer()
text_vectorized = count_vectorizer.fit_transform(df['review'])
x = text_vectorized
y = df['sentiment']

In [28]:
# Wektoryzacja tekstu za pomocą HashingVectorizer
from sklearn.feature_extraction.text import HashingVectorizer
hashing_vectorizer = HashingVectorizer(n_features=5000) 
text_vectorized = hashing_vectorizer.fit_transform(df['review'])
x = text_vectorized
y = df['sentiment']

In [36]:
#Model 1 RandomForestClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.5, random_state=42,stratify=y)

# Inicjalizacja klasyfikatora Random Forest
rf_classifier = RandomForestClassifier(n_estimators=200, max_depth=10, random_state=42)

# Trenowanie modelu na zbiorze treningowym
rf_classifier.fit(x_train, y_train)

# Predykcja 
y_predicted_train = rf_classifier.predict(x_train)
y_predicted_test = rf_classifier.predict(x_test)

print("Macierz pomyłek na zbiorze treningowym:")
print(confusion_matrix(y_train, y_predicted_train))
print("Macierz pomyłek na zbiorze testowym:")
print(confusion_matrix(y_test, y_predicted_test))
print("Raport klasyfikacji na zbiorze treningowym:")
print(classification_report(y_train, y_predicted_train))
print("Raport klasyfikacji na zbiorze testowym:")
print(classification_report(y_test, y_predicted_test))

Macierz pomyłek na zbiorze treningowym:
[[10401  2099]
 [ 1054 11446]]
Macierz pomyłek na zbiorze testowym:
[[ 9913  2587]
 [ 1567 10933]]
Raport klasyfikacji na zbiorze treningowym:
              precision    recall  f1-score   support

    negative       0.91      0.83      0.87     12500
    positive       0.85      0.92      0.88     12500

    accuracy                           0.87     25000
   macro avg       0.88      0.87      0.87     25000
weighted avg       0.88      0.87      0.87     25000

Raport klasyfikacji na zbiorze testowym:
              precision    recall  f1-score   support

    negative       0.86      0.79      0.83     12500
    positive       0.81      0.87      0.84     12500

    accuracy                           0.83     25000
   macro avg       0.84      0.83      0.83     25000
weighted avg       0.84      0.83      0.83     25000



In [37]:
#Model 2 LogisticRegression
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.5, random_state=42, stratify=y)

# Inicjalizacja klasyfikatora Logistic Regression
lr_classifier = LogisticRegression(solver='saga', random_state=42)

# Trenowanie modelu na zbiorze treningowym
lr_classifier.fit(x_train, y_train)

# Predykcja 
y_predicted_train = lr_classifier.predict(x_train)
y_predicted_test = lr_classifier.predict(x_test)

print("Macierz pomyłek na zbiorze treningowym:")
print(confusion_matrix(y_train, y_predicted_train))
print("Macierz pomyłek na zbiorze testowym:")
print(confusion_matrix(y_test, y_predicted_test))
print("Raport klasyfikacji na zbiorze treningowym:")
print(classification_report(y_train, y_predicted_train))
print("Raport klasyfikacji na zbiorze testowym:")
print(classification_report(y_test, y_predicted_test))


Macierz pomyłek na zbiorze treningowym:
[[11525   975]
 [  746 11754]]
Macierz pomyłek na zbiorze testowym:
[[10852  1648]
 [ 1209 11291]]
Raport klasyfikacji na zbiorze treningowym:
              precision    recall  f1-score   support

    negative       0.94      0.92      0.93     12500
    positive       0.92      0.94      0.93     12500

    accuracy                           0.93     25000
   macro avg       0.93      0.93      0.93     25000
weighted avg       0.93      0.93      0.93     25000

Raport klasyfikacji na zbiorze testowym:
              precision    recall  f1-score   support

    negative       0.90      0.87      0.88     12500
    positive       0.87      0.90      0.89     12500

    accuracy                           0.89     25000
   macro avg       0.89      0.89      0.89     25000
weighted avg       0.89      0.89      0.89     25000



In [21]:
#Model 3 SVC
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.5, random_state=42, stratify=y)

# Inicjalizacja klasyfikatora Support Vector Machine
svm_classifier = SVC(random_state=42)

# Trenowanie modelu na zbiorze treningowym
svm_classifier.fit(x_train, y_train)

# Predykcja 
y_predicted_train = svm_classifier.predict(x_train)
y_predicted_test = svm_classifier.predict(x_test)

print("Macierz pomyłek na zbiorze treningowym:")
print(confusion_matrix(y_train, y_predicted_train))
print("Macierz pomyłek na zbiorze testowym:")
print(confusion_matrix(y_test, y_predicted_test))
print("Raport klasyfikacji na zbiorze treningowym:")
print(classification_report(y_train, y_predicted_train))
print("Raport klasyfikacji na zbiorze testowym:")
print(classification_report(y_test, y_predicted_test))


Macierz pomyłek na zbiorze treningowym:
[[12398   102]
 [  105 12395]]
Macierz pomyłek na zbiorze testowym:
[[10899  1601]
 [ 1156 11344]]
Raport klasyfikacji na zbiorze treningowym:
              precision    recall  f1-score   support

    negative       0.99      0.99      0.99     12500
    positive       0.99      0.99      0.99     12500

    accuracy                           0.99     25000
   macro avg       0.99      0.99      0.99     25000
weighted avg       0.99      0.99      0.99     25000

Raport klasyfikacji na zbiorze testowym:
              precision    recall  f1-score   support

    negative       0.90      0.87      0.89     12500
    positive       0.88      0.91      0.89     12500

    accuracy                           0.89     25000
   macro avg       0.89      0.89      0.89     25000
weighted avg       0.89      0.89      0.89     25000

