Importujemy potrzebne biblioteki

In [9]:
# Importujemy biblioteki
import pandas as pd
import pickle
import os
import ast
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix


Evaluacja danych dla wartości 70_30

In [14]:
# Ścieżki
test_texts_path = '../data/70_30/test_texts_bow.csv'
test_labels_path = '../data/70_30/test_labels.csv'
model_path = '../models/BoW_70_30.pkl'
evaluation_dir = '../evaluation/eval_BoW_70_30'
os.makedirs(evaluation_dir, exist_ok=True)

# Wczytujemy model i vectorizer z jednego pliku
with open(model_path, 'rb') as file:
    model_package = pickle.load(file)

vectorizer = model_package['vectorizer']
model = model_package['model']

print("Model i vectorizer zostały wczytane z jednego pliku.")

# Wczytujemy dane testowe
X_test_raw = pd.read_csv(test_texts_path, index_col=0)
y_test = pd.read_csv(test_labels_path, index_col=0).squeeze()

print(f"Wczytano dane testowe: {X_test_raw.shape[0]} rekordów.")

# Rozkład klas w zbiorze testowym
print("Rozkład klas w zbiorze testowym:")
class_distribution = y_test.value_counts(normalize=True)
print(class_distribution)

# Zapisujemy rozkład klas
class_distribution.to_csv(os.path.join(evaluation_dir, 'class_distribution_test_70_30.csv'))

# Wyrównujemy indeksy
X_test_raw, y_test = X_test_raw.align(y_test, join='inner', axis=0)

# Parsujemy dane testowe
X_test_dicts = X_test_raw.iloc[:, 0].apply(ast.literal_eval)

# Transformujemy dane testowe
X_test = vectorizer.transform(X_test_dicts)

print("Dane testowe zostały przekształcone.")

# Predykcja
y_pred = model.predict(X_test)

print("Predykcja zakończona.")

# Obliczamy metryki
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred, average='weighted', zero_division=0)
recall = recall_score(y_test, y_pred, average='weighted', zero_division=0)
f1 = f1_score(y_test, y_pred, average='weighted', zero_division=0)
conf_matrix = confusion_matrix(y_test, y_pred)

print(f"Accuracy: {accuracy}")
print(f"Precision: {precision}")
print(f"Recall: {recall}")
print(f"F1 Score: {f1}")

# Tworzymy podsumowanie metryk
metrics_summary = pd.DataFrame({
    'metric': ['accuracy', 'precision', 'recall', 'f1_score'],
    'value': [accuracy, precision, recall, f1]
})

# Zapisujemy podsumowanie do pliku CSV
metrics_summary.to_csv(os.path.join(evaluation_dir, 'metrics_summary_70_30.csv'), index=False)

# Confusion matrix zapisujemy osobno
conf_matrix_df = pd.DataFrame(conf_matrix)
conf_matrix_df.to_csv(os.path.join(evaluation_dir, 'confusion_matrix_70_30.csv'), index=False)

print(f"Wyniki ewaluacji zapisane w folderze: {evaluation_dir}")


Model i vectorizer zostały wczytane z jednego pliku.
Wczytano dane testowe: 29999 rekordów.
Rozkład klas w zbiorze testowym:
stars
5    0.444867
4    0.254133
3    0.113767
1    0.109133
2    0.078100
Name: proportion, dtype: float64
Dane testowe zostały przekształcone.
Predykcja zakończona.
Accuracy: 0.08030267675589187
Precision: 0.24819907717051423
Recall: 0.08030267675589187
F1 Score: 0.019360094545052612
Wyniki ewaluacji zapisane w folderze: ../evaluation/eval_BoW_70_30


Evaluacja danych dla wartości 80_20

In [15]:
# Ścieżki
test_texts_path = '../data/80_20/test_texts_bow.csv'
test_labels_path = '../data/80_20/test_labels.csv'
model_path = '../models/BoW_80_20.pkl'
evaluation_dir = '../evaluation/eval_BoW_80_20'
os.makedirs(evaluation_dir, exist_ok=True)

# Wczytujemy model i vectorizer z jednego pliku
with open(model_path, 'rb') as file:
    model_package = pickle.load(file)

vectorizer = model_package['vectorizer']
model = model_package['model']

print("Model i vectorizer zostały wczytane z jednego pliku.")

# Wczytujemy dane testowe
X_test_raw = pd.read_csv(test_texts_path, index_col=0)
y_test = pd.read_csv(test_labels_path, index_col=0).squeeze()

print(f"Wczytano dane testowe: {X_test_raw.shape[0]} rekordów.")

# Rozkład klas w zbiorze testowym
print("Rozkład klas w zbiorze testowym:")
class_distribution = y_test.value_counts(normalize=True)
print(class_distribution)

# Zapisujemy rozkład klas
class_distribution.to_csv(os.path.join(evaluation_dir, 'class_distribution_test_80_20.csv'))

# Wyrównujemy indeksy
X_test_raw, y_test = X_test_raw.align(y_test, join='inner', axis=0)

# Parsujemy dane testowe
X_test_dicts = X_test_raw.iloc[:, 0].apply(ast.literal_eval)

# Transformujemy dane testowe
X_test = vectorizer.transform(X_test_dicts)

print("Dane testowe zostały przekształcone.")

# Predykcja
y_pred = model.predict(X_test)

print("Predykcja zakończona.")

# Obliczamy metryki
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred, average='weighted', zero_division=0)
recall = recall_score(y_test, y_pred, average='weighted', zero_division=0)
f1 = f1_score(y_test, y_pred, average='weighted', zero_division=0)
conf_matrix = confusion_matrix(y_test, y_pred)

print(f"Accuracy: {accuracy}")
print(f"Precision: {precision}")
print(f"Recall: {recall}")
print(f"F1 Score: {f1}")

# Tworzymy podsumowanie metryk
metrics_summary = pd.DataFrame({
    'metric': ['accuracy', 'precision', 'recall', 'f1_score'],
    'value': [accuracy, precision, recall, f1]
})

# Zapisujemy podsumowanie do pliku CSV
metrics_summary.to_csv(os.path.join(evaluation_dir, 'metrics_summary_80_20.csv'), index=False)

# Confusion matrix zapisujemy osobno
conf_matrix_df = pd.DataFrame(conf_matrix)
conf_matrix_df.to_csv(os.path.join(evaluation_dir, 'confusion_matrix_80_20.csv'), index=False)

print(f"Wyniki ewaluacji zapisane w folderze: {evaluation_dir}")


Model i vectorizer zostały wczytane z jednego pliku.
Wczytano dane testowe: 19999 rekordów.
Rozkład klas w zbiorze testowym:
stars
5    0.44355
4    0.25460
3    0.11375
1    0.10950
2    0.07860
Name: proportion, dtype: float64
Dane testowe zostały przekształcone.
Predykcja zakończona.
Accuracy: 0.07960398019900995
Precision: 0.3470461796436442
Recall: 0.07960398019900995
F1 Score: 0.020275194797392305
Wyniki ewaluacji zapisane w folderze: ../evaluation/eval_BoW_80_20


Wnioski dlaczego mimo zbliżonych danych precyzja jest taka mała

1.Sama natura danych model to Bag-of-Words + Naive Bayes.

Bag-of-Words: traktuje słowa jak worek tokenów, bez kontekstu.
Naive Bayes: zakłada niezależność cech, co dla języka naturalnego nie jest prawdziwe (w zdaniach znaczenie tworzy kontekst słów razem).
Więc model nie "rozumie", jak słowa wpływają na znaczenie oceny.

2.Problem wieloklasowości (multiclass)

Masz pięć klas (oceny 1–5 gwiazdek). Model ma znacznie trudniejsze zadanie niż klasyczne binary classification (np pozytywne/negatywne).

3.W Twoim zbiorze dane są już w formie BOW tokenów liczbowych.

Bez dodatkowego ważenia lub redukcji szumu model gubi się w tysiącach cech o podobnej wadze

4.Naive Bayes nie radzi sobie dobrze z niektórymi wieloklasowymi problemami

Model Naive Bayes dobrze działa w klasyfikacji binarnej lub przy bardzo wyraźnych różnicach między klasami.
Przy subtelnych różnicach w języku (np. między recenzją na 3 a 4 gwiazdki) — potrzebowałby bardziej zaawansowanego modelu lub przynajmniej lepszej reprezentacji danych.

Ewaluacje danych dla 3 klas Pozytywna, Neutralna, Negatywna

In [16]:
# Ścieżki
test_texts_path = '../data/70_30/test_texts_bow.csv'
test_labels_path = '../data/70_30/test_labels.csv'
model_path = '../models/BoW_70_30_PNN.pkl'
evaluation_dir = '../evaluation/eval_BoW_70_30_PNN'
os.makedirs(evaluation_dir, exist_ok=True)

# Wczytujemy model i vectorizer z jednego pliku
with open(model_path, 'rb') as file:
    model_package = pickle.load(file)

vectorizer = model_package['vectorizer']
model = model_package['model']

print("Model i vectorizer zostały wczytane z jednego pliku.")

# Wczytujemy dane testowe
X_test_raw = pd.read_csv(test_texts_path, index_col=0)
y_test = pd.read_csv(test_labels_path, index_col=0).squeeze()

print(f"Wczytano dane testowe: {X_test_raw.shape[0]} rekordów.")

# Rozkład klas w zbiorze testowym przed mapowaniem
print("Rozkład klas w zbiorze testowym (przed mapowaniem):")
print(y_test.value_counts(normalize=True))

# Mapujemy gwiazdki na klasy sentymentu
def map_sentiment(star_rating):
    if star_rating in [4, 5]:
        return 'Pozytywna'
    elif star_rating == 3:
        return 'Neutralna'
    else:
        return 'Negatywna'

y_test = y_test.map(map_sentiment)

print("Rozkład klas w zbiorze testowym (po mapowaniu):")
print(y_test.value_counts(normalize=True))

# Zapisujemy rozkład klas
class_distribution = y_test.value_counts(normalize=True)
class_distribution.to_csv(os.path.join(evaluation_dir, 'class_distribution_test_70_30.csv'))

# Wyrównujemy indeksy
X_test_raw, y_test = X_test_raw.align(y_test, join='inner', axis=0)

# Parsujemy dane testowe
X_test_dicts = X_test_raw.iloc[:, 0].apply(ast.literal_eval)

# Transformujemy dane testowe
X_test = vectorizer.transform(X_test_dicts)

print("Dane testowe zostały przekształcone.")

# Predykcja
y_pred = model.predict(X_test)

print("Predykcja zakończona.")

# Obliczamy metryki
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred, average='weighted', zero_division=0)
recall = recall_score(y_test, y_pred, average='weighted', zero_division=0)
f1 = f1_score(y_test, y_pred, average='weighted', zero_division=0)
conf_matrix = confusion_matrix(y_test, y_pred, labels=['Pozytywna', 'Neutralna', 'Negatywna'])

print(f"Accuracy: {accuracy}")
print(f"Precision: {precision}")
print(f"Recall: {recall}")
print(f"F1 Score: {f1}")

# Tworzymy podsumowanie metryk
metrics_summary = pd.DataFrame({
    'metric': ['accuracy', 'precision', 'recall', 'f1_score'],
    'value': [accuracy, precision, recall, f1]
})

# Zapisujemy podsumowanie do pliku CSV
metrics_summary.to_csv(os.path.join(evaluation_dir, 'metrics_summary_70_30.csv'), index=False)

# Confusion matrix zapisujemy osobno
conf_matrix_df = pd.DataFrame(
    conf_matrix,
    index=['Pozytywna', 'Neutralna', 'Negatywna'],
    columns=['Pozytywna', 'Neutralna', 'Negatywna']
)
conf_matrix_df.to_csv(os.path.join(evaluation_dir, 'confusion_matrix_70_30.csv'), index=True)

print(f"Wyniki ewaluacji zapisane w folderze: {evaluation_dir}")

Model i vectorizer zostały wczytane z jednego pliku.
Wczytano dane testowe: 29999 rekordów.
Rozkład klas w zbiorze testowym (przed mapowaniem):
stars
5    0.444867
4    0.254133
3    0.113767
1    0.109133
2    0.078100
Name: proportion, dtype: float64
Rozkład klas w zbiorze testowym (po mapowaniu):
stars
Pozytywna    0.699000
Negatywna    0.187233
Neutralna    0.113767
Name: proportion, dtype: float64
Dane testowe zostały przekształcone.
Predykcja zakończona.
Accuracy: 0.11457048568285609
Precision: 0.6919181934156265
Recall: 0.11457048568285609
F1 Score: 0.02533184794256542
Wyniki ewaluacji zapisane w folderze: ../evaluation/eval_BoW_70_30_PNN


In [17]:
# Ścieżki
test_texts_path = '../data/80_20/test_texts_bow.csv'
test_labels_path = '../data/80_20/test_labels.csv'
model_path = '../models/BoW_80_20_PNN.pkl'
evaluation_dir = '../evaluation/eval_BoW_80_20_PNN'
os.makedirs(evaluation_dir, exist_ok=True)

# Wczytujemy model i vectorizer z jednego pliku
with open(model_path, 'rb') as file:
    model_package = pickle.load(file)

vectorizer = model_package['vectorizer']
model = model_package['model']

print("Model i vectorizer zostały wczytane z jednego pliku.")

# Wczytujemy dane testowe
X_test_raw = pd.read_csv(test_texts_path, index_col=0)
y_test = pd.read_csv(test_labels_path, index_col=0).squeeze()

print(f"Wczytano dane testowe: {X_test_raw.shape[0]} rekordów.")

# Rozkład klas w zbiorze testowym przed mapowaniem
print("Rozkład klas w zbiorze testowym (przed mapowaniem):")
print(y_test.value_counts(normalize=True))

# Mapujemy gwiazdki na klasy sentymentu
def map_sentiment(star_rating):
    if star_rating in [4, 5]:
        return 'Pozytywna'
    elif star_rating == 3:
        return 'Neutralna'
    else:
        return 'Negatywna'

y_test = y_test.map(map_sentiment)

print("Rozkład klas w zbiorze testowym (po mapowaniu):")
print(y_test.value_counts(normalize=True))

# Zapisujemy rozkład klas
class_distribution = y_test.value_counts(normalize=True)
class_distribution.to_csv(os.path.join(evaluation_dir, 'class_distribution_test_80_20.csv'))

# Wyrównujemy indeksy
X_test_raw, y_test = X_test_raw.align(y_test, join='inner', axis=0)

# Parsujemy dane testowe
X_test_dicts = X_test_raw.iloc[:, 0].apply(ast.literal_eval)

# Transformujemy dane testowe
X_test = vectorizer.transform(X_test_dicts)

print("Dane testowe zostały przekształcone.")

# Predykcja
y_pred = model.predict(X_test)

print("Predykcja zakończona.")

# Obliczamy metryki
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred, average='weighted', zero_division=0)
recall = recall_score(y_test, y_pred, average='weighted', zero_division=0)
f1 = f1_score(y_test, y_pred, average='weighted', zero_division=0)
conf_matrix = confusion_matrix(y_test, y_pred, labels=['Pozytywna', 'Neutralna', 'Negatywna'])

print(f"Accuracy: {accuracy}")
print(f"Precision: {precision}")
print(f"Recall: {recall}")
print(f"F1 Score: {f1}")

# Tworzymy podsumowanie metryk
metrics_summary = pd.DataFrame({
    'metric': ['accuracy', 'precision', 'recall', 'f1_score'],
    'value': [accuracy, precision, recall, f1]
})

# Zapisujemy podsumowanie do pliku CSV
metrics_summary.to_csv(os.path.join(evaluation_dir, 'metrics_summary_80_20.csv'), index=False)

# Confusion matrix zapisujemy osobno
conf_matrix_df = pd.DataFrame(
    conf_matrix,
    index=['Pozytywna', 'Neutralna', 'Negatywna'],
    columns=['Pozytywna', 'Neutralna', 'Negatywna']
)
conf_matrix_df.to_csv(os.path.join(evaluation_dir, 'confusion_matrix_80_20.csv'), index=True)

print(f"Wyniki ewaluacji zapisane w folderze: {evaluation_dir}")

Model i vectorizer zostały wczytane z jednego pliku.
Wczytano dane testowe: 19999 rekordów.
Rozkład klas w zbiorze testowym (przed mapowaniem):
stars
5    0.44355
4    0.25460
3    0.11375
1    0.10950
2    0.07860
Name: proportion, dtype: float64
Rozkład klas w zbiorze testowym (po mapowaniu):
stars
Pozytywna    0.69815
Negatywna    0.18810
Neutralna    0.11375
Name: proportion, dtype: float64
Dane testowe zostały przekształcone.
Predykcja zakończona.
Accuracy: 0.11495574778738937
Precision: 0.5586647699022541
Recall: 0.11495574778738937
F1 Score: 0.02655214176698218
Wyniki ewaluacji zapisane w folderze: ../evaluation/eval_BoW_80_20_PNN


Interpretacja:

    Rozkład klas jest OK — Pozytywna jest dominująca, jak się spodziewaliśmy, około 70%.

    Accuracy ~11% — dość niskie.
    To naturalne przy takim podstawowym modelu (Naive Bayes + Bag of Words). Powód:

    Pozytywna klasa jest dominująca, a model nie rozpoznaje jej wystarczająco dobrze.

    Naive Bayes + BoW nie radzi sobie z subtelnymi różnicami w opiniach użytkowników.

    Precision jest wysoka: ~69% — to znaczy, że jeśli model już coś przewidzi jako pozytywne, to ma raczej rację.
    To typowe przy dominującej klasie i nieco słabszym recallu.

    Recall nisko (~11%) — oznacza, że model pomija dużą część rzeczywistych pozytywnych przykładów, przewiduje je jako inne klasy lub nie rozpoznaje ich dobrze.

    F1 Score niski (~2.5%) — bo F1 to kompromis między precision i recall, a tutaj recall jest nisko.