# Importujemy biblioteki

In [2]:
# Importujemy biblioteki
import pandas as pd
import numpy as np
import os
import ast
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Masking
from tensorflow.keras.utils import to_categorical
from tensorflow.keras.callbacks import EarlyStopping
from tensorflow.keras.preprocessing.sequence import pad_sequences
from sklearn.preprocessing import LabelEncoder
import pickle

Reszta kodu dla proporcji 70_30 PNN

In [None]:
# Ścieżki do danych
train_texts_path = '../data/70_30/train_texts_w2v.csv'
train_labels_path = '../data/70_30/train_labels.csv'

# Wczytujemy dane
X_train_raw = pd.read_csv(train_texts_path, index_col=0)
y_train = pd.read_csv(train_labels_path, index_col=0).squeeze()

print("Dane treningowe wczytane poprawnie.")
print(f"X_train_raw shape: {X_train_raw.shape}")
print(f"y_train shape: {y_train.shape}")

print("Rozkład klas w zbiorze treningowym (przed mapowaniem):")
print(y_train.value_counts(normalize=True))

# Wyrównujemy indeksy
X_train_raw, y_train = X_train_raw.align(y_train, join='inner', axis=0)

# Mapujemy gwiazdki na klasy sentymentu
def map_sentiment(star_rating):
    if star_rating in [4, 5]:
        return 'Pozytywna'
    elif star_rating == 3:
        return 'Neutralna'
    else:
        return 'Negatywna'

y_train = y_train.map(map_sentiment)

print("Rozkład klas w zbiorze treningowym (po mapowaniu):")
print(y_train.value_counts(normalize=True))

# Parsujemy wektory Word2Vec
X_train = X_train_raw['text'].apply(ast.literal_eval).apply(np.array)
X_train = np.stack(X_train.values)

print(f"Kształt danych wejściowych po konwersji: {X_train.shape}")

# Kodujemy etykiety
label_encoder = LabelEncoder()
y_train_encoded = label_encoder.fit_transform(y_train)
y_train_categorical = to_categorical(y_train_encoded)

print(f"Zakodowane etykiety: {list(label_encoder.classes_)}")

# Parametry wejściowe
input_shape = (X_train.shape[1], X_train.shape[2])

# Budujemy model LSTM
model = Sequential()
model.add(Masking(mask_value=0., input_shape=input_shape))
model.add(LSTM(64, return_sequences=False))
model.add(Dense(32, activation='relu'))
model.add(Dense(y_train_categorical.shape[1], activation='softmax'))

model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

print(model.summary())

# Trenowanie modelu
early_stopping = EarlyStopping(monitor='loss', patience=3, restore_best_weights=True)

model.fit(X_train, y_train_categorical, epochs=10, batch_size=128, callbacks=[early_stopping])

print("Model został wytrenowany.")

# Zapisujemy model do pliku .h5
model_dir = '../models'
os.makedirs(model_dir, exist_ok=True)
model_path = os.path.join(model_dir, 'w2v_LSTM_70_30_PNN.h5')
model.save(model_path)

print(f"Model zapisano w: {model_path}")

# Zapisujemy label encoder do późniejszego dekodowania
with open(os.path.join(model_dir, 'w2v_LSTM_70_30_PNN_label_encoder.pkl'), 'wb') as le_file:
    pickle.dump(label_encoder, le_file)

print("LabelEncoder został zapisany.")


Dane treningowe wczytane poprawnie.
X_train_raw shape: (69997, 1)
y_train shape: (70000,)
Rozkład klas w zbiorze treningowym (przed mapowaniem):
stars
5    0.443514
4    0.253043
3    0.113557
1    0.109243
2    0.080643
Name: proportion, dtype: float64
Rozkład klas w zbiorze treningowym (po mapowaniu):
stars
Pozytywna    0.696557
Negatywna    0.189886
Neutralna    0.113557
Name: proportion, dtype: float64
Po align: X_train_raw shape: (69997, 1), y_train shape: (69997,)
Kształt danych wejściowych po paddingu: (69997, 500, 50)
Maksymalna długość sekwencji po paddingu: 500
Wymiar wektora embeddingów: 50
Zakodowane etykiety: ['Negatywna', 'Neutralna', 'Pozytywna']


  super().__init__(**kwargs)


None
Epoch 1/10
[1m547/547[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m250s[0m 452ms/step - accuracy: 0.7718 - loss: 0.5720
Epoch 2/10
[1m547/547[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m251s[0m 459ms/step - accuracy: 0.8433 - loss: 0.3988
Epoch 3/10
[1m547/547[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m261s[0m 477ms/step - accuracy: 0.8571 - loss: 0.3623
Epoch 4/10
[1m547/547[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m262s[0m 479ms/step - accuracy: 0.8658 - loss: 0.3419
Epoch 5/10
[1m547/547[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m266s[0m 486ms/step - accuracy: 0.8696 - loss: 0.3296
Epoch 6/10
[1m547/547[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m272s[0m 497ms/step - accuracy: 0.8734 - loss: 0.3179
Epoch 7/10
[1m547/547[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m270s[0m 493ms/step - accuracy: 0.8801 - loss: 0.3023
Epoch 8/10
[1m547/547[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m273s[0m 499ms/step - accuracy: 0.8833 - loss: 0.2926
Epo



Model został wytrenowany.
Model zapisano w: ../models\w2v_LSTM_70_30_PNN.h5
LabelEncoder został zapisany.


dla propocji 80-20 PNN

In [8]:
# Ścieżki do danych
train_texts_path = '../data/80_20/train_texts_w2v.csv'
train_labels_path = '../data/80_20/train_labels.csv'

# Wczytujemy dane
X_train_raw = pd.read_csv(train_texts_path, index_col=0)
y_train = pd.read_csv(train_labels_path, index_col=0).squeeze()

print("Dane treningowe wczytane poprawnie.")
print(f"X_train_raw shape: {X_train_raw.shape}")
print(f"y_train shape: {y_train.shape}")

print("Rozkład klas w zbiorze treningowym (przed mapowaniem):")
print(y_train.value_counts(normalize=True))

# Mapujemy gwiazdki na klasy sentymentu
def map_sentiment(star_rating):
    if star_rating in [4, 5]:
        return 'Pozytywna'
    elif star_rating == 3:
        return 'Neutralna'
    else:
        return 'Negatywna'

y_train = y_train.map(map_sentiment)

print("Rozkład klas w zbiorze treningowym (po mapowaniu):")
print(y_train.value_counts(normalize=True))

# Wyrównujemy indeksy
X_train_raw, y_train = X_train_raw.align(y_train, join='inner', axis=0)
print(f"Po align: X_train_raw shape: {X_train_raw.shape}, y_train shape: {y_train.shape}")

# Parsujemy wektory Word2Vec
X_train_list = X_train_raw['text'].apply(ast.literal_eval).apply(np.array).tolist()

# Padding sekwencji do tej samej długości
X_train_padded = pad_sequences(X_train_list, padding='post', dtype='float32')

print(f"Kształt danych wejściowych po paddingu: {X_train_padded.shape}")
print(f"Maksymalna długość sekwencji po paddingu: {X_train_padded.shape[1]}")
print(f"Wymiar wektora embeddingów: {X_train_padded.shape[2]}")

# Kodujemy etykiety
label_encoder = LabelEncoder()
y_train_encoded = label_encoder.fit_transform(y_train)
y_train_categorical = to_categorical(y_train_encoded)

print(f"Zakodowane etykiety: {list(label_encoder.classes_)}")

# Parametry wejściowe
input_shape = (X_train_padded.shape[1], X_train_padded.shape[2])

# Budujemy model LSTM
model = Sequential()
model.add(Masking(mask_value=0., input_shape=input_shape))
model.add(LSTM(64, return_sequences=False))
model.add(Dense(32, activation='relu'))
model.add(Dense(y_train_categorical.shape[1], activation='softmax'))

model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

print(model.summary())

# Trenowanie modelu
early_stopping = EarlyStopping(monitor='loss', patience=3, restore_best_weights=True)

model.fit(X_train_padded, y_train_categorical, epochs=10, batch_size=128, callbacks=[early_stopping])

print("Model został wytrenowany.")

# Zapisujemy model do pliku .h5
model_dir = '../models'
os.makedirs(model_dir, exist_ok=True)
model_path = os.path.join(model_dir, 'w2v_LSTM_80_20_PNN.h5')
model.save(model_path)

print(f"Model zapisano w: {model_path}")

# Zapisujemy label encoder do późniejszego dekodowania
with open(os.path.join(model_dir, 'w2v_LSTM_80_20_PNN_label_encoder.pkl'), 'wb') as le_file:
    pickle.dump(label_encoder, le_file)

print("LabelEncoder został zapisany.")

Dane treningowe wczytane poprawnie.
X_train_raw shape: (79997, 1)
y_train shape: (80000,)
Rozkład klas w zbiorze treningowym (przed mapowaniem):
stars
5    0.444012
4    0.253063
3    0.113587
1    0.109137
2    0.080200
Name: proportion, dtype: float64
Rozkład klas w zbiorze treningowym (po mapowaniu):
stars
Pozytywna    0.697075
Negatywna    0.189337
Neutralna    0.113587
Name: proportion, dtype: float64
Po align: X_train_raw shape: (79997, 1), y_train shape: (79997,)
Kształt danych wejściowych po paddingu: (79997, 500, 50)
Maksymalna długość sekwencji po paddingu: 500
Wymiar wektora embeddingów: 50
Zakodowane etykiety: ['Negatywna', 'Neutralna', 'Pozytywna']


  super().__init__(**kwargs)


None
Epoch 1/10
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m388s[0m 614ms/step - accuracy: 0.7894 - loss: 0.5430
Epoch 2/10
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m370s[0m 591ms/step - accuracy: 0.8476 - loss: 0.3863
Epoch 3/10
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m373s[0m 596ms/step - accuracy: 0.8581 - loss: 0.3584
Epoch 4/10
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m360s[0m 576ms/step - accuracy: 0.8688 - loss: 0.3341
Epoch 5/10
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m368s[0m 588ms/step - accuracy: 0.8707 - loss: 0.3253
Epoch 6/10
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m363s[0m 581ms/step - accuracy: 0.8761 - loss: 0.3124
Epoch 7/10
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m368s[0m 588ms/step - accuracy: 0.8806 - loss: 0.3000
Epoch 8/10
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m371s[0m 593ms/step - accuracy: 0.8868 - loss: 0.2857
Epo



Model został wytrenowany.
Model zapisano w: ../models\w2v_LSTM_80_20_PNN.h5
LabelEncoder został zapisany.


Analiza LSTM dla 5 klas (gwiazdek) w proporcji 70-30

In [4]:
# Ścieżki do danych
train_texts_path = '../data/70_30/train_texts_w2v.csv'
train_labels_path = '../data/70_30/train_labels.csv'

# Wczytujemy dane
X_train_raw = pd.read_csv(train_texts_path, index_col=0)
y_train = pd.read_csv(train_labels_path, index_col=0).squeeze()

print("Dane treningowe wczytane poprawnie.")
print(f"X_train_raw shape: {X_train_raw.shape}")
print(f"y_train shape: {y_train.shape}")

print("Rozkład klas w zbiorze treningowym (liczba gwiazdek):")
print(y_train.value_counts(normalize=True))

# Wyrównujemy indeksy
X_train_raw, y_train = X_train_raw.align(y_train, join='inner', axis=0)

# Parsujemy wektory Word2Vec i stosujemy padding
X_train_sequences = X_train_raw['text'].apply(ast.literal_eval).apply(np.array).tolist()
X_train_padded = pad_sequences(X_train_sequences, padding='post', dtype='float32')

print(f"Kształt danych wejściowych po paddingu: {X_train_padded.shape}")

X_train = X_train_padded

# Kodujemy etykiety
label_encoder = LabelEncoder()
y_train_encoded = label_encoder.fit_transform(y_train)
y_train_categorical = to_categorical(y_train_encoded)

print(f"Zakodowane klasy: {list(label_encoder.classes_)}")

# Parametry wejściowe
input_shape = (X_train.shape[1], X_train.shape[2])

# Budujemy model LSTM
model = Sequential()
model.add(Masking(mask_value=0., input_shape=input_shape))
model.add(LSTM(64, return_sequences=False))
model.add(Dense(32, activation='relu'))
model.add(Dense(y_train_categorical.shape[1], activation='softmax'))

model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

print(model.summary())

# Trenowanie modelu
early_stopping = EarlyStopping(monitor='loss', patience=3, restore_best_weights=True)

model.fit(X_train, y_train_categorical, epochs=10, batch_size=128, callbacks=[early_stopping])

print("Model został wytrenowany.")

# Zapisujemy model do pliku .h5
model_dir = '../models'
os.makedirs(model_dir, exist_ok=True)
model_path = os.path.join(model_dir, 'w2v_LSTM_70_30_stars.h5')
model.save(model_path)

print(f"Model zapisano w: {model_path}")

# Zapisujemy label encoder do późniejszego dekodowania
with open(os.path.join(model_dir, 'w2v_LSTM_70_30_stars_label_encoder.pkl'), 'wb') as le_file:
    pickle.dump(label_encoder, le_file)

print("LabelEncoder został zapisany.")

Dane treningowe wczytane poprawnie.
X_train_raw shape: (69997, 1)
y_train shape: (70000,)
Rozkład klas w zbiorze treningowym (liczba gwiazdek):
stars
5    0.443514
4    0.253043
3    0.113557
1    0.109243
2    0.080643
Name: proportion, dtype: float64
Kształt danych wejściowych po paddingu: (69997, 500, 50)
Zakodowane klasy: [1, 2, 3, 4, 5]


  super().__init__(**kwargs)


None
Epoch 1/10
[1m547/547[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m233s[0m 423ms/step - accuracy: 0.5494 - loss: 1.0745
Epoch 2/10
[1m547/547[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m251s[0m 459ms/step - accuracy: 0.6329 - loss: 0.8499
Epoch 3/10
[1m547/547[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m263s[0m 480ms/step - accuracy: 0.6534 - loss: 0.8106
Epoch 4/10
[1m547/547[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m268s[0m 491ms/step - accuracy: 0.6607 - loss: 0.7873
Epoch 5/10
[1m547/547[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m271s[0m 496ms/step - accuracy: 0.6691 - loss: 0.7689
Epoch 6/10
[1m547/547[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m271s[0m 495ms/step - accuracy: 0.6755 - loss: 0.7546
Epoch 7/10
[1m547/547[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m271s[0m 496ms/step - accuracy: 0.6829 - loss: 0.7341
Epoch 8/10
[1m547/547[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m275s[0m 503ms/step - accuracy: 0.6886 - loss: 0.7233
Epo



Model został wytrenowany.
Model zapisano w: ../models\w2v_LSTM_70_30_stars.h5
LabelEncoder został zapisany.


Trenowanie Modelu dla proporcji 80-20 : system 5 gwiazdek

In [7]:
# Ścieżki do danych
train_texts_path = '../data/80_20/train_texts_w2v.csv'
train_labels_path = '../data/80_20/train_labels.csv'

# Wczytujemy dane
X_train_raw = pd.read_csv(train_texts_path, index_col=0)
y_train = pd.read_csv(train_labels_path, index_col=0).squeeze()

print("Dane treningowe wczytane poprawnie.")
print(f"X_train_raw shape: {X_train_raw.shape}")
print(f"y_train shape: {y_train.shape}")

print("Rozkład klas w zbiorze treningowym (liczba gwiazdek):")
print(y_train.value_counts(normalize=True))

# Wyrównujemy indeksy
X_train_raw, y_train = X_train_raw.align(y_train, join='inner', axis=0)

# Parsujemy wektory Word2Vec i stosujemy padding
X_train_sequences = X_train_raw['text'].apply(ast.literal_eval).apply(np.array).tolist()
X_train_padded = pad_sequences(X_train_sequences, padding='post', dtype='float32')

print(f"Kształt danych wejściowych po paddingu: {X_train_padded.shape}")

X_train = X_train_padded

# Kodujemy etykiety
label_encoder = LabelEncoder()
y_train_encoded = label_encoder.fit_transform(y_train)
y_train_categorical = to_categorical(y_train_encoded)

print(f"Zakodowane klasy: {list(label_encoder.classes_)}")

# Parametry wejściowe
input_shape = (X_train.shape[1], X_train.shape[2])

# Budujemy model LSTM
model = Sequential()
model.add(Masking(mask_value=0., input_shape=input_shape))
model.add(LSTM(64, return_sequences=False))
model.add(Dense(32, activation='relu'))
model.add(Dense(y_train_categorical.shape[1], activation='softmax'))

model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

print(model.summary())

# Trenowanie modelu
early_stopping = EarlyStopping(monitor='loss', patience=3, restore_best_weights=True)

model.fit(X_train, y_train_categorical, epochs=10, batch_size=128, callbacks=[early_stopping])

print("Model został wytrenowany.")

# Zapisujemy model do pliku .h5
model_dir = '../models'
os.makedirs(model_dir, exist_ok=True)
model_path = os.path.join(model_dir, 'w2v_LSTM_80_20_stars.h5')
model.save(model_path)

print(f"Model zapisano w: {model_path}")

# Zapisujemy label encoder do późniejszego dekodowania
with open(os.path.join(model_dir, 'w2v_LSTM_80_20_stars_label_encoder.pkl'), 'wb') as le_file:
    pickle.dump(label_encoder, le_file)

print("LabelEncoder został zapisany.")

Dane treningowe wczytane poprawnie.
X_train_raw shape: (79997, 1)
y_train shape: (80000,)
Rozkład klas w zbiorze treningowym (liczba gwiazdek):
stars
5    0.444012
4    0.253063
3    0.113587
1    0.109137
2    0.080200
Name: proportion, dtype: float64
Kształt danych wejściowych po paddingu: (79997, 500, 50)
Zakodowane klasy: [1, 2, 3, 4, 5]


  super().__init__(**kwargs)


None
Epoch 1/10
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m388s[0m 615ms/step - accuracy: 0.5415 - loss: 1.0716
Epoch 2/10
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m377s[0m 603ms/step - accuracy: 0.6386 - loss: 0.8369
Epoch 3/10
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m362s[0m 580ms/step - accuracy: 0.6506 - loss: 0.8092
Epoch 4/10
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m356s[0m 569ms/step - accuracy: 0.6597 - loss: 0.7811
Epoch 5/10
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m355s[0m 568ms/step - accuracy: 0.6681 - loss: 0.7645
Epoch 6/10
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m353s[0m 565ms/step - accuracy: 0.6762 - loss: 0.7520
Epoch 7/10
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m351s[0m 562ms/step - accuracy: 0.6809 - loss: 0.7391
Epoch 8/10
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m349s[0m 559ms/step - accuracy: 0.6872 - loss: 0.7236
Epo



Model został wytrenowany.
Model zapisano w: ../models\w2v_LSTM_80_20_stars.h5
LabelEncoder został zapisany.
