# Podstawy NLP – analiza sentymentu z użyciem podstawowych modeli ML&#x20;

&#x20;![Natural Language Processing With Python's NLTK Package – Real Python](https://files.realpython.com/media/NLP-for-Beginners-Pythons-Natural-Language-Toolkit-NLTK_Watermarked.16a787c1e9c6.jpg "Natural Language Processing With Python's NLTK Package – Real Python")


 
## Cele edukacyjne

* **Zrozumienie czym jest NLP (Przetwarzanie Języka Naturalnego)** – poznasz definicję NLP i przykłady jego zastosowań.
* **Wprowadzenie do analizy sentymentu** – dowiesz się, na czym polega analiza sentymentu (opinie pozytywne vs negatywne) i gdzie się ją wykorzystuje.
* **Przygotowanie środowiska pracy** – zainstalujesz i zaimportujesz podstawowe narzędzia potrzebne do pracy z danymi tekstowymi (biblioteki Python takie jak *pandas*, *scikit-learn*, *nltk* itp.).
* **Eksploracja zbioru danych** – nauczysz się wczytać zbiór danych z recenzjami (np. **IMDB**), podejrzeć jego zawartość oraz przeprowadzić wstępną analizę: sprawdzić liczbę próbek, przykładowe dane i rozkład klas (pozytywne/negatywne opinie).


 
## Wprowadzenie – Czym jest NLP?

![1.00](https://cdn.prod.website-files.com/5ec6a20095cdf182f108f666/5f22908f09f2341721cd8901_AI%20poster.png "NLP and text mining: A natural fit for business growth")

**Przetwarzanie Języka Naturalnego (ang. Natural Language Processing, NLP)** to dziedzina informatyki i sztucznej inteligencji, której celem jest umożliwienie komputerom zrozumienia i przetwarzania języka naturalnego – takiego, jakim posługują się ludzie. Innymi słowy, NLP to tworzenie systemów, które potrafią analizować, interpretować, a nawet generować tekst lub mowę w języku np. polskim czy angielskim.

 Przykładowe zastosowania NLP na co dzień:

* **Tłumaczenie maszynowe** – np. tłumacz Google przekładający tekst z jednego języka na inny.
* **Asystenci głosowi** – Siri, Alexa czy Asystent Google rozumieją polecenia głosowe użytkownika.
* **Analiza sentymentu** – automatyczne określanie, czy dany tekst (np. recenzja produktu, tweet) wyraża pozytywną, negatywną czy neutralną opinię.
* **Chatboty i systemy dialogowe** – programy rozmawiające z użytkownikiem w języku naturalnym.
* **Wyszukiwanie informacji** – wyszukiwarki internetowe interpretujące pytania zadane pełnym zdaniem.

 

Skupimy się na **analizie sentymentu**, czyli na jednym z popularnych zadań NLP. Analiza sentymentu polega na automatycznym określaniu emocjonalnego wydźwięku tekstu. Najczęściej sprowadza się to do stwierdzenia, czy tekst jest **pozytywny** czy **negatywny** (czasem wyróżnia się też trzecią kategorię: neutralny). Dzięki takim modelom można np. analizować opinie klientów o produkcie, reakcje na kampanię marketingową albo nastroje wypowiedzi w mediach społecznościowych.

 


**Dlaczego to jest ważne?** Wyobraź sobie firmę, która wypuściła nowy produkt – codziennie pojawiają się setki recenzji i komentarzy w internecie. Przeczytanie ich wszystkich przez człowieka jest trudne, ale algorytm analizy sentymentu może w kilka chwil podsumować, ilu klientów jest zadowolonych, a ilu nie. Automatyczna analiza opinii pozwala firmom szybko reagować na negatywne głosy, a naukowcom badać społeczne reakcje na różne wydarzenia.

 ## Analiza sentymentu – podejścia

![1.00](https://www.researchgate.net/publication/336988754/figure/fig2/AS:928001474711553@1598264201745/Sentiment-analysis-methods.png "Sentiment analysis methods | Download Scientific Diagram")


 


Istnieją różne podejścia do analizy sentymentu:

* **Metody oparte na słownikach (rule-based)** – Najprostsze podejścia korzystają ze zdefiniowanych list słów o zabarwieniu pozytywnym lub negatywnym (tzw. *slowniki sentymentu*). Tekst oceniany jest na podstawie zliczania pozytywnych i negatywnych słów. Np. jeśli zdanie zawiera słowa "świetny, wspaniały" może zostać ocenione jako pozytywne. To podejście jest intuicyjne, ale bywa zawodne – nie uwzględnia kontekstu (np. zdanie "to nie był świetny film" zawiera słowo *świetny*, ale całość jest negatywna przez *nie*).
* **Metody oparte na uczeniu maszynowym (machine learning)** – Model **uczy się** na przykładach tekstów oznaczonych jako pozytywne/negatywne. Taki model sam dobiera cechy językowe (np. częstość występowania określonych słów) pozwalające przewidywać sentyment nowego tekstu. W tej kategorii mieszczą się klasyczne algorytmy jak Naive Bayes czy Regresja Logistyczna.
* **Metody głębokiego uczenia (deep learning)** – Współcześnie najlepsze wyniki często osiąga się modelami opartymi o sieci neuronowe (np. model BERT). Są one jednak bardziej złożone i wymagają dużych zasobów oraz danych.&#x20;

Przejdziemy przez cały proces tworzenia prostego systemu analizy sentymentu opartego na uczeniu maszynowym. Zaczniemy od przygotowania danych, następnie przekształcimy teksty na cechy numeryczne, a na końcu zbudujemy model potrafiący klasyfikować nowe teksty jako pozytywne lub negatywne.

 
## Przygotowanie środowiska pracy

![1.00](https://media.geeksforgeeks.org/wp-content/uploads/20240402170207/NLP-Libraries-in-Python-copy.webp "NLP Libraries in Python - GeeksforGeeks")

Zacznijmy od przygotowania środowiska. Upewnij się, że masz zainstalowane potrzebne biblioteki. W niniejszym kursie będziemy korzystać [m.in](http://m.in). z:

* **pandas** – do wczytywania i manipulacji zbiorami danych (szczególnie przydatne do eksploracji).
* **datasets (HuggingFace)** – do pobrania przykładowych otwartych zbiorów danych do analizy sentymentu.
* **nltk (Natural Language Toolkit)** – do podstawowych operacji NLP (tokenizacja, stop words itp.).
* **scikit-learn** – do wektorowych reprezentacji tekstu (CountVectorizer/TF-IDF) oraz implementacji klasycznych algorytmów ML (np. Naive Bayes, Logistic Regression).

 

> &#x20;Zbiory, których użyjemy, są publicznie dostępne do celów edukacyjnych:
>
> * **IMDB Reviews** – 50 000 recenzji filmów w języku angielskim (pozytywne i negatywne) opublikowanych pierwotnie na IMDb.
>
>   [huggingface.co](https://huggingface.co/datasets/clarin-pl/polemo2-official#:~:text=Data%20splits)
> * **Polski zbiór recenzji (PolEmo 2.0)** – ok. 8 216 recenzji w języku polskim (np. opinie o hotelach, produktach, usługach) z podziałem na opinie pozytywne, negatywne oraz neutralne/niejednoznaczne.
>
>   [huggingface.co](https://huggingface.co/datasets/clarin-pl/polemo2-official#:~:text=Class%20train%20dev%20test%20minus,1439)


 Zainstalujmy i zaimportujmy potrzebne biblioteki:

In [None]:
!pip install pandas scikit-learn nltk datasets --quiet


In [None]:

import pandas as pd
import numpy as np
import nltk

# Pobranie słownika stop words dla języka angielskiego (potrzebne w kolejnych etapach)
nltk.download('stopwords')
nltk.download('punkt')

 
Po uruchomieniu powyższej komórki, biblioteki zostaną zainstalowane (jeśli jeszcze ich nie masz), a NLTK pobierze listę stop words oraz punktuator do tokenizacji zdań. Możemy teraz wczytać dane.

 ## Wczytanie i eksploracja zbioru danych IMDB

&#x20;                              ![IMDb\_Logo\_Rectangle\_Gold.\_CB443386186\_.png](https://m.media-amazon.com/images/G/01/IMDb/brand/guidelines/imdb/IMDb_Logo_Rectangle_Gold._CB443386186_.png "IMDb_Logo_Rectangle_Gold._CB443386186_.png")

Zaczniemy od zbioru danych **IMDb** z recenzjami filmów.&#x20;

Korzystając z biblioteki 🤗 *datasets*, możemy łatwo pobrać ten zbiór. Wystarczy użyć `load_dataset("imdb")`, a dane zostaną automatycznie pobrane. Zbiór IMDb zawiera 50 000 recenzji: 25 000 przeznaczonych do trenowania modeli i 25 000 do testowania, po połowie **pozytywnych** i **negatywnych**.

Wczytajmy dane i zobaczmy podstawowe informacje:


In [None]:
# import pandas as pd
# imdb_data=pd.read_csv('datasets/IMDB.csv')

In [None]:
from datasets import load_dataset

# Wczytanie zbioru IMDb. Zostaną utworzone podzbiory: 'train' i 'test'
imdb_data =load_dataset("imdb", verification_mode='no_checks')



Po wykonaniu powyższego polecenia, powinniśmy mieć dostęp do danych. Sprawdźmy ile przykładów jest w zbiorze treningowym i testowym:


In [None]:
# Rozmiary zbioru treningowego i testowego
print("Liczba recenzji w train:", len(imdb_data['train']))
print("Liczba recenzji w test:", len(imdb_data['test']))

# Dostępne kolumny w danych
print("Kolumny:", imdb_data['train'].column_names)

&#x20;Możemy potwierdzić, jak są zakodowane etykiety:


In [None]:

# Sprawdźmy kilka pierwszych etykiet i ich znaczenie
label_values = set(imdb_data['train']['label'])
print("Unikalne etykiety w zbiorze:", label_values)



&#x20;Z dokumentacji wiadomo, że w tym zbiorze:

* **0** oznacza recenzję negatywną,
* **1** oznacza recenzję pozytywną.

Teraz przyjrzyjmy się przykładowym danym. Wyświetlimy przykładową recenzję i jej etykietę

In [None]:
# Pobranie pierwszego przykładu ze zbioru treningowego
first_review = imdb_data['train'][0]
print("Etykieta:", first_review['label'])
print("Treść recenzji:")
print(first_review['text'][:500], "...")  # wypisz pierwsze 500 znaków

 
**Pytanie:** Patrząc na powyższą recenzję, czy potrafisz na pierwszy rzut oka stwierdzić, czy jest pozytywna czy negatywna? Zwróć uwagę na słowa kluczowe, które mogą zdradzać sentyment autora.

Spróbujmy jeszcze lepiej zrozumieć dane:

* Jak długie są recenzje? Czy są to zdania, akapity, a może całe eseje?
* Czy recenzje zawierają dużo znaków interpunkcyjnych, wielkich liter, liczb itp.?
* W jakim stylu są pisane (formalny/nieformalny, slang)?

Te obserwacje przydadzą nam się przy planowaniu **przetwarzania tekstu**&#x20;




### Rozkład klas w zbiorze IMDb

Zanim przejdziemy dalej, sprawdźmy, czy zbiór jest zrównoważony. Tzn. czy mamy mniej więcej tyle samo recenzji pozytywnych i negatywnych. Zrobimy szybkie zliczenie:
 

In [None]:
# Konwersja zbioru treningowego do pandas DataFrame dla łatwej eksploracji
df_train = pd.DataFrame(imdb_data['train'])
df_test = pd.DataFrame(imdb_data['test'])

# Zliczenie etykiet pozytywnych vs negatywnych
print(df_train['label'].value_counts())

Wynik powinien pokazać zbliżoną liczbę `0` i `1`w zbiorze treningowym. Oznacza to, że klasy są zbalansowane – to dobra informacja, bo model uczony na takich danych nie będzie faworyzował jednej klasy tylko dlatego, że jest jej więcej.

Analogicznie możemy sprawdzić zbiór testowy: 

In [None]:
print(df_test['label'].value_counts())

 ### Eksploracja danych – przykłady recenzji

Przeczytajmy kilka losowych recenzji, aby zorientować się w zawartości. Możemy wylosować po jednej recenzji oznaczonej jako pozytywna i negatywna:


In [None]:

# Losowy pozytywny i losowy negatywny przykład z treningu
positive_example = df_train[df_train['label'] == 1].sample(1)
negative_example = df_train[df_train['label'] == 0].sample(1)

print("Przykładowa pozytywna recenzja:\n", positive_example['text'].values[0][:300], "...\n")
print("Przykładowa negatywna recenzja:\n", negative_example['text'].values[0][:300], "...")


Zwróć uwagę na słownictwo w obu recenzjach. Często w pozytywnych opiniach pojawiają się słowa typu *"great", "excellent", "amazing"*, a w negatywnych *"boring", "bad", "terrible"*. Oczywiście nie jest to reguła bezwyjątkowa – model ML powinien się tych zależności nauczyć automatycznie.

### Podstawowa statystyka: długość recenzji

Sprawdźmy jeszcze średnią długość recenzji w zbiorze IMDb. Możemy policzyć liczbę znaków lub słów w każdej recenzji i znaleźć średnią oraz medianę. To da nam obraz, z jak długim tekstem będziemy pracować (ważne np. dla wydajności przetwarzania).

In [None]:
# Oblicz długość recenzji (w znakach) dla kilku przykładów i średnią dla zbioru treningowego
df_train['length_chars'] = df_train['text'].apply(len)
print("Przykładowe długości recenzji (w znakach):", df_train['length_chars'].head().tolist())
print("Średnia długość recenzji:", df_train['length_chars'].mean())
print("Mediana długości recenzji:", df_train['length_chars'].median())


**Ćwiczenie:** Zamiast liczby znaków, spróbuj policzyć **liczbę słów** w recenzjach i ponownie policzyć średnią oraz medianę. Wskazówka: Możesz wykorzystać metodę `.split()` dzielącą tekst po spacjach, aby przybliżoną liczbę słów (choć nie jest to idealna metoda, o lepszej tokenizacji będziemy mówić później).

*(Uzupełnij kod poniżej, aby policzyć średnią i medianę długości recenzji w słowach.)*


In [None]:
# TODO: Oblicz długość recenzji w słowach dla zbioru treningowego i podaj średnią oraz medianę.
# Podpowiedź: dla każdego text w df_train['text'] wykonaj text.split() i policz len() listy wynikowej.


Zazwyczaj recenzje filmowe IMDb są dość obszerne (kilka zdań do kilku akapitów). Długość tekstu może wpływać na wybór metod przetwarzania – np. bardzo długie dokumenty mogą wymagać przycięcia lub podzielenia, ale w naszym przypadku raczej nie będzie takiej potrzeby.

### Podsumowanie eksploracji

Do tej pory:

* Załadowaliśmy zbiór danych **IMDb** zawierający recenzje filmów oznaczone jako pozytywne lub negatywne.
* Potwierdziliśmy rozmiar zbioru i równowagę klas.
* Obejrzeliśmy przykładowe recenzje – widać różnorodność języka, obecność emocjonalnych słów, a czasem sarkazmu czy negacji.
* Policzyliśmy podstawowe statystyki (długość recenzji), co dało nam wyobrażenie o danych.

## Quiz – sprawdź swoją wiedzę

1. **Co oznacza skrót NLP?**
2. **Wymień dwa przykłady zastosowań NLP (innych niż analiza sentymentu).**
3. **Jakie znasz podstawowe podejścia do analizy sentymentu? Które z nich będziemy stosować w tym kursie?**
4. **Dlaczego przy analizie zbioru danych ważne jest sprawdzenie rozkładu klas (np. liczby opinii pozytywnych vs negatywnych)?**

*Zastanów się nad odpowiedziami. Odpowiedzi możesz zapisać poniżej we własnych słowach.*

**Twoje odpowiedzi:**

* 1: ...
* 2: ...
* 3: ...
* 4: ...

## Notatki własne

*(Poniżej możesz zapisać własne notatki, spostrzeżenia lub podsumowanie. Ta sekcja jest dla Ciebie : ) .)*

**Notatki:**

* ...
* ...
* ...



# Przetwarzanie tekstu – czyszczenie, tokenizacja, stop words, lematyzacja/stemming. Reprezentacja: Bag-of-Words i TF-IDF

## Cele edukacyjne

* **Dowiesz się, dlaczego i jak czyścić dane tekstowe** – usuwanie zbędnych znaków, standaryzacja (np. wielkości liter), podstawowe techniki przygotowania surowego tekstu.
* **Nauczysz się tokenizacji** – podziału tekstu na tokeny (najczęściej słowa) jako pierwszy krok przekształcania tekstu.
* **Poznasz pojęcie** ***stop words*** – zrozumiesz, czym są tzw. "słowa nieniosące treści" i jak je usuwać, by nie zaciemniały analizy.
* **Stemming i lematyzacja** – dowiesz się, jak sprowadzać wyrazy do ich podstawowej formy (np. "koty" -> "kot") i po co to robimy.
* **Reprezentacja Bag-of-Words (BoW)** – zrozumiesz, jak tekst można zamienić na wektor liczbowy poprzez zliczanie wystąpień słów.
* **Reprezentacja TF-IDF** – poznasz ulepszenie Bag-of-Words ważone częstością w dokumentach (TF-IDF) i zobaczysz, czemu jest przydatne w modelowaniu.

Mamy zbiór recenzji filmowych (IMDb) z odpowiadającymi im etykietami sentymentu. Jednak **surowy tekst** w takiej postaci nie jest bezpośrednio użyteczny dla algorytmu uczenia maszynowego. Musimy go najpierw przekształcić.

Typowy **pipeline** (proces) w zadaniach NLP wygląda następująco:

1. **Czyszczenie danych tekstowych** – usunięcie lub standaryzacja elementów, które mogą przeszkadzać w analizie (np. HTML, znaki specjalne, liczby, emotikony, itp.), sprowadzenie tekstu do jednolitej formy.
2. **Tokenizacja** – rozbicie tekstu na mniejsze jednostki, najczęściej słowa (tokeny). Czasem stosuje się też tokenizację na znaki, sylaby lub grupy wyrazów (n-gramy), ale tutaj skupimy się na słowach.
3. **Usuwanie stop words** – usunięcie z tokenów tzw. słów pospolitych, które nie niosą istotnego znaczenia dla zadania (np. "i", "że", "to"). Dzięki temu redukujemy szum w danych.
4. **Stemming / Lematyzacja** – sprowadzenie odmienionych form wyrazów do ich rdzenia lub podstawowej formy słownikowej (np. "pies", "psa", "psom" -> "pies"). Umożliwia to traktowanie wariantów tego samego słowa jednakowo.
5. **Tworzenie cech (feature extraction)** – zamiana listy tokenów na cechy liczbowe, na których może pracować model. W klasycznym ujęciu będzie to Bag-of-Words lub TF-IDF, które zaraz omówimy.


##  Czyszczenie tekstu (text cleaning)

Surowe dane tekstowe mogą zawierać elementy, które utrudniają analizę lub nie wnoszą nic istotnego. Przykłady:

* Znaki interpunkcyjne (.,!?), które zwykle nie wpływają na sentyment (choć np. wielokropek czy wykrzyknienia mogą wzmacniać emocje, ale na początek je pominiemy).
* Cyfry/liczby, daty – raczej nie przydatne w zadaniu sentymentu.
* HTML czy znaki specjalne (np. `&nbsp;`, `<br>` w tekście recenzji webowych).
* Wielkie litery na początku zdań – możemy ujednolicić tekst do małych liter, żeby "Film" i "film" nie były traktowane jako różne tokeny.
* Tzw. **szum** (ang. noise): ciągi znaków niebędące słowami, np. emotikony, hashtagi, adresy URL. (W recenzjach filmowych może nie być takich rzeczy, ale np. w tweetach często występują).


**Nasze podejście:** Na potrzeby naszego modelu zrealizujemy prostą strategię czyszczenia:

* Zamienimy tekst na same **małe litery**.
* Usuniemy **znaki niealfanumeryczne** (wszystko poza literami i cyframi) lub zastąpimy je spacją. To pozwoli pozbyć się interpunkcji.
* Opcjonalnie: możemy usunąć cyfry, ale w recenzjach filmów liczby (np. "10/10", "1998") mogą występować. Raczej nie są kluczowe dla sentymentu, więc możemy je usunąć, żeby uprościć słownik.

Powyższe możemy zrealizować np. za pomocą wyrażeń regularnych (biblioteka `re` w Pythonie) lub metod łańcuchowych Pythona.

Stwórzmy funkcję `clean_text()`, która przyjmie ciąg znaków (recenzję) i zwróci wyczyszczony tekst:

In [None]:
import re

def clean_text(text: str) -> str:
    # 1. Zamiana na małe litery
    text = text.lower()
    # 2. Usunięcie znaczników HTML (jeśli są) poprzez usunięcie ciągów w < >
    text = re.sub(r'<.*?>', ' ', text)
    # 3. Usunięcie znaków nie-alfanumerycznych (pozostaw litery i cyfry, resztę zastąp spacją)
    text = re.sub(r'[^a-z0-9ąćęłńóśźż ]+', ' ', text)  # dodatkowo polskie znaki, żeby ich nie usuwać w polskich tekstach
    # 4. Usunięcie nadmiarowych spacji (jeśli wskutek powyższych operacji pojawiły się wielokrotne spacje)
    text = re.sub(r'\\s+', ' ', text).strip()
    return text

# Test funkcji clean_text na sztucznym przykładzie
raw_example = "To jest <b>przykładowy</b> TEKST!!! Zawiera %^ różne dziwne znaki... oraz liczby 12345."
print("Przed czyszczeniem: ", raw_example)
print("Po czyszczeniu:    ", clean_text(raw_example))


Po uruchomieniu testu powyżej powinniśmy zobaczyć, że:

* Wszystkie litery są małe.
* HTML (`<b>...</b>`) zniknął.
* Symbol `%^` i wielokrotne wykrzykniki zostały usunięte.
* Liczby zostały zachowane (w powyższym kodzie zachowujemy cyfry `0-9` – można je usunąć zmieniając wyrażenie regularne, ale na razie niech zostaną).
* Ciągi spacji zostały zredukowane do pojedynczej spacji.


**Uwaga:** Nasza funkcja `clean_text` jest dość prosta. W praktyce czyszczenie można rozszerzać:

* Można by usunąć *stop words* już na etapie czyszczenia (my zrobimy to później).
* Można by zamieniać emotikony na słowa oznaczające emocje (np. ":)" -> "emotikon\_usmiech").
* Można by użyć biblioteki dedykowanej do czyszczenia tekstu (np. `beautifulsoup` do HTML, czy `emoji` do obsługi emotikon).
* Dla języka polskiego: można pokusić się o zamianę polskich liter diakrytycznych na ich podstawowe formy (ą->a, ć->c, itd.), ale wtedy tracimy trochę informacji (lepiej tego nie robić, by np. "los" i "łoś" nie stały się tym samym słowem).




Na potrzeby naszego przykłładu obecna funkcja wystarczy.

Teraz zastosujmy czyszczenie do naszych danych. Weźmy kilka surowych recenzji z IMDb i je wyczyśćmy, żeby zobaczyć różnicę:


In [None]:
sample_texts = df_train['text'].iloc[:2]
for i, text in enumerate(sample_texts):
    print(f"Oryginalna recenzja {i+1} (skrócona):\n{text[:100]}...\n")
    print(f"Po czyszczeniu:\n{clean_text(text)[:100]}...\n{'-'*40}\n")


Zwróć uwagę, że tekst po czyszczeniu nadal wygląda jak zdania, ale nie ma w nim wielkich liter ani specjalnych znaków.

**Ćwiczenie:** Zastanów się, dlaczego usuwanie interpunkcji może czasem spowodować utratę informacji. Czy potrafisz wymyślić sytuację, w której interpunkcja albo emotikon niosłyby informację o sentymencie? (Podpowiedź: Wykrzyknienia lub pytajniki mogą wzmacniać wydźwięk, np. "Film był świetny!!!" vs "Film był świetny"). W naszej prostej metodzie pomijamy ten aspekt – możesz zapisać swoją odpowiedź/rozważania poniżej:



**Twoje przemyślenia:** *(Czy interpunkcja może nieść informację sentymentu?)*

... (tu wpisz własne uwagi) ...




## Tokenizacja – podział tekstu na tokeny (słowa)

&#x20;                                           ![Tokenization — A complete guide. Natural Language Processing — NLP From… |  by Utkarsh Kant | Medium](https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcSw-6MjlECiyaOc7aq2EDJJJbfowX2DDrhw3g\&s "Tokenization — A complete guide. Natural Language Processing — NLP From… |  by Utkarsh Kant | Medium")



Mając wyczyszczony tekst, następnym krokiem jest **tokenizacja**, czyli rozbicie ciągu znaków na listę tokenów. Najczęściej jako token przyjmujemy słowo (ciąg liter między spacjami), ale w praktyce definicja tokenu zależy od zadania:

* W analize sentymentu zwykle tokenami są słowa lub emotikony, czasem pary wyrazów (bigramy) też traktuje się jako cechy.
* W innych zastosowaniach tokenem może być pojedynczy znak (np. w modelach opartych o litery) lub całe frazy.


My skupimy się na tokenizacji słów. W języku angielskim sprawa jest dość prosta – można w większości przypadków podzielić tekst na spacjach i znakach interpunkcyjnych. W języku polskim podobnie. Problemy pojawiają się w językach takich jak chiński (gdzie nie ma spacji między wyrazami), ale tym nie będziemy się zajmować.

Skorzystamy z narzędzi NLTK do tokenizacji zdań w jęz. angielskim. NLTK posiada funkcję `word_tokenize`, ale wymaga ona pobrania modelu tokenizatora (co zrobiliśmy wyżej `nltk.download('punkt')`).

Przetestujmy tokenizację na jednym zdaniu:


In [None]:
from nltk.tokenize import word_tokenize

test_sentence = "Film był niesamowity, bardzo mi się podobał!"
tokens = word_tokenize(clean_text(test_sentence))
print(tokens)



Zwróć uwagę: tokenizacja NLTK:

* Podzieli zdanie na pojedyncze słowa.
* Domyślnie rozdzieli też znaki interpunkcyjne jako oddzielne tokeny, ale ponieważ wyczyściliśmy tekst z interpunkcji wcześniej, w tokenach będą tylko słowa.

W powyższym przypadku (po czyszczeniu) zdanie `"film był niesamowity bardzo mi się podobał"` powinno dać listę tokenów podobną do `["film", "był", "niesamowity", "bardzo", "mi", "się", "podobał"]`.

**Uwaga:** Widać tu, że tokenizacja "po naszemu" zachowała formy odmienione ("był", "podobał"). Później zajmiemy się sprowadzaniem do podstawowej formy, ale najpierw omówimy **stop words**.

### Tokenizacja całego zbioru

Tokenizowanie każdej recenzji z osobna i przechowywanie list słów jest możliwe, ale niekonieczne w naszym pipeline'ie. Biblioteki takie jak scikit-learn mają swoje wewnętrzne tokenizatory (np. `CountVectorizer` potrafi sam podzielić tekst według wybranego wzorca, domyślnie po spacjach i podstawowej interpunkcji).

**W tym notatniku** jednak wykonamy pewne kroki ręcznie, by dobrze zrozumieć proces. Na koniec pokażemy, jak Vectorizer robi to automatycznie.

Na razie zróbmy tak: weźmy kilka recenzji i zastosujmy pełen proces czyszczenie + tokenizacja, aby zobaczyć, jak nasze dane będą wyglądały po tych operacjach.

In [None]:
# Przekształcenie kilku przykładowych recenzji na listy tokenów
for text in df_train['text'].iloc[:3]:
    cleaned = clean_text(text)
    tokens = word_tokenize(cleaned)
    print("Oryginalny tekst (skrócony):", text[:60], "...")
    print("Po tokenizacji:", tokens[:10], "...\n")  # wypisz pierwsze 10 tokenów dla zwięzłości


Wyniki pokazują nam, że tekst został rozbity na poszczególne słowa. Widać też, że mogą pojawić się **stop words**, np. "the", "was", "it" w angielskim czy "to", "się" w polskim – o tym za moment.

**Zadanie:** Zastanów się, czy tokenizacja powinna być wykonywana przed czyszczeniem, czy po. W naszej kolejności najpierw czyścimy (np. usuwamy interpunkcję), potem tokenizujemy. Co by się stało, gdybyśmy odwrócili kolejność? *(Spróbuj odpowiedzieć w myślach lub zapisz poniżej.)*




**Odpowiedź:**&#x20; 


## Stop words – słowa nieistotne

&#x20;                           ![Stop Word Removal Techniques for NLP Models | Ifioque.com](https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcTWbjOhgpy4QOORgglw7DXzQb0FMSjIlwAqsQ\&s "Stop Word Removal Techniques for NLP Models | Ifioque.com")

**Stop words** to *często występujące słowa, które niosą mało treściowych informacji*. W języku polskim są to np. "i", "oraz", "ale", "to", "się", "w", "na". W angielskim: "and", "the", "but", "to", "in", "on", itp. Te wyrazy głównie pełnią funkcje gramatyczne. W kontekście analizy sentymentu zazwyczaj nie wskazują na pozytywną czy negatywną opinię.



**Dlaczego je usuwać?**

Ponieważ pojawiają się w niemal każdym dokumencie, mogą zdominować statystyki i sprawić, że wektorowa reprezentacja tekstu ma bardzo dużo cech, które nic nie wnoszą (np. liczbę wystąpień "the" czy "i"). Usuwając je, zmniejszamy wymiar danych i skupiamy się na słowach kluczowych (rzeczownikach, przymiotnikach, czasownikach związanych z opinią).

Scikit-learn i NLTK udostępniają gotowe listy stop words dla różnych języków. Skorzystamy z listy angielskiej z NLTK, a dla polskiego stworzymy krótką listę samodzielnie (NLTK nie ma gotowej listy dla polskiego).

In [None]:
from nltk.corpus import stopwords

# Lista angielskich stop words z NLTK
stop_words_eng = set(stopwords.words('english'))
print("Liczba stop words (angielski):", len(stop_words_eng))
print("Przykładowe stop words:", list(stop_words_eng)[:10])

# Definiujemy ręcznie krótką listę polskich stop words (istnieją biblioteki z gotowymi listami, np. stopwordsiso)
stop_words_pl = {"i", "w", "na", "się", "nie", "że", "to", "jest", "tam", "tu", "o", "a", "ale", "oraz", "jak", "tak"}
print("Przykładowe stop words (polski):", list(stop_words_pl)[:5])


Lista angielska ma zapewne ok. 200 słów. Nasza polska jest bardzo skrócona dla ilustracji – prawdziwa lista powinna być dłuższa.

Teraz, aby usunąć stop words z tokenów, możemy po prostu przefiltrować listę tokenów i wyrzucić z niej te, które znajdują się na liście stop words.

Przetestujmy to na krótkim tekście mieszanym:

In [None]:
tokens = ["to", "jest", "bardzo", "fajny", "film"]
tokens_filtered = [t for t in tokens if t not in stop_words_pl]
print("Przed usunięciem stop words:", tokens)
print("Po usunięciu stop words:", tokens_filtered)




W powyższym przykładzie token "to" i "jest" powinny zostać usunięte jako stop words, pozostawiając "bardzo", "fajny", "film". Oczywiście "bardzo" to też częste słowo (przysłówek), które można by dodać do stop words, ale naszej krótkiej listy tam nie ma.

Teraz zastosujmy usuwanie stop words w naszym pipeline. Połączmy dotychczasowe kroki: **czyszczenie -> tokenizacja -> usunięcie stop words** dla przykładowej recenzji.

In [None]:
sample_text = df_train['text'].iloc[0]  # pierwsza recenzja
cleaned = clean_text(sample_text)
tokens = word_tokenize(cleaned)
tokens_no_stop = [t for t in tokens if t not in stop_words_eng]
print("Oryginalny tekst:", sample_text[:60], "...")
print("Po czyszczeniu:", cleaned[:60], "...")
print("Tokeny (kilka pierwszych):", tokens[:10])
print("Tokeny po usunięciu stop words (kilka pierwszych):", tokens_no_stop[:10])




Zaobserwuj, ile tokenów odpadło jako stop words. W języku angielskim prawdopodobnie wiele "the", "and", "of" itp. zostało usuniętych. Pozostały bardziej znaczące słowa.

**Nota:** W bibliotekach takich jak `CountVectorizer` można ustawić parametr `stop_words='english'`, by automatycznie usuwać angielskie stop words podczas wektoryzacji, co często się robi. My jednak przechodzimy krok po kroku manualnie, by zrozumieć mechanizm.


**Ćwiczenie:** Usuń stop words ze zdania: *"To był naprawdę świetny film, który bardzo mi się podobał."* Najpierw wyczyść to zdanie funkcją `clean_text`, potem stokenizuj i przefiltruj używając zarówno listy polskich stop words (dla słów "to", "mi", "się" etc.) jak i angielskich (to akurat polskie zdanie, więc użyj polskiej listy). Zapisz wynikowe tokeny.

*(Możesz wykonać to ćwiczenie w poniższej komórce kodu.)*

In [None]:
# TODO: Wyczyść zdanie, tokenizuj i usuń stop words (PL) dla podanego przykładowego zdania.
test_sentence = "To był naprawdę świetny film, który bardzo mi się podobał."
# Tu wpisz kolejne kroki: clean_text, word_tokenize, filter stop_words_pl





## Stemming i lematyzacja

![1.00](https://cdn.botpenguin.com/assets/website/Stemming_IR_346db34f6c.webp "Stemming in NLP: Key Concepts and Fundamentals Explained")


Kolejnym krokiem, który **opcjonalnie** można zastosować, jest sprowadzenie tokenów do ich podstawowej formy. Są dwie główne techniki:

* **Stemming** – ucina końcówki wyrazów według pewnych reguł, by sprowadzić je do rdzenia (niekoniecznie poprawnego słowa). Np. stemming w jęz. angielskim: *"playing", "played", "plays"* -> *"play"*. W polskim: *"kot", "koty", "kota", "kotem"* -> może dać *"kot"* (w zależności od algorytmu).
* **Lematyzacja** – wykorzystuje słowniki i reguły języka, by znaleźć **lemma** czyli formę podstawową. Np. *"went"* -> *"go"*, *"mice"* -> *"mouse"*. W polskim *"poszłam"* -> *"pójść"*, *"jabłek"* -> *"jabłko"*.



Stemming jest prostszy (nie wymaga znajomości języka), ale czasem obcina za dużo lub tworzy sztuczne formy. Lematyzacja jest dokładniejsza, ale wymaga więcej zasobów (słowniki morfologiczne lub modele).

W naszym projekcie zastosujemy **stemming** dla języka angielskiego jako przykład. Dla polskiego pełna lematyzacja wymagałaby np. biblioteki *spaCy* z modelem pl lub *Morfeusz* – to dość ciężkie jak na nasze potrzeby, więc ograniczymy się do świadomości, że takie narzędzia istnieją. (Polskie teksty i tak przetworzymy w wersji bez lematyzacji, co też zadziała, tylko słownik cech będzie większy, bo np. "film" i "filmu" będą osobno).

Skorzystamy z NLTK `PorterStemmer` lub `SnowballStemmer` dla angielskiego. SnowballStemmer jest uniwersalny i wspiera kilka języków (niestety polskiego brak). Użyjmy PorterStemmer:

In [None]:
from nltk.stem import PorterStemmer, WordNetLemmatizer

stemmer = PorterStemmer()
words = ["playing", "plays", "played", "player", "playingly"]
stemmed = [stemmer.stem(w) for w in words]
print("Słowa oryginalne:  ", words)
print("Po stemmingu:     ", stemmed)

Zobaczmy wynik:

* "playing", "plays", "played" powinny wszystkie dać "play".
* "player" może dać "player"&#x20;
* "playingly" (niezbyt używane słowo) pewnie zostanie okrojone do "playingli" lub "play" – tu widać, że stemmer czasem robi dziwne rzeczy gdy słowo jest nietypowe.


Teraz `WordNetLemmatizer` wymaga znajomości części mowy, inaczej lematyzuje do rzeczownika domyślnie:


In [None]:
lemmatizer = WordNetLemmatizer()
words2 = ["playing", "played", "cats", "better"]
lemmas = [lemmatizer.lemmatize(w) for w in words2]
lemmas_verbs = [lemmatizer.lemmatize(w, pos='v') for w in words2]
print("Oryginały: ", words2)
print("Lematy domyślne (rzeczowniki):", lemmas)
print("Lematy jako czasowniki:", lemmas_verbs)





Dla powyższego:

* Domyślnie: "playing" -> "playing" (bo traktuje jako rzeczownik, nie zmienia), "played" -> "played", "cats" -> "cat", "better" -> "better".
* Jako czasowniki: "playing" -> "play", "played" -> "play", reszta bez zmian ("better" jako czasownik - "better" zostanie).



Lematyzacja więc wymaga pipeline'u, który najpierw oznacza części mowy (POS tagging) – to wykracza poza nasz zakres. **W praktyce** w prostych modelach często wystarcza stemming zamiast pełnej lematyzacji, choć jest mniej precyzyjny.

&#x20;Zdecydujmy, że dla angielskich danych zastosujemy stemming, a dla polskich – nie będziemy robić stemmingu (brak narzędzia out-of-the-box w NLTK). Bez obaw – modele i tak sobie poradzą, tylko słów będzie trochę więcej.

Zaimplementujmy prostą funkcję, która wykona pełne przetworzenie pojedynczego tekstu: **czyszczenie -> tokenizacja -> usunięcie stopwords -> stemming (dla angielskiego)**.



W wyniku powinniśmy otrzymać listę tokenów, np. `["movi", "absolut", "wonder", "love", "act", "plot"]`. Zauważ, że po stemmingu powstają czasem niepełne słowa ("wonder" zamiast "wonderful", "movi" zamiast "movie", "love" zamiast "loved"). Mimo to dla algorytmu liczącego frekwencje słów, te formy będą konsistentne w całym korpusie.

Podobną funkcję moglibyśmy napisać dla polskiego, ale ograniczymy się do czyszczenia, tokenizacji i usunięcia stopwords (bez stemmingu):

In [None]:
def preprocess_text_pl(text: str) -> list:
    text_clean = clean_text(text)
    tokens = word_tokenize(text_clean)
    tokens = [t for t in tokens if t not in stop_words_pl]  # użyjemy naszej ograniczonej listy polskiej
    # Brak stemmingu/lematyzacji dla PL
    return tokens

print(preprocess_text_pl("Ten film był niesamowity, naprawdę mi się podobał!"))



To powinno zwrócić np. `["ten", "film", "był", "niesamowity", "naprawdę", "podobał"]` minus ewentualne stop words jeśli pasują do listy (np. "mi", "się" powinny zostać usunięte).

**Ćwiczenie:** Pomyśl, jakie wyzwania wiążą się z lematyzacją polskiego tekstu w porównaniu do angielskiego. (Podpowiedź: Odmiana przez przypadki, rodzaje gramatyczne, złożona gramatyka). Dlaczego proste "ucinanie" końcówek (stemming) może być trudne dla polskiego?



*(Wpisz swoje przemyślenia poniżej.)*

**Twoje przemyślenia:**


## Reprezentacja tekstu: Bag-of-Words
![NLP: Bag of Words. The Bag of Words (BoW) model is a… | by Rahul S | Medium](https://miro.medium.com/v2/resize:fit:661/0*cf1wq8eIix-Z2qIf.png "NLP: Bag of Words. The Bag of Words (BoW) model is a… | by Rahul S | Medium")


Mamy przygotowane i przetworzone tokeny – czas zamienić je na **cechy liczbowe**. Klasyczne podejście to **Bag-of-Words (torba słów)**. W modelu tym:

* Tworzymy **słownik wszystkich unikalnych tokenów** w naszym korpusie treningowym.
* Każdemu tokenowi przypisujemy indeks kolumny.
* Reprezentujemy każdy dokument (recenzję) jako wektor długości = liczbie słów w słowniku. W tym wektorze w pozycji odpowiadającej danemu słowu wpisujemy np. liczbę wystąpień tego słowa w dokumencie (lub 0, jeśli nie występuje).




### Tworzenie Bag-of-Words (BoW) w Pythonie


Można to zrobić ręcznie, ale wygodniej skorzystać z `CountVectorizer` z scikit-learn, który:

* Zbuduje słownik słów (faza `fit`).
* Zamieni listy tekstów na macierz częstości słów (faza `transform`).

Ponieważ `CountVectorizer` sam wewnętrznie dokonuje pewnej tokenizacji, możemy mu po prostu podać surowe (ale wyczyszczone) teksty, a on resztę zrobi. Jednak, jeśli chcemy mieć wpływ na tok preprocesingu (np. użyć naszego stemmera, itp.), możemy też przekazać wektorizerowi już przetworzone tokeny złączone znów w stringi.

Aby nie komplikować, najpierw pokażemy prosty użycie `CountVectorizer` *bez* własnego preprocessingu (on sam zrobi podstawową tokenizację i może usunąć stop words jeśli chcemy). Potem porównamy z naszym własnym przygotowaniem.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Weźmy próbkę 5 recenzji ze zbioru treningowego
sample_texts = df_train['text'].iloc[:5].tolist()

vectorizer = CountVectorizer(stop_words='english', max_features=20)
# stop_words='english' spowoduje usunięcie angielskich stopwords automatycznie
# max_features=20 ograniczy słownik do 20 najczęściej występujących słów (tylko dla demonstracji)

X_sample = vectorizer.fit_transform(sample_texts)
print("Rozmiar macierzy cech:", X_sample.shape)
print("Słowa w słowniku:", vectorizer.get_feature_names_out())
print("Macierz BoW (pierwsze 5 dokumentów, w formacie gęstym):\\n", X_sample.toarray())


In [None]:
import pandas as pd
pd.DataFrame(X_sample.toarray(),columns=vectorizer.get_feature_names_out(),index=[text[:100] for text in sample_texts])



Wynik:

* Rozmiar macierzy cech to (5 dokumentów, 20 cech).
* Wypisane słowa w słowniku to 20 najpopularniejszych słów w tych 5 recenzjach (dające pogląd, co się często powtarza).
* Macierz to pięć wektorów po 20 liczb. Np. jeśli słowo "movie" jest pierwsze w słowniku, to pierwsza kolumna zawiera zliczenia słowa "movie" w każdym z 5 dokumentów.



Warto zauważyć, że większość wartości w tej macierzy to zapewne zera (bo każde zdanie zawiera tylko kilka z możliwych słów). Taka macierz Bag-of-Words jest **rzadka (sparse)**. `CountVectorizer` zwraca ją jako sparse matrix (oszczędnie przechowywaną). Wywołanie `.toarray()` konwertuje ją do pełnej tablicy – robiąc to dla całego zbioru 25k dokumentów i tysięcy cech byłoby bardzo pamięciożerne, dlatego unikamy tego na dużych danych.





### Bag-of-Words na całym zbiorze IMDb

Teraz zróbmy wektoryzację dla całego naszego zbioru treningowego (25k recenzji). Słownik będzie spory – można ograniczyć do np. 10k najczęstszych słów (`max_features=10000`), co czasem pomaga modelom i wydajności. Tutaj zróbmy np. 5000 dla demonstracji, by nie było za ciężko.

In [None]:
# Wektorowanie całego zbioru treningowego IMDb
vectorizer_full = CountVectorizer(stop_words='english', max_features=5000)
X_train_bow = vectorizer_full.fit_transform(df_train['text'])  # używamy oryginalnych tekstów, a vectorizer sam wyczyści/tokenizuje prosto

print("Liczba cech (słów) w słowniku:", len(vectorizer_full.get_feature_names_out()))
print("Przykładowe słowa:", vectorizer_full.get_feature_names_out()[:10])
print("Macierz BoW - rozmiar:", X_train_bow.shape)





Ta operacja może chwilę potrwać (przetwarza 25k dokumentów, buduje słownik 5000 słów). Po wykonaniu:

* Zobaczymy potwierdzenie, że cech jest 5000 (nasze ograniczenie).
* Pierwsze 10 słów (zapewne najbardziej popularnych): zwykle w recenzjach filmowych to mogą być słowa typu "film", "movie", "one", "like", "good", "bad" itp. (choć uwaga: `stop_words='english'` usunęło "the", "and" itd., więc ich nie będzie).
* Rozmiar macierzy: (25000, 5000).


Teraz możemy również przekształcić zbiór testowy do takiej samej reprezentacji (używając `transform` na już wytrenowanym vectorizerze – **nie fitujemy ponownie na teście!**, aby słownik pozostał stały):

In [None]:
X_test_bow = vectorizer_full.transform(df_test['text'])
print("Rozmiar macierzy BoW dla testu:", X_test_bow.shape)



Mając `X_train_bow` i `X_test_bow`, a także odpowiadające im etykiety `y_train` i `y_test` (które mamy w `df_train['label']` itd.), jesteśmy gotowi do trenowania modeli (co zrobimy w notatniku 3).

Jednak zanim przejdziemy do modeli, warto poznać jeszcze jedną reprezentację, która często daje lepsze wyniki niż gołe BoW: **TF-IDF**.




## Reprezentacja TF-IDF

![TF-IDF Defined - KDnuggets](https://www.kdnuggets.com/wp-content/uploads/arya-tf-idf-defined-0-1024x573.png "TF-IDF Defined - KDnuggets")

TF-IDF (Term Frequency–Inverse Document Frequency) to modyfikacja Bag-of-Words, która oprócz częstości słowa w dokumencie (TF) uwzględnia także **uniwersalność** słowa w całym korpusie (DF – document frequency).


Intuicja:

* Jeśli słowo pojawia się w **wielu dokumentach**, to jego zdolność do rozróżniania dokumentów jest mała (np. słowo "film" pojawi się prawie we wszystkich recenzjach filmu – nie mówi czy recenzja jest pozytywna czy negatywna).
* TF-IDF obniża wagę takich słów poprzez mnożenie TF przez IDF (inverse document frequency), które jest niższe dla słów występujących w wielu dokumentach.

Wzór (nie musisz go pamiętać na pamięć, ale warto znać ogólny kształt):

$$
tf\text{-}idf(t,d) = tf(t,d) \times \log \frac{N}{df(t)}
$$

gdzie:

- $tf(t, d)$ – liczba wystąpień słowa $t$ w dokumencie $d$ (czasem używa się częstotliwości względnej),
- $df(t)$ – liczba dokumentów, w których słowo $t$ występuje,
- $N$ – liczba dokumentów w korpusie.


Logarytm sprawia, że wpływ \$df\$ jest znoszony w skali log (im rzadsze słowo, tym większe \$\log(N/df)\$).

W praktyce nie liczymy tego ręcznie – znów posłuży nam narzędzie z scikit-learn: `TfidfVectorizer`, używany podobnie do CountVectorizer.

Spróbujmy na małym przykładzie porównać BoW vs TF-IDF:


In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

sample_texts = [
    "I love this movie movie movie",
    "This movie was bad and boring",
    "What a great movie!"
]
vect_count = CountVectorizer(stop_words='english')
vect_tfidf = TfidfVectorizer(stop_words='english')

X_count = vect_count.fit_transform(sample_texts).toarray()
X_tfidf = vect_tfidf.fit_transform(sample_texts).toarray()

print("Słownik:", vect_count.get_feature_names_out())
print("BoW zliczenia:\n", X_count)
print("TF-IDF wartości:\n", np.round(X_tfidf, 2))



Porównując:

* W BoW macierzy zobaczymy czyste liczby (np. słowo "movie" może mieć liczbę 3 w pierwszym zdaniu).
* W TF-IDF macierzy zobaczymy wartości ułamkowe. Słowo "movie" w pierwszym dokumencie dostanie dość wysoką wartość TF-IDF (bo TF=3, ale też występuje w wszystkich 3 dokumentach, więc IDF trochę to obniży). W drugim i trzecim dokumencie "movie" ma TF=1, ale w trzecim dokumencie to jedyne słowo prawie, więc tam TF-IDF może być najwyższe.

Widać też, że słowo, które jest unikalne dla jednego dokumentu dostanie wyższą wagę niż słowo, które pojawia się wszędzie.


### TF-IDF na naszych danych

Zastosujmy TfidfVectorizer podobnie jak CountVectorizer wcześniej, na pełnym zbiorze treningowym IMDb:


In [None]:
tfidf_vectorizer = TfidfVectorizer(stop_words='english', max_features=5000)
X_train_tfidf = tfidf_vectorizer.fit_transform(df_train['text'])
X_test_tfidf = tfidf_vectorizer.transform(df_test['text'])

print("Macierz TF-IDF - rozmiar:", X_train_tfidf.shape)
print("Przykładowe cechy:", tfidf_vectorizer.get_feature_names_out()[:10])
print("Wartości TF-IDF (fragment dla 1. dokumentu):", X_train_tfidf[0, :10].toarray())



Macierz TF-IDF będzie tego samego wymiaru (25000, 5000). Różni się tylko wartościami wewnątrz.

**Ważne:** TF-IDF również zwraca macierz rzadką. Nie przekształcamy jej do pełnej tablicy jeśli nie musimy.

Z punktu widzenia modeli uczenia, TF-IDF to po prostu inny zestaw cech. Wiele algorytmów (w tym Naive Bayes, regresja logistyczna) często działa lepiej z TF-IDF niż czystym BoW, ale to zależy od danych. Można też próbować używać obu na raz lub dodatkowych pomysłów (np. cecha czy w tekscie wystąpił wykrzyknik, długość tekstu itp., ale nie będziemy tego tutaj robić).



## Podsumowanie przetwarzania tekstu

Przeszliśmy przez kluczowe etapy przygotowania danych tekstowych:

* Wyczyściliśmy tekst (lowercase, usunięcie znaków specjalnych).
* Podzieliliśmy na tokeny (słowa).
* Usunęliśmy stop words, które najczęściej nie wnoszą informacji.
* (Opcjonalnie) Zastosowaliśmy stemming/lematyzację, by ujednolicić formy wyrazów.
* Zamieniliśmy przetworzone teksty na reprezentacje numeryczne:

  * Bag-of-Words (wystąpienia słów),
  * TF-IDF (ważone wystąpienia słów).


Mamy teraz gotowe cechy, na podstawie których możemy trenować model uczący się odróżniać opinie pozytywne od negatywnych.

Teraz zajmiemy się trenowaniem modeli: użyjemy **Naiwnego Bayesa** i **Regresji Logistycznej**, a następnie ocenimy ich skuteczność na zbiorze testowym.




**Pytania:**
* Dlaczego usuwamy stop words i jaki to ma wpływ na wielkość słownika cech.
* Czym różni się stemming od lematyzacji (i czemu nie zawsze jest łatwo lematyzować).
* Jak w wektorze BoW/TF-IDF reprezentowane są dokumenty (co znaczą poszczególne wartości).
* Co oznacza skrót TF-IDF na intuicyjnym poziomie.

## Quiz – utrwalenie pojęć

1. **Dlaczego warto sprowadzać tekst do małych liter przed analizą?**
2. **Podaj trzy przykłady** ***stop words*** **w języku polskim.**
3. **Co to jest stemming?** (wyjaśnij własnymi słowami)
4. **W modelu Bag-of-Words, czy kolejność słów w dokumencie ma znaczenie?**
5. **Załóżmy, że słowo występuje we wszystkich dokumentach w korpusie. Jaką mniej więcej wartość TF-IDF to słowo otrzyma?** (wysoką czy niską i dlaczego?)

**Twoje odpowiedzi:**

1. ...
2. ...
3. ...
4. ...
5. ...

## Ćwiczenia praktyczne

* **Ćwiczenie 1:** Zaimportuj drugi zbiór danych (polskojęzyczny, np. recenzje z PolEmo 2.0) podobnie jak zrobiliśmy to dla IMDb. Wczytaj dane i sprawdź ich rozmiar oraz przykładowe wpisy. *(Wskazówka: użyj* *`load_dataset("clarin-pl/polemo2-official")`* *analogicznie do IMDb. Zobacz* *`dataset['train']`* *i* *`dataset['test']`.)*
* **Ćwiczenie 2:** Zastosuj funkcje przetwarzające tekst do kilku polskich recenzji. Zwróć uwagę na różnice: czy nasza funkcja `clean_text` z polskimi znakami działa poprawnie? Czy lista `stop_words_pl` powinna zostać rozszerzona o dodatkowe słowa, które widzisz w danych? Zanotuj kilka obserwacji.
* **Ćwiczenie 3:** Wektoruj polskie recenzje za pomocą `CountVectorizer` (jeśli dane są duże, możesz ustawić `max_features` na kilka tysięcy). Porównaj najczęstsze słowa w polskim zbiorze z tymi z angielskiego IMDb – czy są to głównie stop words, czy pojawiają się konkretne słowa związane z oceną (np. "dobry", "świetny", "nudny")? Co to mówi o danych?

*(Możesz wykorzystać poniższe komórki na powyższe ćwiczenia.)*


In [None]:

# TODO: Ćwiczenie 1 – wczytaj polski zbiór danych i przeanalizuj podstawowe informacje (wielkość, przykłady).


# TODO: Ćwiczenie 2 – zastosuj preprocess_text_pl do kilku polskich recenzji i przeanalizuj wyniki.


# TODO: Ćwiczenie 3 – CountVectorizer na polskich danych, analiza najczęstszych słów.




## Notatki własne

*(Zanotuj tutaj swoje własne podsumowanie, rzeczy do zapamiętania, pytania.)*

* ...
* ...
* ...



# Trenowanie modelu klasyfikacji sentymentu – Naive Bayes i Logistic Regression

## Cele edukacyjne

* **Przygotowanie danych do modelowania** – przypomnisz sobie uzyskane wektory cech (BoW/TF-IDF) i etykiety, ewentualnie dokonasz drobnego przygotowania (podział na train/test, filtrowanie klas jeśli potrzebne).
* **Poznasz algorytm Naiwnego Bayesa (Multinomial Naive Bayes)** – zrozumiesz w intuicyjny sposób, jak wykorzystuje prawdopodobieństwa słów do klasyfikacji tekstu.
* **Poznasz algorytm Regresji Logistycznej** – dowiesz się, że to model liniowy potrafiący przewidywać prawdopodobieństwo klasy, i jest często używany w zadaniach NLP.
* **Nauczysz się trenować modele ML w scikit-learn** – utworzysz model, dopasujesz go do danych treningowych, dokonasz predykcji na danych testowych.
* **Ocena modelu** – dowiesz się, jak ocenić skuteczność modelu: miara dokładności (accuracy), macierz pomyłek; porównasz wyniki modeli.
* **Ćwiczenia i eksperymenty** – samodzielnie sprawdzisz wpływ pewnych zmian (np. inny typ reprezentacji cech, tuning parametrów) na działanie modeli, przetestujesz model na nowych przykładach tekstu.

## Przygotowanie danych

Mamy już zebrane cechy tekstowe ze zbioru recenzji IMDb (w języku angielskim). Przypomnijmy:

* Zbiór **treningowy**: 25 000 recenzji, z których każda jest reprezentowana jako wektor cech (np. 5000-cechowy wektor TF-IDF lub BoW) i ma etykietę 0 lub 1 (negatywna/pozytywna).
* Zbiór **testowy**: 25 000 recenzji, również przekonwertowanych do tej samej przestrzeni cech, posłuży nam do niezależnej oceny modeli.

Przypiszmy `y_train` i `y_test`:

In [None]:
y_train = df_train['label'].to_numpy()
y_test = df_test['label'].to_numpy()

print("Przykładowe etykiety treningowe:", y_train[:10])


Upewnijmy się, że rozmiary się zgadzają z macierzami cech:


In [None]:
print("Rozmiar X_train, y_train:", X_train_tfidf.shape, y_train.shape)
print("Rozmiar X_test, y_test:", X_test_tfidf.shape, y_test.shape)




Jeśli wszystko jest w porządku, możemy przejść do trenowania modeli.

> Uwaga (dotycząca drugiego zbioru danych): Jeśli chcesz równolegle przećwiczyć użycie polskiego zbioru recenzji, możesz powtórzyć proces przetwarzania i wektoryzacji również dla niego. Dla przejrzystości, w dalszej części notatnika skupimy się na danych IMDb (angielskich), ale w sekcji ćwiczeń zachęcam do sprawdzenia modeli także na polskich danych. Dodatkowo, jeśli polski zbiór ma więcej niż dwie kategorie (np. PolEmo 2.0 ma 4 kategorie: pozytywne, negatywne, neutralne, mieszane), można rozważyć filtrację do dwóch głównych (pozytywne vs negatywne) dla porównywalności – o czym jeszcze wspomnimy.




## Multinomial Naive Bayes – intuicja działania



**Naiwny klasyfikator Bayesowski** to rodzina prostych modeli probabilistycznych. "Naiwny" – bo zakłada niezależność cech od siebie, co w przypadku słów w zdaniu jest założeniem uproszczonym (słowa w zdaniu oczywiście nie są w pełni niezależne). Mimo tego założenia, model często sprawdza się zaskakująco dobrze.

Wariant **Multinomial Naive Bayes** jest dostosowany do cech będących zliczeniami (jak słowa). Intuicja:

* Dla każdej klasy (pozytywne/negatywne) obliczamy prawdopodobieństwa wystąpienia danego słowa w tej klasie na podstawie danych treningowych.
* Aby obliczyć prawdopodobieństwo, że nowy dokument jest np. pozytywny, model mnoży (aproksymuje) prawdopodobieństwa wszystkich słów w dokumencie pod warunkiem klasy pozytywnej oraz *prior* klasy (np. częstość pozytywnych w treningu).
* Mówiąc prościej: NB sprawdza, do której klasy dokument "bardziej pasuje" pod względem użytych słów.



![Multinomial Naive Bayes Explained: Function, Advantages & Disadvantages,  Applications](https://ik.imagekit.io/upgrad1/abroad-images/imageCompo/images/Picture2SWG591.png?pr-true "Multinomial Naive Bayes Explained: Function, Advantages & Disadvantages,  Applications")




Przykład uproszczony: Jeśli słowo "great" jest 10 razy częstsze w pozytywnych recenzjach niż w negatywnych, a słowo "boring" jest częstsze w negatywnych, to:

* Dokument zawierający "great" będzie miał wyższe prawdopodobieństwo bycia pozytywnym (pomnoży się wysoki warunek dla "great|positive").
* Dokument z "boring" – wyższe prawdopodobieństwo bycia negatywnym.

Oczywiście model weźmie pod uwagę **wszystkie słowa** i zbalansuje te wskazówki.

Nie zagłębiamy się tu w wzory Bayesa (choć są ładne): ważne że NB sprowadza się do bardzo szybkiego zliczania i porównywania częstości słów.

Scikit-learn udostępnia implementację `MultinomialNB` w module `naive_bayes`. Będziemy go używać.




## Trenowanie modelu Naive Bayes

Załóżmy, że będziemy używać reprezentacji **TF-IDF** jako cech (można też spróbować BoW – NB często dobrze radzi sobie z czystymi zliczeniami).

Stwórzmy i wytrenujmy model NB na zbiorze treningowym:


In [None]:
from sklearn.naive_bayes import MultinomialNB

# Inicjalizacja modelu NB
nb_model = MultinomialNB()
# Trenowanie modelu (dopasowanie do danych treningowych)
nb_model.fit(X_train_tfidf, y_train)




Model się trenuje bardzo szybko (NB jest wydajny nawet na duże zbiory).

Teraz dokonamy predykcji na zbiorze testowym i obliczymy **dokładność (accuracy)**, czyli odsetek poprawnie zaklasyfikowanych recenzji.


In [None]:
from sklearn.metrics import accuracy_score

# Predykcja na danych testowych
y_pred_nb = nb_model.predict(X_test_tfidf)
# Obliczenie accuracy
acc_nb = accuracy_score(y_test, y_pred_nb)
print(f"Dokładność (accuracy) Naive Bayes: {acc_nb:.4f}")




Czy to dobrze? Biorąc pod uwagę, że losowe strzelanie dałoby 50%, a ludzie w sumie się z grubsza zgadzają w ocenach filmów może w \~90% (są kontrowersyjne filmy), wynik \~85% jest całkiem niezły dla tak prostego modelu. Oczywiście da się lepiej, spróbujemy to poprawić logisticzną.



### Analiza wyników i macierz pomyłek

Sam accuracy to nie wszystko. Warto zobaczyć **macierz pomyłek (confusion matrix)**, by wiedzieć, gdzie model się mylił najczęściej – czy częściej bierze pozytywne za negatywne czy odwrotnie.

In [None]:
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix

# Oblicz macierz pomyłek
cm = confusion_matrix(y_test, y_pred_nb)
print("Macierz pomyłek (NB):\n", cm)

# Zakładamy, że klasy są oznaczone jako unikalne wartości z y_test
classes = np.unique(y_test)

# Wizualizacja macierzy pomyłek jako heatmap z użyciem seaborn
plt.figure(figsize=(6, 6))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=classes, yticklabels=classes)
plt.title("Macierz pomyłek (NB)")
plt.xlabel("Predykcja")
plt.ylabel("Rzeczywista wartość")
plt.show()




Interpretacja macierzy pomyłek:

* Element \[0,0]: liczba **negatywnych** recenzji poprawnie zaklasyfikowanych jako negatywne (True Negatives).
* Element \[1,1]: liczba **pozytywnych** recenzji poprawnie zaklasyfikowanych jako pozytywne (True Positives).
* Element \[0,1]: liczba negatywnych recenzji błędnie zaklasyfikowanych jako pozytywne (False Positives).
* Element \[1,0]: liczba pozytywnych recenzji błędnie zaklasyfikowanych jako negatywne (False Negatives).


Idealny model miałby tylko przekątną niezerową. U nas pewnie pomyłki będą w obu kategoriach. Można policzyć np. *precision* i *recall* każdej klasy, ale nie zagłębiajmy się – przy symetrycznych kosztach błędu i zbalansowanych klasach accuracy wystarczy.

**Pytanie:** Jeśli zobaczysz, że np. \[0,1] (FN) jest większe od \[1,0] (FP), co to oznacza? (Np. model częściej myli się myśląc, że negatywna recenzja jest pozytywna, niż odwrotnie). Z czego to może wynikać? *(To pytanie otwarte, pomyśl - może model ma "tendencję" do przewidywania jednej klasy? Można by to powiązać np. z proporcjami klas w treningu lub specyfiką danych).*



## Regresja logistyczna – intuicja

![Linear Regression vs Logistic Regression - Tpoint Tech](https://d2jdgazzki9vjm.cloudfront.net/tutorial/machine-learning/images/linear-regression-vs-logistic-regression.png "Linear Regression vs Logistic Regression - Tpoint Tech")


**Regresja logistyczna** to również model liniowy, ale zamiast zakładać rozkłady jak NB, bezpośrednio uczy się funkcji 𝑓(cechy) → prawdopodobieństwo klasy.

Wersja binarna (dwie klasy) regresji logistycznej:

* Model przypisuje każdemu słowu (cecha) pewną **waga** – liczba dodatnia lub ujemna.
* Suma (ważona) wszystkich cech w dokumencie daje wynik, który przekształcamy funkcją sigmoid w zakres \[0,1] – to jest przewidywane prawdopodobieństwo klasy pozytywnej.
* Jeśli to prawdopodobieństwo > 0.5 (zazwyczaj), model klasyfikuje jako pozytywny, inaczej negatywny.


Te wagi są optymalizowane na zbiorze treningowym tak, by maksymalizować poprawność. Np. model może nauczyć się wagi +2 dla słowa "great" (sprzyja pozytywnej) i wagi -3 dla "boring" (sprzyja negatywnej), itd., oraz pewnego progu bazowego.

Regresja logistyczna nie zakłada niezależności cech – w zasadzie każda cecha ma własną wagę, więc może trochę lepiej wykorzystać sytuacje, gdy pewne słowa występują razem (chociaż to wciąż model liniowy, więc nie modeluje *interakcji* między słowami bezpośrednio, ale może łączyć wagi).





Trenowanie regresji logist. polega na iteracyjnym dostrajaniu wag (z użyciem np. algorytmu gradientowego). To może zająć nieco więcej czasu niż NB, zwłaszcza na 25k dokumentach i 5000 cech. Warto więc:

* Być może ograniczyć liczbę iteracji (parametr `max_iter`).
* Ewentualnie użyć tylko części cech (ale my już ograniczyliśmy do 5000).
* Monitorować, czy model się zbiega (czasami ostrzega o braku zbieżności – wtedy zwiększamy `max_iter`).



### Trenowanie modelu logistycznego

Skorzystamy z `LogisticRegression` z scikit-learn.

In [None]:
from sklearn.linear_model import LogisticRegression

log_model = LogisticRegression(max_iter=200)
log_model.fit(X_train_tfidf, y_train)

In [None]:
log_model.n_iter_



Jeśli pojawi się ostrzeżenie o konwergencji, można zwiększyć `max_iter` np. do 300 czy 500. 200 zazwyczaj wystarcza dla tego rozmiaru problemu, ale zależy od parametrów domyślnych.


Po wytrenowaniu, wykonajmy predykcję i policzmy accuracy:


In [None]:
y_pred_log = log_model.predict(X_test_tfidf)
acc_log = accuracy_score(y_test, y_pred_log)
print(f"Dokładność (accuracy) Logistic Regression: {acc_log:.4f}")


Sprawdźmy macierz pomyłek dla LR:


In [None]:
cm_log = confusion_matrix(y_test, y_pred_log)
print("Macierz pomyłek (LR):\n", cm_log)




Porównaj z macierzą NB – czy któryś model popełnia wyraźnie mniej błędów określonego typu?



### Analiza i porównanie modeli

Teraz mamy wyniki dwóch modeli:

* **Naive Bayes**
* **Logistic Regression**

Możemy je bezpośrednio porównać – LR wyszedł nieco lepszy. Często tak bywa, bo LR może bardziej dostosować się do danych kosztem dłuższego treningu. NB jest jednak prosty i bywa lepszy przy mniejszych danych.

Ciekawe może być też sprawdzenie kilku **przykładowych predykcji** – weźmy parę recenzji z testu i zobaczmy, co modele przewidziały, a jaka jest prawda.

In [None]:
# Weźmy kilka losowych indeksów
indices = [0, 1, 2, 100, 101, 20000]  # przykładowe indeksy (możesz zmienić lub losować)
for i in indices:
    text = df_test['text'].iloc[i]
    true_label = y_test[i]
    pred_nb = y_pred_nb[i]
    pred_log = y_pred_log[i]
    print(f"Recenzja: {text[:200]}...")  # skracamy dla czytelności
    print(f"   Prawdziwa etykieta: {true_label} | NB przewidział: {pred_nb} | LR przewidziała: {pred_log} \n")




Przejrzyj te wyniki:

* Zobacz, gdzie model się pomylił (true\_label != przewidywanie). Przeczytaj fragment recenzji – czy zawiera jakieś słowa, które mogły zmylić model? Np. recenzja negatywna może zawierać zdanie "It was a good attempt but overall boring" – zawiera słowo "good", które NB mógł przecenić.
* Czy są różnice między NB a LR? Może któryś poprawnie, a drugi źle w pewnych przypadkach.

To daje pewną intuicję, co modele "myślą". Pamiętaj, że oba modele są dość *"głupie"* w tym sensie, że patrzą tylko na worek słów. Nie rozumieją ironii, negacji w kontekście (poza słowem "not" jeśli je uwzględnimy, NB i LR wiedzą że "not" często sygnalizuje negatyw, ale zdanie "not bad" to pozytywne znaczenie, a model może uznać "not" i "bad" oba za sygnały negatywu niezależnie).

## Zastosowanie modelu do nowych przykładów

Na koniec zobaczmy, jak użyć wytrenowanych modeli do oceny nowych tekstów spoza naszego zbioru.

Napiszmy funkcję pomocniczą, która weźmie tekst (np. recenzję), przetworzy go tak samo jak dane treningowe i wydrukuje przewidywany sentyment.

Ponieważ nasz `tfidf_vectorizer` był trenowany na danych angielskich IMDb, najlepiej podawać mu teksty angielskie o podobnej tematyce (recenzje filmów). Dla testu możemy spróbować również z polskim tekstem – zobaczymy, że raczej nie zadziała sensownie, bo słów nie będzie w słowniku.


In [None]:
def predict_sentiment(text: str):
    # Przekształcenie tekstu za pomocą tego samego wektoryzatora TF-IDF
    text_vector = tfidf_vectorizer.transform([text])
    # Predykcja NB i LR
    pred_nb = nb_model.predict(text_vector)[0]
    pred_log = log_model.predict(text_vector)[0]
    # Prawdopodobieństwo pozytywnej klasy wg LR (nb ma swoje, ale trudno je porównywać bezkontekstowo)
    prob_log = log_model.predict_proba(text_vector)[0,1]
    # Wyświetlenie wyniku
    sentiment_nb = "pozytywna" if pred_nb == 1 else "negatywna"
    sentiment_log = "pozytywna" if pred_log == 1 else "negatywna"
    print(f"Tekst: {text}")
    print(f"   NB: {sentiment_nb}, LR: {sentiment_log} (P(positive)={prob_log:.2f})")

# Przetestujmy na kilku zdaniach:
predict_sentiment("This movie was absolutely fantastic! I loved it.")
predict_sentiment("Boring film. Waste of time... I do not recommend.")
predict_sentiment("It had some good moments, but overall it was disappointing.")


Spróbuj wymyślić własne krótkie recenzje i zobacz, co wyjdzie:


In [None]:
# TODO: zmień teksty poniżej na własne i sprawdź wyniki
predict_sentiment("The story was not bad, but not great either.")
predict_sentiment("One of the best movies I've ever seen!!!")
predict_sentiment("It was a movie. The actors spoke and there was music.")


Jeśli spróbujesz z polskim tekstem:


In [None]:
predict_sentiment("Ten film był naprawdę świetny! Chętnie obejrzę go ponownie.")



prawdopodobnie model nie rozpozna słów ("film" może akurat jest też w angielskim, ale "świetny" na pewno nie) – większość cech wyjdzie 0, więc model może dać przewidywanie bazujące na biasie (prawdopodobnie uzna np. negatywny, bo nie znalazł pozytywnych słów znanych mu). To pokazuje, że model działa tylko w zakresie języka i słownictwa, na którym został nauczony.

**Wniosek:** Nasz model angielski nie zrozumie polskiego zdania i vice versa. Dlatego budując systemy na różne rynki językowe, trzeba trenować osobne modele lub wielojęzyczne podejścia (to bardziej skomplikowane).



## Ćwiczenia i pomysły do samodzielnego sprawdzenia

Możesz teraz poeksperymentować, aby lepiej poznać temat:

1. **Bag-of-Words vs TF-IDF:** Spróbuj wytrenować modele NB i LR na surowych cechach BoW (np. użyj `X_train_bow` zamiast `X_train_tfidf`). Porównaj wyniki. Czy TF-IDF poprawiło wynik? Który model bardziej zyskał na TF-IDF?
2. **Zmiana liczby cech:** Wektor TF-IDF, który zbudowaliśmy, miał ograniczenie do 5000 cech. Spróbuj zwiększyć do 10 000 lub użyć pełnego słownika (usunąć `max_features` w `TfidfVectorizer`). Uwaga: więcej cech może wydłużyć trening. Sprawdź, czy accuracy rośnie, maleje czy pozostaje podobne.
3. **Dodanie n-gramów:** Dotąd używaliśmy pojedynczych słów jako cechy. `TfidfVectorizer` pozwala uwzględnić n-gramy (sekwekcje słów). Ustaw `ngram_range=(1,2)` aby dodać bigramy (pary słów). Wytrenowanie modelu z bigramami może wychwycić np. frazy "not good" jako osobną cechę. Sprawdź, czy to poprawi wyniki.
4. **Inny algorytm:** Spróbuj innego modelu klasyfikacji, np. SVM (`sklearn.svm.LinearSVC`) lub drzewo decyzyjne (`sklearn.tree.DecisionTreeClassifier`). Porównaj ich skuteczność i czas trenowania z NB i LR.
5. **Klasy wielokrotne:** Jeżeli masz drugi zbiór danych z więcej niż dwiema klasami (np. **PolEmo 2.0**: plus, minus, zero, amb), spróbuj zbudować model 4-klasowy na nim. NB i LR potrafią obsłużyć multi-klasy (LR domyślnie używa strategii one-vs-rest). Sprawdź confusion matrix – czy model głównie myli neutralne z negatywnymi, itp.? (Więcej klas to trudniejsze zadanie!)


**Wykonaj przynajmniej część z powyższych i zanotuj wnioski.** Pamiętaj, że eksperymenty mogą trochę potrwać (szczególnie SVM lub duża liczba cech).

*(Możesz wykorzystać poniższe komórki do eksperymentów.)*

In [None]:

# TODO: Eksperyment 1 - Porównanie NB/LR na BoW vs TF-IDF

# TODO: Eksperyment 2 - Zwiększenie liczby cech

# TODO: Eksperyment 3 - Dodanie bigramów do cech

# TODO: Eksperyment 4 - Wypróbowanie innego algorytmu (np. SVM)





## Podsumowanie

Nauczyliśmy się trenować modele klasyczne do analizy sentymentu:

* **Multinomial Naive Bayes** – szybki, oparty na prawdopodobieństwach słów, całkiem skuteczny przy niezbyt dużej liczbie danych.
* **Regresja Logistyczna** – model liniowy uczący się wag cech, zazwyczaj dający wysoką skuteczność kosztem dłuższego treningu.

Oba modele uzyskały dokładność w okolicach 85-90% na naszym zbiorze testowym IMDb, co jest przyzwoitym wynikiem. W praktyce można by spróbować poprawić go:

* Dodając więcej danych treningowych (nasze 25k to już sporo, ale zawsze można mieć więcej).
* Stosując bardziej złożone modele (np. ensemble modeli lub sieci neuronowe).
* Udoskonalając cechy (np. uwzględniając bigramy, lepsze przetwarzanie negacji, itp.).

Kluczowe wnioski:

* **Pipeline NLP**: surowy tekst → przetwarzanie (clean, tokenizacja, stopwords, etc.) → wektor cech → model ML → przewidywanie.
* Model trzeba dobrać do problemu i danych. Naiwny Bayes sprawdzi się, gdy cechy są dość niezależne, regresja logistyczna poradzi sobie z korelacjami lepiej.
* Ocena modelu powinna być przeprowadzona na **oddzielnym zbiorze testowym**, by mieć pewność, że model generalizuje, a nie tylko nauczył się na pamięć danych treningowych.



