<a href="https://colab.research.google.com/github/pjastr-uwm/fakultet_io_2026/blob/main/lab01/tokenizacja_nltk.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tokenizacja tekstu za pomoca pakietu NLTK

## Przewodnik praktyczny

**Wymagania wstepne:** podstawowa znajomosc Pythona (zmienne, listy, petle)

---

### Czym jest ten notatnik?

Ten notatnik to praktyczne wprowadzenie do jednego z pierwszych krokow przetwarzania tekstu przez komputer -- **tokenizacji**. Zanim komputer bedzie mogl zrozumiec tekst (np. przeanalizowac opinie klientow, przetlumaczyc zdanie, odpowiedziec na pytanie), musi ten tekst najpierw podzielic na mniejsze czesci. Wlasnie tym zajmuje sie tokenizacja.

Bedziemy korzystac z biblioteki **NLTK** (Natural Language Toolkit) -- jednego z najstarszych i najbardziej sprawdzonych narzedzi do pracy z tekstem w Pythonie. NLTK powstal na uniwersytecie w Pensylwanii i jest powszechnie stosowany w nauczaniu oraz w praktyce.

### Plan pracy

1. Instalacja i konfiguracja srodowiska
2. Czym jest tokenizacja -- definicja i intuicja
3. Tokenizacja na wyrazy (word tokenization)
4. Tokenizacja na zdania (sentence tokenization)
5. Tokenizacja tekstu polskiego
6. Rozne tokenizatory w NLTK -- porownanie
7. Cwiczenia podsumowujace

---
## 1. Instalacja i konfiguracja srodowiska

Google Colab ma juz zainstalowany pakiet NLTK, ale musimy jeszcze pobrac dodatkowe dane, z ktorych korzystaja tokenizatory (tzw. modele i reguly podzialu tekstu). Ponizszy kod to robi automatycznie.

In [1]:
# Instalacja NLTK (na wypadek gdyby nie byl dostepny)
!pip install nltk --quiet

import nltk

# Pobranie danych potrzebnych do tokenizacji
# 'punkt_tab' to zestaw regul, dzieki ktorym NLTK wie,
# gdzie konczy sie jedno zdanie i zaczyna kolejne
nltk.download('punkt_tab', quiet=True)

print(f"Wersja NLTK: {nltk.__version__}")
print("Srodowisko gotowe do pracy.")

Wersja NLTK: 3.9.1
Srodowisko gotowe do pracy.


**Co sie wlasnie stalo?**

- `pip install nltk` -- instaluje biblioteke (w Colab jest juz obecna, ale komenda nie zaszkodzi).
- `nltk.download('punkt_tab')` -- pobiera dane treningowe dla tokenizatora Punkt. To zestaw regul stworzony na podstawie analizy duzych ilosci tekstu. Dzieki niemu NLTK wie na przyklad, ze kropka po "dr" nie konczy zdania, ale kropka po "domu" -- juz tak.

---
## 2. Czym jest tokenizacja?

### Definicja

**Tokenizacja** (ang. *tokenization*) to proces dzielenia tekstu na mniejsze jednostki zwane **tokenami** (ang. *tokens*). Token to najmniejszy fragment tekstu, ktory ma znaczenie w danym kontekscie -- moze to byc pojedynczy wyraz, znak interpunkcyjny, liczba, a nawet czesc wyrazu.

### Dlaczego to jest potrzebne?

Komputer nie czyta tekstu tak jak czlowiek. Dla komputera tekst to po prostu ciag znakow (liter, spacji, kropek). Zeby moc cos z tym tekstem zrobic -- policzyc wyrazy, znalezc najczesciej uzywane slowa, przetlumaczyc zdanie -- komputer musi najpierw wiedziec, gdzie zaczyna sie i konczy kazdy wyraz i kazde zdanie.

Tokenizacja to pierwszy krok w niemal kazdym procesie przetwarzania jezyka naturalnego (NLP -- Natural Language Processing).

### Analogia

Wyobraz sobie, ze dostajesz tekst zapisany bez spacji: `Alamakotakotmalape`. Zanim bedziesz mogl zrozumiec to zdanie, musisz je podzielic na wyrazy: `Ala ma kota kot ma lape`. Tokenizacja robi dokladnie to samo, tyle ze w sposob zautomatyzowany i z uwzglednieniem skomplikowanych regul jezykowych.

### Cwiczenie na kartce (offline)

Zanim przejdziemy do kodu, sprobuj recznie wykonac tokenizacje. Wez kartke i dlugopis.

**Zadanie:** Podziel ponizsze zdanie na tokeny (wyrazy i znaki interpunkcyjne) -- zapisz kazdy token osobno, np. w ramce lub krazku:

> Dr. Smith bought 3 books for $12.99 each.

Pytania do przemyslenia:
- Czy `Dr.` to jeden token, czy dwa (`Dr` + `.`)?
- Czy `$12.99` to jeden token, czy kilka?
- Ile tokenow w sumie naliczylas/naliczylesz?

Zapisz swoje odpowiedzi -- za chwile porownamy je z wynikiem komputera.

---

## 3. Tokenizacja na wyrazy (Word Tokenization)

### Czym jest token wyrazowy?

**Token wyrazowy** to najczesciej pojedynczy wyraz lub znak interpunkcyjny wyodrebniony z tekstu. Funkcja `word_tokenize()` w NLTK dzieli tekst na takie jednostki.

Wazne: tokenizacja to nie to samo co zwykle dzielenie po spacjach (metoda `split()`). Tokenizator uwzglednia reguly jezykowe -- wie na przyklad, ze `don't` w angielskim to tak naprawde dwa tokeny: `do` + `n't`.

### 3.1 Pierwszy przyklad -- tekst angielski

In [2]:
from nltk.tokenize import word_tokenize

# Prosty tekst angielski
english_text = "The cat sat on the mat. It didn't move at all."

# Tokenizacja na wyrazy
english_tokens = word_tokenize(english_text)

print("Tekst zrodlowy:")
print(english_text)
print()
print("Tokeny:")
print(english_tokens)
print()
print(f"Liczba tokenow: {len(english_tokens)}")

Tekst zrodlowy:
The cat sat on the mat. It didn't move at all.

Tokeny:
['The', 'cat', 'sat', 'on', 'the', 'mat', '.', 'It', 'did', "n't", 'move', 'at', 'all', '.']

Liczba tokenow: 14


**Analiza wyniku:**

Zwroc uwage na kilka rzeczy:
- Kropki (`.`) zostaly wyodrebnione jako osobne tokeny.
- Slowo `didn't` zostalo podzielone na `did` i `n't` -- to jest poprawne z punktu widzenia gramatyki angielskiej, bo `didn't` = `did not`.
- Kazdy wyraz to osobny element listy.

### Porownanie z naiwnym podejsciem

Zobaczmy, co by sie stalo, gdybysmy uzyliPythonowej metody `split()` zamiast tokenizatora:

In [3]:
# Porownanie: split() vs word_tokenize()
english_text = "The cat sat on the mat. It didn't move at all."

naive_split = english_text.split()
nltk_tokens = word_tokenize(english_text)

print("Metoda split() -- dzielenie po spacjach:")
print(naive_split)
print(f"Liczba elementow: {len(naive_split)}")
print()
print("Metoda word_tokenize() -- tokenizacja NLTK:")
print(nltk_tokens)
print(f"Liczba tokenow: {len(nltk_tokens)}")

Metoda split() -- dzielenie po spacjach:
['The', 'cat', 'sat', 'on', 'the', 'mat.', 'It', "didn't", 'move', 'at', 'all.']
Liczba elementow: 11

Metoda word_tokenize() -- tokenizacja NLTK:
['The', 'cat', 'sat', 'on', 'the', 'mat', '.', 'It', 'did', "n't", 'move', 'at', 'all', '.']
Liczba tokenow: 14


**Roznice:**

- `split()` zostawia `mat.` i `all.` jako jeden element -- kropka jest przyklejona do wyrazu.
- `split()` nie rozdziela `didn't` na czesci skladowe.
- `word_tokenize()` traktuje znaki interpunkcyjne jako osobne tokeny, co jest istotne przy dalszej analizie tekstu.

To jest wlasnie powod, dla ktorego uzywamy wyspecjalizowanych narzedzi zamiast prostego dzielenia po spacjach.

### 3.2 Bardziej zlozone przypadki

In [4]:
# Tekst z roznego rodzaju trudnymi przypadkami
complex_text = "Dr. Smith bought 3 books for $12.99 each. He's happy!"

complex_tokens = word_tokenize(complex_text)

print("Tekst zrodlowy:")
print(complex_text)
print()
print("Tokeny:")
print(complex_tokens)
print()

# Wyswietlmy tokeny z ich indeksami, zeby lepiej bylo widac
print("Tokeny z numeracja:")
for index, token in enumerate(complex_tokens):
    print(f"  [{index}] '{token}'")

Tekst zrodlowy:
Dr. Smith bought 3 books for $12.99 each. He's happy!

Tokeny:
['Dr.', 'Smith', 'bought', '3', 'books', 'for', '$', '12.99', 'each', '.', 'He', "'s", 'happy', '!']

Tokeny z numeracja:
  [0] 'Dr.'
  [1] 'Smith'
  [2] 'bought'
  [3] '3'
  [4] 'books'
  [5] 'for'
  [6] '$'
  [7] '12.99'
  [8] 'each'
  [9] '.'
  [10] 'He'
  [11] ''s'
  [12] 'happy'
  [13] '!'


**Co warto zauwazyc:**

- `Dr.` -- tokenizator wie, ze to skrot i nie traktuje kropki jako konca zdania.
- `$` -- symbol waluty jest osobnym tokenem.
- `12.99` -- liczba dziesietna pozostaje jako jeden token (kropka nie jest tu koncowym znakiem zdania).
- `He's` -- zostaje podzielone na `He` i `'s`, co odzwierciedla gramatyke (`He is` lub `He has`).
- `!` -- wykrzyknik to osobny token.

Wrocmy teraz do cwiczenia na kartce -- porownaj swoje odpowiedzi z wynikiem powyzej. Ile tokenow sie zgadzalo?

### Cwiczenia do samodzielnego wykonania

**Cwiczenie 3.1:** Stokenizuj ponizsze zdanie i policz, ile tokenow uzyskasz. Zanim uruchomisz kod, sprobuj zgadnac wynik.

```
I've been working at OpenAI since Jan. 2020, and it's been great!
```

**Cwiczenie 3.2:** Napisz kod, ktory przyjmie dowolny tekst od uzytkownika (mozesz uzyc zmiennej ze stringiem), stokenizuje go, a nastepnie wyswietli tokeny ponumerowane od 1 (nie od 0).

**Cwiczenie 3.3:** Porownaj wyniki `split()` i `word_tokenize()` dla zdania: `"Mrs. O'Brien can't believe it's 3:45 p.m. already!"`. Zapisz na kartce, ile tokenow przewidujesz w kazdej metodzie, a potem sprawdz kodem.

In [5]:
# Miejsce na Cwiczenie 3.1
# Wpisz swoj kod ponizej:



In [6]:
# Miejsce na Cwiczenie 3.2
# Wpisz swoj kod ponizej:



In [7]:
# Miejsce na Cwiczenie 3.3
# Wpisz swoj kod ponizej:



---
## 4. Tokenizacja na zdania (Sentence Tokenization)

### Definicja

**Tokenizacja na zdania** (ang. *sentence tokenization* lub *sentence segmentation*) to podzial tekstu na poszczegolne zdania. Moze sie to wydawac proste -- wystarczy dzielic po kropkach, prawda? Nie do konca.

Kropka pelni w tekscie wiele funkcji:
- konczy zdanie ("Kot spi.")
- jest czescia skrotu ("dr.", "prof.", "Jan.")
- jest czescia liczby ("3.14")
- jest czescia adresu URL ("www.google.com")
- jest czescia adresu email ("jan@firma.pl")

Tokenizator `sent_tokenize()` w NLTK radzi sobie z wiekszocia tych przypadkow.

In [8]:
from nltk.tokenize import sent_tokenize

# Tekst angielski z kilkoma zdaniami
english_paragraph = (
    "Dr. Smith went to Washington. He arrived on Jan. 5th. "
    "The meeting was scheduled for 3 p.m. and lasted two hours. "
    "It was a productive day! Was it worth the trip? Absolutely."
)

english_sentences = sent_tokenize(english_paragraph)

print("Tekst zrodlowy:")
print(english_paragraph)
print()
print(f"Liczba wyodrenionych zdan: {len(english_sentences)}")
print()
print("Poszczegolne zdania:")
for i, sentence in enumerate(english_sentences, start=1):
    print(f"  Zdanie {i}: {sentence}")

Tekst zrodlowy:
Dr. Smith went to Washington. He arrived on Jan. 5th. The meeting was scheduled for 3 p.m. and lasted two hours. It was a productive day! Was it worth the trip? Absolutely.

Liczba wyodrenionych zdan: 6

Poszczegolne zdania:
  Zdanie 1: Dr. Smith went to Washington.
  Zdanie 2: He arrived on Jan. 5th.
  Zdanie 3: The meeting was scheduled for 3 p.m. and lasted two hours.
  Zdanie 4: It was a productive day!
  Zdanie 5: Was it worth the trip?
  Zdanie 6: Absolutely.


**Analiza wyniku:**

- `Dr.` -- tokenizator nie podzielil zdania po tej kropce, bo rozpoznal skrot.
- `Jan.` -- podobnie, skrot miesiaca nie spowodowal podzialu.
- `p.m.` -- skrot czasu rowniez jest rozpoznawany.
- `!` i `?` -- poprawnie rozpoznane jako koniec zdania.

Tokenizator Punkt (uzywany domyslnie przez NLTK) zostal wytrenowany na duzych zbiorach tekstu i zna typowe skroty w jezyku angielskim.

### Cwiczenie na kartce (offline)

Wez ponizszy tekst i na kartce zaznacz pionowa kreska (`|`) miejsca, w ktorych tekst powinien byc podzielony na zdania:

> Prof. Kowalski pracowal w USA. Wrócil w 2019 r. i zaczal wykladac na UW. Czy to prawda? Tak, to potwierdzone.

Ile zdan naliczylas/naliczylesz? Ktore kropki sa koncem zdania, a ktore czescia skrotu?

### Łączenie obu typów tokenizacji

W praktyce czesto najpierw dzielimy tekst na zdania, a potem kazde zdanie na wyrazy. To daje nam dwupoziomowa strukture, przydatna w wielu zastosowaniach NLP.

In [9]:
# Laczenie tokenizacji na zdania i na wyrazy
sample_text = (
    "Natural language processing is a fascinating field. "
    "It combines linguistics and computer science. "
    "Many modern applications rely on NLP."
)

sentences = sent_tokenize(sample_text)

print("Dwupoziomowa tokenizacja:")
print("=" * 50)

for i, sentence in enumerate(sentences, start=1):
    tokens = word_tokenize(sentence)
    print(f"\nZdanie {i}: {sentence}")
    print(f"  Tokeny ({len(tokens)}): {tokens}")

Dwupoziomowa tokenizacja:

Zdanie 1: Natural language processing is a fascinating field.
  Tokeny (8): ['Natural', 'language', 'processing', 'is', 'a', 'fascinating', 'field', '.']

Zdanie 2: It combines linguistics and computer science.
  Tokeny (7): ['It', 'combines', 'linguistics', 'and', 'computer', 'science', '.']

Zdanie 3: Many modern applications rely on NLP.
  Tokeny (7): ['Many', 'modern', 'applications', 'rely', 'on', 'NLP', '.']


**Dlaczego to jest przydatne?**

Dzieki takiej strukturze mozemy pozniej np. analizowac kazde zdanie z osobna -- policzyc srednia dlugosc zdania, znalezc najdluzsze zdanie w tekscie, albo przeanalizowac, jakie slowa wystepuja najczesciej w pierwszych zdaniach artykulow.

### Cwiczenia do samodzielnego wykonania

**Cwiczenie 4.1:** Uzyj `sent_tokenize()` na ponizszym tekscie i sprawdz, czy tokenizator poprawnie radzi sobie z wielokropkiem i nawiasami:

```
The experiment failed... Again. The results (see Fig. 2) were inconclusive. We need more data.
```

**Cwiczenie 4.2:** Napisz funkcje `analyze_text(text)`, ktora przyjmuje tekst i wyswietla: liczbe zdan, liczbe tokenow (wyrazow) oraz srednia liczbe tokenow na zdanie.

**Cwiczenie 4.3:** Zastosuj dwupoziomowa tokenizacje do dowolnego akapitu z angielskiej Wikipedii (skopiuj 3-4 zdania). Wyswietl wyniki w czytelnej formie.

In [10]:
# Miejsce na Cwiczenie 4.1
# Wpisz swoj kod ponizej:



In [11]:
# Miejsce na Cwiczenie 4.2
# Wpisz swoj kod ponizej:



In [12]:
# Miejsce na Cwiczenie 4.3
# Wpisz swoj kod ponizej:



---
## 5. Tokenizacja tekstu polskiego

### Specyfika jezyka polskiego

Jezyk polski ma kilka cech, ktore odrozniaja go od angielskiego w kontekscie tokenizacji:

- **Odmiana wyrazow** -- wyraz "dom" moze wystapic jako "domu", "domowi", "domem", "domy" itd. Kazda forma to osobny token, mimo ze chodzi o to samo slowo.
- **Znaki diakrytyczne** -- litery ą, ć, ę, ł, ń, ó, ś, ż, ż. Tokenizator musi je poprawnie obslugiwac.
- **Skroty** -- polskie skroty ("prof.", "dr hab.", "ul.", "r.") roznia sie od angielskich.
- **Brak form sciagnionych** -- w polskim nie mamy odpowiednikow `don't` czy `it's`, wiec ten problem nas nie dotyczy.

NLTK obsluguje jezyk polski -- przy wywolaniu tokenizatora mozemy wskazac jezyk.

In [19]:
# Tokenizacja polskiego tekstu -- wyrazy
polish_text = (
    "Prof. Nowak przyjechała do Wrocławia. "
    "Spotkanie odbyło sie o godz. 14:30 w sali nr 205. "
    "Czy wykład sie odbędzie? Oczywiście!"
)

# Tokenizacja na wyrazy -- wskazujemy jezyk polski
polish_tokens = word_tokenize(polish_text, language='polish')

print("Tekst zrodlowy:")
print(polish_text)
print()
print("Tokeny:")
print(polish_tokens)
print(f"\nLiczba tokenow: {len(polish_tokens)}")

Tekst zrodlowy:
Prof. Nowak przyjechała do Wrocławia. Spotkanie odbyło sie o godz. 14:30 w sali nr 205. Czy wykład sie odbędzie? Oczywiście!

Tokeny:
['Prof.', 'Nowak', 'przyjechała', 'do', 'Wrocławia', '.', 'Spotkanie', 'odbyło', 'sie', 'o', 'godz.', '14:30', 'w', 'sali', 'nr', '205', '.', 'Czy', 'wykład', 'sie', 'odbędzie', '?', 'Oczywiście', '!']

Liczba tokenow: 24


In [21]:
# Tokenizacja polskiego tekstu -- zdania
polish_paragraph = (
    "Dr hab. Jan Kowalski pracował na Politechnice Warszawskiej. "
    "W 2018 r. opublikował 5 artykułów naukowych. "
    "Jeden z nich dotyczy przetwarzania jezyka naturalnego. "
    "Czy to ważny temat? Bez wątpienia."
)

polish_sentences = sent_tokenize(polish_paragraph, language='polish')

print("Tekst zrodlowy:")
print(polish_paragraph)
print()
print(f"Wykryte zdania ({len(polish_sentences)}):")
for i, sent in enumerate(polish_sentences, start=1):
    print(f"  {i}. {sent}")

Tekst zrodlowy:
Dr hab. Jan Kowalski pracował na Politechnice Warszawskiej. W 2018 r. opublikował 5 artykułów naukowych. Jeden z nich dotyczy przetwarzania jezyka naturalnego. Czy to ważny temat? Bez wątpienia.

Wykryte zdania (5):
  1. Dr hab. Jan Kowalski pracował na Politechnice Warszawskiej.
  2. W 2018 r. opublikował 5 artykułów naukowych.
  3. Jeden z nich dotyczy przetwarzania jezyka naturalnego.
  4. Czy to ważny temat?
  5. Bez wątpienia.


**Uwagi:**

- Parametr `language='polish'` informuje tokenizator, ze pracujemy z tekstem polskim. Dzieki temu korzysta z regul wlasciwych dla polszczyzny.
- Tokenizator moze miec problemy z niektorymi polskimi skrotami (np. "dr hab.", "r."). To jest ograniczenie NLTK -- w praktyce warto sprawdzac wyniki i byc swiadomym, ze zadne narzedzie nie jest doskonale.
- Dla zaawansowanego przetwarzania polskiego tekstu istnieja dedykowane narzedzia, np. Stanza lub spaCy z modelem polskim. NLTK to jednak dobry punkt wyjscia.

### Cwiczenie na kartce (offline)

Wez ponizsze zdanie i recznie podziel je na tokeny. Zapisz kazdy token w osobnej ramce:

> Inz. Wisniewska mieszka przy ul. Dlugiej 12/4 w Krakowie.

Pytania:
- Jak potraktowales/potraktowalas "ul."? Czy to jeden token, czy dwa?
- A "12/4"? Jeden token, czy trzy ("12", "/", "4")?
- Jak myslisz, co zrobi z tym NLTK? Sprawdz kodem ponizej.

In [15]:
# Sprawdzenie cwiczenia z kartki
address_text = "Inz. Wisniewska mieszka przy ul. Dlugiej 12/4 w Krakowie."

address_tokens = word_tokenize(address_text, language='polish')

print("Tokeny:")
for i, token in enumerate(address_tokens, start=1):
    print(f"  [{i:2d}] '{token}'")

Tokeny:
  [ 1] 'Inz'
  [ 2] '.'
  [ 3] 'Wisniewska'
  [ 4] 'mieszka'
  [ 5] 'przy'
  [ 6] 'ul.'
  [ 7] 'Dlugiej'
  [ 8] '12/4'
  [ 9] 'w'
  [10] 'Krakowie'
  [11] '.'


### Cwiczenia do samodzielnego wykonania

**Cwiczenie 5.1:** Stokenizuj ponizszy polski tekst na zdania i wyrazy. Wyswietl wyniki w formie dwupoziomowej (jak w rozdziale 4):

```
Warszawa jest stolica Polski. Liczy ok. 1,8 mln mieszkancow. W miescie znajduje sie wiele zabytkow, m.in. Zamek Krolewski i Lazienki.
```

**Cwiczenie 5.2:** Porownaj wyniki tokenizacji tego samego tekstu z parametrem `language='polish'` i bez niego (domyslnie uzyty zostanie angielski). Czy widzisz roznice?

**Cwiczenie 5.3:** Napisz funkcje `count_unique_tokens(text, language)`, ktora zwraca liczbe unikalnych tokenow w tekscie (wskazowka: uzyj `set()`).

In [16]:
# Miejsce na Cwiczenie 5.1
# Wpisz swoj kod ponizej:



In [17]:
# Miejsce na Cwiczenie 5.2
# Wpisz swoj kod ponizej:



In [18]:
# Miejsce na Cwiczenie 5.3
# Wpisz swoj kod ponizej:

