## Tokenizacja

Tokenizacja - proces przekształacania ciągu znaków lub dokumentu na mniejsze fragmenty nazywane tokenami. 

Tokenami często są pojedyncze słowa, ale nie jest to regułą. W zależności od kontekstu realzowanego zadania za token możemy chcieć przyjąć zdania albo pojedyncze litery. Możemy też stworzyć własne reguły tokenizacji.

Przykłady zastosowania:
- rozbicie słów lub zdań na mniejsze części,
- odseparowanie znaków interpunkcyjnych.
- odseparowanie hashtagów w tweecie
- usuwanie niechcianych tokenów

Tokenizacja stanowi najczęściej jeden z etapów wstępnego przetwarzanie tekstu przygotowującego tekst do dalszego przetwarzania/ustrukturyzowania.

Jedną z częściej wykorzystywanych w pythonie bibliotek do tokenizacji jest [nltk](https://www.nltk.org)

In [1]:
!pip install nltk

Collecting nltk
  Using cached nltk-3.8.1-py3-none-any.whl (1.5 MB)
Collecting click
  Using cached click-8.1.5-py3-none-any.whl (98 kB)
Collecting regex>=2021.8.3
  Using cached regex-2023.6.3-cp311-cp311-win_amd64.whl (268 kB)
Collecting tqdm
  Using cached tqdm-4.65.0-py3-none-any.whl (77 kB)
Installing collected packages: tqdm, regex, click, nltk
Successfully installed click-8.1.5 nltk-3.8.1 regex-2023.6.3 tqdm-4.65.0



[notice] A new release of pip available: 22.3.1 -> 23.1.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [2]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

Biblioteka nltk posiada kilka tokenizerów:
- word_tokenizer - wyodrębnia z tekstu słowa (ciągi znaków rozdzielone białymi znakami lub znakami interpunkcyjnym, przy czym znaki interpunkcji traktowane są jako odrębne słowa).
- sent_tokenize - wyodrębnia z tekstu zdania
- regexp_tokenize - wyodrębnia z tekstu tokeny zdefiniowane za pomocą wprowadzonego wyrażenia regularnego
- TweetTokenizer - klasa do wyodrębniania z tekstu tweetów

(you can think of TweetTokenizer as a subset of word_tokenize. TweetTokenizer keeps hashtags intact while word_tokenize doesn't)

In [3]:
print(dir(nltk.tokenize))

['BlanklineTokenizer', 'LegalitySyllableTokenizer', 'LineTokenizer', 'MWETokenizer', 'NLTKWordTokenizer', 'PunktSentenceTokenizer', 'RegexpTokenizer', 'ReppTokenizer', 'SExprTokenizer', 'SpaceTokenizer', 'StanfordSegmenter', 'SyllableTokenizer', 'TabTokenizer', 'TextTilingTokenizer', 'ToktokTokenizer', 'TreebankWordDetokenizer', 'TreebankWordTokenizer', 'TweetTokenizer', 'WhitespaceTokenizer', 'WordPunctTokenizer', '__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__path__', '__spec__', '_treebank_word_tokenizer', 'api', 'blankline_tokenize', 'casual', 'casual_tokenize', 'destructive', 'legality_principle', 'line_tokenize', 'load', 'mwe', 'punkt', 're', 'regexp', 'regexp_span_tokenize', 'regexp_tokenize', 'repp', 'sent_tokenize', 'sexpr', 'sexpr_tokenize', 'simple', 'sonority_sequencing', 'stanford_segmenter', 'string_span_tokenize', 'texttiling', 'toktok', 'treebank', 'util', 'word_tokenize', 'wordpunct_tokenize']


#### Wyodrębnianie słów

In [4]:
# importujemy word_tokenize
from nltk.tokenize import word_tokenize

In [7]:
# podstawowe użyce
res = word_tokenize("Hello, world!")
print(res)

['Hello', ',', 'world', '!']


#### Wyodrębnianie zdań

In [8]:
# importujemy sent_tokenize
from nltk.tokenize import sent_tokenize

In [9]:
# podstawowe użycie
sentences = "I don't use my uncle's tools anymore. Another sentence in english."

res = sent_tokenize(sentences)
for sentence in res:
    print(sentence)

I don't use my uncle's tools anymore.
Another sentence in english.


#### Wyodrębnienie tokena na podstawie wyrażenia regularnego

In [10]:
# importujem regexp_tokenize
from nltk.tokenize import regexp_tokenize

In [15]:
# podstawowe użycie
res1 = regexp_tokenize(sentences, '\w+')  # a-z A-Z 0-9 _
print(res1)

res2 = word_tokenize(sentences)
print(res2)

['I', 'don', 't', 'use', 'my', 'uncle', 's', 'tools', 'anymore', 'Another', 'sentence', 'in', 'english']
['I', 'do', "n't", 'use', 'my', 'uncle', "'s", 'tools', 'anymore', '.', 'Another', 'sentence', 'in', 'english', '.']


#### Wyodrębnienie tweeta

In [17]:
# importujem TweetTokenizer
from nltk.tokenize import TweetTokenizer

In [19]:
# podstawowe użycie
tweets = [
    'ready? #vcut',
    'Ohmmmmmmyyyyyyyyggghghhhhhhhgggggggggdhdhsjsixudbslsogbdsisgshdbxidjdbdidhdifjfiri #GRAMMYs #BTS',
]

tknzr = TweetTokenizer()
res = tknzr.tokenize(tweets[1])

all_tokens = [tknzr.tokenize(t) for t in tweets]
print(all_tokens)

[['ready', '?', '#vcut'], ['Ohmmmmmmyyyyyyyyggghghhhhhhhgggggggggdhdhsjsixudbslsogbdsisgshdbxidjdbdidhdifjfiri', '#GRAMMYs', '#BTS']]
