## Tokenizacja

Tokenizacja - proces przekształacania ciągu znaków lub dokumentu na mniejsze fragmenty nazywane tokenami. 

Tokenami często są pojedyncze słowa, ale nie jest to regułą. W zależności od kontekstu realzowanego zadania za token możemy chcieć przyjąć zdania albo pojedyncze litery. Możemy też stworzyć własne reguły tokenizacji.

Przykłady zastosowania:
- rozbicie słów lub zdań na mniejsze części,
- odseparowanie znaków interpunkcyjnych.
- odseparowanie hashtagów w tweecie
- usuwanie niechcianych tokenów

Tokenizacja stanowi najczęściej jeden z etapów wstępnego przetwarzanie tekstu przygotowującego tekst do dalszego przetwarzania/ustrukturyzowania.

Jedną z częściej wykorzystywanych w pythonie bibliotek do tokenizacji jest [nltk](https://www.nltk.org)

In [None]:
!pip install nltk

In [None]:
import nltk
nltk.download('punkt')

Biblioteka nltk posiada kilka tokenizerów:
- word_tokenizer - wyodrębnia z tekstu słowa (ciągi znaków rozdzielone białymi znakami lub znakami interpunkcyjnym, przy czym znaki interpunkcji traktowane są jako odrębne słowa).
- sent_tokenize - wyodrębnia z tekstu zdania
- regexp_tokenize - wyodrębnia z tekstu tokeny zdefiniowane za pomocą wprowadzonego wyrażenia regularnego
- TweetTokenizer - klasa do wyodrębniania z tekstu tweetów

(you can think of TweetTokenizer as a subset of word_tokenize. TweetTokenizer keeps hashtags intact while word_tokenize doesn't)

In [None]:
print(dir(nltk.tokenize))

#### Wyodrębnianie słów

In [None]:
# importujemy word_tokenize
from nltk.tokenize import word_tokenize

In [None]:
# podstawowe użyce
res = word_tokenize("Hello, world!")
print(res)

#### Wyodrębnianie zdań

In [None]:
# importujemy sent_tokenize
from nltk.tokenize import sent_tokenize

In [None]:
# podstawowe użycie
sentences = "I don't use my uncle's tools anymore. Another sentence in english."

res = sent_tokenize(sentences)
for sentence in res:
    print(sentence)

#### Wyodrębnienie tokena na podstawie wyrażenia regularnego

In [None]:
# importujem regexp_tokenize
from nltk.tokenize import regexp_tokenize

In [None]:
# podstawowe użycie
res1 = regexp_tokenize(sentences, '\w+')  # a-z A-Z 0-9 _
print(res1)

res2 = word_tokenize(sentences)
print(res2)

#### Wyodrębnienie tweeta

In [None]:
# importujem TweetTokenizer
from nltk.tokenize import TweetTokenizer

In [None]:
# podstawowe użycie
tweets = [
    'ready? #vcut',
    'Ohmmmmmmyyyyyyyyggghghhhhhhhgggggggggdhdhsjsixudbslsogbdsisgshdbxidjdbdidhdifjfiri #GRAMMYs #BTS',
]

tknzr = TweetTokenizer()
res = tknzr.tokenize(tweets[1])

all_tokens = [tknzr.tokenize(t) for t in tweets]
print(all_tokens)