# Analiza tekstu - Tokenizacja

**Tokenizacja** - proces przekształacania ciągu znaków lub dokumentu na mniejsze fragmenty nazywane tokenami. 

Tokenami często są pojedyncze słowa, ale nie jest to regułą. W zależności od kontekstu realizowanego zadania za token możemy chcieć przyjąć zdania albo pojedyncze litery. Możemy też stworzyć własne reguły tokenizacji.

**Przykłady zastosowania:**
- rozbicie słów lub zdań na mniejsze części,
- odseparowanie znaków interpunkcyjnych.
- odseparowanie hashtagów w tweecie
- usuwanie niechcianych tokenów

Tokenizacja stanowi najczęściej jeden z etapów wstępnego przetwarzanie tekstu przygotowującego tekst do dalszego przetwarzania/ustrukturyzowania. Jedną z częściej wykorzystywanych w pythonie bibliotek do tokenizacji jest [NLTK](https://www.nltk.org)

In [1]:
#!pip install nltk
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /home/mdabrowski-
[nltk_data]     phd/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

**Biblioteka NLTK posiada kilka tokenizerów:**
- `word_tokenize` - wyodrębnia z tekstu słowa (ciągi znaków rozdzielone białymi znakami lub znakami interpunkcyjnym, przy czym znaki interpunkcji traktowane są jako odrębne słowa).
- `sent_tokenize` - wyodrębnia z tekstu zdania
- `regexp_tokenize` - wyodrębnia z tekstu tokeny zdefiniowane za pomocą wprowadzonego wyrażenia regularnego
- `TweetTokenizer` - klasa do wyodrębniania z tekstu tweetów

*(you can think of `TweetTokenizer` as a subset of `word_tokenize`. `TweetTokenizer` keeps hashtags intact while `word_tokenize` doesn't)*

In [2]:
print(dir(nltk.tokenize))

['BlanklineTokenizer', 'LegalitySyllableTokenizer', 'LineTokenizer', 'MWETokenizer', 'NLTKWordTokenizer', 'PunktSentenceTokenizer', 'RegexpTokenizer', 'ReppTokenizer', 'SExprTokenizer', 'SpaceTokenizer', 'StanfordSegmenter', 'SyllableTokenizer', 'TabTokenizer', 'TextTilingTokenizer', 'ToktokTokenizer', 'TreebankWordDetokenizer', 'TreebankWordTokenizer', 'TweetTokenizer', 'WhitespaceTokenizer', 'WordPunctTokenizer', '__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__path__', '__spec__', '_treebank_word_tokenizer', 'api', 'blankline_tokenize', 'casual', 'casual_tokenize', 'destructive', 'legality_principle', 'line_tokenize', 'load', 'mwe', 'punkt', 're', 'regexp', 'regexp_span_tokenize', 'regexp_tokenize', 'repp', 'sent_tokenize', 'sexpr', 'sexpr_tokenize', 'simple', 'sonority_sequencing', 'stanford_segmenter', 'string_span_tokenize', 'texttiling', 'toktok', 'treebank', 'util', 'word_tokenize', 'wordpunct_tokenize']


## Wyodrębnianie słów

In [3]:
# importujemy word_tokenize
from nltk.tokenize import word_tokenize

In [4]:
# podstawowe użyce
res = word_tokenize("Hello, world!")
print(res)

['Hello', ',', 'world', '!']


## Wyodrębnianie zdań

In [5]:
# importujemy sent_tokenize
from nltk.tokenize import sent_tokenize

In [6]:
# podstawowe użycie
sentences = "I don't use my uncle's tools anymore. Another sentence in english."

res = sent_tokenize(sentences)

for sentence in res:
    print(sentence)

I don't use my uncle's tools anymore.
Another sentence in english.


## Wyodrębnienie tokena na podstawie wyrażenia regularnego

In [7]:
# importujemy regexp_tokenize
from nltk.tokenize import regexp_tokenize

In [11]:
# podstawowe użycie
res1 = regexp_tokenize(sentences, '\w+')  # a-z A-Z 0-9 _
print(res1)

res2 = word_tokenize(sentences)  # inteligentna tokenizacja, uwzględnia fragmenty niosące informacje!
print(res2)

['I', 'don', 't', 'use', 'my', 'uncle', 's', 'tools', 'anymore', 'Another', 'sentence', 'in', 'english']
['I', 'do', "n't", 'use', 'my', 'uncle', "'s", 'tools', 'anymore', '.', 'Another', 'sentence', 'in', 'english', '.']


## Wyodrębnienie tweeta

In [9]:
# importujemy (klasę) TweetTokenizer
from nltk.tokenize import TweetTokenizer

In [12]:
# podstawowe użycie
tweets = [
    'ready? #vcut',
    'Ohmmmmmmyyyyyyyyggghghhhhhhhgggggggggdhdhsjsixudbslsogbdsisgshdbxidjdbdidhdifjfiri #GRAMMYs @BTS',
]

tknzr = TweetTokenizer()

all_tokens = [tknzr.tokenize(t) for t in tweets]
print(all_tokens)

[['ready', '?', '#vcut'], ['Ohmmmmmmyyyyyyyyggghghhhhhhhgggggggggdhdhsjsixudbslsogbdsisgshdbxidjdbdidhdifjfiri', '#GRAMMYs', '@BTS']]
