# Czyszczenie tekstu przy pomocy bilbioteki NLTK
Biblioteka Natural Language Toolkit (NLTK) to jedna z najpopularniejszych bibliotek do przetwarzania języka naturalnego w Pythonie. Jednym z kluczowych etapów w analizie tekstu jest czyszczenie danych, czyli usuwanie ze zbioru tekstu niepotrzebnych znaków, słów, interpunkcji itp. W tym nagłówku przedstawione zostaną podstawowe funkcjonalności biblioteki NLTK, które umożliwiają przeprowadzenie procesu czyszczenia tekstu.


In [1]:
import nltk

**W jaki sposób można oczyścić tekst w wykorzystując NLTK?** <br>
Biblioteka NLTK posiada dużą ilość tokenizatorów, które pozwalają na podzielenie tekstu na tokeny. Poza tą funkcjonalnością pozwalają również na usunięcie lub zachowanie określonych elementów w tekście, takich jak znaki interpunkcyjne czy numery.

**Przykładowe tokenizatory NLTK:** <br>


*   Tweet Tokenizer
*   Regular-Expression Tokenizers



<br><br>
*Pełna lista tokenizatorów: https://www.nltk.org/api/nltk.tokenize.html*





# TweetTokenizer

Tokenizator zaprojektowany do tokenizacji tweetów. TweetTokenizer jest w stanie radzić sobie z trudnościami, które występują w analizie tweetów, takimi jak skróty, emotikony, hashtagi i adresy URL.

In [2]:
from nltk.tokenize import TweetTokenizer
tekst = "@john: wwwwwwwww This is a cooool #dummysmiley: :-) :-P <3 +48333215665 https://www.nltk.org/ arrows < > -> <-- !!!!!!!"

W celu oczyszczenia przetwarzanego tekstu Tweet Tokenizer wykorzystuje wyrażenia regularne. Parametry Tweet Tokenizer:


*   **preserve_case** – odpowiada czy zachować wielkość liter przy tokenizacji. 
Domyślna wartość True
*   **reduce_len** – odpowiada czy powtarzające się sekwencje o długości 3 lub więcej znaków mają być zastępowane sekwencją o długości 3 znaków. 
Domyśla wartość True
*   **strip_handles** – odpowiada za usuwanie oznaczeń użytkowników (@nazwaUżytkownika). 
Domyślna wartość False
*   **match_phone_numbers** – odpowiada za znajdywanie numerów telefonów w tekscie. 
Domyślna wartość True

<br>
Dla zainteresowanych: 

*   [kod źródłowy Tweet Tokenizer](https://www.nltk.org/_modules/nltk/tokenize/casual.html#TweetTokenizer.__init__)



In [3]:
tknzr1 = TweetTokenizer(preserve_case=False, reduce_len = True, strip_handles=True, match_phone_numbers=False)
tknzr2 = TweetTokenizer()

oczyszczony1 = tknzr1.tokenize(tekst)
oczyszczony2 = tknzr2.tokenize(tekst)

* Pierwszy tekst jest oryginalny i nie posiada żadnych zmian. 
*  W drugim tekscie widać, że zostało usunięte oznaczenie użytkownika, wszystkie duże litery zostały zmienione na małe litery, a sekwencja 9 liter 'w' została skrócona do trzech. 
* Trzeci tekst nie usuwa oznaczeń użytkowników jedynie wyszukuje tekście numery telefonów 

Warto również zauważyć że **reduce_len** automatycznie działa na znaki specjalne i nie ma możliwości wyłączenia tej funkcji z poziomu ustawiania parametru

In [4]:
print(f"1:\t{tekst}\n2:\t{' '.join(oczyszczony1)}\n3:\t{' '.join(oczyszczony2)}")

1:	@john: wwwwwwwww This is a cooool #dummysmiley: :-) :-P <3 +48333215665 https://www.nltk.org/ arrows < > -> <-- !!!!!!!
2:	: www this is a coool #dummysmiley : :-) :-P <3 + 48333215665 https://www.nltk.org/ arrows < > -> <-- ! ! !
3:	@john : wwwwwwwww This is a cooool #dummysmiley : :-) :-P <3 + 4833321566 5 https://www.nltk.org/ arrows < > -> <-- ! ! !


# Regular-Expression Tokenizers

W odróżnieniu od innych tokenizerów, które używają zasad podziału na tokeny opartych na konwencjach językowych, tokenizatory oparte na wyrażeniach regularnych pozwalają na bardziej elastyczne dopasowywanie wzorców tokenów. Dzięki temu, wykorzystując tokenizatory oparte na wyrażeniach regularnych, możemy uzyskać dokładniejszą i bardziej spersonalizowaną tokenizację tekstu

In [5]:
from nltk.tokenize import RegexpTokenizer

tekst = "Good muffins cost $3.88\nin New York.  Please buy me\ntwo of them.\n\nThanks.\n\nNunadsa"

In [6]:
tknzr = RegexpTokenizer(r'\w+|\$[\d\.]+|\S+') 
tknzr.tokenize(tekst)

['Good',
 'muffins',
 'cost',
 '$3.88',
 'in',
 'New',
 'York',
 '.',
 'Please',
 'buy',
 'me',
 'two',
 'of',
 'them',
 '.',
 'Thanks',
 '.',
 'Nunadsa']

Jak można zauwazyć RegexpTokenizer umożliwia zastosowanie spersonalizowanych wyrażeń regularnych. Wykorzystuje on wcześniej poznaną bilbiotekę re. Tokenizer ten umożliwa dostosowanie własnych parametrów takich jak:
* pattern - spersonalizowane wyrażenie regularne
* gaps - odpowiedzialny za znajdowanie separatorów pomiędzy tokenami, w przypadku ustawienia na fałsz spersonalizowane wyrażenie regularne powinno samo znajdować tokeny
* discard_empty - odpowiedzialny za unikanie pustych tokenów ''. Mogą one być generowane tylko wtedy gdy wartość gaps == True
* flags (int) - flagi regexp, które wykorzystuje się do kompilowania spersonalizowanego wyrażenia regularnego: re.UNICODE | re.MULTILINE | re.DOTALL
<br>


Dodatkowo klasa RegexpTokenizer posiada podklasy takie jak:
* WhitespaceTokenizer
* BlanklineTokenizer
* WordPunctTokenizer


**WhitespaceTokenizer** <br>
Podklasa klasy RegexpTokenizer, która przyjmuje następujące parametry klasy nadrzędnej:<br>
**RegexpTokenizer(pattern=r"\s+", gaps=True)**<br>
Tokenizuje łańcuch tekstowy po białych znakach (spacja, tabulacja, nowa linia). Ogólnie rzecz biorąc, użytkownicy powinni zamiast tego używać metody split() dla stringów.

In [7]:
from nltk.tokenize import WhitespaceTokenizer
WhitespaceTokenizer().tokenize(tekst) 

['Good',
 'muffins',
 'cost',
 '$3.88',
 'in',
 'New',
 'York.',
 'Please',
 'buy',
 'me',
 'two',
 'of',
 'them.',
 'Thanks.',
 'Nunadsa']

**WordPunctTokenizer** <br>
Podklasa klasy RegexpTokenizer, która przyjmuje następujące parametry klasy nadrzędnej:<br>
**RegexpTokenizer(r"\w+|[^\w\s]+")**<br>
Tokenizuje tekst na sekwencję znaków alfabetycznych i niealfabetycznych, używając wyrażeń regularnych.

In [8]:
from nltk.tokenize import WordPunctTokenizer
WordPunctTokenizer().tokenize(tekst)

['Good',
 'muffins',
 'cost',
 '$',
 '3',
 '.',
 '88',
 'in',
 'New',
 'York',
 '.',
 'Please',
 'buy',
 'me',
 'two',
 'of',
 'them',
 '.',
 'Thanks',
 '.',
 'Nunadsa']

**BlanklineTokenizer** <br>
Podklasa klasy RegexpTokenizer, która przyjmuje następujące parametry klasy nadrzędnej:<br>
**RegexpTokenizer(r"\s*\n\s*\n\s*", gaps=True)**<br>
Tokenizuje ciąg znaków, traktując dowolny ciąg pustych linii jako separator. Puste linie są definiowane jako linie nie zawierające znaków, z wyjątkiem spacji lub znaków tabulacji.






In [9]:
from nltk.tokenize import BlanklineTokenizer
BlanklineTokenizer().tokenize(tekst)

['Good muffins cost $3.88\nin New York.  Please buy me\ntwo of them.',
 'Thanks.',
 'Nunadsa']

# NISTTokenizer

`NISTTokenizer` to narzędzie do tokenizacji tekstu w języku angielskim, które jest dostępne w bibliotece NLTK. Tokenizacja odbywa się poprzez podział tekstu na pojedyncze słowa, liczby, symbole oraz znaki interpunkcyjne. `NISTTokenizer` jest oparty na regułach tokenizacji opracowanych przez Narodowy Instytut Standaryzacji i Technologii (The National Institute of Standards and Technology.)

In [62]:
from nltk.tokenize.nist import NISTTokenizer
NISTTokenizer().tokenize(tekst)

['Good',
 'muffins',
 'cost',
 '$',
 '3.88',
 'in',
 'New',
 'York',
 '.',
 'Please',
 'buy',
 'me',
 'two',
 'of',
 'them',
 '.',
 'Thanks',
 '.',
 'Nunadsa']

# SyllableTokenizer

`SyllableTokenizer` to klasa z pakietu `nltk.tokenize` w bibliotece Pythona NLTK, służąca do dzielenia tekstu na sylaby. Metoda `tokenize()` klasy `SyllableTokenizer` stosuje heurystyki, takie jak analiza sekwencji spółgłosek i samogłosek, aby podzielić słowa na sylaby. Istnieją jednak słowa, które nie da się podzielić na sylaby zgodnie z regułami fonetycznymi języka angielskiego, co może prowadzić do niepoprawnej tokenizacji.
Używanie `SyllableTokenizer` może być przydatne, gdy chcemy wykonać analizę wiersza lub tekstu poetyckiego, gdzie sylaby są ważne z punktu widzenia rytmu i rymu. Jednakże, ze względu na ograniczenia w sposobie działania, zazwyczaj nie jest to idealne narzędzie do tokenizacji tekstu na poziomie słowa w języku angielskim.

In [68]:
from nltk.tokenize import SyllableTokenizer
print(SyllableTokenizer().tokenize('Bartlomiej Brzek'))
print(SyllableTokenizer().tokenize('Lukasz Lewicki'))

['Bar', 'tlo', 'mie', 'j Br', 'zek']
['Lu', 'kas', 'z ', 'Le', 'wic', 'ki']
