# Preprocessing danych tekstowch - wektoryzacja tekstu

Nie możemy wprowadzić bezpośrednio danych tekstowych do sieci neuronowej! Musimy te dane odpowiednio przygotować (preprocessing). Dane tekstowe muszą zostać zakodowane za pomocą liczb aby mogły być wprowadzone do sieci neuronowej.

Biblioteka Keras zawiera kilka narzędzi, które możemy wykorzystać do przygotowania naszych danych.

# Podział tekstu na słowa
Często w NLP - Natural Language Processing używamy słowa token. Tokenem może być pojedyńczy znak, a także cały wyraz. Wsystko zależy od kontekstu i potrzeb. Apy podzielić tekst na tokeny (w tym przypadku wyrazy) użyjemy funkcji text_to_word_sequence()

In [None]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence

text = 'Keras is a high-level neural networks API, written in Python and capable of running on top of TensorFlow, CNTK, or Theano. I like cats.'

tokens = text_to_word_sequence(text)
tokens

# Kodowanie one_hot()
Nazwa sugeruje, że tworzymy kodowanie zero-jednykowe dokumentu, co nie jest prawdą. Polega na przedstawieniu każdego słowa jako unikalnej liczby całkowitej. one_hot(text, n) koduje tekst do listy indeksów słów o rozmiarze n. Jest to opakowanie funkcji hashing_trick używającej hash jako funkcji hashującej.

Jednoznaczność mapowania słów na indeksy nie jest gwarantowana. Zastosowanie funkcji hashującej może powodować kolizje i nie wszystkim słowom zostaną przypisane unikalne wartości całkowite.

Oprócz tekstu należy podać rozmiar słownika. Może to być łączna liczba słów w dokumencie lub więcej, jeśli zamierzamy zakodować dodatkowe dokumenty zawierające dodatkowe słowa.

Rozmiar słownika określa przestrzeń hashująca, z której słowa są hashowane. Najlepiej byłoby, gdyby był on większy niż słownik o pewien procent (np. 25%), aby zminimalizować liczbę kolizji.

In [None]:
hash('sieć')

In [None]:
hash('sieć') % 100

In [None]:
hash('neuronowa')

In [None]:
hash('sieć')

In [None]:
from tensorflow.keras.preprocessing.text import one_hot

words = set(tokens)
one_hot_tokens = one_hot(text, round(len(words) * 1.3))
one_hot_tokens

# Kodowanie hashing_trick()

In [None]:
from tensorflow.keras.preprocessing.text import hashing_trick

hashing_trick(text, round(len(words) * 1.3), hash_function='md5')

# Tokenizer
Keras dostarcza klasę Tokenizer do przygotowywania dokumentów tekstowych do uczenia głębokiego.

Klasa Tokenizer pozwala zamienić każdy tekst na sekwencję liczb całkowitych w taki sposób, że każda liczba całkowita jest indeksem tokenu w słowniku. Tokenem zazwyczaj jest pojedyncze słowo. Zero jest zarezerwowanym ideksem i nie może zostać przypisane do żadnego słowa.

In [None]:
from tensorflow.keras.preprocessing.text import Tokenizer

# num_words - zachowana zostanie określona liczba słów ze względu na częstotliwość
tokenizer = Tokenizer()

In [None]:
samples = ['Great picture!', 'Nice view', 'Good to see you :)', 'Good picture!', 'Good', "Fantastaic cat!"]

tokenizer.fit_on_texts(samples)

tokenizer.index_word

In [None]:
tokenizer.word_counts

In [None]:
tokenizer.document_count

Po dopasowaniu Tokenizera do danych treningowych można go użyć do kodowania dokumentów danych treningowych jak i danych testowych.

Funkcja texts_to_matrix() tworzy wektor dla każdego dokumentu. Długość wektora jest równa długości unikalnych słów we wszystkich dokumentach

In [None]:
print(tokenizer.index_word)

In [None]:
tokenizer.texts_to_matrix(samples)