<a href="https://colab.research.google.com/github/KamilBienias/data-science/blob/main/kursPawe%C5%82Krakowiak/neural-network-course/07_rnn/01_text_preprocessing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Preprocessing danych tekstowch - wektoryzacja tekstu

1. [Podział tekstu na słowa](#a0)
2. [Kodowanie *one_hot()*](#a1)
3. [Kodowanie *hashing_trick()*](#a2)
4. [Tokenizer](#a3)

Nie możemy wprowadzić bezpośrednio danych tekstowych do sieci neuronowej! Musimy te dane odpowiednio przygotować (preprocessing). Dane tekstowe muszą zostać zakodowane za pomocą liczb aby mogły być wprowadzone do sieci neuronowej. 

Biblioteka Keras zawiera kilka narzędzi, które możemy wykorzystać do przygotowania naszych danych. 

### <a name='a0'></a> Podział tekstu na słowa

Często w NLP - Natural Language Processing używamy słowa token. Tokenem może być pojedyńczy znak, a także cały wyraz. Wsystko zależy od kontekstu i potrzeb. Apy podzielić tekst na tokeny (w tym przypadku wyrazy) użyjemy funkcji *text_to_word_sequence()*

In [1]:
# ######################################################
# Etap 11. Odcinek: Praca z tekstem - wektoryzacja.

%tensorflow_version 2.x
from tensorflow.keras.preprocessing.text import text_to_word_sequence

text = 'Keras is a high-level neural networks API, written in Python and capable of running on top of TensorFlow, CNTK, or Theano.'

# zamienia duże na małe litery, pomija znaki interpunkcyjne
tokens = text_to_word_sequence(text)
tokens

['keras',
 'is',
 'a',
 'high',
 'level',
 'neural',
 'networks',
 'api',
 'written',
 'in',
 'python',
 'and',
 'capable',
 'of',
 'running',
 'on',
 'top',
 'of',
 'tensorflow',
 'cntk',
 'or',
 'theano']

### <a name='a1'></a> Kodowanie *one_hot()*

Nazwa sugeruje, że tworzymy kodowanie zero-jednykowe dokumentu, co nie jest prawdą. Polega na przedstawieniu każdego słowa jako unikalnej liczby całkowitej. *one_hot(text, n)* koduje tekst do listy indeksów słów o rozmiarze n. Jest to opakowanie funkcji hashing_trick używającej hash jako funkcji hashującej. 

Jednoznaczność mapowania słów na indeksy nie jest gwarantowana.  Zastosowanie funkcji hashującej może powodować kolizje i nie wszystkim słowom zostaną przypisane unikalne wartości całkowite.

Oprócz tekstu należy podać rozmiar słownika. Może to być łączna liczba słów w dokumencie lub więcej, jeśli zamierzamy zakodować dodatkowe dokumenty zawierające dodatkowe słowa.

 Rozmiar słownika określa przestrzeń hashująca, z której słowa są hashowane. Najlepiej byłoby, gdyby był on większy niż słownik o pewien procent (np. 25%), aby zminimalizować liczbę kolizji. 

In [3]:
hash('sieć')

-4252116340759207180

In [4]:
# dzielenie modulo 100 czyli reszta z dzielenia przez 100.
# Ta liczba może stanowić indeks naszego słowa
hash('sieć') % 100

20

In [5]:
hash('neuronowa')

994319659138035343

In [7]:
hash('neuronowa') % 100

43

In [6]:
# hash zawsze zwraca tą samą wartość dla tego samego elementu
hash('sieć')

-4252116340759207180

In [9]:
from tensorflow.keras.preprocessing.text import one_hot

# weźmy unikalne słowa z listy tokenów (miała 22 elementy) do zbioru words
words = set(tokens)
print(words)
print(type(words))
# zwiększa rozmiar o 30% w stosunku do unikalnych słów
one_hot_tokens = one_hot(text, round(len(words) * 1.3))
print(one_hot_tokens)

{'keras', 'tensorflow', 'running', 'and', 'python', 'written', 'top', 'networks', 'level', 'neural', 'on', 'of', 'or', 'a', 'theano', 'in', 'api', 'capable', 'cntk', 'high', 'is'}
<class 'set'>
[23, 20, 23, 10, 3, 19, 8, 15, 7, 26, 24, 16, 15, 3, 10, 9, 17, 3, 26, 19, 19, 9]


### <a name='a2'></a> Kodowanie *hashing_trick()*

In [11]:
from tensorflow.keras.preprocessing.text import hashing_trick

hashing_trick(text, round(len(words) * 1.3), hash_function='md5')

[7,
 20,
 22,
 24,
 20,
 14,
 19,
 11,
 10,
 4,
 4,
 15,
 19,
 15,
 18,
 23,
 14,
 15,
 5,
 20,
 2,
 8]

### <a name='a3'></a> Tokenizer
Keras dostarcza klasę Tokenizer do przygotowywania dokumentów tekstowych do uczenia głębokiego. 

Klasa *Tokenizer* pozwala zamienić każdy tekst na sekwencję liczb całkowitych w taki sposób, że każda liczba całkowita jest indeksem tokenu w słowniku. Tokenem zazwyczaj jest pojedyncze słowo. Zero jest zarezerwowanym ideksem i nie może zostać przypisane do żadnego słowa.

In [13]:
# ######################################################
# Etap 11. Odcinek: Praca z tekstem - tokenizacja.

from tensorflow.keras.preprocessing.text import Tokenizer

# num_words - zachowana zostanie określona liczba słów ze względu na częstotliwość
tokenizer = Tokenizer()

In [14]:
# dokumnenty, którymi jest przykład zbiór komentarzy pod zdjęciami na fb
samples = ['Great picture!', 'Nice view', 'Good to see you :)', 'Good picture!', 'Good']

# dopasowanie tokenizera na tych dokumentach
tokenizer.fit_on_texts(samples)

tokenizer.index_word

{1: 'good',
 2: 'picture',
 3: 'great',
 4: 'nice',
 5: 'view',
 6: 'to',
 7: 'see',
 8: 'you'}

In [15]:
# uporządkowany słownik pokazujący liczebność słowa w naszych próbkach
tokenizer.word_counts

OrderedDict([('great', 1),
             ('picture', 2),
             ('nice', 1),
             ('view', 1),
             ('good', 3),
             ('to', 1),
             ('see', 1),
             ('you', 1)])

In [16]:
# liczy ilość wszystkich dokumentów
tokenizer.document_count

5

Po dopasowaniu Tokenizera do danych treningowych można go użyć do kodowania dokumentów danych treningowych jak i danych testowych.

Funkcja *texts_to_matrix()* tworzy wektor dla każdego dokumentu. Długość wektora jest równa długości unikalnych słów we wszystkich dokumentach

In [17]:
print(tokenizer.index_word)

{1: 'good', 2: 'picture', 3: 'great', 4: 'nice', 5: 'view', 6: 'to', 7: 'see', 8: 'you'}


In [18]:
# macierz składająca się z wektorów długości. Każdy wektor długości, którą jest ilość
# unikalnych słów we wszystkich dokumentach. Wartości w pierwszej kolumnie tej macierzy
# zawsze będą zerami bo zero nie może być zarezerwowane do żadnego słowa. 
# Druga kolumna to słowo 'good' bo ono najczęściej się pojawiało (w recenzjach trzeciej, czwartej i piątej
# dlatego tam są jedynki). 
# Trzecia kolumna to słowo 'picture', które było w dokumentach pierwszym i czwartym
tokenizer.texts_to_matrix(samples)

array([[0., 0., 1., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 1., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 1., 1., 1.],
       [0., 1., 1., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0.]])