<a href="https://colab.research.google.com/github/keinam53/Deep_learning/blob/main/6_Rekurencyjne_Sieci_Neuronowe/1_NLP_preprocessing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Preprocessing danych tekstowch - wektoryzacja tekstu

1. [Podział tekstu na słowa](#a0)
2. [Kodowanie *one_hot()*](#a1)
3. [Kodowanie *hashing_trick()*](#a2)
4. [Tokenizer](#a3)

Nie możemy wprowadzić bezpośrednio danych tekstowych do sieci neuronowej! Musimy te dane odpowiednio przygotować (preprocessing). Dane tekstowe muszą zostać zakodowane za pomocą liczb aby mogły być wprowadzone do sieci neuronowej. 

Biblioteka Keras zawiera kilka narzędzi, które możemy wykorzystać do przygotowania naszych danych.

### <a name='a0'></a> Podział tekstu na słowa

Często w NLP - Natural Language Processing używamy słowa token. Tokenem może być pojedyńczy znak, a także cały wyraz. Wsystko zależy od kontekstu i potrzeb. Aby podzielić tekst na tokeny (w tym przypadku wyrazy) użyjemy funkcji *text_to_word_sequence()*

In [1]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence

text = 'Keras is a high-level neural networks API, written in Python and capable of running on top of TensorFlow, CNTK, or Theano.'

tokens = text_to_word_sequence(text)
tokens

['keras',
 'is',
 'a',
 'high',
 'level',
 'neural',
 'networks',
 'api',
 'written',
 'in',
 'python',
 'and',
 'capable',
 'of',
 'running',
 'on',
 'top',
 'of',
 'tensorflow',
 'cntk',
 'or',
 'theano']

### <a name='a1'></a> Kodowanie *one_hot()*

Nazwa sugeruje, że tworzymy kodowanie zero-jednykowe dokumentu, co nie jest prawdą. Polega na przedstawieniu każdego słowa jako unikalnej liczby całkowitej. *one_hot(text, n)* koduje tekst do listy indeksów słów o rozmiarze n. Jest to opakowanie funkcji hashing_trick używającej hash jako funkcji hashującej. 

Jednoznaczność mapowania słów na indeksy nie jest gwarantowana.  Zastosowanie funkcji hashującej może powodować kolizje i nie wszystkim słowom zostaną przypisane unikalne wartości całkowite.

Oprócz tekstu należy podać rozmiar słownika. Może to być łączna liczba słów w dokumencie lub więcej, jeśli zamierzamy zakodować dodatkowe dokumenty zawierające dodatkowe słowa.

 Rozmiar słownika określa przestrzeń hashująca, z której słowa są hashowane. Najlepiej byłoby, gdyby był on większy niż słownik o pewien procent (np. 25%), aby zminimalizować liczbę kolizji. 

In [2]:
hash('Mariusz')

4554421028388447353

In [3]:
hash('Mariusz') % 100

53

In [4]:
#set - usuwa powtarzające się elementy z listy
set(tokens)

In [5]:
from tensorflow.keras.preprocessing.text import one_hot

words = set(tokens)
one_hot_tokens = one_hot(text, round(len(words) * 1.3))
one_hot_tokens

[2,
 26,
 23,
 12,
 12,
 20,
 20,
 26,
 19,
 15,
 1,
 21,
 23,
 16,
 19,
 9,
 21,
 16,
 5,
 22,
 5,
 25]

### <a name='a2'></a> Kodowanie *hashing_trick()*

In [7]:
from tensorflow.keras.preprocessing.text import hashing_trick

hashing_trick_tokens = hashing_trick(text, round(len(words) * 1.3), hash_function='md5')
hashing_trick_tokens

[7,
 20,
 22,
 24,
 20,
 14,
 19,
 11,
 10,
 4,
 4,
 15,
 19,
 15,
 18,
 23,
 14,
 15,
 5,
 20,
 2,
 8]

### <a name='a3'></a> Tokenizer
Keras dostarcza klasę Tokenizer do przygotowywania dokumentów tekstowych do uczenia głębokiego. 

Klasa *Tokenizer* pozwala zamienić każdy tekst na sekwencję liczb całkowitych w taki sposób, że każda liczba całkowita jest indeksem tokenu w słowniku. Tokenem zazwyczaj jest pojedyncze słowo. Zero jest zarezerwowanym ideksem i nie może zostać przypisane do żadnego słowa.

In [9]:
from tensorflow.keras.preprocessing.text import Tokenizer

tokenizer = Tokenizer()

samples = ['Great picture!', 'Nice view', 'Good to see you :)', 'Good picture!', 'Good']

tokenizer.fit_on_texts(samples)

tokenizer.index_word

{1: 'good',
 2: 'picture',
 3: 'great',
 4: 'nice',
 5: 'view',
 6: 'to',
 7: 'see',
 8: 'you'}

In [11]:
tokenizer.word_counts

OrderedDict([('great', 1),
             ('picture', 2),
             ('nice', 1),
             ('view', 1),
             ('good', 3),
             ('to', 1),
             ('see', 1),
             ('you', 1)])

In [12]:
tokenizer.document_count

5

Po dopasowaniu Tokenizera do danych treningowych można go użyć do kodowania dokumentów danych treningowych jak i danych testowych.

Funkcja *texts_to_matrix()* tworzy wektor dla każdego dokumentu. Długość wektora jest równa długości unikalnych słów we wszystkich dokumentach

In [13]:
print(tokenizer.index_word)

{1: 'good', 2: 'picture', 3: 'great', 4: 'nice', 5: 'view', 6: 'to', 7: 'see', 8: 'you'}


In [15]:
tokenizer.texts_to_matrix(samples)

array([[0., 0., 1., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 1., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 1., 1., 1.],
       [0., 1., 1., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0.]])