# Jak reprezentować tekst?
## One-hot encoding
### Najprostszym rozwiązaniem jest stworzenie wektora w którym każdy index odpowiada innemu słowu. Przykładowo mając zdanie:
### **Nazywam się Kuba**
### I tworzymy wektor o rozmiarach 1x3, gdzie:
### [1, 0, 0] - Nazywam
### [0, 1, 0] - się
### [0, 0, 1] - Kuba

### Problem polega na tym że jeśli będziemy mieli coraz więcej słów i otrzymamy wektor 1x 1 000 000, coraz ciężej będzie uczyć nasz model ponieważ wejściowy wektor będzie coraz większy. Dodatkowo, nie jesteśmy wstanie przedstawić podobieństwa słów - wszystkie słowa są tak samo podobne.

![picture](https://drive.google.com/uc?id=1GPQ1ezHhv5dWa8VM1GIGJgtaT59Uc6pO)

### Rozwiązaniem tego proglemu jest embedding w którym każdemu słowu przypisujemy odpowiednią wartość całkowitą, a następnie rzutujemy ten wektor na przestrzeń wektorową. Taka przestrzeń może mieć wiele wymiarów np. 2 3 ... 768 itp. Bazy wektorowe Pinecone i Open AI mają po 768 - 1536 wymiarów.

### **Nazywam się Kuba**
### I tworzymy wektor o rozmiarach 1x3 - [50, 23, 3], gdzie:
### 50 - [0.3, -0.5] - Nazywam
### 23 - [1.2, -0.7] - się
###  3 -  [-2.1, 0.9] - Kuba

### **Nazywam się Kuba - [[0.3, -0.5], [1.2, -0.7], [-2.1, 0.9]]** - przykład wektora dla przestrzeni dwuwymiarowej
![picture](https://drive.google.com/uc?id=1w1vKIUeS8I2VwqBhWRvNmt9EK7mw_QOl)
### Dzięki temu że możemy reprezentować włowa w przestrzeni wketorowej możemy odkreślić jakie słowa są do siebie podone - są blisko siebie, lub niepobodne - znajdują się daleko od siebie. Większa ilość wymirarów może pomóc w dokładniejszej określaniu podobieństwa słów. Te odległości są określane w procesie uczenia.
![picture](https://drive.google.com/uc?id=1LCropc1IZ8QnYfKA3Os88zae7vDQiFiT)
### Tak wygląda przykładowa architektura.
![picture](https://drive.google.com/uc?id=1cjk0tFy5p4AiXIAsUa-VBXrXzIEILuxc)
### Reprezentacja zamiany słow na wektory:
![picture](https://drive.google.com/uc?id=1u46ddZUQKBkD6rSJOn2Y5LKHsdtkCiEE)


In [2]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [3]:
sentences = [
    'I like eggs and ham.',
    'I love chocolate and bunnies.',
    'I hate onions.'
]

In [4]:
MAX_VOCAB_SIZE = 20000
tokenizer = Tokenizer(num_words=MAX_VOCAB_SIZE)
tokenizer.fit_on_texts(sentences)
sequences = tokenizer.texts_to_sequences(sentences)

In [5]:
print(sequences) # jeśli maksymalna ilość to 20000 to długość uslatana jest przez najdłuższy wyraz

[[1, 3, 4, 2, 5], [1, 6, 7, 2, 8], [1, 9, 10]]


In [6]:
tokenizer.word_index

{'i': 1,
 'and': 2,
 'like': 3,
 'eggs': 4,
 'ham': 5,
 'love': 6,
 'chocolate': 7,
 'bunnies': 8,
 'hate': 9,
 'onions': 10}

In [9]:
data = pad_sequences(sequences)
print(data) # uzupełnienie pustych miejsc zerami żeby wszystkie wektory były równej długości

[[ 1  3  4  2  5]
 [ 1  6  7  2  8]
 [ 0  0  1  9 10]]


In [10]:
MAX_SEQUENCE_LENGTH = 5
data = pad_sequences(sequences, maxlen=MAX_SEQUENCE_LENGTH)
print(data)

[[ 1  3  4  2  5]
 [ 1  6  7  2  8]
 [ 0  0  1  9 10]]


In [12]:
data = pad_sequences(sequences, maxlen=MAX_SEQUENCE_LENGTH, padding = 'post')
print(data)

[[ 1  3  4  2  5]
 [ 1  6  7  2  8]
 [ 1  9 10  0  0]]


In [14]:
data = pad_sequences(sequences, maxlen=6)
print(data)

[[ 0  1  3  4  2  5]
 [ 0  1  6  7  2  8]
 [ 0  0  0  1  9 10]]


In [15]:
data = pad_sequences(sequences, maxlen=4)
print(data)

[[ 3  4  2  5]
 [ 6  7  2  8]
 [ 0  1  9 10]]


In [18]:
data = pad_sequences(sequences, maxlen=4, truncating = 'post')
print(data)

[[ 1  3  4  2]
 [ 1  6  7  2]
 [ 0  1  9 10]]
