<a href="https://colab.research.google.com/github/kcw0331/Deeplearning/blob/main/6_1_one_hot_encoding_of_words_or_characters(%EA%B9%80%EC%B0%BD%EC%9A%B0)4%EC%9B%9421%EC%9D%BC.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import tensorflow
tensorflow.keras.__version__

'2.4.0'

# One-hot encoding of words or characters

This notebook contains the first code sample found in Chapter 6, Section 1 of [Deep Learning with Python](https://www.manning.com/books/deep-learning-with-python?a_aid=keras&a_bid=76564dff). Note that the original text features far more content, in particular further explanations and figures: in this notebook, you will only find source code and related comments.

----

One-hot encoding is the most common, most basic way to turn a token into a vector. You already saw it in action in our initial IMDB and 
Reuters examples from chapter 3 (done with words, in our case). It consists in associating a unique integer index to every word, then 
turning this integer index i into a binary vector of size N, the size of the vocabulary, that would be all-zeros except for the i-th 
entry, which would be 1.

Of course, one-hot encoding can be done at the character level as well. To unambiguously drive home what one-hot encoding is and how to 
implement it, here are two toy examples of one-hot encoding: one for words, the other for characters.



Word level one-hot encoding (toy example):

- one hot encoding에 대한 실습을 시작한다.
- one hot encoding은 keras에도 있지만 실제 손으로 직접하게 되면 어떻게 될지에 대해 보게 되는 코드라고 말씀하심.
- 그리고 교수님이 코드에 대한 이해를 돕기 위해서 코드를 잘라서 본다고 하심.

In [None]:
import numpy as np

# This is our initial data; one entry per "sample"
# (in this toy example, a "sample" is just a sentence, but
# it could be an entire document).
samples = ['The cat sat on the mat.', 'The dog ate my homework.']
#samples = ['The cat sat on the mat.'.lower(), 'The dog ate my homework.'.lower()]
# .lower()를 하게되면, The에서 T부분이 소문자 t로바뀌게 되는 것을 볼 수 있다.

In [None]:
samples   

['The cat sat on the mat.', 'The dog ate my homework.']

- samples에는 The cat sat on the mat이랑 The dog ate my homework가 있는다는 것을 알 수 있다. 

In [None]:
token_index = {}
for sample in samples:
    # We simply tokenize the samples via the `split` method.
    # in real life, we would also strip punctuation and special characters
    # from the samples.
    for word in sample.split():
        if word not in token_index:
            # Assign a unique index to each unique word
            token_index[word] = len(token_index) + 1
            # Note that we don't attribute index 0 to anything.

In [None]:
token_index   #이거를 출력하게 되면 The와 the가 구분이 안되는 것을 볼 수 있다. 그래서 위에서 .lower()를 하게 되면 
#The가 the로 바뀌게 되면서 대문자 소문자 구분을 할 수 있게 된다. 

{'The': 1,
 'ate': 8,
 'cat': 2,
 'dog': 7,
 'homework.': 10,
 'mat.': 6,
 'my': 9,
 'on': 4,
 'sat': 3,
 'the': 5}

- 그리고 여기에서는 token_index라는 dictionary를 만든다음에 그리고 token_index를 보게 되면 값이 하나 하나 들어가 있다는 것을 알 수 있다. 

In [None]:
max_length = 10

# This is where we store our results:
results = np.zeros((len(samples), max_length, max(token_index.values()) + 1))
for i, sample in enumerate(samples):
    for j, word in list(enumerate(sample.split()))[:max_length]:
        index = token_index.get(word)
        results[i, j, index] = 1.

In [None]:
results 
#아래 보이는 첫번째 matrix는 The cat sat on the mat에 대한 matrix이다. 
#그리고 두번째 matrix는 the dog ate my homework에 대한 matix이다. 

array([[[0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]],

       [[0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0

- 위에서 token을 추출하고 난 다음에는 results에다가 결과를 집어 넣어 준다. 
- 그래서 one-hot-encoding이 results결과에 보이는 matrix 처럼 결과가 출력된다는 것을 볼 수 있다. 

- 그래서 아래 보이는 코드는 Word level one-hot encoding을 사용할 때 사용하는 방법이다.

In [None]:
import numpy as np

# This is our initial data; one entry per "sample"
# (in this toy example, a "sample" is just a sentence, but
# it could be an entire document).
samples = ['The cat sat on the mat.', 'The dog ate my homework.']

# First, build an index of all tokens in the data.
token_index = {}
for sample in samples:
    # We simply tokenize the samples via the `split` method.
    # in real life, we would also strip punctuation and special characters
    # from the samples.
    for word in sample.split():
        if word not in token_index:
            # Assign a unique index to each unique word
            token_index[word] = len(token_index) + 1
            # Note that we don't attribute index 0 to anything.

# Next, we vectorize our samples.
# We will only consider the first `max_length` words in each sample.
max_length = 10

# This is where we store our results:
results = np.zeros((len(samples), max_length, max(token_index.values()) + 1))
for i, sample in enumerate(samples):
    for j, word in list(enumerate(sample.split()))[:max_length]:
        index = token_index.get(word)
        results[i, j, index] = 1.

Character level one-hot encoding (toy example)

- 이런식으로 저장하면서 하는게 Character level one-hot encoding방식이다.

In [None]:
import string
characters = string.printable  # All printable ASCII characters.

In [None]:
len(characters) #characters가 100개가 있다는 것을 알 수 있다. 

100

In [None]:
import string

samples = ['The cat sat on the mat.', 'The dog ate my homework.']
characters = string.printable  # All printable ASCII characters.
token_index = dict(zip(characters, range(1, len(characters) + 1)))

max_length = 50
results = np.zeros((len(samples), max_length, max(token_index.values()) + 1))
for i, sample in enumerate(samples):
    for j, character in enumerate(sample[:max_length]):
        index = token_index.get(character)
        results[i, j, index] = 1.

In [None]:
token_index.get(character)

76

In [None]:
results   #그래서 results를 하게 되면 100차원의 결과가 나오면 The cat sta on the mat과 The dog ate my homework가 아래 보이는
# matrix부분에 들어가는 것을 볼 수 있다. 

array([[[0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.]],

       [[0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.]]])

Note that Keras has built-in utilities for doing one-hot encoding text at the word level or character level, starting from raw text data. 
This is what you should actually be using, as it will take care of a number of important features, such as stripping special characters 
from strings, or only taking into the top N most common words in your dataset (a common restriction to avoid dealing with very large input 
vector spaces).

Using Keras for word-level one-hot encoding:

- 이 부분은 Using Kearas for word-level one-hot encoding 부분이다.
- 그리고 이 부분에 대한 코드를 설명하기 위해서 코드를 따로 떼어내서 설명을 하신다. 

In [None]:
from tensorflow.keras.preprocessing.text import Tokenizer

samples = ['The cat sat on the mat.', 'The dog ate my homework.']

# We create a tokenizer, configured to only take
# into account the top-1000 most common words
tokenizer = Tokenizer(num_words=1000)  #Tokenizer가 num_words가 1000개정도 할 수 있도록 쓸것이다. 
#가장 빈도가 높은 1,000개의 단어만 선택하도록 Tokenizer 객체를 만든다. 2021년 4월 27일 복습할때 적음.

- 위의 코드에서는 tokenizer를 정의를 한다. 

In [None]:
tokenizer.fit_on_texts(samples)   #이거는 sampeles를 이용해서 tokenizer를 해준다. 
#fit_on_texts()안에 코퍼스를 입력으로 하면 빈도수를 기준으로 단어 집합을 생성한다. 2021년4월27일 복습할때 적음.

In [None]:
sequences = tokenizer.texts_to_sequences(samples)   #texts들이 sequences가 어떻게 되는지 보면 
#.texts_to_sequences <- 이것을 사용해서 텍스트를 시퀀스로 만드는 작업을 한다. 2021년 4월 27일 복습할때 적음.

In [None]:
sequences   #이렇게 sequences가 되는 것을 볼 수 있다. 
#아래 보이는게 첫번째 거는 The cat sat on the mat이 되고, 두번째 거는 The dog ate my homework가 되는 것을 볼 수 있다. 

[[1, 2, 3, 4, 1, 5], [1, 6, 7, 8, 9]]

- 앞에서는 lower()가 자동으로 되지 않았던 것을 볼 수 있었는데, 여기에서는 lower()가 자동으로 되는 것을 볼 수 있다. 
- keras에서는 The와 the를 똑같은 걸로 인식을 하게 된다. 

In [None]:
one_hot_results = tokenizer.texts_to_matrix(samples, mode='binary')
#.texts_to_matrix <- 이것을 사용하여 one-hot-encoding을 사용할 수 있다. 2021년 4월 27일 복습할때 적음.

In [None]:
one_hot_results[0]  
#이걸해주게 되면 The cat sat on the mat가 있는 자리에 1을 하게 되고 없는자리에는 0이 된다.
#그리고 The dog ate my homework가 있는 자리에 1을 하게 되고 없는 자리에는 0이 된다.
#len(one_hot_results[0])를 하게 되면 1000차원이 되는 것을 볼 수 있다. 왜냐하면 위에 있는 이 코드 tokenizer = Tokenizer(num_words=1000)에서 1000을 사용했기 때문이다. 

array([0., 1., 1., 1., 1., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0.

In [None]:
word_index = tokenizer.word_index
print('Found %s unique tokens.' % len(word_index))
#.word_index <- 속성은 단어와 숫자의 키-값 쌍을 포함하는 딕셔너리를 반환합니다. 2021년 4월 27일 복습할때 적음.

Found 9 unique tokens.


In [None]:
word_index  #word_index를 하게 되면 이렇게 되는 것을 볼 수 있다.

{'ate': 7,
 'cat': 2,
 'dog': 6,
 'homework': 9,
 'mat': 5,
 'my': 8,
 'on': 4,
 'sat': 3,
 'the': 1}

In [None]:
from tensorflow.keras.preprocessing.text import Tokenizer

samples = ['The cat sat on the mat.', 'The dog ate my homework.']

# We create a tokenizer, configured to only take
# into account the top-1000 most common words
tokenizer = Tokenizer(num_words=1000)
# This builds the word index
tokenizer.fit_on_texts(samples)

# This turns strings into lists of integer indices.
sequences = tokenizer.texts_to_sequences(samples)

# You could also directly get the one-hot binary representations.
# Note that other vectorization modes than one-hot encoding are supported!
one_hot_results = tokenizer.texts_to_matrix(samples, mode='binary')

# This is how you can recover the word index that was computed
word_index = tokenizer.word_index
print('Found %s unique tokens.' % len(word_index))

Found 9 unique tokens.


- one_hot_results이거를 할 때는 tokenizer = Tokenizer(num_words=1000), tokenizer.fit_on_texts(samples), sequences, tokenizer.texts_to_matrix(samples, mode='binary')이게 들어가야 한다고 말씀하심.
- 사실 tokenizer에는 사용할 수 있는게 많이 있는데 자신에게 맞는거를 찾기 위해서는 구글에서 tokenizer에 대해 많이 찾아 본다음에 자신에게 맞는것을 찾아서 사용하면 된다고 말씀하심.

# 교수님이 keras에 있는 function을 사용하는게 더 좋다고 말씀하심.


A variant of one-hot encoding is the so-called "one-hot hashing trick", which can be used when the number of unique tokens in your 
vocabulary is too large to handle explicitly. Instead of explicitly assigning an index to each word and keeping a reference of these 
indices in a dictionary, one may hash words into vectors of fixed size. This is typically done with a very lightweight hashing function. 
The main advantage of this method is that it does away with maintaining an explicit word index, which 
saves memory and allows online encoding of the data (starting to generate token vectors right away, before having seen all of the available 
data). The one drawback of this method is that it is susceptible to "hash collisions": two different words may end up with the same hash, 
and subsequently any machine learning model looking at these hashes won't be able to tell the difference between these words. The likelihood 
of hash collisions decreases when the dimensionality of the hashing space is much larger than the total number of unique tokens being hashed.

Word-level one-hot encoding with hashing trick (toy example):

- 이거는 hashing trick을 사용하는 방법이다.

In [None]:
samples = ['The cat sat on the mat.', 'The dog ate my homework.']

# We will store our words as vectors of size 1000.
# Note that if you have close to 1000 words (or more)
# you will start seeing many hash collisions, which
# will decrease the accuracy of this encoding method.
dimensionality = 1000
max_length = 10

results = np.zeros((len(samples), max_length, dimensionality))
for i, sample in enumerate(samples):
    for j, word in list(enumerate(sample.split()))[:max_length]:
        # Hash the word into a "random" integer index
        # that is between 0 and 1000
        index = abs(hash(word)) % dimensionality   #여기에서는 hash(word) hash function를 사용해서 1000 dimensionality를 사용해야 한다. index가 0에서 1000사이의 값을 갖도록 해준다. 
        results[i, j, index] = 1.  #그래서 결과가 1000차원이 되도록 해준다. 

- 이거한 다음에 강의 노트 페이지 11로 넘어가서 Using word embeddings에 대해 수업을 진행하심. 