In [None]:
# 토크나이징 

import nltk 
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
text = "This is a sample sentence for tokenization by drwill"

tokens = nltk.word_tokenize(text)
print(tokens)

['This', 'is', 'a', 'sample', 'sentence', 'for', 'tokenization', 'by', 'drwill']


In [None]:
!pip -qqq install konlpy

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m74.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m465.3/465.3 kB[0m [31m44.5 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
from konlpy.tag import *

komoran = Komoran()

In [None]:
text = "한국어 문장을 토크나이징 하는 예제를 보여드립니다. 닥터윌 드림"
tokens = komoran.morphs(text) # 형태소
print(tokens)

['한국어', '문장', '을', '토크', '나', '이징', '하', '는', '예제', '를', '보이', '어', '드리', 'ㅂ니다', '.', '닥터', '위', 'ㄹ', '드림']


In [None]:
print(komoran.nouns(text)) # 명사 추출

['한국어', '문장', '토크', '이징', '예제', '닥터', '위', '드림']


In [None]:
# 단어 사전 (Word Dictionary)

# 단어 사전 생성 
word_dict = {'나는':0, "세싹이":1, "낳은":2, "인공지능":3, "개발자":4, "입니다":5}
sentence = ['나는','개발자','입니다']

In [None]:
# 정수 인코딩 

encoded = [word_dict[token] for token in sentence]
print(encoded) # [0, 4, 5]

[0, 4, 5]


In [None]:
# 정수 디코딩 

decoded = [key for key, value in word_dict.items() if value in encoded]
print(decoded) # ['나는', '개발자', '입니다']

['나는', '개발자', '입니다']


In [None]:
# 패딩 (padding)

import numpy as np

sentences = [
              ['나는','개발자','입니다'],
              ['저는','취준생','입니다'],
              ['이것은','닥터윌이','만든','허접한','예제','입니다']
            ]

In [None]:
# 단어 사전 생성 

word_dict = {' ':0, '나는':1, '개발자':2, '취준생':3, '입니다':4, '저는': 5,
             '이것은':6,'예제':7, '허접한':8, '닥터윌이':9, '만든':10 }

In [None]:
# 정수인코딩 >> 문장을 벡터화 (text >> vector)

# 문장 길이 제한 
max_len = 6

# 행렬 형태로 초기화화
x = np.zeros((len(sentences), max_len))
print(x)

[[0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]]


In [None]:
for i, sentence in enumerate(sentences): 
  for j, word in enumerate(sentence[:max_len]):
    x[i,j] = word_dict[word]

In [None]:
# 패딩(padding)

x = np.pad(x, ((0, 0), (0, max_len - x.shape[1])), 
           'constant', constant_values=word_dict[' '])
# np.pad() 
# x: 패딩 적용할 데이터(배열)
# (0,0) 기준 설정 (위 아래 로 패딩하지 않기 때문에 튜플형태로 (0,0) 으로 설정)
# (0, max_len - x.shape[1]) : 각 차원마다 어떤 패딩을 적용할지 지정하는 튜플

print(x)

[[ 1.  2.  4.  0.  0.  0.]
 [ 5.  3.  4.  0.  0.  0.]
 [ 6.  9. 10.  8.  7.  4.]]


In [None]:
sent=\
[['나는','개발자','입니다'],
['저는','취준생','입니다'],
['이것은','허접한','예제','입니다']]

In [None]:
# 원 핫 인코딩 

# 단어 사전 생성 

word_dict = {'apple': 0, 'banana':1, 'orange':2}

# 입력 텍스트 
text = 'apple orange banana'

In [None]:
text.split()

['apple', 'orange', 'banana']

In [None]:
# 각 단어를 one-hot encoding 수행 

one_hot = []

for word in text.split():
  vector = [0] * len(word_dict)
  vector[word_dict[word]] = 1 
  one_hot.append(vector)

print(one_hot)

[[1, 0, 0], [0, 0, 1], [0, 1, 0]]


In [None]:
# 임베딩 (word2vec)

from gensim.models import Word2Vec

In [None]:
sentences

[['나는', '개발자', '입니다'],
 ['저는', '취준생', '입니다'],
 ['이것은', '닥터윌이', '만든', '허접한', '예제', '입니다']]

In [None]:
model = Word2Vec(sentences, vector_size=4, window=2, min_count=1)

# vector_size : 벡터 차원 
# window : 주변 단어 윈도우 크기 
# min_count : 최소 등장 횟수수

In [None]:
print(model.wv.key_to_index['나는'])

9


In [None]:
print(model.wv.get_vector("나는"))
# vector_size=4 고정했기 때문문

[ 0.20193592 -0.1482724   0.00112906 -0.11884335]
