In [1]:
# 토크나이징

import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\SBAUser\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [2]:
text = 'This is a sample sentence for tokenization by drwill'

tokens = nltk.word_tokenize(text)
print(tokens)

['This', 'is', 'a', 'sample', 'sentence', 'for', 'tokenization', 'by', 'drwill']


In [5]:
from konlpy.tag import *

komoran = Komoran()

In [8]:
text = '한국어 문장을 토크나이징 하는 예제를 보여드립니다.'

tokens = komoran.morphs(text) # 형태소

print(tokens)

['한국어', '문장', '을', '토크', '나', '이징', '하', '는', '예제', '를', '보이', '어', '드리', 'ㅂ니다', '.']


In [9]:
print(komoran.nouns(text)) # 명사추출

['한국어', '문장', '토크', '이징', '예제']


In [12]:
# 단어 사전(Word Dictionary)

# 단어 사전 생성
word_dict = {'나는' : 0, '세싹이' : 1, '낳은' : 2, '인공지능' : 3, '개발자' : 4, '입니다' : 5}

sentence = ['나는', '개발자', '입니다']


In [13]:
# 정수 인코딩

encoded = [word_dict[token] for token in sentence]
print(encoded)

[0, 4, 5]


In [15]:
# 정수 디코딩

decoded = [key for key, val in word_dict.items() if val in encoded]
print(decoded)

['나는', '개발자', '입니다']


In [35]:
# 패딩(padding)

import numpy as np

sentences = [
                ['나는', '개발자', '입니다'],
                ['저는', '취준생', '입니다'],
                ['이것은', '간단한', '예제', '입니다']   
            ]

In [36]:
# 단어 사전 생성
word_dict = {' ' : 0}
idx = 1
for sent in sentences :
    for word in sent :
        if word not in word_dict.keys() :
            word_dict[word] = idx
            idx += 1
word_dict

{' ': 0,
 '나는': 1,
 '개발자': 2,
 '입니다': 3,
 '저는': 4,
 '취준생': 5,
 '이것은': 6,
 '간단한': 7,
 '예제': 8}

In [42]:
# 정수 인코딩 >> 문장을 벡터화(text >> vector)

# 문장 길이 제한
max_len = 5

x = np.zeros((len(sentences), max_len))

In [43]:
for i, sent in enumerate(sentences) :
    for j, word in enumerate(sent[:max_len]) :
        x[i,j] = word_dict[word]
x

array([[1., 2., 3., 0., 0.],
       [4., 5., 3., 0., 0.],
       [6., 7., 8., 3., 0.]])

In [65]:
# 패딩(padding) 
np.pad(x, ((0,0), (0, max_len - x.shape[1])), 'constant',  constant_values=word_dict[' '])
# 왼쪽(0,0) > 위아래 패딩할지 기준위치
# 오른쪽(0, max_len-x.shape[1]) > 좌우 패딩할지 기준위치 (1,0) 으로 하면 왼쪽으로 한줄 패딩됨

# print(x)

array([[1., 2., 3., 0., 0.],
       [4., 5., 3., 0., 0.],
       [6., 7., 8., 3., 0.]])

In [67]:
sent = [
        ['나는', '개발자', '입니다'],
        ['저는', '취준생', '입니다'],
        ['이것은', '간단한', '예제', '입니다']   
        ]

In [68]:
# 원 핫 인코딩

# 단어 사전 생성

word_dict = {'apple' : 0, 'banana':1, 'orange':2}

# 입력 텍스트
text = 'apple orange banana'

In [69]:
# 각 단어를 one-hot encoding 수행

one_hot = []

for word in text.split() :
    vector = [0] * len(word_dict)
    vector[word_dict[word]] = 1
    one_hot.append(vector)
    
print(one_hot)

[[1, 0, 0], [0, 0, 1], [0, 1, 0]]


In [72]:
# 임베딩 (word2vec)

from gensim.models import Word2Vec

sentences

[['나는', '개발자', '입니다'], ['저는', '취준생', '입니다'], ['이것은', '간단한', '예제', '입니다']]

In [73]:
model = Word2Vec(sentences, vector_size = 4, window=2, min_count=1)

# vector_size : 벡터 차원
# window : 주변 단어 윈도우 크기
# min_count : 최소 등장 횟수

In [79]:
print(model.wv.key_to_index['나는'])

7


In [77]:
print(model.wv.get_vector('나는'))
# vector_size=4 고정했기 때문 

[-0.18804094 -0.09840259 -0.18778956 -0.02325106]
