# NLP

### 정수인코딩

In [1]:
# 텍스트 데이터를 수치 데이터로 변환하여 연산 수행
# 정수 인코딩을 사용하면 빈도수 계산에 용이함
# 단어 빈도수 기반 가중치 부여 가능

In [3]:
# !pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m60.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting JPype1>=0.7.0 (from konlpy)
  Downloading JPype1-1.4.1-cp310-cp310-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (465 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m465.3/465.3 kB[0m [31m44.1 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.4.1 konlpy-0.6.0


In [5]:
from konlpy.tag import Okt
from nltk.tokenize import word_tokenize
from collections import Counter

In [6]:
okt = Okt()

In [7]:
text_data = '카카오브레인이 사실감 넘치는 이미지를 3초 안에 그려내는 초거대 AI 이미지 생성 모델 ‘칼로(Karlo) 2.0’을 공개했다고 10일 밝혔다.'

In [8]:
text =okt.nouns(text_data)
text

['카카오', '브레인', '실감', '이미지', '안', '초', '거대', '이미지', '생', '모델', '칼', '공개']

In [10]:
Counter(text)

Counter({'카카오': 1,
         '브레인': 1,
         '실감': 1,
         '이미지': 2,
         '안': 1,
         '초': 1,
         '거대': 1,
         '생': 1,
         '모델': 1,
         '칼': 1,
         '공개': 1})

In [11]:
words_freq = Counter(text)

In [12]:
words_cleaned = [(w,c) for w,c in words_freq.items()]
words_cleaned

[('카카오', 1),
 ('브레인', 1),
 ('실감', 1),
 ('이미지', 2),
 ('안', 1),
 ('초', 1),
 ('거대', 1),
 ('생', 1),
 ('모델', 1),
 ('칼', 1),
 ('공개', 1)]

In [13]:
words_cleaned.sort(key=lambda x: x[1],reverse=True)
words_cleaned

[('이미지', 2),
 ('카카오', 1),
 ('브레인', 1),
 ('실감', 1),
 ('안', 1),
 ('초', 1),
 ('거대', 1),
 ('생', 1),
 ('모델', 1),
 ('칼', 1),
 ('공개', 1)]

In [14]:
# 많이 사용한 순서대로 indexing
word_to_index = { word[0] : index+1 for index,word in enumerate(words_cleaned)}
word_to_index

{'이미지': 1,
 '카카오': 2,
 '브레인': 3,
 '실감': 4,
 '안': 5,
 '초': 6,
 '거대': 7,
 '생': 8,
 '모델': 9,
 '칼': 10,
 '공개': 11}

In [17]:
sentence = '카카오브레인의 초거대 이미지 모델'
sentence_to_index = [word_to_index[word] for word in okt.nouns(sentence)]
sentence_to_index

[2, 3, 6, 7, 1, 9]

### Keras 정수인코딩

In [24]:
from keras.preprocessing.text import Tokenizer

text_data = '카카오브레인이 사실감 넘치는 이미지를 3초 안에 그려내는 초거대 AI 이미지 생성 모델 ‘칼로(Karlo) 2.0’을 공개했다고 10일 밝혔다.'
text = okt.nouns(text_data)
print(text)
tokenizer = Tokenizer()
tokenizer.fit_on_texts(text)

['카카오', '브레인', '실감', '이미지', '안', '초', '거대', '이미지', '생', '모델', '칼', '공개']


In [25]:
print(tokenizer.word_index)

{'이미지': 1, '카카오': 2, '브레인': 3, '실감': 4, '안': 5, '초': 6, '거대': 7, '생': 8, '모델': 9, '칼': 10, '공개': 11}


In [26]:
sentence = '카카오브레인의 초거대 이미지 모델'
st = okt.nouns(sentence)
print(st)

['카카오', '브레인', '초', '거대', '이미지', '모델']


In [27]:
tokenizer.texts_to_sequences(st)

[[2], [3], [6], [7], [1], [9]]

### 패딩

In [28]:
# 입력 데이터의 길이를 동일하게 만드는 기법
# 빈 공간을 특정한 값으로 채움
# 대표적으로 0으로 채우는 제로 패딩
# 학습 및 예측이 용이해지고 연산 속도를 높힐 수 있음

In [30]:
import numpy as np
from keras.preprocessing.text import Tokenizer

In [32]:
# 정수 인코딩 과정을 거침
text_data = '퀄컴 이노베이션 펠로우십 코리아는 정규 석박사 과정에 있는 학생들을 대상으로 개최하는 학술 논문 경연 대회다. 지원자는 인공지능(AI), 머신러닝(ML), 자율주행 분야와 관련된 세부 분야 중 하나의 연구논문을 제출하면 된다. 퀄컴은 이들 중 우수 논문을 선정해 최종 수상자를 선발할 예정이다. 논문 제출 기한은 8월 15일까지다.'
text = okt.nouns(text_data)
print(text)
tokenizer = Tokenizer()
tokenizer.fit_on_texts(text)

['퀄컴', '이노베이션', '펠로우', '코리아', '정규', '박사', '과정', '학생', '대상', '개최', '학술', '논문', '경연', '대회', '지원', '인공', '지능', '머신', '러닝', '자율', '주행', '분야', '관련', '세부', '분야', '중', '하나', '논문', '제출', '퀄컴', '이', '중', '우수', '논문', '선정', '최종', '수상자', '선발', '예정', '논문', '제출', '기한']


In [33]:
text_data = text_data.replace('\n','')
text_result = text_data.split('.')
text_result

['퀄컴 이노베이션 펠로우십 코리아는 정규 석박사 과정에 있는 학생들을 대상으로 개최하는 학술 논문 경연 대회다',
 ' 지원자는 인공지능(AI), 머신러닝(ML), 자율주행 분야와 관련된 세부 분야 중 하나의 연구논문을 제출하면 된다',
 ' 퀄컴은 이들 중 우수 논문을 선정해 최종 수상자를 선발할 예정이다',
 ' 논문 제출 기한은 8월 15일까지다',
 '']

In [38]:
encoding_data = []
for tmp in text_result:
  tmp = tmp.strip()
  st = okt.nouns(tmp)
  # print(tmp)
  # print(st)
  encoding_data.append(tokenizer.texts_to_sequences([st])[0])
  # print(tokenizer.texts_to_sequences([st]))
print(encoding_data)

[[2, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 1, 16, 17], [18, 19, 20, 21, 22, 23, 24, 3, 25, 26, 3, 4, 27, 1, 5], [2, 28, 4, 29, 1, 30, 31, 32, 33, 34], [1, 5, 35], []]


In [39]:
# 가장 긴 길이로 패딩 사이즈 선정
max_len = max(len(item) for item in encoding_data)
max_len

15

In [42]:
for sentence in encoding_data:
  while len(sentence) < max_len:
    sentence.append(0)

In [43]:
encoding_data

[[2, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 1, 16, 17, 0],
 [18, 19, 20, 21, 22, 23, 24, 3, 25, 26, 3, 4, 27, 1, 5],
 [2, 28, 4, 29, 1, 30, 31, 32, 33, 34, 0, 0, 0, 0, 0],
 [1, 5, 35, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]

In [48]:
# 앞으로 채우는 방법
from tensorflow.keras.preprocessing.sequence import pad_sequences

encoding_data = []
for tmp in text_result:
  tmp = tmp.strip()
  st = okt.nouns(tmp)
  # print(tmp)
  # print(st)
  encoding_data.append(tokenizer.texts_to_sequences([st])[0])
  # print(tokenizer.texts_to_sequences([st]))
print(encoding_data)

padding = pad_sequences(encoding_data,padding='pre',maxlen=10)
padding

[[2, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 1, 16, 17], [18, 19, 20, 21, 22, 23, 24, 3, 25, 26, 3, 4, 27, 1, 5], [2, 28, 4, 29, 1, 30, 31, 32, 33, 34], [1, 5, 35], []]


array([[ 9, 10, 11, 12, 13, 14, 15,  1, 16, 17],
       [23, 24,  3, 25, 26,  3,  4, 27,  1,  5],
       [ 2, 28,  4, 29,  1, 30, 31, 32, 33, 34],
       [ 0,  0,  0,  0,  0,  0,  0,  1,  5, 35],
       [ 0,  0,  0,  0,  0,  0,  0,  0,  0,  0]], dtype=int32)

In [49]:
# max_len으로 줄일 때 뒷부분을 날림 (한글은 앞부분이 중요)

encoding_data = []
for tmp in text_result:
  tmp = tmp.strip()
  st = okt.nouns(tmp)
  # print(tmp)
  # print(st)
  encoding_data.append(tokenizer.texts_to_sequences([st])[0])
  # print(tokenizer.texts_to_sequences([st]))
print(encoding_data)

padding = pad_sequences(encoding_data , padding='post',maxlen=10 , truncating='post')
padding

[[2, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 1, 16, 17], [18, 19, 20, 21, 22, 23, 24, 3, 25, 26, 3, 4, 27, 1, 5], [2, 28, 4, 29, 1, 30, 31, 32, 33, 34], [1, 5, 35], []]


array([[ 2,  6,  7,  8,  9, 10, 11, 12, 13, 14],
       [18, 19, 20, 21, 22, 23, 24,  3, 25, 26],
       [ 2, 28,  4, 29,  1, 30, 31, 32, 33, 34],
       [ 1,  5, 35,  0,  0,  0,  0,  0,  0,  0],
       [ 0,  0,  0,  0,  0,  0,  0,  0,  0,  0]], dtype=int32)

In [51]:
# 0이 아닌 값으로 padding 하기

encoding_data = []
for tmp in text_result:
  tmp = tmp.strip()
  st = okt.nouns(tmp)
  # print(tmp)
  # print(st)
  encoding_data.append(tokenizer.texts_to_sequences([st])[0])
  # print(tokenizer.texts_to_sequences([st]))
print(encoding_data)

[[2, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 1, 16, 17], [18, 19, 20, 21, 22, 23, 24, 3, 25, 26, 3, 4, 27, 1, 5], [2, 28, 4, 29, 1, 30, 31, 32, 33, 34], [1, 5, 35], []]


In [52]:
last_value = len(tokenizer.word_index)+1
last_value

36

In [54]:
padding = pad_sequences(encoding_data,padding='post',truncating='post',maxlen=10,value=last_value)
padding

array([[ 2,  6,  7,  8,  9, 10, 11, 12, 13, 14],
       [18, 19, 20, 21, 22, 23, 24,  3, 25, 26],
       [ 2, 28,  4, 29,  1, 30, 31, 32, 33, 34],
       [ 1,  5, 35, 36, 36, 36, 36, 36, 36, 36],
       [36, 36, 36, 36, 36, 36, 36, 36, 36, 36]], dtype=int32)

### 원핫인코딩

In [55]:
# 단어를 벡터로
# 5 : 0,1,2,3,4
# [[1,0,0,0,0],[0,1,0,0,0]]

In [59]:
from konlpy.tag import Okt
okt = Okt()
# 형태소 단위로
text_data = okt.morphs('나는 오늘 파이썬을 공부하고 있습니다.')
text_data

['나', '는', '오늘', '파이썬', '을', '공부', '하고', '있습니다', '.']

In [65]:
word_encoding = {word : index for index,word in enumerate(text_data)}
word_encoding

{'나': 0,
 '는': 1,
 '오늘': 2,
 '파이썬': 3,
 '을': 4,
 '공부': 5,
 '하고': 6,
 '있습니다': 7,
 '.': 8}

In [66]:
one_hot_vector = [0]*len(word_encoding)
one_hot_vector

[0, 0, 0, 0, 0, 0, 0, 0, 0]

In [67]:
index = word_encoding['파이썬']
index

3

In [68]:
one_hot_vector[index] = 1
one_hot_vector

[0, 0, 0, 1, 0, 0, 0, 0, 0]

### keras 활용 원핫인코딩

In [69]:
# one-hot encoding keras
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

text = '나는 오늘 파이썬을 공부하고 있습니다.'
tokenizer = Tokenizer()
tokenizer.fit_on_texts([text])
tokenizer.word_index

{'나는': 1, '오늘': 2, '파이썬을': 3, '공부하고': 4, '있습니다': 5}

In [71]:
sentence = '나는 오늘 파이썬을 공부하고 있습니다.'
encoded = tokenizer.texts_to_sequences([sentence])[0]
encoded

[1, 2, 3, 4, 5]

In [72]:
one_hot = to_categorical(encoded)
one_hot

array([[0., 1., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1.]], dtype=float32)

In [75]:
sentence = '나는 오늘 자바를 공부하고 있습니다.'
encoded = tokenizer.texts_to_sequences([sentence])[0]
encoded

[1, 2, 4, 5]

In [76]:
one_hot = to_categorical(encoded)
one_hot

array([[0., 1., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1.]], dtype=float32)