# 8) 원-핫 인코딩
문자를 숫자로 바꾸는 가장 기본적인 표현 방법

In [2]:
pip install nltk



In [3]:
pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[K     |████████████████████████████████| 19.4 MB 6.9 MB/s 
[?25hCollecting JPype1>=0.7.0
  Downloading JPype1-1.3.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (448 kB)
[K     |████████████████████████████████| 448 kB 54.3 MB/s 
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.3.0 konlpy-0.6.0


In [4]:
from konlpy.tag import Okt

okt = Okt()
tokens = okt.morphs("나는 자연어 처리를 배운다")
print(tokens)

['나', '는', '자연어', '처리', '를', '배운다']


In [6]:
# 빈도수 순으로 단어 정렬
word_to_index = {word : index for index, word in enumerate(tokens)}
print("단어 집합 :", word_to_index)

단어 집합 : {'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}


In [7]:
# 토큰을 입력하면 해당 토큰에 대한 원-핫 벡터를 만들어내는 함수
def one_hot_encoding(word, word_to_index):
  one_hot_vector = [0] * (len(word_to_index))
  index = word_to_index[word]
  one_hot_vector[index] = 1
  return one_hot_vector

In [8]:
one_hot_encoding("자연어", word_to_index)

[0, 0, 1, 0, 0, 0]

케라스를 이용한 원-핫 인코딩

In [9]:
# to_categorical()

from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

text = "나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

tokenizer = Tokenizer()
tokenizer.fit_on_texts([text])
print("단어 집합 :", tokenizer.word_index)

단어 집합 : {'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}


In [10]:
# texts_to_sequences() 단어들로만 구성된 텍스트 정수 시퀀스로 변환
sub_text = "점심 먹으러 갈래 메뉴는 햄버거 최고야"
encoded = tokenizer.texts_to_sequences([sub_text])[0]
print(encoded)

[2, 5, 1, 6, 3, 7]


In [11]:
# to_categorical() : 정수 인코딩된 결과로부터 원-핫 인코딩 수행
one_hot = to_categorical(encoded)
print(one_hot)

[[0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]]


# 9) 데이터의 분리

In [12]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

## 2. x와 y 분리하기
zip 함수를 이용하여 x와 y 분리하기

In [13]:
x, y = zip(['a',1],['b',2],['c',3])
print('x 데이터 :', x)
print("y 데이터 :", y)

x 데이터 : ('a', 'b', 'c')
y 데이터 : (1, 2, 3)


In [14]:
sequences = [['a',1], ['b',2], ['c',3]]
x, y = zip(*sequences)
print("x 데이터 :", x)
print("y 데이터 :", y)

x 데이터 : ('a', 'b', 'c')
y 데이터 : (1, 2, 3)


데이터프레임을 이용하여 x, y 분리하기

In [15]:
values = [['당신에게 드리는 마지막 혜택!', 1],
['내일 뵐 수 있을지 확인 부탁드...', 0],
['도연씨. 잘 지내시죠? 오랜만입...', 0],
['(광고) AI로 주가를 예측할 수 있다!', 1]]
columns = ['메일 본문', '스팸 메일 유무']

df = pd.DataFrame(values, columns=columns)
df

Unnamed: 0,메일 본문,스팸 메일 유무
0,당신에게 드리는 마지막 혜택!,1
1,내일 뵐 수 있을지 확인 부탁드...,0
2,도연씨. 잘 지내시죠? 오랜만입...,0
3,(광고) AI로 주가를 예측할 수 있다!,1


In [17]:
x = df['메일 본문']
y = df['스팸 메일 유무']
print("x 데이터 :", x.to_list())
print("y 데이터 :", y.to_list())

x 데이터 : ['당신에게 드리는 마지막 혜택!', '내일 뵐 수 있을지 확인 부탁드...', '도연씨. 잘 지내시죠? 오랜만입...', '(광고) AI로 주가를 예측할 수 있다!']
y 데이터 : [1, 0, 0, 1]


Numpy를 이용하여 x, y 분리하기

In [18]:
np_array = np.arange(0,16).reshape((4,4))
print("전체 데이터 :")
print(np_array)

전체 데이터 :
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [19]:
# 위 데이터에서 마지막 열을 제외하고 x데이터에 저장
# 마지막 열만을 y데이터에 저장

x = np_array[:, :3]
y = np_array[:,3]

print('x 데이터 :')
print(x)
print('y 데이터 :', y)

x 데이터 :
[[ 0  1  2]
 [ 4  5  6]
 [ 8  9 10]
 [12 13 14]]
y 데이터 : [ 3  7 11 15]


## 3. 테스트 데이터 분리하기
사이킷 런을 이용하여 분리하기

In [20]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=1234)

In [21]:
# 임의로 x 데이터와 y 데이터 생성
x, y = np.arange(10).reshape((5,2)), range(5)

print('x 전체 데이터 :')
print(x)
print('y 전체 데이터 :')
print(list(y))

x 전체 데이터 :
[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
y 전체 데이터 :
[0, 1, 2, 3, 4]


In [23]:
# 7:3의 비율로 훈련 데이터와 테스트 데이터 분리
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=1234)

print('x 훈련 데이터 :')
print(x_train)
print('x 테스트 데이터 :')
print(x_test)

print('=====================')

print('y 훈련 데이터 :')
print(y_train)
print('y 테스트 데이터 :')
print(y_test)

x 훈련 데이터 :
[[2 3]
 [4 5]
 [6 7]]
x 테스트 데이터 :
[[8 9]
 [0 1]]
y 훈련 데이터 :
[1, 2, 3]
y 테스트 데이터 :
[4, 0]


In [24]:
# random_state의 값을 변경
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=1)

print('y 훈련 데이터 :')
print(y_train)
print('y 테스트 데이터 :')
print(y_test)

y 훈련 데이터 :
[4, 0, 3]
y 테스트 데이터 :
[2, 1]


In [25]:
# random_state 값을 1234로 주고 다시 y데이터 출력
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=1234)

print('y 훈련 데이터 :')
print(y_train)
print('y 테스트 데이터 :')
print(y_test)

y 훈련 데이터 :
[1, 2, 3]
y 테스트 데이터 :
[4, 0]


수동으로 분리하기

In [26]:
# 실습을 위해 임의로 x와 y가 이미 분리 된 데이터를 생성
x, y = np.arange(0,24).reshape((12,2)), range(12)

print('x 전체 데이터 :')
print(x)
print('y 전체 데이터 :')
print(list(y))

x 전체 데이터 :
[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 19]
 [20 21]
 [22 23]]
y 전체 데이터 :
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]


In [27]:
num_of_train = int(len(x) * 0.8) # 데이터의 전체 길이의 80%에 해당하는 길이값을 구한다
num_of_test = int(len(x) - num_of_train) # 전체 길이에서 80%에 해당하는 길이를 뺀다
# num_of_test를 len(x) * 0.2로 계산하면 데이터에 누락이 발생할 수 있다
print('훈련 데이터의 크기 :', num_of_train)
print('테스트 데이터의 크기 :', num_of_test)

훈련 데이터의 크기 : 9
테스트 데이터의 크기 : 3


In [28]:
x_test = x[num_of_train:]  # 전체 데이터 중에서 20%만큼 뒤의 데이터 저장
y_test = y[num_of_train:]  # 전체 데이터 중에서 20%만큼 뒤의 데이터 저장
x_train = x[:num_of_train]  # 전체 데이터 중에서 80%만큼 앞의 데이터 저장
y_train = y[:num_of_train]  # 전체 데이터 중에서 80%만큼 앞의 데이터 저장

In [29]:
print('x 테스트 데이터 :')
print(x_test)
print('y 테스트 데이터 :')
print(list(y_test))

x 테스트 데이터 :
[[18 19]
 [20 21]
 [22 23]]
y 테스트 데이터 :
[9, 10, 11]


# 10) 한국어 전처리 패키지
PyKoSpacing  
띄어쓰기가 되어있지 않은 문장을 띄어쓰기를 한 문장으로 변환해주는 패키지

In [30]:
pip install git+https://github.com/haven-jeon/PyKoSpacing.git

Collecting git+https://github.com/haven-jeon/PyKoSpacing.git
  Cloning https://github.com/haven-jeon/PyKoSpacing.git to /tmp/pip-req-build-h3krxyek
  Running command git clone -q https://github.com/haven-jeon/PyKoSpacing.git /tmp/pip-req-build-h3krxyek
Collecting tensorflow==2.5.2
  Downloading tensorflow-2.5.2-cp37-cp37m-manylinux2010_x86_64.whl (454.4 MB)
[K     |████████████████████████████████| 454.4 MB 21 kB/s 
Collecting argparse>=1.4.0
  Downloading argparse-1.4.0-py2.py3-none-any.whl (23 kB)
Collecting flatbuffers~=1.12.0
  Downloading flatbuffers-1.12-py2.py3-none-any.whl (15 kB)
Collecting keras-nightly~=2.5.0.dev
  Downloading keras_nightly-2.5.0.dev2021032900-py2.py3-none-any.whl (1.2 MB)
[K     |████████████████████████████████| 1.2 MB 55.5 MB/s 
[?25hCollecting grpcio~=1.34.0
  Downloading grpcio-1.34.1-cp37-cp37m-manylinux2014_x86_64.whl (4.0 MB)
[K     |████████████████████████████████| 4.0 MB 62.9 MB/s 
Collecting wrapt~=1.12.1
  Downloading wrapt-1.12.1.tar.gz (27

In [32]:
sent = '김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.'

new_sent = sent.replace(" ", '')    # 띄어쓰기가 없는 문장 임의로 만들기
print(new_sent)

김철수는극중두인격의사나이이광수역을맡았다.철수는한국유일의태권도전승자를가리는결전의날을앞두고10년간함께훈련한사형인유연재(김광수분)를찾으러속세로내려온인물이다.


In [34]:
# PyKoSpacing의 입력으로 사용하여 원문장과 비교
from pykospacing import Spacing
spacing = Spacing()
kospacing_sent = spacing(new_sent)

# 결과가 일치한다
print(sent)
print(kospacing_sent)

김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.
김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.


Py-Hanspell  
네이버 한글 맞춤법 검사기를 바탕으로 만들어진 패키지

In [35]:
pip install git+https://github.com/ssut/py-hanspell.git

Collecting git+https://github.com/ssut/py-hanspell.git
  Cloning https://github.com/ssut/py-hanspell.git to /tmp/pip-req-build-129x9uev
  Running command git clone -q https://github.com/ssut/py-hanspell.git /tmp/pip-req-build-129x9uev
Building wheels for collected packages: py-hanspell
  Building wheel for py-hanspell (setup.py) ... [?25l[?25hdone
  Created wheel for py-hanspell: filename=py_hanspell-1.1-py3-none-any.whl size=4868 sha256=b92502a81ab1cdc06ee67c49a4e229a914afa6a5e54deb103b10d70930b491c7
  Stored in directory: /tmp/pip-ephem-wheel-cache-w6_649su/wheels/ab/f5/7b/d4124bb329c905301baed80e2ae45aa14e824f62ebc3ec2cc4
Successfully built py-hanspell
Installing collected packages: py-hanspell
Successfully installed py-hanspell-1.1


In [37]:
from hanspell import spell_checker

sent = "맞춤법 틀리면 외 않되? 쓰고싶은대로쓰면돼지 "
spelled_sent = spell_checker.check(sent)

hanspell_sent = spelled_sent.checked
print(hanspell_sent)

맞춤법 틀리면 왜 안돼? 쓰고 싶은 대로 쓰면 되지


In [38]:
# 띄어쓰기 보정
spelled_sent = spell_checker.check(new_sent)

hanspell_sent = spelled_sent.checked
# 결과가 거의 비슷하지만 조금 다르다
print(hanspell_sent)
print(kospacing_sent)    # 앞서 사용한 kospacing 패키지에서 얻은 결과

김철수는 극 중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연제(김광수 분)를 찾으러 속세로 내려온 인물이다.
김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.


SOYNLP를 이용한 단어 토큰화

In [39]:
pip install soynlp

Collecting soynlp
  Downloading soynlp-0.0.493-py3-none-any.whl (416 kB)
[K     |████████████████████████████████| 416 kB 8.0 MB/s 
Installing collected packages: soynlp
Successfully installed soynlp-0.0.493


In [41]:
# 기존의 형태소 분석기는 신조어나 등록되지 않은 단어는 제대로 구분하지 못했음
from konlpy.tag import Okt
tokenizer = Okt()
print(tokenizer.morphs('에이비식스 이대휘 1월 최애돌 기부 요정'))

['에이', '비식스', '이대', '휘', '1월', '최애', '돌', '기부', '요정']


In [42]:
# 학습하기
import urllib.request
from soynlp import DoublespaceLineCorpus
from soynlp.word import WordExtractor

# 학습에 필요한 한국어 문서 다운로드
urllib.request.urlretrieve("https://raw.githubusercontent.com/lovit/soynlp/master/tutorials/2016-10-20.txt", filename="2016-10-20.txt")

('2016-10-20.txt', <http.client.HTTPMessage at 0x7f7e88257810>)

In [43]:
# 훈련 데이터를 다수의 문서로 분리
corpus = DoublespaceLineCorpus("2016-10-20.txt")
len(corpus)

30091

In [44]:
# 3만 91개의 문서 중 상위 3개의 문서만 출력
i = 0
for document in corpus:
  if len(document) > 0:
    print(document)
    i += 1
  if i == 3:
    break

19  1990  52 1 22
오패산터널 총격전 용의자 검거 서울 연합뉴스 경찰 관계자들이 19일 오후 서울 강북구 오패산 터널 인근에서 사제 총기를 발사해 경찰을 살해한 용의자 성모씨를 검거하고 있다 성씨는 검거 당시 서바이벌 게임에서 쓰는 방탄조끼에 헬멧까지 착용한 상태였다 독자제공 영상 캡처 연합뉴스  서울 연합뉴스 김은경 기자 사제 총기로 경찰을 살해한 범인 성모 46 씨는 주도면밀했다  경찰에 따르면 성씨는 19일 오후 강북경찰서 인근 부동산 업소 밖에서 부동산업자 이모 67 씨가 나오기를 기다렸다 이씨와는 평소에도 말다툼을 자주 한 것으로 알려졌다  이씨가 나와 걷기 시작하자 성씨는 따라가면서 미리 준비해온 사제 총기를 이씨에게 발사했다 총알이 빗나가면서 이씨는 도망갔다 그 빗나간 총알은 지나가던 행인 71 씨의 배를 스쳤다  성씨는 강북서 인근 치킨집까지 이씨 뒤를 쫓으며 실랑이하다 쓰러뜨린 후 총기와 함께 가져온 망치로 이씨 머리를 때렸다  이 과정에서 오후 6시 20분께 강북구 번동 길 위에서 사람들이 싸우고 있다 총소리가 났다 는 등의 신고가 여러건 들어왔다  5분 후에 성씨의 전자발찌가 훼손됐다는 신고가 보호관찰소 시스템을 통해 들어왔다 성범죄자로 전자발찌를 차고 있던 성씨는 부엌칼로 직접 자신의 발찌를 끊었다  용의자 소지 사제총기 2정 서울 연합뉴스 임헌정 기자 서울 시내에서 폭행 용의자가 현장 조사를 벌이던 경찰관에게 사제총기를 발사해 경찰관이 숨졌다 19일 오후 6시28분 강북구 번동에서 둔기로 맞았다 는 폭행 피해 신고가 접수돼 현장에서 조사하던 강북경찰서 번동파출소 소속 김모 54 경위가 폭행 용의자 성모 45 씨가 쏜 사제총기에 맞고 쓰러진 뒤 병원에 옮겨졌으나 숨졌다 사진은 용의자가 소지한 사제총기  신고를 받고 번동파출소에서 김창호 54 경위 등 경찰들이 오후 6시 29분께 현장으로 출동했다 성씨는 그사이 부동산 앞에 놓아뒀던 가방을 챙겨 오패산 쪽으로 도망간 후였다  김 경위는 오패산 터널 입구 오른쪽의 급경사에서 성씨에

In [45]:
word_extractor = WordExtractor()
word_extractor.train(corpus)
word_score_table = word_extractor.extract()

training was done. used memory 1.848 Gb
all cohesion probabilities was computed. # words = 223348
all branching entropies was computed # words = 361598
all accessor variety was computed # words = 361598


In [46]:
# SOYNLPO의 응집확률
# 응집 확률은 내부 문자열이 얼마나 응집하여 자주 등장하는 지를 판단하는 척도

# 반포한의 응집확률
word_score_table['반포한'].cohesion_forward

0.08838002913645132

In [47]:
word_score_table['반포한강'].cohesion_forward

0.19841268168224552

In [48]:
word_score_table['반포한강공'].cohesion_forward

0.2972877884078849

In [49]:
word_score_table['반포한강공원'].cohesion_forward

0.37891487632839754

In [50]:
word_score_table['반포한강공원에'].cohesion_forward

0.33492963377557666

In [51]:
# SOYNLP의 브랜칭 엔트로피
word_score_table['디스'].right_branching_entropy

1.6371694761537934

In [52]:
# 디스플레이라는 단어가 나올게 명확하니까 0이 나온다
word_score_table['디스플'].right_branching_entropy

-0.0

In [54]:
word_score_table['디스플레'].right_branching_entropy

-0.0

In [53]:
# 디스플레이 다음에 조사나 다른 단어 같은 다양한 경우가 있을 수 있어서 값이 증가
word_score_table['디스플레이'].right_branching_entropy

3.1400392861792916

In [55]:
# SOYNLP의 L tokenizer
from soynlp.tokenizer import LTokenizer

scores = {word:score.cohesion_forward for word, score in word_score_table.items()}
l_tokenizer = LTokenizer(scores=scores)
l_tokenizer.tokenize("국제사회와 우리의 노력들로 범죄를 척결하자", flatten=False)

[('국제사회', '와'), ('우리', '의'), ('노력', '들로'), ('범죄', '를'), ('척결', '하자')]

In [56]:
# 최대 점수 토크나이저
from soynlp.tokenizer import MaxScoreTokenizer

maxscore_tokenizer = MaxScoreTokenizer(scores=scores)
maxscore_tokenizer.tokenize("국제사회와우리의노력들로범죄를척결하자")

['국제사회', '와', '우리', '의', '노력', '들로', '범죄', '를', '척결', '하자']

In [57]:
# SOYNLP를 이용한 반복되는 문자 정제
from soynlp.normalizer import *

In [60]:
print(emoticon_normalize('앜ㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠㅠ', num_repeats=2))
print(emoticon_normalize('앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠ', num_repeats=2))
print(emoticon_normalize('앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠㅠㅠ', num_repeats=2))
print(emoticon_normalize('앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠㅠㅠㅠㅠ', num_repeats=2))

아ㅋㅋ영화존잼쓰ㅠㅠ
아ㅋㅋ영화존잼쓰ㅠㅠ
아ㅋㅋ영화존잼쓰ㅠㅠ
아ㅋㅋ영화존잼쓰ㅠㅠ


In [62]:
print(repeat_normalize('와하하하하하하하하하핫', num_repeats=2))
print(repeat_normalize('와하하하하하하핫', num_repeats=2))
print(repeat_normalize('와하하하하핫', num_repeats=2))

와하하핫
와하하핫
와하하핫


In [65]:
pip install customized_konlpy

Collecting customized_konlpy
  Downloading customized_konlpy-0.0.64-py3-none-any.whl (881 kB)
[K     |████████████████████████████████| 881 kB 7.5 MB/s 
Installing collected packages: customized-konlpy
Successfully installed customized-konlpy-0.0.64


In [66]:
# Customized KoNLPy
from ckonlpy.tag import Twitter
twitter = Twitter()
twitter.morphs('은경이는 사무실로 갔습니다.')

  warn('"Twitter" has changed to "Okt" since KoNLPy v0.4.5.')


['은', '경이', '는', '사무실', '로', '갔습니다', '.']

In [68]:
# Twitter에 add_dictionary('단어','품사') 같은 형식으로 사전 추가 해줄 수 있다
twitter.add_dictionary('은경이', 'Noun')

twitter.morphs('은경이는 사무실로 갔습니다.')

['은경이', '는', '사무실', '로', '갔습니다', '.']