# 자연어처리 소개

인간의 언어를 컴퓨터와 같은 기계가 묘사할 수 있도록 연구하고 구현하는 분야

: 음성 - Text화 - 말뭉치 사전 기준 토큰화 - 입력벡터 - 딥러닝 모델 처리 - 출력벡터 - 말뭉치 사전 참조 Text 벡터화 - 음성화

# 사전준비 및 라이브러리 설치

In [None]:
# 한글 형태소 분석기
!pip install konlpy  



In [None]:
# Sentencepiece 라이브러리 설치
# 구글에서 만들어 제공하는 라이브러리임
!pip install sentencepiece

Collecting sentencepiece
  Downloading sentencepiece-0.1.96-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.2 MB)
[?25l[K     |▎                               | 10 kB 22.8 MB/s eta 0:00:01[K     |▌                               | 20 kB 27.0 MB/s eta 0:00:01[K     |▉                               | 30 kB 27.7 MB/s eta 0:00:01[K     |█                               | 40 kB 29.9 MB/s eta 0:00:01[K     |█▍                              | 51 kB 32.3 MB/s eta 0:00:01[K     |█▋                              | 61 kB 35.6 MB/s eta 0:00:01[K     |██                              | 71 kB 36.2 MB/s eta 0:00:01[K     |██▏                             | 81 kB 38.0 MB/s eta 0:00:01[K     |██▍                             | 92 kB 39.1 MB/s eta 0:00:01[K     |██▊                             | 102 kB 35.1 MB/s eta 0:00:01[K     |███                             | 112 kB 35.1 MB/s eta 0:00:01[K     |███▎                            | 122 kB 35.1 MB/s eta 0:00:01[K     |██

# 1.음성과 Text의 상호변환

## 가.관련 라이브러리 설치 : gTTS, SpeechRecognition

In [None]:
# text to speech(TTS 음성변환)를 위한 라이브러리
!pip install gTTS

Collecting gTTS
  Downloading gTTS-2.2.3-py3-none-any.whl (25 kB)
Installing collected packages: gTTS
Successfully installed gTTS-2.2.3


In [None]:
# speech to text(STT 음성인식) 처리를 위한 라이브러리
!pip3 install SpeechRecognition

Collecting SpeechRecognition
  Downloading SpeechRecognition-3.8.1-py2.py3-none-any.whl (32.8 MB)
[K     |████████████████████████████████| 32.8 MB 34 kB/s 
[?25hInstalling collected packages: SpeechRecognition
Successfully installed SpeechRecognition-3.8.1


## 나.Text를 음성으로 변환: TTS 기술

In [None]:
from gtts import gTTS
text ="안녕하세요, 여러분! 자연어처리 너무 재미 있지요?"

tts = gTTS(text=text, lang='ko')
tts.save("helloKO.mp3")

다운로드 받아서 들어보세요!

## 다.음성을 Text로 변환 : STT 기술

In [None]:
!ffmpeg -i helloKO.mp3 mykor.aif

ffmpeg version 3.4.8-0ubuntu0.2 Copyright (c) 2000-2020 the FFmpeg developers
  built with gcc 7 (Ubuntu 7.5.0-3ubuntu1~18.04)
  configuration: --prefix=/usr --extra-version=0ubuntu0.2 --toolchain=hardened --libdir=/usr/lib/x86_64-linux-gnu --incdir=/usr/include/x86_64-linux-gnu --enable-gpl --disable-stripping --enable-avresample --enable-avisynth --enable-gnutls --enable-ladspa --enable-libass --enable-libbluray --enable-libbs2b --enable-libcaca --enable-libcdio --enable-libflite --enable-libfontconfig --enable-libfreetype --enable-libfribidi --enable-libgme --enable-libgsm --enable-libmp3lame --enable-libmysofa --enable-libopenjpeg --enable-libopenmpt --enable-libopus --enable-libpulse --enable-librubberband --enable-librsvg --enable-libshine --enable-libsnappy --enable-libsoxr --enable-libspeex --enable-libssh --enable-libtheora --enable-libtwolame --enable-libvorbis --enable-libvpx --enable-libwavpack --enable-libwebp --enable-libx265 --enable-libxml2 --enable-libxvid --enable-lib

In [None]:
import speech_recognition as sr

r = sr.Recognizer()
harvard = sr.AudioFile("mykor.aif")
with harvard as source:
    audio = r.record(source)
print(r.recognize_google(audio, language='ko-KR'))

안녕하세요 여러분 자연어처리 너무 재미있지요


# 2.말뭉치 사전 만들기

말뭉치 사전 : 자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합
말뭉치 사전만들기는 현재 기술이 너무 발전해서 필요없지만  기본적으로 자연어처리의 기초를 알아보기 위해 하는것임

Text를 수치화 시키는 방법은 말뭉치 사전을 만들고 그것을 기준으로 One-Hot Encoding과 BOW 방법이 있었으나 비효율 적이거나 정보의 유실이 있어 다른 방법을 모색

## 가.말뭉치 사전 만들기

In [None]:
# 우리가 연구하고자 하는 모집단

corpus = """나는 학교에 다니는 학생 입니다
나는 좋은 선생님 입니다
당신은 매우 좋은 선생님 입니다"""

In [None]:
# 띄어쓰기 기준 토큰으로 분리
# 중첩되는 부분이 1개만 출력된다.
tokens = corpus.split()
words = list(dict.fromkeys(tokens))
words

['나는', '학교에', '다니는', '학생', '입니다', '좋은', '선생님', '당신은', '매우']

In [None]:
wordd_to_id = {'[PAD]': 0, '[UNK]': 1}
len(wordd_to_id)

2

In [None]:
# 각 단어에 고유한 번호 부여한 dictionary 생성
word_to_id = {'[PAD]': 0, '[UNK]': 1}  # [PAD]: 길이 맞추는 용도, [UNK]: unkown알 수 없는 token
for word in words:
    word_to_id[word] = len(word_to_id)
word_to_id

{'[PAD]': 0,
 '[UNK]': 1,
 '나는': 2,
 '다니는': 4,
 '당신은': 9,
 '매우': 10,
 '선생님': 8,
 '입니다': 6,
 '좋은': 7,
 '학교에': 3,
 '학생': 5}

In [None]:
print(word_to_id.keys())
print(word_to_id.values())

dict_keys(['[PAD]', '[UNK]', '나는', '학교에', '다니는', '학생', '입니다', '좋은', '선생님', '당신은', '매우'])
dict_values([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10])


In [None]:
# 튜플로 출력
word_to_id.items()

# 여기까지가 하나의 단어당 하나의 숫자를 매치시키는 작업!

dict_items([('[PAD]', 0), ('[UNK]', 1), ('나는', 2), ('학교에', 3), ('다니는', 4), ('학생', 5), ('입니다', 6), ('좋은', 7), ('선생님', 8), ('당신은', 9), ('매우', 10)])

In [None]:
# 위에선 단어당 숫자를 매치함
# 하지만 이번엔 숫자당 단어를 매치함

# 고유한 번호로 부터 단어를 찾을 수 있는 dictionary 생성
id_to_word = {id:word for word, id in word_to_id.items()}
id_to_word

{0: '[PAD]',
 1: '[UNK]',
 2: '나는',
 3: '학교에',
 4: '다니는',
 5: '학생',
 6: '입니다',
 7: '좋은',
 8: '선생님',
 9: '당신은',
 10: '매우'}

In [None]:
# 말뭉치 사전 : word_to_id
corpus_dic = word_to_id

# 말뭉치 인텍스(숫자)를 기준으로한 사전
corpus_id = id_to_word

# corpus depth 는 길이
len(corpus_dic)

# print(len(corpus_id)) 당연히 길이는 11로 동일


11

* 모든 단어를 포함하는 말뭉치 사전을 만들어서 각 단어에 인텍스를 부여
* 분석하고자 하는 문서를 사전의 고유한 인텍스로 수치화

### 나.One-Hot Encoding (가장 기초적인 인코딩 방법)
#### 하나의 단어를 하나의 행 벡터로 표현하는 방법

하나의 토큰을 하나의 행벡터로 생성(단어수*사전수)

In [None]:
corpus = """나는 학교에 다니는 학생 입니다
나는 좋은 선생님 입니다
당신은 매우 좋은 선생님 입니다"""

text = '''나는 학교에 잘 다니는 학생 입니다
선생님 은 좋은 선생님 입니다'''

In [None]:
# 줄바꿈 단위로 문장 분리
sentences = text.split("\n")
sentences

['나는 학교에 잘 다니는 학생 입니다', '선생님 은 좋은 선생님 입니다']

In [None]:
# sentences.split()는 안되네 

In [None]:
# 띄어쓰기 단위로 단어 분리
tokens = []
for sentence in sentences:
    tokens.append(sentence.split())
tokens

# 위에서 줄바꿈 단위로 분리를하고 또 띄어쓰기 단위로 분리를함

[['나는', '학교에', '잘', '다니는', '학생', '입니다'], ['선생님', '은', '좋은', '선생님', '입니다']]

In [None]:
for i in tokens:
  print(i)

['나는', '학교에', '잘', '다니는', '학생', '입니다']
['선생님', '은', '좋은', '선생님', '입니다']


In [None]:
# tokens을 말뭉치사전의 고유 번호로 변경
# 위에서 만든 corpus_dic(말뭉치 사전)을 기준으로 수치화 할것

# # 띄어쓰기 기준 토큰으로 분리
# # 중첩되는 부분이 1개만 출력된다.
# tokens = corpus.split()
# words = list(dict.fromkeys(tokens))
# words

token_ids = []
for line_token in tokens:
  line_ids = []
  for token in line_token:
    if token in words:
      line_ids.append(word_to_id[token])
    else:
      line_ids.append(word_to_id['[UNK]'])
  token_ids.append(line_ids)
print(tokens,'\n',token_ids)

# 결과해석 '나는'은 corpus_dic['나는'] 실행시 2라는 결과값이 뜸 
# 이런식으로 tokens를 말뭉치사전의 고유번호로 바꾼 작업임

[['나는', '학교에', '잘', '다니는', '학생', '입니다'], ['선생님', '은', '좋은', '선생님', '입니다']] 
 [[2, 3, 1, 4, 5, 6], [8, 1, 7, 8, 6]]


In [None]:
# one hot encoding화 시키기
one_hot_encodings = []
for line_token in token_ids:
    print(line_token)
    one_hot_line = []  # 한 줄을 표현하는 벡터
    for id in line_token:
        # print(id)
        one_hot = [0] * len(word_to_id)  # 모두 0인 벡터를 만듬
        # print(one_hot)
        one_hot[id] = 1  # 단어 id만 1로 변경
        print(id, one_hot)
        one_hot_line.append(one_hot)  # 단어를 라인에 추가
    print(one_hot_line)
    one_hot_encodings.append(one_hot_line)  # 라인을 전체 문서에 추가

[2, 3, 1, 4, 5, 6]
2 [0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0]
3 [0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0]
1 [0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0]
4 [0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0]
5 [0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0]
6 [0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0]
[[0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0], [0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0]]
[8, 1, 7, 8, 6]
8 [0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0]
1 [0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0]
7 [0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0]
8 [0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0]
6 [0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0]
[[0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0], [0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0], [0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0]]


In [None]:
# one-hot의 행렬의 구조는 문장수 * corpus_dic의 길이(열->위에서 11개 만든것) * 토큰수(행-> 단어수)
# 전체 행과 열의 개수는 문장수다.
# 행은 단어수이다.
# 열은 단어 사전의 수다.
one_hot_encodings

# 결과해석 - 첫번째것은 단어 6개를 포함(1이 6개니까), 두번째것은 단어 5개 포함

# 그러나 우리가 매번 이렇게 복잡한 코딩으로 one hot encoding을 할것은 절대아님

[[[0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
  [0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0],
  [0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0],
  [0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0],
  [0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0],
  [0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0]],
 [[0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0],
  [0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0],
  [0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0],
  [0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0],
  [0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0]]]

In [None]:
import numpy as np
# argmax는 max를 가지고 있는 index를 리턴, axis 개념 이해 필요
# shape 행렬수*열수*행수
a = np.arange(24).reshape(2,3,4)  #0~23까지 2*3*4의 행렬벡터
print(a)  # 결과값 해석 - 2개의 문장(리스트의 수), 단어 사전의 길이는 4 (열의 수), 단어는 3개 가지고있음(행의 수)
print(np.argmax(a, axis=0))  # axis=0은 axis첫번째라는 뜻 reshape(2,3,4)에서 2에 해당
                             # 두개의 행렬(전체 리스트중 인덱스0과 1이겠지ㅇㅇ)을 비교해서 몇번째 값이 max를 가지고 있냐를 리턴
                             # 0과 12, 1과 13... 을 비교하니 전체리스트중 인덱스2 에 있는게 더 max임 따라서 1111로 도배됨

print(np.argmax(a, axis=1))  # axis=1은 각 행을 비교하는것. 0,4,8을 비교해서 인덱스2 최대값
                             # 1,5,9를 비교해서 인덱스2(인덱스2는 3번째꺼니까 맞지ㅇㅇ) 최대값이다.
                             
print(np.argmax(a, axis=2))  # axis=2는 reshape(2,3,4)에서 4에 해당 각 열을 비교하는것 0,1,2,3중에 3번째꺼
                             # 4,5,6,7중에 3번째꺼 이런식

print(np.argmax(a, axis=-1)) # axis=2와 동일 열 비교임


[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]
[[1 1 1 1]
 [1 1 1 1]
 [1 1 1 1]]
[[2 2 2 2]
 [2 2 2 2]]
[[3 3 3]
 [3 3 3]]
[[3 3 3]
 [3 3 3]]


In [None]:
# help(np.argmax)

In [None]:
# 행기준으로 one-hot을 찾아냄
import numpy as np
print(tokens[0])

np.argmax(np.array(one_hot_encodings[0]), axis=-1)  #axis=-1이니까 칼럼(열)을 비교하는것을 기준으로
# 위에서 만든 one_hot_encodings의 0번인덱스에서 각 max인덱스값 뽑아온거임

# 중요한것: one hot encoding을 가지고 수치로 만들어주는건 np.array고
# 수치로 되어있는것을 one-hot encoding으로 만드는것은 tensorflow

['나는', '학교에', '잘', '다니는', '학생', '입니다']


array([2, 3, 1, 4, 5, 6])

In [None]:
# tf를 이용한 one-hot encoding, 조건: 문장들의 길이(rows = 행)가 동일해야함 
# 아까 만든 one hot encoding은 0번인덱스는 6개 단어를 포함하고 1번인덱스는 5개의 단어를 포함
# 따라서 tf(텐서플로) 불가능하다.
import tensorflow as tf
# 열의 길이는 depth, corpus_dic 길이

tf_one_hot_encodings = tf.one_hot(indices=token_ids[0], depth=len(word_to_id))
tf_one_hot_encodings

<tf.Tensor: shape=(6, 11), dtype=float32, numpy=
array([[0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.]], dtype=float32)>

In [None]:
# 문장들의 길이가 rows = 6 되도록 pad를 추가
# 단어의 개수를 맞춰주라는 뜻임
# 아까 6개와 5개로 불일치 했기때문에 token_ids[0]만 했었잖아ㅇㅇ
pad_ids = []
rows=6
for line in token_ids:
    line = line[:rows]
    line += [0] * (rows - len(line))  # 맨마지막에 0넣겠다는 뜻임
    pad_ids.append(line)
pad_ids

[[2, 3, 1, 4, 5, 6], [8, 1, 7, 8, 6, 0]]

In [None]:
#기존 one-hot에서 마지막 행 pad가 추가된 one-hot

# 2번째 위로가면 token_ids[0]만 했었어 하지만 이젠 단어개수 6으로 통일했기 때문에
# pad_ids전체를 tf가능한거지ㅇㅇ
tf_one_hot_encodings = tf.one_hot(indices=pad_ids, depth=len(word_to_id))
tf_one_hot_encodings

# 결과해석 1번 인덱스의 마지막 리스트는 필요없는거죠 길이 맞춰주려고 껴넣은거니까요

<tf.Tensor: shape=(2, 6, 11), dtype=float32, numpy=
array([[[0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
        [0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
        [0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
        [0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
        [1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]]], dtype=float32)>

In [None]:
# [나는 학교에 잘 다니는 학생 입니다]의 one-hot encoding
import pandas as pd

df = pd.DataFrame(np.int8(tf_one_hot_encodings[1]), columns=corpus_dic.keys())
df

Unnamed: 0,[PAD],[UNK],나는,학교에,다니는,학생,입니다,좋은,선생님,당신은,매우
0,0,0,0,0,0,0,0,0,1,0,0
1,0,1,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,1,0,0,0
3,0,0,0,0,0,0,0,0,1,0,0
4,0,0,0,0,0,0,1,0,0,0,0
5,1,0,0,0,0,0,0,0,0,0,0


## 다.BOW 생성
### 바로위 결과를 봐 불필요한 0이 너무많으니까 없애주는 작업ㄱㄱ

말뭉치 사전의 토큰 인덱스 위치에 토큰 출현 회수 누적, 순서 정보의 손실

In [None]:
sentences

['나는 학교에 잘 다니는 학생 입니다', '선생님 은 좋은 선생님 입니다']

In [None]:
# sentences의 one-hot으로부터 열 기준합계로 Bow 생성
sentence = np.sum(tf_one_hot_encodings, axis=1)  # 세로로 합쳐버린거죠?
sentence

array([[0., 1., 1., 1., 1., 1., 1., 0., 0., 0., 0.],
       [1., 1., 0., 0., 0., 0., 1., 1., 2., 0., 0.]], dtype=float32)

In [None]:
# [나는 학교에 잘 다니는 학생 입니다, 선생님 은 좋은 선생님 입니다]의 BOW 표현
import pandas as pd
df = pd.DataFrame(np.int8(sentence), columns=corpus_dic.keys())
df

# 문장에 어떤 단어가 몇개인지 개수는 알수 있지만 이 결과를 가지고 다시 원래 문장을 쓰긴 매우 어렵다.(순서를 몰라서!!)


Unnamed: 0,[PAD],[UNK],나는,학교에,다니는,학생,입니다,좋은,선생님,당신은,매우
0,0,1,1,1,1,1,1,0,0,0,0
1,1,1,0,0,0,0,1,1,2,0,0


# 3.다양한 형태의 토큰화
## 위의 방법과 또 다른 방법임




토큰화 : 일정한 입력단위로 분할

## 가.문자나 단어 단위 토큰화
#### 위에꺼 안쓰고 여기부터 공부해도 될듯?
#### 여기부턴 위의 방법보다 쉬운?? 더 발전한?? 그런거인가봄

In [None]:
corpus

'나는 학교에 다니는 학생 입니다\n나는 좋은 선생님 입니다\n당신은 매우 좋은 선생님 입니다'

In [None]:
# 문자단위로 나누기: list
print(list(corpus))

['나', '는', ' ', '학', '교', '에', ' ', '다', '니', '는', ' ', '학', '생', ' ', '입', '니', '다', '\n', '나', '는', ' ', '좋', '은', ' ', '선', '생', '님', ' ', '입', '니', '다', '\n', '당', '신', '은', ' ', '매', '우', ' ', '좋', '은', ' ', '선', '생', '님', ' ', '입', '니', '다']


In [None]:
# space(띄어쓰기) 기준 단어단위 나누기 : split
print(corpus.split())

# 여기까지가 문자나 단어 단위 토큰화이다.

['나는', '학교에', '다니는', '학생', '입니다', '나는', '좋은', '선생님', '입니다', '당신은', '매우', '좋은', '선생님', '입니다']


### 그래서 토큰화라는건 글자(문자)단위, 문장단위로 나눠줄수 있는데, 우리는 한글이기 때문에 최소의 의미를 가진 단어를 나누고싶죠? 그래서 문자단위, 문장단위보단 형태소단위가 짱이죠

## 나.형태소 기준 토큰화

In [None]:
# 형태소 분석기임

import konlpy
komoran = konlpy.tag.Komoran()
komoran.morphs('아버지가방에들어가신다')

['아버지', '가방', '에', '들어가', '시', 'ㄴ다']

In [None]:
# corpus = """나는 학교에 다니는 학생 입니다
# 나는 좋은 선생님 입니다
# 당신은 매우 좋은 선생님 입니다"""

print(komoran.morphs(corpus))

['나', '는', '학교', '에', '다니', '는', '학생', '이', 'ㅂ니다', '나', '는', '좋', '은', '선생님', '이', 'ㅂ니다', '당신', '은', '매우', '좋', '은', '선생님', '이', 'ㅂ니다']


In [None]:
text = '홍길동 전화번호는 Kt 1234-5678번 입니까?'

In [None]:
# 한글 형태소분석기 클래스 불러오기
from konlpy.tag import Hannanum, Komoran, Kkma, Okt

komoran = Komoran()
print(komoran.pos(text))

okt = Okt()
print(okt.pos(text))

[('홍길동', 'NNP'), ('전화번호', 'NNP'), ('는', 'JX'), ('Kt', 'SL'), ('1234', 'SN'), ('-', 'SW'), ('5678', 'SN'), ('번', 'NNB'), ('입', 'VV'), ('니까', 'EF'), ('?', 'SF')]
[('홍길동', 'Noun'), ('전화번호', 'Noun'), ('는', 'Josa'), ('Kt', 'Alpha'), ('1234-5678', 'Number'), ('번', 'Noun'), ('입', 'Noun'), ('니까', 'Josa'), ('?', 'Punctuation')]


In [None]:
# komoran.tagset
okt.tagset

{'Adjective': '형용사',
 'Adverb': '부사',
 'Alpha': '알파벳',
 'Conjunction': '접속사',
 'Determiner': '관형사',
 'Eomi': '어미',
 'Exclamation': '감탄사',
 'Foreign': '외국어, 한자 및 기타기호',
 'Hashtag': '트위터 해쉬태그',
 'Josa': '조사',
 'KoreanParticle': '(ex: ㅋㅋ)',
 'Noun': '명사',
 'Number': '숫자',
 'PreEomi': '선어말어미',
 'Punctuation': '구두점',
 'ScreenName': '트위터 아이디',
 'Suffix': '접미사',
 'Unknown': '미등록어',
 'Verb': '동사'}

In [None]:
# komoran.tagset

In [None]:
# tagset 보기
print(komoran.tagset)

{'EC': '연결 어미', 'EF': '종결 어미', 'EP': '선어말어미', 'ETM': '관형형 전성 어미', 'ETN': '명사형 전성 어미', 'IC': '감탄사', 'JC': '접속 조사', 'JKB': '부사격 조사', 'JKC': '보격 조사', 'JKG': '관형격 조사', 'JKO': '목적격 조사', 'JKQ': '인용격 조사', 'JKS': '주격 조사', 'JKV': '호격 조사', 'JX': '보조사', 'MAG': '일반 부사', 'MAJ': '접속 부사', 'MM': '관형사', 'NA': '분석불능범주', 'NF': '명사추정범주', 'NNB': '의존 명사', 'NNG': '일반 명사', 'NNP': '고유 명사', 'NP': '대명사', 'NR': '수사', 'NV': '용언추정범주', 'SE': '줄임표', 'SF': '마침표, 물음표, 느낌표', 'SH': '한자', 'SL': '외국어', 'SN': '숫자', 'SO': '붙임표(물결,숨김,빠짐)', 'SP': '쉼표,가운뎃점,콜론,빗금', 'SS': '따옴표,괄호표,줄표', 'SW': '기타기호 (논리수학기호,화폐기호)', 'VA': '형용사', 'VCN': '부정 지정사', 'VCP': '긍정 지정사', 'VV': '동사', 'VX': '보조 용언', 'XPN': '체언 접두사', 'XR': '어근', 'XSA': '형용사 파생 접미사', 'XSN': '명사파생 접미사', 'XSV': '동사 파생 접미사'}


In [None]:
# 형태소 분석기는 다 분석하는 기준이 다르다.
print(komoran.morphs(text))
print(okt.morphs(text))

['홍길동', '전화번호', '는', 'Kt', '1234', '-', '5678', '번', '입', '니까', '?']
['홍길동', '전화번호', '는', 'Kt', '1234-5678', '번', '입', '니까', '?']


In [None]:
# 명사추출
print(komoran.nouns(text))
print(okt.nouns(text))

# 우리는 이 형태소분석기를 가지고 한글의 특징에 맞게 띄어쓰기 안된 부분을 
# 구분해주는 형태소로 만들어줄수있고, 아버지는 아버지에게 아버지께서와 같이
# 하나의 단어로 만들지 않고 '아버지', '께서'로 분리시킬 수 있는거죠

# 즉, 형태소분석기로 띄어쓰기를 해주고, 이것을 가지고 단어 사전을 만들면
# 아버지는, 아버지에게, 아버지께서와 같이 별도의 단어를 만들 필요가 없어지는거죠
# 왜냐? 아버지따로 는따로 에게따로 니까요 ㅇㅇ

# ★★그래서 한글의 특성에 맞게 단어사전을 만드는 방법은, 띄어쓰기 단위 or 토큰단위로
# 나눠주는 방법이 아니고 형태소 분석기로 먼저 문장을 분석해서 띄어쓰기를 해주고
# 그 띄어쓰기를 기준으로 단어사전을 만들면 더 효율적인 단어사전을 구축할 수 있다는것이
# 좋은 점입니다. 아래에서 빅데이터를 가지고 우리가 말뭉치 사전을 만들때 이 방법(위에 쓴 효율적)
# 을 사용할 수 있도록 해보자.

# 여기까지가 형태소 기준 토큰화!!

['홍길동', '전화번호', '번']
['홍길동', '전화번호', '번', '입']


## 다.토큰 다루는 여러가지 방법

In [None]:
# 토큰 count
import collections
char_counter = collections.Counter()
char_counter.update(list(corpus))

In [None]:
corpus

'나는 학교에 다니는 학생 입니다\n나는 좋은 선생님 입니다\n당신은 매우 좋은 선생님 입니다'

In [None]:
# 글자단위 빈도수
print(char_counter)

Counter({' ': 11, '다': 4, '니': 4, '는': 3, '생': 3, '입': 3, '은': 3, '나': 2, '학': 2, '\n': 2, '좋': 2, '선': 2, '님': 2, '교': 1, '에': 1, '당': 1, '신': 1, '매': 1, '우': 1})


In [None]:
# 유니크한 char 개수, 즉 char_counter의 길이를 출력시키는것
print(len(char_counter))

19


In [None]:
# help(sorted)
char_counter.items()

dict_items([('나', 2), ('는', 3), (' ', 11), ('학', 2), ('교', 1), ('에', 1), ('다', 4), ('니', 4), ('생', 3), ('입', 3), ('\n', 2), ('좋', 2), ('은', 3), ('선', 2), ('님', 2), ('당', 1), ('신', 1), ('매', 1), ('우', 1)])

In [None]:
# 빈도수가 많은 글자 10개 출력 reverse=Ture는 내림차순
# lambda item:item[1] 해석 => item중에 item[1] 즉, items의 인덱스[1]을 내림차순해라
most_freq = sorted(char_counter.items(), key=lambda item: item[1], reverse=True)
print(most_freq[:10])

[(' ', 11), ('다', 4), ('니', 4), ('는', 3), ('생', 3), ('입', 3), ('은', 3), ('나', 2), ('학', 2), ('\n', 2)]


In [None]:
# 위의 람다가 이해안가면 이런 방법도 있다
def get_key(item):
    return item[1]

most_freq = sorted(char_counter.items(), key=get_key, reverse=True)
print(most_freq[:10])

[(' ', 11), ('다', 4), ('니', 4), ('는', 3), ('생', 3), ('입', 3), ('은', 3), ('나', 2), ('학', 2), ('\n', 2)]


In [None]:
# 빈도수가 적은 글자 10개 출력 오름차순이죠?
least_freq = sorted(char_counter.items(), key=lambda item: item[1])
print(least_freq[:10])

[('교', 1), ('에', 1), ('당', 1), ('신', 1), ('매', 1), ('우', 1), ('나', 2), ('학', 2), ('\n', 2), ('좋', 2)]


In [None]:
# 한글 문자를 참조 인덱스로 변환 함수 ord, 참조인덱스를 한글로 변환 chr 
print(ord('가'),ord('힣'), chr(44032), chr(44034))
# help(ord)

44032 55203 가 갂


In [None]:
# 가~힣까지 11172

hangul = [chr(i) for i in range(ord('가'), ord('힣') + 1)]
len(hangul)

11172

In [None]:
print(hangul[:100])

['가', '각', '갂', '갃', '간', '갅', '갆', '갇', '갈', '갉', '갊', '갋', '갌', '갍', '갎', '갏', '감', '갑', '값', '갓', '갔', '강', '갖', '갗', '갘', '같', '갚', '갛', '개', '객', '갞', '갟', '갠', '갡', '갢', '갣', '갤', '갥', '갦', '갧', '갨', '갩', '갪', '갫', '갬', '갭', '갮', '갯', '갰', '갱', '갲', '갳', '갴', '갵', '갶', '갷', '갸', '갹', '갺', '갻', '갼', '갽', '갾', '갿', '걀', '걁', '걂', '걃', '걄', '걅', '걆', '걇', '걈', '걉', '걊', '걋', '걌', '걍', '걎', '걏', '걐', '걑', '걒', '걓', '걔', '걕', '걖', '걗', '걘', '걙', '걚', '걛', '걜', '걝', '걞', '걟', '걠', '걡', '걢', '걣']


In [None]:
print(hangul[-100:])

['흀', '흁', '흂', '흃', '흄', '흅', '흆', '흇', '흈', '흉', '흊', '흋', '흌', '흍', '흎', '흏', '흐', '흑', '흒', '흓', '흔', '흕', '흖', '흗', '흘', '흙', '흚', '흛', '흜', '흝', '흞', '흟', '흠', '흡', '흢', '흣', '흤', '흥', '흦', '흧', '흨', '흩', '흪', '흫', '희', '흭', '흮', '흯', '흰', '흱', '흲', '흳', '흴', '흵', '흶', '흷', '흸', '흹', '흺', '흻', '흼', '흽', '흾', '흿', '힀', '힁', '힂', '힃', '힄', '힅', '힆', '힇', '히', '힉', '힊', '힋', '힌', '힍', '힎', '힏', '힐', '힑', '힒', '힓', '힔', '힕', '힖', '힗', '힘', '힙', '힚', '힛', '힜', '힝', '힞', '힟', '힠', '힡', '힢', '힣']


# 4.빅데이터 한국어 말뭉치 사전 개발

말뭉치 사전을 만드는 가장 좋은 방법은 한국어 형태소분석기와 Sentencepiece를 동시에 사용하는 것으로 알려짐 

한국어 wiki 말뭉치 : https://dumps.wikimedia.org/kowiki/ 

## 가.한국어 위키 데이터 말뭉치

In [None]:
# google drive mount
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# data dir
import os
data_dir = '/content/drive/MyDrive/data'
os.listdir(data_dir)

['example.py', 'test.txt', 'kowiki']

In [None]:
import os
corpus = os.path.join(data_dir, "kowiki", "kowiki.txt.zip")
corpus_dir = os.path.dirname(corpus)
corpus

'/content/drive/MyDrive/data/kowiki/kowiki.txt.zip'

In [None]:
print(corpus)
print(corpus_dir)

'/content/drive/MyDrive/data/kowiki'

In [None]:
# wiki 라인수 확인, tqdm 함수 사용시 전체 진행 경과 확인에 필요
import zipfile
from tqdm.notebook import tqdm, trange

count = 0
with zipfile.ZipFile(corpus) as z:
    with z.open('kowiki.txt') as f:
        for i, line in enumerate(tqdm(f)):
            count += 1

# 370만 line이 넘는다.
print(count)

0it [00:00, ?it/s]

3724301


In [None]:
# wiki 내용 확인
with zipfile.ZipFile(corpus) as z:
    with z.open('kowiki.txt') as f:
        for i, line in enumerate(f):
            if i >= 50:
                break
            line = line.decode('utf-8').strip()
            print(line)

지미 카터
제임스 얼 "지미" 카터 주니어(, 1924년 10월 1일 ~ )는 민주당 출신 미국 39번째 대통령 (1977년 ~ 1981년)이다.
지미 카터는 조지아주 섬터 카운티 플레인스 마을에서 태어났다. 조지아 공과대학교를 졸업하였다. 그 후 해군에 들어가 전함·원자력·잠수함의 승무원으로 일하였다. 1953년 미국 해군 대위로 예편하였고 이후 땅콩·면화 등을 가꿔 많은 돈을 벌었다. 그의 별명이 "땅콩 농부" (Peanut Farmer)로 알려졌다.
1962년 조지아 주 상원 의원 선거에서 낙선하나 그 선거가 부정선거 였음을 입증하게 되어 당선되고, 1966년 조지아 주 지사 선거에 낙선하지만 1970년 조지아 주 지사를 역임했다. 대통령이 되기 전 조지아주 상원의원을 두번 연임했으며, 1971년부터 1975년까지 조지아 지사로 근무했다. 조지아 주지사로 지내면서, 미국에 사는 흑인 등용법을 내세웠다.
1976년 대통령 선거에 민주당 후보로 출마하여 도덕주의 정책으로 내세워, 포드를 누르고 당선되었다.
카터 대통령은 에너지 개발을 촉구했으나 공화당의 반대로 무산되었다.
카터는 이집트와 이스라엘을 조정하여, 캠프 데이비드에서 안와르 사다트 대통령과 메나헴 베긴 수상과 함께 중동 평화를 위한 캠프데이비드 협정을 체결했다.
그러나 이것은 공화당과 미국의 유대인 단체의 반발을 일으켰다. 1979년 백악관에서 양국 간의 평화조약으로 이끌어졌다. 또한 소련과 제2차 전략 무기 제한 협상에 조인했다.
카터는 1970년대 후반 당시 대한민국 등 인권 후진국의 국민들의 인권을 지키기 위해 노력했으며, 취임 이후 계속해서 도덕정치를 내세웠다.
그러나 주 이란 미국 대사관 인질 사건에서 인질 구출 실패를 이유로 1980년 대통령 선거에서 공화당의 로널드 레이건 후보에게 져 결국 재선에 실패했다. 또한 임기 말기에 터진 소련의 아프가니스탄 침공 사건으로 인해 1980년 하계 올림픽에 반공국가들의 보이콧을 내세웠다.
지미 카터는 대한민국과의 관계에서도 중요한 영향을 미쳤던 대통

## 나.Sentencepiece 라이브러리

sentencepiece 라이브러리는 우리가 지정해주는 사전의 크기를 기준으로 단어를 문자 단위로 분해하고, 높은 빈도수 순으로 subword를 생성해서 토큰을 만들어 단어사전을 만든다.

In [None]:
import sentencepiece as spm
def train_sentencepiece(corpus, prefix, vocab_size=32000):
    """
    sentencepiece를 이용해 vocab 학습
    :param corpus: 학습할 말뭉치
    :param prefix: 저장할 vocab 이름
    :param vocab_size: vocab 개수
    """
    spm.SentencePieceTrainer.train(
        f"--input={corpus} --model_prefix={prefix} --vocab_size={vocab_size + 7}" +  # 7은 특수문자 개수
        " --model_type=unigram" +
        " --max_sentence_length=999999" +  # 문장 최대 길이
        " --pad_id=0 --pad_piece=[PAD]" +  # pad token 및 id 지정
        " --unk_id=1 --unk_piece=[UNK]" +  # unknown token 및 id 지정
        " --bos_id=2 --bos_piece=[BOS]" +  # begin of sequence token 및 id 지정 (시작단어)
        " --eos_id=3 --eos_piece=[EOS]" +  # end of sequence token 및 id 지정 (끝나는단어)
        " --user_defined_symbols=[SEP],[CLS],[MASK]" +  # 기타 추가 토큰 SEP: 4, CLS: 5, MASK: 6
        " --input_sentence_size=100000" +  # 말뭉치에서 셈플링해서 학습
        " --shuffle_input_sentence=true")  # 셈플링한 말뭉치 shuffle

In [None]:
# 현재 작업폴더에 압축풀기
!unzip /content/drive/MyDrive/data/kowiki/kowiki.txt.zip
print(os.listdir("./"))

Archive:  /content/drive/MyDrive/data/kowiki/kowiki.txt.zip
replace kowiki.txt? [y]es, [n]o, [A]ll, [N]one, [r]ename: ['.config', 'kowiki_32000.vocab', 'kowiki.txt', 'drive', 'kowiki-mecab.txt', '__MACOSX', 'kowiki_32000.model', 'sample_data']


In [None]:
# 말뭉치 사전 생성
# 함수실행시 옆 파일에 kowiki_32000.model, kowiki_32000.vocab이 생김
train_sentencepiece("kowiki.txt", "kowiki_32000")

In [None]:
# 생성결과 확인
print(os.listdir("./"))

['.config', 'kowiki_32000.vocab', 'kowiki.txt', 'drive', 'kowiki-mecab.txt', '__MACOSX', 'kowiki_32000.model', 'sample_data']


In [None]:
# 생성파일 백업, shutil은 파일 복제 복사 라이브러리
# 내 구글드라이브에 직접 업로드 시켜놓는 코딩
# 보통은 이거 끄면 첨부터 다 실행해야 하잖아
# 근데 이렇게 코딩하면 내 구글드라이브에 들어가있지
import shutil
corpus_dir = os.path.dirname(corpus)
shutil.copy("kowiki_32000.model", corpus_dir)
shutil.copy("kowiki_32000.vocab", corpus_dir)
shutil.copy("kowiki.txt", corpus_dir)

print(os.listdir(corpus_dir))

['kowiki.txt.zip', 'kowiki_32000.model', 'kowiki_32000.vocab', 'kowiki.txt']


In [None]:
# 말뭉치 사전 업로드
spm_vocab = spm.SentencePieceProcessor()
spm_vocab.load(os.path.join(corpus_dir,"kowiki_32000.model"))

True

In [None]:
# 말뭉치 사전 기준 토큰화
with zipfile.ZipFile(corpus) as z:
    with z.open('kowiki.txt') as f:
        for i, line in enumerate(f):
          if i < 3:
            line = line.decode('utf-8').strip()
            print(line)

            tokens = spm_vocab.encode_as_pieces(line)
            print(tokens)

            _ids = spm_vocab.encode_as_ids(line)
            print(_ids)
            print()
            
            # if i >= 5:
            #     break
            # line = line.decode('utf-8').strip()
            # print(line)

            # tokens = spm_vocab.encode_as_pieces(line)
            # print(tokens)

            # _ids = spm_vocab.encode_as_ids(line)
            # print(_ids)

지미 카터
['▁지미', '▁카터']
[14470, 19081]

제임스 얼 "지미" 카터 주니어(, 1924년 10월 1일 ~ )는 민주당 출신 미국 39번째 대통령 (1977년 ~ 1981년)이다.
['▁제임스', '▁얼', '▁"', '지', '미', '"', '▁카터', '▁주니어', '(', ',', '▁1924', '년', '▁10', '월', '▁1', '일', '▁~', '▁)', '는', '▁민주당', '▁출신', '▁미국', '▁39', '번째', '▁대통령', '▁', '(1977', '년', '▁~', '▁1981', '년', ')', '이다', '.']
[2002, 5517, 49, 45, 167, 50, 19081, 5795, 16, 9, 5556, 17, 67, 24, 36, 30, 86, 140, 12, 2473, 702, 139, 5020, 672, 654, 10, 26492, 17, 86, 2275, 17, 13, 26, 7]

지미 카터는 조지아주 섬터 카운티 플레인스 마을에서 태어났다. 조지아 공과대학교를 졸업하였다. 그 후 해군에 들어가 전함·원자력·잠수함의 승무원으로 일하였다. 1953년 미국 해군 대위로 예편하였고 이후 땅콩·면화 등을 가꿔 많은 돈을 벌었다. 그의 별명이 "땅콩 농부" (Peanut Farmer)로 알려졌다.
['▁지미', '▁카터', '는', '▁조지아주', '▁섬', '터', '▁카운티', '▁플레', '인', '스', '▁마을에서', '▁태어났다', '.', '▁조지아', '▁공과대학교', '를', '▁졸업', '하였다', '.', '▁그', '▁후', '▁해군', '에', '▁들어가', '▁전함', '·', '원자력', '·', '잠', '수', '함', '의', '▁승무원', '으로', '▁일', '하였다', '.', '▁1953', '년', '▁미국', '▁해군', '▁대위', '로', '▁예편', '하였고', '▁이후', '▁땅콩', '·', '면', '화', '▁등을', '▁가', '꿔'

In [None]:
# 문자열을 token으로 분할: encode_as_pieces
tokens = spm_vocab.encode_as_pieces("아름다운 대한민국 우리나라 금수강산")
print(tokens)


['▁아름다운', '▁대한민국', '▁우리나라', '▁금', '수', '강', '산']


In [None]:
# token을 문자열로 복원: decode_pieces 
print(spm_vocab.decode_pieces(tokens))

아름다운 대한민국 우리나라 금수강산


In [None]:
# 문자열을 숫자로 분할 : encode_as_ids
ids = spm_vocab.encode_as_ids("아름다운 대한민국 우리나라 금수강산")

print(ids)

[4877, 243, 6310, 653, 103, 299, 158]


In [None]:
# 숫자를 문자열로 복원: decod_ids
print(spm_vocab.decode_ids(ids))

아름다운 대한민국 우리나라 금수강산


In [None]:
# token을 숫자로 변경: piece_to_id
print(spm_vocab.piece_to_id(tokens))

[4877, 243, 6310, 653, 103, 299, 158]


In [None]:
# 숫자를 token으로 변경: id_to_piece
print(spm_vocab.id_to_piece(ids))

['▁아름다운', '▁대한민국', '▁우리나라', '▁금', '수', '강', '산']


## 다.형태소분석을 이용한 말뭉치 사전 개발

In [None]:
# 아주 큰 덩어리의 형태소 분석을 사용하고자 할땐 mecab이 좋다.
# 한글 형태소 분석기 mecab 설치 : 4분정도 소요
!set -x \
&& pip install konlpy \
&& curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh | bash -x

+ pip install konlpy
Collecting konlpy
  Downloading konlpy-0.5.2-py2.py3-none-any.whl (19.4 MB)
[K     |████████████████████████████████| 19.4 MB 1.3 MB/s 
[?25hCollecting JPype1>=0.7.0
  Downloading JPype1-1.3.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (448 kB)
[K     |████████████████████████████████| 448 kB 44.4 MB/s 
Collecting beautifulsoup4==4.6.0
  Downloading beautifulsoup4-4.6.0-py3-none-any.whl (86 kB)
[K     |████████████████████████████████| 86 kB 5.4 MB/s 
[?25hCollecting colorama
  Downloading colorama-0.4.4-py2.py3-none-any.whl (16 kB)
Installing collected packages: JPype1, colorama, beautifulsoup4, konlpy
  Attempting uninstall: beautifulsoup4
    Found existing installation: beautifulsoup4 4.6.3
    Uninstalling beautifulsoup4-4.6.3:
      Successfully uninstalled beautifulsoup4-4.6.3
Successfully installed JPype1-1.3.0 beautifulsoup4-4.6.0 colorama-0.4.4 konlpy-0.5.2
+ bash -x
+ curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/

In [None]:
# 대용량 처리는 Mecab 사용 권장
# 아까했던 komoran, okt를 가지고 했던것과 동일한 결과가 나온다.
from konlpy.tag import Mecab
mecab = Mecab() 
' '.join(mecab.morphs("아버지가방에들어가신다"))

'아버지 가 방 에 들어가 신다'

In [None]:
# morph 단위로 분할된 말뭉치 생성,  mecab으로 진행시 20분 정도 소요 
# tqdm은 눈으로 얼만큼 진행되고 있는지 확인할수 있게 집어넣은것
from tqdm.notebook import tqdm, trange
import zipfile

with open("kowiki-mecab.txt", "w") as o_f:
    with zipfile.ZipFile(corpus) as z:
        with z.open('kowiki.txt') as f:
            for i, line in enumerate(tqdm(f, total=count)):
                line = line.decode('utf-8').strip()
                tokens = mecab.morphs(line)
                string = " ".join(tokens)
                o_f.write(string)
                o_f.write("\n")

  0%|          | 0/3724301 [00:00<?, ?it/s]

In [None]:
# 파일 확인
print(os.listdir("./"))

['.config', 'kowiki_32000.vocab', 'kowiki.txt', 'drive', 'kowiki-mecab.txt', '__MACOSX', 'kowiki_32000.model', 'sample_data']


In [None]:
# 구글드라이브에 백업
import shutil
corpus_dir = os.path.dirname(corpus)
shutil.copy("kowiki-mecab.txt", corpus_dir)

'/content/drive/MyDrive/data/kowiki/kowiki-mecab.txt'

In [None]:
# 기존 kowiki(원래 텍스트문서)
with open(os.path.join(corpus_dir,'kowiki.txt')) as f:
    for i, line in enumerate(f):
        if i > 5:
            break
        print(line.strip())

print()

# 바로위 만든 kowiki-mecab.txt를 이용
# Mecab 형태소 분석한 kowiki
# 기존 kowiki완 다르게 형태소단위로 구별이 되어있다.
with open(os.path.join(corpus_dir,'kowiki-mecab.txt')) as f:
    for i, line in enumerate(f):
        if i > 5:
            break
        print(line.strip())

지미 카터
제임스 얼 "지미" 카터 주니어(, 1924년 10월 1일 ~ )는 민주당 출신 미국 39번째 대통령 (1977년 ~ 1981년)이다.
지미 카터는 조지아주 섬터 카운티 플레인스 마을에서 태어났다. 조지아 공과대학교를 졸업하였다. 그 후 해군에 들어가 전함·원자력·잠수함의 승무원으로 일하였다. 1953년 미국 해군 대위로 예편하였고 이후 땅콩·면화 등을 가꿔 많은 돈을 벌었다. 그의 별명이 "땅콩 농부" (Peanut Farmer)로 알려졌다.
1962년 조지아 주 상원 의원 선거에서 낙선하나 그 선거가 부정선거 였음을 입증하게 되어 당선되고, 1966년 조지아 주 지사 선거에 낙선하지만 1970년 조지아 주 지사를 역임했다. 대통령이 되기 전 조지아주 상원의원을 두번 연임했으며, 1971년부터 1975년까지 조지아 지사로 근무했다. 조지아 주지사로 지내면서, 미국에 사는 흑인 등용법을 내세웠다.
1976년 대통령 선거에 민주당 후보로 출마하여 도덕주의 정책으로 내세워, 포드를 누르고 당선되었다.
카터 대통령은 에너지 개발을 촉구했으나 공화당의 반대로 무산되었다.

지미 카터
제임스 얼 " 지미 " 카터 주니어 ( , 1924 년 10 월 1 일 ~ ) 는 민주당 출신 미국 39 번 째 대통령 ( 1977 년 ~ 1981 년 ) 이 다 .
지미 카터 는 조지 아주 섬터 카운티 플 레인스 마을 에서 태어났 다 . 조지 아 공과 대학교 를 졸업 하 였 다 . 그 후 해군 에 들어가 전함 · 원자력 · 잠수함 의 승무원 으로 일 하 였 다 . 1953 년 미국 해군 대위 로 예편 하 였 고 이후 땅콩 · 면화 등 을 가꿔 많 은 돈 을 벌 었 다 . 그 의 별명 이 " 땅콩 농부 " ( Peanut Farmer ) 로 알려졌 다 .
1962 년 조지아 주 상원 의원 선거 에서 낙선 하 나 그 선거 가 부정 선거 였음을 입증 하 게 되 어 당선 되 고 , 1966 년 조지아 주 지사 선거 에 낙선 하 지만 1970 년 조지아 주 지사 를 역임 했 다 . 대

In [None]:
corpus_dir

'/content/drive/MyDrive/data/kowiki'

In [None]:
# morph vocab 학습
# 이번에도 이 함수쓰니까 model, vocab버전 두개가 생성되네?
# 띄어쓰기가 sentencepiece로 띄어쓰기 할때와는 다르다
train_sentencepiece(os.path.join(corpus_dir,'kowiki-mecab.txt'), "kowiki_mecab_32000")

In [None]:
# 생성결과 확인
print(os.listdir("./"))

['.config', 'kowiki_32000.vocab', 'kowiki.txt', 'kowiki_mecab_32000.vocab', 'drive', 'kowiki_mecab_32000.model', 'kowiki-mecab.txt', '__MACOSX', 'kowiki_32000.model', 'sample_data']


In [None]:
# 생성파일 구글드라이브에 백업
corpus_dir = os.path.dirname(corpus)
shutil.copy("kowiki_mecab_32000.model", corpus_dir)
shutil.copy("kowiki_mecab_32000.vocab", corpus_dir)

print(os.listdir(corpus_dir))

['kowiki.txt.zip', 'kowiki_32000.model', 'kowiki_32000.vocab', 'kowiki.txt', 'kowiki-mecab.txt', 'kowiki_mecab_32000.model', 'kowiki_mecab_32000.vocab']


In [None]:
# load morph vocab
spm_morph_vocab = spm.SentencePieceProcessor()
spm_morph_vocab.load(os.path.join(corpus_dir, "kowiki_mecab_32000.model"))

True

In [None]:
# wiki spm tokenize
# 토큰화임ㅇㅇ
with zipfile.ZipFile(corpus) as z:
    with z.open('kowiki.txt') as f:
        for i, line in enumerate(f):
            if i >= 5:
                break
            line = line.decode('utf-8').strip()
            print(line)

            # 지미 카터를 형태소단위로 분류 
            tokens = spm_morph_vocab.encode_as_pieces(line)
            print(tokens)

            # 각 형태소를 단어사전을 기준으로 수치화 시킴
            _ids = spm_morph_vocab.encode_as_ids(line)
            print(_ids)
            print()

# 결과해석: 지미 카터를 형태소단위로 분류했고

지미 카터
['▁지', '미', '▁카터']
[45, 520, 8873]

제임스 얼 "지미" 카터 주니어(, 1924년 10월 1일 ~ )는 민주당 출신 미국 39번째 대통령 (1977년 ~ 1981년)이다.
['▁제임스', '▁얼', '▁"', '지', '미', '"', '▁카터', '▁주니어', '(', ',', '▁19', '24', '년', '▁10', '월', '▁1', '일', '▁~', '▁)', '는', '▁', '민주당', '▁출신', '▁미국', '▁39', '번', '째', '▁대통령', '▁(', '19', '77', '년', '▁~', '▁19', '81', '년', ')', '이', '다', '.']
[2351, 3479, 50, 75, 520, 4585, 8873, 4349, 2303, 2379, 46, 2265, 561, 110, 1917, 44, 519, 102, 18, 746, 16, 2003, 594, 125, 2837, 1914, 2135, 457, 19, 1880, 4281, 561, 102, 46, 2521, 561, 3614, 71, 220, 2543]

지미 카터는 조지아주 섬터 카운티 플레인스 마을에서 태어났다. 조지아 공과대학교를 졸업하였다. 그 후 해군에 들어가 전함·원자력·잠수함의 승무원으로 일하였다. 1953년 미국 해군 대위로 예편하였고 이후 땅콩·면화 등을 가꿔 많은 돈을 벌었다. 그의 별명이 "땅콩 농부" (Peanut Farmer)로 알려졌다.
['▁지', '미', '▁카터', '는', '▁조지아', '주', '▁섬', '터', '▁카운티', '▁플레인', '스', '▁마을', '에', '서', '▁태어났', '다', '.', '▁조지아', '▁공과', '대', '학교', '를', '▁졸업', '하', '였', '다', '.', '▁그', '▁후', '▁해군', '에', '▁들', '어가', '▁전함', '·', '원', '자', '력', '·', '잠', '수', '함', '의', '▁승무', '원

## 라.개발 사전 비교

In [None]:
# 말뭉치 사전 업로드(로딩)
# kowiki_32000모델과 kowiki_mecab_32000.model비교하기

import sentencepiece as spm
sp = spm.SentencePieceProcessor()
sp.load(os.path.join(data_dir,'kowiki', "kowiki_32000.model"))
sp_morph = spm.SentencePieceProcessor()
sp_morph.load(os.path.join(data_dir,'kowiki', "kowiki_mecab_32000.model"))

True

In [None]:
# wiki spm tokenize
import zipfile
with zipfile.ZipFile(corpus) as z:
    with z.open('kowiki.txt') as f:
        for i, line in enumerate(f):
            if i >= 5:
                break
            line = line.decode('utf-8').strip()
            print(line)
            tokens = sp.encode_as_pieces(line)
            print(tokens)
            # _ids = sp.encode_as_ids(line)
            # print(_ids)
            tokens1 = sp_morph.encode_as_pieces(line)
            print(tokens1)
            # _ids1 = sp_morph.encode_as_ids(line)
            # print(_ids1)
            print()
            

지미 카터
['▁지미', '▁카터']
['▁지', '미', '▁카터']

제임스 얼 "지미" 카터 주니어(, 1924년 10월 1일 ~ )는 민주당 출신 미국 39번째 대통령 (1977년 ~ 1981년)이다.
['▁제임스', '▁얼', '▁"', '지', '미', '"', '▁카터', '▁주니어', '(', ',', '▁1924', '년', '▁10', '월', '▁1', '일', '▁~', '▁)', '는', '▁민주당', '▁출신', '▁미국', '▁39', '번째', '▁대통령', '▁', '(1977', '년', '▁~', '▁1981', '년', ')', '이다', '.']
['▁제임스', '▁얼', '▁"', '지', '미', '"', '▁카터', '▁주니어', '(', ',', '▁19', '24', '년', '▁10', '월', '▁1', '일', '▁~', '▁)', '는', '▁', '민주당', '▁출신', '▁미국', '▁39', '번', '째', '▁대통령', '▁(', '19', '77', '년', '▁~', '▁19', '81', '년', ')', '이', '다', '.']

지미 카터는 조지아주 섬터 카운티 플레인스 마을에서 태어났다. 조지아 공과대학교를 졸업하였다. 그 후 해군에 들어가 전함·원자력·잠수함의 승무원으로 일하였다. 1953년 미국 해군 대위로 예편하였고 이후 땅콩·면화 등을 가꿔 많은 돈을 벌었다. 그의 별명이 "땅콩 농부" (Peanut Farmer)로 알려졌다.
['▁지미', '▁카터', '는', '▁조지아주', '▁섬', '터', '▁카운티', '▁플레', '인', '스', '▁마을에서', '▁태어났다', '.', '▁조지아', '▁공과대학교', '를', '▁졸업', '하였다', '.', '▁그', '▁후', '▁해군', '에', '▁들어가', '▁전함', '·', '원자력', '·', '잠', '수', '함', '의', '▁승무원', '으로', '▁일', '하였다', '.', '▁1953', '년', '▁미국'

In [None]:
# 위에꺼 이해안됐으면 이건 단순한 문장을 가지고 한거니까
# 이걸로 이해해서 위에꺼 이해하려 해봐 
corpus = """나는 학교에 다니는 학생 입니다
나는 좋은 선생님 입니다
당신은 매우 좋은 선생님 입니다"""

In [None]:
print(corpus) 

# ★한글 형태소 분석기를 1차적으로 해주고
print(sp.encode_as_pieces(corpus))

# ★2차로 sentencepiece를 이용해 단어사전을 만들어주는 것이 매우 좋은방법이다.
# 여기서 매우 좋은방법이라는 뜻은 한글특성을 아주 잘 반영할 수 있는 방법임
print(sp_morph.encode_as_pieces(corpus)) 
print(sp_morph.encode_as_ids(corpus))

NameError: ignored

In [None]:
# vocab 사이즈를 출력합니다.
print(sp_morph.get_piece_size())
print(sp.get_piece_size())

32007
32007


In [None]:
# 모두 출력 
for id in range(20):
  print(sp_morph.id_to_piece(id), sp.is_control(id))

[PAD] True
[UNK] False
[BOS] True
[EOS] True
[SEP] False
[CLS] False
[MASK] False
▁. False
▁의 False
▁다 False
▁이 False
▁는 False
▁, False
▁에 False
▁을 False
▁하 False
▁ False
▁은 False
▁) False
▁( False


In [None]:
# 아이디는 piece로 piece는 아이디로 반환합니다.
print(sp_morph.id_to_piece(79))
print(sp_morph.piece_to_id('▁나'))

# 알수 없는 토큰의 겨우 1을 반환합니다.
print(sp_morph.piece_to_id('__MUST_BE_UNKNOWN__'))

▁나
79
1


In [None]:
# morph 개수

# tokens1은 원래사전 kowiki_32000.model?(vocab?)을 가지고
tokens1 = sp.encode_as_pieces(corpus)

# takens2는 mecab사전이용
tokens2 = sp_morph.encode_as_pieces(corpus)
print(tokens1)
print(tokens2)
print(len(tokens1),len(tokens2))

# 한글은 교착어기 때문에 '나는', '학교에'의 나,학교는 의미가 있고 는,에 는 조서로 분리를 확실히 해줘야한다.

['▁나는', '▁학교에', '▁다니는', '▁학생', '▁', '입니다', '▁나는', '▁좋은', '▁선생님', '▁', '입니다', '▁당신', '은', '▁매우', '▁좋은', '▁선생님', '▁', '입니다']
['▁나', '는', '▁학교', '에', '▁다니', '는', '▁학생', '▁입니다', '▁나', '는', '▁좋', '은', '▁선생', '님', '▁입니다', '▁당', '신', '은', '▁매우', '▁좋', '은', '▁선생', '님', '▁입니다']
18 24


종합적으로 말씀드리고 싶은것은 자연어처리 소개부터 배운 핵심 -> 자연어 처리에 있어서 영어와 한글처리는 분명히 다르다. 따라서 한글처리의 특성을 잘 반영시키기 위해서는 한글 형태소 분석기를 이용해 1차적으로 tokenize하는 절차가 필요하고, 그것을 더 정제하고 기호나 여러가지 특성에 맞는것을 할려면 정규표현식을 활용하는 방법도 있다. 그래서 전처리를 해서 그것을 가지고 tokenize를 시키는데, tokenize 시키는것은 단어를 vector화 하는 방법인데 결국 벡터화 표현이라는 것은 서브 워드로 나눠진 벡터값들을 가지고 있음으로써 토큰별로 유사성을 비교할 수 있다.
그래서 sentence Embedding방법을 쓴다 하더라도 결국은 그 토큰들을 벡터화 표현하고 토큰의 근소관계(가깝고 먼관계 즉, 유사성)를 식별할 수 있도록 토큰화 시킬수 있다. 
그래서 실제 우리가 wiki데이터를 가지고 말뭉치사전을 만들어서 토큰화 결과 서로 비교까지 하는 실습을 우리가 해봤다. (4. 가 ~ 다)
자연어 처리를 해서 실제 어느 특정 모델에 임베딩을 시킬때는 사전에 구축된 단어를 가지고 Embedding layer를 추가시켜서 그 테스크에 맞도록 적절하게 튜닝을 해서 사용하게 된다. 