*__텍스트전처리란?__*   
-> 풀고자 하는 문제의 용도에 맞게 텍스트를 사전에 처리하는 작업

*__NLP?__*    
-> 자연어 처리(Natural Language Processing)

*__코퍼스?__*   
-> 말뭉치(corpus)   
-> 자연어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합

*__패딩(Padding)?__*   
-> 문장의 길이를 동일하게 바꿔주는 작업

---

# 1. 토큰화(Tokenization)
- 자연어 처리 과정 ; 데이터를 사용하고자 하는 용도에 맞게 토큰화 / 클리닝 / 정규화 진행.   
- 토큰화 : 주어진 코퍼스(corpus. 또는 말뭉치)에서 토큰(token)이라 불리는 단위로 나누는 작업. 토큰의 단위는 상황에 따라 다르며, 보통 의미있는 단위로 토큰을 정의.

## 1.1 단어 토큰화(Word Tokenization)
_**토큰의 기준을 단어(word)로 하는 경우.**_
## 1.2 토큰화 중 생기는 선택의 순간
_**토큰화의 기준을 생각해보게 되는 경우.**_   
ex) Apostrophe(')가 들어간 상황에서 토큰화 방법은 여러가지일 수 있다.   
사용자는 토큰화 도구 직접 설계학거나 기존에 공개된 도구를 사용 (사용자의 목적에 맞도록)
- NLTK는 영어 코퍼스를 토큰화하기 위한 도구 제공.
- NLTK는 각 실습마다 필요한 NLTK Data가 있으므로, 만약 데이터가 없다는 에러 발생 시에는 nltk.download(필요한 데이터)라는 커맨드를 통해 다운로드 할 수 있다.

In [1]:
#!pip install nltk
#!pip install tensorflow

In [2]:
#import nltk
#nltk.download('punkt')

In [3]:
# NLTK
from nltk.tokenize import word_tokenize
from nltk.tokenize import WordPunctTokenizer
from tensorflow.keras.preprocessing.text import text_to_word_sequence

In [4]:
#1. word_tokenize 사용
print('단어 토큰화1 :',word_tokenize("Don't be fooled by the dark sounding name,\
 Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화1 : ['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


* Don't -> Do + n't 
* Jone's -> Jone + 's

In [5]:
#2. WordPunctTokenizer 사용
print('단어 토큰화2 :',WordPunctTokenizer().tokenize("Don't be fooled by the dark\
 sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화2 : ['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


-> 구두점을 별도로 분류하는 특징
* Don't -> Don + ' + t
* Jone's -> Jone + ' + s

In [6]:
#3. text_to_word_sequence 사용
print('단어 토큰화3 :',text_to_word_sequence("Don't be fooled by the dark sounding\
 name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화3 : ["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


- 구두점 중 period, comma, explamation mark등의 구두점은 제거.    
- but Apostrophe는 보존. 
- 모든 alphaber을 lower case로 change

## 1.3 토큰화에서 고려해야할 사항
1) 구두점이나 특수 문자를 단순 제외해서는 안 된다.
- period는 문장의 경계를 아는 데 도움이 되므로 제외하지 않을 수도.
- 단어 자체에 구두점을 갖는 경우도 존재    ex) m.p.h / Ph.D
- '$' : 가격 의미, 01/02/06 : 날짜 의미 -> 같이 취급하고 싶을수도
- 수치 표현 시 숫자 사이에 comma 들어감. (123,456,789)

2) 줄임말과 단어 내에 띄어쓰기 있는 경우
- 줄임말 : we're / I'm   ->  압축된 단어 다시 펼치기
- 단어 내 띄어쓰기 : rock 'n' roll     ->  이러한 단어도 하나로 인식할 수 있어야...

3) 표준 토큰화 예제 : Penn Treebank Tokenization의 규칙
- 1) hyphen(-)으로 구성된 단어는 하나로 유지
- 2) doesn't와 같이 apostrophe로 '접어'가 함께하는 단어는 분리

In [7]:
# 표준 토큰화 예제 : Penn Treebank Tokenization
from nltk.tokenize import TreebankWordTokenizer

tokenizer = TreebankWordTokenizer()

text = "Starting a home-based restaurant may be an ideal. it doesn't have a food\
 chain or restaurant of their own."
print('트리뱅크 워드토크나이저 : ', tokenizer.tokenize(text))

트리뱅크 워드토크나이저 :  ['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


## 1.4 문장 토큰화(Sentence Tokenization)
_**토큰의 단위가 문장(sentence)일 경우**_
exclamation mark(!)나 question mark(?)는 문장의 구분을 위한 꽤 명확한 구분자(boundary) 역할을 하지만 마침표는 그렇지 않다. 문장의 끝이 아니더라도 나타남.   
ex) IP 192.168.56.31 / Ph.D   

사용하는 코퍼스가 어떤 국적의 언어인지, 또는 해당 코퍼스 내에서 특수문자들이 어떻게 사용되고 있는지에 따라서 직접 규칙들을 정의할 수 있다.   

- NLTK에서는 영어 문장의 토큰화를 수행하는 sent_tokenize를 지원.
- 한국어의 경우 KSS(Korean Sentence Splitter) 추천

In [8]:
# NLTK를 통한 영어 문장 토큰화 - 1. 간단 버전
from nltk.tokenize import sent_tokenize

text = "His barber kept his word. But keeping such a huge secret to himself was\
 driving him crazy. Finally, the barber went up a mountain and almost to the edge\
 of a cliff. He dug a hole in the midst of some reeds. He looked about, to make\
 sure no one was near."
print('문장 토큰화1 :',sent_tokenize(text))

문장 토큰화1 : ['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


In [9]:
# NLTK를 통한 영어 문장 토큰화 - 2. 마침표 다수 등장
text = "I am actively looking for Ph.D. students. And you are a Ph.D student."
print('문장 토큰화2 :',sent_tokenize(text))

문장 토큰화2 : ['I am actively looking for Ph.D. students.', 'And you are a Ph.D student.']


-> NLTK는 단순히 마침표를 구분자로 하여 문장을 구분하지 않았기 때문에, Ph.D.를 문장 내의 단어로 인식하여 성공적으로 인식한다.

In [10]:
#!pip install kss

In [11]:
# kss를 통한 한국어 문장 토큰화
import kss

text = '딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로\
 할 때 너무 어렵습니다. 이제 해보면 알걸요?'
print('한국어 문장 토큰화 :',kss.split_sentences(text))

[Kss]: Because there's no supported C++ morpheme analyzer, Kss will take pecab as a backend. :D
For your information, Kss also supports mecab backend.
We recommend you to install mecab or konlpy.tag.Mecab for faster execution of Kss.
Please refer to following web sites for details:
- mecab: https://cleancode-ws.tistory.com/97
- konlpy.tag.Mecab: https://uwgdqo.tistory.com/363



한국어 문장 토큰화 : ['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다.', '이제 해보면 알걸요?']


-> 출력 결과는 정상적으로 모든 문장이 분리된 결과를 보여준다.

## 1.5 한국어에서의 토큰화의 어려움
한국어는 영어와는 달리 띄어쓰기만으로는 토큰화를 하기에 부족.    
한국어의 경우에는 띄어쓰기 단위가 되는 단위를 '어절'이라고 하는데 어절 토큰화는 한국어 NLP에서 지양한다. 어절 토큰화와 단어 토큰화는 같지 않기 때문.       
근본적인 이유는 한국어가 영어와는 다른 형태를 가지는 언어인 교착어이기 때문.   
(형태소의 개념 이해 필요)

1) 교착어의 특성
- 교착어 : 조사, 어미 등을 붙여서 말을 만드는 언어
- **한국어에서 영어에서의 단어 토큰화와 유사한 형태를 얻으려면 어절 토큰화가 아니라 형태소 토큰화를 수행해야 한다!**

2) 한국어는 영어보다 띄어쓰기가 잘 지켜지지 않는다.
- 띄어쓰기가지켜지지않아도글을쉽게이애할수있기때문이다.
- 즉 한국어는 수많은 코퍼스에서 띄어쓰기가 무시되는 경우가 많아 자연어 처리가 어려워진 것.

## 1.6 품사 태깅(Part-of-speech tagging)
- 단어의 표기는 같지만 품사에 따라서 단어의 의미가 달라지기도 한다. 영어와 한국어 모두 마찬가지.   
- 결국 단어의 의미를 제대로 파악하기 위해서는 해당 단어가 어떤 품사로 쓰였는지를 보는 것이 중요.   
- 그에 따라 단어 토큰화 과정에서 각 단어가 어떤 품사로 쓰였는지를 구분해놓기도 하는데, 이 작업을 품사 태깅이라고 한다. NLTK와 KoNLPy를 통해 품사 태깅 실습을 진행해보자.

## 1.7 NLTK와 KoNLPy를 이용한 영어, 한국어 토큰화 실습

### 1.7.1 NLTK에서는 Penn Treebank POS Tags라는 기준을 사용하여 품사를 태깅한다.
- PRP : 인칭 대명사
- VBP : 동사
- RB : 부사
- VBG : 현재동사
- IN : 전치사
- NNP : 고유 명사
- NNS : 복수형 명사
- CC : 접속사
- DT : 관사

* [추가태그정보]    
: https://excelsior-cjh.tistory.com/71   
: https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html

In [12]:
#import nltk
#nltk.download('averaged_perceptron_tagger')

In [13]:
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag

text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."
tokenized_sentence = word_tokenize(text)

print('단어 토큰화 :',tokenized_sentence)
print('품사 태깅 :',pos_tag(tokenized_sentence))

단어 토큰화 : ['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']
품사 태깅 : [('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D.', 'NNP'), ('student', 'NN'), ('.', '.')]


### 1.7.2 한국어 자연어 처리를 위해서는 KoNLPy(코엔엘파이)라는 파이썬 패키지를 사용한다.
1) 사용가능한 형태소 분석기 종류
- Okt(Open Korea Text)
- 메캅(Mecab)
- 코모란(Komoran)
- 한나눔(Hannanum)
- 꼬꼬마(Kkma)

2) 위의 형태소 분석기들은 공통적으로 아래의 메소드들을 제공한다.
- morphs : 형태소 추출   
- pos : 품사 태깅(Part-of-speech tagging)    
- nouns : 명사 추출

In [14]:
# KoNLPy 설치
#!pip install konlpy

In [15]:
#import konlpy
#konlpy.__version__

In [16]:
# 파이썬 버전 확인 - 3.9
#!pip install sys
#import sys
#print(sys.version)

> **< 파이썬 pip whl 파일 설치 에러 >**   
'JPype1-1.4.0-cp39-cp39-win_amd64.whl is not a supported wheel on this platform.'이란 ERROR가 자꾸 뜸.    --->   *플랫폼과 버전이 안맞으면 나오는 에러!*
> * 문제1) 나의 아나콘다 가상환경 내 파이썬 버전(3.9)과 로컬 컴퓨터 내 파이썬 버전(3.7)이 달라서 헷갈림.   
> * 문제2) 나는 현재 가상환경 사용중이므로 3.9를 깔아야 하는데, 이때 가상환경을 '실행한 상태'에서 3.9를 설치해야 정상적으로 설치 이루어짐! (프롬프트에서 해당 파일의 경로로 이동하는 경로 설정도 해줘야함.)

> **< java 설치 안되어 있었음...>**   
설치파일 이용해서 다시 설치 후 아래 블로그 참고해서 환경 변수 설정까지 완료. 
> * [자바설치 및 환경변수 설정 (https://languagestory.tistory.com/11)]  

> cmd창 이용해서 자바 버전 확인했을 때 이번에는 제대로 떴다. (16.0.2)

In [17]:
# Okt
from konlpy.tag import Okt

okt = Okt()

print('OKT 형태소 분석 :',okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('OKT 품사 태깅 :',okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('OKT 명사 추출 :',okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요")) 

OKT 형태소 분석 : ['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']
OKT 품사 태깅 : [('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]
OKT 명사 추출 : ['코딩', '당신', '연휴', '여행']


In [18]:
# 꼬꼬마
from konlpy.tag import Kkma

kkma = Kkma()

print('꼬꼬마 형태소 분석 :',kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('꼬꼬마 품사 태깅 :',kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('꼬꼬마 명사 추출 :',kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

꼬꼬마 형태소 분석 : ['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']
꼬꼬마 품사 태깅 : [('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]
꼬꼬마 명사 추출 : ['코딩', '당신', '연휴', '여행']


Okt 형태소 분석기와 꼬꼬마 형태소 분석기의 결과가 다르다.
> 즉 **각 형태소 분석기는 성능과 결과가 다르게 나오기** 때문에, 형태소 분석기의 선택은 사용하고자 하는 필요 용도에 어떤 형태소 분석기가 가장 적절한지를 판단하고 사용해야 한다.   
ex) 만약 속도를 중시한다면 메캅을 사용할 수 있다.

# 2 정제(Cleaning) and 정규화(Normalization)
토큰화 작업 전, 후에는 텍스트 데이터를 용도에 맞게 정제(cleaning) 및 정규화(normalization)하는 일이 항상 따라온다.
* 정제(cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거한다.
* 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다.
     - 정규화의 지향점은 언제나 갖고 있는 코퍼스로부터 복잡성을 줄이는 일이다.

## 2.1 정규화) 규칙에 기반한 표기가 다른 단어들의 통합
같은 의미를 갖고있음에도 표기가 다른 단어들을 하나의 단어로 정규화 
ex) US = USA
## 2.2 정규화) 대, 소문자 통합
영어권 언어에서 대문자는 문장의 맨 앞 등과 같은 특정 상황에서만 쓰이고, 대부분의 글은 소문자로 작성되기 때문에 대, 소문자 통합 작업은 대부분 대문자를 소문자로 변환하는 소문자 변환작업으로 이루어진다.   
물론 대문자와 소문자를 무작정 통합해서는 안 된다. 가령 미국을 뜻하는 단어 US와 우리를 뜻하는 us는 구분되어야 한다. 또 회사 이름(General Motors)나, 사람 이름(Bush) 등은 대문자로 유지되어야 한다.

## 2.3 정제) 불필요한 단어의 제거
noise data : 자연어가 아니면서 아무 의미도 갖지 않는 글자들(특수 문자 등) + 분석하고자 하는 목적에 맞지 않는 불필요 단어들

불필요 단어들을 제거하는 방법
1) 등장 빈도가 적은 단어
2) 길이가 짧은 단어
- 영어권 언어에서 길이가 짧은 단어들은 대부분 불용어에 해당.
- 길이를 조건으로 텍스트를 삭제하면서 단어가 아닌 구두점들까지도 한꺼번에 제거 가능.
- BUT, 한국어에서는 이 방법이 크게 유효하지 않을 수 있다. (주의!)

## 2.4 정제) 정규 표현식(Regular Expression)
얻어낸 코퍼스에서 노이즈 데이터의 특징을 잡아낼 수 있다면, 정규 표현식을 통해서 이를 제거할 수 있는 경우가 많다.   
ex1) HTML 문서로부터 가져온 코퍼스라면 문서 여기저기에 HTML 태그 존재   
ex2) 뉴스 기사 크롤링한 경우 기사마다 게재 시간 적혀 있을 것.   

**--> 정규 표현식은 이러한 코퍼스 내에 계속해서 등장하는 글자들을 규칙에 기반하여 한 번에 제거하는 방식으로서 매우 유용하다.**

# 3 어간 추출(Stemming) and 표제어 추출(Lemmatization)
정규화 기법 중 코퍼스에 있는 단어의 개수를 줄일 수 있는 기법.   
--> 눈으로 봤을 때는 서로 다른 단어들이지만, **하나의 단어로 일반화시킬 수 있다면 하나의 단어로 일반화시켜서** 문서 내의 단어 수를 줄이고자 한다!

* BoW(Bag of Words) 표현을 사용하는 자연어 처리 문제에서 주로 사용(지금은 넘어가자. 뒤에 배울 것.) 

## 3.1 표제어 추출(Lemmatization)
표제어 : 기본 사전형 단어
표제어 추출 : 단어들로부터 표제어를 찾아가는 과정
* 표제어 추출은 단어들이 다른 형태를 가지더라도, 그 뿌리 단어를 찾아가서 단어의 개수를 줄일 수 있는지 판단한다!    
    - ex) am, are, is의 표제어 : be
* NLTK에서는 표제어 추출을 위한 도구인 WordNetLemmatizer를 지원. 이를 통해 표제어 추출 실습을 해보자.

In [19]:
#import nltk
#nltk.download('wordnet')

In [20]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives',\
         'fly', 'dies', 'watched', 'has', 'starting']

print('표제어 추출 전 :',words)
print('표제어 추출 후 :',[lemmatizer.lemmatize(word) for word in words])

표제어 추출 전 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
표제어 추출 후 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


> 표제어 추출은 (어간 추출과는 달리) 단어의 형태가 적절히 보존되는 양상을 보이는 특징이 있다.    

> 하지만 위의 결과에서는 dy나 ha와 같이 적절하지 못한 단어를 출력하기도 한다.
> * 표제어 추출기가 본래 단어의 품사 정보를 알아야만 정확한 결과를 얻을 수 있기 때문!
> * WordNetLemmatizer는 입력으로 단어의 품사 정보를 알려줄 수 있다.

In [21]:
print(lemmatizer.lemmatize('dies', 'v'))
print(lemmatizer.lemmatize('watched', 'v'))
print(lemmatizer.lemmatize('has', 'v'))

die
watch
have


> 이처럼 표제어 추출은 문맥을 고려하며, 추출 결과 해당 단어의 품사 정보를 보존한다.    
> 하지만, 어간 추출을 수행한 결과는 품사 정보가 보존되지 않는다. 또한 사전에 존재하지 않는 단어일 경우가 많다.

## 3.2 어간 추출(Stemming)
어간 추출은 형태학적 분석을 단순화한 버전이라고 볼 수도 있고, 정해진 규칙만 보고 단어의 어미를 자르는 어림짐작의 작업이라고 볼 수도 있다.   
규칙 기반의 접근을 하는 이러한 작업은 섬세한 작업이 아니므로 어간 추출 후에 나오는 결과 단어는 사전에 존재하지 않는 단어일 수도 있다.

NLTK의 어간 추출 알고리즘
* 포터 알고리즘(Porter Algorithm)
* 랭커스터 스태머 알고리즘(Lancaster Stemmer Algorithm)

이미 알려진 알고리즘을 사용할 때는, **사용하고자 하는 코퍼스에 스태머를 적용해보고 어떤 스태머가 해당 코퍼스에 적합한지를 판단한 후에 사용해야 한다.**   
어간 추출 속도는 표제어 추출보다 일반적으로 빠른데, 포터 어간 추출기는 정밀하게 설계되어 정확도가 높으므로 영어 자연어 처리에서 어간 추출을 하고자 한다면 가장 준수한 선택이다.   
*※ Porter 알고리즘의 상세 규칙은 마틴 포터의 홈페이지에서 확인할 수 있다.*

In [22]:
# 포터 알고리즘과 랭커스터 알고리즘 비교
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer

porter_stemmer = PorterStemmer()
lancaster_stemmer = LancasterStemmer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives',\
         'fly', 'dies', 'watched', 'has', 'starting']

print('어간 추출 전 :', words)
print('포터 스테머의 어간 추출 후:',[porter_stemmer.stem(w) for w in words])
print('랭커스터 스테머의 어간 추출 후:',[lancaster_stemmer.stem(w) for w in words])

어간 추출 전 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
포터 스테머의 어간 추출 후: ['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']
랭커스터 스테머의 어간 추출 후: ['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


## 3.3 한국어에서의 어간 추출
1) 한국어는 5언 9품사의 구조   
- 체언 : 명사, 대명사, 수사
- 수식언 : 관형사, 부사
- 관계언 : 조사
- 독립언 : 감탄사
- **용언 : 동사, 형용사 -> 어간(stem)과 어미(ending)의 결합으로 구성**

2) 규칙활용과 불규칙 활용
- 활용이란 용언의 어간이 어미를 가지는 일을 말한다.
- 어간의 모습이 일정하다면 규칙 활용, 어간이나 어미의 모습이 변한다면 불규칙 활용

# 4 불용어(Stopword)
자주 등장하지만 분석에 큰 의미가 없는 단어.   ex) I, my, me, over, 조사, 접미사 등...

NLTK에서는 100여개 이상의 영단어들을 불용어로 패키지 내에서 미리 정의하고 있다.   
물론 불용어는 개발자가 직접 정의할 수도 있다.

## 4.1 NLTK에서 불용어 확인하기

In [23]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize 
from konlpy.tag import Okt

In [24]:
#import nltk
#nltk.download('stopwords')

In [25]:
# stopwords.words("english") : NLTK가 정의한 영어 불용어 리스트를 리턴
stop_words_list = stopwords.words('english')
print('불용어 개수 :', len(stop_words_list))
print('불용어 10개 출력 :',stop_words_list[:10])

불용어 개수 : 179
불용어 10개 출력 : ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]


## 4.2 NLTK를 통해서 불용어 제거하기

In [26]:
example = "Family is not an important thing. It's everything."
stop_words = set(stopwords.words('english')) 

word_tokens = word_tokenize(example)

result = []
for word in word_tokens: 
    if word not in stop_words: 
        result.append(word) 

print('불용어 제거 전 :',word_tokens) 
print('불용어 제거 후 :',result)

불용어 제거 전 : ['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
불용어 제거 후 : ['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


## 4.3 한국어에서 불용어 제거하기
한국어에서 불용어를 제거하는 방법으로는 간단하게는 토큰화 후에 조사, 접속사 등을 제거하는 방법이 있다. 하지만 불용어를 제거하려고 하다보면 명사, 형용사와 같은 단어들 중 불용어로서 제거하고 싶은 단어들이 생기기도 한다. 결국 사용자가 직접 불용어 사전을 만들게 되는 경우가 많다.

직접 불용어를 정의해보고, 주어진 문장으로부터 불용어를 제거해보자. 아래의 불용어는 임의선정한 것으로 실제 의미있는 선정 기준은 아니다.

In [27]:
okt = Okt()

example = "고기를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든.\
 예컨대 삼겹살을 구울 때는 중요한 게 있지."
stop_words = "를 아무렇게나 구 우려 고 안 돼 같은 게 구울 때 는"

stop_words = set(stop_words.split(' '))
word_tokens = okt.morphs(example)

result = [word for word in word_tokens if not word in stop_words]

print('불용어 제거 전 :',word_tokens) 
print('불용어 제거 후 :',result)

불용어 제거 전 : ['고기', '를', '아무렇게나', '구', '우려', '고', '하면', '안', '돼', '.', '고기', '라고', '다', '같은', '게', '아니거든', '.', '예컨대', '삼겹살', '을', '구울', '때', '는', '중요한', '게', '있지', '.']
불용어 제거 후 : ['고기', '하면', '.', '고기', '라고', '다', '아니거든', '.', '예컨대', '삼겹살', '을', '중요한', '있지', '.']


아래의 링크는 보편적으로 선택할 수 있는 한국어 불용어 리스트를 부여준다.   
하지만, 여전히 절대적인 기준은 아니다.    
[링크]: https://www.ranks.nl/stopwords/korean

불용어가 많은 경우에는 코드 내에서 직접 정의하지 않고 txt 파일이나 csv 파일로 정리해놓고 이를 불러와서 사용하기도 한다.

# 5 정규 표현식(Regular Expression)
파이썬에서 지원하고 있는 정규 표현식 모듈 re의 사용 방법과 NLTK를 통한 정규 표현식을 이용한 토큰화에 대해서 알아보자.

## 5.1 정규 표현식 문법과 모듈 함수
파이썬에서는 정규 표현식 모듈 re을 지원하므로, 이를 이용하면 특정 규칙이 있는 텍스트 데이터를 빠르게 정제할 수 있다.   
정규 표현식을 위해 사용되는 특수 문자와 모듈 함수에 대해서 표를 통해 정리해보자.

![그림1](./re특수문자.png)
![그림2](./re문자규칙.png)
![그림3](./re모듈함수.png)

## 5.2 정규 표현식 실습
앞으로 진행될 실습에서는 re.compile()에 정규 표현식을 컴파일하고, re.search()를 통해서 해당 정규 표현식이 입력 텍스트와 매치되는지를 확인하면서 각 정규 표현식에 대해서 이해해자.    
re.search()는 매치된다면 Match Object를 리턴하고 매치되지 않으면 아무런 값도 출력되지 않는다.

In [28]:
import re

### 1) .
.은 한 개의 임의의 문자를 나타낸다. 예를 들어서 정규 표현식이 a.c라고 한다면, a와 c 사이에는 어떤 1개의 문자라도 올 수 있다. akc, azc, avc, a5c, a!c와 같은 형태는 모두 a.c의 정규 표현식과 매치된다.

In [29]:
r = re.compile("a.c")
r.search("kkk") # 아무런 결과도 출력되지 않는다.

In [30]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

### 2) ?
?는 ?앞의 문자가 존재할 수도 있고 존재하지 않을 수도 있는 경우를 나타낸다. 예를 들어서 정규 표현식이 ab?c라고 할 때, 이 정규 표현식에서의 b는 있다고 취급할 수도 있고, 없다고 취급할 수도 있다. 즉, abc와 ac 모두 매치할 수 있다.

In [31]:
r = re.compile("ab?c")
r.search("abbc") # 아무런 결과도 출력되지 않는다.

In [32]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [33]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

### 3) *
*은 바로 앞의 문자가 0개 이상일 경우를 나타낸다. 앞의 문자는 존재하지 않을 수도 있으며, 또는 여러 개일 수도 있다. 정규 표현식이 ab*c라면 ac, abc, abbc, abbbc 등과 매치할 수 있으며 b의 개수는 무수히 많을 수 있다.

In [34]:
r = re.compile("ab*c")
r.search("a") # 아무런 결과도 출력되지 않는다.

In [35]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

In [36]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [37]:
r.search("abbbbc")

<re.Match object; span=(0, 6), match='abbbbc'>

### 4) +
+는 \*와 유사하다. 다른 점은 바로 앞의 문자가 최소 1개 이상이어야 한다는 것이다.(\*는 0개 이상)      
정규 표현식이 ab+c라고 한다면 ac는 매치되지 않는다. 하지만 abc, abbc, abbbc 등과 매치할 수 있으며 b의 개수는 무수히 많을 수 있다.

In [38]:
r = re.compile("ab+c")
r.search("ac") # 아무런 결과도 출력되지 않는다.

In [39]:
r.search("abc") 

<re.Match object; span=(0, 3), match='abc'>

In [40]:
r.search("abbbbc") 

<re.Match object; span=(0, 6), match='abbbbc'>

### 5) ^
^는 시작되는 문자열을 지정한다. 정규표현식이 ^ab라면 문자열 ab로 시작되는 경우 매치합니다.

In [41]:
r = re.compile("^ab")

# 아무런 결과도 출력되지 않는다.
r.search("bbc")
r.search("zab")

In [42]:
r.search("abz")

<re.Match object; span=(0, 2), match='ab'>

### 6) {숫자}
문자에 해당 기호를 붙이면, 해당 문자를 숫자만큼 반복한 것을 나타낸다. 예를 들어서 정규 표현식이 ab{2}c라면 a와 c 사이에 b가 존재하면서 b가 2개인 문자열에 대해서 매치한다.

In [43]:
r = re.compile("ab{2}c")

# 아무런 결과도 출력되지 않는다.
r.search("ac")
r.search("abc")
r.search("abbbbbc")

In [44]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

### 7) {숫자1, 숫자2}
문자에 해당 기호를 붙이면, 해당 문자를 숫자1 이상 숫자2 이하만큼 반복한다. 예를 들어서 정규 표현식이 ab{2,8}c라면 a와 c 사이에 b가 존재하면서 b는 2개 이상 8개 이하인 문자열에 대해서 매치한다.

In [45]:
r = re.compile("ab{2,8}c")

# 아무런 결과도 출력되지 않는다.
r.search("ac")
r.search("abc")
r.search("abbbbbbbbbc")

In [46]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

In [47]:
r.search("abbbbbbbbc")

<re.Match object; span=(0, 10), match='abbbbbbbbc'>

### 8) {숫자,}
문자에 해당 기호를 붙이면 해당 문자를 숫자 이상 만큼 반복한다. 예를 들어서 정규 표현식이 a{2,}bc라면 뒤에 bc가 붙으면서 a의 개수가 2개 이상인 경우인 문자열과 매치한다. 또한 만약 {0,}을 쓴다면 \*와 동일한 의미가 되며, {1,}을 쓴다면 +와 동일한 의미가 된다.

In [48]:
r = re.compile("a{2,}bc")

# 아무런 결과도 출력되지 않는다.
print(r.search("bc"))
print(r.search("abc"))
print(r.search("aa"))

None
None
None


In [49]:
r.search("aabc")

<re.Match object; span=(0, 4), match='aabc'>

In [50]:
r.search("aaaaaaaabc")

<re.Match object; span=(0, 10), match='aaaaaaaabc'>

### 9) [ ]
[ ]안에 문자들을 넣으면 그 문자들 중 한 개의 문자와 매치라는 의미를 가진다. 예를 들어서 정규 표현식이 [abc]라면, a 또는 b또는 c가 들어가있는 문자열과 매치된다. 범위를 지정하는 것도 가능하다. [a-zA-Z]는 알파벳 전부를 의미하며, [0-9]는 숫자 전부를 의미한다.

In [51]:
r = re.compile("[abc]") # [abc]는 [a-c]와 같다.
r.search("zzz") # 아무런 결과도 출력되지 않는다.

In [52]:
r.search("a")

<re.Match object; span=(0, 1), match='a'>

In [53]:
r.search("aaaaaaa")

<re.Match object; span=(0, 1), match='a'>

In [54]:
r.search("baac")

<re.Match object; span=(0, 1), match='b'>

In [55]:
r.search("dac")

<re.Match object; span=(1, 2), match='a'>

In [56]:
r.search("cdbewa")

<re.Match object; span=(0, 1), match='c'>

In [57]:
# 알파벳 소문자에 대한 범위 지정
r = re.compile("[a-z]")

# 아무런 결과도 출력되지 않는다.
r.search("AAA")
r.search("111") 

In [58]:
r.search("aBC")

<re.Match object; span=(0, 1), match='a'>

In [59]:
r.search("Abc")

<re.Match object; span=(1, 2), match='b'>

In [60]:
r.search("BCa")

<re.Match object; span=(2, 3), match='a'>

In [61]:
r.search("BzbcsC")

<re.Match object; span=(1, 2), match='z'>

### 10) [^문자]
[^문자]는 ^기호 뒤에 붙은 문자들을 제외한 모든 문자를 매치하는 역할을 한다. 예를 들어서 [^abc]라는 정규 표현식이 있다면, a 또는 b 또는 c가 들어간 문자열을 제외한 모든 문자열을 매치한다.

In [62]:
r = re.compile("[^abc]")

# 아무런 결과도 출력되지 않는다.
r.search("a")
r.search("ab") 
r.search("b")

In [63]:
r.search("d")

<re.Match object; span=(0, 1), match='d'>

In [64]:
r.search("1")  

<re.Match object; span=(0, 1), match='1'>

In [65]:
r.search("ab5A")  

<re.Match object; span=(2, 3), match='5'>

In [66]:
r.search("cBn")  

<re.Match object; span=(1, 2), match='B'>

In [67]:
r.search("cnB")  

<re.Match object; span=(1, 2), match='n'>

## 5.3 정규 표현식 모듈 함수 예제
앞서 사용한 re.compile()과 re.search()가 아닌 다른 정규 표현식 모듈 함수에 대해서 실습을 진행해보자.

### 5.3.1 re.match() 와 re.search()의 차이
search()가 정규 표현식 전체에 대해서 문자열이 매치하는지를 본다면, match()는 문자열의 첫 부분부터 정규 표현식과 매치하는지를 확인한다. 문자열 중간에 찾을 패턴이 있더라도 match 함수는 문자열의 시작에서 패턴이 일치하지 않으면 찾지 않는다.

In [68]:
r = re.compile("ab.")
print('match 이용 : ', r.match("kkkabc")) # 아무런 결과도 출력되지 않는다.
print('search 이용 : ', r.search("kkkabc"))

match 이용 :  None
search 이용 :  <re.Match object; span=(3, 6), match='abc'>


In [69]:
r.match("abckkk")  

<re.Match object; span=(0, 3), match='abc'>

> 위 경우 정규 표현식이 ab. 이기때문에, ab 다음에는 어떤 한 글자가 존재할 수 있다는 패턴을 의미한다. search 모듈 함수에 kkkabc라는 문자열을 넣어 매치되는지 확인한다면 abc라는 문자열에서 매치되어 Match object를 리턴한다. 하지만 match 모듈 함수의 경우 앞 부분이 ab.와 매치되지 않기때문에, 아무런 결과도 출력되지 않는다. 하지만 반대로 abckkk로 매치를 시도해보면, 시작 부분에서 패턴과 매치되었기 때문에 정상적으로 Match object를 리턴한다.

### 5.3.2 re.split()
split() 함수는 입력된 정규 표현식을 기준으로 문자열들을 분리하여 리스트로 리턴한다. 토큰화에 유용하게 쓰일 수 있다.

In [70]:
# 공백 기준 분리
text = "사과 딸기 수박 메론 바나나"
re.split(" ", text)

['사과', '딸기', '수박', '메론', '바나나']

In [71]:
# 줄바꿈 기준 분리
text = """사과
딸기
수박
메론
바나나"""

re.split("\n", text)

['사과', '딸기', '수박', '메론', '바나나']

In [72]:
# '+'를 기준으로 분리
text = "사과+딸기+수박+메론+바나나"

re.split("\+", text)

['사과', '딸기', '수박', '메론', '바나나']

### 5.3.3 re.findall()
findall() 함수는 정규 표현식과 매치되는 모든 문자열들을 리스트로 리턴한다. 단, 매치되는 문자열이 없다면 빈 리스트를 리턴한다. 임의의 텍스트에 정규 표현식으로 숫자를 의미하는 규칙으로 findall()을 수행하면 전체 텍스트로부터 숫자만 찾아내서 리스트로 리턴한다.

In [73]:
text = """이름 : 김철수
전화번호 : 010 - 1234 - 1234
나이 : 30
성별 : 남"""

re.findall("\d+", text)   # 앞에 숫자가 한 개 이상 존재

['010', '1234', '1234', '30']

> **< 헷갈리는 부분 >**   
어떻게 뭉탱이 숫자로 출력되는 것인가?(숫자 한 개씩이 아니라,,,) 원리를 정확히 모르겠음... 아래 링크 봐도 정확히 이해는 안됨...
> * [링크참고] https://codechacha.com/ko/python-extract-integers-from-string/

In [74]:
# 만약 입력 텍스트에 숫자가 없다면 빈 리스트를 리턴한다.
re.findall("\d+", "문자열입니다.")

[]

### 5.3.4 re.sub()
sub() 함수는 정규 표현식 패턴과 일치하는 문자열을 찾아 다른 문자열로 대체할 수 있다.       

아래와 같은 정제 작업에 많이 사용되는데, 영어 문장에 각주 등과 같은 이유로 특수 문자가 섞여있는 경우에 특수 문자를 제거하고 싶다면 알파벳 외의 문자는 공백으로 처리하는 등의 용도로 쓸 수 있다.

In [75]:
text = "Regular expression : A regular expression, regex or regexp[1]\
 (sometimes called a rational expression)[2][3] is, in theoretical computer\
 science and formal language theory, a sequence of characters that define a search pattern."

preprocessed_text = re.sub('[^a-zA-Z]', ' ', text)
print(preprocessed_text)

Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern 


## 5.4 정규 표현식 텍스트 전처리 예제

In [76]:
# 테이블 형식의 데이터를 텍스트에 저장
text = """100 John    PROF
101 James   STUD
102 Mac   STUD"""

### 5.4.1 '\s+' 
공백을 찾아내는 정규표현식. 뒤에 붙는 +는 최소 1개 이상의 패턴을 찾아낸다는 의미이다. s는 공백을 의미하기 때문에 최소 1개 이상의 공백인 패턴을 찾아낸다. split은 주어진 정규표현식을 기준으로 분리하므로 결과는 아래와 같다. 공백을 기준으로 값이 구분된 것을 확인할 수 있다.

In [77]:
re.split('\s+', text)  

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

### 5.4.2 '\d+' 
숫자에 해당되는 정규표현식. +를 붙이면 최소 1개 이상의 숫자에 해당하는 값을 의미한다. findall()은 해당 표현식에 일치하는 값을 찾아낸다.

In [78]:
re.findall('\d+',text)  

['100', '101', '102']

#### 5.4.2.1 대문자
텍스트로부터 대문자인 행의 값만 가져와보자. 이 경우 정규 표현식에 대문자를 기준으로 매치시키면 된다. 하지만 정규 표현식에 대문자라는 기준만을 넣을 경우에는 문자열을 가져오는 것이 아니라 모든 대문자 각각을 갖고오게 된다.

In [79]:
re.findall('[A-Z]',text)

['J', 'P', 'R', 'O', 'F', 'J', 'S', 'T', 'U', 'D', 'M', 'S', 'T', 'U', 'D']

대문자가 연속적으로 네 번 등장하는 경우라는 조건을 추가해보자.   
대문자로 구성된 문자열들을 가져오는 것들 확인할 수 있다.

In [80]:
re.findall('[A-Z]{4}',text) 

['PROF', 'STUD', 'STUD']

이름의 경우에는 대문자와 소문자가 섞여있는 상황이다. 이름에 대한 행의 값을 갖고오고 싶다면 처음에 대문자가 등장한 후에 소문자가 여러번 등장하는 경우에 매치하게 한다.

In [81]:
re.findall('[A-Z][a-z]+',text)

['John', 'James', 'Mac']

## 5.5 정규 표현식을 이용한 토큰화
NLTK에서는 정규 표현식을 사용해서 단어 토큰화를 수행하는 RegexpTokenizer를 지원한다. RegexpTokenizer()에서 괄호 안에 하나의 토큰으로 규정하기를 원하는 정규 표현식을 넣어서 토큰화를 수행한다. 

In [82]:
from nltk.tokenize import RegexpTokenizer

text = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is\
 as cheery as cheery goes for a pastry shop"

tokenizer1 = RegexpTokenizer("[\w]+")
tokenizer2 = RegexpTokenizer("\s+", gaps=True)

print(tokenizer1.tokenize(text))
print(tokenizer2.tokenize(text))

['Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']
["Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


> tokenizer1에 사용한 \w+는 문자 또는 숫자가 1개 이상인 경우를 의미한다.   

> tokenizer2에서는 공백을 기준으로 토큰화한다. gaps=true는 해당 정규 표현식을 토큰으로 나누기 위한 기준으로 사용한다는 의미이다. 만약 gaps=True라는 부분을 기재하지 않는다면, 토큰화의 결과는 공백들만 나오게 된다.

> tokenizer2의 결과는 tokenizer1의 결과와는 달리 아포스트로피나 온점을 제외하지 않고 토큰화가 수행된 것을 확인할 수 있다.

# 6 정수 인코딩(Integer Encoding)
컴퓨터는 텍스트보다는 숫자를 더 잘 처리하므로, 자연어 처리에서는 텍스트를 숫자로 바꾸는 여러가지 기법들이 존재한다. 이 때 각 단어를 고유한 정수에 맵핑(mapping)시키는 전처리 작업이 첫 단계로 필요하다. 맵핑, 즉 인덱싱 부여는 단어들을 등장하는 빈도수를 기준으로 정렬한 뒤 부여할 수 있다.

## 6.1 정수 인코딩
단어에 정수를 부여하는 방법 중 하나로 단어를 빈도수 순으로 정렬한 단어 집합(vocabulary)을 만들고, 빈도수가 높은 순서대로 차례로 낮은 숫자부터 정수를 부여하는 방법이 있다.

### 6.1.1 dictionary 사용하기

In [83]:
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

In [84]:
raw_text = "A barber is a person. a barber is good person. a barber is huge\
 person. he Knew A Secret! The Secret He Kept is huge secret. Huge secret. \
His barber kept his word. a barber kept his word. His barber kept his secret. \
But keeping and keeping such a huge secret to himself was driving the barber\
 crazy. the barber went up a huge mountain."

In [85]:
# 문장 토큰화
sentences = sent_tokenize(raw_text)
print(sentences)

['A barber is a person.', 'a barber is good person.', 'a barber is huge person.', 'he Knew A Secret!', 'The Secret He Kept is huge secret.', 'Huge secret.', 'His barber kept his word.', 'a barber kept his word.', 'His barber kept his secret.', 'But keeping and keeping such a huge secret to himself was driving the barber crazy.', 'the barber went up a huge mountain.']


문장 단위로 토큰화된 결과를 바탕으로 단어 토큰화를 수행한다.   
이때, 정제 작업과 정규화 작업을 병행한다. 여기서는 아래의 작업을 수행하였다.   
1) 단어들을 소문자화하여 단어의 개수 통일   
2) 불용어 or 단어 길이가 2 이하인 경우 제외   

**텍스트를 수치화하는 단계라는 것은 본격적으로 자연어 처리 작업에 들어간다는 의미이므로, 단어가 텍스트일 때만 할 수 있는 최대한의 전처리를 끝내놓아야 한다.**

In [86]:
# 단어 토큰화
vocab = {}
preprocessed_sentences = []
stop_words = set(stopwords.words('english'))

for sentence in sentences:
    # 단어 토큰화
    tokenized_sentence = word_tokenize(sentence)
    result = []

    for word in tokenized_sentence: 
        word = word.lower() # 모든 단어를 소문자화하여 단어의 개수를 줄인다.
        if word not in stop_words: # 단어 토큰화 된 결과에 대해서 불용어를 제거한다.
            if len(word) > 2: # 단어 길이가 2이하인 경우에 대하여 추가로 단어를 제거한다.
                result.append(word)
                if word not in vocab:
                    vocab[word] = 0 
                vocab[word] += 1
    preprocessed_sentences.append(result) 
print(preprocessed_sentences)

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [87]:
print('단어 집합 :',vocab)

단어 집합 : {'barber': 8, 'person': 3, 'good': 1, 'huge': 5, 'knew': 1, 'secret': 6, 'kept': 4, 'word': 2, 'keeping': 2, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1}


In [88]:
# 'barber'라는 단어의 빈도수 출력
print(vocab["barber"])

8


In [89]:
# 빈도수 높은 순으로 정렬
vocab_sorted = sorted(vocab.items(), key = lambda x:x[1], reverse = True)
print(vocab_sorted)

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3), ('word', 2), ('keeping', 2), ('good', 1), ('knew', 1), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)]


In [90]:
# 인덱싱 - 높은 빈도수를 가진 단어일수록 낮은 정수를 부여한다. 정수는 1부터 부여.
word_to_index = {}
i = 0

for (word, frequency) in vocab_sorted :
    if frequency > 1 : # 빈도수가 작은 단어는 제외. (자연어 처리에서 의미가 거의 없기 때문)
        i = i + 1
        word_to_index[word] = i

print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7}


자연어 처리에서는 빈도수가 가장 높은 n개의 단어만 사용하고 싶은 경우가 많다.   
이러한 경우 인덱스 값이 1부터 n까지인 단어들만 사용하면 된다.   
여기서는 상위 5개 단어만 사용한다고 가정하였다.

In [91]:
vocab_size = 5

# 인덱스가 5 초과인 단어 제거
words_frequency = [word for word, index in word_to_index.items() if index >= vocab_size + 1]

# 해당 단어에 대한 인덱스 정보를 삭제 - del 이용
for w in words_frequency:
    del word_to_index[w]    
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


word_to_index를 사용하여 단어 토큰화가 된 상태로 저장된 sentences에 있는 각 단어를 정수로 바꾸는 작업을 해보자.   
예를 들어 sentences에서 첫번째 문장은 ['barber', 'person']이었는데, 이 문장에 대해서는 [1, 5]로 인코딩한다.   
그런데 두번째 문장인 ['barber', 'good', 'person']에는 더 이상 word_to_index에는 존재하지 않는 단어인 'good'이라는 단어가 있다.   

**이처럼 단어 집합에 존재하지 않는 단어들이 생기는 상황을 Out-Of-Vocabulary(단어 집합에 없는 단어) 문제라고 한다. 약자로 'OOV 문제'라고도 한다.**  word_to_index에 'OOV'란 단어와 인덱스를 새롭게 추가하고, 단어 집합에 없는 단어들은 'OOV'의 인덱스로 인코딩하자. 

In [92]:
word_to_index['OOV'] = len(word_to_index) + 1
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'OOV': 6}


In [93]:
# 매핑(mapping)
encoded_sentences = []
for sentence in preprocessed_sentences:
    encoded_sentence = []
    for word in sentence:
        try:
            # 단어 집합에 있는 단어라면 해당 단어의 정수를 리턴.
            encoded_sentence.append(word_to_index[word])
        except KeyError:
            # 만약 단어 집합에 없는 단어라면 'OOV'의 정수를 리턴.
            encoded_sentence.append(word_to_index['OOV'])
    encoded_sentences.append(encoded_sentence)
print(encoded_sentences)

[[1, 5], [1, 6, 5], [1, 3, 5], [6, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [6, 6, 3, 2, 6, 1, 6], [1, 6, 3, 6]]


> 지금까지 파이썬의 dictionary 자료형으로 정수 인코딩으로 진행하였다.   

> 하지만 이보다 조금 더 쉽게 하기 위해 Counter, FreqDist, enumerate를 사용하거나, 케라스 토크나이저를 사용하는 것을 권장한다.

### 6.1.2 Counter 사용하기

In [94]:
from collections import Counter
print(preprocessed_sentences)

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


현재 sentences에는 단어 코튼화된 결과가 저장되어 있다. 단어 집합을 만들기 위해 sentences에서 문장의 경계인 [,]를 제거하고 단어들을 하나의 리스트로 만들어보자.

In [95]:
# words = np.hstack(preprocessed_sentences)으로도 수행 가능.
all_words_list = sum(preprocessed_sentences, [])
print(all_words_list)

['barber', 'person', 'barber', 'good', 'person', 'barber', 'huge', 'person', 'knew', 'secret', 'secret', 'kept', 'huge', 'secret', 'huge', 'secret', 'barber', 'kept', 'word', 'barber', 'kept', 'word', 'barber', 'kept', 'secret', 'keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy', 'barber', 'went', 'huge', 'mountain']


여기서 파이썬의 Counter()의 입력을 사용하면 중복을 제거하고 단어의 빈도수를 기록한다.

In [96]:
# 파이썬의 Counter 모듈을 이용하여 단어의 빈도수 카운트
vocab = Counter(all_words_list)
print(vocab)
print('----'*20)
print(vocab["barber"]) # 'barber'라는 단어의 빈도수 출력

Counter({'barber': 8, 'secret': 6, 'huge': 5, 'kept': 4, 'person': 3, 'word': 2, 'keeping': 2, 'good': 1, 'knew': 1, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1})
--------------------------------------------------------------------------------
8


In [97]:
# most_common(n)는 상위 빈도수를 가진 n개의 단어만을 리턴
vocab_size = 5
vocab = vocab.most_common(vocab_size) # 등장 빈도수가 높은 상위 5개의 단어만 저장
vocab

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]

이제 높은 빈도수를 가진 단어일수록 낮은 정수 인덱스를 부여해보자.

In [98]:
# 인덱스 변경
word_to_index = {}
i = 0
for (word, frequency) in vocab :
    i = i + 1
    word_to_index[word] = i

print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


### 6.1.3 NLTK의 FreqDsit 사용하기
NLTK에서는 빈도수 계산 도구인 FreqDist()를 지원하며, 위에서 사용한 Counter()와 같은 방법으로 사용할 수 있다.

In [99]:
from nltk import FreqDist
import numpy as np

In [100]:
# np.hstack으로 문장 구분을 제거 - array 형태로 반환
vocab = FreqDist(np.hstack(preprocessed_sentences))
print(vocab)    # samples : 단어 종류 수 / # outcomes : 총 빈도수

<FreqDist with 13 samples and 36 outcomes>


In [101]:
print(vocab["barber"]) # 'barber'라는 단어의 빈도수 출력

8


In [102]:
# most_common(n)는 상위 빈도수를 가진 n개의 단어만을 리턴
vocab_size = 5
vocab = vocab.most_common(vocab_size) # 등장 빈도수가 높은 상위 5개의 단어만 저장
print(vocab)

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]


이제 높은 빈도수를 가진 단어일수록 낮은 정수 인덱스를 부여해보자.   
Counter()에서 사용한 방법보다 좀 더 간단한 방법이 있다. - enumerate

In [103]:
word_to_index = {word[0] : index + 1 for index, word in enumerate(vocab)}
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


### 6.1.4 enumerate 이해하기
enumerate()는 순서가 있는 자료형(list, set, tuple, dictionary, string)을 입력으로 받아 인덱스를 순차적으로 함께 리턴한다는 특징이 있다. 이때 인덱스는 0부터 부여된다.

In [104]:
test_input = ['a', 'b', 'c', 'd', 'e']
for index, value in enumerate(test_input): # 입력의 순서대로 0부터 인덱스를 부여함.
    print("value : {}, index: {}".format(value, index))

value : a, index: 0
value : b, index: 1
value : c, index: 2
value : d, index: 3
value : e, index: 4


## 6.2 케라스(Keras)의 텍스트 전처리
케라스(Keras)는 기본적인 전처리를 위한 도구들을 제공한다. 때로는 **정수 인코딩을 위해서 케라스의 전처리 도구인 토크나이저를 사용하기도 하는데, 사용 방법과 그 특징에 대해서 알아보자.**   
* fit_on_texts()
* word_index
* word_counts
* texts_to_sequences()

In [105]:
# 문장 토큰화 + 단어 토큰화 + 전처리 완료 -> 코퍼스 생성
preprocessed_sentences = [['barber', 'person'], ['barber', 'good', 'person'], 
                          ['barber', 'huge', 'person'], ['knew', 'secret'], 
                          ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], 
                          ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], 
                          ['barber', 'kept', 'secret'], 
                          ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], 
                          ['barber', 'went', 'huge', 'mountain']]

In [106]:
# 케라스 전처리 도구 이용
from tensorflow.keras.preprocessing.text import Tokenizer
tokenizer = Tokenizer()

# fit_on_texts()안에 코퍼스를 입력으로 하면 빈도수를 기준으로 단어 집합을 생성.
# 입력한 텍스트로부터 단어 빈도수가 높은 순으로 낮은 정수 인덱스를 부여
tokenizer.fit_on_texts(preprocessed_sentences) 

In [107]:
# 각 단어에 인덱스가 어떻게 부여되었는지를 보려면 word_index를 사용
print(tokenizer.word_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7, 'good': 8, 'knew': 9, 'driving': 10, 'crazy': 11, 'went': 12, 'mountain': 13}


In [108]:
# 각 단어가 카운트를 수행하였을 때 몇 개였는지를 보고자 한다면 word_counts를 사용한다!
print(tokenizer.word_counts)

OrderedDict([('barber', 8), ('person', 3), ('good', 1), ('huge', 5), ('knew', 1), ('secret', 6), ('kept', 4), ('word', 2), ('keeping', 2), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)])


In [109]:
# texts_to_sequences()는 입력으로 들어온 코퍼스에 대해서 각 단어를 이미 정해진 인덱스로 변환한다.
print(tokenizer.texts_to_sequences(preprocessed_sentences))

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


케라스 토크나이저에서는 tokenizer = Tokenizer(num_words=숫자)를 사용하여 빈도수가 높은 상위 몇 개의 단어만 사용하겠다고 지정할 수 있다. (이전의 most_common()의 기능)

In [110]:
vocab_size = 5
tokenizer = Tokenizer(num_words = vocab_size + 1) # 상위 5개 단어만 사용
tokenizer.fit_on_texts(preprocessed_sentences)

> num_words에서 +1을 더해서 값을 넣어주는 이유 :   
> num_words는 숫자를 0부터 카운트한다. 만약 5를 넣으면 0 ~ 4번 단어 보존을 의미하게 되므로 뒤의 실습에서 1번 단어부터 4번 단어만 남게 된다. 그렇기 때문에 1 ~ 5번 단어까지 사용하고 싶다면 num_words에 숫자 5를 넣어주는 것이 아니라 5+1인 값을 넣어주어야 한다.

> 실질적으로 숫자 0에 지정된 단어가 존재하지 않는데도 케라스 토크나이저가 숫자 0까지 단어 집합의 크기로 산정하는 이유는 자연어 처리에서 패딩(padding)이라는 작업 때문이다. 이에 대해서는 뒤에 다루게 되므로 여기서는 케라스 토크나이저를 사용할 때는 숫자 0도 단어 집합의 크기로 고려해야 한다고만 이해하자.

> **_--> 요거 조금 헷갈림. 주의. 다시 공부!!!_**

In [111]:
print(tokenizer.word_index)   # 변화X

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7, 'good': 8, 'knew': 9, 'driving': 10, 'crazy': 11, 'went': 12, 'mountain': 13}


In [112]:
print(tokenizer.word_counts)   # 변화X

OrderedDict([('barber', 8), ('person', 3), ('good', 1), ('huge', 5), ('knew', 1), ('secret', 6), ('kept', 4), ('word', 2), ('keeping', 2), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)])


In [113]:
print(tokenizer.texts_to_sequences(preprocessed_sentences))  # 여기서만 적용됨

[[1, 5], [1, 5], [1, 3, 5], [2], [2, 4, 3, 2], [3, 2], [1, 4], [1, 4], [1, 4, 2], [3, 2, 1], [1, 3]]


> 빈도수가 높은 5개 단어에 1,2,3,4,5가 부여되었고, 나머지 단어들은 인덱스 변환이 실행되지 않고 제거되었다

word_index와 word_counts에서도 지정된 num_words만큼의 단어만 남기고 싶다면 아래의 코드가 하나의 방법이 될 수 있다.   
하지만 경험상 필요하다고 생각하지는 않는다...

In [114]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(preprocessed_sentences)

In [115]:
vocab_size = 5
words_frequency = [word for word, index in tokenizer.word_index.items() if index >= vocab_size + 1] 

# 인덱스가 5 초과인 단어 제거
for word in words_frequency:
    del tokenizer.word_index[word] # 해당 단어에 대한 인덱스 정보를 삭제
    del tokenizer.word_counts[word] # 해당 단어에 대한 카운트 정보를 삭제

print(tokenizer.word_index)
print(tokenizer.word_counts)
print(tokenizer.texts_to_sequences(preprocessed_sentences))

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}
OrderedDict([('barber', 8), ('person', 3), ('huge', 5), ('secret', 6), ('kept', 4)])
[[1, 5], [1, 5], [1, 3, 5], [2], [2, 4, 3, 2], [3, 2], [1, 4], [1, 4], [1, 4, 2], [3, 2, 1], [1, 3]]


케라스 토크나이저는 기본적으로 단어 집합에 없는 단어인 OOV에 대해서는 단어를 정수로 바꾸는 과정에서 아예 단어를 제거한다는 특징이 있다. 단어 집합에 없는 단어들은 OOV로 간주하여 보존하고 싶다면 Tokenizer의 인자 oov_token을 사용한다.

In [116]:
# 숫자 0과 OOV를 고려해서 단어 집합의 크기는 +2
vocab_size = 5
tokenizer = Tokenizer(num_words = vocab_size + 2, oov_token = 'OOV')
tokenizer.fit_on_texts(preprocessed_sentences)

만약 oov_token을 사용하기로 했다면 케라스 토크나이저는 기본적으로 'OOV'의 인덱스를 1로 한다.

In [117]:
print('단어 OOV의 인덱스 : {}'.format(tokenizer.word_index['OOV']))

단어 OOV의 인덱스 : 1


In [118]:
# 코퍼스에 대해 정수 인코딩 진행
print(tokenizer.texts_to_sequences(preprocessed_sentences))

[[2, 6], [2, 1, 6], [2, 4, 6], [1, 3], [3, 5, 4, 3], [4, 3], [2, 5, 1], [2, 5, 1], [2, 5, 3], [1, 1, 4, 3, 1, 2, 1], [2, 1, 4, 1]]


> 빈도수 상위 5개의 단어는 2 ~ 6까지의 인덱스를 가졌으며, 그 외 단어 집합에 없는 'good'과 같은 단어들은 전부 'OOV'의 인덱스인 1로 인코딩되었다.

# 7 패딩(Padding)
자연어 처리를 하다보면 각 문장(또는 문서)은 서로 길이가 다를 수 있는데, 기계는 길이가 전부 동일한 문서들에 대해서 하나의 행렬로 보고 한꺼번에 묶어서 처리할 수 있다.   
따라서 병렬 연산을 위해 여러 문장의 길이를 임의로 동일하게 맞춰주는 작업이 필요할 때가 있다.

## 7.1 Numpy로 패딩하기

In [119]:
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer

In [120]:
# 앞의 방법으로 정수 인코딩 수행
# preprocessed_sentences 변수 : 6.2 참고
tokenizer = Tokenizer()
tokenizer.fit_on_texts(preprocessed_sentences)
encoded = tokenizer.texts_to_sequences(preprocessed_sentences)
print(encoded)   # 모든 단어가 고유한 정수로 변환됨

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


모두 동일한 길이로 맞춰주기 위해서 이 중에서 가장 길이가 긴 문장의 길이를 계산해보자

In [121]:
max_len = max(len(item) for item in encoded)
print('최대 길이 :',max_len)   # 최대길이 : 7

최대 길이 : 7


모든 문장의 길이 7로 맞춰주자. 이때 가상의 단어 'PAD'를 사용한다. 'PAD'라는 단어가 있다고 가정하고, 이 단어는 0번 단어라고 정의한다. 길이가 7보다 짧은 문장에는 숫자 0을 채워서 길이 7로 맞춰준다.

In [122]:
# 모든 문장의 길이 7로 통일
for sentence in encoded:
    while len(sentence) < max_len:
        sentence.append(0)

padded_np = np.array(encoded)
padded_np

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]])

기계는 이들을 하나의 행렬로 보고, 병렬 처리를 할 수 있다. 또한, 0번 단어는 사실 아무런 의미도 없는 단어이기 때문에 자연어 처리하는 과정에서 기계는 0번 단어를 무시하게 될 것이다.   
이와 같이 **데이터에 특정 값을 채워서 데이터의 크기(shape)를 조정하는 것을 패딩(padding)이라고 한다.** 숫자 0을 사용하고 있다면 **제로 패딩(zero padding)**이라고 한다.

## 7.2 케라스 전처리 도구로 패딩하기
- pad_sequences()

In [123]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [124]:
print(encoded)

[[1, 5, 0, 0, 0, 0, 0], [1, 8, 5, 0, 0, 0, 0], [1, 3, 5, 0, 0, 0, 0], [9, 2, 0, 0, 0, 0, 0], [2, 4, 3, 2, 0, 0, 0], [3, 2, 0, 0, 0, 0, 0], [1, 4, 6, 0, 0, 0, 0], [1, 4, 6, 0, 0, 0, 0], [1, 4, 2, 0, 0, 0, 0], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13, 0, 0, 0]]


encoded 값이 위에서 이미 패딩 후의 결과로 저장되었기 때문에 패딩 이전의 값으로 다시 되돌려보자.

In [125]:
encoded = tokenizer.texts_to_sequences(preprocessed_sentences)
print(encoded)

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [126]:
padded = pad_sequences(encoded)
padded

array([[ 0,  0,  0,  0,  0,  1,  5],
       [ 0,  0,  0,  0,  1,  8,  5],
       [ 0,  0,  0,  0,  1,  3,  5],
       [ 0,  0,  0,  0,  0,  9,  2],
       [ 0,  0,  0,  2,  4,  3,  2],
       [ 0,  0,  0,  0,  0,  3,  2],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  2],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 0,  0,  0,  1, 12,  3, 13]])

> Numpy로 패딩을 진행하였을 때와는 패딩 결과가 다른데 그 이유는 pad_sequences는 기본적으로 문서의 뒤에 0을 채우는 것이 아니라 앞에 0으로 채우기 때문이다. 뒤에 0을 채우고 싶다면 인자로 padding='post'를 주면 된다.

In [127]:
padded = pad_sequences(encoded, padding='post')
padded

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]])

In [128]:
# numpy 이용과 결과가 동일한지 확인(비교)
(padded == padded_np).all()    # True

True

> **< Question >**   
**_--> 왜 .all()을 쓸까...?_**

실제로 꼭 가장 긴 문서의 길이를 기준으로 해야하는 것은 아니다. 가령, 모든 문서의 평균 길이가 20인데 문서 1개의 길이가 5,000이라고 해서 굳이 모든 문서의 길이를 5,000으로 패딩할 필요는 없다. 이와 같은 경우에는 길이에 제한을 두고 패딩할 수 있다. maxlen의 인자로 정수를 주면, 해당 정수로 모든 문서의 길이를 동일하게 한다.

In [129]:
padded = pad_sequences(encoded, padding='post', maxlen=5)
padded

array([[ 1,  5,  0,  0,  0],
       [ 1,  8,  5,  0,  0],
       [ 1,  3,  5,  0,  0],
       [ 9,  2,  0,  0,  0],
       [ 2,  4,  3,  2,  0],
       [ 3,  2,  0,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  2,  0,  0],
       [ 3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0]])

> 길이가 5보다 짧은 문서들은 0으로 패딩되고, 기존에 5보다 길었다면 데이터가 손실된다.   
> 만약, 데이터가 손실될 경우에 앞의 단어가 아니라 뒤의 단어가 삭제되도록 하고싶다면 truncating='post'를 사용한다.

In [130]:
padded = pad_sequences(encoded, padding='post', truncating='post', maxlen=5)
padded

array([[ 1,  5,  0,  0,  0],
       [ 1,  8,  5,  0,  0],
       [ 1,  3,  5,  0,  0],
       [ 9,  2,  0,  0,  0],
       [ 2,  4,  3,  2,  0],
       [ 3,  2,  0,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  2,  0,  0],
       [ 7,  7,  3,  2, 10],
       [ 1, 12,  3, 13,  0]])

숫자 0으로 패딩하는 것은 널리 퍼진 관례이긴 하지만, 숫자 0이 아니라 다른 숫자를 패딩을 위한 숫자로 사용하고 싶다면 이 또한 가능하다. 현재 사용된 정수들과 겹치지 않도록, 단어 집합의 크기에 +1을 한 숫자로 사용해보자.

In [131]:
last_value = len(tokenizer.word_index) + 1 # 단어 집합의 크기보다 1 큰 숫자를 사용
print(last_value)

14


In [132]:
# 0이 아닌 다른 숫자로 패딩
padded = pad_sequences(encoded, padding='post', value=last_value)
padded

array([[ 1,  5, 14, 14, 14, 14, 14],
       [ 1,  8,  5, 14, 14, 14, 14],
       [ 1,  3,  5, 14, 14, 14, 14],
       [ 9,  2, 14, 14, 14, 14, 14],
       [ 2,  4,  3,  2, 14, 14, 14],
       [ 3,  2, 14, 14, 14, 14, 14],
       [ 1,  4,  6, 14, 14, 14, 14],
       [ 1,  4,  6, 14, 14, 14, 14],
       [ 1,  4,  2, 14, 14, 14, 14],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13, 14, 14, 14]])

# 8 원-핫 인코딩(One-Hot Encoding)
단어 집합은 서로 다른 단어들의 집합이다. 기본적으로 book과 books와 같이 단어의 변형 형태도 다른 단어로 간주한다.    
원-핫 인코딩을 위해서 먼저 해야할 일은 단어 집합을 만드는 일이다. 각 단어에 고유한 정수 인덱스를 부여하였을 때, 이 숫자로 바뀐 단어들을 벡터로 다루고 싶다면 어떻게 하면 될지 알아보자.

## 8.1 원-핫 인코딩(One-Hot Encoding)이란?
원-핫 인코딩은 단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에는 0을 부여하는 단어의 벡터 표현 방식이다.   
이렇게 표현된 벡터를 원-핫 벡터(One-Hot vector)라고 한다.

아래 문장을 예제로 원-핫 벡터를 만들어보자.
**문장 : 나는 자연어 처리를 배운다.**

In [133]:
from konlpy.tag import Okt  

okt = Okt()  
tokens = okt.morphs("나는 자연어 처리를 배운다")  
print(tokens)

['나', '는', '자연어', '처리', '를', '배운다']


각 토큰에 대해서 고유한 정수를 부여한다. 지금은 문장이 짧기 때문에 각 단어의 빈도수를 고려하지 않지만, 빈도수 순으로 단어를 정렬하여 정수를 부여하는 경우가 많다.

In [134]:
word_to_index = {word : index for index, word in enumerate(tokens)}
print('단어 집합 :',word_to_index)

단어 집합 : {'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}


In [135]:
# 원-핫 벡터 생성 함수
def one_hot_encoding(word, word_to_index):
    one_hot_vector = [0]*(len(word_to_index))
    index = word_to_index[word]
    one_hot_vector[index] = 1
    return one_hot_vector

In [136]:
# '자연어'라는 단어의 원-핫 벡터
one_hot_encoding("자연어", word_to_index)

[0, 0, 1, 0, 0, 0]

> '자연어'는 정수 2이므로 원-핫 벡터는 인덱스 2의 값이 1이며, 나머지 값은 0인 벡터가 나온다.

## 8.2 케라스(Keras)를 이용한 원-핫 인코딩(One-Hot Encoding)
위에서는 원-핫 인코딩을 이해하기 위해 파이썬으로 직접 코드를 작성하였지만, 케라스는 원-핫 인코딩을 수행하는 유용한 도구 to_categorical()를 지원한다.

케라스만으로 정수 인코딩과 원-핫 인코딩을 순차적으로 진행해보자.

In [137]:
text = "나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

In [138]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

text = "나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

tokenizer = Tokenizer()
tokenizer.fit_on_texts([text])
print('단어 집합 :',tokenizer.word_index)

단어 집합 : {'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}


생성된 단어 집합 내의 일부 단어들로만 구성된 서브 텍스트인 sub_text를 만들어 정수 시퀀스로 변환해보자.

In [139]:
sub_text = "점심 먹으러 갈래 메뉴는 햄버거 최고야"
encoded = tokenizer.texts_to_sequences([sub_text])[0]
print(encoded)

[2, 5, 1, 6, 3, 7]


이제 해당 결과를 가지고, 원-핫 인코딩을 진행해보자. - to_categorical() 이용

In [140]:
one_hot = to_categorical(encoded)
print(one_hot)

[[0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]]


> 위의 결과는 "점심 먹으러 갈래 메뉴는 햄버거 최고야"라는 문장이 [2, 5, 1, 6, 3, 7]로 정수 인코딩이 되고나서, 각각의 인코딩 된 결과를 인덱스로 원-핫 인코딩이 수행된 모습을 보여준다.

## 8.3 원-핫 인코딩(One-Hot Encoding)의 한계
이러한 표현 방식은 **_단어의 개수가 늘어날 수록, 벡터를 저장하기 위해 필요한 공간, 즉 벡터의 차원이 계속 늘어난다_**는 단점이 있다. 이는 저장 공간 측면에서 매우 비효율적인 표현 방법이다.

또한 원-핫 벡터는 **_단어의 유사도를 표현하지 못한다_**는 단점이 있다.   
예를 들어 늑대, 호랑이, 강아지, 고양이라는 4개의 단어에 대해서 원-핫 인코딩을 해서 각각, [1, 0, 0, 0], [0, 1, 0, 0], [0, 0, 1, 0], [0, 0, 0, 1]이라는 원-핫 벡터를 부여받았다고 하자. 이때 원-핫 벡터로는 강아지와 늑대가 유사하고, 호랑이와 고양이가 유사하다는 것을 표현할 수가 없다.   
이 단점은 **검색 시스템 등에서는 문제**가 될 수 있다.   
가령, 여행을 가려고 웹 검색창에 '삿포로 숙소'라는 단어를 검색한다고 하자. 제대로 된 검색 시스템이라면, '삿포로 숙소'라는 검색어에 대해서 '삿포로 게스트 하우스', '삿포로 료칸', '삿포로 호텔'과 같은 유사 단어에 대한 결과도 함께 보여줄 수 있어야 한다. 하지만 단어간 유사성을 계산할 수 없다면, '게스트 하우스'와 '료칸'과 '호텔'이라는 연관 검색어를 보여줄 수 없을 것이다.

이러한 단점을 해결하기 위해 단어의 잠재 의미를 반영하여 다차원 공간에 벡터화 하는 기법으로 크게 두 가지가 있다. 첫째는 카운트 기반의 벡터화 방법인 LSA(잠재 의미 분석), HAL 등이 있으며, 둘째는 예측 기반으로 벡터화하는 NNLM, RNNLM, Word2Vec, FastText 등이 있다. 그리고 카운트 기반과 예측 기반 두 가지 방법을 모두 사용하는 방법으로 GloVe라는 방법이 존재한다.   
여기서 언급한 방법들 중 대부분은 워드 임베딩 챕터에서 다룰 것이다.

# 9 데이터의 분리(Splitting Data)
머신 러닝 모델을 학습시키고 평가하기 위해서는 데이터를 적절하게 분리하는 작업이 필요하다.   
지도 학습을 위한 데이터 분리 작업에 대해 배워보자.
* train_test_split

In [141]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

## 9.1 지도 학습(Supervised Learning)

**<훈련 데이터>**   
X_train : 문제지 데이터   
y_train : 문제지에 대한 정답 데이터.   

**<테스트 데이터>**   
X_test : 시험지 데이터.   
y_test : 시험지에 대한 정답 데이터.   

기계는 X_train과 y_train에 대해서 학습을 진행하며, 학습을 다한 기계에게 X_test에 대해 정답을 예측하게 한다. 이후 기계가 예측한 답과 실제 정답인 y_test를 비교하면서 기계가 정답을 얼마나 맞췄는지를 평가한다. 이 수치가 기계의 정확도(Accuracy)가 된다.

## 9.2 X와 y 분리하기

### 1) zip 함수 이용
zip()함수는 동일한 개수를 가지는 시퀀스 자료형에서 각 순서에 등장하는 원소들끼리 묶어주는 역할을 한다. 리스트의 리스트 구성에서 zip 함수는 X와 y를 분리하는데 유용하다.

In [142]:
X, y = zip(['a', 1], ['b', 2], ['c', 3]) 
print('X 데이터 :',X)   # 첫번째 원소는 첫번째 원소끼리
print('y 데이터 :',y)   # 두번째 원소는 두번째 원소끼리

X 데이터 : ('a', 'b', 'c')
y 데이터 : (1, 2, 3)


In [143]:
# 리스트의 리스트 또는 행렬 또는 뒤에서 배울 개념인 2D 텐서.
sequences = [['a', 1], ['b', 2], ['c', 3]]
X, y = zip(*sequences)
print('X 데이터 :',X)   # 첫번째 원소는 첫번째 원소끼리
print('y 데이터 :',y)   # 두번째 원소는 두번째 원소끼리

X 데이터 : ('a', 'b', 'c')
y 데이터 : (1, 2, 3)


### 2) 데이터프레임을 이용하여 분리하기
데이터프레임은 열의 이름으로 각 열에 접근이 가능하므로, 이를 이용하면 손쉽게 X 데이터와 y 데이터를 분리할 수 있다.

In [144]:
values = [['당신에게 드리는 마지막 혜택!', 1],
['내일 뵐 수 있을지 확인 부탁드...', 0],
['도연씨. 잘 지내시죠? 오랜만입...', 0],
['(광고) AI로 주가를 예측할 수 있다!', 1]]
columns = ['메일 본문', '스팸 메일 유무']

df = pd.DataFrame(values, columns=columns)
df

Unnamed: 0,메일 본문,스팸 메일 유무
0,당신에게 드리는 마지막 혜택!,1
1,내일 뵐 수 있을지 확인 부탁드...,0
2,도연씨. 잘 지내시죠? 오랜만입...,0
3,(광고) AI로 주가를 예측할 수 있다!,1


In [145]:
X = df['메일 본문']
y = df['스팸 메일 유무']
print('X 데이터 :',X.to_list())
print('y 데이터 :',y.to_list())

X 데이터 : ['당신에게 드리는 마지막 혜택!', '내일 뵐 수 있을지 확인 부탁드...', '도연씨. 잘 지내시죠? 오랜만입...', '(광고) AI로 주가를 예측할 수 있다!']
y 데이터 : [1, 0, 0, 1]


### 3) Numpy를 이용하여 분리하기
임의의 데이터를 만들어서 Numpy의 슬라이싱(slicing)을 사용하여 데이터를 분리해보자.

In [146]:
np_array = np.arange(0,16).reshape((4,4))
print('전체 데이터 :')
print(np_array)

전체 데이터 :
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [147]:
# 마지막 열을 제외하고 X데이터에 저장
# 마지막 열만을 y데이터에 저장
X = np_array[:, :3]
y = np_array[:,3]

print('X 데이터 :')
print(X)
print('y 데이터 :',y)

X 데이터 :
[[ 0  1  2]
 [ 4  5  6]
 [ 8  9 10]
 [12 13 14]]
y 데이터 : [ 3  7 11 15]


## 9.3 테스트 데이터 분리하기
이미 X와 y가 분리된 데이터에 대해서 테스트 데이터를 분리하는 과정에 대해서 알아보자.

### 1) 사이킷 런을 이용하여 분리하기 - train_test_split()
각 인자는 다음을 의미한다.
* X : 독립 변수 데이터. (배열이나 데이터프레임)
* y : 종속 변수 데이터. 레이블 데이터.
* test_size : 테스트용 데이터 개수를 지정. 1보다 작은 실수를 기재할 경우, 비율을 나타낸다.
* train_size : 학습용 데이터의 개수를 지정. 1보다 작은 실수를 기재할 경우, 비율을 나타낸다.
* random_state : 난수 시드 -> 동일한 코드를 다음에 재현하고자 할 때 사용

In [148]:
# 임의로 X와 y 데이터를 생성
X, y = np.arange(10).reshape((5, 2)), range(5)

print('X 전체 데이터 :')
print(X)
print('y 전체 데이터 :')
print(list(y))

X 전체 데이터 :
[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
y 전체 데이터 :
[0, 1, 2, 3, 4]


In [149]:
# 7:3의 비율로 훈련 데이터와 테스트 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1234)

print('X 훈련 데이터 :')
print(X_train)
print('X 테스트 데이터 :')
print(X_test)
print('-----'*10)
print('y 훈련 데이터 :')
print(y_train)
print('y 테스트 데이터 :')
print(y_test)

X 훈련 데이터 :
[[2 3]
 [4 5]
 [6 7]]
X 테스트 데이터 :
[[8 9]
 [0 1]]
--------------------------------------------------
y 훈련 데이터 :
[1, 2, 3]
y 테스트 데이터 :
[4, 0]


### 2) 수동으로 분리하기

In [150]:
# 실습을 위해 임의로 X와 y가 이미 분리 된 데이터를 생성
X, y = np.arange(0,24).reshape((12,2)), range(12)

print('X 전체 데이터 :')
print(X)
print('y 전체 데이터 :')
print(list(y))

X 전체 데이터 :
[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 19]
 [20 21]
 [22 23]]
y 전체 데이터 :
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]


In [151]:
num_of_train = int(len(X) * 0.8) # 데이터의 전체 길이의 80%에 해당하는 길이값을 구한다.
num_of_test = int(len(X) - num_of_train) # 전체 길이에서 80%에 해당하는 길이를 뺀다.
print('훈련 데이터의 크기 :',num_of_train)
print('테스트 데이터의 크기 :',num_of_test)

훈련 데이터의 크기 : 9
테스트 데이터의 크기 : 3


In [152]:
X_test = X[num_of_train:] # 전체 데이터 중에서 20%만큼 뒤의 데이터 저장
y_test = y[num_of_train:] # 전체 데이터 중에서 20%만큼 뒤의 데이터 저장
X_train = X[:num_of_train] # 전체 데이터 중에서 80%만큼 앞의 데이터 저장
y_train = y[:num_of_train] # 전체 데이터 중에서 80%만큼 앞의 데이터 저장

In [153]:
# 데이터의 크기 확인 - 원하는 비율로 잘 나누어졌는지 확인
print('X 테스트 데이터 :')
print(X_test)
print('y 테스트 데이터 :')
print(list(y_test))

X 테스트 데이터 :
[[18 19]
 [20 21]
 [22 23]]
y 테스트 데이터 :
[9, 10, 11]


# 10 한국어 전처리 패키지(Text Preprocessing Tools for Korean Text)
유용한 한국어 전처리 패키지를 정리해보자.   
앞서 소개한 형태소와 문장 토크나이징 도구들인 KoNLPy와 KSS(Korean Sentence Splitter)와 함께 유용하게 사용할 수 있는 패키지들이다.

## 10.1 PyKoScacing
띄어쓰기가 되어있지 않은 문장을 띄어쓰기를 한 문장으로 변환해주는 패키지   
대용량 코퍼스를 학습하여 만들어진 띄어쓰기 딥 러닝 모델로 준수한 성능을 갖는다.

In [154]:
#!pip install git+https://github.com/haven-jeon/PyKoSpacing.git

> **< no module named 'pykospacing' >**   
위의 코드로 아나콘다에서 pykospacing 설치하고 from pykospacing import Spacing 했는데 no module named 'pykospacing'라고 오류남.   
그래서 cmd창에서 다시 설치했더니(물론 이때도 내 가상환경에서!) 오류 해결됨.   
> 이후 깃에서 불어오는 패키지들에 대해 오류 나면 동일하게 오류 해결.

> **< Python 모듈 설치 유무 확인하고 싶을 때 >**   
> 1. !pip list | grep 모듈명
> - 버전까지 확인 가능
> - 기본 내장 모듈은 확인 불가
> - pip list만 작성시 모든 모듈 확인 가능
> 2. !pip show 모듈명
> - 버전, 설치위치까지 확인 가능
> - 정확한 이름을 알아야 함
> - 기본 내장 모듈은 확인 불가

In [155]:
sent = '김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의\
 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인\
 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.'

In [156]:
# 띄어쓰기가 없는 문장 임의로 만들기
new_sent = sent.replace(" ", '') 
print(new_sent)

김철수는극중두인격의사나이이광수역을맡았다.철수는한국유일의태권도전승자를가리는결전의날을앞두고10년간함께훈련한사형인유연재(김광수분)를찾으러속세로내려온인물이다.


In [157]:
# PyKoSpacing를 사용하고 원 문장과 비교해보자.
from pykospacing import Spacing
spacing = Spacing()
kospacing_sent = spacing(new_sent) 

print(sent)
print(kospacing_sent)

김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.
김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.


In [158]:
# 결과가 일치한지 확인(비교)
sent == kospacing_sent    # True

True

## 10.2 Py-Hanspell
네이버 한글 맞춤법 검사기를 바탕으로 만들어진 패키지.   
띄어쓰기 또한 보정해준다.   
PyKoSpacing과 결과가 거의 비슷하지만 조금 다르다.

In [159]:
#!pip install git+https://github.com/ssut/py-hanspell.git

In [160]:
from hanspell import spell_checker

sent = "맞춤법 틀리면 외 않되? 쓰고싶은대로쓰면돼지 "
spelled_sent = spell_checker.check(sent)

hanspell_sent = spelled_sent.checked
print(hanspell_sent)

맞춤법 틀리면 왜 안돼? 쓰고 싶은 대로 쓰면 되지


In [161]:
spelled_sent = spell_checker.check(new_sent)

hanspell_sent = spelled_sent.checked
print(hanspell_sent)
print(kospacing_sent) # 앞서 사용한 kospacing 패키지에서 얻은 결과

김철수는 극 중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연제(김광수 분)를 찾으러 속세로 내려온 인물이다.
김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.


## 10.3 SOYNLP를 이용한 단어 토큰화
soynlp는 품사 태깅, 단어 토큰화 등을 지원하는 단어 토크나이저이다.   
비지도 학습으로 단어 토큰화를 한다는 특징을 갖고 있으며, 데이터에 자주 등장하는 단어들을 단어로 분석한다.   
soynlp 단어 토크나이저는 내부적으로 단어 점수 표로 동작한다. 이 점수는 응집 확률(cohesion probability)과 브랜칭 엔트로피(branching entropy)를 활용한다.

In [162]:
#!pip install soynlp

### 10.3.1 신조어 문제
아래와 같이 기존의 형태소 분석기는 신조어나 형태소 분석기에 등록되지 않은 단어 같은 경우에는 제대로 구분하지 못하는 단점이 있는데, soynlp는 신조어를 처리하는 점에서 유용하다.

In [163]:
from konlpy.tag import Okt
tokenizer = Okt()
print(tokenizer.morphs('에이비식스 이대휘 1월 최애돌 기부 요정'))

['에이', '비식스', '이대', '휘', '1월', '최애', '돌', '기부', '요정']


### 10.3.2 학습하기
soynlp는 기본적으로 학습에 기반한 토크나이저이므로 학습에 필요한 한국어 문서를 다운로드한다.

In [164]:
import urllib.request
from soynlp import DoublespaceLineCorpus
from soynlp.word import WordExtractor

urllib.request.urlretrieve("https://raw.githubusercontent.com/lovit/soynlp/master/\
tutorials/2016-10-20.txt", filename="2016-10-20.txt")

('2016-10-20.txt', <http.client.HTTPMessage at 0x20d9d4b9ca0>)

In [165]:
# 훈련 데이터를 다수의 문서로 분리
corpus = DoublespaceLineCorpus("2016-10-20.txt")
len(corpus)

30091

In [166]:
# 상위 3개의 문서만 출력
i = 0
for document in corpus:
    if len(document) > 0:
        print(document)
        i = i+1
    if i == 3:
        break

19  1990  52 1 22
오패산터널 총격전 용의자 검거 서울 연합뉴스 경찰 관계자들이 19일 오후 서울 강북구 오패산 터널 인근에서 사제 총기를 발사해 경찰을 살해한 용의자 성모씨를 검거하고 있다 성씨는 검거 당시 서바이벌 게임에서 쓰는 방탄조끼에 헬멧까지 착용한 상태였다 독자제공 영상 캡처 연합뉴스  서울 연합뉴스 김은경 기자 사제 총기로 경찰을 살해한 범인 성모 46 씨는 주도면밀했다  경찰에 따르면 성씨는 19일 오후 강북경찰서 인근 부동산 업소 밖에서 부동산업자 이모 67 씨가 나오기를 기다렸다 이씨와는 평소에도 말다툼을 자주 한 것으로 알려졌다  이씨가 나와 걷기 시작하자 성씨는 따라가면서 미리 준비해온 사제 총기를 이씨에게 발사했다 총알이 빗나가면서 이씨는 도망갔다 그 빗나간 총알은 지나가던 행인 71 씨의 배를 스쳤다  성씨는 강북서 인근 치킨집까지 이씨 뒤를 쫓으며 실랑이하다 쓰러뜨린 후 총기와 함께 가져온 망치로 이씨 머리를 때렸다  이 과정에서 오후 6시 20분께 강북구 번동 길 위에서 사람들이 싸우고 있다 총소리가 났다 는 등의 신고가 여러건 들어왔다  5분 후에 성씨의 전자발찌가 훼손됐다는 신고가 보호관찰소 시스템을 통해 들어왔다 성범죄자로 전자발찌를 차고 있던 성씨는 부엌칼로 직접 자신의 발찌를 끊었다  용의자 소지 사제총기 2정 서울 연합뉴스 임헌정 기자 서울 시내에서 폭행 용의자가 현장 조사를 벌이던 경찰관에게 사제총기를 발사해 경찰관이 숨졌다 19일 오후 6시28분 강북구 번동에서 둔기로 맞았다 는 폭행 피해 신고가 접수돼 현장에서 조사하던 강북경찰서 번동파출소 소속 김모 54 경위가 폭행 용의자 성모 45 씨가 쏜 사제총기에 맞고 쓰러진 뒤 병원에 옮겨졌으나 숨졌다 사진은 용의자가 소지한 사제총기  신고를 받고 번동파출소에서 김창호 54 경위 등 경찰들이 오후 6시 29분께 현장으로 출동했다 성씨는 그사이 부동산 앞에 놓아뒀던 가방을 챙겨 오패산 쪽으로 도망간 후였다  김 경위는 오패산 터널 입구 오른쪽의 급경사에서 성씨에

soynlp는 학습 기반의 단어 토크나이저이므로 기존의 KoNLPy에서 제공하는 형태소 분석기들과는 달리 학습 과정을 거쳐야 한다. 이는 전체 코퍼스로부터 응집 확률과 브랜칭 엔트로피 단어 점수표를 만드는 과정이다. WordExtractor.extract()를 통해서 전체 코퍼스에 대해 단어 점수표를 계산한다.

In [167]:
word_extractor = WordExtractor()
word_extractor.train(corpus)    # 학습
word_score_table = word_extractor.extract()

training was done. used memory 1.926 Gb
all cohesion probabilities was computed. # words = 223348
all branching entropies was computed # words = 361598
all accessor variety was computed # words = 361598


> 학습이 완료되었다.

### 10.3.3 SOYNLP의 응집 확률(cohesion probability)
응집 확률 : 내부 문자열(substring)이 얼마나 응집하여 자주 등장하는지를 판단하는 척도.   
응집 확률이 높을수록 전체 코퍼스에서 이 문자열 시퀀스는 하나의 단어로 등장할 가능성이 높다.   

실습을 통해 직접 응집 확률을 계산해보자. '반포한강공원에'라는 7의 길이를 가진 문자 시퀀스에 대해서 각 내부 문자열의 응집 확률을 계산해보자.

In [168]:
word_score_table["반포한"].cohesion_forward

0.08838002913645132

In [169]:
word_score_table["반포한강"].cohesion_forward

0.19841268168224552

In [170]:
word_score_table["반포한강공"].cohesion_forward

0.2972877884078849

In [171]:
word_score_table["반포한강공원"].cohesion_forward

0.37891487632839754

In [172]:
word_score_table["반포한강공원에"].cohesion_forward

0.33492963377557666

응집도(결합도)는 '반포한강공원'일 때가 가장 높다. **응집도를 통해, 하나의 단어로 판단하기에 가장 적합한 문자열은 '반포한강공원'이라고 볼 수 있다.**

### 10.3.4 SOYNLP의 브랜칭 엔트로피(branching entropy)
Branching Entropy는 확률 분포의 엔트로피값을 사용하는데, 이는 주어진 문자열에서 얼마나 다음 문자가 등장할 수 있는지를 판단하는 척도이다.   
브랜칭 엔트로피의 값은 하나의 완성된 단어에 가까워질수록 문맥으로 인해 점점 정확히 예측할 수 있게 되면서 점점 줄어드는 양상을 보인다.

In [173]:
print(word_score_table["디스"].right_branching_entropy)
print(word_score_table["디스플"].right_branching_entropy)

1.6371694761537934
-0.0


> '디스' 다음에는 다양한 문자(디스코드, 디스카운트...)가 올 수 있어 1.63이라는 값을 가지는 반면, '디스플'이라는 문자열 다음에는 다음 문자로 '레'가 오는 것이 너무나 명백하기 때문에 0이란 값을 가진다.

In [174]:
word_score_table["디스플레이"].right_branching_entropy

3.1400392861792916

> 갑자기 값이 증가하였다. 그 이유는 '디스플레이'라는 문자 시퀀스 다음에는 조사나 다른 단어와 같은 다양한 경우가 있을 수 있기 때문이다.    
> 이는 하나의 단어가 끝나면 그 경계 부분부터 다시 브랜칭 엔트로피 값이 증가하게 됨을 의미한다. 따라서 이 값으로 '단어'를 판단하는 것도 가능할 것이다!

### 10.3.5 SOYNLP의 L tokenizer
한국어는 띄어쓰기 단위로 나눈 어절 토큰은 주로 L 토큰 + R 토큰의 형식을 가질 때가 많다. 왼쪽에 오는 L 토큰은 체언(명사, 대명사)이나 동사, 형용사 등이고 오른쪽에 오는 R 토큰은 조사, 동사, 형용사 등이다.    
이때 여러가지 길이의 L 토큰의 점수를 비교하여 가장 점수가 높은 L 단어를 찾는 것을 L-토큰화(L-tokenizing)라고 한다.

L 토크나이저는 L 토큰 + R 토큰으로 나누되, 분리 기준을 점수가 가장 높은 L 토큰을 찾아내는 원리를 가지고 있다.

In [175]:
from soynlp.tokenizer import LTokenizer

scores = {word:score.cohesion_forward for word, score in word_score_table.items()}
l_tokenizer = LTokenizer(scores=scores)
l_tokenizer.tokenize("국제사회와 우리의 노력들로 범죄를 척결하자", flatten=False)

[('국제사회', '와'), ('우리', '의'), ('노력', '들로'), ('범죄', '를'), ('척결', '하자')]

### 10.3.6 최대 점수 토크나이저
최대 점수 토크나이저는 띄어쓰기가 되지 않는 문장에서 점수가 높은 글자 시퀀스를 순차적으로 찾아내는 토크나이저이다.

In [176]:
from soynlp.tokenizer import MaxScoreTokenizer

maxscore_tokenizer = MaxScoreTokenizer(scores=scores)
maxscore_tokenizer.tokenize("국제사회와우리의노력들로범죄를척결하자")

['국제사회', '와', '우리', '의', '노력', '들로', '범죄', '를', '척결', '하자']

## 10.4 SOYNLP를 이용한 반복되는 문자 정제
SNS나 채팅 데이터의 한국어 데이터의 경우에는 ㅋㅋ, ㅎㅎ 등의 이모티콘의 경우 불필요하게 연속되는 경우가 많은데 ㅋㅋ, ㅋㅋㅋ와 같은 경우를 모두 서로 다른 단어로 처리하는 것은 불필요하다. 이에 반복되는 것은 하나로 정규화시켜준다.

In [177]:
from soynlp.normalizer import *

In [178]:
print(emoticon_normalize('앜ㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠㅠ', num_repeats=2))
print(emoticon_normalize('앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠ', num_repeats=2))
print(emoticon_normalize('앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠㅠㅠ', num_repeats=2))
print(emoticon_normalize('앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠㅠㅠㅠㅠ', num_repeats=2))

아ㅋㅋ영화존잼쓰ㅠㅠ
아ㅋㅋ영화존잼쓰ㅠㅠ
아ㅋㅋ영화존잼쓰ㅠㅠ
아ㅋㅋ영화존잼쓰ㅠㅠ


In [179]:
print(repeat_normalize('와하하하하하하하하하핫', num_repeats=2))
print(repeat_normalize('와하하하하하하핫', num_repeats=2))
print(repeat_normalize('와하하하하핫', num_repeats=2))

와하하핫
와하하핫
와하하핫


## 10.5 Customized KoNLPy
영어권 언어는 띄어쓰기만해도 단어들이 잘 분리되지만, 한국어는 그렇지 않다.   
형태소 분석기를 사용해서 단어 토큰화를 해보자. 이때 형태소 분석기에 사용자 사전을 추가하여 조금 더 원하는 결과가 나타나도록 만들 수도 있다.   

사용자 사전을 추가하는 방법을 형태소 분석기마다 다른데, 생각보다 복잡한 경우들이 많다. 이번 실습에서는 Customized Konlpy라는 사용자 사전 추가가 매우 쉬운 패키지를 사용해보자.

In [180]:
#!pip install customized_konlpy

In [181]:
# 사용자 사전 추가 전
from ckonlpy.tag import Twitter
twitter = Twitter()
twitter.morphs('은경이는 사무실로 갔습니다.')   # '은경이'라는 단어가 분리됨

  warn('"Twitter" has changed to "Okt" since KoNLPy v0.4.5.')


['은', '경이', '는', '사무실', '로', '갔습니다', '.']

In [182]:
# 사용자 사전 추가
twitter.add_dictionary('은경이', 'Noun')

In [183]:
# 사용자 사전 추가 후
twitter.morphs('은경이는 사무실로 갔습니다.')  # '은경이'라는 단어가 하나의 토큰으로 인식됨.

['은경이', '는', '사무실', '로', '갔습니다', '.']