## 자연어 토크나이징 도구

자연어 처리를 하기 위해서 우선 텍스트에 대한 정보를 단위별로 나누는 것이 일반적.  
e.g.) 영화 리뷰 내용 예측 -> 한 문장을 단어 단위로 쪼개서 분석  

이처럼 예측해야 할 입력 정보를 하나의 특정 기본 단위로 자르는 것을 **토크나이징**이라고 함.  
토크나이징을 할 때 언어의 특징에 따라 처리 방법이 달라짐.

### 영어 토크나이징 라이브러리

영어의 경우 NLTK(Natural Language Toolkit)와 Spacy가 토크나이징에 많이 쓰이는 대표적인 라이브러리.  
이 두 라이브러리는 영어 텍스트에 대해 전처리 및 분석을 하기 위한 도구로 유명.  

#### NLTK  
NLTK는 파이썬에서 영어 텍스트 전처리 작업을 하는 데 많이 쓰이는 라이브러리이다.  
50여 개가 넘는 말뭉치 리소스를 활용해 영어 텍스트를 분석할 수 있게 제공한다.  
직관적으로 함수를 쉽게 사용할 수 있게 구성돼 있어 빠르게 텍스트 전처리를 할 수 있다.  

#### 라이브러리 설치

In [None]:
conda install nltk

추가로 설치해야하는 것이 하나 더 있음.  
NLTK만 설치한다고 바로 토크나이징할 수 있는 것이 아니라 **말뭉치(corpus)** 를 내려받아야 연동 가능.  

말뭉치를 설치하려면 

In [1]:
import nltk
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

* all-corpora : 텍스트 언어 분석을 위한 말뭉치 데이터셋
* book : NTLK 언어 분석을 하기 위한 예시 데이터셋

#### 토크나이징
**토크나이징** 이란?  
텍스트에 대해 특정 기준 단위로 문장을 나누는 것.  
e.g) 문장을 단어 기준으로 나누거나 전체 글을 문장 단위로 나누는 것들을 의미 -> 한글의 경우 'ㄱ', 'ㄴ' 등으로 나누는 것도 하나의 토큰.  

파이썬에서 간단하게 split 함수를 써서 해결할 수 도 있으나 라이브러리를 사용하면 훨씬 더 간편하고 효과적!

#### 단어 단위 토크나이징
라이브러리의 tokenize 모듈에서 word_tokenize를 불러온 후 사용하면 됨.

In [2]:
from nltk.tokenize import word_tokenize
sentence = "Natural language processing (NLP) is a subfield of computer science, information engineering, and artificial intelligence concerned with the interactions between computers and human (natural) languages, in particular how to program computers to process and analyze large amounts of natural language data."

print(word_tokenize(sentence))

['Natural', 'language', 'processing', '(', 'NLP', ')', 'is', 'a', 'subfield', 'of', 'computer', 'science', ',', 'information', 'engineering', ',', 'and', 'artificial', 'intelligence', 'concerned', 'with', 'the', 'interactions', 'between', 'computers', 'and', 'human', '(', 'natural', ')', 'languages', ',', 'in', 'particular', 'how', 'to', 'program', 'computers', 'to', 'process', 'and', 'analyze', 'large', 'amounts', 'of', 'natural', 'language', 'data', '.']


결과를 보면 모두 단어로 구분돼 있고, 특수 문자의 경우 따로 구분된 것을 확인 가능.  
이렇게 별다른 설정 없이 함수에 데이터를 적용하기만 해도 간단하게 토크나이징된 결과를 받을 수 있다.  
이제 문장 단위로도 잘라보자.  

#### 문장 단위 토크나이징
문단 -> 문장 -> 단어로 쪼개야하는 경우 등에서 주로 사용.  
NLTK 라이브러리를 통해 이 역시 쉽게 가능하다.

In [3]:
from nltk.tokenize import sent_tokenize
paragraph = "Natural language processing (NLP) is a subfield of computer science, information engineering, and artificial intelligence concerned with the interactions between computers and human (natural) languages, in particular how to program computers to process and analyze large amounts of natural language data. Challenges in natural language processing frequently involve speech recognition, natural language understanding, and natural language generation."

print(sent_tokenize(paragraph))

['Natural language processing (NLP) is a subfield of computer science, information engineering, and artificial intelligence concerned with the interactions between computers and human (natural) languages, in particular how to program computers to process and analyze large amounts of natural language data.', 'Challenges in natural language processing frequently involve speech recognition, natural language understanding, and natural language generation.']


뿐만 아니라 NLTK 라이브러리의 경우 토크나이징 외에도 자연어 처리에 유용한 기능들을 제공.  
대표적으로 불용어(the, is와 같이 큰 의미를 가지지 않는 단어)에 대한 불용어 사전이 내장돼 있어 텍스트 전처리 시 불용어를 간단하게 제거가 가능.  

이제 또 다른 토크나이징 도구인 **Spacy**에 대해 알아보자.  
Spacy도 NLTK와 마찬가지로 매우 간단하게 텍스트를 토크나이징할 수 있는 라이브러리이다. 


#### Spacy
Spacy 역시 NLTK와 같은 오픈소스 라이브러리이다.  
주로 교육, 연구 목적이 아닌 상업용 목적이라는 점에서 NLTK와 다른 목적으로 만들어진 라이브러리.  
현재 영어 포함 8개 국어에 대한 자연어 전처리 모듈을 제공하고, 빠른 속도로 전처리할 수 있음.  

또한 쉽게 설치하고 원하는 언어에 대한 전처리를 한 번에 해결할 수 있다는 장점이 있으며, 특히 딥러닝 언어 모델의 개발도 지원하고 있어 매력적.  

#### 라이브러리 설치

In [6]:
conda install spacy

Collecting package metadata (current_repodata.json): ...working... done
Note: you may need to restart the kernel to use updated packages.




  current version: 4.8.3
  latest version: 4.9.2

Please update conda by running

    $ conda update -n base -c defaults conda



RemoveError: 'requests' is a dependency of conda and cannot be removed from
conda's operating environment.




Solving environment: ...working... 
The environment is inconsistent, please check the package plan carefully
The following packages are causing the inconsistency:

  - defaults/win-64::anaconda-client==1.7.2=py37_0
  - defaults/win-64::anaconda==custom=py37_1
  - defaults/win-64::anaconda-navigator==1.9.7=py37_0
  - defaults/noarch::anaconda-project==0.8.4=py_0
  - defaults/win-64::astropy==4.0.1.post1=py37he774522_1
  - defaults/win-64::bkcharts==0.2=py37_0
  - defaults/win-64::bokeh==2.0.2=py37_0
  - defaults/win-64::bottleneck==1.3.2=py37h2a96729_0
  - defaults/win-64::conda==4.8.3=py37_0
  - defaults/win-64::conda-build==3.18.9=py37_3
  - defaults/win-64::cryptography==2.9.2=py37h7a1dbc1_0
  - fastai/win-64::cython-blis==0.2.4=py37hfa6e2cd_1
  - defaults/noarch::dask==2.16.0=py_0
  - fastai/noarch::fastai==1.0.60=1
  - defaults/win-64::h5py==2.10.0=py37h5e291fa_0
  - defaults/noarch::imageio==2.8.0=py_0
  - defaults/noarch::jupyterlab==1.2.6=pyhf63ae98_0
  - defaults/noarch::jupyt

NLTK와 마찬가지로 영어에 대한 텍스트를 전처리하려면 언어 데이터 자료를 별도로 내려받아야 한다.

#### Spacy 토크나이징
NLTK 라이브러리에서 단어 단위와 문장 단위의 토크나이징 함수가 서로 구분돼 있었음.  
하지만 Spacy에서는 두 경우 모두 동일한 모듈을 통해 토크나이징한다.  

In [14]:
import spacy

Spacy를 사용할 때는 토크나이징 라이브러리를 불러와야 한다.  

In [16]:
nlp = spacy.load('en_core_web_sm')
sentence = "Natural language processing (NLP) is a subfield of computer science, information engineering, and artificial intelligence concerned with the interactions between computers and human (natural) languages, in particular how to program computers to process and analyze large amounts of natural language data."

doc = nlp(sentence)

먼저 spacy.load를 통해 토크나이징할 객체를 생성해서 nlp 변수에 할당.  
그리고 토크나이징할 텍스트를 sentence에 할당하여 nlp(sentence)를 실행해 nlp 객체에 대해 호출하자.  
그러고 나면 텍스트에 대해 구문 분석 객체를 반환하는데 이를 doc 변수에 할당한다.  

이제 doc 객체를 가지고 입력한 텍스트에 대한 단어 토크나이징과 문장 토크나이징을 할 수 있다.  

In [24]:
word_tokenized_sentence = [token.text for token in doc]
sentence_tokenized_list = [sent.text for sent in doc.sents]
print(word_tokenized_sentence)
print(sentence_tokenized_list)

['Natural', 'language', 'processing', '(', 'NLP', ')', 'is', 'a', 'subfield', 'of', 'computer', 'science', ',', 'information', 'engineering', ',', 'and', 'artificial', 'intelligence', 'concerned', 'with', 'the', 'interactions', 'between', 'computers', 'and', 'human', '(', 'natural', ')', 'languages', ',', 'in', 'particular', 'how', 'to', 'program', 'computers', 'to', 'process', 'and', 'analyze', 'large', 'amounts', 'of', 'natural', 'language', 'data', '.']
['Natural language processing (NLP) is a subfield of computer science, information engineering, and artificial intelligence concerned with the interactions between computers and human (natural) languages, in particular how to program computers to process and analyze large amounts of natural language data.']


토크나이징 시 doc 객체를 활용해 [token.text for token in doc]과 같이 리스트 컴프리헨션을 활용하면 간단하게 토크나이징 결과를 확인할 수 있다.  
doc 객체에 대해 반복문을 사용하면 단어 기준 token이 나오고, doc.sents 값에 대해 반복문을 사용하면 문장 기준 토크나이징이 된다. 

NLTK는 함수를 통해 토크나이징을 했지만 Spacy는 객체를 생성하는 방식으로 구현돼 있다.  
이는 객체를 통해 단순히 토크나이징 뿐 아니라 갖가지 다른 자연어 전처리 기능을 제공할 수 있기 때ㅜㅁㄴ.  

하지만 이러한 영어 토크나이징 도구는 한국어에 적용할 수 없다는 문제점!!

### 한글 토크나이징 라이브러리
각 언어마다 모두 특징이 달라 천편일률적으로 동일한 방법을 적용하기는 어렵다.  
한글에도 NLTK나 Spacy 같은 도구를 사용할 수 있으면 좋겠지만 언어 특성상 영어를 위한 도구를 사용하기에는 적합하지 않다.  


한글 자연어 처리에 많이 사용하는 파이썬 라이브러리는 **KoNLPy** 이다.  
이는 형태소 분석으로 형태소 단위의 토크나이징을 가능하게 할뿐만 아니라 구문 분석을 가능하게 해서 언어 분석을 하는 데 유용한 도구다.

#### KoNLPy

한글 자연어 처리를 쉽고 간결하게 처리할 수 있도록 만들어진 오픈소스 라이브러리다.  
또한 국내에 이미 만들어져 사용되고 있는 여러 형태소 분석기를 사용할 수 있게 허용한다.  
일반적인 어절 단위에 대한 토크나이징은 NLTK로 충분히 가능하므로 여기에서는 형태소 단위에 대한 토크나이징에 대해 알아보겠다.

먼저 java를 설치한 후 환경변수 설정을 한다.  
환경변수 설정이 끝났다면 이제 0.5.7 번전 이상의 **JPype1** 을 설치해야 한다.  
이는 KoNLPy에서 필요하며 파이썬에서 자바 클래스를 사용할 수 있도록 만들어주는 라이브러리다.  
해당하는 Jpype버젼을 다운받고 해당 경로에서 다음 명령어로 설치한다.

> pip install JPype-   -  - .whl

여기까지 진행했다면 KoNLPy를 설치하기 위한 준비가 모두 끝났다.

> pip install konlpy

를 입력하면 설치가 진행된다. 

In [25]:
import konlpy

#### 형태소 단위 토크나이징

한글 테스트의 경우 형태소 단위 토크나이징이 필요할 때가 있따.  
각 형태소 분석기벼로 분석한 결과는 다를 수 있다.  
각 형태소 분석기는 클래스 형태로 돼 있고, 이를 객체로 생성한 후 메서드를 호출해서 토크나이징할 수 있다.  

#### 형태소 분석 및 품사 태깅
**형태소** 란? 
가장 작은 단위로서 더쪼개지면 의미를 상실하는 것들을 말함.  
따라서 형태소 분석이란 의미를 가지는 단위를 기준으로 문장을 살펴보는 것을 의미.  

KoNLPy이전에 C, C++, 자바 언어를 통해 형태소 분석을 할 수 있는 좋은 라이브러리들이 있었다.  
KoNLPy는 이러한 기존의 형태소 분석기들을 파이썬 라이브러리로 통합해서 사용할 수 있게 됐고, 그 결과, 한국어 구문 분석을 쉽게 할 수 있게 됐다.  

KoNLPy에는 다양한 형태소 분석기들이 객체 형태로 포함돼 있으며, 각 형태소 분석기의 목록은 다음과 같다. 
- Hannanum
- Kkma
- Komoran
- Mecab
- Okt(Twitter)

위 객체들은 모두 동일하게 형태소 분석 기능을 제공하는데, 각기 성능이 조금씩 다르므로 직접 비교해보고 자신의 데이터를 가장 잘 분석하는 분석기를 사용하길 권장.  
참고로 Mecab은 윈도우에서는 사용할 수 없음.  

Okt를 예로 들어 설명해보겠다.
Okt의 경우 원래 이름이 Twitter였으나 0.5.0 버전 이후로 이름이 바뀜.  

In [26]:
from konlpy.tag import Okt

Okt를 불러온 후, Okt를 사용하려면 Okt 객체를 먼저 생성해야 한다. 

In [27]:
okt = Okt()

Okt 객체는 다음과 같은 4개의 함수를 제공한다.

1) okt.morphs()
  : 텍스트를 형태소 단위로 나눔. 옵션으로는 norm과 stm이 있음.  
    각각 True 혹은 False 값을 받으며, norm은 normalize의 약자로 문장을 정규화하는 역할, stem은 각 단어에서 어간을 추출하는 기능.  
    각각 True로 설정하면 각 기능이 적용된다.  옵션을 지정하지 않으면 기본값은 둘다 False로 설정.
    
2) okt.nouns()
  : 텍스트에서 명사만 뽑아냄.
 
3) okt.phrases()
  : 텍스트에서 어절을 뽑아냄.
  
4) okt.pos()
  : 위의 세 함수는 어간 / 명사 / 어절 등을 추출해내는 추출기로 동작했다면 pos 함수는 가 ㄱ품사를 태깅하는 역할.  
    품사를 태깅한다는 것은 주어진 텍스트를 형태소 단위로 나누고, 나눠진 각 형태소를 그에 해당하는 품사와 함께 리스트화하는 것으 ㄹ의미.  
    옵션으로는 morphs와 마찬가지로 norm, stem이 있고 추가적으로 join 옵션이 있음.  
    join 옵션 값을 True로 설정 시 나눠진 형태소와 품사를 '형태소/품사'형태로 같이 붙여서 리스트화함.

In [29]:
text = "한글 자연어 처리는 재밌다 이제부터 열심히 해야지ㅎㅎㅎ"

print(okt.morphs(text))
print(okt.morphs(text, stem = True)) # 형태소 단위로 나눈 후 어간 추출

['한글', '자연어', '처리', '는', '재밌다', '이제', '부터', '열심히', '해야지', 'ㅎㅎㅎ']
['한글', '자연어', '처리', '는', '재밌다', '이제', '부터', '열심히', '하다', 'ㅎㅎㅎ']


어간 추출 시 '해야지'의 어간인 '하다'로 추출된 것을 확인할 수 있음.  
이제 앞서 정의한 문장에서 명사와 어절을 추출해보자.

In [30]:
print(okt.nouns(text))
print(okt.phrases(text))

['한글', '자연어', '처리', '이제']
['한글', '한글 자연어', '한글 자연어 처리', '이제', '자연어', '처리']


nouns함수 사용시 명사만 추출.  
phrases 함수의 경우 어절 단위로 나눠서 추출. 

이제 품사 태깅 pos를 해보자.

In [31]:
print(okt.pos(text))
print(okt.pos(text, join = True)) # 형태소와 품사 붙여서 리스트화

[('한글', 'Noun'), ('자연어', 'Noun'), ('처리', 'Noun'), ('는', 'Josa'), ('재밌다', 'Adjective'), ('이제', 'Noun'), ('부터', 'Josa'), ('열심히', 'Adverb'), ('해야지', 'Verb'), ('ㅎㅎㅎ', 'KoreanParticle')]
['한글/Noun', '자연어/Noun', '처리/Noun', '는/Josa', '재밌다/Adjective', '이제/Noun', '부터/Josa', '열심히/Adverb', '해야지/Verb', 'ㅎㅎㅎ/KoreanParticle']


#### KoNLPy 데이터

KoNLPy 라이브러리는 한글 자연어 처리에 활용할 수 있는 한글 데이터를 포함하고 있다.  
따라서 라이브러리를 통해 데이터를 바로 사용할 수 있으며, 데이터의 종류는 다음과 같다. 

- Kolaw : 한국 법률 말뭉치. 'constitution.txt' 파일로 저장돼 있다.
- kobill : 대하님ㄴ국 국회 의안 말뭉치. 각 id 값을 가지는 의안으로 구성돼 있고 파일은 '1809890.txt'부터 '1809899.txt'까지 구성돼 있음.

In [32]:
from konlpy.corpus import kolaw
from konlpy.corpus import kobill

법률 말뭉치를 불러와보자.  
긴 말뭉치이므로 앞의 20개까지만 불러온다.

In [33]:
kolaw.open('constitution.txt').read()[:20]

'대한민국헌법\n\n유구한 역사와 전통에 '

국회 의안 말뭉치도 불러오자.  
여러 의안 중에서 1809890.txt 의안을 불러와보자.

In [34]:
kobill.open('1809890.txt').read()

'지방공무원법 일부개정법률안\n\n(정의화의원 대표발의 )\n\n 의 안\n 번 호\n\n9890\n\n발의연월일 : 2010.  11.  12.  \n\n발  의  자 : 정의화․이명수․김을동 \n\n이사철․여상규․안규백\n\n황영철․박영아․김정훈\n\n김학송 의원(10인)\n\n제안이유 및 주요내용\n\n  초등학교 저학년의 경우에도 부모의 따뜻한 사랑과 보살핌이 필요\n\n한 나이이나, 현재 공무원이 자녀를 양육하기 위하여 육아휴직을 할 \n\n수 있는 자녀의 나이는 만 6세 이하로 되어 있어 초등학교 저학년인 \n\n자녀를 돌보기 위해서는 해당 부모님은 일자리를 그만 두어야 하고 \n\n이는 곧 출산의욕을 저하시키는 문제로 이어질 수 있을 것임.\n\n  따라서 육아휴직이 가능한 자녀의 연령을 만 8세 이하로 개정하려\n\n는 것임(안 제63조제2항제4호).\n\n- 1 -\n\n\x0c법률  제        호\n\n지방공무원법 일부개정법률안\n\n지방공무원법 일부를 다음과 같이 개정한다.\n\n제63조제2항제4호 중 “만 6세 이하의 초등학교 취학 전 자녀를”을 “만 \n\n8세 이하(취학 중인 경우에는 초등학교 2학년 이하를 말한다)의 자녀를”\n\n로 한다.\n\n부      칙\n\n이 법은 공포한 날부터 시행한다.\n\n- 3 -\n\n\x0c신 ·구조문대비표\n\n현      행\n\n개   정   안\n\n제63조(휴직) ① (생  략)\n\n제63조(휴직) ① (현행과 같음)\n\n  ② 공무원이 다음 각 호의 어\n\n  ② -------------------------\n\n느 하나에 해당하는 사유로 휴\n\n----------------------------\n\n직을 원하면 임용권자는 휴직\n\n----------------------------\n\n을 명할 수 있다. 다만, 제4호\n\n-------------.---------------\n\n의 경우에는 대통령령으로 정\n\n---------------------------