<a href="https://colab.research.google.com/github/jg116907/NLPstudy/blob/master/NLP_Tokenizing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 자연어 토크나이징
- 예측해야 할 입력 정보(문장 또는 발화)를 하나의 특정 기본 단위로 자르는 것을 토크나이징이라 한다.


## 영어 토크나이징
- NLTK(Natural Language Toolkit), Spacy가 토크나이징에 많이 쓰이는 대표적인 라이브러리.

In [0]:
# NLTK
# 빠르게 영어 텍스트 전처리가 가능
!pip3 install nltk

In [0]:
import nltk
nltk.download() # 말뭉치(corpus)를 내려받아 연동
# all-corpora : 텍스트 언어 분석을 위한 말뭉치 데이터 셋
# book : 예시 데이터 셋

In [0]:
nltk.download('punkt')

In [13]:
# 단어 단위 토크나이징
from nltk.tokenize import word_tokenize
sentence = "Natural language processing (NLP) is a subfield of linguistics, \
computer science, information engineering, and artificial intelligence concerned \
with the interactions between computers and human (natural) languages, \
in particular how to program computers to process and analyze large amounts of natural language data. \
Challenges in natural language processing frequently involve speech recognition, \
natural language understanding, and natural language generation."

print (word_tokenize(sentence))

['Natural', 'language', 'processing', '(', 'NLP', ')', 'is', 'a', 'subfield', 'of', 'linguistics', ',', 'computer', 'science', ',', 'information', 'engineering', ',', 'and', 'artificial', 'intelligence', 'concerned', 'with', 'the', 'interactions', 'between', 'computers', 'and', 'human', '(', 'natural', ')', 'languages', ',', 'in', 'particular', 'how', 'to', 'program', 'computers', 'to', 'process', 'and', 'analyze', 'large', 'amounts', 'of', 'natural', 'language', 'data', '.', 'Challenges', 'in', 'natural', 'language', 'processing', 'frequently', 'involve', 'speech', 'recognition', ',', 'natural', 'language', 'understanding', ',', 'and', 'natural', 'language', 'generation', '.']


In [12]:
# 문장 단위 토크나이징
from nltk.tokenize import sent_tokenize
paragraph = "Natural language processing (NLP) is a subfield of linguistics, \
computer science, information engineering, and artificial intelligence concerned \
with the interactions between computers and human (natural) languages, \
in particular how to program computers to process and analyze large amounts of natural language data. \
Challenges in natural language processing frequently involve speech recognition, \
natural language understanding, and natural language generation."

print(sent_tokenize(paragraph))

['Natural language processing (NLP) is a subfield of linguistics, computer science, information engineering, and artificial intelligence concerned with the interactions between computers and human (natural) languages, in particular how to program computers to process and analyze large amounts of natural language data.', 'Challenges in natural language processing frequently involve speech recognition, natural language understanding, and natural language generation.']


In [0]:
# Spacy
!pip3 install spacy

In [15]:
!python3 -m spacy download en # 언어 데이터 자료 설치

[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('en_core_web_sm')
[38;5;2m✔ Linking successful[0m
/usr/local/lib/python3.6/dist-packages/en_core_web_sm -->
/usr/local/lib/python3.6/dist-packages/spacy/data/en
You can now load the model via spacy.load('en')


In [0]:
import spacy

In [0]:
nlp = spacy.load('en') # 토크나이징할 객체 생성 후 nlp 변수에 할당
sentence = "Natural language processing (NLP) is a subfield of linguistics, \
computer science, information engineering, and artificial intelligence concerned \
with the interactions between computers and human (natural) languages, \
in particular how to program computers to process and analyze large amounts of natural language data. \
Challenges in natural language processing frequently involve speech recognition, \
natural language understanding, and natural language generation."

doc = nlp(sentence)

In [18]:
word_tokenized_sentence = [token.text for token in doc]
sentence_tokenized_list = [sent.text for sent in doc.sents]
print(word_tokenized_sentence)
print(sentence_tokenized_list)

['Natural', 'language', 'processing', '(', 'NLP', ')', 'is', 'a', 'subfield', 'of', 'linguistics', ',', 'computer', 'science', ',', 'information', 'engineering', ',', 'and', 'artificial', 'intelligence', 'concerned', 'with', 'the', 'interactions', 'between', 'computers', 'and', 'human', '(', 'natural', ')', 'languages', ',', 'in', 'particular', 'how', 'to', 'program', 'computers', 'to', 'process', 'and', 'analyze', 'large', 'amounts', 'of', 'natural', 'language', 'data', '.', 'Challenges', 'in', 'natural', 'language', 'processing', 'frequently', 'involve', 'speech', 'recognition', ',', 'natural', 'language', 'understanding', ',', 'and', 'natural', 'language', 'generation', '.']
['Natural language processing (NLP) is a subfield of linguistics, computer science, information engineering, and artificial intelligence concerned with the interactions between computers and human (natural) languages, in particular how to program computers to process and analyze large amounts of natural language

## 한글 토크나이징 - KoNLPy
- KoNLPy 라이브러리는 형태소 분석으로 형태소 단위의 토크나이징이 가능할 뿐만 아니라 구문 분석을 가능하게 한다.

In [19]:
# KoNLPy
!java -version # java가 설치되어 있어야 한다.

openjdk version "11.0.4" 2019-07-16
OpenJDK Runtime Environment (build 11.0.4+11-post-Ubuntu-1ubuntu218.04.3)
OpenJDK 64-Bit Server VM (build 11.0.4+11-post-Ubuntu-1ubuntu218.04.3, mixed mode, sharing)


In [22]:
!pip3 install konlpy

Collecting konlpy
[?25l  Downloading https://files.pythonhosted.org/packages/e5/3d/4e983cd98d87b50b2ab0387d73fa946f745aa8164e8888a714d5129f9765/konlpy-0.5.1-py2.py3-none-any.whl (19.4MB)
[K     |████████████████████████████████| 19.4MB 4.9MB/s 
[?25hCollecting JPype1>=0.5.7 (from konlpy)
[?25l  Downloading https://files.pythonhosted.org/packages/07/09/e19ce27d41d4f66d73ac5b6c6a188c51b506f56c7bfbe6c1491db2d15995/JPype1-0.7.0-cp36-cp36m-manylinux2010_x86_64.whl (2.7MB)
[K     |████████████████████████████████| 2.7MB 40.3MB/s 
[?25hInstalling collected packages: JPype1, konlpy
Successfully installed JPype1-0.7.0 konlpy-0.5.1


In [0]:
import konlpy

## Okt를 이용한 형태소 분석
- okt.morphs() : 텍스트를 형태소 단위로 나눈다.
  > - option
      - norm : 문장을 정규화
      - stem : 각 단어에서 어간을 추출
- okt.nouns() : 텍스트에서 명사만 뽑아낸다
- okt.phrase() : 텍스트에서 어절을 뽑아낸다.
- okt.pos() : 각 품사를 태깅하는 역할을 한다.
  > 태깅 : 주어진 텍스트를 형태소 단위로 나누고, 나눠진 형태소를 그에 해당하는 품사와 함께 리스트화
  - option
    - norm, stem
    - join : 나눠진 형태소와 품사를 '형태소/품사' 형태로 같이 붙여서 리스트화 

In [0]:
from konlpy.tag import Okt # 다양한 객체 형태의 형태소 분석기들 중 Okt를 사용
okt = Okt() # 객체 생성

In [28]:
text = "자연어 처리(自然語處理) 또는 자연 언어 처리(自然言語處理)는 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 \
모사 할수 있도록 연구하고 이를 구현하는 인공지능의 주요 분야 중 하나다. \
자연 언어 처리는 연구 대상이 언어 이기 때문에 당연하게도 언어 자체를 연구하는 \
언어학과 언어 현상의 내적 기재를 탐구하는 언어 인지 과학과 연관이 깊다. \
구현을 위해 수학적 통계적 도구를 많이 활용하며 특히 기계학습 도구를 많이 사용하는 대표적인 분야이다. \
정보검색, QA 시스템, 문서 자동 분류, 신문기사 클러스터링, 대화형 Agent 등 다양한 응용이 이루어 지고 있다."

print(okt.morphs(text))
print(okt.morphs(text,stem=True)) # 형태소 단위로 나눈 후 어간을 추출

['자연어', '처리', '(', '自然語處理', ')', '또는', '자연', '언어', '처리', '(', '自然言語處理', ')', '는', '인간', '의', '언어', '현상', '을', '컴퓨터', '와', '같은', '기계', '를', '이용', '해서', '모사', '할수', '있도록', '연구', '하고', '이를', '구현', '하는', '인공', '지능', '의', '주요', '분야', '중', '하나', '다', '.', '자연', '언어', '처리', '는', '연구', '대상', '이', '언어', '이기', '때문', '에', '당연하게도', '언어', '자체', '를', '연구', '하는', '언어학', '과', '언어', '현상', '의', '내적', '기재', '를', '탐구', '하는', '언어', '인지', '과학', '과', '연관', '이', '깊다', '.', '구현', '을', '위해', '수학', '적', '통계', '적', '도구', '를', '많이', '활용', '하며', '특히', '기계학습', '도구', '를', '많이', '사용', '하는', '대표', '적', '인', '분야', '이다', '.', '정보검색', ',', 'QA', '시스템', ',', '문서', '자동', '분류', ',', '신문', '기사', '클러스터링', ',', '대화', '형', 'Agent', '등', '다양한', '응용', '이', '이루어', '지고', '있다', '.']
['자연어', '처리', '(', '自然語處理', ')', '또는', '자연', '언어', '처리', '(', '自然言語處理', ')', '늘다', '인간', '의', '언어', '현상', '을', '컴퓨터', '와', '같다', '기계', '를', '이용', '하다', '모사', '하다', '있다', '연구', '하고', '이르다', '구현', '하다', '인공', '지능', '의', '주요', '분야', '중', '하나', '다', '.', '자연'

In [29]:
print(okt.nouns(text))
print(okt.phrases(text))

['자연어', '처리', '자연', '언어', '처리', '인간', '언어', '현상', '컴퓨터', '기계', '이용', '모사', '연구', '구현', '인공', '지능', '주요', '분야', '중', '하나', '자연', '언어', '처리', '연구', '대상', '언어', '이기', '때문', '언어', '자체', '연구', '언어학', '언어', '현상', '내적', '기재', '탐구', '언어', '인지', '과학', '연관', '구현', '위해', '수학', '통계', '도구', '활용', '기계학습', '도구', '사용', '대표', '분야', '정보검색', '시스템', '문서', '자동', '분류', '신문', '기사', '클러스터링', '대화', '등', '응용', '지고']
['자연어', '자연어 처리', '자연', '자연 언어', '자연 언어 처리', '인간', '인간의 언어', '인간의 언어 현상', '컴퓨터', '컴퓨터와 같은 기계', '이용', '모사', '연구', '구현', '구현하는 인공지능', '구현하는 인공지능의 주요', '구현하는 인공지능의 주요 분야', '구현하는 인공지능의 주요 분야 중', '구현하는 인공지능의 주요 분야 중 하나', '연구 대상', '언어', '언어 이기', '언어 이기 때문', '언어 자체', '연구하는 언어학', '연구하는 언어학과 언어', '연구하는 언어학과 언어 현상', '연구하는 언어학과 언어 현상의 내적', '탐구', '탐구하는 언어', '탐구하는 언어 인지', '탐구하는 언어 인지 과학', '탐구하는 언어 인지 과학과 연관', '위해', '위해 수학적 통계적 도구', '활용', '기계학습', '기계학습 도구', '사용', '분야', '정보검색', 'QA', 'QA 시스템', '문서', '문서 자동', '문서 자동 분류', '신문기사', '신문기사 클러스터링', '대화형', '대화형 Agent', '대화형 Agent 등', '대화형 Agent 등 다양한 응용', '지고', '처리', '현상'

In [30]:
print(okt.pos(text))
print(okt.pos(text, join=True))

[('자연어', 'Noun'), ('처리', 'Noun'), ('(', 'Punctuation'), ('自然語處理', 'Foreign'), (')', 'Punctuation'), ('또는', 'Adverb'), ('자연', 'Noun'), ('언어', 'Noun'), ('처리', 'Noun'), ('(', 'Punctuation'), ('自然言語處理', 'Foreign'), (')', 'Punctuation'), ('는', 'Verb'), ('인간', 'Noun'), ('의', 'Josa'), ('언어', 'Noun'), ('현상', 'Noun'), ('을', 'Josa'), ('컴퓨터', 'Noun'), ('와', 'Josa'), ('같은', 'Adjective'), ('기계', 'Noun'), ('를', 'Josa'), ('이용', 'Noun'), ('해서', 'Verb'), ('모사', 'Noun'), ('할수', 'Verb'), ('있도록', 'Adjective'), ('연구', 'Noun'), ('하고', 'Josa'), ('이를', 'Verb'), ('구현', 'Noun'), ('하는', 'Verb'), ('인공', 'Noun'), ('지능', 'Noun'), ('의', 'Josa'), ('주요', 'Noun'), ('분야', 'Noun'), ('중', 'Noun'), ('하나', 'Noun'), ('다', 'Josa'), ('.', 'Punctuation'), ('자연', 'Noun'), ('언어', 'Noun'), ('처리', 'Noun'), ('는', 'Josa'), ('연구', 'Noun'), ('대상', 'Noun'), ('이', 'Josa'), ('언어', 'Noun'), ('이기', 'Noun'), ('때문', 'Noun'), ('에', 'Josa'), ('당연하게도', 'Adjective'), ('언어', 'Noun'), ('자체', 'Noun'), ('를', 'Josa'), ('연구', 'Noun'), ('하는', 'Verb'), (

## KoNLPy 데이터
- kolaw : 한국 법률 말뭉치. 'constitution.txt'파일로 저장되어 있다.
- kobill : 대한민국 국회 의안 말뭉치. 각 id 값을 가지는 의안으로 구성돼 있고 파일은 '1809890.txt' 부터 '1809899.txt'까지 구성

In [0]:
from konlpy.corpus import kolaw
from konlpy.corpus import kobill

In [32]:
kolaw.open('constitution.txt').read()[:20]

'대한민국헌법\n\n유구한 역사와 전통에 '

In [35]:
kobill.open('1809890.txt').read()[:30]

'지방공무원법 일부개정법률안\n\n(정의화의원 대표발의 )\n'