# 영문, 한글 토크나이저를 구분해야함
# 영문 토크나이저 대표적인건 nltk, spacy

## 영어 토크나이징
- NLTK(Natural Language Toolkit) 과 Spacy 가 대표적 임  
## 1. NLTK  
- 파이썬에서 영어 텍스트 전처리 작업을 하는 데 많이 쓰이는 라이브러리  
- 50여개가 넘는 말뭉치(corpus) 리소스를 활용해 영어 텍스트를 분석할 수 있게 해줌  
- 직관적인 함수 사용법으로 빠르게 텍스트 전처리를 할 수 있음


In [1]:
import nltk

In [2]:
# nltk의 말뭉치 데이터를 다운받아야 함
nltk.download('all-corpora')

In [3]:
nltk.download('punkt')

In [4]:
# 영문 기준으로 nltk 사용법 보기
from nltk.tokenize import word_tokenize, sent_tokenize

In [5]:
# Sample 문장
sentence = "Natural language processing (NLP) is a subfield of computer science, \
information engineering, and artificial intelligence concerned with the interactions \
between computers and human (natural) languages, in particular how to program computers \
to process and analyze large amounts of natural language data."

In [6]:
# 영어 단어기준으로 자름
print(word_tokenize(sentence))

['Natural', 'language', 'processing', '(', 'NLP', ')', 'is', 'a', 'subfield', 'of', 'computer', 'science', ',', 'information', 'engineering', ',', 'and', 'artificial', 'intelligence', 'concerned', 'with', 'the', 'interactions', 'between', 'computers', 'and', 'human', '(', 'natural', ')', 'languages', ',', 'in', 'particular', 'how', 'to', 'program', 'computers', 'to', 'process', 'and', 'analyze', 'large', 'amounts', 'of', 'natural', 'language', 'data', '.']


In [7]:
# 문장 기준으로 자름
paragraph = "Natural language processing (NLP) is a subfield of computer science, \
information engineering, and artificial intelligence concerned with the interactions \
between computers and human (natural) languages, in particular how to program computers \
to process and analyze large amounts of natural language data. Challenges in natural \
language processing frequently involve speech recognition, natural language \
understanding, and natural language generation."

In [8]:
print(sent_tokenize(paragraph))

['Natural language processing (NLP) is a subfield of computer science, information engineering, and artificial intelligence concerned with the interactions between computers and human (natural) languages, in particular how to program computers to process and analyze large amounts of natural language data.', 'Challenges in natural language processing frequently involve speech recognition, natural language understanding, and natural language generation.']


In [9]:
# 정관사 불용어 사전
from nltk.corpus import stopwords
stopwords.words('english')[:20]

['i',
 'me',
 'my',
 'myself',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',
 "you're",
 "you've",
 "you'll",
 "you'd",
 'your',
 'yours',
 'yourself',
 'yourselves',
 'he',
 'him',
 'his']

In [10]:
# 그렇다면 얘가가진 불용어는 몇개나 될까
print(len(stopwords.words('english')))

179


In [11]:
stop_words = set(stopwords.words('english'))
word_tokens = word_tokenize(sentence)

# 불용어를 걸러내고 담을 것임
result = []
for w in word_tokens:
    if w not in stop_words:
        result.append(w)

print(result)

['Natural', 'language', 'processing', '(', 'NLP', ')', 'subfield', 'computer', 'science', ',', 'information', 'engineering', ',', 'artificial', 'intelligence', 'concerned', 'interactions', 'computers', 'human', '(', 'natural', ')', 'languages', ',', 'particular', 'program', 'computers', 'process', 'analyze', 'large', 'amounts', 'natural', 'language', 'data', '.']


## 2. Spacy
- 상업용 목적으로 만들어진 오픈소스 라이브러리  
- 영어를 포함한 8개 국어에 대한 자연어 전처리 모듈을 제공  
- 쉬운 설치 및 빠른 전처리

## 한글 토크나이징
- 한글은 언어의 특성상 NLTK나 Spacy는 사용하기에 적합하지 않음  
- 영어에 존재하지 않는 형태소 분석이나 음소 분리와 같은 내용은 다루기 어려움  
- 한글 자연어 처리에 많이 사용되는 KoNLPy 에 대해 알아봄

## KoLNPy
- 의미를 가지는 가장 작은 단위 = 형태소
- 한글 자연어 처리를 위해 만들어진 오픈소스 라이브러리  
- 국내에 이미 만들어져 사용되고 있는 여러 형태소 분석기를 사용할 수 있음  
- 자바로 작성된 형태소 분석기를 사용하기 때문에 윈도우에서 KoNLPy를 설치하기 위해서는 Java(1.7 이상)가 필요  

In [12]:
# 자바하고 파이썬 연결 인스톨
# conda install -c conda-forge jpype1 -y
# pip install konlpy

import konlpy

### 형태소 단위 토크나이징
- KoNLPy에서는 여러 형태소 분석기를 제공  
- 각 형태소 분석기는 클래스 형태로 되어 있고, 이를 객체로 생성한 후 메서드를 호출해서 토크나이징 함

### 형태소 분석 및 품사 태깅
- 형태소란 의미를 가지는 가장 작은 단위  
- KoNLPy에 객체 형태로 포함되어 있는 형태소 분석기 목록  
a. Hannanum  
b. Kkma  
c. Komoran  
d. Mecab  
e. Okt(Twitter)  
- 위 객체들은 모두 동일하게 형태소 분석 기능을 제공  
- 각기 성능이 조금씩 다름  
- Mecab은 윈도우에서 실행 불가능

In [13]:
# mecab 은 일본어도 가능
from konlpy.tag import Hannanum
from konlpy.tag import Kkma
from konlpy.tag import Komoran
from konlpy.tag import Okt

In [15]:
okt = Okt()
text = "한글 자연어 처리는 재밌다 이제부터 열심히 해야지ㅎㅎㅎ"
print(okt.morphs(text))

JVMNotFoundException: No JVM shared library file (jvm.dll) found. Try setting up the JAVA_HOME environment variable properly.

In [None]:
print(okt.morphs(text, stem=True))

In [None]:
print(okt.nouns(text))

In [None]:
print(okt.phrases(text))

In [None]:
print(okt.pos(text))

In [None]:
print(okt.pos(text, join=True)) 

In [None]:
kkma =Kkma()
print(kkma.morphs(text))
print(kkma.nouns(text))
print(kkma.pos(text))

In [None]:
hannanum = Hannanum()
print(hannanum.morphs(text))
print(hannanum.nouns(text))
print(hannanum.pos(text))