# 자연어 토크나이징 도구

자연어 처리를 위해서는 우선 텍스트에 대한 정보를 단위별로 나누는 것이 일반적이다

ex) 영화 리뷰 내용 예측 -> 한 문장을 단어 단위로 쪼개서 분석

이처럼 예측해야 할 입력 정보(문장 또는 발화)를 하나의 특정 기본 단위로 자르는 것을 토크나이징이라고 함

## 영어 토크나이징 라이브러리
### NLTK (Natural Language Toolkit)
* 파이썬에서 영어 텍스트 전처리 작업을 하는 데 많이 쓰이는 라이브러리
* 50여 개가 넘는 말뭉치 리소스를 활용해 영어 텍스트를 분석할 수 있게 제공
* 직관적으로 함수를 쉽게 사용할 수 있게 구성되어 있어 빠른 텍스트 전처리 가능
* 토크나이징 외에도 자연어처리에 유용한 기능들을 제공
* 불용어(큰 의미를 가지지 않는 단어) 사전이 따로 내장되어 있어서 따로 불용어를 정의할 필요 없이 바로 사용

In [4]:
import nltk
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

#### 단어 단위 토크나이징 

In [8]:
from nltk.tokenize import word_tokenize
sentence = "Natural language processing (NLP) is a subfield of computer science, information engineering, and artificial intelligence concerned with the interactions between computers and human (natural) languages, in particular how to program computers to process and analyze large amounts of natural language data."

print(word_tokenize(sentence))

['Natural', 'language', 'processing', '(', 'NLP', ')', 'is', 'a', 'subfield', 'of', 'computer', 'science', ',', 'information', 'engineering', ',', 'and', 'artificial', 'intelligence', 'concerned', 'with', 'the', 'interactions', 'between', 'computers', 'and', 'human', '(', 'natural', ')', 'languages', ',', 'in', 'particular', 'how', 'to', 'program', 'computers', 'to', 'process', 'and', 'analyze', 'large', 'amounts', 'of', 'natural', 'language', 'data', '.']


#### 문장 단위 토크나이징

In [10]:
from nltk.tokenize import sent_tokenize

paragraph = "Natural language processing (NLP) is a subfield of computer science, information engineering, and artificial intelligence concerned with the interactions between computers and human (natural) languages, in particular how to program computers to process and analyze large amounts of natural language data. Challenges in natural language processing frequently involve speech recognition, natural language understanding, and natural language generation."

print(sent_tokenize(paragraph))

['Natural language processing (NLP) is a subfield of computer science, information engineering, and artificial intelligence concerned with the interactions between computers and human (natural) languages, in particular how to program computers to process and analyze large amounts of natural language data.', 'Challenges in natural language processing frequently involve speech recognition, natural language understanding, and natural language generation.']


### Spacy 
* NlTK와 같은 오픈소스 라이브러리
* 주로 교육, 연구목적이 아닌 상업용 목적으로 만들어짐
* 영어를 포함한 8개 국어에 대한 자연어 전처리 모듈 제공, 빠른 속도로 전처리
* 쉽게 설치하고 원하는 언어에 대한 전처리를 한 번에 해결할 수 있다는 장점
* 딥러닝 언어 모델의 개발도 지원

In [13]:
""" 
conda install spacy
python -m spacy download en
"""

' \nconda install spacy\npython -m spacy download en\n'

언어 데이터 별도 다운로드

#### Spacy 토크나이징
1. spacy.load를 통해서 토크나이징할 객체를 생성한뒤 nlp 변수에 할당
2. 토크나이징할 텍스트를 sentence에 할당해서 nlp(sentence)를 실행해 nlp 객체에 대해 호출
3. 텍스트에 대해 구문 분석한 객체를 반환하는데 이를 doc 변수에 할당한다.
4. doc 객체를 가지고 입력한 텍스트에 대한 단어 토크나이징과 문장 토크나이징을 할 수 있음

In [16]:
import spacy

In [19]:
nlp = spacy.load('en')
#nlp = spacy.load('en_core_web_sm')

sentence = "Natural language processing (NLP) is a subfield of computer science, information engineering, and artificial intelligence concerned with the interactions between computers and human (natural) languages, in particular how to program computers to process and analyze large amounts of natural language data."

doc = nlp(sentence)

In [20]:
word_tokenized_sentence = [token.text for token in doc]
print(word_tokenized_sentence)

['Natural', 'language', 'processing', '(', 'NLP', ')', 'is', 'a', 'subfield', 'of', 'computer', 'science', ',', 'information', 'engineering', ',', 'and', 'artificial', 'intelligence', 'concerned', 'with', 'the', 'interactions', 'between', 'computers', 'and', 'human', '(', 'natural', ')', 'languages', ',', 'in', 'particular', 'how', 'to', 'program', 'computers', 'to', 'process', 'and', 'analyze', 'large', 'amounts', 'of', 'natural', 'language', 'data', '.']


In [21]:
sentence_tokenized_list = [sent.text for sent in doc.sents]
print(sentence_tokenized_list)

['Natural language processing (NLP) is a subfield of computer science, information engineering, and artificial intelligence concerned with the interactions between computers and human (natural) languages, in particular how to program computers to process and analyze large amounts of natural language data.']


#### NLTK 는 함수를 통해 토크나이징을 처리, Spacy는 객체를 생성하는 방식으로 구현