# 자연어 전처리

## 토큰화(Tokenization)
코퍼스를 토큰단위로 나누는 작업
토큰의 단위가 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의

-고려사항
1.구두점이나 특수 문자를 단순 제외해서는 안 된다
2.줄임말과 단어 내에 띄어쓰기가 있는 경우


-단어 토큰화(가장 일반적)
특정 구분기호를 가지고 텍스트를 나누는 방법, 영어의 경우 기본적으로 공백을 통해 나눔(구두점도 제거) -> word2vec, glove
한국어와 맞지 않음

단점:
OOV 문제(Out of Vocabulary): 입력된 데이터가 이미 만들어진 단어사전에 없는경우
단어 사전(토큰 리스트)는 코퍼스 데이터 내에서 만들어지기 때문에 모델 예측시 훈련때 없던 단어가 입력으로 들어올 수 있음
훈련때 없었으므로 처리 불가
간단한 해결책 UNK(Unkown Token) 훈련때 많이 등장하지 않았던 값을 UNK로 사전 등록 -> 문제점:모든 OOV단어가 UNK가 됨

-문장 토큰화
문장 단위로 토큰화를 진행

-문자 토큰화(단어 토큰화 문제 해결)
문자 단위로 코퍼스를 분리 영어는 알파벳, 한글은 자음 모음 분리, OOV문제 해결및 메모리 문제 해결(단어가 아닌 문자만 사전에 등록하면 되기때문)

단점:
입력 내용이 길어짐, 입력이 길어지는 만큼 단어사이의 거리가 멀어짐, 단어간의 관계를 학습하기 어려움


-서브 워드 토큰화(단어, 문자 토큰화 중간 각 장점만을 취함)
n개의 문자(n-gram characters)를 가지고 나누는 방법(문자 토큰화 확장판)
대표적인 서브 워드를 만드는 알고리즘 BPE(Byte Pair Encoding)
한국어에서 좋은 성능을 보여줌, 문장을 형태소로 나누어서 각 형태소 별로 인코딩을 하는 방법

-한국어 토큰화
한국어 특징
1.한국어는 교착어 - 서로 다른 조사를 분리해줄 필요가 있음
2.띄어쓰기가 영어보다 잘 지켜지지 않음

한국어는 형태소 토큰화를 수행해야 함 -> 형태소 분석기 필요

## 정제(Cleaning), 정규화(Normalization)

정제: 갖고 있는 코퍼스로부터 노이즈 데이터를 제거
정규화: 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만듦

정규화 방법
1. 규칙에 기반한 표기가 다른 단어들 통합
    - 필요에 따라 직접 코딩을 통해 표기가 다른 단어들을 하나의 단어로 정규화
    - 표제어 추출, 어간 추출
2. 대,소문자 통합
    - 대, 소문자를 통합하여 단어의 개수를 줄일 수 있음 단, 무작정 통합해서는 안됨 EX) 회사 이름, 사람 이름 등
    - 문장 앞글자만 대문자 뒤는 소문자로 바꾸는 방법도 있음
3. 노이즈 제거
    - 노이즈 데이터는 자연어가 아닌 아무 의미도 갖지 않는 글자들(특수문자등)을 의미하기도 하지만, 목적에 맞지 않는 불필요 단어도 해당함
    - 등장 빈도가 적은 단어, 길이가 짧은 단어 제거(영어권 언어 기준) -> 길이가 짧은면 크게 의미가 없는 경우 많음
4. 정규표현식
    - 노이즈 데이터의 특징을 잡아서 제거

## 표제어 추출(Lemmatization)
표제어(Lemma) - 기본 사전형 단어(가장 기본이 되는 단어?)
표제어 추출은 단어들로부터 표제어를 찾아가는 과정
다른 형태를 가지더라도, 그 뿌리가 되는 단어가 존재 -> 이를 통해 단어의 개수를 줄일수 있는지 판단
예시) am, is, are -> 뿌리단어 be

표제어 추출을 하는 가장 섬세하는 방법은 parsing -> 즉,형태소 단위로 파싱

참고)
형태소(morpheme) - 의미를 가진 가장 작은 단위
형태학(morphology) - 형태소로부터 단어들을 만들어가는 학문

형태소는 두가지 종류 존재
어간(stem): 단어의 의미를 담고 있는 핵심 부분
접사(affix): 단어에 추가적인 의미를 주는 부분
Cats -> cat(어간) + -s(접사)


## 어간 추출(Stemming)
어간을 추출하는 작업, 정해진 규칙으로 단어의 어미를 잘라냄
추출후 결과는 사전에 없는 단어일 수 있음
어간(stem)과 어미(ending) 분리

```
결과 차이
Stemming
am → am
the going → the go
having → hav

Lemmatization
am → be
the going → the going
having → have
```

## 토큰화 실습

In [1]:
from nltk.tokenize import word_tokenize
from nltk.tokenize import WordPunctTokenizer  # 구두점을 별도로 분리 해주는 토크나이저

print('단어 토큰화1:', word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화1: ['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [2]:
print('단어 토큰화2 :',WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화2 : ['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [3]:
from nltk.tokenize import TreebankWordTokenizer

tokenizer = TreebankWordTokenizer()

text = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print('트리뱅크 워드토크나이저 :',tokenizer.tokenize(text))

트리뱅크 워드토크나이저 : ['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


In [4]:
from nltk.tokenize import sent_tokenize  # 문장 단위 토큰화

text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print('문장 토큰화1 :',sent_tokenize(text))

문장 토큰화1 : ['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


In [5]:
#  단순히 마침표를 구분자로 지정하지 않았기 때문에 문장 중간에 마침표가 있어도 잘 인식함
text = "I am actively looking for Ph.D. students. and you are a Ph.D student."
print('문장 토큰화2 :',sent_tokenize(text))

문장 토큰화2 : ['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


In [6]:
import kss  # 한국어 문장 토큰화 -> konlpy.tag.Mecab

text = '딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다. 이제 해보면 알걸요?'
print('한국어 문장 토큰화 :',kss.split_sentences(text))

[Kss]: Because there's no supported C++ morpheme analyzer, Kss will take pecab as a backend. :D
For your information, Kss also supports mecab backend.
We recommend you to install mecab or konlpy.tag.Mecab for faster execution of Kss.
Please refer to following web sites for details:
- mecab: https://github.com/hyunwoongko/python-mecab-kor
- konlpy.tag.Mecab: https://konlpy.org/en/latest/api/konlpy.tag/#mecab-class



한국어 문장 토큰화 : ['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다.', '이제 해보면 알걸요?']


## 품사 태깅

In [7]:
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag

text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."
tokenized_sentence = word_tokenize(text)

print('단어 토큰화 :',tokenized_sentence)
print('품사 태깅 :',pos_tag(tokenized_sentence))

단어 토큰화 : ['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']
품사 태깅 : [('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D.', 'NNP'), ('student', 'NN'), ('.', '.')]


In [10]:
from konlpy.tag import Okt
from konlpy.tag import Kkma

okt = Okt()
kkma = Kkma()

print('OKT 형태소 분석 :',okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('OKT 품사 태깅 :',okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('OKT 명사 추출 :',okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

OKT 형태소 분석 : ['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']
OKT 품사 태깅 : [('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]
OKT 명사 추출 : ['코딩', '당신', '연휴', '여행']
