<a href="https://colab.research.google.com/github/sdw1621/heseo_thesis/blob/main/04_NLP_Normalization.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 코퍼스 정규화(Normalization)
코퍼스에서 토큰화 작업 전, 후에는 텍스트 데이터를 정제(cleaning) 및 정규화(normalization)하는 일이 필요하다.

* 정제(cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거한다.
* 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다.

1. 규칙에 기반한 표기가 다른 단어들의 통합
2. 대, 소문자 통합
3. 등장빈도가 적거나 길이가 짧은 등의 불필요한 단어 제거(Removing Unnecessary Words)

In [None]:
# Google Colab에서 python 패키지를 영구적(permanently)으로 설치하는 방법
# https://teddylee777.github.io/colab/colab%EC%97%90%EC%84%9C-python%ED%8C%A8%ED%82%A4%EC%A7%80%EB%A5%BC-permanently-%EC%9D%B8%EC%8A%A4%ED%86%A8%ED%95%98%EB%8A%94-%EB%B0%A9%EB%B2%95

# Google Colab에서 새로운 세션을 열면 패키지가 초기화 되어 재설치 필요
# nltk 다운로드
import nltk
nltk.download("all")

[nltk_data] Downloading collection 'all'
[nltk_data]    | 
[nltk_data]    | Downloading package abc to /root/nltk_data...
[nltk_data]    |   Package abc is already up-to-date!
[nltk_data]    | Downloading package alpino to /root/nltk_data...
[nltk_data]    |   Package alpino is already up-to-date!
[nltk_data]    | Downloading package biocreative_ppi to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Package biocreative_ppi is already up-to-date!
[nltk_data]    | Downloading package brown to /root/nltk_data...
[nltk_data]    |   Package brown is already up-to-date!
[nltk_data]    | Downloading package brown_tei to /root/nltk_data...
[nltk_data]    |   Package brown_tei is already up-to-date!
[nltk_data]    | Downloading package cess_cat to /root/nltk_data...
[nltk_data]    |   Package cess_cat is already up-to-date!
[nltk_data]    | Downloading package cess_esp to /root/nltk_data...
[nltk_data]    |   Package cess_esp is already up-to-date!
[nltk_data]    | Downloading packag

True

### 정규 표현식(Regular Expression)을 이용한 토큰화
파이썬의 정규 표현식 모듈 re을 이용하여 특정 규칙이 있는 텍스트 데이터를 빠르게 정제할 수 있다.  

정규 표현식 문법의 역 슬래쉬(\)를 이용하여 자주 쓰이는 문자 규칙  

| 값 | 의미 | 
|---|:---:|
| `\\` | 역 슬래쉬 문자 자체를 의미합니다 |
| `\d` | 모든 숫자를 의미합니다. [0-9]와 의미가 동일합니다. |
| `\D` | 숫자를 제외한 모든 문자를 의미합니다. [^0-9]와 의미가 동일합니다. |
| `\s` | 공백을 의미합니다. [ \t\n\r\f\v]와 의미가 동일합니다. |
| `\S` | 공백을 제외한 문자를 의미합니다. [^ \t\n\r\f\v]와 의미가 동일합니다. |
| `\w` | 문자 또는 숫자를 의미합니다. [a-zA-Z0-9]와 의미가 동일합니다. |
| `\W` | 문자 또는 숫자가 아닌 문자를 의미합니다. [^a-zA-Z0-9]와 의미가 동일합니다. |

정규표현식 모듈 함수  

| 함수 | 설명 | 
|---|:---:|
| `re.compile()` | 정규표현식을 컴파일하는 함수입니다.찾고자 하는 패턴이 빈번한 경우에는 미리 컴파일해놓고 사용하면 속도와 편의성면에서 유리합니다. |
| `re.search()` | 문자열 전체에 대해서 정규표현식과 매치되는지를 검색합니다. |
| `re.match()` | 문자열의 처음이 정규표현식과 매치되는지를 검색합니다. |
| `re.split()` | 정규 표현식을 기준으로 문자열을 분리하여 리스트로 리턴합니다. |
| `re.findall()` | 문자열에서 정규 표현식과 매치되는 모든 경우의 문자열을 찾아서 리스트로 리턴합니다. 만약, 매치되는 문자열이 없다면 빈 리스트가 리턴됩니다. |
| `re.finditer()` | 문자열에서 정규 표현식과 매치되는 모든 경우의 문자열에 대한 이터레이터 객체를 리턴합니다. |
| `re.sub()` | 문자열에서 정규 표현식과 일치하는 부분에 대해서 다른 문자열로 대체합니다. |
	

In [None]:
# '\s+'는 공백을 찾는 정규표현식이고 뒤에 붙는 +는 최소 1개 이상의 의미로 최소 1개 이상의 공백인 패턴을 찾아다는 의미
# split은 주어진 정규표현식을 기준으로 분리하므로 각 데이터가 공백으로 구분 되어진다.
import re  

text = """100 John    PROF
101 James   STUD
102 Mac   STUD"""  

re.split('\s+', text)  

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

In [None]:
# \d 숫자만
re.findall('\d+',text)  


['100', '101', '102']

In [None]:
# 대소 영문자만
re.findall('[A-Z][a-z]+',text)

['John', 'James', 'Mac']

In [None]:
# 영문자가 아닌 문자는 전부 공백으로 치환
letters_only = re.sub('[^a-zA-Z]', ' ', text)
letters_only

'    John    PROF     James   STUD     Mac   STUD'

__NLTK에서는 정규 표현식을 사용해서 단어 토큰화를 수행하는 RegexpTokenizer를 지원__
RegexpTokenizer()에서 괄호 안에 원하는 정규 표현식을 넣어서 토큰화

In [None]:
# w+는 문자 또는 숫자가 1개 이상인 경우를 인식
import nltk
from nltk.tokenize import RegexpTokenizer
tokenizer=RegexpTokenizer("[\w]+")
print(tokenizer.tokenize("1,2,3... Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

['1', '2', '3', 'Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


In [None]:
# 공백을 기준으로 문장을 토큰화
tokenizer=RegexpTokenizer("[\s]+", gaps=True)
print(tokenizer.tokenize("1,2,3... Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

['1,2,3...', "Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


정규식은 자세한 패턴 학습이 필요
https://www.machinelearningplus.com/python/python-regex-tutorial-examples/ https://docs.python.org/3.6/library/re.html#re.regex.search
https://kimdoky.github.io/tech/2017/06/11/regular-2.html
http://blog.naver.com/javaking75/220702756707


### 어간 추출(Stemming)과 표제어(원형) 추출(lemmatizing)

__ * 어간 추출(stemming)__은 변화된 단어의 접미사나 어미를 제거하여 같은 의미를 가지는 단어의 기본형을 찾는 방법이다.  
NLTK는 Martin Porter의 PorterStemmer, Lancaster 대학이 개발한 LancasterStemmer 등을 제공한다.  
(LancasterStemmer가 좀더 성능이 좋다)
어간 추출법은 단순히 어미를 제거할 뿐이므로 단어의 원형의 정확히 찾아주지는 않는다.

__ * 표제어 추출(lemmatizing)__은 같은 의미를 가지는 여러 단어를 사전형으로 통일하는 작업이다.   
품사(part of speech)를 지정하는 경우 좀 더 정확한 원형을 찾을 수 있다


In [None]:
## 어간 추출
from nltk.stem import PorterStemmer, LancasterStemmer

st1 = PorterStemmer()
st2 =  LancasterStemmer()

words = ["fly", "flies", "flying", "flew", "flown"]

print("Porter Stemmer   :", [st1.stem(w) for w in words])
print("Lancaster Stemmer:", [st2.stem(w) for w in words])

Porter Stemmer   : ['fli', 'fli', 'fli', 'flew', 'flown']
Lancaster Stemmer: ['fly', 'fli', 'fly', 'flew', 'flown']


In [None]:
# 표제어 추출
from nltk.stem import WordNetLemmatizer

lm = WordNetLemmatizer()

[lm.lemmatize(w, pos="v") for w in words]

['fly', 'fly', 'fly', 'fly', 'fly']

### 어간 추출(Stemming)
어간(Stem)을 추출하는 작업을 어간 추출(stemming)이라고 한다.   
어간 추출은 형태학적 분석을 단순화한 버전이라고 볼 수도 있고, 정해진 규칙만 보고 단어의 어미를 자르는 어림짐작의 작업이라고 볼 수도 있다.   
이 작업은 섬세한 작업이 아니기 때문에 어간 추출 후에 나오는 결과 단어는 사전에 존재하지 않는 단어일 수도 있다.  
NLTK에서는 __포터 알고리즘(Porter Algorithm)__과 __랭커스터 스태머(Lancaster Stemmer)__ 알고리즘을 지원한다. 

In [None]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
s = PorterStemmer()
text="This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
words=word_tokenize(text)
print(words)

['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']


In [None]:
print([s.stem(w) for w in words])

['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


위의 알고리즘의 결과에는 사전에 없는 단어들도 포함되어 있다. 
어간 추출은 단순 규칙에 기반하여 이루어지기 때문이다.

가령, 포터 알고리즘의 어간 추출은 이러한 규칙들을 가진다.
ALIZE → AL
ANCE → 제거
ICAL → IC
※ Porter 알고리즘의 상세 규칙은 마틴 포터의 홈페이지에서 확인할 수 있다.

In [None]:
words=['formalize', 'allowance', 'electricical']
print([s.stem(w) for w in words])

['formal', 'allow', 'electric']


어간 추출 속도는 표제어 추출보다 일반적으로 빠른데, 포터 어간 추출기는 정밀하게 설계되어 정확도가 높으므로 영어 자연어 처리에서 어간 추출을 하고자 한다면 가장 준수한 선택이다.   
다음은 __포터 알고리즘(Porter Algorithm)__과 __랭커스터 스태머(Lancaster Stemmer)__의 비교이다.


In [None]:
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer
s=PorterStemmer()
l=LancasterStemmer()
words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print("Porter Stemmer   :", [s.stem(w) for w in words])
print("Lancaster Stemmer:", [l.stem(w) for w in words])

Porter Stemmer   : ['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']
Lancaster Stemmer: ['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


스태머 알고리즘은 각기 다른 규칙을 가지고 있기 때문에, 사용하고자 하는 코퍼스에 스태머를 적용해보고 어떤 스태머가 해당 코퍼스에 적합한지를 판단한 후에 사용하여야 한다.

이런 규칙에 기반한 알고리즘은 아래와 같이 종종 제대로 된 일반화를 수행하지 못 할 수 있다.   
organization → organ

다음은 __표제어 추출__과 __어간 추출__의 비교이다.

In [None]:
from nltk.stem import PorterStemmer
s=PorterStemmer()
from nltk.stem import WordNetLemmatizer
lm = WordNetLemmatizer()

words=['am', 'the going', 'having']
print("Stemmer   : ",[s.stem(w) for w in words])
print("Lemmatizer: ",[lm.lemmatize(w, pos="v") for w in words])

Stemmer   :  ['am', 'the go', 'have']
Lemmatizer:  ['be', 'the going', 'have']


### 표제어 추출(Lemmatization)
표제어(Lemma)는 '기본 사전형 단어' 정도의 의미를 갖는다.   
표제어 추출은 단어들이 다른 형태를 가지더라도, 그 뿌리 단어를 찾아가서 단어의 개수를 줄인다.   
예를 들어서 am, are, is는 서로 다른 스펠링이지만 그 뿌리 단어는 be라고 볼 수 있다.   
이 때, 이 단어들의 표제어는 be라고 한다.

표제어 추출을 하는 가장 섬세한 방법은 단어의 형태학적 파싱을 먼저 진행하는 것이다.   
형태소란 '의미를 가진 가장 작은 단위'를 뜻하며, 형태학(morphology)이란, 형태소로부터 단어들을 만들어가는 학문을 뜻한다.

형태소는 어간(stem)과 접사(affix)가 있다.
1) 어간(stem)
: 단어의 의미를 담고 있는 단어의 핵심 부분.

2) 접사(affix)
: 단어에 추가적인 의미를 주는 부분.

형태학적 파싱은 이 두 가지 구성 요소를 분리하는 작업이다.   
가령, cats라는 단어에 대해 형태학적 파싱을 수행한다면, 형태학적 파싱은 결과로 cat(어간)와 -s(접사)를 분리한다.   
NLTK에서는 표제어 추출을 위한 도구인 WordNetLemmatizer를 지원한다.

In [None]:
from nltk.stem import WordNetLemmatizer
n=WordNetLemmatizer()
words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([n.lemmatize(w) for w in words])

['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


표제어 추출은 어간 추출에 비해 단어의 형태가 적절히 보존되는 양상을 보이는 특징이 있다.   
하지만 그럼에도 위의 결과에서는 dy나 ha와 같이 의미를 알 수 없는 적절하지 못한 단어를 출력하고 있다.   
이는 표제어 추출기(lemmatizer)가 단어의 품사 정보를 알아야만 정확한 결과를 얻을 수 있기 때문이다.

WordNetLemmatizer는 입력으로 단어가 동사 품사라는 사실을 알려줄 수 있다.  
즉, dies와 watched, has가 문장에서 동사로 쓰였다는 것을 알려준다면 표제어 추출기는 품사의 정보를 보존하면서 정확한 Lemma를 출력하게 된다.  

__표제어 추출__은 문맥을 고려하며, 수행했을 때의 결과는 해당 단어의 품사 정보를 보존한다. (POS 태그를 보존한다고도 말할 수 있다.)

하지만, __어간 추출__을 수행한 결과는 품사 정보가 보존되지 않으며 사전에 존재하지 않는 단어일 경우가 많다.

In [None]:
print(n.lemmatize('dies', 'v'))
print(n.lemmatize('watched', 'v'))

die
watch
