# Cleaning and Normalization

    Cleaning(정제) : 코퍼스에서 노이즈 데이터 제거
    Normalization(정규화) : 표현 방법이 다른 단어를 통합시켜 같은 단어로 표현

## 1. Normalization

### 1) Lemmatization(표제어 추출)
    
    형태학적 파싱을 통해 단어의 의미를 담고 있는 '어간(stem)' 과 추가적인 의미를 주는 '접사(affix)' 로 분리 후 표제어 추출
    
    # WordNetLemmatizer 를 사용해 진행. 
    # 품사 정보를 알고 있을 때 더 좋은 결과나옴.
    # 품사 정보 O/X 비교 분석.

In [3]:
text = """
        My fellow citizens: I stand here today humbled by the task before us, 
        grateful for the trust you've bestowed, mindful of the sacrifices borne by our ancestors. 
        I thank President Bush forhis service to our nation, as well as the generosity 
        and cooperation he has shown throughout this transition.
        """

In [29]:
from nltk.tokenize import TreebankWordTokenizer
from nltk.stem import WordNetLemmatizer

tokenizer = TreebankWordTokenizer()
lemmatizer = WordNetLemmatizer()

words = tokenizer.tokenize(text)

stem = [lemmatizer.lemmatize(word) for word in words]
print(stem)

['My', 'fellow', 'citizen', ':', 'I', 'stand', 'here', 'today', 'humbled', 'by', 'the', 'task', 'before', 'u', ',', 'grateful', 'for', 'the', 'trust', 'you', "'ve", 'bestowed', ',', 'mindful', 'of', 'the', 'sacrifice', 'borne', 'by', 'our', 'ancestors.', 'I', 'thank', 'President', 'Bush', 'forhis', 'service', 'to', 'our', 'nation', ',', 'a', 'well', 'a', 'the', 'generosity', 'and', 'cooperation', 'he', 'ha', 'shown', 'throughout', 'this', 'transition', '.']


In [30]:
from nltk.corpus import wordnet
from nltk.tag import pos_tag

def get_wordnet_pos(word):
    """Map POS tag to first character lemmatize() accepts"""
    tag = pos_tag([word])[0][1][0].upper()
    tag_dict = {"J": wordnet.ADJ,
                "N": wordnet.NOUN,
                "V": wordnet.VERB,
                "R": wordnet.ADV}

    return tag_dict.get(tag, wordnet.NOUN)

stem_pos = [lemmatizer.lemmatize(word,get_wordnet_pos(word)) for word in words]
print(stem_pos)

['My', 'fellow', 'citizen', ':', 'I', 'stand', 'here', 'today', 'humble', 'by', 'the', 'task', 'before', 'u', ',', 'grateful', 'for', 'the', 'trust', 'you', "'ve", 'bestow', ',', 'mindful', 'of', 'the', 'sacrifice', 'borne', 'by', 'our', 'ancestors.', 'I', 'thank', 'President', 'Bush', 'forhis', 'service', 'to', 'our', 'nation', ',', 'a', 'well', 'a', 'the', 'generosity', 'and', 'cooperation', 'he', 'have', 'show', 'throughout', 'this', 'transition', '.']


'bestowed' -> 'bestow' 처럼 보다 정확한 Lemma 출력<br/>
추출 후에도 품사 정보를 보존하고 있다.

In [44]:
print("before : ",words[21]," : ",pos_tag([words[21]]))
print("after : ",stem_pos[21]," : ",pos_tag([stem_pos[21]]))

before :  bestowed  :  [('bestowed', 'VBN')]
after :  bestow  :  [('bestow', 'NN')]


### 2) Stemming(어간 추출)
    
    정해진 규칙을 가지고 어미를 자름 -> 사전에 없는 단어가 추출 될 수 있다.
    
    # PorterStemmer 가 영어 어간 추출 시 가장 준수.
    # LancasterStemmer 도 지원함.
    # 두 추출 방식에 대해서는 홈페이지 참고

In [50]:
from nltk.stem import PorterStemmer

stemmer = PorterStemmer()

stem = [stemmer.stem(word) for word in words]
print(stem)

['My', 'fellow', 'citizen', ':', 'I', 'stand', 'here', 'today', 'humbl', 'by', 'the', 'task', 'befor', 'us', ',', 'grate', 'for', 'the', 'trust', 'you', "'ve", 'bestow', ',', 'mind', 'of', 'the', 'sacrific', 'born', 'by', 'our', 'ancestors.', 'I', 'thank', 'presid', 'bush', 'forhi', 'servic', 'to', 'our', 'nation', ',', 'as', 'well', 'as', 'the', 'generos', 'and', 'cooper', 'he', 'ha', 'shown', 'throughout', 'thi', 'transit', '.']


### 3) 표제어 추출과 어간 추출 결과 차이

In [57]:
words = ['am', 'the','going','has']

lem = [lemmatizer.lemmatize(word,get_wordnet_pos(word)) for word in words]
stm = [stemmer.stem(word) for word in words]

print("lemmatization : ",lem)
print("stemming : ",stm)

lemmatization :  ['be', 'the', 'go', 'have']
stemming :  ['am', 'the', 'go', 'ha']


### 4) 한글에서 어간 추출

    한글은 5언9품사 구조로 이루어져 있다.
    그 중 용언에 해당하는 '동사' , '형용사' 는 어간과 어미의 결함으로 구성된다.
    
#### 활용(conjugation)

    용언의 어간이 어미를 가지는 일.
    (1) 규칙 활용
        어간이 어미를 취할 때, 어간의 모습이 일정할 때.
        -> 어미를 단순히 분리해주면 어간 추출이 된다.
        예) 잡 + 다. 
        
    (2) 불규칙 활용
        어간이 어미를 취할 때, 어간의 모습이 바뀌거나 취하는 어미가 특수한 경우일 때.
        -> 좀 더 복잡한 규칙 필요.
        예) '노랗-' -> '노랗/노라-' 
            '푸르+아/어' -> '푸르러' 
     

# Stopword(불용어) 


    큰 의미가 없는 단어.
    nltk 에서 패키지 제공
    사용자가 직접 정의할 수도 있다.

In [58]:
from nltk.corpus import stopwords

stopwords.words('english')[:10]

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

### 불용어 제거하기

In [63]:
stop_words = set(stopwords.words('english'))

res = []

for word in stem_pos :
    if word.lower() not in stop_words :
        res.append(word)

print(res)

['fellow', 'citizen', ':', 'stand', 'today', 'humble', 'task', 'u', ',', 'grateful', 'trust', "'ve", 'bestow', ',', 'mindful', 'sacrifice', 'borne', 'ancestors.', 'thank', 'President', 'Bush', 'forhis', 'service', 'nation', ',', 'well', 'generosity', 'cooperation', 'show', 'throughout', 'transition', '.']
