# 지난 시간 복습

In [4]:
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.tag import pos_tag

In [12]:
sentence = "I'd like to learn more somthing. \
            I'd like to learn more somthing."

In [13]:
# sent_tokenize: 문장단위로 쪼개준다.
# word_tokenize: 단어단위로 쪼개준다.

word_tokenize(sent_tokenize(sentence)[-1])

['I', "'d", 'like', 'to', 'learn', 'more', 'somthing', '.']

In [25]:
sentence = "I'd like to learn more somthing. \
            I'd like to learn more somthing. \
            what're i'm, isn't"

In [98]:
# POS(Part of Speech): 품사
# pos_tag: 품사에 태그 달아줌 / 동음이의어를 구분할 수 있게 됨.

word_tokenize(sent_tokenize(sentence)[-1]), \
pos_tag(word_tokenize(sent_tokenize(sentence)[-1]))

(['what', "'re", 'i', "'m", ',', 'is', "n't"],
 [('what', 'WP'),
  ("'re", 'VBP'),
  ('i', 'JJ'),
  ("'m", 'VBP'),
  (',', ','),
  ('is', 'VBZ'),
  ("n't", 'RB')])

In [99]:
# 한글은 지원하지 않기때문에 단순한 기준(공백, punkt)에 따라서 split함

word_tokenize("'우리나라'의 국화는 무궁화! 입니다.")

["'우리나라", "'", '의', '국화는', '무궁화', '!', '입니다', '.']

# Normalization

- **정규화(normalization)** : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다.
    - 예시: U.S.A와 USA와 US는 같은 뜻이지만 각각 다른 단어로 인식될 수 있으므로 통합시켜주는 것이 좋다.
    - 예시2: 대문자와 소문자는 둘 중 하나로 통합시켜주는 것이 좋다.
- **정제(cleaning)** : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거한다.
    - 노이즈라함은, 자연어가 아니면서 아무 의미도 갖지 않는 글자들(특수 문자 등)을 의미하기도 하지만, 분석하고자 하는 목적에 맞지 않는 불필요 단어들을 노이즈 데이터라고 하기도 한다.
    - 불용어처리도 여기에 해당한다.
    - 등장 빈도가 너무 낮은 단어를 제외하는 기법도 있다.
    - 길이가 너무 짧은 단어를 제외하는 기법도 있다.
        - 영어는 단어가 보통 5\~6글자로 되어있어서 이 기법이 효과적이라고 알려져있지만, 한글은 단어가 1\~2글자로 이루어진 경우가 많아서 한글에는 적용하기 어렵다.

In [100]:
# 이런건 하나의 뜻을 가진 관용표현이므로 split하지 않음.
# Normalization

word_tokenize("state-of-the-art")

['state-of-the-art']

In [105]:
# 대소문자 중 하나로 통합하기
# Normalization

sentence.lower()

"i'd like to learn more somthing.             i'd like to learn more somthing.             what're i'm, isn't"

In [101]:
from string import punctuation
import re
punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [102]:
# 특수문자 제거하기
# cleaning

re.sub(r"[{}]".format(re.escape(punctuation)),
       " ", sentence)

'I d like to learn more somthing              I d like to learn more somthing              what re i m  isn t'

In [103]:
# 한국어 특수문자 제거하기
# cleaning

re.sub(r"[{}]".format(re.escape(punctuation)),
       " ", "'우리나라'의 국화는 무궁화! 입니다.").split()

['우리나라', '의', '국화는', '무궁화', '입니다']

In [104]:
# 특수문자 제거할 때 생길 수 있는 문제 예시.

re.sub(r"[{}]".format(re.escape(punctuation)),
       " ", "state-of-the-art").split()

['state', 'of', 'the', 'art']

> state-of-the-art는 그 자체가 하나의 뜻을 갖는 관용구이다. 그래서 특수문자를 기준으로 쪼개게 되면 그 뜻을 잃어버린다.
>
> 특수문자를 제외시킬때는 이런 경우를 염두에 두고 어디까지를 노이즈로 볼 것인지 고민해야한다.
>
> 일반적으로 적용할 수 있는 법칙은 없고, 데이터를 보고 상황에 따라서 맞춰야한다. 
>
> 예를들어 이런 관용구가 많다면 "-"를 모두 제거하는 것은 위험할 수 있고, 별로 없다면 그냥 무시하는 것이 전체적인 성능향상에는 도움이 될 수도 있다.

# Stopwords(불용어 처리)
- corpus로부터, 유의미한 단어 토큰만 남기기 위해서는 무의미한 단어 토큰을 지워야한다. 무의미한 단어토큰은 자주 등장하지만 문장을 분석하는데는 크게 도움이 되지 않는 토큰을 의미한다. 이런 무의미한 단어토큰을 불용어라고 한다.
- 예를 들어서 I, me, on, for 등의 단어들은 등장 빈도는 매우 높지만 문장을 분석하는데 결정적 역할을 하지는 않으므로 제거하는 편이 도움이 된다. 
- 불용어를 미리 정해서 모아놓는다면, 작업이 편리할 것이다. 개발자가 직접 불용어를 선정할수도 있고, NLTK에서는 패키지 내에서 불용어를 정의해두어서 쉽게 사용할 수 있다. (단, 한국어는 지원되지 않는다..)

In [1]:
from  nltk.corpus import stopwords

# NLTK의 불용어 셋은 언어별로 있다.
stopwords.fileids()

['arabic',
 'azerbaijani',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'greek',
 'hungarian',
 'indonesian',
 'italian',
 'kazakh',
 'nepali',
 'norwegian',
 'portuguese',
 'romanian',
 'russian',
 'slovene',
 'spanish',
 'swedish',
 'tajik',
 'turkish']

In [20]:
from nltk import textwrap

In [18]:
# 영어 불용어 목록

print(len(stopwords.open("english").read().split()))
print("\n".join(textwrap.wrap(stopwords.open("english").read())))

179
i me my myself we our ours ourselves you you're you've you'll you'd
your yours yourself yourselves he him his himself she she's her hers
herself it it's its itself they them their theirs themselves what
which who whom this that that'll these those am is are was were be
been being have has had having do does did doing a an the and but if
or because as until while of at by for with about against between into
through during before after above below to from up down in out on off
over under again further then once here there when where why how all
any both each few more most other some such no nor not only own same
so than too very s t can will just don don't should should've now d ll
m o re ve y ain aren aren't couldn couldn't didn didn't doesn doesn't
hadn hadn't hasn hasn't haven haven't isn isn't ma mightn mightn't
mustn mustn't needn needn't shan shan't shouldn shouldn't wasn wasn't
weren weren't won won't wouldn wouldn't


In [26]:
# 위의 예제 문장을 불용어처리해보자.

stop = stopwords.open("english").read().split()
tokens = list()
for _ in re.sub(r"[{}]".format(re.escape(punctuation)),
        " ", sentence.lower()).split():
    if not _ in stop:
        tokens.append(_)
" ".join(tokens)

'like learn somthing like learn somthing'

In [28]:
# 또다른 문장으로 불용어처리

tokens = []
for _ in "I Like You".lower().split():
    if _ in stop:
        print("Skipped: ", _)
    else:
        tokens.append(_)
        
" ".join(tokens)

Skipped:  i
Skipped:  you


'like'

In [35]:
# corpus로 불용어처리

from nltk.corpus import gutenberg
emma = gutenberg.open(gutenberg.fileids()[0]).read().lower()

removePunc = lambda t: re.sub(r"[{}]".format(re.escape(punctuation)),
                             " ", t)
removeStop = lambda t: [_ for _ in t.split()
                       if _ not in stop]

# 각 처리결과별 Unique token의 갯수 비교
len(set(emma.split())), len(set(word_tokenize(emma))), \
len(set(removeStop(emma))), \
len(set(removeStop(removePunc(emma))))

(16945, 7944, 16821, 6972)

> 구두점(특수기호)를 정제(cleaning)하고, 불용어처리(stopwords)한 결과가 6972개로 unique token갯수가 가장 많이 줄어들었다.

In [34]:
from nltk import Text
Text(emma.split()).vocab().most_common(10), \
Text(word_tokenize(emma)).vocab().most_common(10),\
Text(removeStop(emma)).vocab().most_common(10), \
Text(removeStop(removePunc(emma))).vocab().most_common(10)

([('the', 5120),
  ('to', 5079),
  ('and', 4445),
  ('of', 4196),
  ('a', 3055),
  ('i', 2602),
  ('was', 2302),
  ('she', 2169),
  ('in', 2091),
  ('not', 2028)],
 [(',', 12016),
  ('.', 6351),
  ('the', 5201),
  ('to', 5181),
  ('and', 4877),
  ('of', 4284),
  ('i', 3177),
  ('a', 3124),
  ('--', 3100),
  ('it', 2503)],
 [('mr.', 1097),
  ('could', 800),
  ('would', 795),
  ('mrs.', 675),
  ('miss', 568),
  ('must', 543),
  ('emma', 481),
  ('much', 427),
  ('every', 425),
  ('said', 392)],
 [('mr', 1154),
  ('emma', 865),
  ('could', 837),
  ('would', 821),
  ('mrs', 701),
  ('miss', 602),
  ('must', 571),
  ('harriet', 506),
  ('much', 486),
  ('said', 484)])

> 구두점(특수기호)를 정제(cleaning)하고, 불용어처리(stopwords)한 결과가 그냥 split 또는 word_tokenize만 한 경우보다 좀더 유의미한 token들이 남은 것으로 보인다.
>
> "the", "to", "." 등의 token보다 "mr.", "emma", "could"가 문장분석에 더 유의미할 것이다.

---

# korstop (한국어 불용어 처리)

In [38]:
# 임의의 불용어셋 만들기

sentence = "나 에게 너 는 사랑 이다."
stop = "은\n는\n이\n가\n에게\n이다"

removePunc(sentence), \
removeStop(removePunc(sentence))

('나 에게 너 는 사랑 이다 ', ['나', '너', '사랑'])

In [66]:
from konlpy.corpus import kolaw
from collections import defaultdict

In [70]:
corpus = kolaw.open(kolaw.fileids()[0]).read()
# 대소문자 => 한글이니까 생략


corpus = removePunc(corpus) # 구두점 => ' '으로 바꿈

corpus = corpus.split() # 어절분리(토큰분리 - 형태소, 품사, 정규식, word_tokenize, BPE, ngram 등의 기법이 있음.)

tokens1 = defaultdict(int)
for _ in corpus:
    tokens1[_] += 1

# 단어의 길이로 정규화
tokens2 = {t:f for t, f in tokens1.items()
         if len(t) > 1}

# 단어의 빈도로 정규화(저빈도)
tokens3 = {t:f for t, f in tokens2.items()
         if f > 2}

In [72]:
# 전체 단어 갯수 4180개가 1846까지 줄어들었다.

len(corpus), sum(tokens1.values()), \
sum(tokens2.values()), sum(tokens3.values())

(4180, 4180, 3859, 1846)

In [74]:
# 유니크한 단어의 갯수도 228개 까지 줄어들었다.

len(tokens1), len(tokens2), len(tokens3)

(2018, 1994, 228)