In [28]:
from nltk.tokenize import TreebankWordTokenizer

sentence = "Thomas Jefferson began building Monticello at the age of 26."
tokenizer = TreebankWordTokenizer()
tokens = tokenizer.tokenize(sentence)

In [None]:
print(tokens)

['Thomas', 'Jefferson', 'began', 'building', 'Monticello', 'at', 'the', 'age', 'of', '26', '.']


#n-gram
- 최대 n개의 토큰들로 이루어진 순차열을 의미하며, 여러 토큰들로 합성된 의미를 단일 토큰처럼 나타내기 위해 쓰임.
- 'ice cream'이라는 단어는 단순 토크나이저로 분리하면, 'ice', 'cream'이 분리되는데 2-gram을 활용하면 'ice cream'이 한 토큰으로 처리됨.
- n-gram에서는 각 토큰이 튜플 형태와 유사하게 구성된다고 생각할 수 있지만, 실제로는 vocab에서 관리할 때는 튜플 형태가 아니라 ' '단위로 이어붙여서 주로 활용함.
- 'ice', 'cream' -> 'ice cream'
- n-gram의 장점: n-gram을 통해 유니그램 토큰으로는 나타내기 힘든 표현들을 관리할 수 있는 점이다.
- n-gram의 단점: 'at the'와 같이 불용어가 자주 등장하면서 크게 의미가 있지 않은 n-gram도 추가될 수 있다는 것은 vocab 관리 면에서 단점으로 작용할 수 있다.

#불용어
- 자주 출현하지만 그 의미는 중요치 않은 단어들을 의미함.
- a, an, the, and, or 등등...
- n-gram에서는 불용어 제거가 더욱 중요함.


In [None]:
from nltk.util import ngrams

In [None]:
list(ngrams(tokens,2))

[('Thomas', 'Jefferson'),
 ('Jefferson', 'began'),
 ('began', 'building'),
 ('building', 'Monticello'),
 ('Monticello', 'at'),
 ('at', 'the'),
 ('the', 'age'),
 ('age', 'of'),
 ('of', '26'),
 ('26', '.')]

In [None]:
list(ngrams(tokens,3))

[('Thomas', 'Jefferson', 'began'),
 ('Jefferson', 'began', 'building'),
 ('began', 'building', 'Monticello'),
 ('building', 'Monticello', 'at'),
 ('Monticello', 'at', 'the'),
 ('at', 'the', 'age'),
 ('the', 'age', 'of'),
 ('age', 'of', '26'),
 ('of', '26', '.')]

In [None]:
# 불용어 제거
from sklearn.feature_extraction.text import ENGLISH_STOP_WORDS as sklearn_stop_words

In [None]:
len(sklearn_stop_words)

318

In [31]:
import nltk
stop_words = set(nltk.corpus.stopwords.words('english'))

In [32]:
print(stop_words)

{'herself', 'your', 'was', 'had', 'are', 'a', 'above', 'yours', 'hasn', 'once', "you'll", 'here', "needn't", 'me', 'isn', "weren't", 'this', 'of', "haven't", 'over', 'himself', 'if', 'the', 'out', 'why', 'both', 'an', 'from', "doesn't", 'i', 'can', 'were', 'll', "it's", 'has', 'very', 'too', "hadn't", 'or', 'hadn', 'our', 'do', 'these', 'until', 'few', 'having', 'some', 's', "isn't", 'there', 'and', "won't", 'below', 'theirs', 'under', 'weren', 'them', 'than', 'which', 'same', 'm', 'before', "don't", "you've", 'does', 'she', 'should', 'mustn', 'as', 'no', "should've", 'we', 'when', "wouldn't", 'up', 'doesn', 'you', "that'll", 'so', 'ours', 'don', 'won', 'only', 'yourself', "mightn't", 'own', 'being', 'wasn', 'nor', 'd', 'ma', "wasn't", 'didn', 'wouldn', 'what', 'again', 'against', 'after', 'yourselves', 't', 'their', 'those', 'haven', 'between', 'couldn', 'ain', "you'd", 'most', 'about', 'he', "didn't", 'further', 'for', 'but', 'itself', 'been', 'any', 'other', 'not', 'will', 're', 'ho

In [33]:
len(stop_words)

179

In [34]:
# nltk 불용어와 sklearn 불용어 합집합
# 총 378개로 nltk에만 있고 scikit-learn에는 없는 불용어는 60개이다.
len(stop_words.union(sklearn_stop_words))

378

In [35]:
# nltk와 scikit-learn에 모두 있는 불용어는 119개로, 합집합의 1/3에 못 미친다.
# 즉, 라이브러리마다 불용어는 주관적임.
len(stop_words.intersection(sklearn_stop_words))

119

#어휘 정규화(normalization)
- 실질적으로는 의미가 같으나 표현 방법이 다른 단어들을 통합하는 과정을 의미함.
- 대소문자 통합, 어간 추출, 표제어 추출 -> 비슷한 의미를 가진 토큰들을 통합함.
- 대소문자를 통합하면 그러지 않을 때 보다 약 절반 정도로 토큰 수를 줄일 수 있음.
- 그러나 대문자화(capitalization)를 통해 인명, 지명, 상표 등 고유 명사를 표기하는 경우가 많으므로 개체명 인식 등 일부 작업에서는 대소문자 통합이 성능 저하를 일으킬 수 있음.
- (문제 발생) 파이썬에서의 str.lower() 메서드를 통한 통합은 의도적으로 쓰인 대문자와 문장 맨 앞에서 쓰이는 대문자를 구분하지 못하기 때문에, 정보 손실을 야기할 수 있음.
- (문제 해결) 의도적으로 쓰인 대문자와 문장 맨 앞의 대문자를 구분하고, 문장 맨 앞의 대문자일 경우에만 lower()를 적용하는 방법이 있음.
---
- 대소문자 통합은 기계학습 모델의 과적합을 줄이는 데 도움이 되며, 검색에 활용될 경우 검색 엔진의 재현율(recall) 개선에 기여할 수 있음.
- 만약 대소문자 통합이 되지 않은 검색 엔진으로 'Age'를 검색하면 'age'를 검색할 때와 다른 결과가 나오게 됨. 반면 대소문자 통합을 검색 색인(vocab) 및 검색어 모두에 대해 수행하면 'age'에 관한 모든 문서들이 검색됨.
- 일반적으로 어휘 정규화는 검색의 재현율을 높이지만 정밀도를 낮추게 됨.
- 사용자가 목표로 하지 않는 다른 결과들도 검색 결과에 포함될 가능성이 높아짐.
- 이에 검색 엔진에서는 사용자가 정규화를 회피하는 수단으로 ""기능을 제공함.
- 따옴표 안에 들어 있는 단어, 문장을 그대로 포함하는 문서를 검색함.
---
- 보다 적극적인 형태의 정규화로서 어간 추출(stemming)이라는 기법이 존재
- 어간 추출(stemming): 단어 끝의 다양한 접미사들에 의한 의미 차이를 제거하여 핵심만 남기는 정규화 방식
- ex) house, houses, housing과 같은 단어들에서 공통 어간인 house를 추출하여 전처리
- 추출된 어간은 반드시 사전에 나오는 형태여야 할 필요는 없고, 한 어간의 다양한 형태를 대표할 수 있으면 됨.
- stemming 또한 정규화의 일종이므로 재현율을 높이는 데는 도움이 되지만, 정밀도를 크게 감소시킬 수도 있음.
- "dr house call"이 아니라 "Dr.House's call"을 검색하고 싶다면 stemming을 하지 않는 것이 좋음.


# 검색에서의 재현율(recall) 및 정밀도(precision) 비교
- 재현율(recall)
  - 관심있는 어떤 결과가 얼마나 포함되어 있는냐를 나타내는 것임.
  - recall = (Number of relevant documents retrieved / Total number of relevant documents) * 100
- 정밀도(precision)
  - 모델의 결과 중 관심있는 결과의 비율
  - precision = (Number of relevant documents retrieved / Total number of documents retrieved) * 100
- 재현율과 정밀도는 반비례 관계의 성질을 띤다.

# stemming
- 어간 추출 규칙
  - 1. 단어가 둘 이상의 s로 끝나면, 어간은 그 단어 자체이며 별도의 접미사 없음.
  - 2. 단어가 하나의 s로 끝나면 어간은 s를 제외한 부분이며, s가 접미사 됨.
  - 3. 단어가 s로 끝나지 않으면 어간은 그 단어 자체이고 별도의 접미사가 없음.


In [1]:
# stemming
import re
def stem(pharse):
  return ' '.join([re.findall('^(.*ss|.*?)(s)?$',word)[0][0].strip("'") for word in pharse.lower().split()])

In [2]:
stem('houses')

'house'

In [3]:
stem("Doctor House's calls") # recall은 증가함.

'doctor house call'

In [4]:
# 어간 추출 정규화 방식
from nltk.stem.porter import PorterStemmer
stemmer = PorterStemmer()

In [6]:
' '.join([stemmer.stem(w).strip("'") for w in "dish washer's washed dishes".split()])

'dish washer wash dish'

# 어휘 정규화
- lemmatization(표제어 추출)
  - 토큰들을 해당 의미의 근본적인 형태인 어근 수준으로 정규화하는 방식
  - 형태적인 부분보다 의미적인 부분에 집중하여 정규화를 수행함.
  - 고급 표제어 추출기에서는 각 토큰의 품사는 주변 문맥까지 고려하여 최종적으로 표제어 추출을 진행함.
  - 1. 토큰 품사 요구
  - 2. 주변 문맥에 따라 정규화
- stemming(어간 추출)과 lemmatization(표제어 추출) 비교
  - 어간 추출
    - better -> "bett", "bet"와 같이 "er"을 제거하는데 집중
  - 표제어 추출(사전 정보 필요)
    - better -> "betterment", "best", "good"과 같이 변환

In [8]:
# lemmatization
import nltk
nltk.download('wordnet') # WordNet: 프린스턴 대학교에서 구축한 방대한 유의어 그래프 데이터
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

[nltk_data] Downloading package wordnet to /root/nltk_data...


In [10]:
lemmatizer.lemmatize("better") # 2번째 인수를 생략하는 경우, 명사를 뜻하는 "n"이 적용됨.

'better'

In [11]:
lemmatizer.lemmatize("better", pos="a")

'good'

In [12]:
lemmatizer.lemmatize("good", pos="a")

'good'

In [13]:
lemmatizer.lemmatize("goods", pos="a")

'goods'

In [14]:
lemmatizer.lemmatize("good", pos="n")

'good'

In [16]:
lemmatizer.lemmatize("goodness", pos="n")

'goodness'

In [17]:
lemmatizer.lemmatize("best", pos="a")

'best'

# 감정분석(sentiment analysis)
- 단어 조합이나 문구, 문장 등에 담긴 감정을 분류하고 측정하는 작업을 의미
- 여기서는 1. 간단한 토큰화 및 규칙 기반, 2. 기계학습 기반으로 감정 분석이 어느 정도 가능함을 본다.
- 감정 분석 알고리즘의 목표
  - 주어진 입력에 대해 -1부터 +1까지 긍정적인 정도를 출력

# 1. 규칙 기반 감정 분석
  - 텍스트에서 특정 키워드들(n-gram)을 찾음. 그 후, 키워드들에 부여된 점수를 취합하는 것이 기본적인 방식
  - (키워드, 감정 점수) 쌍들을 담은 사전(dictionary)이 필요함.
  - 키워드를 정확히 매칭하기 위한 토큰화 방식이 중요하며, 이 때 정규화 여부 또한 중요할 수 있음.

# 2. 기계학습 기반 감정 분석
  - 문장, 문서들(데이터)과 그에 대한 점수(레이블)쌍이 필요함.
  - 기본적으로 지도학습 형태로 감정분석에 대해 학습한 후, 추론을 수행함.

In [3]:
!pip install vaderSentiment

Collecting vaderSentiment
  Downloading vaderSentiment-3.3.2-py2.py3-none-any.whl.metadata (572 bytes)
Downloading vaderSentiment-3.3.2-py2.py3-none-any.whl (125 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m126.0/126.0 kB[0m [31m2.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: vaderSentiment
Successfully installed vaderSentiment-3.3.2


In [4]:
# VADER 규칙 기반 감정 분석기
from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer

sa = SentimentIntensityAnalyzer()

In [5]:
sa.lexicon # SentimentIntensityAnalyzer.lexicon에는 토큰-감정 점수 쌍들이 들어 있다.

{'$:': -1.5,
 '%)': -0.4,
 '%-)': -1.5,
 '&-:': -0.4,
 '&:': -0.7,
 "( '}{' )": 1.6,
 '(%': -0.9,
 "('-:": 2.2,
 "(':": 2.3,
 '((-:': 2.1,
 '(*': 1.1,
 '(-%': -0.7,
 '(-*': 1.3,
 '(-:': 1.6,
 '(-:0': 2.8,
 '(-:<': -0.4,
 '(-:o': 1.5,
 '(-:O': 1.5,
 '(-:{': -0.1,
 '(-:|>*': 1.9,
 '(-;': 1.3,
 '(-;|': 2.1,
 '(8': 2.6,
 '(:': 2.2,
 '(:0': 2.4,
 '(:<': -0.2,
 '(:o': 2.5,
 '(:O': 2.5,
 '(;': 1.1,
 '(;<': 0.3,
 '(=': 2.2,
 '(?:': 2.1,
 '(^:': 1.5,
 '(^;': 1.5,
 '(^;0': 2.0,
 '(^;o': 1.9,
 '(o:': 1.6,
 ")':": -2.0,
 ")-':": -2.1,
 ')-:': -2.1,
 ')-:<': -2.2,
 ')-:{': -2.1,
 '):': -1.8,
 '):<': -1.9,
 '):{': -2.3,
 ');<': -2.6,
 '*)': 0.6,
 '*-)': 0.3,
 '*-:': 2.1,
 '*-;': 2.4,
 '*:': 1.9,
 '*<|:-)': 1.6,
 '*\\0/*': 2.3,
 '*^:': 1.6,
 ',-:': 1.2,
 "---'-;-{@": 2.3,
 '--<--<@': 2.2,
 '.-:': -1.2,
 '..###-:': -1.7,
 '..###:': -1.9,
 '/-:': -1.3,
 '/:': -1.3,
 '/:<': -1.4,
 '/=': -0.9,
 '/^:': -1.0,
 '/o:': -1.4,
 '0-8': 0.1,
 '0-|': -1.2,
 '0:)': 1.9,
 '0:-)': 1.4,
 '0:-3': 1.5,
 '0:03': 1.9,
 '

In [8]:
sa.polarity_scores(text=':)')

{'neg': 0.0, 'neu': 0.0, 'pos': 1.0, 'compound': 0.4588}

In [14]:
# VADER에 정의된 7,500개의 토큰 중 빈칸이 포함된 것은 3개 뿐이고, 그 3 중 실제로 n-gram인 것은 둘 뿐이다.
[(tok, score) for tok, score in sa.lexicon.items() if " " in tok]

[("( '}{' )", 1.6),
 ("can't stand", -2.0),
 ('fed up', -1.8),
 ('screwed up', -1.5)]

In [11]:
sa.polarity_scores(text="Python is a very readable and it's great for NLP.")

{'neg': 0.0, 'neu': 0.687, 'pos': 0.313, 'compound': 0.6249}

In [16]:
sa.polarity_scores(text="Python is not a bad choice for most applications.")

{'neg': 0.0, 'neu': 0.737, 'pos': 0.263, 'compound': 0.431}

In [29]:
# VADER 규칙 기반 감정 분석기
# 장점: 일반적인 형태의 문장들에서 점수를 잘 도출함을 확인할 수 있음.
# 단점: 7500개의 토큰들만에 대해 점수를 매기므로 새로운 토큰들이 추가되면 프로그램 자체를 패치해줘야 한다.
corpus = ["Absolutely Perfect! Love it! :-) :-) :-)",
          "Horrible! Completely useless :(",
          "It was OK. Some good and some bad things."]

for doc in corpus:
  scores = sa.polarity_scores(doc)
  print(f"{scores['compound']}: {doc}")

0.9428: Absolutely Perfect! Love it! :-) :-) :-)
-0.8768: Horrible! Completely useless :(
-0.1531: It was OK. Some good and some bad things.
