<a href="https://colab.research.google.com/github/SeongwonTak/TIL_swtak/blob/master/DataScience/TextPreprocessing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Text Preprocessing
텍스트 분석을 위한 텍스트 전처리 방법에 대해 알아보았다.
참고 : 머신러닝 교과서 8장. / 데이터사이언스 스쿨


## BoW 모델
Bag-of-Word 라고 불리는 BoW 모델이란, 텍스트를 수치로 표현하는 방법이다.
하려는 작업은 다음과 같다.

1. 전체 문서에 대한 고유한 토큰(어휘사전?)을 만든다.
2. 특정 문서에 각 단어가 얼마나 자주 등장하는지를 헤아려 특성 벡터를 만든다.

물론, 전체 문서에서 특정 어휘는 모든 단어의 일부분일거므로, 특성 벡터는 sparse할 것이다.

즉, 다시 말해
- 문서 집합
$$\{d_{1},d_{2},...d_{n}\} $$이 있고, 
- 단어장이
$${t_{1},t_{2},...,t_{m{} $$이 있다면,

$x_{ij}$를 문서 i내 단어 j의 출현 빈도로 표현 가능할 것이다.
(혹은 있다 없다로 표현할수도 있을 것이고)


### CountVectorizer
scikit-learn에 있는 하나의 클래스인 CountVectorizer에 대해 알아보자.
이는 문서에 있는 단어를 카운트한다.

In [None]:
#CountVectorizer
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer

count = CountVectorizer()
corpus = np.array([
    'This is the first document.',
    'This is the second second document.',
    'And the third one.',
    'Is this the first document?',
    'The last document?'])
bag = count.fit_transform(corpus)

print(count.vocabulary_)

{'this': 9, 'is': 3, 'the': 7, 'first': 2, 'document': 1, 'second': 6, 'and': 0, 'third': 8, 'one': 5, 'last': 4}


In [None]:
print(bag.toarray())

[[0 1 1 1 0 0 0 1 0 1]
 [0 1 0 1 0 0 2 1 0 1]
 [1 0 0 0 0 1 0 1 1 0]
 [0 1 1 1 0 0 0 1 0 1]
 [0 1 0 0 1 0 0 1 0 0]]


corpus, 말 뭉치를 보고 bag에다가 단어의 종류를 넣는다.
count_vocabulary_ 를 통해 단어의 종류를 확인 가능하다.
단어와 인덱스의 위치가 주어지고

이는 bag.toarray()를 통해 행렬로 표현 가능하다.
예를들어 col 0은 and이고, col 1은 document... 이렇게 표현 가능하다.,.

여기서 두번째 문서에는 second(인덱스 6)가 2번 나옴을 알 수 있다.

여기서, 우리는 **단어 빈도(term frequency)** 라는 것을 정의하려고 한다.
문서 $d$에 등장한 단어 $t$의 횟수를 $tf(t, d)$ 처럼 같이 쓴다.

### Stop Words
불용어란, 모든 종류의 텍스트에 아주 흔하게 등장하는 정보가 거의 없는 문법요소 단어들이라고 보면 된다. (is, and, has, like...)
불용어를 제거하는 방법은 다음과 같다.

In [None]:
vect = CountVectorizer(stop_words=["and", "is", "the", "this"]).fit(corpus)
vect.vocabulary_

{'document': 0, 'first': 1, 'last': 2, 'one': 3, 'second': 4, 'third': 5}

모든 불용어를 저렇게 지정하는 것은 매우 어렵다. 
파이썬의 nltk 패키지를 통해 불용어 리스트를 받아 처리할 수 있다.

In [None]:
import nltk

nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [None]:
from nltk.corpus import stopwords
 
stop = stopwords.words('english')
corpus2 = np.array(['The quick brown fox jumps over the lazy dog',
                    'My Heart will go on',
                    'The lazy girl breaks my heart'])
vect2 = CountVectorizer(stop_words = stop).fit(corpus2)
vect2.vocabulary_

{'breaks': 0,
 'brown': 1,
 'dog': 2,
 'fox': 3,
 'girl': 4,
 'go': 5,
 'heart': 6,
 'jumps': 7,
 'lazy': 8,
 'quick': 9}

### N-gram
지금까지 1단어 기준으로만 token을 부여한 것을 1-gram이라고 한다.
N-gram은 연속된 N개의 어절을 뜻한다.

예를 들어
'The quick brown fox jumps over the lazy dog' 의 3-gram이라면
- The quick brown
- quick brown fox
....
- the lazy dog
이 될 것이다.

In [None]:
ngram_vect = CountVectorizer(ngram_range=(2, 2)).fit(corpus)
ngram_vect.vocabulary_

{'and the': 0,
 'first document': 1,
 'is the': 2,
 'is this': 3,
 'last document': 4,
 'second document': 5,
 'second second': 6,
 'the first': 7,
 'the last': 8,
 'the second': 9,
 'the third': 10,
 'third one': 11,
 'this is': 12,
 'this the': 13}

혹은 1단어에서 N단어까지를 지정할수도 있다.

In [None]:
ngram2_vect = CountVectorizer(ngram_range=(1, 2)).fit(corpus2)
ngram2_vect.vocabulary_

{'breaks': 0,
 'breaks my': 1,
 'brown': 2,
 'brown fox': 3,
 'dog': 4,
 'fox': 5,
 'fox jumps': 6,
 'girl': 7,
 'girl breaks': 8,
 'go': 9,
 'go on': 10,
 'heart': 11,
 'heart will': 12,
 'jumps': 13,
 'jumps over': 14,
 'lazy': 15,
 'lazy dog': 16,
 'lazy girl': 17,
 'my': 18,
 'my heart': 19,
 'on': 20,
 'over': 21,
 'over the': 22,
 'quick': 23,
 'quick brown': 24,
 'the': 25,
 'the lazy': 26,
 'the quick': 27,
 'will': 28,
 'will go': 29}

## TF-IDF
자주 등장하는 단어들은 다음과 같은 특성을 가지고 있다.
- 유용한 단어이며, 문장을 관통하는 단어가 된다.
- 문법적인 요소로, 판별에 필요한 정보는 없다.

자주 등장하는 단어들의 가중치를 조절하는 방법으로 TF-IDF가 존재한다.

단어 $t$, 문서 $d$에 대하여
$$tf-idf(t,d) = tf(t,d) \times idf(t, d)$$
로 정의하게 될 것이다. 여기서

- 문서 $d$에 등장한 단어 $t$의 횟수를 $tf(t, d)$
- $$idf(t, d) = log \frac{N}{1 + df(d, t)}$$
where 
  - N : 전체 문서의 개수
  - df(d,t) = 단어 t가 포함된 문서 d의 개수

로 주어진다.



### scikit-learn에서의 TF-IDF

먼저 코드 예시를 보자.

In [None]:
from sklearn.feature_extraction.text import TfidfTransformer
tfidf = TfidfTransformer(use_idf = True,
                        norm = 'l2',  # L2 Norm을 의미한다. 12 아님.
                        smooth_idf = True)
np.set_printoptions(precision = 2)
print(tfidf.fit_transform(count.fit_transform(corpus)).toarray())

[[0.   0.39 0.56 0.46 0.   0.   0.   0.33 0.   0.46]
 [0.   0.24 0.   0.29 0.   0.   0.86 0.2  0.   0.29]
 [0.56 0.   0.   0.   0.   0.56 0.   0.27 0.56 0.  ]
 [0.   0.39 0.56 0.46 0.   0.   0.   0.33 0.   0.46]
 [0.   0.45 0.   0.   0.8  0.   0.   0.38 0.   0.  ]]


먼저 과정에서 norm이 들어가는데, 이는 정규화를 의미한다.
보통 tf-idf를 계산하기 전, tf를 정규호 하는데  여기서는 tf-idf 값을 직접 정규화한다. 기본적으로 L2 정규화를 사용하는데,
$$ v_{norm} = \frac{v}{||v||_{2}}$$ 
로 계산하면 된다.  (즉 그냥 normalize)

또, idf와 tf-idf 계산 방식도 약간 다르다.

- $$idf(t, d) = log \frac{1 + N}{1 + df(d, t)}$$
- $$tf-idf(t,d) = tf(t,d) \times (idf(t, d) + 1)$$

## 토큰화와 형태소 분석
텍스트 문서를 각각의 낱개로 쪼개는 작업을 생각해야 할 것이다. 가장 쉬운 방법은 split일 것이다.

그런데, 영어의 경우 변화형이 각각 들어간다면, 그걸 따로 세기보다는 "기본형"으로 통합해서 하나로 세고 싶다. 이를 위한 방법이 있다.

파이썬의 NLTK 패키지를 통해 이를 처리할 수 있다.
여러 패키지가 있는데

- 어간 추출 알고리즘 PorterStemmer
- 원형 추출 알고리즘 WordNetLemmatizer

단순 토큰화, 어간 추출, 원형 추출의 차이를 알아보자자

In [None]:
# 단순 토큰화
def tokenizer(text):
  return text.split()

tokenizer('flies could fly and thus they like flying')

['flies', 'could', 'fly', 'and', 'thus', 'they', 'like', 'flying']

In [None]:
# PoterStemmer
from nltk.stem.porter import PorterStemmer
porter = PorterStemmer()
def tokenizer_porter(text):
  return [porter.stem(word) for word in text.split()]
tokenizer_porter('flies could fly and thus they like flying')

['fli', 'could', 'fli', 'and', 'thu', 'they', 'like', 'fli']

PorterStemmer의 경우, 실제로 사용되지 않은 단어들이 나왔다...(thu라던가).

In [None]:
import nltk
nltk.download('wordnet')

from nltk.stem import WordNetLemmatizer
lm = WordNetLemmatizer()
def tokenizer_lm(text):
  return [lm.lemmatize(word, pos="v") for word in text.split()]
tokenizer_lm('flies could fly and thus they like flying')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


['fly', 'could', 'fly', 'and', 'thus', 'they', 'like', 'fly']

WordNetLemmatizer를 사용할 경우 원형을 얻을 수 있다.