<a href="https://colab.research.google.com/github/SeongwonTak/TIL_swtak/blob/master/DataScience/TextPreprocessing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Text Preprocessing
텍스트 분석을 위한 텍스트 전처리 방법에 대해 알아보았다.
참고 : 머신러닝 교과서 8장. / 데이터사이언스 스쿨


## BoW 모델
Bag-of-Word 라고 불리는 BoW 모델이란, 텍스트를 수치로 표현하는 방법이다.
하려는 작업은 다음과 같다.

1. 전체 문서에 대한 고유한 토큰(어휘사전?)을 만든다.
2. 특정 문서에 각 단어가 얼마나 자주 등장하는지를 헤아려 특성 벡터를 만든다.

물론, 전체 문서에서 특정 어휘는 모든 단어의 일부분일거므로, 특성 벡터는 sparse할 것이다.

즉, 다시 말해
- 문서 집합
$$\{d_{1},d_{2},...d_{n}\} $$이 있고, 
- 단어장이
$${t_{1},t_{2},...,t_{m{} $$이 있다면,

$x_{ij}$를 문서 i내 단어 j의 출현 빈도로 표현 가능할 것이다.
(혹은 있다 없다로 표현할수도 있을 것이고)


### CountVectorizer
scikit-learn에 있는 하나의 클래스인 CountVectorizer에 대해 알아보자.
이는 문서에 있는 단어를 카운트한다.

In [2]:
#CountVectorizer
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer

count = CountVectorizer()
corpus = np.array([
    'This is the first document.',
    'This is the second second document.',
    'And the third one.',
    'Is this the first document?',
    'The last document?'])
bag = count.fit_transform(corpus)

print(count.vocabulary_)

{'this': 9, 'is': 3, 'the': 7, 'first': 2, 'document': 1, 'second': 6, 'and': 0, 'third': 8, 'one': 5, 'last': 4}


In [3]:
print(bag.toarray())

[[0 1 1 1 0 0 0 1 0 1]
 [0 1 0 1 0 0 2 1 0 1]
 [1 0 0 0 0 1 0 1 1 0]
 [0 1 1 1 0 0 0 1 0 1]
 [0 1 0 0 1 0 0 1 0 0]]


corpus, 말 뭉치를 보고 bag에다가 단어의 종류를 넣는다.
count_vocabulary_ 를 통해 단어의 종류를 확인 가능하다.
단어와 인덱스의 위치가 주어지고

이는 bag.toarray()를 통해 행렬로 표현 가능하다.
예를들어 col 0은 and이고, col 1은 document... 이렇게 표현 가능하다.,.

여기서 두번째 문서에는 second(인덱스 6)가 2번 나옴을 알 수 있다.

여기서, 우리는 **단어 빈도(term frequency)** 라는 것을 정의하려고 한다.
문서 $d$에 등장한 단어 $t$의 횟수를 $tf(t, d)$ 처럼 같이 쓴다.

### Stop Words
불용어란, 모든 종류의 텍스트에 아주 흔하게 등장하는 정보가 거의 없는 문법요소 단어들이라고 보면 된다. (is, and, has, like...)
불용어를 제거하는 방법은 다음과 같다.

In [4]:
vect = CountVectorizer(stop_words=["and", "is", "the", "this"]).fit(corpus)
vect.vocabulary_

{'document': 0, 'first': 1, 'last': 2, 'one': 3, 'second': 4, 'third': 5}

모든 불용어를 저렇게 지정하는 것은 매우 어렵다. 
파이썬의 nltk 패키지를 통해 불용어 리스트를 받아 처리할 수 있다.

In [5]:
import nltk

nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [7]:
from nltk.corpus import stopwords
 
stop = stopwords.words('english')
corpus2 = np.array(['The quick brown fox jumps over the lazy dog',
                    'My Heart will go on',
                    'The lazy girl breaks my heart'])
vect2 = CountVectorizer(stop_words = stop).fit(corpus2)
vect2.vocabulary_

{'breaks': 0,
 'brown': 1,
 'dog': 2,
 'fox': 3,
 'girl': 4,
 'go': 5,
 'heart': 6,
 'jumps': 7,
 'lazy': 8,
 'quick': 9}