# Scikit-Learn의 문서 전처리 기능
### BOW 인코딩

- 문자를 숫자 벡터로 변환하는 가장 기본적인 방법.
- 전체 문서를 구성하는 고정된 단어장을 만들고 개별 문서 단어장에 해당하는 단어 포함여부 표시

### DictVectorizer
- 각 단어의 수를 세어놓은 사전에서 BOW 인코딩 벡터를 만든다.
### CountVectorizer
- 문서 집합에서 단어 토큰을 생성하고 각 단어의 수를 세어 BOW 인코딩 벡터를 만든다.
### TfidfVector
- CountVectorizer와 비슷하지만 TF-IDF 방식으로 단어의 가중치를 조정한 BOW 인코딩 벡터를 만든다.
### HashingVectorizer
- 해시 함수를 사용하여 적은 메모리와 빠른 속도로 BOW 인코딩 벡터를 만든다.

### DictVectorizer
- 문서에서 단어의 사용 빈도를 나타내는 딕셔너리 정보를 입력받아 BOW 인코딩한 수치 벡터로 변환.

In [1]:
from sklearn.feature_extraction import DictVectorizer
v = DictVectorizer(sparse=False)
D = [{'A': 1, 'B': 2}, {'B': 3, 'C': 1}]
X = v.fit_transform(D)
X

array([[1., 2., 0.],
       [0., 3., 1.]])

In [2]:
v.feature_names_

['A', 'B', 'C']

In [3]:
v.transform({'C': 4, 'D': 3})

array([[0., 0., 4.]])

### CountVectorizer
- 1) 문서를 토큰 리스트로 변환
- 2) 각 문서에서 토큰의 출현 빈도를 센다.
- 3) 각 문서를 BOW 인코딩 벡터로 변환한다.

In [4]:
from sklearn.feature_extraction.text import CountVectorizer
corpus = [
    'This is the first document.',
    'This is the second second document.',
    'And the third one.',
    'Is this the first document?',
    'The last document?',
]
vect = CountVectorizer()
vect.fit(corpus)
vect.vocabulary_

{'this': 9,
 'is': 3,
 'the': 7,
 'first': 2,
 'document': 1,
 'second': 6,
 'and': 0,
 'third': 8,
 'one': 5,
 'last': 4}

In [5]:
vect.transform(['This is the second document.']).toarray()

array([[0, 1, 0, 1, 0, 0, 1, 1, 0, 1]])

In [6]:
vect.transform(['Something completely new.']).toarray()

array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])

In [7]:
vect.transform(corpus).toarray()

array([[0, 1, 1, 1, 0, 0, 0, 1, 0, 1],
       [0, 1, 0, 1, 0, 0, 2, 1, 0, 1],
       [1, 0, 0, 0, 0, 1, 0, 1, 1, 0],
       [0, 1, 1, 1, 0, 0, 0, 1, 0, 1],
       [0, 1, 0, 0, 1, 0, 0, 1, 0, 0]])

### Stop-Words
- 문서에서 단어장을 생성할 때 무시할 수 있는 단어.
- 보통 영어의 관사, 접속사 또는 한국어의 조사 등이 여기에 해당함.

In [8]:
vect = CountVectorizer(stop_words=["and", "is", "the", "this"]).fit(corpus)
vect.vocabulary_

{'first': 1, 'document': 0, 'second': 4, 'third': 5, 'one': 3, 'last': 2}

In [9]:
vect = CountVectorizer(stop_words="english").fit(corpus)
vect.vocabulary_

{'document': 0, 'second': 1}

### N-gram
- 단어장 생성에 사용할 토큰의 크기를 결정
- 모노그램은 토큰 하나만 단어로 사용, 바이그램은 두 개의 연결된 토큰을 하나의 단어로 사용

In [10]:
vect = CountVectorizer(ngram_range=(2, 2)).fit(corpus)
vect.vocabulary_

{'this is': 12,
 'is the': 2,
 'the first': 7,
 'first document': 1,
 'the second': 9,
 'second second': 6,
 'second document': 5,
 'and the': 0,
 'the third': 10,
 'third one': 11,
 'is this': 3,
 'this the': 13,
 'the last': 8,
 'last document': 4}

In [11]:
vect = CountVectorizer(ngram_range=(1, 2), token_pattern="t\w+").fit(corpus)
vect.vocabulary_

{'this': 3, 'the': 0, 'this the': 4, 'third': 2, 'the third': 1}

### 빈도수
- max_df, min_df 인수를 사용. 지정한 값을 초과하거나 작은 경우에 무시함.

In [12]:
vect = CountVectorizer(max_df=4, min_df=2).fit(corpus)
vect.vocabulary_, vect.stop_words_

({'this': 3, 'is': 2, 'first': 1, 'document': 0},
 {'and', 'last', 'one', 'second', 'the', 'third'})

In [13]:
vect.transform(corpus).toarray().sum(axis=0)

array([4, 2, 3, 3])

### TF-IDF
- 단어를 갯수 그대로 카운트하지 않음.
- 모든 문서에 공통적으로 들어있는 단어의 경우 문서 구별 능력이 떨어진다고 보아 가중치를 축소하는 방법임.

- tf-idf(d,t) = tf(d,t) * idf(t)
- tf(d,t) : term frequency. 특정한 단어의 빈도 수
- idf(t) : inverse document frequency. 특정한 단어가 들어 있는 문서의 수에 반비례하는 수.
    

In [14]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidv = TfidfVectorizer().fit(corpus)
tfidv.transform(corpus).toarray()

array([[0.        , 0.38947624, 0.55775063, 0.4629834 , 0.        ,
        0.        , 0.        , 0.32941651, 0.        , 0.4629834 ],
       [0.        , 0.24151532, 0.        , 0.28709733, 0.        ,
        0.        , 0.85737594, 0.20427211, 0.        , 0.28709733],
       [0.55666851, 0.        , 0.        , 0.        , 0.        ,
        0.55666851, 0.        , 0.26525553, 0.55666851, 0.        ],
       [0.        , 0.38947624, 0.55775063, 0.4629834 , 0.        ,
        0.        , 0.        , 0.32941651, 0.        , 0.4629834 ],
       [0.        , 0.45333103, 0.        , 0.        , 0.80465933,
        0.        , 0.        , 0.38342448, 0.        , 0.        ]])

### Hashing Trick
- 단어에 대한 인덱스 번호를 생성하여 메모리 및 실행 시간을 줄일 수 있음.

In [15]:
from sklearn.datasets import fetch_20newsgroups
twenty = fetch_20newsgroups()
len(twenty.data)

11314

In [16]:
%time CountVectorizer().fit(twenty.data).transform(twenty.data)

CPU times: user 3.49 s, sys: 50.6 ms, total: 3.54 s
Wall time: 3.54 s


<11314x130107 sparse matrix of type '<class 'numpy.int64'>'
	with 1787565 stored elements in Compressed Sparse Row format>

In [17]:
from sklearn.feature_extraction.text import HashingVectorizer
hv = HashingVectorizer(n_features=300000)

In [18]:
%time hv.transform(twenty.data)

CPU times: user 1.59 s, sys: 27 ms, total: 1.62 s
Wall time: 1.61 s


<11314x300000 sparse matrix of type '<class 'numpy.float64'>'
	with 1786336 stored elements in Compressed Sparse Row format>