# Bag of Words

### 1. Count Vectorizer

In [6]:
# CountVectorizer == Class이기 때문에 객체 생성해서 사용해야 한다.
# 텍스트 정규화에 많이 쓰인다!
from sklearn.feature_extraction.text import CountVectorizer

# corpus == 단어 말뭉치 
# corpus = 'Grow your data science skills by competing in our exciting competitions.'
corpus = ['Grow your data science skills by competing in our exciting competitions.']


In [7]:
# 객체 생성해서 사용해보자!
cvect = CountVectorizer()
cvect.get_params() # CountVectorizer의 파라미터 출력

{'analyzer': 'word',
 'binary': False,
 'decode_error': 'strict',
 'dtype': numpy.int64,
 'encoding': 'utf-8',
 'input': 'content',
 'lowercase': True,
 'max_df': 1.0,
 'max_features': None,
 'min_df': 1,
 'ngram_range': (1, 1),
 'preprocessor': None,
 'stop_words': None,
 'strip_accents': None,
 'token_pattern': '(?u)\\b\\w\\w+\\b',
 'tokenizer': None,
 'vocabulary': None}

In [8]:
# ValueError: Iterable over raw text documents expected, string object received. 
# Fit_transform에 넣는 입력값이 string이어서 생긴 에러로, input string 대신 list로 넣어주면 된다.
# 출처: https://aigong.tistory.com/53
# 희소행렬과 상관없이 사용가능한 함수
output = cvect.fit_transform(corpus)
output

<1x11 sparse matrix of type '<class 'numpy.int64'>'
	with 11 stored elements in Compressed Sparse Row format>

In [9]:
output.toarray()

array([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]], dtype=int64)

In [10]:
# 테스트 attribute: 알파벳 순서대로 sorting 
cvect.vocabulary_

{'grow': 5,
 'your': 10,
 'data': 3,
 'science': 8,
 'skills': 9,
 'by': 0,
 'competing': 1,
 'in': 6,
 'our': 7,
 'exciting': 4,
 'competitions': 2}

- 불용어(Stopwords) 제거

In [11]:
# 자체 제거
cvect = CountVectorizer(stop_words=['by', 'in', 'our']) # 불용어 지정 가능
print(cvect.fit_transform(corpus).toarray())
print(cvect.vocabulary_)

[[1 1 1 1 1 1 1 1]]
{'grow': 4, 'your': 7, 'data': 2, 'science': 5, 'skills': 6, 'competing': 0, 'exciting': 3, 'competitions': 1}


In [12]:
# Scikit-Learn에서 제공하는 불용어 사용
cvect = CountVectorizer(stop_words='english')
print(cvect.fit_transform(corpus).toarray())
print(cvect.vocabulary_)

[[1 1 1 1 1 1 1]]
{'grow': 4, 'data': 2, 'science': 5, 'skills': 6, 'competing': 0, 'exciting': 3, 'competitions': 1}


In [1]:
# 최초로 nltk 작업을 할 경우에는 punkt, stopwords 모듈을 다운로드 받는다.
import nltk 
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

In [13]:
# NLTK에서 제공하는 불용어 사용
from nltk.corpus import stopwords
sw = stopwords.words('english')
len(sw), type(sw)

(179, list)

In [14]:
cvect = CountVectorizer(stop_words=sw)
print(cvect.fit_transform(corpus).toarray())
print(cvect.vocabulary_)

[[1 1 1 1 1 1 1]]
{'grow': 4, 'data': 2, 'science': 5, 'skills': 6, 'competing': 0, 'exciting': 3, 'competitions': 1}


- 인덱스에 해당하는 단어는 무엇인지 알려주는 함수

In [15]:
# 딕셔너리 반복문
voca = cvect.vocabulary_

    # for key in voca:              --- 별로 좋은 방법은 아니다
    #     print(key, voca[key])

for key in voca.keys():             # 더 명확하게 설정
    print(key, voca[key])

grow 4
data 2
science 5
skills 6
competing 0
exciting 3
competitions 1


In [16]:
for key, value in voca.items():     # key와 value를 동시에 추출
    print(key, value)

grow 4
data 2
science 5
skills 6
competing 0
exciting 3
competitions 1


In [17]:
def get_word(index, voca):
                                # 단어를 리턴
                                # dic에서 반복문을 쓸 수 있는 방법을 알아야 한다. => 리스트만큼 편리하지는 않다.
    for key in voca:
        if voca[key] == index:
            return key

get_word(5, voca)

'science'

In [18]:
def get_word(index, voca):
    for key, value in voca.items():
        if value == index:
            return key

get_word(5, cvect.vocabulary_)

'science'

- N-gram
    - BOW의 단점을 보강

In [19]:
text = ['I work at google.']
cvect = CountVectorizer(ngram_range=(1,2))
print(cvect.fit_transform(text).toarray())
print(cvect.vocabulary_)

[[1 1 1 1 1]]
{'work': 3, 'at': 0, 'google': 2, 'work at': 4, 'at google': 1}


In [20]:
text = ['I google at work.']
cvect = CountVectorizer(ngram_range=(1,2))
print(cvect.fit_transform(text).toarray())
print(cvect.vocabulary_)

[[1 1 1 1 1]]
{'google': 2, 'at': 0, 'work': 4, 'google at': 3, 'at work': 1}


In [21]:
text = ['I work at google', 'I google at work.']
cvect = CountVectorizer(ngram_range=(1,2))
print(cvect.fit_transform(text).toarray())
print(cvect.vocabulary_)

[[1 1 0 1 0 1 1]
 [1 0 1 1 1 1 0]]
{'work': 5, 'at': 0, 'google': 3, 'work at': 6, 'at google': 1, 'google at': 4, 'at work': 2}


### 2. TF-IDF Vectorizer

In [22]:
from sklearn.feature_extraction.text import TfidfVectorizer
corpus = ['you know I want your love', 'I like you', 'what should I do']

In [24]:
cvect = CountVectorizer()
print(cvect.fit_transform(corpus).toarray())
print(cvect.vocabulary_)

[[0 1 0 1 0 1 0 1 1]
 [0 0 1 0 0 0 0 1 0]
 [1 0 0 0 1 0 1 0 0]]
{'you': 7, 'know': 1, 'want': 5, 'your': 8, 'love': 3, 'like': 2, 'what': 6, 'should': 4, 'do': 0}


In [25]:
tvect = TfidfVectorizer()
print(tvect.fit_transform(corpus).toarray())
print(tvect.vocabulary_)

[[0.         0.46735098 0.         0.46735098 0.         0.46735098
  0.         0.35543247 0.46735098]
 [0.         0.         0.79596054 0.         0.         0.
  0.         0.60534851 0.        ]
 [0.57735027 0.         0.         0.         0.57735027 0.
  0.57735027 0.         0.        ]]
{'you': 7, 'know': 1, 'want': 5, 'your': 8, 'love': 3, 'like': 2, 'what': 6, 'should': 4, 'do': 0}


In [26]:
# what should I  do 같은 문장은 전부 불용어로 처리되었다. 
tvect = TfidfVectorizer(stop_words='english', ngram_range=(1,2))
print(tvect.fit_transform(corpus).toarray())
print(tvect.vocabulary_)

[[0.4472136 0.4472136 0.        0.4472136 0.4472136 0.4472136]
 [0.        0.        1.        0.        0.        0.       ]
 [0.        0.        0.        0.        0.        0.       ]]
{'know': 0, 'want': 4, 'love': 3, 'know want': 1, 'want love': 5, 'like': 2}


In [27]:
tvect.get_params()

{'analyzer': 'word',
 'binary': False,
 'decode_error': 'strict',
 'dtype': numpy.float64,
 'encoding': 'utf-8',
 'input': 'content',
 'lowercase': True,
 'max_df': 1.0,
 'max_features': None,
 'min_df': 1,
 'ngram_range': (1, 2),
 'norm': 'l2',
 'preprocessor': None,
 'smooth_idf': True,
 'stop_words': 'english',
 'strip_accents': None,
 'sublinear_tf': False,
 'token_pattern': '(?u)\\b\\w\\w+\\b',
 'tokenizer': None,
 'use_idf': True,
 'vocabulary': None}