### Bag of Words

##### 1.CountVectorizer

In [1]:
text = 'My wife likes to watch baseball games and my daughter likes to watch baseball games too'

In [2]:
from sklearn.feature_extraction.text import CountVectorizer 
# CountVectorizer는 각 문서에 어떤 단어가 몇 번 등장했는지를 파악할 때 사용합니다. 단어를 세서(count) 문서를 벡터화(vectorize)한다는 의미
cvect = CountVectorizer()
output = cvect.fit_transform([text])
output.toarray() # 출력된 배열은 텍스트에 등장하는 각 단어의 등장 횟수

array([[1, 2, 1, 2, 2, 2, 2, 1, 2, 1]], dtype=int64)

In [3]:
# end가 0으로 1번 들었다고 위에서 볼수있음.... 위 어레이의(가방속) 인덱스번호를 알려준것
cvect.vocabulary_

{'my': 5,
 'wife': 9,
 'likes': 4,
 'to': 6,
 'watch': 8,
 'baseball': 1,
 'games': 3,
 'and': 0,
 'daughter': 2,
 'too': 7}

In [None]:
# cvect.vocabulary_는 CountVectorizer 객체가 학습한 어휘 사전을 반환하는 속성입니다. 
# 어휘 사전은 단어를 키(key)로 가지고, 해당 단어의 인덱스를 값(value)으로 가지는 딕셔너리 형태
# 이 속성을 사용하면 CountVectorizer 객체가 어떤 단어들을 어떤 인덱스에 할당했는지 확인할 수 있습니다. 
# 이를 통해 각 단어에 대한 고유한 식별자를 얻을 수 있으며, 이는 피처 벡터의 인덱스와도 대응됩니다.
# 따라서 'my': 5 => 인덱스5 ,'and': 0 => 인덱스0
# 위 array에서 대응할수있는것임 
# 위 array에서 0번 인덱스는 end인거고 1번 등장했다는 의미

- 불용어(Stopwords)처리
    -  예를 들면 "the", "and", "to" 등이 영어에서 자주 사용되는 불용어입니다. 

In [4]:
# 직접 지정 
my_stopwords = ['to','and','my']
cvect = CountVectorizer(stop_words=my_stopwords)
print(cvect.fit_transform([text]).toarray())
print(cvect.vocabulary_)
# 출력된 배열은 텍스트에 등장하는 각 단어의 등장 횟수
# cvect.vocabulary_를 출력하면 각 단어가 어휘 사전에서 어떤 인덱스를 가지는지 확인할 수 있습니다. 
# 이를 통해 각 단어가 벡터 표현에서 어떤 위치에 해당하는지 알 수 있습니다

[[2 1 2 2 1 2 1]]
{'wife': 6, 'likes': 3, 'watch': 5, 'baseball': 0, 'games': 2, 'daughter': 1, 'too': 4}


In [5]:
# Scikit-Learn에서 제공하는 불용어 사용
cvect = CountVectorizer(stop_words='english')
print(cvect.fit_transform([text]).toarray())
print(cvect.vocabulary_)

[[2 1 2 2 2 1]]
{'wife': 5, 'likes': 3, 'watch': 4, 'baseball': 0, 'games': 2, 'daughter': 1}


In [6]:
# NLTK 에서 제공하는 불용어 사용
from nltk.corpus import stopwords 
sw = stopwords.words('english')
cvect = CountVectorizer(stop_words=sw)
print(cvect.fit_transform([text]).toarray())
print(cvect.vocabulary_)

[[2 1 2 2 2 1]]
{'wife': 5, 'likes': 3, 'watch': 4, 'baseball': 0, 'games': 2, 'daughter': 1}


- 인덱스에 해당하는 단어를 알려주는 함수

In [7]:
voca = cvect.vocabulary_ # 딕셔너리
for key, value in voca.items():
    print(key,value)

wife 5
likes 3
watch 4
baseball 0
games 2
daughter 1


In [8]:
def get_word(index, voca):
    for key, value in voca.items():
        if value == index:
            return key 
        
get_word(4, cvect.vocabulary_) # 4번 위치 인덱스에 있는 단어는 뭐야

'watch'

##### 2. TFIDF(Term Frequency - Inverse Document Frequency)
- TF-IDF는 특정 문서에서의 단어의 상대적인 빈도와 전체 문서에서의 단어의 빈도에 따라 가중치를 계산합니다. 
- 따라서 TF-IDF로 벡터화된 결과는 각 단어의 중요도를 나타내는 값으로 해석

In [9]:
text = ['My wife likes to watch baseball games and my daughter likes to watch baseball games too.',
        'My wife likes to play baseball.']

In [10]:
from sklearn.feature_extraction.text import TfidfVectorizer 
tvect = TfidfVectorizer(stop_words='english')
tvect.fit_transform(text).toarray()
# 첫번째 문장에서는 가방 안에 단어를 몇 번 사용했는가 알려줌 = toarray()

array([[0.38649245, 0.27160082, 0.54320165, 0.38649245, 0.        ,
        0.54320165, 0.19324622],
       [0.44832087, 0.        , 0.        , 0.44832087, 0.63009934,
        0.        , 0.44832087]])

In [11]:
print(tvect.vocabulary_)

{'wife': 6, 'likes': 3, 'watch': 5, 'baseball': 0, 'games': 2, 'daughter': 1, 'play': 4}


In [12]:
cvect = CountVectorizer(stop_words='english')
print(cvect.fit_transform(text).toarray())
print(cvect.vocabulary_)

[[2 1 2 2 0 2 1]
 [1 0 0 1 1 0 1]]
{'wife': 6, 'likes': 3, 'watch': 5, 'baseball': 0, 'games': 2, 'daughter': 1, 'play': 4}


##### 3.N-gram

In [14]:
text = ['I work at google.', 'I goole at work.']
cvect = CountVectorizer()
print(cvect.fit_transform(text).toarray())
print(cvect.vocabulary_)

[[1 1 0 1]
 [1 0 1 1]]
{'work': 3, 'at': 0, 'google': 1, 'goole': 2}


In [15]:
cvect = CountVectorizer(ngram_range=(1,2))  # 단어의 순서를 알려준다... 바이그램 / 단점은 단어의 개수가 많이 늘어남
print(cvect.fit_transform(text).toarray())
print(cvect.vocabulary_)

[[1 1 0 1 0 0 1 1]
 [1 0 1 0 1 1 1 0]]
{'work': 6, 'at': 0, 'google': 3, 'work at': 7, 'at google': 1, 'goole': 4, 'goole at': 5, 'at work': 2}


##### 4. Hyper Parameter

In [16]:
cvect.get_params()

{'analyzer': 'word',
 'binary': False,
 'decode_error': 'strict',
 'dtype': numpy.int64,
 'encoding': 'utf-8',
 'input': 'content',
 'lowercase': True,
 'max_df': 1.0,
 'max_features': None,
 'min_df': 1,
 'ngram_range': (1, 2),
 'preprocessor': None,
 'stop_words': None,
 'strip_accents': None,
 'token_pattern': '(?u)\\b\\w\\w+\\b',
 'tokenizer': None,
 'vocabulary': None}

In [17]:
tvect.get_params()

{'analyzer': 'word',
 'binary': False,
 'decode_error': 'strict',
 'dtype': numpy.float64,
 'encoding': 'utf-8',
 'input': 'content',
 'lowercase': True,
 'max_df': 1.0,
 'max_features': None,
 'min_df': 1,
 'ngram_range': (1, 1),
 'norm': 'l2',
 'preprocessor': None,
 'smooth_idf': True,
 'stop_words': 'english',
 'strip_accents': None,
 'sublinear_tf': False,
 'token_pattern': '(?u)\\b\\w\\w+\\b',
 'tokenizer': None,
 'use_idf': True,
 'vocabulary': None}