### 원핫 인코딩 직접 구현

In [46]:
corpus = 'you know I want your love. because I love you.'

In [74]:
# TreebankWordTokenizer 를 통해서 토큰화
from nltk.tokenize import word_tokenize
token = word_tokenize(corpus)

In [75]:
# 어휘사전 (vocabulary) 생성
word2index={}
for voca in token:
    if voca not in word2index.keys():
        word2index[voca]=len(word2index)
print(word2index)

{'you': 0, 'know': 1, 'I': 2, 'want': 3, 'your': 4, 'love': 5, '.': 6, 'because': 7}


In [76]:
# one-out-encoding 구현 함수
def one_hot_encoding(word, word2index):
    one_hot_vector = [0]*(len(word2index)) # 0 으로 초기화된 배열을 만듬
    index=word2index[word] # 어휘사전에서 인덱스를 반환받아
    one_hot_vector[index]=1 # 해당 인덱스에 1로 업데이트
    return one_hot_vector

In [77]:
one_hot_encoding("want",word2index)

[0, 0, 0, 1, 0, 0, 0, 0]

### scikit-learn 라이브러리를 이용한 구현

In [78]:
from sklearn.preprocessing import OneHotEncoder
import pandas as pd

In [79]:
df = pd.DataFrame(token)

In [80]:
ohe = OneHotEncoder(sparse=False)
vect = ohe.fit_transform(df)

In [81]:
vect

array([[0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1.],
       [0., 0., 0., 0., 1., 0., 0., 0.],
       [1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0.],
       [1., 0., 0., 0., 0., 0., 0., 0.]])

In [82]:
ohe.get_feature_names()

array(['x0_.', 'x0_I', 'x0_because', 'x0_know', 'x0_love', 'x0_want',
       'x0_you', 'x0_your'], dtype=object)

### Bag of words 직접 구현

In [83]:
word2index={} 
bow=[]  
for voca in token:  
    if voca not in word2index.keys():  
        word2index[voca]=len(word2index)    
        bow.insert(len(word2index)-1,1)
    else:
        index=word2index.get(voca)
        bow[index]=bow[index]+1 
print(word2index)  

{'you': 0, 'know': 1, 'I': 2, 'want': 3, 'your': 4, 'love': 5, '.': 6, 'because': 7}


In [85]:
bow

[2, 1, 2, 1, 1, 2, 2, 1]

### scikit-learn 라이브러리를 이용한 구현

In [99]:
from sklearn.feature_extraction.text import CountVectorizer
#vect = CountVectorizer(tokenizer = word_tokenize) # tokenizer 선택
vect = CountVectorizer()
vect.fit([corpus])

CountVectorizer(analyzer='word', binary=False, decode_error='strict',
                dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
                lowercase=True, max_df=1.0, max_features=None, min_df=1,
                ngram_range=(1, 1), preprocessor=None, stop_words=None,
                strip_accents=None, token_pattern='(?u)\\b\\w\\w+\\b',
                tokenizer=None, vocabulary=None)

In [122]:
print("어휘 사전의 크기: {}".format(len(vect.vocabulary_)))
print("어휘 사전의 내용:\n {}".format(vect.vocabulary_)) # dictionary

어휘 사전의 크기: 24
어휘 사전의 내용:
 {'you': 20, 'know': 13, 'want': 18, 'your': 22, 'love': 15, 'you know': 21, 'know want': 14, 'want your': 19, 'your love': 23, 'because': 2, 'because love': 3, 'love you': 16, 'family': 5, 'is': 9, 'an': 0, 'important': 7, 'thing': 17, 'family is': 6, 'is an': 10, 'an important': 1, 'important thing': 8, 'it': 11, 'everything': 4, 'it everything': 12}


In [101]:
bag_of_words = vect.transform([corpus])

In [102]:
print(bag_of_words)

  (0, 0)	1
  (0, 1)	1
  (0, 2)	2
  (0, 3)	1
  (0, 4)	2
  (0, 5)	1


In [104]:
# DTM 구현

In [105]:
corpus = ["you know I want your love.", "because I love you.", "Family is an important thing.","It's everything."]

In [115]:
vect.fit(corpus)
print("어휘 사전의 내용:\n {}".format(vect.vocabulary_))

어휘 사전의 내용:
 {'you': 11, 'know': 7, 'want': 10, 'your': 12, 'love': 8, 'because': 1, 'family': 3, 'is': 5, 'an': 0, 'important': 4, 'thing': 9, 'it': 6, 'everything': 2}


In [116]:
bag_of_words = vect.transform(corpus)
print(bag_of_words)

  (0, 7)	1
  (0, 8)	1
  (0, 10)	1
  (0, 11)	1
  (0, 12)	1
  (1, 1)	1
  (1, 8)	1
  (1, 11)	1
  (2, 0)	1
  (2, 3)	1
  (2, 4)	1
  (2, 5)	1
  (2, 9)	1
  (3, 2)	1
  (3, 6)	1


### n-gram 구현

In [120]:
vect = CountVectorizer(ngram_range=(1, 2)).fit(corpus)
print("어휘 사전 크기: {}".format(len(cv.vocabulary_)))
print("어휘 사전:\n{}".format(cv.get_feature_names()))

어휘 사전 크기: 24
어휘 사전:
['an', 'an important', 'because', 'because love', 'everything', 'family', 'family is', 'important', 'important thing', 'is', 'is an', 'it', 'it everything', 'know', 'know want', 'love', 'love you', 'thing', 'want', 'want your', 'you', 'you know', 'your', 'your love']


In [121]:
bag_of_words = vect.transform(corpus)
print(bag_of_words)

  (0, 13)	1
  (0, 14)	1
  (0, 15)	1
  (0, 18)	1
  (0, 19)	1
  (0, 20)	1
  (0, 21)	1
  (0, 22)	1
  (0, 23)	1
  (1, 2)	1
  (1, 3)	1
  (1, 15)	1
  (1, 16)	1
  (1, 20)	1
  (2, 0)	1
  (2, 1)	1
  (2, 5)	1
  (2, 6)	1
  (2, 7)	1
  (2, 8)	1
  (2, 9)	1
  (2, 10)	1
  (2, 17)	1
  (3, 4)	1
  (3, 11)	1
  (3, 12)	1
