# NLP 자연어처리 : Vectorize 

In [52]:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer

In [53]:
corpus = [
          'you know I want your love',
          'I like you',
          'what should I do',
          'I hate you'
]

In [54]:
vector = CountVectorizer()
print(vector.fit_transform(corpus).toarray()) # 빈도수 기록
print(vector.vocabulary_)
# {'you': 7, 'know': 1, 'want': 5, 'your': 8, 'love': 3, 'like': 2, 'what': 6, 'should': 4, 'do': 0}
# value값은 인덱스 번호를 뜻한다 
# ex) 0번 인덱스는 do , do가 있는곳에는 1로 표시

[[0 0 1 0 1 0 1 0 1 1]
 [0 0 0 1 0 0 0 0 1 0]
 [1 0 0 0 0 1 0 1 0 0]
 [0 1 0 0 0 0 0 0 1 0]]
{'you': 8, 'know': 2, 'want': 6, 'your': 9, 'love': 4, 'like': 3, 'what': 7, 'should': 5, 'do': 0, 'hate': 1}


In [55]:
cv = CountVectorizer()

In [56]:
# 1. 사전을 만들어라!! -> fit()
# 2. 사전에 들어있는 id로 인코딩을 해라!! -> tranform()
# 3. 1,2를 함께 처리하고자 하는 경우는 -> fit_transform()

In [57]:
cv.fit_transform(corpus)

<4x10 sparse matrix of type '<class 'numpy.int64'>'
	with 12 stored elements in Compressed Sparse Row format>

In [58]:
cv.fit_transform(corpus).toarray()

array([[0, 0, 1, 0, 1, 0, 1, 0, 1, 1],
       [0, 0, 0, 1, 0, 0, 0, 0, 1, 0],
       [1, 0, 0, 0, 0, 1, 0, 1, 0, 0],
       [0, 1, 0, 0, 0, 0, 0, 0, 1, 0]])

In [60]:
cv.vocabulary_

{'do': 0,
 'hate': 1,
 'know': 2,
 'like': 3,
 'love': 4,
 'should': 5,
 'want': 6,
 'what': 7,
 'you': 8,
 'your': 9}

In [61]:
tfidf = TfidfVectorizer()

In [62]:
# fit --> transform

In [63]:
tfidf.fit_transform(corpus)

<4x10 sparse matrix of type '<class 'numpy.float64'>'
	with 12 stored elements in Compressed Sparse Row format>

In [64]:
tfidf.fit_transform(corpus).toarray()

array([[0.        , 0.        , 0.47633035, 0.        , 0.47633035,
        0.        , 0.47633035, 0.        , 0.30403549, 0.47633035],
       [0.        , 0.        , 0.        , 0.84292635, 0.        ,
        0.        , 0.        , 0.        , 0.53802897, 0.        ],
       [0.57735027, 0.        , 0.        , 0.        , 0.        ,
        0.57735027, 0.        , 0.57735027, 0.        , 0.        ],
       [0.        , 0.84292635, 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.53802897, 0.        ]])

In [65]:
print(tfidf.vocabulary_)

{'you': 8, 'know': 2, 'want': 6, 'your': 9, 'love': 4, 'like': 3, 'what': 7, 'should': 5, 'do': 0, 'hate': 1}


In [66]:
sentence = ['i like like like hate smile']

In [68]:
nd2array = cv.transform(sentence).toarray()
nd2array

array([[0, 1, 0, 3, 0, 0, 0, 0, 0, 0]])

In [69]:
nd2array[0]

array([0, 1, 0, 3, 0, 0, 0, 0, 0, 0])

In [70]:
nd2array = tfidf.transform(sentence).toarray()
nd2array

array([[0.        , 0.31622777, 0.        , 0.9486833 , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ]])

In [71]:
cv.inverse_transform(nd2array)

[array(['hate', 'like'], dtype='<U6')]

In [72]:
tfidf.inverse_transform(nd2array)

[array(['hate', 'like'], dtype='<U6')]

In [73]:
feature_list = cv.get_feature_names() # 사전에 무엇이 들어있는지 확인
feature_list



['do', 'hate', 'know', 'like', 'love', 'should', 'want', 'what', 'you', 'your']

In [74]:
# dic <--- list
dictionary = dict()
for index, value in enumerate(feature_list):
  dictionary[index] = value
dictionary

{0: 'do',
 1: 'hate',
 2: 'know',
 3: 'like',
 4: 'love',
 5: 'should',
 6: 'want',
 7: 'what',
 8: 'you',
 9: 'your'}

# 실습 : 스팸 사전
- 스팸을 나타내는 사전을 만들어주세요 (10개)
- 스팸이 아닌 사전을 만들어주세요 (10개)

In [115]:
spam_dict = ["advertise", "promotion", "sales", "hu", "special", "sale", "member", "company"]
ham_dict = ["order", "confirm", "check", "customer", "payment", "send", "general", "club"]

In [116]:
cv.fit(spam_dict)

CountVectorizer()

In [117]:
cv.vocabulary_

{'advertise': 0,
 'company': 1,
 'hu': 2,
 'member': 3,
 'promotion': 4,
 'sale': 5,
 'sales': 6,
 'special': 7}

In [118]:
# 광고!! 짱 좋은 판매 홍보전략입니다!! => 스팸입니다!!

In [119]:
email = ['promotion!! hu good sales sale!! check payment']

In [120]:
result1 = cv.transform(email).toarray()
result1

array([[0, 0, 1, 0, 1, 1, 1, 0]])

In [121]:
cv.fit(ham_dict)

CountVectorizer()

In [122]:
cv.vocabulary_

{'check': 0,
 'club': 1,
 'confirm': 2,
 'customer': 3,
 'general': 4,
 'order': 5,
 'payment': 6,
 'send': 7}

In [123]:
result2 = cv.transform(email).toarray()
result2

array([[1, 0, 0, 0, 0, 0, 1, 0]])

In [124]:
# result1의 0이 아닌 갯수의 합, result2의 0이 아닌 갯수의 합
result1_count = 0
result2_count = 0

In [125]:
list(result1)

[array([0, 0, 1, 0, 1, 1, 1, 0])]

In [126]:
for item in result1[0]:
  # print(item > 0)
  if (item != 0):
    result1_count = result1_count + 1

result1_count

4

In [127]:
for item in result2[0]:
  # print(item > 0)
  if (item != 0):
    result2_count = result2_count + 1

result2_count

2

- 한글버전

In [137]:
spam_dict2 = ["광고", "홍보", "판매", "허경영", "특가", "세일","회원", "회사"]
ham_dict2 = ["주문", "확인", "검토", "고객", "결제", "배송", "일반", "동호회"]

In [138]:
cv2 = CountVectorizer()

In [139]:
cv2.fit(spam_dict2)

CountVectorizer()

In [140]:
email2 = ['광고!! 허경영 good 세일 확인 지불']

In [141]:
result3 = cv2.transform(email2).toarray()
result3

array([[1, 1, 0, 0, 1, 0, 0, 0]])

In [142]:
cv2.fit(ham_dict2)

CountVectorizer()

In [143]:
result4 = cv2.transform(email2).toarray()
result4

array([[0, 0, 0, 0, 0, 0, 0, 1]])

In [144]:
# result3의 0이 아닌 갯수의 합, result4의 0이 아닌 갯수의 합
result3_count = 0
result4_count = 0

In [145]:
for item in result3[0]:
  # print(item > 0)
  if (item != 0):
    result3_count = result3_count + 1

for item in result4[0]:
  if (item != 0):
    result4_count = result4_count + 1

print(result3_count)
print(result4_count)

3
1


# 실습 : 감정분류기
- 긍정/부정 사전을 만들어보세요.
- input()이용해서, 문장을 받으면, 긍정인지 부정인지 판단해보세요
- if-idf vectorizer를 사용해주세요

In [167]:
yes = ["좋다", "기쁘다", "즐겁다", "뿌듯하다", "만족하다", "반갑다", "행복하다", "개운하다", "황홀하다", "사랑스럽다"]
no = ["싫다", "나쁘다", "슬프다", "힘들다", "불편하다", "불쾌하다", "우울하다", "무섭다", "최악이다", "부담스럽다"]

In [168]:
emotions = [input()]

좋다 싫다 기쁘다 나쁘다 


In [169]:
cv3 = CountVectorizer()

In [170]:
cv3.fit(yes)

CountVectorizer()

In [171]:
yesyes = cv3.transform(emotions).toarray()
yesyes

array([[0, 1, 0, 0, 0, 0, 1, 0, 0, 0]])

In [172]:
cv3.fit(no)

CountVectorizer()

In [173]:
nono = cv3.transform(emotions).toarray()
nono

array([[1, 0, 0, 0, 0, 0, 1, 0, 0, 0]])

In [174]:
yes_count = 0
no_count = 0

In [175]:
# [i for i in yesyes[0] if i != 0]

In [176]:
for item in yesyes[0]:
  # print(item > 0)
  if (item != 0):
    yes_count = yes_count + 1

for item in nono[0]:
  if (item != 0):
    no_count = no_count + 1

print(yes_count)
print(no_count)

2
2
