In [3]:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer

In [4]:
corpus = [
    'you know I want your love',
    'I like you',
    'what should I do ',    
]
# 3개의 댓글

In [5]:
cv=CountVectorizer()
tfidf=TfidfVectorizer()

In [6]:
print(cv.fit_transform(corpus).toarray()) 
# DTM(Document Term Matrix) - 문서 단어 행렬

[[0 1 0 1 0 1 0 1 1]
 [0 0 1 0 0 0 0 1 0]
 [1 0 0 0 1 0 1 0 0]]


In [7]:
print(cv.vocabulary_) #사전의 인덱스와 이름을 확인 가능, 알파벳순 0~8

{'you': 7, 'know': 1, 'want': 5, 'your': 8, 'love': 3, 'like': 2, 'what': 6, 'should': 4, 'do': 0}


In [8]:
print(tfidf.fit_transform(corpus).toarray()) # 로그값을 적용

[[0.         0.46735098 0.         0.46735098 0.         0.46735098
  0.         0.35543247 0.46735098]
 [0.         0.         0.79596054 0.         0.         0.
  0.         0.60534851 0.        ]
 [0.57735027 0.         0.         0.         0.57735027 0.
  0.57735027 0.         0.        ]]


In [9]:
print(tfidf.vocabulary_)

{'you': 7, 'know': 1, 'want': 5, 'your': 8, 'love': 3, 'like': 2, 'what': 6, 'should': 4, 'do': 0}


In [10]:
## transform 결과를 역으로 추출
cv.inverse_transform(cv.fit_transform(corpus).toarray())

[array(['know', 'love', 'want', 'you', 'your'], dtype='<U6'),
 array(['like', 'you'], dtype='<U6'),
 array(['do', 'should', 'what'], dtype='<U6')]

In [11]:
cv.get_feature_names() # 인덱스 순서대로 출력

['do', 'know', 'like', 'love', 'should', 'want', 'what', 'you', 'your']

In [12]:
for i, value in enumerate(cv.get_feature_names()):
    print(i, ":", value)

0 : do
1 : know
2 : like
3 : love
4 : should
5 : want
6 : what
7 : you
8 : your


In [13]:
# 새로운 문장을 넣어서 어떤 단어들이 들어갔는지 판단
sentence=['i like like smile want']

In [14]:
cv.transform(sentence).toarray() # 학습시킨 cv를 사용해, 나온 단어의 빈도수 분석

array([[0, 0, 2, 0, 0, 1, 0, 0, 0]], dtype=int64)

In [15]:
# 스팸메일, 햄메일 판단

In [16]:
ham_dict=['order','confirm','check','customer','payment','send','general','club']
spam_dict=['advertise','promotion','sales','hu','special','member','company']

In [17]:
print(cv.fit_transform(spam_dict).toarray()) 

[[1 0 0 0 0 0 0]
 [0 0 0 0 1 0 0]
 [0 0 0 0 0 1 0]
 [0 0 1 0 0 0 0]
 [0 0 0 0 0 0 1]
 [0 0 0 1 0 0 0]
 [0 1 0 0 0 0 0]]


In [18]:
cv.inverse_transform(cv.fit_transform(spam_dict).toarray())

[array(['advertise'], dtype='<U9'),
 array(['promotion'], dtype='<U9'),
 array(['sales'], dtype='<U9'),
 array(['hu'], dtype='<U9'),
 array(['special'], dtype='<U9'),
 array(['member'], dtype='<U9'),
 array(['company'], dtype='<U9')]

In [19]:
print(cv.vocabulary_)

{'advertise': 0, 'promotion': 4, 'sales': 5, 'hu': 2, 'special': 6, 'member': 3, 'company': 1}


In [20]:
spam_count=cv.transform(['Our company will invites you as a special member. Please check']).toarray().sum()

In [21]:
cv.fit_transform(ham_dict).toarray()
ham_count=cv.transform(['Our company will invites you as a special member. Please check']).toarray().sum()

In [22]:
spam_count, ham_count

(3, 1)

In [23]:
tfidf.fit_transform(spam_dict).toarray()
spam_count=tfidf.transform(['Our company will invites you as a special member. Please check']).toarray().sum()
tfidf.fit_transform(ham_dict).toarray()
ham_count=tfidf.transform(['Our company will invites you as a special member. Please check']).toarray().sum()

if(ham_count>spam_count):
    print('햄 메일입니다.')
else:
    print('스팸 메일입니다.')


스팸 메일입니다.


In [24]:
# 한글로 사전 만들고, 다음 문자열이 스팸인지 아닌지 판단
email2=['광고!! 허경영 good 세일 확인 지불']
ham_korean_dict=['주문', '승인', '확인', '고객', '지불']
spam_korean_dict=['광고', '세일', '허경영']

In [25]:
cv.fit_transform(ham_korean_dict).toarray()

array([[0, 0, 1, 0, 0],
       [0, 1, 0, 0, 0],
       [0, 0, 0, 0, 1],
       [1, 0, 0, 0, 0],
       [0, 0, 0, 1, 0]], dtype=int64)

In [26]:
for i, value in enumerate(cv.get_feature_names()):
    print(i, ":", value)

0 : 고객
1 : 승인
2 : 주문
3 : 지불
4 : 확인


In [27]:
ham_korean_count=cv.transform(email2).toarray().sum()
ham_korean_count

2

In [28]:
cv.fit_transform(spam_korean_dict).toarray()

array([[1, 0, 0],
       [0, 1, 0],
       [0, 0, 1]], dtype=int64)

In [29]:
for i, value in enumerate(cv.get_feature_names()):
    print(i, ":", value)

0 : 광고
1 : 세일
2 : 허경영


In [30]:
spam_korean_count=cv.transform(email2).toarray().sum()
spam_korean_count

3

In [31]:
print('수신한 메일 >>', email2)
if(ham_korean_count>spam_korean_count):
    print('햄 메일입니다.')
else:
    print('스팸 메일입니다.')

수신한 메일 >> ['광고!! 허경영 good 세일 확인 지불']
스팸 메일입니다.


In [32]:
# 감정 분류기, 긍정 부정 사전, input()을 이용해서 문장을 입력 받으면, 긍정인지 부정인지 판단해보세요.

In [33]:
positive_dict=['행복', '웃음', '즐겁', '즐거운', '좋은']
negative_dict=['우울', '분노', '별로', '피곤']

In [48]:
def feeling():
    feel=[input('문장을 입력해주세요 >> ')]
    
    cv.fit_transform(positive_dict).toarray()
    positive_count=cv.transform(feel).toarray().sum()
    cv.fit_transform(negative_dict).toarray()
    negative_count=cv.transform(feel).toarray().sum()

    if(negative_count>positive_count):
        print('부정적인 감정의 문장입니다.')
    else:
        print('긍정적인 감정의 문장입니다.')


In [49]:
feeling()

문장을 입력해주세요 >> 좋은 날이네요. 저는 행복합니다.
긍정적인 감정의 문장입니다.


In [50]:
feeling()

문장을 입력해주세요 >> 오늘은 별로 즐겁지 않네요. 조금 피곤합니다.
부정적인 감정의 문장입니다.
