In [1]:
from textblob import TextBlob

In [2]:
wiki = TextBlob("기업 개인 포스트 코로나 준비하자 투자 전략 담은 도서 인기 이어질 것")
wiki.translate(to='en')

TextBlob("Corporate personal post Let's prepare for Corona, books containing investment strategies will continue to be popular")

In [3]:
from textblob.classifiers import NaiveBayesClassifier

train = [
    ('I love this sandwich.', 'pos'),
    ('This is an amazing place!', 'pos'),
    ('I feel very good about these beers.', 'pos'),
    ('This is my best work.', 'pos'),
    ("What an awesome view", 'pos'),
    ('I do not like this restaurant', 'neg'),
    ('I am tired of this stuff.', 'neg'),
    ("I can't deal with this", 'neg'),
    ('He is my sworn enemy!', 'neg'),
    ('My boss is horrible.', 'neg')
]
test = [
    ('The beer was good.', 'pos'),
    ('I do not enjoy my job', 'neg'),
    ("I ain't feeling dandy today.", 'neg'),
    ("I feel amazing!", 'pos'),
    ('Gary is a friend of mine.', 'pos'),
    ("I can't believe I'm doing this.", 'neg')
]

In [6]:
import nltk
nltk.download('punkt')
cl = NaiveBayesClassifier(train)

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\ym\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [7]:
cl.classify("Their burgers are amazing")  # "pos"
cl.classify("I don't like their pizza.")  # "neg"

'neg'

In [8]:
from textblob import TextBlob
blob = TextBlob("The beer was amazing. "
                "But the hangover was horrible. My boss was not happy.",
                classifier=cl)
blob.classify()  # "neg"   

'neg'

In [9]:
for sentence in blob.sentences:
    print(sentence)
    print(sentence.classify())
# "pos", "neg", "neg"

The beer was amazing.
pos
But the hangover was horrible.
neg
My boss was not happy.
neg


In [10]:
cl.accuracy(test)
# 0.8333333333333334

0.8333333333333334

In [11]:
cl.show_informative_features(5)

Most Informative Features
          contains(this) = True              neg : pos    =      2.3 : 1.0
          contains(this) = False             pos : neg    =      1.8 : 1.0
          contains(This) = False             neg : pos    =      1.6 : 1.0
            contains(an) = False             neg : pos    =      1.6 : 1.0
             contains(I) = False             pos : neg    =      1.4 : 1.0


In [13]:
from eunjeon import Mecab 
mecab = Mecab() 
mecab.pos("품사 태깅을 지원합니다") 
mecab.morphs("형태소 분리를 지원합니다") 
mecab.nouns("명사에 해당하는 형태소만 추출합니다")




['명사', '해당', '형태소', '추출']

In [14]:
pos_tagger = Mecab()

train = [
    ('나는 이 샌드위치를 정말 좋아해.', '긍정'),
    ('정말 멋진 곳이에요!', '긍정'),
    ('나는 이 맥주들이 아주 좋다고 생각해요.', '긍정'),
    ('이것은 나의 최고의 작품입니다.', '긍정'),
    ("정말 멋진 광경이다", "긍정"),
    ('난 이 식당 싫어', '부정'),
    ('난 이게 지겨워.', '부정'),
    ("이 문제는 처리할 수 없습니다.", "부정"),
    ('그는 나의 불구대천의 원수이다.', '부정'),
    ('내 상사는 끔찍해.', '부정')
]

test = [
    ('맥주가 좋았습니다.', '긍정'),
    ('난 내 일을 즐기지 않는다', '부정'),
    ('오늘은 기분이 안 좋아요.', '부정'),
    ('놀라워요!', '긍정'),
    ('네드는 나의 친구입니다.', '긍정'),
    ('제가 이렇게 하고 있다니 믿을 수가 없어요.', '부정')
]

In [15]:
cl = NaiveBayesClassifier(train);
cl.show_informative_features()

Most Informative Features
            contains(정말) = False              부정 : 긍정     =      2.2 : 1.0
            contains(나는) = False              부정 : 긍정     =      1.6 : 1.0
             contains(난) = False              긍정 : 부정     =      1.6 : 1.0
            contains(멋진) = False              부정 : 긍정     =      1.6 : 1.0
          contains(곳이에요) = False              부정 : 긍정     =      1.2 : 1.0
          contains(광경이다) = False              부정 : 긍정     =      1.2 : 1.0
            contains(그는) = False              긍정 : 부정     =      1.2 : 1.0
           contains(끔찍해) = False              긍정 : 부정     =      1.2 : 1.0
             contains(내) = False              긍정 : 부정     =      1.2 : 1.0
          contains(맥주들이) = False              부정 : 긍정     =      1.2 : 1.0


In [17]:
cl.accuracy(test)

0.5

In [18]:
train_data = [(['/'.join(token) for token in pos_tagger.pos(sentence)], result) for [sentence, result] in train]
train_data

[(['나/NP',
   '는/JX',
   '이/MM',
   '샌드위치/NNG',
   '를/JKO',
   '정말/MAG',
   '좋/VA',
   '아/EC',
   '해/VX+EF',
   './SF'],
  '긍정'),
 (['정말/MAG', '멋진/VA+ETM', '곳/NNG', '이/VCP', '에요/EF', '!/SF'], '긍정'),
 (['나/NP',
   '는/JX',
   '이/MM',
   '맥주/NNG',
   '들/XSN',
   '이/JKS',
   '아주/MAG',
   '좋/VA',
   '다고/EC',
   '생각/NNG',
   '해요/XSV+EF',
   './SF'],
  '긍정'),
 (['이것/NP',
   '은/JX',
   '나/NP',
   '의/JKG',
   '최고/NNG',
   '의/JKG',
   '작품/NNG',
   '입니다/VCP+EF',
   './SF'],
  '긍정'),
 (['정말/MAG', '멋진/VA+ETM', '광경/NNG', '이/VCP', '다/EC'], '긍정'),
 (['난/NP+JX', '이/MM', '식당/NNG', '싫/VA', '어/EC'], '부정'),
 (['난/NP+JX', '이게/NP+JKS', '지겨워/VA+EF', './SF'], '부정'),
 (['이/MM',
   '문제/NNG',
   '는/JX',
   '처리/NNG',
   '할/XSV+ETM',
   '수/NNB',
   '없/VA',
   '습니다/EF',
   './SF'],
  '부정'),
 (['그/NP',
   '는/JX',
   '나/NP',
   '의/JKG',
   '불구대천/NNG',
   '의/JKG',
   '원수/NNG',
   '이/VCP',
   '다/EF',
   './SF'],
  '부정'),
 (['내/NP+JKG', '상사/NNG', '는/JX', '끔찍/XR', '해/XSA+EF', './SF'], '부정')]

In [19]:
test_data = [(['/'.join(token) for token in pos_tagger.pos(sentence)], result) for [sentence, result] in test]

cl.accuracy(test_data)

0.5

In [20]:
cl.show_informative_features()

Most Informative Features
            contains(정말) = False              부정 : 긍정     =      2.2 : 1.0
            contains(나는) = False              부정 : 긍정     =      1.6 : 1.0
             contains(난) = False              긍정 : 부정     =      1.6 : 1.0
            contains(멋진) = False              부정 : 긍정     =      1.6 : 1.0
          contains(곳이에요) = False              부정 : 긍정     =      1.2 : 1.0
          contains(광경이다) = False              부정 : 긍정     =      1.2 : 1.0
            contains(그는) = False              긍정 : 부정     =      1.2 : 1.0
           contains(끔찍해) = False              긍정 : 부정     =      1.2 : 1.0
             contains(내) = False              긍정 : 부정     =      1.2 : 1.0
          contains(맥주들이) = False              부정 : 긍정     =      1.2 : 1.0


In [21]:
from steem import Steem 
from steem.blog import Blog

# 스팀잇에서 작성한 글 10개 가져오기
username = 'anpigon'
b = Blog(username)
posts = b.take(10)

for post in posts:
  if post.body != "":
    author = post.author
    permlink = post.permlink
    title = post.title
    body = post.body.replace('\n', '')
    
    # 분류기로 분류하기
    result = cl.classify(['/'.join(token) for token in pos_tagger.pos(body)])
    print("(%s) %s(/@%s/%s)" % (result, title, author, permlink));

ModuleNotFoundError: No module named 'steem'