### TextBlob 
- 익숙한 인터페이스를 통해 일반적인 텍스트 처리 작업에 대한 액세스를 제공
- TextBlob 객체를 자연어 처리를 수행하는 방법을 학습 한 Python 문자열 인 것처럼 처리 할 수 있다.

In [3]:
#!pip install textblob

In [4]:
from textblob import TextBlob as tb
import nltk
import pandas as pd

In [5]:
txt1=tb('맥주가 좋았습니다.')
txt2=tb('Beer was good.')

In [6]:
#### TextBlob를 이용한 언어 확인
print('txt1 : ', txt1.detect_language())
print('txt2 : ', txt2.detect_language())

txt1 :  ko
txt2 :  en


In [7]:
#### TextBlob를 이용한 언어 번역
print(txt1.translate(to='en'))
print(txt2.translate(to='ja'))

Beer was good.
ビールは良かった。


### 영어 문자 감정(긍부정) 분류
- 긍정 및 부정 문장을 먼저 학습하고 이후 데이터에 대하여 긍부정 분석
- 학습 세트 / 테스트 세트
- 참조: https://excelsior-cjh.tistory.com/45

In [8]:
from textblob.classifiers import NaiveBayesClassifier

In [9]:
## 학습세트 제작
train = [('I love this sandwich.', 'pos'),
         ('This is an amazing place!', 'pos'),
         ('I feel very good about these beers.', 'pos'),
         ('This is my best work.', 'pos'),
         ("What an awesome view", 'pos'),
         ('I do not like this restaurant', 'neg'),
         ('I am tired of this stuff.', 'neg'),
         ("I can't deal with this", 'neg'),
         ('He is my sworn enemy!', 'neg'),
         ('My boss is horrible.', 'neg')]

In [10]:
## 테스트 세트
test = [('The beer was good.', 'pos'),
        ('I do not enjoy my job', 'neg'),
        ("I ain't feeling dandy today.", 'neg'),
        ("I feel amazing!", 'pos'),
        ('Gary is a friend of mine.', 'pos'),
        ("I can't believe I'm doing this.", 'neg')]

In [13]:
### NaiveBayesClassifier 개체에 학습 데이터를 입력하고 긍정(pos)/부정(neg) 모델 생성
pos_neg=NaiveBayesClassifier(train)
pos_neg

<NaiveBayesClassifier trained on 10 instances>

In [15]:
print(pos_neg.classify("The beer was good."))
print(pos_neg.classify("I do not enjoy my job"))
print(pos_neg.classify("Their burgers are amazing"))
print(pos_neg.classify("I don't like their pizza."))

pos
neg
pos
neg


In [16]:
# TextBlob 객체를 사용하여 여러 문장으로 구성된 텍스트도 분류
tag2 = tb("The beer was amazing. But the hangover was horrible. My boss was not happy.",
         classifier=pos_neg)
print(tag2.classify())

neg


In [17]:
### tag2 입력한 문장을 분리해 긍정/부정 확인
for sen in tag2.sentences:
    print(sen,"/", sen.classify())

The beer was amazing. / pos
But the hangover was horrible. / neg
My boss was not happy. / neg


In [18]:
# 테스트 데이터를 이용해 전체 긍정/부정 테스트해 결과 확인
test_acc=pos_neg.accuracy(test)
print(test_acc)

0.8333333333333334


In [23]:
# show_informative_features를 실행하여 분류기가 어떤 기준으로 분류하는지 확인
print(pos_neg.show_informative_features())

Most Informative Features
          contains(this) = True              neg : pos    =      2.3 : 1.0
          contains(this) = False             pos : neg    =      1.8 : 1.0
          contains(This) = False             neg : pos    =      1.6 : 1.0
            contains(an) = False             neg : pos    =      1.6 : 1.0
             contains(I) = False             pos : neg    =      1.4 : 1.0
             contains(I) = True              neg : pos    =      1.4 : 1.0
            contains(He) = False             pos : neg    =      1.2 : 1.0
            contains(My) = False             pos : neg    =      1.2 : 1.0
          contains(What) = False             neg : pos    =      1.2 : 1.0
         contains(about) = False             neg : pos    =      1.2 : 1.0
None
