### TextBlob 라이브러리
- 익숙한 인터페이스를 통해 일반적인 텍스트 처리 작업에 대한 액세스를 제공
- TextBlob 객체를 자연어 처리를 수행하는 방법을 학습 한 Python 문자열 인 것처럼 처리 할 수 있다.
- 참조: https://textblob.readthedocs.io/en/latest/quickstart.html#translation-and-language-detection

In [None]:
from textblob import TextBlob as tb
import nltk
import pandas as pd
import numpy as np

In [None]:
txt1=tb('맥주가 좋았습니다.')
txt2=tb('Beer was good.')

In [None]:
#### TextBlob를 이용한 언어 확인
print('txt1 : ', txt1.detect_language())
print('txt2 : ', txt2.detect_language())

In [None]:
#### TextBlob를 이용한 언어 번역
print(txt1.translate(to='en'))
print(txt2.translate(to='ja'))
print(txt2.translate(to='ko'))

In [None]:
nltk.download("punkt")

### 텍스트 감정 분류기 만들기
- 학습 데이터(train): 문장과 긍정/부정
- 학습데이터를 이용해 학습하고 문자의 긍정/부정을 분류

In [None]:
from textblob.classifiers import NaiveBayesClassifier

# 학습 데이터 세트
train = [('I love this sandwich.', 'pos'), 
        ('This is an amazing place!', 'pos'), 
        ('I feel very good about these beers.', 'pos'), 
        ('This is my best work.', 'pos'), 
        ("What an awesome view", 'pos'), 
        ('I do not like this restaurant', 'neg'), 
        ('I am tired of this stuff.', 'neg'), 
        ("I can't deal with this", 'neg'), 
        ('He is my sworn enemy!', 'neg'), 
        ('My boss is horrible.', 'neg')]

In [None]:
## 테스트 세트
test = [('The beer was good.', 'pos'),
        ('I do not enjoy my job', 'neg'),
        ("I ain't feeling dandy today.", 'neg'),
        ("I feel amazing!", 'pos'),
        ('Gary is a friend of mine.', 'pos'),
        ("I can't believe I'm doing this.", 'neg')]

In [None]:
### NaiveBayesClassifier 개체에 학습 데이터를 입력하고 긍정(pos)/부정(neg) 모델 생성
pos_neg=NaiveBayesClassifier(train)
pos_neg

In [None]:
pos_neg.classify("I ain't feeling dandy today")

In [None]:
PosNeg_lst =[]

for w in test:
    clsss=pos_neg.classify(w[0])
    PosNeg_lst.append((w[-1], clsss))

pd.DataFrame(PosNeg_lst, columns=['예측', '정답'])

In [None]:
# 정확도: 예측이 맞춘 비율
print(f"정확도: {5/6}")

In [None]:
# 정밀도: 긍정에 대한 맞춘 지율
print(f"긍정 정밀도: {2/2}")

In [None]:
# 부정에 대한 정밀도
print(f"긍정 정밀도: {3/4}")

In [None]:
# TextBlob 객체를 사용하여 여러 문장으로 구성된 텍스트도 분류
tag2 = tb("The beer was amazing. But the hangover was horrible. My boss was not happy.",
         classifier=pos_neg)
print(tag2.classify())

In [None]:
### tag2을 분리해서 긍/부정 평가
print(tag2.sentences)
print()
for sen in tag2.sentences:
    print(sen,"/",sen.classify())

In [None]:
# 테스트 데이터를 이용해 정확도 계산
acc =pos_neg.accuracy(test)
print(acc)

In [None]:
# show_informative_features를 실행하여 분류기가 어떤 기준으로 분류하는지 확인
print(pos_neg.show_informative_features())

### 한글 긍정/부정 처리

In [None]:
from textblob import TextBlob
from textblob.classifiers import NaiveBayesClassifier

In [None]:
train = [('나는 이 샌드위치를 정말 좋아해.', '긍정'),
         ('정말 멋진 곳이에요!', '긍정'),
         ('나는 이 맥주들이 아주 좋다고 생각해요.', '긍정'),
         ('이것은 나의 최고의 작품입니다.', '긍정'),
         ("정말 멋진 광경이다", "긍정"),
         ('난 이 식당 싫어', '부정'),
         ('난 이게 지겨워.', '부정'),
         ("이 문제는 처리할 수 없습니다.", "부정"),
         ('그는 나의 불구대천의 원수이다.', '부정'),
         ('내 상사는 끔찍해.', '부정'),
         ('나는 내 꿈을 믿는다', '긍정'),
         ('나는 매일 최선을 다하고 있다', '긍정'),
         ('나는 있는 그대로의 나를 사랑한다', '긍정'),
         ('나는 내 삶을 100% 책임진다', '긍정'),
         ('가장 좋은 일은 아직 생기지 않았다', '긍정'),
         ('나는 매일 나의 삶에 감사한다', '긍정'),
         ('새로나온 휴대폰은 배터리 교체가 되지 않아 불편하다', '부정'),
         ('이번에 나온 영화 너무 재밌다. 주말에 또 보고 싶다.', '긍정'),
         ('나의 아버지는 이해가 안된다', '부정'),
         ('나는 어머니와 있을 때 퉁명해진다', '부정'),
         ('나는 어머니와 있을 때 불편할 때가 있다.', '부정'),
         ('치킨집에 선결제로 주문했는데 돈은 결제가 되었는데 치킨집에선 주문이 안들어왔다고합니다.', '부정'),
         ('지금 현재 네이버 실시간 검색어에 떴고, 여전히 고객센터는 전화연결이 되지않습니다. ', '부정'),
         ('이럴거면 요기요처럼 아예 접속도 안되게하던가 결제를 막았어야하는데', '부정'),
         ('결제해서 가게에 돈 준 것도 아니고 본인들이 가져가놓고 전화도 안받으면 돈은 어떻게 돌려받습니까?', '부정'),
         ('너무 유용하고 편리하네요.. ', '긍정'),
         ('처음 구입한다고 쿠폰 받고 이용하니깐 저렴하게 먹을 수 있었고 배달시간도 만족스러워서 좋았습니다.', '긍정'),
         ('배달의 민족 강추 합니다. ', '긍정'),
         ('자주 이용할께요ㅡㅡㅡ강추 강추!!!', '긍정') ]

In [None]:
test = [('맥주가 좋았습니다.', '긍정'),
        ('난 내 일을 즐기지 않는다', '부정'),
        ('오늘은 기분이 안 좋아요.', '부정'),
        ('빠른 배달 좋네요', '긍정'),
        ('네드는 나의 친구입니다.', '긍정'),
        ('제가 이렇게 하고 있다니 믿을 수가 없어요.', '부정')]

In [None]:
pos_neg=NaiveBayesClassifier(train)
pos_neg

In [None]:
acc =pos_neg.accuracy(test)
print(acc)

### 배민 앱 사용 후기를 이용한 긍부정 모델 생성

In [None]:
import pandas as pd
from textblob import TextBlob
from textblob.classifiers import NaiveBayesClassifier

df=pd.read_csv('배민어플후기.csv', encoding="cp949")
df.head()

In [None]:
df.columns=["Reviews", "pos_neg"]
df.head()

In [None]:
## NaN 값 확인
df.isna().sum()

In [None]:
df.shape

In [None]:
### nan 값 별도로 저장하기
df_nan = df[df['pos_neg'].isnull()]
df_nan

In [None]:
### df에서 NaN 값 제거
df=df.dropna()
df.isna().sum()

### train/test 데이터 생성하기
- train: 전체데이터의 3/4 (75%)
- test : 전체데이터의 1/1 (25%)

In [None]:
# 긍정/부정 데이터 개수 확인
df_pos = df[df["pos_neg"]=="긍정"]
df_neg = df[df["pos_neg"]=="부정"]

print(len(df_pos), len(df_neg))

In [None]:
# 긍정과 부정 데이터 개수 동일하게 맞추기

df_neg=df_neg.sample(784)
print(len(df_pos), len(df_neg))

In [None]:
print("train:", int(784*0.75), "test:",784-int(784*0.75))

In [None]:
# train / test 데이터 준비
df_train=pd.concat([df_pos[:589], df_neg[:589]])
df_test=pd.concat([df_pos[589:], df_neg[589:]])

print(len(df_train), len(df_test))

In [None]:
# 데이터 순서를 램던하게 만들기
df_train=df_train.sample(1178).reset_index(drop=True)
df_test = df_test.sample(390).reset_index(drop=True)
df_test.head(10)

In [None]:
# 튜플 구조로 변경
def tup_che(df_t):
    tr_te =[]
    for i in range(len(df_t)):
        tr_te.append((df_t.iloc[i, 0], df_t.iloc[i, 1]))
    return tr_te

In [None]:
train = tup_che(df_train)
test = tup_che(df_test)

train[:5]

In [None]:
import nltk
nltk.download('punkt')

In [None]:
from textblob import TextBlob
from textblob.classifiers import NaiveBayesClassifier

pos_neg = NaiveBayesClassifier(train)
test_acc = pos_neg.accuracy(test)

print(f'정확도: {test_acc}')

In [None]:
df_nan=df_nan.reset_index(drop=True)
df_nan.head()

In [None]:
pos_neg.classify(df_nan.loc[0, 'Reviews'])

In [None]:
# 데이터 정규식 표현으로 데이터 정리
# 긍정/부정 값 pos_neg 필드에 추가

import re

txt_pos_neg=[]

for i in df_nan.index:
    text = re.sub('[\t]',"",df_nan.loc[i, 'Reviews'])
    txt_pos_neg.append(pos_neg.classify(text))

df_nan['pos_neg'] = txt_pos_neg
df_nan.head()

In [None]:
df_nan.tail()

In [None]:
# 배민 어플에 대한 긍부정 평가
df_nan.groupby('pos_neg')[["pos_neg"]].count()