In [2]:
from sklearn.model_selection import train_test_split

# 파일을 읽어오세요.
data = []
with open('emotions_train.txt', 'r') as f:
    for line in f:
        sent, emotion = line.rstrip().split(";")
        data.append((sent, emotion))
        

# 읽어온 파일을 학습 데이터와 평가 데이터로 분할하세요.
train, test = train_test_split(data, test_size = 0.2, random_state = 7)


# 학습 데이터셋의 문장과 감정을 분리하세요.
Xtrain = []
Ytrain = []

for train_data in train:
    Xtrain.append(train_data[0])
    Ytrain.append(train_data[1])
print(len(Xtrain))
print(len(set(Ytrain)))


# 평가 데이터셋의 문장과 감정을 분리하세요.
Xtest = []
Ytest = []

for test_data in test:
    Xtest.append(test_data[0])
    Ytest.append(test_data[1])
print(len(Xtest))
print(len(set(Ytest)))

12800
6
3200
6


### 나이브 베이즈

나이브 베이즈의 원리는 감정의 발생 확률과 텍스트를 구성하는 단어들의 가능도로 텍스트의 감정을 예측하는 것이다.

감정 내 단어의 가능도는 아래와 같은 공식으로 계산을 할 수 있다.

$P^(단어|감정) = $$(감정 내 모든 단어의 빈도수)\over (감정 내 단어의 빈도수)$


In [5]:
import pandas as pd

def cal_partial_freq(texts, emotion):
    partial_freq = dict()
    # 매개변수로 받은 감정을 나타내는 문서를 저장
    filtered_texts = texts[texts['emotion']==emotion]
    filtered_texts = filtered_texts['sentence']
    
    # 각 단어별 빈도수를 입력해 주는 부분 구현
    for sent in filtered_texts:
        words = sent.rstrip().split()
        for word in words:
            if word not in partial_freq:
                partial_freq[word] = 1
            else:
                partial_freq[word] += 1
    return partial_freq

# 감정별 문서 내 전체 단어의 빈도수 반환
def cal_total_freq(partial_freq):
    total = 0
    for word, freq in partial_freq.items():
        total += freq
    return total

# Emotions dataset for NLP를 불러옵니다.
data = pd.read_csv("emotions_train.txt", delimiter=';', header=None, names=['sentence','emotion'])

# happy가 joy라는 감정을 표현하는 문장에서 발생할 가능도
joy_counter = cal_partial_freq(data, 'joy')
joy_likelihood = joy_counter['happy'] / cal_total_freq(joy_counter)
print(joy_likelihood)

# happy가 sadness라는 감정을 표현하는 문장에서 발생할 가능도를 구하세요.
sad_counter = cal_partial_freq(data, 'sadness')
sad_likelihood = sad_counter['happy'] / cal_total_freq(sad_counter)
print(sad_likelihood)

# can이 surprise라는 감정을 표현하는 문장에서 발생할 가능도를 구하세요.
sup_counter = cal_partial_freq(data, "surprise")
sup_likelihood = sup_counter["can"] / cal_total_freq(sup_counter)
print(sup_likelihood)


0.001415604166467398
0.0005952589376378725
0.002363652280486737


### 스무딩(smoothing)
![image.png](attachment:image.png)
스무딩(smoothing)을 통해 학습 데이터 내 존재하지 않은 단어의 빈도수를 보정

### 로그
![image-2.png](attachment:image-2.png)
확률을 계속 곱하다 보면 소수점이라 숫자가 계속 작아짐 > 로그를 사용하면 끊임없이 숫자가 작아지는 것을 방지

### 최종 나이브 베이즈
![image-3.png](attachment:image-3.png)
로그 확률 값의 합으로 텍스트의 감정을 예측

In [10]:
import numpy as np

def cal_prior_prob(data, emotion):
    filtered_texts = data[data['emotion'] == emotion]
    # data 내 특정 감정의 로그발생 확률을 반환하는 부분을 구현하세요.
    return np.log(len(filtered_texts)/len(data))

def predict_emotion(sent, data):
    emotions = ['anger', 'love', 'sadness', 'fear', 'joy', 'surprise']
    predictions = []
    train_txt = pd.read_csv(data, delimiter=';', header=None, names=['sentence', 'emotion'])

    # sent의 각 감정별 로그 확률을 predictions 리스트에 저장하세요.
    for emotion in emotions:
        prob = 0
        for word in sent.split():
            # 감정이 emotion에 해당하는 단어 빈도수
            emotion_counter = cal_partial_freq(train_txt, emotion)
            # smoothing을 10으로 설정
            prob += np.log((emotion_counter[word] + 10) / (cal_total_freq(emotion_counter) + 10))
        prob += cal_prior_prob(train_txt, emotion)
        predictions.append((emotion, prob))
        predictions.sort(key = lambda a: a[1])
    return predictions[-1]

# 아래 문장의 예측된 감정을 확인하세요.
test_sent = "i really want to go and enjoy this party"
predicted = predict_emotion(test_sent, "emotions_train.txt")
print(predicted)


('surprise', -49.413280143234715)


## scikit-learn을 통해 나이브 베이즈 구현

- 데이터 준비

```python
doc = ['i am very happy', 'this product is really great']
emotion = ['happy', 'excited']
```

- 벡터화

```python
from sklearn.feature_extraction.text import CountVectorizer

cv = CountVectorizer()
csr_doc_matrix = cv.fit_transform(doc)
# 각 단어 및 문장별 고유 ID 부여 및 단어 빈도수 계산
print(csr_doc_matrix) # (0, 0)	1 (0, 7)	1
```

- 학습

```python
from sklearn.naive_bayes import MultinomialNB

clf = MultinomialNB()
# CountVectorizer로 변환된 텍스트 데이터를 사용
clf.fit(csr_doc_matrix, emotion)
```

- 예측

```python
from sklearn.naive_bayes import MultinomialNB

test_doc = ['i am really great']

# 학습된 CountVectorizer 형태로 변환
transformed_test = cv.transform(test_doc)
pred = clf.predict(transformed_test)

print(pred)
```

In [17]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB

doc = ['i am very happy', 'this product is really great']
emotion = ['happy', 'excited']

cv = CountVectorizer()
csr_doc_matrix = cv.fit_transform(doc)
# 각 단어 및 문장별 고유 ID 부여 및 단어 빈도수 계산
print(csr_doc_matrix) # (0, 0)	1 (0, 7)	1

clf = MultinomialNB()

# CountVectorizer로 변환된 텍스트 데이터를 사용
clf.fit(csr_doc_matrix, emotion)

test_doc = ['i am really great']

# 학습된 CountVectorizer 형태로 변환
transformed_test = cv.transform(test_doc)
pred = clf.predict(transformed_test)

print(pred)

  (0, 0)	1
  (0, 7)	1
  (0, 2)	1
  (1, 6)	1
  (1, 4)	1
  (1, 3)	1
  (1, 5)	1
  (1, 1)	1
['excited']


### scikit-learn을 통한 나이브 베이즈 감정 분석

In [21]:
import pandas as pd
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer

raw_text = pd.read_csv("emotions_train.txt", delimiter=';', header=None, names=['sentence','emotion'])
train_data = raw_text['sentence']
train_emotion = raw_text['emotion']

# train_data 변환
cv = CountVectorizer()
transformed_text = cv.fit_transform(train_data)

# 변환된 train_data와 train_emotion을 학습
clf = MultinomialNB()
clf.fit(transformed_text, train_emotion)

# 감정 예측
test_data = ['i am curious', 'i feel gloomy and tired', 'i feel more creative', 'i feel a little mellow today']

transformed_test = cv.transform(test_data)
test_result = clf.predict(transformed_test)

print(test_result)

['surprise' 'sadness' 'joy' 'joy']


### 나이브 베이즈 기반 감정 분석 서비스

In [26]:
# 경고문을 무시합니다.
import warnings
warnings.filterwarnings(action='ignore')

from flask import Flask, request, jsonify
import pickle

app = Flask(__name__)

@app.route('/predict', methods=['POST'])
def predict():
    json_ = request.json
    query = json_['infer_texts']
    
    # 학습된 객체 cv 변수와 clf 변수를 이용해 전달된 문자열의 감정을 예측하는 코드를 작성하세요.
    perdiction = clf.predict(cv.transform(query))

    # 예측된 결과를 response 딕셔너리에 "문서의 순서: 예측된 감점" 형태로 저장하세요.
    response = dict()
    for idx, pred in enumerate(prediction):
        response[idx] = pred

    return jsonify(response)

if __name__ == '__main__':
    with open('nb_model.pkl', 'rb') as f:
        cv, clf = pickle.load(f)
    
    app.run(host='0.0.0.0', port=8080)

 * Serving Flask app '__main__'
 * Debug mode: off


 * Running on all addresses (0.0.0.0)
 * Running on http://127.0.0.1:8080
 * Running on http://172.30.1.38:8080
Press CTRL+C to quit


ConnectionError: HTTPConnectionPool(host='0.0.0.0', port=8080): Max retries exceeded with url: /predict (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x000001F90E72DEE0>: Failed to establish a new connection: [WinError 10049] 요청한 주소는 해당 컨텍스트에서 유효하지 않습니다'))