In [1]:
import easydict
from utils import load_dataset, make_iter, pad_sentence
import pandas as pd
import json
import numpy as np

In [2]:
import pickle
import time
import random

import torch
import torch.nn as nn
import torch.optim as optim
from torch.nn.utils.rnn import pack_padded_sequence, pad_packed_sequence

from soynlp.tokenizer import LTokenizer

from utils import epoch_time, binary_accuracy
from models.bidirectional_lstm import BidirectionalLSTM


In [2]:
args = easydict.EasyDict({"batch_size": 64,"num_epoch": 10, "random_seed": 5,"lr": 0.003,
                          "vocab_size": 25000,"embed_dim": 100, "hidden_dim":256, "output_dim":1,
                          "n_layer": 2, "dropout":0.5, "bidirectional":True, "model":"bidirectional_lstm",
                          "optim":"Adam", "mode":"train","save_model":"model.pt"})

Unnamed: 0,batch_size,bidirectional,dropout,embed_dim,hidden_dim,lr,mode,model,n_layer,num_epoch,optim,output_dim,random_seed,save_model,vocab_size
0,64,True,0.5,100,256,0.003,train,bidirectional_lstm,2,10,Adam,1,5,model.pt,25000


In [8]:
def main(config):
    if config.mode == 'train':
        train_data, valid_data = load_dataset(config["mode"], config["random_seed"])

        train_iter, valid_iter, pad_idx = make_iter(config["batch_size"], config["mode"], train_data=train_data,
                                                    valid_data=valid_data)

        trainer = Trainer(config, pad_idx, train_iter=train_iter, valid_iter=valid_iter)

        trainer.train()

    else:
        test_data = load_dataset(config["mode"], config["random_seed"])

        test_iter, pad_idx = make_iter(config["batch_size"], config["mode"], test_data=test_data)
        trainer = Trainer(config, pad_idx, test_iter=test_iter)

        trainer.inference()

In [9]:
random.seed(32)
torch.manual_seed(32)
torch.backends.cudnn.deterministic = True


class Trainer:
    def __init__(self, config, pad_idx, train_iter=None, valid_iter=None, test_iter=None):
        self.device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
        self.config = config
        self.pad_idx = pad_idx

        # Train mode
        if self.config["mode"] == 'train':
            self.train_iter = train_iter
            self.valid_iter = valid_iter

        # Test mode
        else:
            self.test_iter = test_iter

        model_type = BidirectionalLSTM(self.config, self.pad_idx)
        self.model = model_type
        self.model.to(self.device)

        # SGD updates all parameters with the 'same' learning rate
        # Adam adapts learning rate for each parameter
        optim_type = optim.Adam(self.model.parameters())
        self.optimizer = optim_type

        # BCEWithLogitsLoss carries out both the sigmoid and the binary cross entropy steps.
        self.criterion = nn.BCEWithLogitsLoss()
        self.criterion.to(self.device)

    def train(self):
        print(f'The model has {self.model.count_parameters():,} trainable parameters')

        best_valid_loss = float('inf')

        print(self.model)

        for epoch in range(self.config["num_epoch"]):
            self.model.train()

            epoch_loss = 0
            epoch_acc = 0

            start_time = time.time()

            for batch in self.train_iter:
                # For each batch, first zero the gradients
                self.optimizer.zero_grad()

                # if Field has include_lengths=False, batch.text is only padded numericalized tensor
                # if Field has include_lengths=True, batch.text is tuple(padded numericalized tensor, sentence length)
                input, input_lengths = batch.text
                predictions = self.model(input, input_lengths).squeeze(1)
                # predictions = [batch size, 1]. after squeeze(1) = [batch size])

                loss = self.criterion(predictions, batch.label)
                acc = binary_accuracy(predictions, batch.label)

                loss.backward()
                self.optimizer.step()

                # 'item' method is used to extract a scalar from a tensor which only contains a single value.
                epoch_loss += loss.item()
                epoch_acc += acc.item()

            train_loss = epoch_loss / len(self.train_iter)
            train_acc = epoch_acc / len(self.train_iter)

            valid_loss, valid_acc = self.evaluate()

            end_time = time.time()

            epoch_mins, epoch_secs = epoch_time(start_time, end_time)

            if valid_loss < best_valid_loss:
                best_valid_loss = valid_loss
                torch.save(self.model.state_dict(), self.config["save_model"])

            print(f'Epoch: {epoch+1:02} | Epoch Time: {epoch_mins}m {epoch_secs}s')
            print(f'\tTrain Loss: {train_loss:.3f} | Train Acc: {train_acc*100:.2f}%')
            print(f'\tVal. Loss: {valid_loss:.3f} | Val. Acc: {valid_acc*100:.2f}%')

    def evaluate(self):
        epoch_loss = 0
        epoch_acc = 0

        self.model.eval()

        with torch.no_grad():
            for batch in self.valid_iter:
                input, input_lengths = batch.text
                predictions = self.model(input, input_lengths).squeeze(1)

                loss = self.criterion(predictions, batch.label)
                acc = binary_accuracy(predictions, batch.label)

                epoch_loss += loss.item()
                epoch_acc += acc.item()

        return epoch_loss / len(self.valid_iter), epoch_acc / len(self.valid_iter)

    def inference(self):
        epoch_loss = 0
        epoch_acc = 0

        self.model.load_state_dict(torch.load(self.config["save_model"]))
        self.model.eval()

        with torch.no_grad():
            for batch in self.test_iter:
                input, input_lengths = batch.text
                predictions = self.model(input, input_lengths).squeeze(1)

                loss = self.criterion(predictions, batch.label)
                acc = binary_accuracy(predictions, batch.label)

                epoch_loss += loss.item()
                epoch_acc += acc.item()

        test_loss = epoch_loss / len(self.test_iter)
        test_acc = epoch_acc / len(self.test_iter)
        print(f'Test Loss: {test_loss:.3f} | Test Acc: {test_acc * 100:.2f}%')


In [7]:
class BidirectionalLSTM(nn.Module):
    def __init__(self, config, pad_idx):
        super(BidirectionalLSTM, self).__init__()
        # pass padding_idx to model not to train padding tokens
        self.embedding = nn.Embedding(config["vocab_size"] + 2, config["embed_dim"], padding_idx=pad_idx)

        self.lstm = nn.LSTM(config["embed_dim"],
                            config["hidden_dim"],
                            num_layers=config["n_layer"],
                            bidirectional= True,
                            dropout=config["dropout"])

        # Bidirectional models use concatenated hidden state (forward + backward),
        # therefore input dimension of FC layer has to be multiplied by 2.
        self.fc = nn.Linear(config["hidden_dim"] * 2, config["output_dim"])
        self.dropout = nn.Dropout(config["dropout"])

    def forward(self, input, input_lengths):
        # input = [input length, batch size]

        embedded = self.embedding(input)
        # embedded = [input length, batch size, embed dim]

        # pack embedded sequence using input lengths to let the model only process non-padded elements
        packed_embedded = pack_padded_sequence(embedded, input_lengths)
        # by using packed sequence, we can use last non-padded element unless we might use pad token as a last element
        packed_output, (hidden, cell) = self.lstm(packed_embedded)

        # (optional) unpack sequence
        output, output_lengths = pad_packed_sequence(packed_output)
        # output = [input length, batch size, hidden dim * num directions] (padding tokens of output are zero tensors)

        # hidden, cell = [num layers * num directions, batch size, hidden dim]
        # [forward_layer_0, backward_layer_0, forward_layer_1, backward_layer_1, ..., forward_layer_n, backward_layer_n]

        # concat the final forward (hidden[-2, :, :]) and backward (hidden[-1, :, :]) hidden states
        hidden = self.dropout(torch.cat((hidden[-2, :, :], hidden[-1, :, :]), dim=1))
        # hidden = [batch size, hidden dim * num directions]

        return self.fc(hidden)

    def count_parameters(self):
        return sum(p.numel() for p in self.parameters() if p.requires_grad)


In [10]:
main(args)

Load NSMC dataset and convert it to pandas DataFrame . . .
Number of training examples: 104997
Number of validation examples: 44998
Make Iterators for training . . .
The model has 4,810,857 trainable parameters
BidirectionalLSTM(
  (embedding): Embedding(25002, 100, padding_idx=1)
  (lstm): LSTM(100, 256, num_layers=2, dropout=0.5, bidirectional=True)
  (fc): Linear(in_features=512, out_features=1, bias=True)
  (dropout): Dropout(p=0.5, inplace=False)
)
Epoch: 01 | Epoch Time: 6m 45s
	Train Loss: 0.492 | Train Acc: 75.02%
	Val. Loss: 0.420 | Val. Acc: 79.96%
Epoch: 02 | Epoch Time: 7m 10s
	Train Loss: 0.371 | Train Acc: 82.87%
	Val. Loss: 0.388 | Val. Acc: 82.03%
Epoch: 03 | Epoch Time: 6m 25s
	Train Loss: 0.305 | Train Acc: 86.37%
	Val. Loss: 0.387 | Val. Acc: 82.60%
Epoch: 04 | Epoch Time: 6m 26s
	Train Loss: 0.246 | Train Acc: 89.15%
	Val. Loss: 0.428 | Val. Acc: 82.59%
Epoch: 05 | Epoch Time: 6m 24s
	Train Loss: 0.190 | Train Acc: 91.69%
	Val. Loss: 0.495 | Val. Acc: 82.48%
Epoch: 

In [3]:
args_predict=easydict.EasyDict({"lr": 0.003,"vocab_size": 25000,"embed_dim": 100, "hidden_dim":256, "output_dim":1,
                                "n_layer": 2, "dropout":0.5, "bidirectional":True,"n_filters":100,"filter_sizes":[3,4,5],
                                "model":"bidirectional_lstm","save_model":"model.pt"})

In [None]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

def predict_sequential(config, data_input):
    # load tokenizer and torchtext Field
    pickle_tokenizer = open('pickles/tokenizer.pickle', 'rb')
    cohesion_scores = pickle.load(pickle_tokenizer)
    tokenizer = LTokenizer(scores=cohesion_scores)

    pickle_vocab = open('pickles/text.pickle', 'rb')
    text = pickle.load(pickle_vocab)
    pad_idx = text.vocab.stoi[text.pad_token]

    model_type = BidirectionalLSTM(config, pad_idx)
    model = model_type
    model.load_state_dict(torch.load(config["save_model"]))
    model.eval()

    # convert input into tensor and forward it through selected model
    tokenized = tokenizer.tokenize(data_input)
    indexed = [text.vocab.stoi[token] for token in tokenized]
    length = [len(indexed)]

    tensor = torch.LongTensor(indexed).to(device)    # [input length]
    tensor = tensor.unsqueeze(1)                     # [input length, 1] for adding batch dimension
    length_tensor = torch.LongTensor(length)

    prediction = torch.sigmoid(model(tensor, length_tensor))
    label = torch.round(prediction)

    if label == 1:
        label = 'Positive'
    else:
        label = 'Negative'

    sentiment_percent = prediction.item()
    return sentiment_percent

# iteration test

In [6]:
comment_list = ["""네티즌들은 "눈을 의심했다", "여긴 가요 무대가 아니라 연기대상인데. 때와 장소를 못가렸다", "의상 선택 미스였다", "어린 자녀들과 함께 보기에 민망했다", "투머치였다", "구경하던 연기자들 일동 갑분싸. 우리집 거실분위기도 그랬다", "그래도 열심히 준비했을텐데 안타깝다", "의상만 잘 갖췄어도 무대는 좋았는데", "자기 콘서트장도 아니고. 배우들이 주인공이 자리에 웬 민폐냐" 등 부정적인 반응을 쏟아냈다.특히 이번 효린의 무대는 앞서 마마무 화사가 MAMA 무대에서 선보인 파격의상 무대와 비교되며 계속 회자되고 있다. 누구의 의상이나 무대가 더 나았다는 평가부터, TPO(Time, Place, Occasion. 시간, 장소, 상황에 따라 갖춰 입는 의상)에 대한 지적이 이어지고 있다.""",
 "솔직히 연예인들이 악성 댓글 갖고 상처받고 이런 거 좀 아니라고 본다. 감내해야 된다고 본다.",
 "신 앵커의 클로징 멘트를 들으며 나도 모르게 눈물 한 방울이 그냥 뚝 떨어진 적도 있고, 속이 시원해지고 때로는 힘이 나기도 했고, 때로는 소름이 돋을 정도로 감동한 적도 있다"]

In [7]:
sentiment_list = []
for comment in comment_list:
    result = predict_sequential(args_predict,comment)
    sentiment_list.append(result)
print(sentiment_list)

[0.29741421341896057, 0.7660501003265381, 0.97176593542099]


# 익명 모두 감성 분석

In [13]:
data_df_h = pd.read_json('헤럴드팝_레이블링.json')
data_df_h = data_df_h.T
data_df_h

Unnamed: 0,ano,date,photo,sns,text,title,tv,url
1,,2019.01.01. 오전 11:46,0,,숀리가 다이어트 비법을 알렸다.1일 오전 방송된 KBS 쿨FM '박명수의 라디오쇼'...,"'라디오쇼' 숀리 ""다이어트 비법? 3일 빡세게·하루 쉬어라""",0,https://entertain.naver.com/ranking/read?oid=1...
2,,2019.01.01. 오후 1:15,0,,헤럴드POP DB[헤럴드POP=이지선 기자]유민상이 새해 목표를 밝혔다.1일 방송된...,"'가요광장' 유민상 ""새해 목표는 라디오 DJ...'야식 먹고 자요'""",0,https://entertain.naver.com/ranking/read?oid=1...
3,관계자,2019.01.01. 오후 1:59,0,,신화 신혜성이 연말 단독 콘서트를 성황리에 마무리했다. 신혜성은 지난 12월 30일...,"신화 신혜성, 연말 단독 콘서트 개최..발라드→댄스까지 다채로운 매력 선사",0,https://entertain.naver.com/ranking/read?oid=1...
4,,2019.01.01. 오후 3:20,0,인스타그램,사진=천우희 인스타그램[헤럴드POP=안태현 기자] 천우희가 남다른 미모의 근황을 전...,"천우희, 근접 셀카에도 끄떡없는 미모…""평안한 한해 되세요""",0,https://entertain.naver.com/ranking/read?oid=1...
5,,2019.01.01. 오후 4:15,0,,모델 한혜진 / 사진=민선유 기자[헤럴드POP=안태현 기자] 한혜진이 1얼 이시언에...,"'오후의 발견' 한혜진 ""이시언 1얼, 콘셉트 NO…리얼이다""",0,https://entertain.naver.com/ranking/read?oid=1...
6,,2019.01.01. 오후 10:17,0,,유승호가 조보아에 직진했다.1일 방송된 SBS 드라마 '복수가 돌아왔다'(연출 함준...,"'복수가 돌아왔다' 유승호, 학교로 복귀...조보아에 '달달시선'",0,https://entertain.naver.com/ranking/read?oid=1...
7,,2019.01.02. 오전 6:51,0,,tvN '뇌섹시대-문제적 남자' 캡처[헤럴드POP=임채령 기자] 강승윤과 이승훈의 ...,"[어게인TV] '문제적 남자' 위너 강승윤X 이승훈의 또 다른 매력..""IQ 141...",1,https://entertain.naver.com/ranking/read?oid=1...
8,,2019.01.02. 오전 8:17,0,,"""내 꿈 지금 니가 이뤄줄 수도 있는데, 손수정 남자친구""SBS '복수가 돌아왔다'...","'복수돌' 유승호♥조보아, 9년만 마음 확인 키스 엔딩‥최고 9.7%",0,https://entertain.naver.com/ranking/read?oid=1...
9,,2019.01.02. 오전 11:14,0,,"영화 '아쿠아맨'이 연말, 연초 박스오피스를 점령했다. 2018년 마지막 날인 12...",'아쿠아맨' 400만 관객 돌파 눈앞…2019년에도 꾸준한 흥행세,0,https://entertain.naver.com/ranking/read?oid=1...
10,,2019.01.02. 오전 11:38,1,,"방송인 황광희, 조세호, 남창희가 2일 오전 서울 마포구 상암동 스탠포드호텔에서 열...","[포토]주간아이돌 새MC, '본격 아이돌 입덕 프로그램'",0,https://entertain.naver.com/ranking/read?oid=1...


In [14]:
data_df_h["sentiment_percent"] = data_df_h["ano"]
for i in range(1,5001):
    if data_df_h["ano"][i] == "":
        i +=1
    else:
        data_df_h["sentiment_percent"][i] = predict_sequential(args_predict, data_df_h["text"][i])
        i +=1

data_df_h["sentiment_label"]=data_df_h["sentiment_percent"]
for i in range(1,5001):
    if data_df_h["sentiment_percent"][i] == '':
        data_df_h["sentiment_label"][i] = "해당 없음"
        i +=1
    elif data_df_h["sentiment_percent"][i] >= 0.5:
        data_df_h["sentiment_label"][i] = "긍정"
        i+=1
    else:
        data_df_h["sentiment_label"][i] = "부정"
        i+=1
data_df_h.to_csv("헤럴드팝_감성_추가.csv",index=None)
data_df_h

Unnamed: 0,ano,date,photo,sns,text,title,tv,url,sentiment_percent,sentiment_label
1,,2019.01.01. 오전 11:46,0,,숀리가 다이어트 비법을 알렸다.1일 오전 방송된 KBS 쿨FM '박명수의 라디오쇼'...,"'라디오쇼' 숀리 ""다이어트 비법? 3일 빡세게·하루 쉬어라""",0,https://entertain.naver.com/ranking/read?oid=1...,,해당 없음
2,,2019.01.01. 오후 1:15,0,,헤럴드POP DB[헤럴드POP=이지선 기자]유민상이 새해 목표를 밝혔다.1일 방송된...,"'가요광장' 유민상 ""새해 목표는 라디오 DJ...'야식 먹고 자요'""",0,https://entertain.naver.com/ranking/read?oid=1...,,해당 없음
3,관계자,2019.01.01. 오후 1:59,0,,신화 신혜성이 연말 단독 콘서트를 성황리에 마무리했다. 신혜성은 지난 12월 30일...,"신화 신혜성, 연말 단독 콘서트 개최..발라드→댄스까지 다채로운 매력 선사",0,https://entertain.naver.com/ranking/read?oid=1...,0.648238,긍정
4,,2019.01.01. 오후 3:20,0,인스타그램,사진=천우희 인스타그램[헤럴드POP=안태현 기자] 천우희가 남다른 미모의 근황을 전...,"천우희, 근접 셀카에도 끄떡없는 미모…""평안한 한해 되세요""",0,https://entertain.naver.com/ranking/read?oid=1...,,해당 없음
5,,2019.01.01. 오후 4:15,0,,모델 한혜진 / 사진=민선유 기자[헤럴드POP=안태현 기자] 한혜진이 1얼 이시언에...,"'오후의 발견' 한혜진 ""이시언 1얼, 콘셉트 NO…리얼이다""",0,https://entertain.naver.com/ranking/read?oid=1...,,해당 없음
6,,2019.01.01. 오후 10:17,0,,유승호가 조보아에 직진했다.1일 방송된 SBS 드라마 '복수가 돌아왔다'(연출 함준...,"'복수가 돌아왔다' 유승호, 학교로 복귀...조보아에 '달달시선'",0,https://entertain.naver.com/ranking/read?oid=1...,,해당 없음
7,,2019.01.02. 오전 6:51,0,,tvN '뇌섹시대-문제적 남자' 캡처[헤럴드POP=임채령 기자] 강승윤과 이승훈의 ...,"[어게인TV] '문제적 남자' 위너 강승윤X 이승훈의 또 다른 매력..""IQ 141...",1,https://entertain.naver.com/ranking/read?oid=1...,,해당 없음
8,,2019.01.02. 오전 8:17,0,,"""내 꿈 지금 니가 이뤄줄 수도 있는데, 손수정 남자친구""SBS '복수가 돌아왔다'...","'복수돌' 유승호♥조보아, 9년만 마음 확인 키스 엔딩‥최고 9.7%",0,https://entertain.naver.com/ranking/read?oid=1...,,해당 없음
9,,2019.01.02. 오전 11:14,0,,"영화 '아쿠아맨'이 연말, 연초 박스오피스를 점령했다. 2018년 마지막 날인 12...",'아쿠아맨' 400만 관객 돌파 눈앞…2019년에도 꾸준한 흥행세,0,https://entertain.naver.com/ranking/read?oid=1...,,해당 없음
10,,2019.01.02. 오전 11:38,1,,"방송인 황광희, 조세호, 남창희가 2일 오전 서울 마포구 상암동 스탠포드호텔에서 열...","[포토]주간아이돌 새MC, '본격 아이돌 입덕 프로그램'",0,https://entertain.naver.com/ranking/read?oid=1...,,해당 없음


In [15]:
data_df_n = pd.read_json('뉴센_레이블링.json')
data_df_n = data_df_n.T
data_df_n

data_df_n["sentiment_percent"] = data_df_n["ano"]
for i in range(1,5001):
    if data_df_n["ano"][i] == "":
        i +=1
    else:
        data_df_n["sentiment_percent"][i] = predict_sequential(args_predict, data_df_n["text"][i])
        i +=1

data_df_n["sentiment_label"]=data_df_n["sentiment_percent"]
for i in range(1,5001):
    if data_df_n["sentiment_percent"][i] == '':
        data_df_n["sentiment_label"][i] = "해당 없음"
        i +=1
    elif data_df_n["sentiment_percent"][i] >= 0.5:
        data_df_n["sentiment_label"][i] = "긍정"
        i+=1
    else:
        data_df_n["sentiment_label"][i] = "부정"
        i+=1
data_df_n.to_csv("뉴센_감성_추가.csv",index = None)

In [16]:
data_df_o = pd.read_json('오센_레이블링.json')
data_df_o = data_df_o.T


data_df_o["sentiment_percent"] = data_df_o["ano"]
for i in range(1,5001):
    if data_df_o["ano"][i] == "":
        i +=1
    else:
        data_df_o["sentiment_percent"][i] = predict_sequential(args_predict, data_df_o["text"][i])
        i +=1

        
data_df_o["sentiment_label"]=data_df_o["sentiment_percent"]
for i in range(1,5001):
    if data_df_o["sentiment_percent"][i] == '':
        data_df_o["sentiment_label"][i] = "해당 없음"
        i +=1
    elif data_df_o["sentiment_percent"][i] >= 0.5:
        data_df_o["sentiment_label"][i] = "긍정"
        i+=1
    else:
        data_df_o["sentiment_label"][i] = "부정"
        i+=1

data_df_o.to_csv("오센_감성_추가.csv",index=None)
data_df_o

Unnamed: 0,ano,date,photo,sns,text,title,tv,url,sentiment_percent,sentiment_label
1,,2019-01-01 오전 0:49,0,트위터,그룹 워너원이 계약 종료 이후 팬들을 향한 메시지를 전하며 다음을 기약했다.워너원은...,"'계약종료' 워너원 ""워너블과 기적처럼 만나 사랑, 영원히 잊지 않겠다""[★SHOT!]",0,http://osen.mt.co.kr/article/G1111057969,,해당 없음
2,,2019-01-01 오전 5:32,0,,워너원이 해체 전 마지막 무대를 펼쳤다.31일 오후 일산 MBC 드림센터에서 201...,"[Oh!쎈 탐구]'활동종료' 워너원 강다니엘 ""꽃길만 걷자""",0,http://osen.mt.co.kr/article/G1111057992,,해당 없음
3,누리꾼,2019-01-01 오전 11:22,0,,'2018 KBS 연기대상'이 배우 유동근과 김명민의 공동대상으로 마무리 됐다. 두...,‘KBS연기대상’ #유동근·김명민 공동대상#효린 파격의상#소신 소감(종합)[Oh!쎈...,0,http://osen.mt.co.kr/article/G1111058048,0.629135,긍정
4,누리꾼,2019-01-01 오후 14:34,0,,걸그룹 마마무의 화사부터 가수 효린까지 연말 시상식을 뜨겁게 달궜다. 두 가수 모두...,"화사→효린, 논란? 호평? 어찌됐든 시상식 뜨겁게 한 파격 보디수트[Oh!쎈 이슈]",0,http://osen.mt.co.kr/article/G1111058087,0.447932,부정
5,,2019-01-01 오후 16:24,0,,"""1월 1일부터 안방극장에 심쿵 투척!""'복수가 돌아왔다' 유승호-조보아가 화려한 ...","'복수돌' 유승호♥조보아, 달달 재회 키스..새해부터 '설렘 폭발'[Oh!쎈 컷]",0,http://osen.mt.co.kr/article/G1111058146,,해당 없음
6,관계자,2019-01-01 오후 17:50,0,,배우 김우빈과 신민아가 새해 맞이 호주 데이트를 즐겼다. 특히 비인두암 투병으로 잠...,"김우빈♥신민아, 호주 데이트→4년째 ♥ing..완치+복귀 향한 응원(종합)[Oh!쎈...",0,http://osen.mt.co.kr/article/G1111058148,0.856591,긍정
7,,2019-01-01 오후 21:13,0,,'본격 연예한밤'에서 이선빈과 이광수 등 스타들의 열애 소식이 공개됐다.1일 방송된...,"'본격연예' 카이x제니, 열애설 보도..SM 측 ""호감 가진 사이""",0,http://osen.mt.co.kr/article/G1111058202,,해당 없음
8,,2019-01-02 오전 7:17,0,,"새 신랑으로 돌아온 이하늘, 그리고 유부남 대표 권선국이 결혼후 더 깊어진 사랑으로...","""결혼의 무게 달라"" '불청' 이하늘, 돌아온 새신랑's '결혼후愛' [Oh!쎈 리뷰]",0,http://osen.mt.co.kr/article/G1111058241,,해당 없음
9,,2019-01-02 오전 7:02,0,,그룹 방탄소년단이 미국 빌보드 '소셜 50' 차트에서 17개월 연속 1위를 달성했다...,"방탄소년단, 美 빌보드 '소셜 50' 17개월 연속 1위...최장 기록 자체 경신",0,http://osen.mt.co.kr/article/G1111058254,,해당 없음
10,,2019-01-02 오전 8:21,0,,배우 전소민이 '마성의 깡순이' 연기로 타의 추종을 불허하는 연기 스펙트럼을 증명하...,"“깜찍x코믹x풋풋”..‘톱스타 유백이’ 전소민, 생동감甲 표정 퍼레이드 [Oh!쎈 컷]",0,http://osen.mt.co.kr/article/G1111058293,,해당 없음


In [17]:
data_df_sn = pd.read_json('스타뉴스_레이블링.json')
data_df_sn = data_df_sn.T


data_df_sn["sentiment_percent"] = data_df_sn["ano"]
for i in range(1,5001):
    if data_df_sn["ano"][i] == "":
        i +=1
    else:
        data_df_sn["sentiment_percent"][i] = predict_sequential(args_predict, data_df_sn["text"][i])
        i +=1

        
data_df_sn["sentiment_label"]=data_df_sn["sentiment_percent"]
for i in range(1,5001):
    if data_df_sn["sentiment_percent"][i] == '':
        data_df_sn["sentiment_label"][i] = "해당 없음"
        i +=1
    elif data_df_sn["sentiment_percent"][i] >= 0.5:
        data_df_sn["sentiment_label"][i] = "긍정"
        i+=1
    else:
        data_df_sn["sentiment_label"][i] = "부정"
        i+=1

data_df_sn.to_csv("스타뉴스_감성_추가.csv",index=None)
data_df_sn

Unnamed: 0,ano,date,photo,sns,text,title,tv,url,sentiment_percent,sentiment_label
1,,2019.01.01. 오전 1:47,0,,부산 KT 주장 김영환.부산 KT 소닉붐이 창원 LG 세이커스와 펼친 '농구영신(농...,"김영환 ""새해 소망, 제발 선수들 안 다쳤으면 좋겠다""",0,https://entertain.naver.com/ranking/read?oid=1...,,해당 없음
2,관계자,2019.01.01. 오전 7:30,0,,"배우 이선빈, 이광수 /사진=스타뉴스2018년 마지막으로 연예계 공식 커플이 된 배...","[단독]이광수♥이선빈, 2019년 '새해 맞이 데이트'도 오붓하게",0,https://entertain.naver.com/ranking/read?oid=1...,0.280212,부정
3,,2019.01.01. 오전 9:38,0,,/사진제공=SBS2018 SBS 연기대상에서 감우성과 김선아가 연기대상 수상하며 시...,"SBS 연기대상, 감우성·김선아 대상..최고 시청률 11.4%",0,https://entertain.naver.com/ranking/read?oid=1...,,해당 없음
4,,2019.01.01. 오전 10:03,0,,/사진제공=TV조선함소원 진화 부부가 출산 풀 스토리를 공개한다.1일 방송되는 TV...,"'아내의 맛' 함소원♥진화, 출산 풀스토리 공개",0,https://entertain.naver.com/ranking/read?oid=1...,,해당 없음
5,,2019.01.01. 오전 11:02,0,,에이핑크 정은지 / 사진=플랜에이 엔터테인먼트걸그룹 에이핑크의 멤버 정은지가 매혹적...,"새해에도 에이핑크..정은지, 매혹적인 티저",0,https://entertain.naver.com/ranking/read?oid=1...,,해당 없음
6,,2019.01.01. 오전 11:09,0,,카이 제니 / 사진=스타뉴스그룹 엑소의 카이와 블랙핑크의 제니가 열애설에 휩싸인 가...,"YG ""제니, 카이와 열애? 전혀 몰랐다..사실 확인 중"" [공식]",0,https://entertain.naver.com/ranking/read?oid=1...,,해당 없음
7,,2019.01.01. 오후 6:58,0,,배우 김우빈 신민아 호주 데이트 포착 / 사진=온라인 커뮤니티배우 김우빈 신민아 커...,"'4년 열애' 김우빈♥신민아, 호주 데이트 포착..아름다운 커플",0,https://entertain.naver.com/ranking/read?oid=1...,,해당 없음
8,,2019.01.02. 오전 8:00,0,,/사진제공=MNH엔터테인먼트가수 청하가 솔로 가수로 활동하지만 외로운 감정을 느끼지...,"청하 ""솔로 가수라 혼자 활동하지만 외롭지 않아""(인터뷰②)",0,https://entertain.naver.com/ranking/read?oid=1...,,해당 없음
9,,2019.01.02. 오전 8:21,0,,/사진제공=두루두루아티스트컴퍼니밴드 장기하와 얼굴들이 팬들과 함께 하는 마지막 공연...,"장기하와 얼굴들, 10년 활동 종료 ""분명 다시 만날 것""",0,https://entertain.naver.com/ranking/read?oid=1...,,해당 없음
10,,2019.01.02. 오전 8:39,0,인스타그램,"이사강(왼쪽), 론 /사진=론 인스타그램그룹 빅플로 론이 뮤직비디오 감독 이사강과 ...","'이사강♥' 론, '결혼+비스' 출연 소감 ""예쁘게 잘 살게요""",0,https://entertain.naver.com/ranking/read?oid=1...,,해당 없음


In [18]:
data_df_s = pd.read_json('SBS fune_레이블링.json')
data_df_s = data_df_s.T
data_df_s

data_df_s["sentiment_percent"] = data_df_s["ano"]
for i in range(1,5001):
    if data_df_s["ano"][i] == "":
        i +=1
    else:
        data_df_s["sentiment_percent"][i] = predict_sequential(args_predict, data_df_s["text"][i])
        i +=1

        
data_df_s["sentiment_label"]=data_df_s["sentiment_percent"]
for i in range(1,5001):
    if data_df_s["sentiment_percent"][i] == '':
        data_df_s["sentiment_label"][i] = "해당 없음"
        i +=1
    elif data_df_s["sentiment_percent"][i] >= 0.5:
        data_df_s["sentiment_label"][i] = "긍정"
        i+=1
    else:
        data_df_s["sentiment_label"][i] = "부정"
        i+=1


data_df_s.to_csv("SBSfune_감성_추가.csv", index= None)
data_df_s

Unnamed: 0,ano,date,photo,sns,text,title,tv,url,sentiment_percent,sentiment_label
1,,2019.01.01. 오전 1:10,0,,"신성록, 최진혁, 장나라가 최우수연기상을 수상했다.31일 방송된 'SBS 2018 ...",‘SBS 연기대상’ 신성록X최진혁X장나라 최우수연기상 수상…'황후의 품격' 경사,0,https://entertain.naver.com/ranking/read?oid=4...,,해당 없음
2,네티즌,2019.01.01. 오전 11:10,0,,연기대상 시상식에서 엉덩이가 드러나는 의상을 입고 축하공연을 선보인 가수 효린을 향...,"효린, 엉덩이 노출 의상에 쏟아지는 비난 ""구경하던 배우들도 갑분싸""",0,https://entertain.naver.com/ranking/read?oid=4...,0.85498,긍정
3,,2019.01.01. 오전 11:15,0,,'복수가 돌아왔다' 유승호-조보아-곽동연-김동영-박아인이 2019년 새해를 맞아 신...,"""2019년에도 많은 사랑 부탁드려요""…'복수돌' 주역들의 새해 인사",0,https://entertain.naver.com/ranking/read?oid=4...,,해당 없음
4,,2019.01.01. 오전 11:45,0,,'황후의 품격' 측이 2019년 새해를 맞아 웃음꽃이 만발하는 촬영장 '비하인드컷'...,"'황후의품격', 2019년 새해맞이 특집! 화기애애 '현장 B컷' 대방출",0,https://entertain.naver.com/ranking/read?oid=4...,,해당 없음
5,,2019.01.01. 오후 1:05,0,유튜브,그룹 방탄소년단이 2019년을 맞아 새해 인사를 전했다.방탄소년단은 1일 공식 유튜...,"""황금돼지의 해, 2018년보다 더 행복하길""…방탄소년단의 새해 인사",0,https://entertain.naver.com/ranking/read?oid=4...,,해당 없음
6,네티즌,2019.01.01. 오후 1:55,0,,"오는 5월 방송될 이승기, 수지 주연의 SBS 새 드라마 '배가본드'가 첫 티저영상...","""영화 예고편인 줄""…이승기X수지 '배가본드', 첫 티저 공개에 기대감 폭발",0,https://entertain.naver.com/ranking/read?oid=4...,0.67049,긍정
7,,2019.01.01. 오후 9:40,0,,엑소 카이의 의상에 숨겨진 비밀이 밝혀졌다.1일 방송된 SBS '본격연예 한밤'(이...,"‘한밤’ 가요대전 카이 의상에 숨겨진 이야기? ""원래 안에 티셔츠 있었다""",0,https://entertain.naver.com/ranking/read?oid=4...,,해당 없음
8,,2019.01.01. 오후 9:45,0,,김창환 회장이 폭행 논란에 대해 맞대응을 했다.1일 방송된 SBS '본격연예 한밤'...,"'한밤' 김창환, 폭행논란 반박 기자회견…""합의 없다 끝까지 갈 것""",0,https://entertain.naver.com/ranking/read?oid=4...,,해당 없음
9,,2019.01.01. 오후 11:10,0,,유승호와 조보아가 서로의 사랑을 확인했다.1일 밤 방송된 SBS 월화드라마 '복수가...,"[스브스夜] '복수가 돌아왔다' 유승호♥조보아 9년 뛰어넘고 재회 키스 ""지금 내 ...",1,https://entertain.naver.com/ranking/read?oid=4...,,해당 없음
10,,2019.01.01. 오후 11:25,0,,권선국과 이하늘이 등장했다.1일 밤 방송된 SBS '불타는 청춘'(이하 '불청')에...,"‘불타는청춘’ 유부남 권선국X이하늘, 몰래 온 손님으로 깜짝등장",0,https://entertain.naver.com/ranking/read?oid=4...,,해당 없음


In [19]:
data_df_s.to_json("SBSfune_감성_추가.json", index= None, orient = 'table')

In [20]:
data_df_o.to_json("오센_감성_추가.json",index=None, orient= "table")
data_df_sn.to_json("스타뉴스_감성_추가.json",index=None,orient= "table")
data_df_h.to_json("헤럴드팝_감성_추가.json",index=None,orient= "table")
data_df_n.to_json("뉴센_감성_추가.json",index = None,orient= "table")

In [70]:
dfh = data_df_h[data_df_h["ano"] !=""]
dfh = dfh[dfh["sns"] !=""]
h = dfh["sentiment_percent"].mean()

dfn = data_df_n[data_df_n["ano"] !=""]
dfn = dfn[dfn["sns"] !=""]
n = dfn["sentiment_percent"].mean()

dfs = data_df_s[data_df_s["ano"] !=""]
dfs = dfs[dfs["sns"] !=""]
s = dfs["sentiment_percent"].mean()

dfsn = data_df_sn[data_df_sn["ano"] !=""]
dfsn = dfsn[dfsn["sns"] !=""]
sn = dfsn["sentiment_percent"].mean()

dfo = data_df_o[data_df_o["ano"] !=""]
dfo = dfo[dfo["sns"] !=""]
o = dfo["sentiment_percent"].mean()

photo_percent={"heraldpop": [data_df_h["photo"].mean(),len(data_df_h[data_df_h["sns"] !=""])/5000,h],
                        "osen": [data_df_o["photo"].mean(),len(data_df_o[data_df_o["sns"] !=""])/5000,o],
                        "starnews": [data_df_sn["photo"].mean(),len(data_df_sn[data_df_sn["sns"] !=""])/5000,sn],
                        "sbsfune": [data_df_s["photo"].mean(),len(data_df_s[data_df_s["sns"] !=""])/5000,s],
                        "newsen": [data_df_n["photo"].mean(),len(data_df_n[data_df_n["sns"] !=""])/5000,n]}


In [72]:
df = pd.DataFrame(photo_percent, index = ["photo_percent","sns_percent","sentiment_average"])
df

Unnamed: 0,heraldpop,osen,starnews,sbsfune,newsen
photo_percent,0.1854,0.428,0.1404,0.2668,0.4248
sns_percent,0.2526,0.0744,0.1378,0.0504,0.1386
sentiment_average,0.573141,0.588554,0.712856,0.631069,0.614526


# Split 감성 분석

In [91]:
df_s = pd.read_csv('SBS fune_split.csv')
df_s["sentiment_percent"] = np.nan
for i in range(1,5001):
        df_s["sentiment_percent"][i] = predict_sequential(args_predict, df_s["quote"][i])
        i +=1

df_s

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  after removing the cwd from sys.path.


KeyError: 423

In [93]:
df_s.to_csv("sbsfune_split_감성_추가.csv",index=None)

In [102]:
df_n = pd.read_csv('뉴센_split.csv')
df_n["sentiment_percent"] = np.nan
for i in range(1,158):
        df_n["sentiment_percent"][i] = predict_sequential(args_predict, df_n["text"][i])
        i +=1

df_n.to_csv("뉴센_split_감성_추가.csv",index =None)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  after removing the cwd from sys.path.


In [100]:
df_o = pd.read_csv('오센_split.csv')
df_o["sentiment_percent"] = np.nan
for i in range(1,216):
        df_o["sentiment_percent"][i] = predict_sequential(args_predict, df_o["text"][i])
        i +=1

df_o.to_csv("오센_split_감성_추가.csv",index =None)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  after removing the cwd from sys.path.


In [101]:
df_n

Unnamed: 0.1,Unnamed: 0,title,text,url,date,photo,tv,sns,ano,quote,sentiment_percent
0,0,"“성형 안해” 진지희, 성형금지 당할만한 바람직한 변천사",'정변의 아이콘' 진지희가 성형수술 의혹을 부인하면서 난데없이 진지희의 변천사가 다...,https://entertain.naver.com/ranking/read?oid=6...,2019.01.04. 오후 3:29,0,0,인스타그램,누리꾼,누리꾼들 사이에서 화제가 되고 있다.진지희는 지난 2009년 인기리에 방영된 MBC...,
1,1,‘아이템’ 주지훈 “현장 분위기 활기차” 화기애애 고사 공개,'아이템'의 화기애애한 고사 현장이 공개됐다.지난 12월 6일 경기도 안성에 위치한...,https://entertain.naver.com/ranking/read?oid=6...,2019.01.15. 오전 8:02,0,0,,관계자,"관계자는 ""배우와 제작진이 모두 모여 '아이템 파이팅'을 외치며 서로를 다독이는 훈...",0.415715
2,2,"‘눈이 부시게’ 김혜자, 노안 비웃는 네티즌에 “늙는거 한순간이야”",'눈이 부시게' 김혜자가 역대 최고의 연기 변신을 예고했다.'일단 뜨겁게 청소하라'...,https://entertain.naver.com/ranking/read?oid=6...,2019.01.15. 오전 9:09,0,0,,네티즌,"네티즌들에게 ""늙는 거 한순간이야 이것들아""로 따끔한 일침을 놓는다. 악플러를 향한...",0.672699
3,3,"트와이스 본상 수상 “올해 더 열심히 할 것, 지켜봐주길”[서울가요대상]",그룹 트와이스가 2019 서울가요대상 본상을 수상했다.트와이스는 1월 15일 서울 ...,https://entertain.naver.com/ranking/read?oid=6...,2019.01.15. 오후 9:36,0,0,,관계자,"관계자 분들 박진영 PD님 정말 감사드린다. 스태프, 매니저 언니 오빠도 감사드리고...",0.521472
4,4,"해피로봇레코드 측 “이요한-칵스 계약 해지, 본인 의사 존중”(전문)","싱어송라이터 이요한(OFA), 밴드 칵스가 해피로봇레코드와 전속계약을 해지한다.해피...",https://entertain.naver.com/ranking/read?oid=6...,2019.01.17. 오후 4:10,0,0,,관계자,관계자분들의 심려를 끼쳐드린 점 다시 한 번 진심으로 사과드립니다.(사진=해피로봇레...,0.556609
5,5,‘해투’ 하연수 “턱 안 쳤다” 과거사진 공개+성형의혹 해명,하연수의 어린시절 사진이 공개됐다.배우 하연수는 1월17일 방송된 KBS 2TV '...,https://entertain.naver.com/ranking/read?oid=6...,2019.01.18. 오전 12:20,0,0,,네티즌,"네티즌들이 '고쳤구나' 하면서 논란이 됐다""고 털어놨다. \n이와 함께 하연수는 ...",0.581774
6,6,"‘니알내아’ 로꼬, 입대 전 마지막 심경 공개[오늘TV]",래퍼 로꼬의 입대 전 마지막 모습이 공개된다.1월 24일 방송되는 Mnet '니가 ...,https://entertain.naver.com/ranking/read?oid=6...,2019.01.24. 오전 10:21,0,1,,관계자 측근 최측근,관계자 6인과 함께 일상 맞추기 퀴즈에 도전한다.특히 친어머니가 최초로 동반 출연함...,0.651443
7,7,"‘골목식당’ 덕 안 봤다는 뚝섬 사장님들, 잘했다면 덕도 봤을 텐데[TV와치]",SBS '골목식당' 뚝섬 사장님이 또 뿔이 났다. 방송이 끝난지 6개월이 지났건만 ...,https://entertain.naver.com/ranking/read?oid=6...,2019.01.29. 오전 9:38,0,0,유튜브,관계자,"관계자가 '사실은 이랬다' 식의 폭로가 아닌 데다, 이들은 줄기차게 '골목식당'에 ...",0.519949
8,8,"‘골목식당’ 몰래 촬영 논란 “촬영 동의없이 찍은 것, 해명해달라”",'골목식당'이 몰래 촬영 논란에 휩싸였다.SBS '백종원의 골목식당' 회기동 편에 ...,https://entertain.naver.com/ranking/read?oid=6...,2019.01.30. 오후 4:00,0,0,,A씨는,A씨는 온라인 커뮤니티를 통해 제작진의 몰래 촬영을 폭로했다.A 씨는 앞선 '백종원...,0.129993
9,9,"‘SKY 캐슬’ 종영 앞두고 잡음, OST ‘위올라이’ 표절-내부고발설까지","JTBC 금토드라마 'SKY 캐슬'이 종영을 앞두고 있는 가운데, OST 표절설로 ...",https://entertain.naver.com/ranking/read?oid=6...,2019.01.30. 오후 9:45,0,0,,네티즌 관계자,"네티즌들 사이에서도 의견이 분분하다. ""노래의 분위기와 기승전결이 비슷하다"" ""교묘...",0.390334


In [106]:
df_h = pd.read_csv('헤럴드팝_split.csv')
df_h["sentiment_percent"] = np.nan
for i in range(1,222):
        df_h["sentiment_percent"][i] = predict_sequential(args_predict, df_h["text"][i])
        i +=1

df_h.to_csv("헤럴드팝_split_감성_추가.csv",index =None)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  after removing the cwd from sys.path.


In [108]:
df_sn = pd.read_csv('스타뉴스_split.csv')
df_sn["sentiment_percent"] = np.nan
for i in range(1,664):
        df_sn["sentiment_percent"][i] = predict_sequential(args_predict, df_sn["text"][i])
        i +=1

df_sn.to_csv("스타뉴스_split_감성_추가.csv",index =None)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  after removing the cwd from sys.path.


In [110]:
ano_sent_percent={"heraldpop": [df_h["sentiment_percent"].mean()],
                        "osen": [df_o["sentiment_percent"].mean()],
                        "starnews": [df_sn["sentiment_percent"].mean()],
                        "sbsfune": [df_s["sentiment_percent"].mean()],
                        "newsen": [df_n["sentiment_percent"].mean()]}


In [111]:
pd.DataFrame(ano_sent_percent, index = ["percent"])

Unnamed: 0,heraldpop,osen,starnews,sbsfune,newsen
percent,0.579244,0.54016,0.660034,0.546667,0.537353
