In [3]:
import json
file_name = '코로나_naver_news'
with open('./data/' + file_name + '.json', encoding='utf8') as j_f:
    data = json.load(j_f)

In [4]:
data_title = []
data_description = []

for item in data:
    data_title.append(item['title'])
    data_description.append(item['description'])

In [8]:
import pandas as pd
import re

In [6]:
data_df = pd.DataFrame({'title':data_title, 'description':data_description})

In [9]:
data_df['title'] = data_df['title'].apply(lambda x : re.sub(r'[^ ㄱ-ㅣ 가-힣]+', " ", x))
data_df['description'] = data_df['description'].apply(lambda x : re.sub(r'[^ ㄱ-ㅣ 가-힣]+', " ", x))

In [10]:
data_df.head()

Unnamed: 0,title,description
0,당근알바 동네 가게 사장님 위한 알바 구인 이벤트,사장님들이 당근알바를 이용해 동네에서 빠르게 필요한 일손을 구하고 당근알바가 준비한...
1,자영업자 연체율 로 상승 년내 최고치 다중채무자 비중 달해,대출잔액 조원 사상 최대 기록 경신 금융 연체율 상승 저축은행 최근 수년...
2,게시판 글로벌 바이오 교육생 차바이오그룹 견학,글로벌 바이오 인력양성 허브는 코로나 를 계기로 지역별 백신 바이오의약품 생산...
3,배위량 선교사의 첫 걸음으로 이룬 안동지역 근대화 조명,한편 김승학 목사는 이번 포럼과 관련해 배위량 선교사의 첫 발걸음이 단순히 교회 ...
4,화장품 중국 전략 재검토 및 수정 시급,그러나 년전에는 코로나 가 퍼지고 경제가 침체된 년이었고 행사의 부진은 당연...


In [12]:
from konlpy.tag import Okt

# 형태소 분석에 사용할 클래스 객체 생성
okt = Okt()

In [13]:
# 각 형태소 토큰화
def okt_tokenizer(text):
    tokens = okt.morphs(text)
    return tokens

In [17]:
# TF - IDF 기반 벡터화를 위한 사이킷런 객체 생성
from sklearn.feature_extraction.text import TfidfVectorizer

#tokenizer : 토큰 생성기
# ngram_range: 토큰의 단어 크기
# min_df: 토큰의 최소 출현 빈도
# max_df: 최대 빈도(퍼센트)
tfidf = TfidfVectorizer(tokenizer=okt_tokenizer, ngram_range=(1, 2), min_df=3, max_df=0.9)

In [18]:
data_title_tfidf = tfidf.transform(data_df['title'])

data_title_predict = SA_lr_best.predict(data_title_tfidf)

data_df['title_label'] = data_title_predict
data_description_tfidf = tfidf.transform(data_df['description'])

data_description_predict = SA_lr_best.predict(data_description_tfidf)

data_df['description_label'] = data_description_predict
# csv 파일로 저장 ---------------------------------------------
data_df.to_csv('./data/코로나new_label.csv', encoding='euc-kr')

NotFittedError: The TF-IDF vectorizer is not fitted

In [None]:
columns_name = ['title','title_label','description','description_label']
NEG_data_df = pd.DataFrame(columns=columns_name)
POS_data_df = pd.DataFrame(columns=columns_name)

In [None]:
for i, data in data_df.iterrows(): 
    title = data["title"] 
    description = data["description"] 
    t_label = data["title_label"] 
    d_label = data["description_label"] 
    
    if d_label == 0: # 부정 감성 샘플만 추출
        NEG_data_df = NEG_data_df._append(pd.DataFrame([[title, t_label, description, d_label]],columns=columns_name),ignore_index=True)
    else : # 긍정 감성 샘플만 추출
        POS_data_df = POS_data_df._append(pd.DataFrame([[title, t_label, description, d_label]],columns=columns_name),
# 파일에 저장.
NEG_data_df.to_csv('./data/코로나_news_NES.csv', encoding='euc-kr') 
POS_data_df.to_csv('./data/코로나_news_POS.csv', encoding='euc-kr')

In [None]:
len(NEG_data_df), len(POS_data_df)

In [None]:
POS_description = POS_data_df['description']

POS_description_noun_tk = []

for d in POS_description:
    POS_description_noun_tk.append(okt.nouns(d)) #형태소가 명사인 것만 추출

In [None]:
POS_description_noun_join = []

for d in POS_description_noun_tk:
    d2 = [w for w in d if len(w) > 1] #길이가 1인 토큰은 제외
    POS_description_noun_join.append(" ".join(d2))

In [None]:
POS_tfidf = TfidfVectorizer(tokenizer = okt_tokenizer, min_df=2 )
POS_dtm = POS_tfidf.fit_transform(POS_description_noun_join)

In [None]:
POS_vocab = dict() 

for idx, word in enumerate(POS_tfidf.get_feature_names()):
    POS_vocab[word] = POS_dtm.getcol(idx).sum() # 단어별 TF-IDF 합
    
POS_words = sorted(POS_vocab.items(), key=lambda x: x[1], reverse=True)

In [None]:
POS_words

In [None]:
from matplotlib import pyplot as plt
from matplotlib import rcParams, style
style.use('ggplot')

from matplotlib import font_manager, rc
font_name = font_manager.FontProperties(fname="c:/Windows/Fonts/malgun.ttf").get_name()
rc('font', family=font_name)

max = 15  #바 차트에 나타낼 단어의 수

In [None]:
plt.bar(range(max), [i[1] for i in POS_words[:max]], color="blue")
plt.title("긍정 뉴스의 단어 상위 %d개" %max, fontsize=15)
plt.xlabel("단어", fontsize=12)
plt.ylabel("TF-IDF의 합", fontsize=12)
plt.xticks(range(max), [i[0] for i in POS_words[:max]], rotation=70)

plt.show()

In [None]:
NEG_description = NEG_data_df['description']

NEG_description_noun_tk = []
NEG_description_noun_join = []

for d in NEG_description:
    NEG_description_noun_tk.append(okt.nouns(d)) #형태소가 명사인 것만 추출
    
for d in NEG_description_noun_tk:
    d2 = [w for w in d if len(w) > 1]  #길이가 1인 토큰은 제외
    NEG_description_noun_join.append(" ".join(d2)) # 토큰을 연결(join)하여 리스트 구성
NEG_tfidf = TfidfVectorizer(tokenizer = okt_tokenizer, min_df=2 )
NEG_dtm = NEG_tfidf.fit_transform(NEG_description_noun_join)

In [None]:
NEG_vocab = dict() 

for idx, word in enumerate(NEG_tfidf.get_feature_names()):
    NEG_vocab[word] = NEG_dtm.getcol(idx).sum()

In [None]:
for idx, word in enumerate(NEG_tfidf.get_feature_names()):
    NEG_vocab[word] = NEG_dtm.getcol(idx).sum()

In [None]:
NEG_words = sorted(NEG_vocab.items(), key=lambda x: x[1], reverse=True)
plt.bar(range(max), [i[1] for i in NEG_words[:max]], color="red")
plt.title("부정 뉴스의 단어 상위 %d개" %max, fontsize=15)
plt.xlabel("단어", fontsize=12)
plt.ylabel("TF-IDF의 합", fontsize=12)
plt.xticks(range(max), [i[0] for i in NEG_words[:max]], rotation=70)

plt.show()