In [1]:
# 빅카인즈 api를 활용해서 "메타버스" 뉴스의 인용문과 키워드를 출력하는 파이썬 코드

# 필요한 모듈 임포트
import requests
import json

# 빅카인즈 api 키와 url 설정
api_key = "830f5a0b-192a-44ee-9066-ef174c732aa1"
quotation_url = "http://tools.kinds.or.kr:8888/search/quotation"
keyword_url = "http://tools.kinds.or.kr:8888/search/news"

# 검색 조건 설정
params = {
    "access_key": api_key,
    "argument": {
        "query": "메타버스", # 검색어
        "published_at": { # 기간
            "from": "2022-01-01",
            "until": "2022-12-31"
        },
        "provider": [], # 언론사
        "category": [], # 분야
        "category_incident": [], # 사건/사고 분류
        "byline": "", # 기자
        "provider_subject": [""], # 주제
        "subject_info": [""], # 주제어
        "subject_info1": [""], # 주제어(인물)
        "subject_info2": [""], # 주제어(지역)
        "subject_info3": [""], # 주제어(기관)
        "subject_info4": [""], # 주제어(사건/사고)
        "sort": {"date": "desc"}, # 정렬 방식
        "hilight": 200, # 하이라이트 설정
        "return_from": 0, # 검색 시작 위치
        "return_size": 50, # 검색 결과 개수
        "fields": []
    }
}

# api 요청 및 응답 받기
quotation_response = requests.post(quotation_url, data=json.dumps(params))
quotation_data = quotation_response.json()
quotation_documents = quotation_data["return_object"]["documents"]

keyword_response = requests.post(keyword_url, data=json.dumps(params))
keyword_data = keyword_response.json()
keyword_documents = keyword_data["return_object"]["documents"]

# 응답 데이터에서 뉴스 인용문과 키워드 추출
quotes = []
keywords = []
for i in quotation_documents:
  quotes.append(i["quotation"])

for j in keyword_documents:
  keywords.append(j["title"])

# 인용문과 키워드 출력
print("인용문 개수:", len(quotes))
print("키워드 개수:", len(keywords))

인용문 개수: 45
키워드 개수: 45


In [2]:
# 수집된 텍스트 데이터를 전처리하여 불필요한 문자, 공백 등을 제거하고, 형태소 분석에 필요한 데이터만 추출
import re

# 전처리 함수 정의
def preprocess(text):
    # 불필요한 문자 제거
    text = re.sub(r"[^가-힣A-Za-z0-9 ]", "", text)
    # 공백 제거
    text = re.sub(r"\s+", " ", text)
    # 양쪽 공백 제거
    text = text.strip()
    return text

# 전처리된 인용문과 키워드 리스트 생성
preprocessed_quotes = []
preprocessed_keywords = []

for quote in quotes:
    preprocessed_quotes.append(preprocess(quote))

for keyword in keywords:
    preprocessed_keywords.append(preprocess(keyword))

# 전처리된 인용문과 키워드 출력
print("전처리된 인용문 개수:", len(preprocessed_quotes))
print("전처리된 키워드 개수:", len(preprocessed_keywords))

전처리된 인용문 개수: 45
전처리된 키워드 개수: 45


In [3]:
# 추출된 데이터에 대해 형태소 분석기를 적용하여, 단어를 형태소 단위로 분리하고, 각 형태소에 대한 품사 태그를 부착
from konlpy.tag import Okt

# 형태소 분석기 객체 생성
okt = Okt()

# 형태소 분석 결과를 저장할 리스트 생성
okt_quotes = []
okt_keywords = []

# 인용문에 대해 형태소 분석 수행
for quote in preprocessed_quotes:
    okt_quotes.append(okt.pos(quote))

# 키워드에 대해 형태소 분석 수행
for keyword in preprocessed_keywords:
    okt_keywords.append(okt.pos(keyword))

# 형태소 분석 결과 출력
print("Okt 인용문 개수:", len(okt_quotes))
print("Okt 키워드 개수:", len(okt_keywords))

Okt 인용문 개수: 45
Okt 키워드 개수: 45


In [4]:
# 형태소만 저장할 리스트 생성
okt_quotes_morphs = []
okt_keywords_morphs = []

# okt_quotes의 원소들을 반복문으로 순회
for quote in okt_quotes:
    # 형태소만 저장할 임시 리스트 생성
    temp = []
    # quote가 튜플 형태로 되어 있는 형태소와 품사 태그를 분리
    for morph, tag in quote:
        # 형태소만 임시 리스트에 추가
        temp.append(morph)
    # 임시 리스트를 okt_quotes_morphs에 추가
    okt_quotes_morphs.append(temp)

for keyword in okt_keywords:
    # 형태소만 저장할 임시 리스트 생성
    temp = []
    # quote가 튜플 형태로 되어 있는 형태소와 품사 태그를 분리
    for morph, tag in keyword:
        # 형태소만 임시 리스트에 추가
        temp.append(morph)
    # 임시 리스트를 okt_quotes_morphs에 추가
    okt_keywords_morphs.append(temp)

# 결과 출력
print("Okt 인용문 형태소 개수:", len(okt_quotes_morphs))
print("Okt 인용문 형태소:", okt_quotes_morphs)
print("Okt 키워드 형태소 개수:", len(okt_keywords_morphs))
print("Okt 키워드 형태소:", okt_keywords_morphs)

Okt 인용문 형태소 개수: 45
Okt 인용문 형태소: [['NFT', 'Nassau', 'NFT', 'PARARIUM', 'MZ', 'M', '2', 'EMove', 'to', 'Earn', 'MOU', '50', 'KFA', '1971', 'MZ', 'MZ', '3', '2021', '10', 'NFT', 'A', 'MBN', 'LG', '2', '3', '3'], ['oVice', 'NextRise', '2023', '1', '2', '5', '5', '450', 'ICT', '9', '400', 'LG', 'CNS', 'SK', 'G', '4000', '11'], ['20', 'there', '2023', '3', '25', '8', '16', '9', '37', '2', '1900', '20', '300', 'OASIS', 'RISES', 'GPT'], ['AFWP', '12', 'ip', '1050', '2022', 'CES', 'KIST', 'Pet', 'Face', 'ID', 'AFWP', '2021', '11', '2022', '8', 'Deep', 'tech', '2023', '5', '900', 'AFWP', 'IP'], ['SOULX', '7', '9', 'COMMUNIC', 'ASIA', '2023', 'ICT', '4', 'UFUI', 'KOTRA', 'XROOM', '3', 'D', '2', 'D', 'UIUX', 'DragampDrop', '1', 'MCN', 'IP', '1', 'CES', '2023', 'Company', 'Visit'], ['tripbtoz', 'VFX', 'SORI', '30', '3', 'D', '5', '12', '5', '1', '5', '2', 'VFX', '3'], ['AI', 'AI', 'MOU', '13', 'MOU', 'SaaS', '2', 'D', '3', 'D', 'OOBC', 'AI', 'AI', 'AI', 'AI', 'AI'], ['20', 'there', '2023', '21', '3

In [15]:
# 감정 분석을 위한 학습 데이터 불러오기
# 학습 데이터는 네이버 영화 리뷰 데이터를 사용하였습니다.
# 출처: https://github.com/e9t/nsmc
import pandas as pd

train_data = pd.read_csv("ratings_train.txt", sep="\t")
test_data = pd.read_csv("ratings_test.txt", sep="\t")
train_data = train_data.dropna(subset=["document"]) # document 열에 결측치가 있는 행을 제거
test_data = test_data.dropna(subset=["document"])

# 학습 데이터의 형태소 분석 결과를 저장할 리스트 생성
train_okt = []
test_okt = []

# 학습 데이터에 대해 형태소 분석 수행
for review in train_data["document"]:
    train_okt.append(okt.morphs(review))

for review in test_data["document"]:
    test_okt.append(okt.morphs(review))

# 형태소 분석 결과를 정수 인덱스로 변환하기 위한 사전 생성
from tensorflow.keras.preprocessing.text import Tokenizer

tokenizer = Tokenizer()
tokenizer.fit_on_texts(train_okt)

# 사전에 없는 단어는 0으로 처리하기 위해 인덱스를 1부터 시작하도록 설정
tokenizer.word_index = {key: value + 1 for key, value in tokenizer.word_index.items()}
tokenizer.word_index["<PAD>"] = 0 # 패딩을 위한 특수 토큰

# 형태소 분석 결과를 정수 인덱스로 변환
train_sequences = tokenizer.texts_to_sequences(train_okt)
test_sequences = tokenizer.texts_to_sequences(test_okt)

# 정수 인덱스로 변환된 데이터의 길이를 통일하기 위해 패딩 추가
from tensorflow.keras.preprocessing.sequence import pad_sequences

# max_length = 30 # 최대 길이 설정
train_padded = pad_sequences(train_sequences, padding="post")
test_padded = pad_sequences(test_sequences, padding="post")

# 학습 데이터의 레이블(감성)을 numpy 배열로 변환
import numpy as np

train_labels = np.array(train_data["label"])
test_labels = np.array(test_data["label"])

In [7]:
# LSTM 모델을 사용하여 감정 분석 수행
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense

vocab_size = len(tokenizer.word_index) + 1 # 단어 사전의 크기
embedding_dim = 100 # 임베딩 차원

model = Sequential()
model.add(Embedding(vocab_size, embedding_dim))
model.add(LSTM(128))
model.add(Dense(1, activation="sigmoid"))

model.compile(optimizer="adam", loss="binary_crossentropy", metrics=["accuracy"])
model.summary()

# 모델 학습
model.fit(train_padded, train_labels, epochs=10, batch_size=64, validation_split=0.2)

# 모델 평가
model.evaluate(test_padded, test_labels)

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding (Embedding)       (None, None, 100)         10416200  
                                                                 
 lstm (LSTM)                 (None, 128)               117248    
                                                                 
 dense (Dense)               (None, 1)                 129       
                                                                 
Total params: 10,533,577
Trainable params: 10,533,577
Non-trainable params: 0
_________________________________________________________________
Epoch 1/10


2023-07-05 13:21:46.050487: I tensorflow/core/common_runtime/executor.cc:1197] [/device:CPU:0] (DEBUG INFO) Executor start aborting (this does not indicate an error and you can ignore this message): INVALID_ARGUMENT: You must feed a value for placeholder tensor 'gradients/split_2_grad/concat/split_2/split_dim' with dtype int32
	 [[{{node gradients/split_2_grad/concat/split_2/split_dim}}]]
2023-07-05 13:21:46.052386: I tensorflow/core/common_runtime/executor.cc:1197] [/device:CPU:0] (DEBUG INFO) Executor start aborting (this does not indicate an error and you can ignore this message): INVALID_ARGUMENT: You must feed a value for placeholder tensor 'gradients/split_grad/concat/split/split_dim' with dtype int32
	 [[{{node gradients/split_grad/concat/split/split_dim}}]]
2023-07-05 13:21:46.054210: I tensorflow/core/common_runtime/executor.cc:1197] [/device:CPU:0] (DEBUG INFO) Executor start aborting (this does not indicate an error and you can ignore this message): INVALID_ARGUMENT: You mus



2023-07-05 13:25:35.774324: I tensorflow/core/common_runtime/executor.cc:1197] [/device:CPU:0] (DEBUG INFO) Executor start aborting (this does not indicate an error and you can ignore this message): INVALID_ARGUMENT: You must feed a value for placeholder tensor 'gradients/split_2_grad/concat/split_2/split_dim' with dtype int32
	 [[{{node gradients/split_2_grad/concat/split_2/split_dim}}]]
2023-07-05 13:25:35.776355: I tensorflow/core/common_runtime/executor.cc:1197] [/device:CPU:0] (DEBUG INFO) Executor start aborting (this does not indicate an error and you can ignore this message): INVALID_ARGUMENT: You must feed a value for placeholder tensor 'gradients/split_grad/concat/split/split_dim' with dtype int32
	 [[{{node gradients/split_grad/concat/split/split_dim}}]]
2023-07-05 13:25:35.779245: I tensorflow/core/common_runtime/executor.cc:1197] [/device:CPU:0] (DEBUG INFO) Executor start aborting (this does not indicate an error and you can ignore this message): INVALID_ARGUMENT: You mus

Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


[0.870735228061676, 0.8332899808883667]

In [8]:
# 웹3 산업 관련 인용문에 대해 감정 분석 수행
quotes_padded = pad_sequences(tokenizer.texts_to_sequences(okt_quotes_morphs), padding="post")
quotes_pred = model.predict(quotes_padded)
quotes_pred = np.round(quotes_pred).flatten() # 예측값을 반올림하여 0(부정) 또는 1(긍정)으로 변환

# 웹3 산업 관련 키워드에 대해 감정 분석 수행
keywords_padded = pad_sequences(tokenizer.texts_to_sequences(okt_keywords_morphs), padding="post")
keywords_pred = model.predict(keywords_padded)
keywords_pred = np.round(keywords_pred).flatten() # 예측값을 반올림하여 0(부정) 또는 1(긍정)으로 변환

2023-07-05 14:02:51.336019: I tensorflow/core/common_runtime/executor.cc:1197] [/device:CPU:0] (DEBUG INFO) Executor start aborting (this does not indicate an error and you can ignore this message): INVALID_ARGUMENT: You must feed a value for placeholder tensor 'gradients/split_2_grad/concat/split_2/split_dim' with dtype int32
	 [[{{node gradients/split_2_grad/concat/split_2/split_dim}}]]
2023-07-05 14:02:51.337892: I tensorflow/core/common_runtime/executor.cc:1197] [/device:CPU:0] (DEBUG INFO) Executor start aborting (this does not indicate an error and you can ignore this message): INVALID_ARGUMENT: You must feed a value for placeholder tensor 'gradients/split_grad/concat/split/split_dim' with dtype int32
	 [[{{node gradients/split_grad/concat/split/split_dim}}]]
2023-07-05 14:02:51.339874: I tensorflow/core/common_runtime/executor.cc:1197] [/device:CPU:0] (DEBUG INFO) Executor start aborting (this does not indicate an error and you can ignore this message): INVALID_ARGUMENT: You mus



2023-07-05 14:02:51.892380: I tensorflow/core/common_runtime/executor.cc:1197] [/device:CPU:0] (DEBUG INFO) Executor start aborting (this does not indicate an error and you can ignore this message): INVALID_ARGUMENT: You must feed a value for placeholder tensor 'gradients/split_2_grad/concat/split_2/split_dim' with dtype int32
	 [[{{node gradients/split_2_grad/concat/split_2/split_dim}}]]
2023-07-05 14:02:51.894479: I tensorflow/core/common_runtime/executor.cc:1197] [/device:CPU:0] (DEBUG INFO) Executor start aborting (this does not indicate an error and you can ignore this message): INVALID_ARGUMENT: You must feed a value for placeholder tensor 'gradients/split_grad/concat/split/split_dim' with dtype int32
	 [[{{node gradients/split_grad/concat/split/split_dim}}]]
2023-07-05 14:02:51.896160: I tensorflow/core/common_runtime/executor.cc:1197] [/device:CPU:0] (DEBUG INFO) Executor start aborting (this does not indicate an error and you can ignore this message): INVALID_ARGUMENT: You mus



In [11]:
# 인용문에 대한 감성 지수 계산
quotes_pos = np.sum(quotes_pred == 1) # 긍정 감성 점수
quotes_neg = np.sum(quotes_pred == 0) # 부정 감성 점수
quotes_score = (quotes_pos - quotes_neg) / (quotes_pos + quotes_neg) # 감성 지수

# 키워드에 대한 감성 지수 계산
keywords_pos = np.sum(keywords_pred == 1) # 긍정 감성 점수
keywords_neg = np.sum(keywords_pred == 0) # 부정 감성 점수
keywords_score = (keywords_pos - keywords_neg) / (keywords_pos + keywords_neg) # 감성 지수

# 감성 지수 출력
print("인용문의 감성 지수:", quotes_score)
print("키워드의 감성 지수:", keywords_score)

[0. 0. 1. 0. 0. 0. 0. 0. 1. 1. 1. 1. 1. 0. 0. 1. 1. 1. 1. 0. 1. 1. 1. 0.
 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 1. 1. 0. 0.] 18
인용문의 감성 지수: -0.2
키워드의 감성 지수: 0.2
