# 파일 소개 
* **파일 내용: 회사별로 분류한 뉴스 데이터 중 HYBE 의 데이터를 이용하여 이벤트 변수를 생성하고자 함**
* **1)** ***'이벤트성 '*** **키워드를 새롭게 지정**
* **2) 이벤트성 키워드를 포함하는 뉴스 기사만 필터링** 
* **3) 필터링을 거친 뉴스 기사에 대한 감정 지수(기존에 구해둔 것)을 이용**

# 데이터 및 패키지 로드 

In [1]:
# 패키지 로드 
import pandas as pd 
import sys # clova sentiment
import requests # clova sentiment
import json # clova sentiment
import numpy as np

In [2]:
# 데이터 로드 
news_hybe = pd.read_excel("../../../data/News/news_classified_hybe.xlsx")
news_sm = pd.read_excel("../../../data/News/news_classified_sm.xlsx")
news_yg = pd.read_excel("../../../data/News/news_classified_yg.xlsx")
news_jyp = pd.read_excel("../../../data/News/news_classified_jyp.xlsx")

# 이벤트 변수 생성

## 이벤트 키워드 지정

In [3]:
event = ['컴백', '데뷔', '신곡','신인', '콘서트', '매진', '페스티벌', '축제', '발매' ,'합병','인수']

### 이벤트 키워드 포함하고, COMPANY 변수가 각 회사명인 뉴스 기사만 필터링

In [4]:
filtered_news_hybe = news_hybe[(news_hybe['TITLE'].str.contains('|'.join(event))&(news_hybe['COMPANY']=='HYBE'))]
filtered_news_sm = news_sm[(news_sm['TITLE'].str.contains('|'.join(event))&(news_sm['COMPANY']=='SM'))]
filtered_news_yg = news_yg[(news_yg['TITLE'].str.contains('|'.join(event))&(news_yg['COMPANY']=='YG'))]
filtered_news_jyp = news_jyp[(news_jyp['TITLE'].str.contains('|'.join(event))&(news_jyp['COMPANY']=='JYP'))]

### 날짜별로 감정지수 변수 값 총합 구하기

In [5]:
# 'DATE_NEW'를 기준으로 그룹화하여 'SENTIMENT'의 합 계산
hybe_df = filtered_news_hybe.groupby('DATE_NEW').agg({'SENTIMENT': 'sum', 'DAY': 'first'}).reset_index()
sm_df = filtered_news_sm.groupby('DATE_NEW').agg({'SENTIMENT': 'sum', 'DAY': 'first'}).reset_index()
yg_df = filtered_news_yg.groupby('DATE_NEW').agg({'SENTIMENT': 'sum', 'DAY': 'first'}).reset_index()
jyp_df = filtered_news_jyp.groupby('DATE_NEW').agg({'SENTIMENT': 'sum', 'DAY': 'first'}).reset_index()

# 열 이름 변경
hybe_df = hybe_df.rename(columns={'DATE_NEW': 'DATE', 'SENTIMENT': 'SENTIMENT_SUM', 'DAY': 'DAY'})
sm_df = sm_df.rename(columns={'DATE_NEW': 'DATE', 'SENTIMENT': 'SENTIMENT_SUM', 'DAY': 'DAY'})
yg_df = yg_df.rename(columns={'DATE_NEW': 'DATE', 'SENTIMENT': 'SENTIMENT_SUM', 'DAY': 'DAY'})
jyp_df = jyp_df.rename(columns={'DATE_NEW': 'DATE', 'SENTIMENT': 'SENTIMENT_SUM', 'DAY': 'DAY'})

### 월요일의 감정지수 변수는 3으로 나눠주기 

In [6]:
for i in range(len(hybe_df)):
    if hybe_df['DAY'].iloc[i] == '월':
        hybe_df['SENTIMENT_SUM'].iloc[i] = (hybe_df['SENTIMENT_SUM'].iloc[i])/3
        
for i in range(len(sm_df)):
    if sm_df['DAY'].iloc[i] == '월':
        sm_df['SENTIMENT_SUM'].iloc[i] = (sm_df['SENTIMENT_SUM'].iloc[i])/3
        
for i in range(len(yg_df)):
    if yg_df['DAY'].iloc[i] == '월':
        yg_df['SENTIMENT_SUM'].iloc[i] = (yg_df['SENTIMENT_SUM'].iloc[i])/3
        
for i in range(len(jyp_df)):
    if jyp_df['DAY'].iloc[i] == '월':
        jyp_df['SENTIMENT_SUM'].iloc[i] = (jyp_df['SENTIMENT_SUM'].iloc[i])/3

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  hybe_df['SENTIMENT_SUM'].iloc[i] = (hybe_df['SENTIMENT_SUM'].iloc[i])/3
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  sm_df['SENTIMENT_SUM'].iloc[i] = (sm_df['SENTIMENT_SUM'].iloc[i])/3
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  yg_df['SENTIMENT_SUM'].iloc[i] = (yg_df['SENTIMENT_SUM'].iloc[i])/3
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexin

# 엑셀 파일로 저장

In [7]:
# 엑셀 파일로 저장 
excel_filename = '../../../data/News/event_hybe.xlsx'
hybe_df.to_excel(excel_filename, index=False)

In [8]:
# 엑셀 파일로 저장 
excel_filename = '../../../data/News/event_sm.xlsx'
sm_df.to_excel(excel_filename, index=False)

In [9]:
# 엑셀 파일로 저장 
excel_filename = '../../../data/News/event_yg.xlsx'
yg_df.to_excel(excel_filename, index=False)

In [10]:
# 엑셀 파일로 저장 
excel_filename = '../../../data/News/event_jyp.xlsx'
jyp_df.to_excel(excel_filename, index=False)

In [11]:
print('-----------HYBE----------')
print(hybe_df.info())
print('-----------SM----------')
print(sm_df.info())
print('-----------YG----------')
print(yg_df.info())
print('-----------JYP----------')
print(jyp_df.info())

-----------HYBE----------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 55 entries, 0 to 54
Data columns (total 3 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   DATE           55 non-null     datetime64[ns]
 1   SENTIMENT_SUM  55 non-null     float64       
 2   DAY            55 non-null     object        
dtypes: datetime64[ns](1), float64(1), object(1)
memory usage: 1.4+ KB
None
-----------SM----------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 42 entries, 0 to 41
Data columns (total 3 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   DATE           42 non-null     datetime64[ns]
 1   SENTIMENT_SUM  42 non-null     float64       
 2   DAY            42 non-null     object        
dtypes: datetime64[ns](1), float64(1), object(1)
memory usage: 1.1+ KB
None
-----------YG----------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17 entries