- 참고 : https://sieon-dev.tistory.com/15

## 1. 모듈 import (필요없는 모듈 삭제, 필요한 모듈 추가하면서 진행)
- pandas
- numpy
- matplotlib
- re
- konlpy
- tensorflow
- seaborn
- pandas_profiling

In [1]:
import sys
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import re
from konlpy.tag import Okt
from tqdm import tqdm
import tensorflow
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
import warnings
warnings.filterwarnings("ignore")
import seaborn as sns
import pandas_profiling
import sklearn
from sklearn.model_selection import train_test_split
import collections
from collections import Counter
import exchange_calendars as ecals
import datetime
import time
from wordcloud import WordCloud
import matplotlib as mpl
import nltk

### 1-1. 파이썬 & 모듈 버전 확인 (필요없는 모듈 삭제, 필요한 모듈 추가하면서 진행)

In [2]:
print(" python version : ", sys.version, "\n", "-" * 100)
print(" pandas version : ", pd.__version__, "\n", "-" * 100)
print(" numpy version : ", np.__version__, "\n", "-" * 100)
print(" re version : ", re.__version__, "\n", "-" * 100)
print(" tensorflow version : ", tensorflow.__version__, "\n", "-" * 100)
print(" seaborn version : ", sns.__version__, "\n", "-" * 100)
print(" pandas_profiling version : ", pandas_profiling.__version__, "\n", "-" * 100)
print(" sklearn version : ", sklearn.__version__, "\n", "-" * 100)
print(" exhange_calendars version : ", ecals.__version__, "\n", "-" * 100)
print(" nltk version : ", nltk.__version__, "\n", "-" * 100)

 python version :  3.8.8 (tags/v3.8.8:024d805, Feb 19 2021, 13:18:16) [MSC v.1928 64 bit (AMD64)] 
 ----------------------------------------------------------------------------------------------------
 pandas version :  1.4.1 
 ----------------------------------------------------------------------------------------------------
 numpy version :  1.22.3 
 ----------------------------------------------------------------------------------------------------
 re version :  2.2.1 
 ----------------------------------------------------------------------------------------------------
 tensorflow version :  2.8.0 
 ----------------------------------------------------------------------------------------------------
 seaborn version :  0.11.2 
 ----------------------------------------------------------------------------------------------------
 pandas_profiling version :  3.1.0 
 ----------------------------------------------------------------------------------------------------
 sklearn version : 

### 1-2. 컴퓨터 사양 확인

![](2022-03-24-13-31-45.png)

## 2. 데이터 불러오기

In [3]:
# 뉴스데이터 불러오기
newsdata = pd.read_csv("../data/Newsfile3.csv", encoding='euc-kr')
newsdata.tail(3)

Unnamed: 0,date,title
58439,20151019,"[특징주]제주반도체, 美·中 대규모 투자유치에 '上'"
58440,20151019,[반도체] 2016 반도체 투자 감소 예상 - 미래
58441,20151019,"제주반도체, '해외투자유치설' 조회공시 요구"


### 2-1. 휴장일 데이터 매칭

In [4]:
# newsdata의 datatype 확인
newsdata.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 58442 entries, 0 to 58441
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   date    58442 non-null  int64 
 1   title   58442 non-null  object
dtypes: int64(1), object(1)
memory usage: 913.3+ KB


- type 변환

In [5]:
# datatype : int -> string
newsdata = newsdata.astype({'date':'string'})
newsdata.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 58442 entries, 0 to 58441
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   date    58442 non-null  string
 1   title   58442 non-null  object
dtypes: object(1), string(1)
memory usage: 913.3+ KB


In [6]:
# datatype : string -> datetime
newsdata['date'] = pd.to_datetime(newsdata['date'])
newsdata.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 58442 entries, 0 to 58441
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   date    58442 non-null  datetime64[ns]
 1   title   58442 non-null  object        
dtypes: datetime64[ns](1), object(1)
memory usage: 913.3+ KB


- 뉴스데이터의 처음 날짜와 마지막 날짜 확인

In [7]:
first_date = newsdata['date'][0]
last_date = newsdata['date'][-1:]
print(first_date, last_date)

2022-03-16 00:00:00 58441   2015-10-19
Name: date, dtype: datetime64[ns]


In [8]:
# newsdata -> newsdata_all : 처음 날짜와 마지막 날짜가 포함된 데이터로 이름 변결
newsdata_all = newsdata[newsdata['date'].between('2015-10-19', '2022-03-16')]
newsdata_all

Unnamed: 0,date,title
0,2022-03-16,"유럽 반도체 공급망 지원 호응… 인텔, 10년간 110조 통큰 투자"
1,2022-03-16,반도체 또다시 ‘쩐의 전쟁‘…인텔 “유럽 전역에 110조 투자”
2,2022-03-16,"“韓, 세계 2위 中수입시장 비중 줄어…반도체 외 돌파구 필요”"
3,2022-03-16,"[특징주] 코리아써키트, 반도체 패키지기판 성장 기대감에 5%↑"
4,2022-03-16,"[특징주] 반도체 대장주 강세…SK하이닉스, 2% 넘게 상승"
...,...,...
58437,2015-10-19,세계 반도체 M&A 1006억달러
58438,2015-10-19,반도체社 인수·합병 봇물…올 들어 1000억달러 돌파
58439,2015-10-19,"[특징주]제주반도체, 美·中 대규모 투자유치에 '上'"
58440,2015-10-19,[반도체] 2016 반도체 투자 감소 예상 - 미래


- 리스트로 변환

In [9]:
# 'date' 컬럼 리스트로 변경
news = newsdata_all['date'].to_list()
news[:5]

[Timestamp('2022-03-16 00:00:00'),
 Timestamp('2022-03-16 00:00:00'),
 Timestamp('2022-03-16 00:00:00'),
 Timestamp('2022-03-16 00:00:00'),
 Timestamp('2022-03-16 00:00:00')]

### 2-2. 한국 거래소 개장일 확인

In [10]:
# 한국코드
XKRX = ecals.get_calendar("XKRX")       
# 2021-01-01은 개장일인지 확인 : 'False' -> 휴장일 , 'True' -> 개장일
print("2021-01-01 개장 확인: ", XKRX.is_session('2021-01-01'))    
# 오늘(22-03-24)은 개장일인지 확인 :'False' -> 휴장일 , 'True' -> 개장일
print("오늘날짜 개장일 확인: ", XKRX.is_session(datetime.date.today().strftime('%Y-%m-%d')))  
# 다음 개장일은 언제인지 확인
print("다음 개장일 날짜 확인: ", XKRX.next_open(pd.Timestamp.today().strftime('%Y-%m-%d')))

2021-01-01 개장 확인:  False
오늘날짜 개장일 확인:  False
다음 개장일 날짜 확인:  2022-03-28 00:00:00+00:00


In [11]:
# 뉴스데이터 날짜 다음날에 해당하는 개장일 날짜 확인
next_open_list = []

for day in news:
    next_open_date = XKRX.next_open(day)
    next_open_list.append(next_open_date)

In [12]:
next_open_list[:5]

[Timestamp('2022-03-17 00:00:00+0000', tz='UTC'),
 Timestamp('2022-03-17 00:00:00+0000', tz='UTC'),
 Timestamp('2022-03-17 00:00:00+0000', tz='UTC'),
 Timestamp('2022-03-17 00:00:00+0000', tz='UTC'),
 Timestamp('2022-03-17 00:00:00+0000', tz='UTC')]

In [13]:
# 뉴스나온 날짜 다음 개장일 컬럼 추가
newsdata_all['NextOpenDate'] = next_open_list
newsdata_all.head(3)

Unnamed: 0,date,title,NextOpenDate
0,2022-03-16,"유럽 반도체 공급망 지원 호응… 인텔, 10년간 110조 통큰 투자",2022-03-17 00:00:00+00:00
1,2022-03-16,반도체 또다시 ‘쩐의 전쟁‘…인텔 “유럽 전역에 110조 투자”,2022-03-17 00:00:00+00:00
2,2022-03-16,"“韓, 세계 2위 中수입시장 비중 줄어…반도체 외 돌파구 필요”",2022-03-17 00:00:00+00:00


In [14]:
newsdata_all.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 58442 entries, 0 to 58441
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype              
---  ------        --------------  -----              
 0   date          58442 non-null  datetime64[ns]     
 1   title         58442 non-null  object             
 2   NextOpenDate  58442 non-null  datetime64[ns, UTC]
dtypes: datetime64[ns, UTC](1), datetime64[ns](1), object(1)
memory usage: 1.8+ MB


- type 변환

In [15]:
newsdata_all = newsdata_all.astype({'NextOpenDate':'string'})
newsdata_all.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 58442 entries, 0 to 58441
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   date          58442 non-null  datetime64[ns]
 1   title         58442 non-null  object        
 2   NextOpenDate  58442 non-null  string        
dtypes: datetime64[ns](1), object(1), string(1)
memory usage: 1.8+ MB


In [16]:
a = newsdata_all['NextOpenDate'][0]
b = a.split(' ')[0]
b

'2022-03-17'

In [17]:
newsdata_all['NextOpenDate'] = newsdata_all['NextOpenDate'].apply(lambda x: x.split(' ')[0])
newsdata_all.head(3)

Unnamed: 0,date,title,NextOpenDate
0,2022-03-16,"유럽 반도체 공급망 지원 호응… 인텔, 10년간 110조 통큰 투자",2022-03-17
1,2022-03-16,반도체 또다시 ‘쩐의 전쟁‘…인텔 “유럽 전역에 110조 투자”,2022-03-17
2,2022-03-16,"“韓, 세계 2위 中수입시장 비중 줄어…반도체 외 돌파구 필요”",2022-03-17


In [18]:
newsdata_all['NextOpenDate'] = pd.to_datetime(newsdata_all['NextOpenDate'])
newsdata_all.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 58442 entries, 0 to 58441
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   date          58442 non-null  datetime64[ns]
 1   title         58442 non-null  object        
 2   NextOpenDate  58442 non-null  datetime64[ns]
dtypes: datetime64[ns](2), object(1)
memory usage: 3.8+ MB


In [19]:
# 개장일 기준 'Year' 컬럼 추가
newsdata_all['NextOpenDateYear'] = newsdata_all['NextOpenDate'].dt.year
newsdata_all.head(3)

Unnamed: 0,date,title,NextOpenDate,NextOpenDateYear
0,2022-03-16,"유럽 반도체 공급망 지원 호응… 인텔, 10년간 110조 통큰 투자",2022-03-17,2022
1,2022-03-16,반도체 또다시 ‘쩐의 전쟁‘…인텔 “유럽 전역에 110조 투자”,2022-03-17,2022
2,2022-03-16,"“韓, 세계 2위 中수입시장 비중 줄어…반도체 외 돌파구 필요”",2022-03-17,2022


In [20]:
# col의 인덱스 변경
col = newsdata_all.columns.to_numpy()
col

array(['date', 'title', 'NextOpenDate', 'NextOpenDateYear'], dtype=object)

In [21]:
col = col[[0,3,2,1]]
col

array(['date', 'NextOpenDateYear', 'NextOpenDate', 'title'], dtype=object)

In [22]:
newsdata_all = newsdata_all[col]
newsdata_all.head(3)

Unnamed: 0,date,NextOpenDateYear,NextOpenDate,title
0,2022-03-16,2022,2022-03-17,"유럽 반도체 공급망 지원 호응… 인텔, 10년간 110조 통큰 투자"
1,2022-03-16,2022,2022-03-17,반도체 또다시 ‘쩐의 전쟁‘…인텔 “유럽 전역에 110조 투자”
2,2022-03-16,2022,2022-03-17,"“韓, 세계 2위 中수입시장 비중 줄어…반도체 외 돌파구 필요”"


## 3. 데이터 확인

In [23]:
# 데이터 갯수 : 58442개
# 컬럼 갯수 : 4개
newsdata_all.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 58442 entries, 0 to 58441
Data columns (total 4 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   date              58442 non-null  datetime64[ns]
 1   NextOpenDateYear  58442 non-null  int64         
 2   NextOpenDate      58442 non-null  datetime64[ns]
 3   title             58442 non-null  object        
dtypes: datetime64[ns](2), int64(1), object(1)
memory usage: 4.2+ MB


- 결측치 확인

In [24]:
# 결측치 확인
newsdata_all.isnull().sum()

date                0
NextOpenDateYear    0
NextOpenDate        0
title               0
dtype: int64

## 4. 기업별 '현재가', '당일종가-어제종가', '상승률', 'label' 데이터와 뉴스데이터 병합

### 4-1. 반도체 기업 데이터 불러오기 : 005290

In [25]:
df1 = pd.read_excel('../data/반도체주가데이터/반도체주가데이터/덕산네오룩스(213420).xlsx')
df1.head(2)

Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,일자,현재가,당일종가-어제종가,상승률,label
0,0,0,20220314,39050,-1550,-0.038177,0
1,1,1,20220311,40600,-550,-0.013366,0


In [26]:
df1.drop(columns=['Unnamed: 0.1', 'Unnamed: 0'], inplace=True)
df1.head(2)

Unnamed: 0,일자,현재가,당일종가-어제종가,상승률,label
0,20220314,39050,-1550,-0.038177,0
1,20220311,40600,-550,-0.013366,0


- 긍정 & 부정 라벨링
    - 상승률이 0보다 크면 `1`로 매칭
    - 상승률이 0보다 작으면 `0`으로 매칭

In [27]:
df1['label'] = df1.apply(lambda x: 1 if x['상승률'] >= 0 else 0, axis=1)
df1

Unnamed: 0,일자,현재가,당일종가-어제종가,상승률,label
0,20220314,39050,-1550,-0.038177,0
1,20220311,40600,-550,-0.013366,0
2,20220310,41150,1150,0.028750,1
3,20220308,40000,100,0.002506,1
4,20220307,39900,-1300,-0.031553,0
...,...,...,...,...,...
1739,20150212,11774,-526,-0.042764,0
1740,20150211,12300,176,0.014517,1
1741,20150210,12124,-852,-0.065660,0
1742,20150209,12976,150,0.011695,1


- 라벨링 분포 확인

In [28]:
plt.savefig('test.png')
sns.countplot(x='label', data=df1)

<AxesSubplot:xlabel='label', ylabel='count'>

- data type 변경

In [29]:
# data type : int -> string
df1 = df1.astype({'일자':'string'})
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1744 entries, 0 to 1743
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   일자         1744 non-null   string 
 1   현재가        1744 non-null   int64  
 2   당일종가-어제종가  1744 non-null   int64  
 3   상승률        1744 non-null   float64
 4   label      1744 non-null   int64  
dtypes: float64(1), int64(3), string(1)
memory usage: 68.2 KB


In [30]:
# data type : string -> datetime
df1['일자'] = pd.to_datetime(df1['일자'])
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1744 entries, 0 to 1743
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   일자         1744 non-null   datetime64[ns]
 1   현재가        1744 non-null   int64         
 2   당일종가-어제종가  1744 non-null   int64         
 3   상승률        1744 non-null   float64       
 4   label      1744 non-null   int64         
dtypes: datetime64[ns](1), float64(1), int64(3)
memory usage: 68.2 KB


### 4-2. 뉴스데이터 컬럼명 변경

In [31]:
# 덕산네오룩스의 데이터프레임과 병합하기 위해 컬럼명 변경
newsdata_all.rename(columns={'NextOpenDate':'일자'}, inplace=True)
newsdata_all.head(2)

Unnamed: 0,date,NextOpenDateYear,일자,title
0,2022-03-16,2022,2022-03-17,"유럽 반도체 공급망 지원 호응… 인텔, 10년간 110조 통큰 투자"
1,2022-03-16,2022,2022-03-17,반도체 또다시 ‘쩐의 전쟁‘…인텔 “유럽 전역에 110조 투자”


### 4-3. 뉴스데이터와 덕산네오룩스 주가데이터 병합

In [32]:
merge_data = pd.merge(newsdata_all, df1, on='일자', how='inner')
merge_data.head(2)

Unnamed: 0,date,NextOpenDateYear,일자,title,현재가,당일종가-어제종가,상승률,label
0,2022-03-13,2022,2022-03-14,전함 포템킨·오데사·네온사인…반도체는 왜 또 위기일까[인더독],39050,-1550,-0.038177,0
1,2022-03-13,2022,2022-03-14,"한국기업, 반도체·전자 부품 조달 ‘빨간불’",39050,-1550,-0.038177,0


- '일자', 'title', 'label'만 남긴 나머지 컬럼 삭제

In [33]:
merge_data = merge_data[['일자', 'title', 'label']]
merge_data.head(5)

Unnamed: 0,일자,title,label
0,2022-03-14,전함 포템킨·오데사·네온사인…반도체는 왜 또 위기일까[인더독],0
1,2022-03-14,"한국기업, 반도체·전자 부품 조달 ‘빨간불’",0
2,2022-03-14,“삼성·SK만 잘하면 뭐해?” 한국 반도체 진짜 ‘약점’이 바로 [비즈360],0
3,2022-03-14,"""반도체 일본꼴 날 수도…수도권 대학 반도체학과 정원 풀어야"" [당선인에 바란다]",0
4,2022-03-14,"[우크라 침공] 러시아, 반도체소자 등 500개 품목 대외수출 금지·제한",0


## 5. 데이터 전처리
    - 한글 이외의 문자열은 빈칸(`''`)처리
    - 품사 중 명사만 추출하여 'nouns' 컬럼에 삽입

In [34]:
okt = Okt()
n_ = []
title_rename = []

for i in range(len(merge_data)):
    if (i % 10000 == 0):
        print(i, "단계 완료")
    title_rename.append(re.sub("[\(\[].*?[\)\]]", "", merge_data.iloc[i]['title']))
    n_.append(' '.join(okt.nouns(merge_data.iloc[i]['title'])))
merge_data['nouns'] = n_
merge_data['title'] = title_rename
merge_data = merge_data[merge_data['nouns'] != '']

# 2차 불용어 제거
merge_data['title'] = merge_data['title'].str.replace('[^ㄱ-ㅎㅏ-ㅣ가-힣]','')
merge_data['title'].replace('', np.nan, inplace=True)
merge_data = merge_data.dropna(how='any')

0 단계 완료
10000 단계 완료
20000 단계 완료
30000 단계 완료
40000 단계 완료
50000 단계 완료


In [35]:
merge_data.head(3)

Unnamed: 0,일자,title,label,nouns
0,2022-03-14,전함포템킨오데사네온사인반도체는왜또위기일까,0,전함 포템킨 오데사 네온사인 반도체 왜 또 위기 인 더독
1,2022-03-14,한국기업반도체전자부품조달빨간불,0,한국 기업 반도체 전자 부품 조달 불
2,2022-03-14,삼성만잘하면뭐해한국반도체진짜약점이바로,0,삼성 만 뭐 한국 반도체 진짜 약점 이 바로 비즈


In [36]:
news_labeling = merge_data.copy()

In [37]:
# 결측치 확인
news_labeling.dropna(how='any', inplace=True)
news_labeling.shape

(58343, 4)

- label 분포 확인

In [38]:
sns.countplot(x='label', data=news_labeling)

<AxesSubplot:xlabel='label', ylabel='count'>

In [39]:
# 라벨링 값 개수 확인
news_labeling['label'].value_counts()

1    29953
0    28390
Name: label, dtype: int64

## 6. train_data, test_data 분할

In [40]:
# train, test set 분리
train_data, test_data = train_test_split(news_labeling)

### 6-1. train_data

In [41]:
# train_data 확인
train_data.head(2)

Unnamed: 0,일자,title,label,nouns
54888,2016-08-23,솔브레인반도체용식각액중심호실적지속목표가신한,0,솔 브레인 반도체 용 식각 액 중심 호실 지속 목표 신한
15862,2021-03-09,높아진경기회복기대감에너지반도체업종관심,1,굿모닝 증시 경기 회복 대감 에너지 반도체 업종 관심


In [42]:
# train_data shape 확인
train_data.shape

(43757, 4)

### 6-2. test_data

In [43]:
# test_data 확인
test_data.head(2)

Unnamed: 0,일자,title,label,nouns
11455,2021-05-20,삼성전자전자기기심장종공개시스템반도체정조준,1,삼성 전자 전자기기 심장 종 공개 시스템 반도체 정 조준
2161,2022-01-10,반도체의힘삼성전자올해매출조시대연다,0,종합 반도체 힘 삼성 전자 올해 매출 시대 연


In [44]:
# test_data shape 확인
test_data.shape

(14586, 4)

## 7. 감성사전 구축

- 한 글자인 단어는 제외. 두 글자 이상인 단어들의 점수 초기화 진행

In [45]:
vocab = {}
count = 0
for i in news_labeling['nouns']:
    i = i.split(' ')
    # news_labeling에 있는 데이터의 양만큼 순회
    for j in range(len(i)):
        # i 번째 행의 리스트에 있는 j번째 단어의 길이가 1 이하일 경우 count에 1 추가
        if i[j] in vocab or len(i[j]) <= 1:
            count += 1
            pass
        else:
            # i 번째 행의 리스트에 있는 j번째 단어의 길이가 1 이상일 경우 0
            vocab[i[j]] = 0

In [46]:
vocab

{'전함': 0,
 '포템킨': 0,
 '오데사': 0,
 '네온사인': 0,
 '반도체': 0,
 '위기': 0,
 '더독': 0,
 '한국': 0,
 '기업': 0,
 '전자': 0,
 '부품': 0,
 '조달': 0,
 '삼성': 0,
 '진짜': 0,
 '약점': 0,
 '바로': 0,
 '비즈': 0,
 '일본': 0,
 '수도': 0,
 '수도권': 0,
 '대학': 0,
 '학과': 0,
 '정원': 0,
 '당선인': 0,
 '침공': 0,
 '러시아': 0,
 '반도체소자': 0,
 '품목': 0,
 '대외': 0,
 '수출': 0,
 '금지': 0,
 '제한': 0,
 '호국': 0,
 '통제': 0,
 '공급': 0,
 '우려': 0,
 '애플': 0,
 '수혜': 0,
 '가능성': 0,
 '전기차': 0,
 '원가': 0,
 '상승': 0,
 '비상': 0,
 '배터리': 0,
 '철강': 0,
 '고공': 0,
 '행진': 0,
 '경제': 0,
 '제재': 0,
 '보복': 0,
 '시작': 0,
 '소자': 0,
 '속보': 0,
 '발표': 0,
 '포함': 0,
 '전쟁': 0,
 '가스': 0,
 '생산': 0,
 '중단': 0,
 '네온': 0,
 '절반': 0,
 '대란': 0,
 '심화': 0,
 '파문': 0,
 '대전': 0,
 '조짐': 0,
 '격화': 0,
 '인텔': 0,
 '계속': 0,
 '윤석열': 0,
 '공약': 0,
 '실현': 0,
 '집적회로': 0,
 '상보': 0,
 '산다': 0,
 '두산': 0,
 '통큰': 0,
 '강행': 0,
 '이유': 0,
 '브로드컴': 0,
 '주주': 0,
 '환원': 0,
 '기대': 0,
 '조치': 0,
 '여파': 0,
 '변신': 0,
 '승부': 0,
 '과연': 0,
 '자등': 0,
 '인력': 0,
 '양성': 0,
 '기금': 0,
 '조성': 0,
 '도로': 0,
 '지수': 0,
 '하락': 0,
 '악재': 0,
 '코스피': 0,


- 상승비율과 하락비율을 정의해준 다음 라벨 값이 1이면 하락 비율을 각 단어에 더해주고 라벨값이 0이면 상승 비율을 차감
- 라벨값이 1이면 상승인데 왜 상승 비율을 더해주지 않았을지 : 라벨값이 1인 데이터가 아닌 데이터보다 훨씬 많다면 해당 단어들의 점수가 너무 커져서 점수가 고르지 못한 감성사전이 만들어지기 때문에 정규화했기 때문

In [47]:
up = 29202
down = 29141

up_ratio = up/(up+down)
down_ratio = down/(up+down)

for i,w in enumerate(train_data['nouns']):
    w = w.split(' ')
    if (train_data.iloc[i]['label']==1):
        for j in range(len(w)):
            noun = w[j]
            if len(noun)<=1:
              continue
            vocab[noun] = vocab[noun] + down_ratio
    else:
        for j in range(len(w)):
            noun = w[j]
            if len(noun)<=1:
              continue
            vocab[noun] = vocab[noun] - up_ratio

## 9. 워드 클라우드

### 9-1. train_data

In [48]:
# train_data > nouns 컬럼 > 0번째 데이터의 단어 출력
train_data.nouns.to_list()[0]

'솔 브레인 반도체 용 식각 액 중심 호실 지속 목표 신한'

In [49]:
# train_data의 길이 확인
len(train_data.nouns.to_list())

43757

- train_data의 'nouns' 데이터 합치기

In [50]:
# 'nouns' 컬럼 데이터 리스트로 변환
nouns_list_train = []

for i in range(0, len(train_data.nouns.to_list())):
    noun = train_data.nouns.to_list()[i]
    nouns_list_train.append(noun)

In [51]:
nouns_list_train[:5]

['솔 브레인 반도체 용 식각 액 중심 호실 지속 목표 신한',
 '굿모닝 증시 경기 회복 대감 에너지 반도체 업종 관심',
 '삼성 반도체 사업 폐기물 매립 제로 사업 인정',
 '포토 하이닉스 유일호 반도체 수출 경제 회복 세',
 '시원 정책 반도체 전략 반도체 업계']

In [52]:
nouns_list_train[0]

'솔 브레인 반도체 용 식각 액 중심 호실 지속 목표 신한'

In [53]:
nouns_list_train[0].split() + nouns_list_train[1].split()

['솔',
 '브레인',
 '반도체',
 '용',
 '식각',
 '액',
 '중심',
 '호실',
 '지속',
 '목표',
 '신한',
 '굿모닝',
 '증시',
 '경기',
 '회복',
 '대감',
 '에너지',
 '반도체',
 '업종',
 '관심']

In [54]:
# WordCloud에 사용할 리스트 생성
nouns_total_train = []

for i in range(0, len(nouns_list_train)):
    nouns_total_train += nouns_list_train[i].split()

In [55]:
nouns_total_train

['솔',
 '브레인',
 '반도체',
 '용',
 '식각',
 '액',
 '중심',
 '호실',
 '지속',
 '목표',
 '신한',
 '굿모닝',
 '증시',
 '경기',
 '회복',
 '대감',
 '에너지',
 '반도체',
 '업종',
 '관심',
 '삼성',
 '반도체',
 '사업',
 '폐기물',
 '매립',
 '제로',
 '사업',
 '인정',
 '포토',
 '하이닉스',
 '유일호',
 '반도체',
 '수출',
 '경제',
 '회복',
 '세',
 '시원',
 '정책',
 '반도체',
 '전략',
 '반도체',
 '업계',
 '현대차',
 '반도체',
 '품귀',
 '점진',
 '개선',
 '정상화',
 '전망',
 '산업부',
 '반도체',
 '기밀',
 '무분별',
 '공개',
 '우려',
 '선박',
 '반도체',
 '호조',
 '상순',
 '수출',
 '증가',
 '반도체',
 '화학',
 '부진',
 '지난해',
 '제조업',
 '성장',
 '둔화',
 '일자리',
 '기관',
 '큰손',
 '종목',
 '펀드매니저',
 '인',
 '반도체',
 '강추',
 '통상',
 '교섭',
 '본부',
 '공급망',
 '기술',
 '통상',
 '설치',
 '반도체',
 '성장',
 '기반',
 '강화',
 '총력',
 '반도체',
 '반도체',
 '장비',
 '투자',
 '급증',
 '송승현',
 '전자사전',
 '삼성',
 '반도체',
 '쇼크',
 '생산',
 '이유',
 '도시바',
 '한미',
 '일',
 '연합',
 '반도체',
 '매각',
 '협상',
 '진행중',
 '교도',
 '도시바',
 '하이닉스',
 '진영',
 '반도체',
 '매각',
 '각서',
 '체결',
 '디스플레이',
 '사업',
 '반도체',
 '장비',
 '업체',
 '매출',
 '급증',
 '생생',
 '코스닥',
 '유니',
 '셈',
 '하이닉스',
 '규모',
 '반도체',
 '장비',
 '공급',
 '계약',
 '전망',
 '반도체',
 '독보',
 '반

In [56]:
# 가장 많이 나온 단어 저장
counts = Counter(nouns_total_train)
tags = counts.most_common(30000)
tags

[('반도체', 45045),
 ('삼성', 9573),
 ('전자', 6672),
 ('수출', 4458),
 ('장비', 3572),
 ('투자', 3333),
 ('공급', 2960),
 ('하이닉스', 2702),
 ('계약', 2268),
 ('규모', 2192),
 ('공장', 1828),
 ('실적', 1826),
 ('주', 1759),
 ('영업', 1674),
 ('서울', 1667),
 ('산업', 1643),
 ('기업', 1620),
 ('등', 1575),
 ('한미', 1489),
 ('최대', 1414),
 ('생산', 1408),
 ('시스템', 1333),
 ('기술', 1318),
 ('위', 1312),
 ('용', 1275),
 ('사업', 1261),
 ('제조', 1260),
 ('매출', 1254),
 ('전망', 1221),
 ('시장', 1213),
 ('익', 1144),
 ('종합', 1142),
 ('증가', 1133),
 ('한국', 1097),
 ('세계', 1081),
 ('소재', 1068),
 ('내년', 1058),
 ('상승', 1020),
 ('올해', 1001),
 ('감소', 980),
 ('개월', 978),
 ('부족', 960),
 ('부진', 951),
 ('디스플레이', 935),
 ('중국', 931),
 ('성장', 927),
 ('하락', 922),
 ('호황', 916),
 ('업계', 912),
 ('글로벌', 896),
 ('이재용', 881),
 ('메모리', 880),
 ('이익', 846),
 ('특징', 826),
 ('정부', 823),
 ('업체', 779),
 ('개발', 755),
 ('차', 754),
 ('인텔', 752),
 ('지원', 751),
 ('자동차', 734),
 ('현대차', 727),
 ('검사', 723),
 ('코스닥', 716),
 ('협력', 692),
 ('뉴스', 672),
 ('미래', 656),
 ('회복', 650),
 

- 한글 폰트 사용

In [57]:
mpl.rcParams['axes.unicode_minus'] = False
plt.rcParams['font.family'] = 'Malgun Gothic'

- 필요없는 단어 제거 : stopwords 설정

In [58]:
# 불용어 지정
stopwords = "램 사 액 첫 제 세 달 내년 반도체 분기 억 월 차 년 중 주 일 등 조 억원 용 익 위 개월 이재용 것 조원 초"
stop_list = stopwords.split()

# stop_list에 없는 단어만 추출 > 리스트를 만들 것
words_list = [word for word in nouns_total_train if word not in stop_list]

- 단어 빈도수 살펴보기

In [59]:
words = nltk.Text(words_list)
plt.figure(figsize=(20,12))
# 많이 사용된 단어 보여주기
words.plot(100)        
plt.show()

In [60]:
# 빈도수가 200 이상인 단어 10개
data = words.vocab().most_common(200)
data[:10]

[('삼성', 9573),
 ('전자', 6672),
 ('수출', 4458),
 ('장비', 3572),
 ('투자', 3333),
 ('공급', 2960),
 ('하이닉스', 2702),
 ('계약', 2268),
 ('규모', 2192),
 ('공장', 1828)]

- train_data 워드클라우드 생성

In [62]:
wc = WordCloud(
    font_path='c:/Windows/Fonts/malgun.ttf',
    relative_scaling=0.2, background_color='white',
    colormap='coolwarm'
).generate_from_frequencies(dict(data))


In [63]:
plt.figure(figsize=(12,6))
plt.imshow(wc)
plt.axis('off')
plt.show()

### 9-2. test_data

In [64]:
# test_data > nouns 컬럼 > 0번째 데이터의 단어
test_data.nouns.to_list()[0]


# 'nouns' 컬럼 데이터 리스트로 변환
nouns_list_test = []

for i in range(0, len(test_data.nouns.to_list())):
    noun = test_data.nouns.to_list()[i]
    nouns_list_test.append(noun)


# 'nouns' 컬럼 데이터 단어 데이터 합치기
nouns_total_test = []

for i in range(0, len(nouns_list_test)):
    nouns_total_test += nouns_list_test[i].split()

# 가장 많이 나온 단어 저장
counts = Counter(nouns_total_test)
tags = counts.most_common(30000)
tags


# 불용어 지정
stopwords = "올해 작년 램 사 액 첫 제 세 달 내년 반도체 분기 억 월 차 년 중 주 일 등 조 억원 용 익 위 개월 이재용 것 조원 초"
stop_list = stopwords.split()

# stop_list에 없는 단어만 추출 > 리스트를 만들 것
words_list = [word for word in nouns_total_test if word not in stop_list]

words = nltk.Text(words_list)
plt.figure(figsize=(20,12))
# 많이 사용된 단어 보여주기
words.plot(100)        
plt.show()

In [65]:
# 빈도수가 200 이상인 단어 10개
data = words.vocab().most_common(200)
data[:10]

[('삼성', 3241),
 ('전자', 2193),
 ('수출', 1511),
 ('장비', 1203),
 ('투자', 1114),
 ('공급', 988),
 ('하이닉스', 927),
 ('계약', 769),
 ('규모', 740),
 ('영업', 629)]

- test_data 워드클라우드 생성

In [66]:
wc = WordCloud(
    font_path='c:/Windows/Fonts/malgun.ttf',
    relative_scaling=0.2, background_color='white',
    colormap='coolwarm'
).generate_from_frequencies(dict(data))

plt.figure(figsize=(12,6))
plt.imshow(wc)
plt.axis('off')
plt.show()