# **Sentiment Analysis(Preprocessing)**

In [1]:
import numpy as np
import pandas as pd

### Visualization
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

### DB 연결
# !pip install pymysql
import pymysql

### DB에 저장
import sqlalchemy
from sqlalchemy import create_engine

### 실시간 주식가격 데이터
# !pip install finance-datareader
import FinanceDataReader as fdr

### 텍스트 분석
## KoNLPy
# 1) JAVA 설치, 2) Python 버전과 맞는 JPype1-py3 설치, 3) !pip install konlpy, 4) 설치 경로에서 jvm.py 파일 코드 67번 줄 주석 처리 
from konlpy.tag import Okt
import nltk
from nltk.sentiment.vader import SentimentIntensityAnalyzer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import re
## FastText
# !pip install gensim
# !pip install fasttext
import fasttext
import fasttext.util
# Facebook 한국어 Embedding 모델 다운로드 → 한 번만 설치하면 됨
# fasttext.util.download_model('ko', if_exists='ignore')   # FastText 모델 사용 시에만 필요
# 유사도 계산
from gensim import models

### 모델 학습 및 평가
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, roc_auc_score
from sklearn.metrics import precision_score, recall_score, f1_score

### 모델 저장 및 로드
import joblib

### 기타
import datetime
from collections import Counter
import sys
import warnings
warnings.filterwarnings('ignore')

## **Develop Full Step Program**

### **① Preprocessing**

In [2]:
def arguments(x):
    
    
    ### 1) 매체 선택
    media_list = ['삼프로TV', '슈카월드', '한국경제TV']
    media_name = x
    while media_name not in media_list:
        media_name = x
        if media_name in media_list:
            break
    if media_name == '삼프로TV':
        globals()['craw_media'] = 'youtube_sampro'
    elif media_name == '슈카월드':
        globals()['craw_media'] = 'youtube_suka'
    else:
        globals()['craw_media'] = 'youtube_hk'
    
    
    ### 2) date 지정
    
    ## 2-1) 시작 날짜
    globals()['start_date'] = (datetime.datetime.now() - datetime.timedelta(30)).strftime("%Y-%m-%d")
    
    ## 2-2) 종료 날짜
    globals()['end_date'] = datetime.datetime.now().strftime("%Y-%m-%d")
    
    
    return globals()['craw_media'], globals()['start_date'], globals()['end_date']

In [3]:
#*** 아직 YouTube 채널 크롤링 데이터는 별도의 전처리 코드 작성 필요 ***#
def media_stock_prediction(craw_media, start_date, end_date):
    #### 1. Read Data
    
    
    ### 1) KOSELF 감성 어휘 사전
    #*** 추후에 감성사전도 DB 연결해서 사용하도록 코드 변경 필요 ***#
    with open('KOSELF_pos.txt', encoding='utf-8') as pos:
        positive = pos.readlines()
    positive = [pos.replace('\n', '') for pos in positive]
    with open('KOSELF_neg.txt', encoding='utf-8') as neg:
        negative = neg.readlines()
    negative = [neg.replace('\n', '') for neg in negative]
    
    
    ### 2) News Data from DB
    db = pymysql.connect(user='root',
#                          passwd='0808',
                         passwd='1234',
#                          host='127.0.0.1',
                         host='3.35.70.166',
                         db='proj',
                         charset='utf8')
    
    cursor = db.cursor(pymysql.cursors.DictCursor)
    
    ## 2-1) 전체 종목 뉴스 데이터
    corp_list = ['samsung', 'hyundai', 'lg', 'sk', 'celltrion']
    stock_num_list = ['005930', '005380', '051910', '000660', '068270']
    
    ## 2-2) DB의 date 컬럼과 형태 통일
    start_date = start_date.replace('-', '')
    end_date = end_date.replace('-', '')
    for i in range(len(corp_list)):
        sql = "select * from {0}_{1} where (length(date)=10) and (date between {2}00 and {3}23)".format(craw_media, stock_num_list[i], start_date, end_date)
        cursor.execute(sql)
        result = cursor.fetchall()

        # DataFrame으로 변경
        globals()[corp_list[i]] = pd.DataFrame(result)
    
    db.close()   # 메모리 절약
    
    ## 2-3) 날짜와 시간 구분
    for i in range(len(corp_list)):
        globals()[corp_list[i]].rename(columns={'date': 'datetime'}, inplace=True)

        # DataFrame 형태를 통일하기 위해 date 컬럼 추가
        globals()[corp_list[i]]['date'] = globals()[corp_list[i]]['datetime'].str[0:4] + '-' + globals()[corp_list[i]]['datetime'].str[4:6] + '-' + globals()[corp_list[i]]['datetime'].str[6:8]
        globals()[corp_list[i]]['date'] = pd.to_datetime(globals()[corp_list[i]]['date'])

        # 결측치 제거 → 데이터 로드 시 완료했기 때문에 그다지 필요하지 않은 과정
        globals()[corp_list[i]] = globals()[corp_list[i]].dropna()

        # 시간순으로 정렬
        globals()[corp_list[i]].sort_values('datetime', inplace=True)
        globals()[corp_list[i]].reset_index(inplace=True, drop=True)
    
    
    ### 3) FinanceDataReader
    # 종료 날짜는 현재 시각을 기준으로
    end_date = datetime.datetime.now().strftime("%Y%m%d")
    for i in range(len(corp_list)):
        globals()['stock_' + corp_list[i]] = fdr.DataReader(stock_num_list[i], start=start_date, end=end_date).reset_index()
    
    
    ### 4) Holidays
    db = pymysql.connect(user='root',
#                          passwd='0808',
                         passwd='1234',
#                          host='127.0.0.1',
                         host='3.35.70.166',
                         db='proj',
                         charset='utf8')

    cursor = db.cursor(pymysql.cursors.DictCursor)

    # 4-1) 주말 및 공휴일 데이터
    sql = "select * from holidays"
    cursor.execute(sql)
    result = cursor.fetchall()
    
    # DataFrame으로 변경
    globals()['holidays'] = pd.DataFrame(result)
    
    db.close()   # 메모리 절약
    
    # 4-2) date 컬럼을 날짜 형식으로 변경
    globals()['holidays']['date'] = pd.to_datetime(holidays['date'])
    
    
    ### 5) Stop Words
#     #*** 추후에 Stop Words도 DB 연결해서 사용하도록 코드 변경 필요 ***#
#     with open('stopwords-ko.txt', encoding='utf-8') as sw:
#         globals()['stop_words'] = sw.readlines()
#     globals()['stop_words'] = [sw.replace('\n', '') for sw in stop_words]
    # GitHub로부터 Stop Words 로드
    stopwords = pd.read_csv("https://raw.githubusercontent.com/yoonkt200/FastCampusDataset/master/korean_stopwords.txt")
    # Stop Words List에 각 매체명 추가
    except_media_list = ['매일경제', '매일', '경제', 'maeil', 'MK', 'mk',
                         '아시아경제', '아시아', 'Asia', 'ASIA', 'asia',
                         '삼프로TV', '삼프로', 'TV',
                         '슈카월드', '슈카', '월드'
                         '한국경제TV', '한국']
    for word in [except_media_list]:
        stopwords.append(word)
    
    
    
    
    #### 2. Preprocessing
    '''감성 어휘 사전 : negative / positive
       뉴스 데이터 : samsung / hyundai / lg / sk
       주식 데이터 : stock_samsung / stock_hyundai / stock_lg / stock_sk
       공휴일 데이터 : holidays'''
    
    
    ### 1) 뉴스 데이터 날짜 조정
    
    ## 1-1)업로드 시각 컬럼 추가
    for i in range(len(corp_list)):
        globals()[corp_list[i]]['time'] = globals()[corp_list[i]]['datetime'].str[-2:]
    
    ## 1-2) 전일 15시 ~ 금일 15시로 날짜 조정
    after_market = ['15', '16', '17', '18', '19', '20', '21', '22', '23']

    for i in range(len(corp_list)):
        for j in range(len(globals()[corp_list[i]]['time'])):
            if globals()[corp_list[i]]['time'][j] in after_market:
                globals()[corp_list[i]]['date'][j] += datetime.timedelta(1)
            else:
                pass
    
    ## 1-3) 텍스트 전처리
    # \n, \t, \r 제거
    for i in range(len(corp_list)):
        for j in range(len(globals()[corp_list[i]]['text'])):
            globals()[corp_list[i]]['text'][j] = globals()[corp_list[i]]['text'][j].replace('[\n|\t|\r]', '')
#     # text 컬럼의 Stop Words 제거
#     for i in range(len(corp_list)):
#         globals()[corp_list[i]]['except_stopwords'] = 0
#         for j in range(len(globals()[corp_list[i]]['text'])):            
#             hangeul = re.compile('[^ ㄱ-ㅣ 가-힣]')                         # 정규 표현식  → 한글 추출 규칙 : 띄어쓰기(1개)를 포함한 한글
#             result = hangeul.sub('', globals()[corp_list[i]]['text'][j])   # 위에 설정한 hangeul 규칙을 text에 적용
#             okt = Okt()                                                    # 형태소 추출
#             nouns = okt.nouns(result)
#             nouns = [x for x in nouns if len(x) > 1]                       # 한 글자 키워드 제거
#             nouns = [x for x in nouns if x not in stopwords]               # 불용어 제거
            
#             corpus = " ".join(nouns)                                       # List를 String으로 변환
#             globals()[corp_list[i]]['except_stopwords'][j] = corpus
    
        
    ### 2) 주말 및 공휴일 제외
    
    ## 2-1) 주말 및 공휴일만 추출
    market_closed = globals()['holidays'][globals()['holidays']['holiday']=="O"].reset_index(drop=True)
    
    ## 2-3) 휴장일 List 생성
    market_closed_list = list(market_closed['date'])
    
    ## 2-4) iteration limit 조정
    limit_number = 15000
    sys.setrecursionlimit(limit_number)
    
    ## 2-5) 휴장일 제외 함수 적용
    # 주말 및 공휴일 제외 함수
#     def stock_market_closed(df):
#         for i in range(len(df['date'])):
#             if df['date'][i] in market_closed_list:
#                 df['date'][i] += datetime.timedelta(1)
#                 stock_market_closed(df)
#             else:
#                 pass
#         return df
    
#     for i in range(len(corp_list)):
#         stock_market_closed(globals()[corp_list[i]])
    for i in range(len(corp_list)):
        while len(globals()[corp_list[i]][globals()[corp_list[i]]['date'].isin(market_closed_list)]['date']) != 0:
            for j in globals()[corp_list[i]][globals()[corp_list[i]]['date'].isin(market_closed_list)]['date'].index:
                globals()[corp_list[i]]['date'][j] += datetime.timedelta(1)
    
    
    
        
    #### 3. Sentiment Analysis
    
    
#     ### 1) 종목별 긍부정 Score 계산
#     for i in range(len(corp_list)):
#         globals()[corp_list[i]]['score'] = 0
#         tokenizer = Okt()

#         for x in range(len(globals()[corp_list[i]]['date'])):
#             score = 0
#             num = tokenizer.nouns(globals()[corp_list[i]]['text'][x])
#             for y in num:
#                 # KOSELF 감성 어휘 사전
#                 if y in positive:
#                     score += 1
#                 elif y in negative:
#                     score -= 1
#                 else:
#                     score = score

#             globals()[corp_list[i]]['score'][x] = score
    
    
    ### 2) 주식가격 데이터와 결합
    corp_label_list = []
    for i in range(len(corp_list)):
        
        ## 2-1) 결합
        globals()[corp_list[i] + '_label'] = pd.merge(globals()[corp_list[i]], globals()['stock_' + corp_list[i]], how='left', left_on='date', right_on='Date')
        globals()[corp_list[i] + '_label'].drop('Date', axis=1, inplace=True)
        
        ## 2-2) UpDown과 Extremely_Changed(Change 상하위 5%) 컬럼 생성
#         # 주식 매매 수수료 평균 : 0.1% 정도(?) → 0을 추가해도 1, -1만 나옴
#         globals()[corp_list[i] + '_label']['UpDown'] = np.where((globals()[corp_list[i] + '_label']['Close']*globals()[corp_list[i] + '_label']['Change'])>(globals()[corp_list[i] + '_label']['Close']*0.001), 1,
#                                                                 np.where((globals()[corp_list[i] + '_label']['Close']*globals()[corp_list[i] + '_label']['Change'])<(globals()[corp_list[i] + '_label']['Close']*0.001), -1, 0))
        globals()[corp_list[i] + '_label']['UpDown'] = np.where(globals()[corp_list[i] + '_label']['Change']<0, -1,
                                                                np.where(globals()[corp_list[i] + '_label']['Change']>0, 1, 0))
#         # 단순히 Change가 (+), 0, (-)인지에 따라 각각 1, 0, -1
#         globals()[corp_list[i] + '_label']['UpDown'] = np.where(globals()[corp_list[i] + '_label']['Change']>0, 1,
#                                                                 np.where(globals()[corp_list[i] + '_label']['Change']<0, -1, 0))
#         globals()[corp_list[i] + '_label']['Extremely_Changed'] = np.where((globals()[corp_list[i] + '_label']['Change']>globals()[corp_list[i] + '_label']['Change'].quantile(.95)) & (globals()[corp_list[i] + '_label']['Change']>0), 1,
#                                                                            np.where((globals()[corp_list[i] + '_label']['Change']<globals()[corp_list[i] + '_label']['Change'].quantile(.05)) & (globals()[corp_list[i] + '_label']['Change']<0), -1, 0))
        
        ## 2-3) List에 추가
        corp_label_list.append(globals()[corp_list[i] + '_label'])
        
        ## 2-4) text 컬럼의 NaN 제거
        globals()[corp_list[i] + '_label'].dropna(axis=0, inplace=True)
    
    
    ### 3) Tokenization 컬럼 추가
    globals()['corp_list_label'] = []
    for i in range(len(corp_list)):
        globals()[corp_list[i] + '_label']['Tokenization'] = 0
        rows = globals()[corp_list[i] + '_label'].shape[0]
        for j in range(rows):
            hangeul = re.compile('[^ ㄱ-ㅣ 가-힣]')                                    # 정규 표현식 → 한글 추출 규칙 : 띄어쓰기(1개)를 포함한 한글
            result = hangeul.sub('', globals()[corp_list[i] + '_label']['text'][j])   # 위에 설정한 hangeul 규칙을 text에 적용
            okt = Okt()                                                               # 형태소 추출
            nouns = okt.nouns(globals()[corp_list[i] + '_label']['text'][j])
            nouns = [x for x in nouns if len(x) > 1]                                  # 한 글자 키워드 제거
            nouns = [x for x in nouns if x not in stopwords]                          # 불용어 제거
            
            corpus = " ".join(nouns)                                                  # List를 String으로 변환
            globals()[corp_list[i] + '_label']['Tokenization'][j] = corpus
        globals()['corp_list_label'].append(globals()[corp_list[i] + '_label'])
        
    
    ### 4) 전체 종목 DataFrame 통합
    globals()['total_label'] = pd.concat(corp_label_list, axis=0)

### **② Sentiment Analysis**

In [4]:
# 블로그에서 가져온 기본적인 한국어 긍부정 텍스트 목록
with open('positive_words_self.txt', encoding='utf-8') as pos_blog:
    positive_blog = pos_blog.readlines()
positive_blog = [pos_blog.replace('\n', '') for pos_blog in positive_blog]
with open('negative_words_self.txt', encoding='utf-8') as neg_blog:
    negative_blog = neg_blog.readlines()
negative_blog = [neg_blog.replace('\n', '') for neg_blog in negative_blog]

# KOSELF 감성 어휘 사전
with open('KOSELF_pos.txt', encoding='utf-8') as pos:
    positive = pos.readlines()
positive = [pos.replace('\n', '') for pos in positive]
with open('KOSELF_neg.txt', encoding='utf-8') as neg:
    negative = neg.readlines()
negative = [neg.replace('\n', '') for neg in negative]

In [5]:
# 긍정사전 통합
for i in range(len(positive_blog)):
    if positive_blog[i] not in positive:
        positive.append(positive_blog[i])

# 부정사전 통합
for i in range(len(negative_blog)):
    if negative_blog[i] not in negative:
        negative.append(negative_blog[i])

In [6]:
media_list = ['삼프로TV', '슈카월드', '한국경제TV']
corp_list = ['samsung', 'hyundai', 'lg', 'sk', 'celltrion']

# globals()['total_youtube'] = []
for i in range(len(media_list)):
    arguments(media_list[i])
    print(craw_media)
    print('... arguments()까지 완료 ...')
    media_stock_prediction(craw_media, start_date, end_date)
    
    globals()['total_' + str(i+1)] = pd.concat([globals()['samsung_label'], globals()['hyundai_label'], globals()['lg_label'], globals()['sk_label'], globals()['celltrion_label']], axis=0).reset_index(drop=True)

total = pd.concat([globals()['total_' + str(1)], globals()['total_' + str(2)], globals()['total_' + str(3)]], axis=0).reset_index(drop=True)

youtube_sampro
... arguments()까지 완료 ...
youtube_suka
... arguments()까지 완료 ...
youtube_hk
... arguments()까지 완료 ...


In [7]:
globals()['total']

Unnamed: 0,st_n,st_cd,ch_nm,datetime,title,text,views,length,description,url,date,time,Open,High,Low,Close,Volume,Change,UpDown,Tokenization
0,삼성전자,005930,삼프로TV_경제의신과함께,2021090700,"[글로벌마켓 브리핑] ECB 정례회의 앞둔 유럽, 테이퍼링 시작하나? f. 미래에셋...",글로벌 라이브 일부 시작하도록하겠습니다어야 이 우리 저의 청자 분들께서는테이블 위에...,6147,1798,삼프로TV제작사및멤버사공개채용세부공고확인링크httpswwwpage2krnotice1...,https://www.youtube.com/watch?v=1zuZrYCEYW0,2021-09-07,00,77100,77100,75900,76100,13239401,-0.015524,-1,글로벌 라이브 일부 시작 우리 청자 테이블 칭다오 저기 음료수 또뭐 광고 차원 아마...
1,삼성전자,005930,삼프로TV_경제의신과함께,2021090700,"모두가 주목하는 인공지능, 어떤 종목을 선택해야할까? _글로벌 라이브 _글로벌 라이...",[음악]으으tobe[음악]글로벌 아이 그 오신걸 환영합니다안녕하십니까 박종호 입니다...,99373,6510,삼프로TV제작사및멤버사공개채용세부공고확인링크httpswwwpage2krnotice1...,https://www.youtube.com/watch?v=dC7QwbHkqHg,2021-09-07,00,77100,77100,75900,76100,13239401,-0.015524,-1,음악 음악 글로벌 아이 환영 안녕하십니까 박종호 저하 동안 방법 당신 명언 사실 어...
2,삼성전자,005930,삼프로TV_경제의신과함께,2021090700,"[글로벌 개장시황] 160개 상승 345개 하락, 상승하는 종목의 공통점은? f. ...",블롭 얼라이브 3부 시작하도록하겠습니다 오늘 제 복장이 조금 더편하죠 그 이유가 저...,32092,2495,삼프로TV제작사및멤버사공개채용세부공고확인링크httpswwwpage2krnotice1...,https://www.youtube.com/watch?v=dnegmX3in-A,2021-09-07,00,77100,77100,75900,76100,13239401,-0.015524,-1,블롭 얼라이브 시작 오늘 복장 조금 이유 여의도 공원 자전거 타고 자전거 타고 중간...
3,삼성전자,005930,삼프로TV_경제의신과함께,2021090700,[퇴근길라이브&백브리핑] 애플과 LG그룹의 행복한 동행? 애플카 가능성은? / 전자...,[음악]으 으[음악]oo 아 아 으[음악]2[음악][박수]투자를 하는 사람들의 깊이...,180786,8953,삼프로TV제작사및멤버사공개채용세부공고확인링크httpstlySR1n쿨썸머여름특가반값세...,https://www.youtube.com/watch?v=xvTTiJ3GktA,2021-09-07,00,77100,77100,75900,76100,13239401,-0.015524,-1,음악 음악 음악 음악 박수 투자 사람 깊이 대화 전혀 라이브 순서 시작 점프 영상 ...
4,삼성전자,005930,삼프로TV_경제의신과함께,2021090700,"[주인장백 브리핑] 베트남 생산 비상, 언제 정상화되나 / 편의점과 손잡는 은행들",자원의 쥔장 백브리핑 더 4 굉장히중요한 이슈 4 두가지 준비했죠편의점은 전문적인 ...,12621,1253,삼프로TV제작사및멤버사공개채용세부공고확인링크httpswwwpage2krnotice1...,https://www.youtube.com/watch?v=sLjLoTGprBY,2021-09-07,00,77100,77100,75900,76100,13239401,-0.015524,-1,자원 브리핑 이슈 가지 준비 편의점 전문 거예 브랜드 원래 기사 보도자료 은행 이제...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
583,셀트리온,068270,한국경제TV,2021091100,"[경제전쟁 꾼 27] 약해지는 테이퍼링 우려, 유동성 파티 이어질까? (삼프로TV ...",고용 이슈가 1 그야말로 쇼코수중으로 놀랐죠엄청 많습니다이슈 하나만으로는 스테이크 ...,199419,3081,꾼의 시선으로 경제를 본다!\n- 경제와 시사를 아우르는 프로중의 프로 김동환 소장...,https://www.youtube.com/watch?v=xdazq1qrlFc,2021-09-13,00,266500,267000,260500,262000,505510,-0.020561,-1,고용 이슈 쇼코 수중 이슈 하나 스테이크 레이 모습 살짝 테이퍼링 예언 가능성 시장...
584,셀트리온,068270,한국경제TV,2021091200,"운임은 최고가 인데 해운 말고 조선주(+기자재)를? / 현대중공업, HMM, 삼성중...",[음악]소의 공급과 수요의 서서 에 불균형때문에 그런데요이정기 선사 컨테이너 선사들...,27554,1010,MC : 이진우 GFM투자연구소장\n 권다영 캐스터\n\n출연 : 민...,https://www.youtube.com/watch?v=vy8412FKVwo,2021-09-13,00,266500,267000,260500,262000,505510,-0.020561,-1,음악 소의 공급 수요 서서 불균형 때문 이정기 선사 컨테이너 선사 롤라 재미 때문 ...
585,셀트리온,068270,한국경제TV,2021091400,중대한 시장위험 임박하지 않았다!(김한진)/ 주식경제 이슈분석 / 한국경제TV,[음악]이제 우리 주식시장의 저명한이코노미스트 에 또 고견을 들어보는시간입니다오늘 ...,7427,1211,○ 김한진 (KTB투자증권 수석연구위원)\n○ 곽수종 앵커\n○ 손현정 앵커\n\n...,https://www.youtube.com/watch?v=2r_mxd3gzt0,2021-09-14,00,261500,265000,260500,263000,416684,0.003817,1,음악 이제 우리 주식시장 이코노미스트 고견 시간 한진 투자 수성 연구 회원 자리 안...
586,셀트리온,068270,한국경제TV,2021091600,"염블리의 전략 ""지수 아닌 기업 볼 때"" #금호건설, 주목 이유는? / 금호건설 /...",성공투자 에 첫 코너 입니다아마 우리 시청자 분들이 가장사랑하시는 분이 아닌가 싶습...,10946,555,º 성공투자 오후증시\nMC 나민호 / 이경은\n출연 염승환 이베스트투자증권 디지털...,https://www.youtube.com/watch?v=HZAN0AFBh8s,2021-09-16,00,276000,276000,266500,267000,354210,-0.020183,-1,성공 투자 코너 우리 시청자 가장 사랑 비스트 투자 증권 연승 직접 스튜디오 음악 ...


In [8]:
total.to_csv('../../../../Final Data/youtube_token.csv', index=False)