In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
import warnings
warnings.filterwarnings(action='ignore')

In [3]:
df = pd.read_csv('df_aim.csv',index_col=0)
df1 = df[['6month_return_index', '6month_return', '6month_log_return',
       '1Year_return_index', '1Year_return', '1Year_log_return','idx','투자의견']]

In [4]:
def get_outlier(df=None, weight=1.5):
    
    percent_25 = np.percentile(df, 25)
    percent_75 = np.percentile(df, 75)
    iqr = percent_75 - percent_25

    highest_lim = percent_75 + (iqr*weight*2)
    lowest_lim = percent_25 - (iqr*weight)

    outlier_idx = df[(df > highest_lim) | (df < lowest_lim)].index.tolist()
    return outlier_idx

In [5]:
df1.drop(get_outlier(df1['6month_return'], weight=1.5), axis=0, inplace=True)

In [6]:
df1.drop(get_outlier(df1['6month_return_index'], weight=1.8), axis=0, inplace=True)

In [7]:
a=np.array(df1['6month_return'])

In [8]:
bins = [-0.7, -0.3, -0.2,-0.15,-0.1,-0.05,0,0.05, 0.1,0.15,0.2,0.3, 1.5]
bins

[-0.7, -0.3, -0.2, -0.15, -0.1, -0.05, 0, 0.05, 0.1, 0.15, 0.2, 0.3, 1.5]

In [9]:
a_cut = pd.cut(a,bins,right=True)
frq = pd.value_counts(a_cut).sort_index()
frq_sum = frq.sum()
df_cut=pd.DataFrame({'도수':frq,
            '상대도수':[i/frq_sum for i in frq],
            '누적도수' : frq.cumsum()})
df_cut

Unnamed: 0,도수,상대도수,누적도수
"(-0.7, -0.3]",1298,0.070299,1298
"(-0.3, -0.2]",2051,0.111081,3349
"(-0.2, -0.15]",1415,0.076636,4764
"(-0.15, -0.1]",1577,0.085409,6341
"(-0.1, -0.05]",1932,0.104636,8273
"(-0.05, 0.0]",1773,0.096025,10046
"(0.0, 0.05]",1589,0.086059,11635
"(0.05, 0.1]",1311,0.071003,12946
"(0.1, 0.15]",1143,0.061904,14089
"(0.15, 0.2]",902,0.048852,14991


In [10]:
bins_label = [(str(x),alpha) for x,alpha in zip(df_cut.index, ['M','L','K','J','I','H','G','F','E','D','C','B','A'])]
bins_label

[('(-0.7, -0.3]', 'M'),
 ('(-0.3, -0.2]', 'L'),
 ('(-0.2, -0.15]', 'K'),
 ('(-0.15, -0.1]', 'J'),
 ('(-0.1, -0.05]', 'I'),
 ('(-0.05, 0.0]', 'H'),
 ('(0.0, 0.05]', 'G'),
 ('(0.05, 0.1]', 'F'),
 ('(0.1, 0.15]', 'E'),
 ('(0.15, 0.2]', 'D'),
 ('(0.2, 0.3]', 'C'),
 ('(0.3, 1.5]', 'B')]

In [11]:
df2 = df1.copy()

In [12]:
df2["interval"] = pd.cut(df2["6month_return"], bins, right=False, labels=bins_label)
df2

Unnamed: 0,6month_return_index,6month_return,6month_log_return,1Year_return_index,1Year_return,1Year_log_return,idx,투자의견,interval
0,-0.104423,-0.239448,-0.273711,-0.248988,-0.356331,-0.440571,473108,buy,"((-0.3, -0.2], L)"
1,-0.080096,-0.213645,-0.240346,-0.266345,-0.423698,-0.551124,479661,buy,"((-0.3, -0.2], L)"
2,-0.077229,-0.134774,-0.144764,-0.362865,-0.466049,-0.627452,493832,buy,"((-0.15, -0.1], J)"
3,-0.102360,-0.075034,-0.077998,-0.139111,-0.096862,-0.101880,293653,buy,"((-0.1, -0.05], I)"
4,-0.175222,-0.016224,-0.016357,-0.193884,0.084071,0.080723,400398,buy,"((-0.05, 0.0], H)"
...,...,...,...,...,...,...,...,...,...
18713,0.057630,0.014013,0.013915,-0.158888,-0.185987,-0.205779,345498,strongbuy,"((0.0, 0.05], G)"
18714,0.046595,-0.004049,-0.004057,0.020880,0.004049,0.004040,353325,strongbuy,"((-0.05, 0.0], H)"
18715,-0.289034,-0.319101,-0.384341,-0.461999,-0.486142,-0.665809,352285,strongbuy,"((-0.7, -0.3], M)"
18716,-0.279320,-0.226148,-0.256375,-0.582808,-0.492580,-0.678415,345568,strongbuy,"((-0.3, -0.2], L)"


In [13]:
df2['Label'] = df2['interval'].apply(lambda x : x[1])
df2['interval'] = df2['interval'].apply(lambda x : x[0])

In [14]:
df_temp=df2.copy()
df_temp

Unnamed: 0,6month_return_index,6month_return,6month_log_return,1Year_return_index,1Year_return,1Year_log_return,idx,투자의견,interval,Label
0,-0.104423,-0.239448,-0.273711,-0.248988,-0.356331,-0.440571,473108,buy,"(-0.3, -0.2]",L
1,-0.080096,-0.213645,-0.240346,-0.266345,-0.423698,-0.551124,479661,buy,"(-0.3, -0.2]",L
2,-0.077229,-0.134774,-0.144764,-0.362865,-0.466049,-0.627452,493832,buy,"(-0.15, -0.1]",J
3,-0.102360,-0.075034,-0.077998,-0.139111,-0.096862,-0.101880,293653,buy,"(-0.1, -0.05]",I
4,-0.175222,-0.016224,-0.016357,-0.193884,0.084071,0.080723,400398,buy,"(-0.05, 0.0]",H
...,...,...,...,...,...,...,...,...,...,...
18713,0.057630,0.014013,0.013915,-0.158888,-0.185987,-0.205779,345498,strongbuy,"(0.0, 0.05]",G
18714,0.046595,-0.004049,-0.004057,0.020880,0.004049,0.004040,353325,strongbuy,"(-0.05, 0.0]",H
18715,-0.289034,-0.319101,-0.384341,-0.461999,-0.486142,-0.665809,352285,strongbuy,"(-0.7, -0.3]",M
18716,-0.279320,-0.226148,-0.256375,-0.582808,-0.492580,-0.678415,345568,strongbuy,"(-0.3, -0.2]",L


In [None]:
#########################################

Word2vec이 단어를 vector로 변경하는 word embedding 방식이라면 doc2vec은 문서를 \
vector 로 변경하는 document embedding 방식입니다. Word2vec 방식을 문서에 대해서 \
확장하였기 때문에 기존의 word2vec의 장점을 그대로 가지며 훈련 방식도 word2vec의\
cbow와 skip-gram과 유사한 distributed memory(dm)과 distributed bag of words(dbow)을 \
사용합니다.

주변의 단어들로 가운데 있는 단어를 유추하는 CBOW,\
가운데 있는 단어로주변 단어들을 유추하는 skip-gram

In [None]:
# document는 doc2vec 모델을 훈련시키기 위한 말뭉치(corpus) 입니다.
# -- taggeddocument 리스트를 생성
# 

# dm은 doc2vec 훈련 알고리즘입니다. dm=1으로 설정하면 distributed memory(PV-DM)이 사용되고 
# 그 외는 distributed bag of words( PV-DBOW) 알고리즘이 사용됩니다. 

# PV-DM /  PV-DBOW와 함께 사용하는 것을 추천



In [10]:
# !pip install gensim

Collecting gensim
  Downloading gensim-4.1.2-cp38-cp38-win_amd64.whl (24.0 MB)
Collecting smart-open>=1.8.1
  Downloading smart_open-5.2.1-py3-none-any.whl (58 kB)
Installing collected packages: smart-open, gensim
Successfully installed gensim-4.1.2 smart-open-5.2.1


In [15]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [16]:
from konlpy.tag import Kkma
from konlpy.tag import Komoran
from konlpy.tag import Hannanum
from konlpy.tag import Okt

In [17]:
import time

In [18]:
okt = Okt()

In [19]:
df = pd.read_csv('full_sample_data.csv',index_col=0)
df

Unnamed: 0_level_0,작성일,code,투자의견,idx.1,report,tokens,string
idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
473108,2018-04-18,88350,buy,473108,년 월 일 기업분석건설유틸리티 한화생명 기업이슈 브리프보험 년 월 일 ...,"['건설', '유틸리티', '생명', '이슈', '브리프', '보험', '조원', ...",건설 유틸리티 생명 이슈 브리프 보험 조원 신종 자본 성공 컨센서스 대비 상회 부합...
380646,2016-05-23,92070,buy,380646,Microsoft PowerPoint 반도체산업전망 veditingFFpptxCo...,"['반도체', '산업', '전망', '반도체', '디스플레이', '산업', '동향'...",반도체 산업 전망 반도체 디스플레이 산업 동향 산업 전망 산업 전망 반도체 디스플레...
329427,2014-07-29,270,buy,329427,Microsoft Word CUNITdoc기아차 Q Review 하반기 해볼만하...,"['기아차', '하반기', '만하', '원유', '이윤석', '주가', '상대', ...",기아차 하반기 만하 원유 이윤석 주가 상대 수익률 매수 유지 자본금 억원 식수 만주...
519412,2019-04-03,35720,buy,519412,년 월 일 기업분석건설유틸리티 카카오 기업이슈 브리프인터넷게임 년 월 ...,"['건설', '유틸리티', '이슈', '브리프', '인터넷', '게임', '핵심',...",건설 유틸리티 이슈 브리프 인터넷 게임 핵심 이슈 점검 컨센서스 대비 기준 상회 부...
391416,2016-09-12,20560,buy,391416,Microsoft Word 아시아나항공 Research Center ...,"['아시아나', '항공', '아시아나', '항공', '운송', '엔터테인먼트', '...",아시아나 항공 아시아나 항공 운송 엔터테인먼트 정유석 유상증자 억원 하향 목표 주가...
...,...,...,...,...,...,...,...
272705,2011-11-14,830,strongbuy,272705,Microsoft Word Type산업건설엔지니어링doc 중...,"['산업', '건설', '엔지니어링', '중동', '발주', '지속', '가능성',...",산업 건설 엔지니어링 중동 발주 지속 가능성 건설 열매 박판 트위터 중동 국가 발주...
272587,2011-11-11,97230,strongbuy,272587,DFFFDCDCFCDFBFBEFFBEBEFBAEABAECCFFBCADCABFFBEB...,"['한진', '중공업', '이제', '펀더멘털', '집중', '정덕', '목표', ...",한진 중공업 이제 펀더멘털 집중 정덕 목표 주가 주가 소속 업종 운수 창고 시가총액...
272570,2011-11-10,210,strongbuy,272570,Microsoft Word IBSPPRdoc wwwwooriwmcom 분기 실...,"['분기', '분기', '국내', '해외', '모든', '부문', '마진', '분기...",분기 분기 국내 해외 모든 부문 마진 분기 누적 신규 수주 합계 조원 가이던스 대비...
272294,2011-11-07,10620,strongbuy,272294,Microsoft Word 현대미포조선doc 현대미포조선 Big...,"['대미', '조선', '대미', '조선', '대비', '과도', '할인', '거래...",대미 조선 대미 조선 대비 과도 할인 거래 조선 기계 분기 누적 신규 수주 달러 수...


In [20]:
df.index = range(len(df))
df.rename(columns = {'idx.1': 'idx'},inplace=True)

In [25]:
df_aim=pd.merge(df_temp, df, how='inner', on='idx')
df_aim.drop(['투자의견_x','code','작성일'],axis=1,inplace=True)
df_aim.rename(columns={'투자의견_y':'투자의견'},inplace=True)

In [27]:
df = df_aim.copy()

In [28]:
from sklearn.cluster import KMeans
from gensim.test.utils import common_texts
from gensim.models.doc2vec import Doc2Vec, TaggedDocument
from gensim.models import Phrases


In [29]:
%%time
df['tokens'] = df['tokens'].apply(lambda x : eval(x))

Wall time: 47.6 s


In [46]:
# df['tokens'][:100]

idx
473108    [건설, 유틸리티, 생명, 이슈, 브리프, 보험, 조원, 신종, 자본, 성공, 컨센...
380646    [반도체, 산업, 전망, 반도체, 디스플레이, 산업, 동향, 산업, 전망, 산업, ...
329427    [기아차, 하반기, 만하, 원유, 이윤석, 주가, 상대, 수익률, 매수, 유지, 자...
519412    [건설, 유틸리티, 이슈, 브리프, 인터넷, 게임, 핵심, 이슈, 점검, 컨센서스,...
391416    [아시아나, 항공, 아시아나, 항공, 운송, 엔터테인먼트, 정유석, 유상증자, 억원...
582367    [대규모, 비용, 인식, 견조, 이익, 유지, 분기, 순이익, 억원, 기록, 장예,...
366556    [지주, 유지, 가원, 액면가, 최고, 보통주, 최저, 보통주, 자본금, 억원, 시...
291749    [신뢰, 완전, 시기, 지적재산권, 무단, 복제, 통신, 장비, 전자부품, 비중, ...
572444    [프레, 테이, 서영수, 유근, 가계부채, 부채, 위기, 가능성, 점검, 가계, 부...
337566    [화학, 정유, 연간, 전망, 화학, 정유, 재료, 거품, 소년, 라운드, 화학, ...
Name: tokens, dtype: object

In [30]:
len(df['tokens'])

18464

In [31]:
%%time
common_text = Phrases(sentences=df['tokens'], min_count=30, threshold=10, delimiter='')

Wall time: 37.9 s


In [32]:
%%time
common_token_list = []
for tokens in df['tokens']:
    common_token_list.append([token for token in common_text[tokens]])

Wall time: 1min 14s


In [33]:
common_texts=common_token_list
# common_texts

In [34]:
len(common_texts)

18464

In [35]:
common_texts_and_tags = [
    (text, [i] ) for text, i in zip(common_texts,df.index.values)
]

In [38]:
len(common_texts_and_tags)

18464

In [39]:
common_texts_and_tags[1]

(['생명',
  '가장',
  '성용',
  '유지',
  '목표',
  '주가',
  '하향',
  '주가',
  '상승여력',
  '시가총액',
  '억원',
  '식수천주',
  '최고최저',
  '평균거래',
  '대금',
  '억원',
  '외국인분율',
  '주주구성',
  '건설',
  '생명',
  '사주',
  '예금',
  '보험',
  '공사',
  '주가수익률',
  '개월개월',
  '개월개월',
  '절대',
  '수익률',
  '상대',
  '수익률',
  '단위십억',
  '재무',
  '매출',
  '영업',
  '이익',
  '순이익',
  '배당수익률',
  '주가',
  '추이',
  '이익',
  '망치',
  '매력',
  '화생',
  '관점',
  '생각',
  '금리',
  '모멘텀',
  '최대',
  '수혜',
  '예금',
  '보험',
  '오버',
  '우려',
  '해소',
  '가능성',
  '동사',
  '주가',
  '상방',
  '크게',
  '요인',
  '생각',
  '순이익',
  '전망',
  '화생',
  '순이익',
  '기록',
  '전망',
  '동기',
  '대비',
  '감소',
  '쇼크',
  '수준',
  '기록',
  '연간',
  '기준',
  '증익',
  '예상',
  '이유',
  '변액보험',
  '보증준비',
  '추가',
  '전입',
  '환입',
  '때문',
  '업계',
  '공통',
  '요인',
  '그룹',
  '특성',
  '변액',
  '집중',
  '생명',
  '제외',
  '변액보험',
  '비중',
  '가장',
  '생명보험',
  '이익',
  '모멘텀',
  '생명보험사',
  '올해',
  '이익',
  '전망',
  '매력',
  '생명보험',
  '주가',
  '이익',
  '금리',
  '생명생명',
  '오버',
  '우려',
  '해소',
  '생명',
  '모멘텀',
  '생명생명',
  '좌우',
  '가능성',
  

In [40]:
documents = [TaggedDocument(words=text, tags=tags) for text, tags in common_texts_and_tags]

In [41]:
len(documents)

18464

In [90]:
documents[0]

TaggedDocument(words=['건설', '유틸리티', '생명', '이슈', '브리프', '보험', '조원', '신종', '자본', '성공', '컨센서스', '대비', '상회부합', '평균거래', '대금', '억원', '외국인분율', '절대', '수익률', '상대', '수익률', '배당수익률', '재무', '데이터', '십억원', '매출', '영업', '이익', '순이익', '생명생명', '목표', '주가', '주가', '시가총액', '규모', '해외', '신종', '자본', '성공', '동사', '지난해', '국내', '억원', '전일', '달러', '규모', '해외', '신종', '자본', '언론보도', '기관', '입찰', '경쟁률', '기록', '신종', '자본', '상세', '만기연장', '가능', '조기상', '환권', '포함', '일로', '이후', '개월', '마다', '청구', '가능', '이자율', '고정', '이자율', '산정', '근거', '전일', '미국', '국채금리', '가산금리', '합산', '이후', '년물국고', '금리', '가산금리', '스텝업', '금리', '추가', '지급', '이자', '누적', '납입', '동사', '분기', '비율', '상승', '예상', '미국', '금리', '상승', '추세', '지속', '전망', '때문', '도입', '대비', '선제대응', '긍정', '목표', '주가', '업종', '최선호주', '유지', '이슈', '브리프', '생명생명', '목표', '주가', '추이', '변동일시', '목표', '가격', '괴리율', '일시', '목표', '가격', '괴리율', '최고', '대비', '최저', '대비', '평균', '대비', '최고', '대비', '최저', '대비', '평균', '대비', '변경', '박혜진'], tags=[0])

In [None]:
# window 2 // 5에서 10 사이
# min_count 10에서 100 


# 중요 
# dm ({0,1}, optional) 1: PV-DM, 0: PV-DBOW

In [57]:
x = model.dv.vectors
y = df.Label

In [55]:
from sklearn.preprocessing import LabelEncoder

In [56]:
le = LabelEncoder()
le.fit(y)
y = le.transform(y)
y

array([10, 10,  8, ..., 11, 10,  8])

In [48]:
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(x,y, random_state = 42)

In [49]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier,AdaBoostClassifier
from lightgbm import LGBMClassifier
from sklearn.ensemble import GradientBoostingClassifier
from xgboost import XGBClassifier
from sklearn.neural_network import MLPClassifier
# from sklearn.gaussian_process import GaussianProcessClassifier
# from sklearn.gaussian_process.kernels import RBF

In [60]:
knn = KNeighborsClassifier()
dtc = DecisionTreeClassifier()
rtc = RandomForestClassifier()
ada = AdaBoostClassifier()
lgb = LGBMClassifier()
gdb = GradientBoostingClassifier()
xgb = XGBClassifier(eval_metric='logloss')
mlp = MLPClassifier()

In [70]:
%%time
model2 = Doc2Vec(documents, vector_size=100, window=5, epochs=40, min_count=100,workers=4)

Wall time: 6min 20s


In [71]:
%%time
model2.build_vocab(documents)

Wall time: 4.5 s


In [None]:
%%time
model.train(documents, epochs=40, total_examples=model.corpus_count)

In [72]:
model2.dv.vectors.shape

(18464, 100)

In [77]:
models=[dtc,rtc,lgb,gdb,xgb,mpl]
for m in models :
    m.fit(x_train,y_train)
    print(m.__class__.__name__)
    print(m.score(x_train, y_train))
    print(m.score(x_test,y_test))
    print()


DecisionTreeClassifier
1.0
0.0968370883882149

RandomForestClassifier
1.0
0.13648180242634314

LGBMClassifier
0.9911900635470826
0.13214904679376083

GradientBoostingClassifier
0.4410745233968804
0.14081455805892548

XGBClassifier
0.9997111496244945
0.13128249566724437

MLPClassifier
0.4623050259965338
0.1115684575389948

