In [1]:
# 관심종목에 대한 실적정리 및 주가 모니터링 -> 엑셀로 수작업
# (1) 관심종목에 대한 현재 주가 받기 (야후 또는 FinanceDataReader)
# (2) 관심종목 실적(15~19년 1분기) 받기
# (3) csv에 저장
# 종목명, 현재주가, 지배자본, BPS, ROE(14~18,19 1분기), EPS(14~18,19 1분기), 발행주식수
# (4) 기존 정리하고 있던 엑셀에 적용
# 기본: 정량적 분석 -> 정성적 분석(19년도 실적 예측치, 외부환경, 내부환경)
# 포트폴리오 매수/매도가를 설정할수있다.
# 일련의 과정 -> 반자동화 -> 완전자동화(관심종목추가, 정성적분석제외)



In [1]:
# Finance DataReader 사용시 설정
# 한국/미국주식가격, 지수, 환율, 암호화폐가격, 종목리스팅 등 금융 데이터 수집 라이브러리
# https://financedata.github.io/posts/finance-data-reader-users-guide.html
# pip install finance-datareader

import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

import FinanceDataReader as fdr


In [2]:
# 종목코드얻기
# KRX 종목전체, KOSPI 코스피종목, KOSDAQ 코스닥종목
stock_code= fdr.StockListing('KRX')
print('종목개수:', len(stock_code))
stock_code.head()

종목개수: 2275


Unnamed: 0,Symbol,Name,Sector,Industry
0,1250,GS글로벌,상품 종합 도매업,"수출입업(시멘트,철강금속,전기전자,섬유,기계화학),상품중개,광업,채석업/하수처리 서..."
1,82740,HSD엔진,일반 목적용 기계 제조업,"대형선박용엔진,내연발전엔진"
2,1390,KG케미칼,기초 화학물질 제조업,"콘크리트혼화제, 비료, 친환경농자재, 수처리제"
3,11070,LG이노텍,전자부품 제조업,기타 전자부품 제조업
4,10060,OCI,기초 화학물질 제조업,"타르제품,카본블랙,무수프탈산,농약원제,석탄화학제품,정밀화학제품,플라스틱창호재 제조,판매"


In [3]:
# 종목코드는 유지되지만 종목명은 바뀌거나 잘못쓰는 경우가 많다. 때문에 종목코드로 시작한다.
# finance-datareader, fnguide 에서 우선주는 없다. (우선주 -> 보통주)

In [159]:
my_stock_code= pd.read_excel('./data/관심종목.xls', usecols='C')
print(my_stock_code.shape)
my_stock_code.head()

(169, 1)


Unnamed: 0,종목코드
0,A035250
1,A008560
2,A067900
3,A151860
4,A102260


In [160]:
my_stock_code.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 169 entries, 0 to 168
Data columns (total 1 columns):
종목코드    169 non-null object
dtypes: object(1)
memory usage: 1.4+ KB


In [161]:
# 종목코드 오기입 확인 
# 엑셀에 기입된 종목코드와 finance-datareader의 종목코드가 일치하는지 확인한다.

for i in my_stock_code['종목코드']:
    cantfind = 1
    for j in range(len(stock_code)):
        if i[1:] == stock_code['Symbol'][j]: # 종목코드 비교
            cantfind= 0
            break
    if cantfind == 1:
        print('%s를 찾을수없습니다.' %i) # 종목코드찾기 실패시 에러메시지 발생

In [162]:
# 중복된 종목코드가 있는지 확인

list_mycode= list(my_stock_code['종목코드'])
for code in my_stock_code['종목코드']:
    if list_mycode.count(code) > 1:
        print(list_mycode.count(code), code)


In [13]:
# FinanceDataReader (또는 pandas_datareader)를 사용하여 주가데이터를 다운로드받는다.
# 각 종목에 대한 주가데이터는 데이터프레임형태로 딕셔너리에 저장된다. 

all_data= {}
for ticker in my_stock_code['종목코드']:
    #all_data[ticker]= pdr.data.get_data_yahoo(ticker+'.KS', '2018-06-01', '2018-10-11')
    all_data[ticker]= fdr.DataReader(ticker[1:], '2019-05-22') #2018-10-19일까지 실행

In [14]:
# 데이터 확인
all_data_length=[]
for i in all_data.keys():
    print(len(all_data[i]), ',', end='')
    all_data_length.append(len(all_data[i]))

print()
print('주가정보 개수:', len(all_data_length))
print('관심종목코드 개수:', len(my_stock_code['종목코드']))

1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
주가정보 개수: 169
관심종목코드 개수: 169


In [15]:
df_close = pd.DataFrame({tic:data['Close'] for tic, data in all_data.items()})
df_close.head()

Unnamed: 0_level_0,A035250,A008560,A067900,A151860,A102260,A004380,A016800,A122450,A127710,A029960,...,A005500,A263750,A078340,A010950,A005490,A053050,A033780,A093050,A139480,A044340
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2019-05-22,30700,4855,8140,3715,5920,11100,33900,7300,2450,12200,...,33200,195400,98300,83100,233500,1570,101000,22750,146000,22200


In [16]:
df_close= pd.DataFrame(df_close.values.T, index=df_close.columns, columns=['현재주가']) #columns= df.index

In [17]:
df_close.head()

Unnamed: 0,현재주가
A035250,30700
A008560,4855
A067900,8140
A151860,3715
A102260,5920


In [18]:
df_close.info()

<class 'pandas.core.frame.DataFrame'>
Index: 169 entries, A035250 to A044340
Data columns (total 1 columns):
현재주가    169 non-null int64
dtypes: int64(1)
memory usage: 7.6+ KB


In [59]:
# fnguide에서 재무제표정보 가져오기
# 웹크롤링시 주의할점
# (1) 웹페이지의 테이블 형식이 모두 동일하지 않기 때문에 완전자동화는 어렵다.
#     받은 데이터의 무결성을 확인하는 작업이 필요하다.
#     최근상장된 기업은 데이터가 없으니 NaN으로 처리한다.
#     그외 오류가 날경우 수작업으로 처리
# (2) 별도를 봐야하는 기업, 연결을 봐야하는 기업을 구분해놓아야 한다.
# (3) 우선주는 없기때문에 보통주로 변경해야한다. 

import re
from pandas import DataFrame
import datetime, time
from datetime import timedelta
import urllib.request
import requests, json
from http.cookiejar import CookieJar
from bs4 import BeautifulSoup


def get_webpage(url, encoding=""):
    cj = CookieJar()
    opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
    opener.addheaders = [('User-agent', 'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95  Safari/537.36')]

    respstr = ""
    try:
        op = opener.open(url)
        sourcecode = op.read()
    except Exception as e:
        time.sleep(1)
        op = opener.open(url)
        sourcecode = op.read()

    encodingmethod = op.info().get_param('charset')
    if encodingmethod == None:
        if encoding != "":
            encodingmethod = encoding

    if encoding != "":
        encodingmethod = encoding

    try:
        respstr = sourcecode.decode(encoding=encodingmethod, errors='ignore')
    except Exception as e:
        respstr = sourcecode.decode(encoding="cp949", errors='ignore')

    opener.close()

    return respstr


def get_company_fundamental_fnguide(code):

    #code= 'A222980'
    url = "http://asp01.fnguide.com/SVO2/ASP/SVD_Main.asp?pGB=1&gicode=%s&NewMenuID=11&cID=50&MenuYn=N" % (code)
    
    respstr = get_webpage(url, encoding="utf8")
    time.sleep(0.5)
    soup = BeautifulSoup(respstr, "lxml")
    
    # <!--IFRS 연결/연간 -->
    target_table = soup.find("div", class_="um_table", id="highlight_D_Y")
    result = []

    for tr in target_table.find_all('tr'):
        for th in tr.find_all('th'):            
            value = "%s" % th.text.replace('(P) : Provisional','').replace('(E) : Estimate','').replace('잠정실적','').replace('컨센서스, 추정치','').replace('(E)','').replace('(P)','').replace('/','-').strip()
            if ('-02' in value):
                value = value + '-28'
            elif ('-04' in value) or ('-06' in value) or ('-09' in value) or ('-11' in value):
                value = value + '-30'
            elif ('-01' in value) or ('-03' in value) or ('-05' in value) or ('-07' in value) or ('-08' in value) or ('-10' in value) or ('-12' in value):
                value = value + '-31'
            result.append(value)
        # 값
        for td in tr.find_all('td'):
            value = td.text.strip().replace(',','')
            try:
                value = float(value)
            except Exception as e:
                value = 0
            result.append(value)

    result = result[1:]
    dfdata = []

    for x in range(0, len(result), 9):    
        dfdata.append(result[x:x+9])

    #df_year = DataFrame(data=dfdata, columns = [str(x) for x in range(1,26)]).T
    df_year = DataFrame(data=dfdata)
    df_year.columns= df_year.iloc[0]
    df_year.drop(df_year.index[0], axis=0, inplace=True)
    df_year = df_year.convert_objects(convert_numeric=True)
    
    
    # <!--IFRS 연결/분기 -->
    target_table = soup.find("div", class_="um_table", id="highlight_D_Q")
    result = []

    for tr in target_table.find_all('tr'):
        for th in tr.find_all('th'):            
            value = "%s" % th.text.replace('(P) : Provisional','').replace('(E) : Estimate','').replace('잠정실적','').replace('컨센서스, 추정치','').replace('(E)','').replace('(P)','').replace('/','-').strip()
            if ('-02' in value):
                value = value + '-28'
            elif ('-04' in value) or ('-06' in value) or ('-09' in value) or ('-11' in value):
                value = value + '-30'
            elif ('-01' in value) or ('-03' in value) or ('-05' in value) or ('-07' in value) or ('-08' in value) or ('-10' in value) or ('-12' in value):
                value = value + '-31'
            result.append(value)
        # 값
        for td in tr.find_all('td'):
            value = td.text.strip().replace(',','')
            try:
                value = float(value)
            except Exception as e:
                value = 0
            result.append(value)

    result = result[1:]
    dfdata = []

    for x in range(0, len(result), 9):    
        dfdata.append(result[x:x+9])

    #df_year = DataFrame(data=dfdata, columns = [str(x) for x in range(1,26)]).T
    df_qt = DataFrame(data=dfdata)
    df_qt.columns= df_qt.iloc[0]
    df_qt.drop(df_qt.index[0], axis=0, inplace=True)
    df_qt = df_qt.convert_objects(convert_numeric=True)    
    
    return (df_year, df_qt)
    



In [21]:
# 연결 -> 지배주주지분, BPS, ROE, EPS, 발행주식수 컬럼이 있는지 확인한다.
# cnt = 0
# for col in ['지배주주지분', 'BPS', 'ROE', 'EPS', '발행주식수']:
#     for name in df_year['Annual']:
#         if col in str(name):
#             #print(col, ' 컬럼있음.')
#             cnt += 1
#             break
# if cnt < 5:
#     print('컬럼없음.')    

In [156]:
code= 'A005930'
dfg_year, dfg_qt = get_company_fundamental_fnguide(code)

For all other conversions use the data-type specific converters pd.to_datetime, pd.to_timedelta and pd.to_numeric.
For all other conversions use the data-type specific converters pd.to_datetime, pd.to_timedelta and pd.to_numeric.


In [157]:
dfg_qt

Unnamed: 0,Net Quarter,2018-03-31,2018-06-30,2018-09-30,2018-12-31,2019-03-31,2019-06-30,2019-09-30,2019-12-31
1,매출액,605637.0,584827.0,654600.0,592651.0,523855.0,538456.0,577788.0,596773.0
2,영업이익,156422.0,148690.0,175749.0,108006.0,62333.0,60235.0,79067.0,82801.0
3,당기순이익,116885.0,110434.0,131507.0,84622.0,50436.0,47231.0,64151.0,68458.0
4,지배주주순이익,116118.0,109815.0,129674.0,83301.0,51075.0,48500.0,59025.0,61642.0
5,비지배주주순이익,767.0,619.0,1833.0,1321.0,-639.0,0.0,0.0,0.0
6,자산총계,3124731.0,3186884.0,3371958.0,3393572.0,3450679.0,0.0,0.0,0.0
7,부채총계,892132.0,855635.0,950926.0,916041.0,918527.0,0.0,0.0,0.0
8,자본총계,2232599.0,2331248.0,2421032.0,2477532.0,2532152.0,0.0,0.0,0.0
9,지배주주지분,2158845.0,2256714.0,2344764.0,2400690.0,2454998.0,0.0,0.0,0.0
10,비지배주주지분,73754.0,74534.0,76268.0,76842.0,77153.0,0.0,0.0,0.0


In [144]:
df_all= None

for code in my_stock_code['종목코드']:
    
    df= None
    dfg_year= None
    dfg_qt= None
    dfg_year, dfg_qt = get_company_fundamental_fnguide(code)
    
    try:
        merge_list= []
        merge_list.append(code) # 종목코드
        merge_list.append(df_close['현재주가'].loc[code]) # 현재 주가
        merge_list.append(dfg_year.loc[9][5]) # 2018/12 지배주주지분 1개
        merge_list.append(dfg_year.loc[19][5]) # 2015 ~ 2018/12 BPS 1개
        for i in list(dfg_year.loc[17][2:7]): # 2015 ~ 2018/12 ROE 5개
            merge_list.append(i) 
        for i in list(dfg_year.loc[18][2:7]): # 2015 ~ 2018/12 EPS 5개
            merge_list.append(i)
        merge_list.append(dfg_year.loc[23][5]) # 2018/12 발행주식수 1개
        for i in list(dfg_qt.loc[2][2:7]): # 2018/1 ~ 2019/03 영업이익 5개
            merge_list.append(i)
        for i in list(dfg_qt.loc[3][2:7]): # 2018/1 ~ 2019/03 순이익 5개
            merge_list.append(i)
        print(code, ' ', len(merge_list), '개의 값이 생성되었습니다.')
    except:
        print(code, ' ', '데이터받기에 실패하였습니다.!!!!!!!!!')
        merge_list= []
        merge_list.append(code) # 종목코드
        merge_list.append(df_close['현재주가'].loc[code]) # 현재 주가
        for i in range(23):
            merge_list.append(np.NaN) # [np.NaN for i in range(15)]

    col_list= ['종목코드','현재가','지배자본','BPS','ROE15','ROE16','ROE17','ROE18','ROE19',
               'EPS15','EPS16','EPS17','EPS18','EPS19','발행주식수',
               '영익18-1','영익18-2','영익18-3','영익18-4','영익19-1',           
               '순익18-1','순익18-2','순익18-3','순익18-4','순익19-1']

    df= pd.DataFrame([merge_list], columns= col_list)
    df_all= pd.concat([df_all, df])
    

For all other conversions use the data-type specific converters pd.to_datetime, pd.to_timedelta and pd.to_numeric.
For all other conversions use the data-type specific converters pd.to_datetime, pd.to_timedelta and pd.to_numeric.


A035250   25 개의 값이 생성되었습니다.
A008560   25 개의 값이 생성되었습니다.
A067900   25 개의 값이 생성되었습니다.
A151860   25 개의 값이 생성되었습니다.
A102260   25 개의 값이 생성되었습니다.
A004380   25 개의 값이 생성되었습니다.
A016800   25 개의 값이 생성되었습니다.
A122450   25 개의 값이 생성되었습니다.
A127710   25 개의 값이 생성되었습니다.
A029960   25 개의 값이 생성되었습니다.
A023590   25 개의 값이 생성되었습니다.
A229640   25 개의 값이 생성되었습니다.
A268280   25 개의 값이 생성되었습니다.
A181710   25 개의 값이 생성되었습니다.
A034310   25 개의 값이 생성되었습니다.
A251270   25 개의 값이 생성되었습니다.
A216050   25 개의 값이 생성되었습니다.
A089600   25 개의 값이 생성되었습니다.
A230360   25 개의 값이 생성되었습니다.
A003960   25 개의 값이 생성되었습니다.
A065510   25 개의 값이 생성되었습니다.
A183300   25 개의 값이 생성되었습니다.
A000050   25 개의 값이 생성되었습니다.
A003690   25 개의 값이 생성되었습니다.
A108670   25 개의 값이 생성되었습니다.
A078930   25 개의 값이 생성되었습니다.
A002350   25 개의 값이 생성되었습니다.
A161390   25 개의 값이 생성되었습니다.
A044960   25 개의 값이 생성되었습니다.
A267250   25 개의 값이 생성되었습니다.
A005090   25 개의 값이 생성되었습니다.
A030200   25 개의 값이 생성되었습니다.
A004780   25 개의 값이 생성되었습니다.
A040610   25 개의 값이 생성되었습니다.
A222980   25 개의 값이 생성되었습니다.
A000880   25 개의 값이 생

In [154]:
df_all.reset_index(inplace= True)
df_all.drop('index', axis=1, inplace= True)
print(df_all.shape)

(169, 25)


In [155]:
df_all.to_csv('./data/관심종목_재무정보.csv', encoding='ANSI')

In [None]:
# 연결과 별도를 구분할 필요가 있다.