In [8]:
 ! pip install selenium



In [1]:
# -----------------------------------------------------------------
#    Author: 김은혜                           
#    Created: 2021.06.16
#    Description: \
#    selenium을 통해 유저가 입력하는 주식 종목의 종목 코드 및 주가 정보를 크롤링
#   분기별 부채 비율의 변동률이 100이상, 기업의 유보율을 500% 기준으로 위험도를 경고
#   전년 대비 연간 매출액, 영업이익, 당기 순이익의 증감의 폭에 따라 성장도를 판단
#   실제 주식의 가치(주당 순이익)를 합산하여 최종으로 해당 주식의 구매 추천
#     
# -----------------------------------------------------------------

## 라이브러리 및 크롤링을 위한 웹드라이브 설정

import pandas as pd
from bs4 import BeautifulSoup 
import requests
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from matplotlib import font_manager, rc
rc('font', family='AppleGothic')
import FinanceDataReader as web
from datetime import date, timedelta
import matplotlib.pyplot as plt
import datetime
import urllib.parse
import time
import math

%matplotlib inline

## 웹 드라이브 설정

options = webdriver.ChromeOptions()
options.add_argument("window-size=1920*1080")
driver_loc = "../../../selenium/chromedriver" ## 제출전 경로확인
driver = webdriver.Chrome(executable_path=driver_loc,options=options)

targetUrl = "https://finance.naver.com/"
driver.get(targetUrl)

In [2]:
## 입력받은 데이터의 종목 코드를 확인
MARKET_CODE_DICT = {
    'kospi': 'stockMkt',
    'kosdaq': 'kosdaqMkt',
    'konex': 'konexMkt'
}
DOWNLOAD_URL = 'https://kind.krx.co.kr/corpgeneral/corpList.do'
MARKET_CODE_DICT

{'kospi': 'stockMkt', 'kosdaq': 'kosdaqMkt', 'konex': 'konexMkt'}

In [3]:
##종목 코드에 맞춰서 zfill=자릿수만큼 앞에 0으로 채워주는 함수

def zeroFill(columnValue):
    columnValue = str(columnValue)
    outValue = columnValue.zfill(6)
    return outValue

In [10]:
## 상장폐지가 아닌 상장사들만 조회
## input되는 key값에 맞는 value 값 전체가 return 되는 함수
#  {key = kospi : value = kospi} 상장사의 정보

def stock_list(market=None, delisted=False):
    params = {'method': 'download'}

    if market.lower() in MARKET_CODE_DICT:
        params['marketType'] = MARKET_CODE_DICT[market]
        print(market.lower()+" market key is exist")

    else:
        print("invalid market")

    params_string = urllib.parse.urlencode(params)
    request_url = DOWNLOAD_URL+"?"+params_string
    df = pd.read_html(request_url)[0]
    df["종목코드"] = df.종목코드.apply(zeroFill) 
    return df

In [11]:
## 유저가 입력한 주식종목의 종목 코드 가져오기
def get_stock_number(stock_Name):
    stocks = stock_list('kospi')
    stocksRow = stocks.loc[stocks.회사명==stock_Name]
    if(len(stocksRow)<=0):
        print("can not found stock_name")
    else:
        code_number = stocksRow.iloc[0]['종목코드']
        code_number = str(code_number)
        return code_number

In [12]:
## selenium을 통한 naver 금융정보 분기별 기업 실적 정보 크롤링

def crawling_with_code(stock_code):
    
    ##검색창에 마우스 커서클릭
    searchXpath = "/html/body/div[2]/div[1]/div/div[2]/form/fieldset/div/div[1]/input"
    searchClick = driver.find_element_by_xpath(searchXpath)
    searchClick.click() 

    ##종목 키워드 검색
    stockNameSearch = driver.find_element_by_xpath(searchXpath)
    searchKeyword = stock_code
    stockNameSearch.send_keys(searchKeyword)
    stockNameSearch.send_keys(Keys.ENTER)

    ##분기별 기업실적분석까지 스크롤내리기
    time.sleep(3)
    driver.execute_script("window.scrollTo(0, 1200)")
    time.sleep(3)

    targetUrl = driver.current_url 
    resp = requests.get(url=targetUrl)
    html = resp.text
    htmlObj = BeautifulSoup(html, "html.parser",from_encoding='utf-8')
    
    
    tables=htmlObj.select('table')
    table = tables[3]
#     time.sleep(2)

    return change_type_crwaling_code(table)

In [13]:
## selenium을 통한 naver 금융정보 분기별 시가 총액 정보 크롤링

def crawling_with_marketcap_info(stock_code):
    time.sleep(2)

    ## 분기별 기업 실적 정보 크롤링
    ##검색창에 마우스 커서클릭
    searchXpath = "/html/body/div[2]/div[1]/div/div[2]/form/fieldset/div/div[1]/input"
    searchClick = driver.find_element_by_xpath(searchXpath)
    searchClick.click()
    time.sleep(2)

    ##종목 키워드 검색
    stockNameSearch = driver.find_element_by_xpath(searchXpath)
    searchKeyword = stock_code
    time.sleep(2)
    stockNameSearch.send_keys(searchKeyword)
    stockNameSearch.send_keys(Keys.ENTER)

    ##분기별 기업실적분석까지 스크롤내리기
    driver.execute_script("window.scrollTo(0, 1200)")
    time.sleep(3)
    
    targetUrl = driver.current_url 
    resp = requests.get(url=targetUrl)
    html = resp.text
    htmlObj = BeautifulSoup(html, "html.parser",from_encoding='utf-8')
    
    tables=htmlObj.select('table')
    time.sleep(3)

    table = tables[5]
    time.sleep(3)

    return change_type_crwaling_code(table)

In [14]:
## table의 type 변경을 위한 함수(html to table)

def change_type_crwaling_code(table):
    # 테이블 html 정보를 문자열로 변경하기
    table_html = str(table)

    # pandas의 read_html 로 테이블 정보 읽기
    table_df_list = pd.read_html(table_html)

    # 데이터프레임 선택하기
    info_table = table_df_list[0]
    return info_table

In [15]:
# user가 입력한 주식이름 받아오기
userInputstockName=str(input())

카카오


In [16]:
# user의 종목명으로 stock_code확인
stock_code=get_stock_number(userInputstockName)
stock_code

kospi market key is exist


'035720'

In [17]:
table_df=crawling_with_code(stock_code)
table_df



Unnamed: 0_level_0,주요재무정보,최근 연간 실적,최근 연간 실적,최근 연간 실적,최근 연간 실적,최근 분기 실적,최근 분기 실적,최근 분기 실적,최근 분기 실적,최근 분기 실적,최근 분기 실적
Unnamed: 0_level_1,주요재무정보,2018.12,2019.12,2020.12,2021.12(E),2020.03,2020.06,2020.09,2020.12,2021.03,2021.06(E)
Unnamed: 0_level_2,주요재무정보,IFRS연결,IFRS연결,IFRS연결,IFRS연결,IFRS연결,IFRS연결,IFRS연결,IFRS연결,IFRS연결,IFRS연결
0,매출액,24170.0,30701.0,41568.0,56809.0,8684.0,9529.0,11004.0,12351.0,12580.0,13486.0
1,영업이익,729.0,2068.0,4559.0,7854.0,882.0,978.0,1202.0,1497.0,1575.0,1792.0
2,당기순이익,159.0,-3419.0,1734.0,8637.0,799.0,1452.0,1437.0,-1955.0,2399.0,1985.0
3,영업이익률,3.02,6.73,10.97,13.83,10.16,10.26,10.92,12.12,12.52,13.29
4,순이익률,0.66,-11.14,4.17,15.2,9.2,15.24,13.06,-15.83,19.07,14.72
5,ROE(지배주주),1.04,-5.81,2.7,11.78,-4.73,-2.67,-1.33,2.7,5.0,
6,부채비율,41.45,52.21,60.94,,57.01,49.86,50.37,60.94,71.56,
7,당좌비율,146.51,127.98,162.77,,134.03,144.53,148.86,162.77,163.55,
8,유보율,12219.62,12027.79,13881.01,,12587.68,13665.91,14373.52,13881.01,14508.1,
9,EPS(원),123.0,-717.0,355.0,1771.0,179.0,320.0,290.0,-428.0,506.0,445.0


In [18]:
## 데이터 추출 (연도별, 분기별 재무정보 데이터 추출)
yearData2018=table_df['최근 연간 실적']['2018.12']['IFRS연결']
yearData2019=table_df['최근 연간 실적']['2019.12']['IFRS연결']
yearData2020=table_df['최근 연간 실적']['2020.12']['IFRS연결']

seasonData202003=table_df['최근 분기 실적']['2020.03']['IFRS연결']
seasonData202006=table_df['최근 분기 실적']['2020.06']['IFRS연결']
seasonData202009=table_df['최근 분기 실적']['2020.09']['IFRS연결']
seasonData202012=table_df['최근 분기 실적']['2020.12']['IFRS연결']
seasonData202103=table_df['최근 분기 실적']['2021.03']['IFRS연결']
seasonData202106=table_df['최근 분기 실적']['2021.06(E)']['IFRS연결']

Category=table_df['주요재무정보']['주요재무정보']['주요재무정보']

# 연간데이터
yearData=pd.DataFrame(zip(yearData2018,yearData2019,yearData2020),columns=["2018","2019","2020"])

# 분기데이터
seasonData=pd.DataFrame(zip(seasonData202003,seasonData202006,seasonData202009,seasonData202012,seasonData202103,seasonData202106),
             columns=["202003","202006","202009","202012","202103","202106"])

seasonData.index=(['매출액', '영업이익', '당기순이익','영업이익률','순이익률','ROE(지배주주)','부채비율','당좌비율','유보율','EPS(원)','PER(배)','BPS(원)','PBR(배)','주당배당금(원)','시가배당률(%)','배당성향(%)'])
yearData.index=(['매출액', '영업이익', '당기순이익','영업이익률','순이익률','ROE(지배주주)','부채비율','당좌비율','유보율','EPS(원)','PER(배)','BPS(원)','PBR(배)','주당배당금(원)','시가배당률(%)','배당성향(%)'])

In [19]:
## 데이터 전처리 (연간, 분기 데이터 index 및 컬럼 변경 후 nan 값 0으로 채워줌)
df=seasonData.transpose()
# df['유보율'].plot(figsize=(15,4)) ## 그래프로 확인 가능
# plt.show()

df_year=yearData.transpose()
df=df.fillna(0)
df_year=df_year.fillna(0)

## 총 분기는 5개, 분기별 시기 간격은 3달 기준으로 변수 설정
month_total = 5
month_for_season = 3 ## 주식의 분기 데이터가 3달 간격으로 작성

In [20]:
## 부채비율 그래프에서, 3개월 간격으로 부채율 증가 추세를 보이면
for i in range (0,month_total):
    if(((df['부채비율'][i+1]-df['부채비율'][i])/month_for_season)>=0):
        print(i,"번째 분기 부채비율이 높아 위험합니다")        
    else:
        continue

## 분기별 데이터 전체 평균 부채비율이 100보다 클 경우, 위험도 경고
def dept_avg(df):
    if(df['부채비율'].mean()>=100):
        result="위험 : 평균 부채비율이 높습니다"
        print("위험 : 평균 부채비율이 높습니다")
        return result
    else:
        return 0
    
## 최근 분기의 데이터가 아직 없는 경우 그 직전 분기를 기준으로 예외처리
## 유보율 500 이상을 안정성 높다고 보고, 동시에 부채율이 높다면 완전 안정성으로 판단하지 않고 위험으로 판단

def find_reverse_rate(df):
    if(df['유보율'][len(df)-1]==0):
        rate = df['유보율'][len(df)-2]
    else:
        rate=df['유보율'][len(df)-1] 

    if(rate>=500):
        if(dept_avg(df)>=1):
            print ("위험 : 업계 특성 고려, 유보율 높지만 부채율도 높습니다")
        else:
            print("안정성 높습니다")
    else:
        if(dept_avg(df)>=1):
            print("위험 : 구매시 손해")
        print ("성장 기업일 가능성 상승")

1 번째 분기 부채비율이 높아 위험합니다
2 번째 분기 부채비율이 높아 위험합니다
3 번째 분기 부채비율이 높아 위험합니다


In [21]:
## 매출액, 영업이익, 당기순이익을 기준으로 2019년 대비 2020년의 해당 요소들이 상승한 경우 가능성 판단
## 당기 순이익의 경우 200이상(급성장) 100이상(성장요소 보임) 미만 (미세한 성장)으로 분류
def yearly_growth_rate(df2):    
    growth_rate2019=(int(df2['매출액'][1])-int(df2['매출액'][0]))/int(df2['매출액'][0])*100
    growth_rate2020=(int(df2['매출액'][2])-int(df2['매출액'][1]))/int(df2['매출액'][1])*100
    
    operating_profit2019=int(df2['영업이익'][1])-int(df2['영업이익'][0])
    operating_profit2020=int(df2['영업이익'][2])-int(df2['영업이익'][1])

    net_income2019=int(df2['당기순이익'][1])-int(df2['당기순이익'][0])
    net_income2020=int(df2['당기순이익'][2])-int(df2['당기순이익'][1])
    
    if(growth_rate2019<growth_rate2020):
        print("전년대비 매출 up",round(growth_rate2020,3),"%")
        return1 = "up"
    elif(growth_rate2019>=growth_rate2020):
        print ("매출 down")
        return1 = "down"
        
    if(operating_profit2020>operating_profit2019):
        print("전년대비 영업이익 up")
        if(operating_profit2020<=0):
            print("영업이익(-) : ",operating_profit2020)
            return2 = "down"

        else:
            print("영업이익(+) : ",operating_profit2020)
            return2 = "up"
    else:
        print("전년대비 영업이익 down")
        return2 = "down"
        
    if(int(df2['당기순이익'][2])>int(df2['당기순이익'][1])):
        print("전년대비 당기순이익 up")
        
        if(net_income2020>=200):
            print("당기 순이익 급성장")
            return3 = "up"

        elif(net_income2020>100):
            print("당기 순이익 성장요소 보임")
            return3 = "up"

        else:
            print("당기 순이익 미세하게 성장")
            return3 = "up"

    else:
        print("전년대비 당기순이익 down")
        return3 = "down"

    return return1, return2, return3

In [22]:
## EPS(주당순이익) : 당기 순이익 / 총주식수
## 당기 순이익 사용시 (억원)단위로 기재되어 있어 해당 부분 유의하여 계산
def get_EPS(userInputstockName):
    count_stocks=int(crawling_with_marketcap_info(userInputstockName)[1][2])
    netIncome=int(df_year['당기순이익'][2])*100000000
    EPS=netIncome/count_stocks
    return EPS

In [23]:
## 결과 가져오기
# 1) 매출, 영업이익, 당기순이익
result_before=yearly_growth_rate(df_year)

전년대비 매출 up 35.396 %
전년대비 영업이익 up
영업이익(+) :  2491
전년대비 당기순이익 up
당기 순이익 급성장


In [24]:
# 2) 주당 순이익(eps)
stock_num = get_stock_number(userInputstockName)
eps = int(get_EPS(stock_num))

kospi market key is exist




In [25]:
# 3) 최종 결과

cnt=0

for i in range(0,len(result_before)):
    if(result_before[i]=="down"):
        cnt = cnt+1
    else:
        continue

## 부채율, 유보율, 매출, 영업이익, 당기 순이익 데이터 및 eps데이터로 결과 도출
def find_result(result_before, eps):
    if cnt>=2 & eps <= 0:
        result="구매 비추천이나, 종목별(중공업, 반도체 등)특성의 영향이 클 가능성 높음"
    elif(cnt>=2 & eps > 0):
        result = "구매 비추천"
    elif(cnt<2 & eps >= 70):
        result = "구매 추천, 기대주"
    else:
        result = "구매추천"

    return result

find_result(cnt, eps)

'구매추천'