# ** 6 Python Web Crawling**
파이썬을 활용한 금융분석

### **review Data Datum**
1. Datum(숫자, "문자"), Data([list], {dict}, (tuple,))
1. 문자.replace(), .split(), .find()
1. (기본/외부/사용자) 모듈, 함수, 메소드
1. []의 문자에서 활용( [index], [:slicing]), 함수를 활용{for : 반복, if :판단, enumerate() :순번 integer 출력}
1. 재무제표 Web Crawling ==> type 변경 ==> 시각화
1. ndarray, Series, Dataframe

### **review Series**
1. pd.Series( [ data ] , index = [ index ])
1. series 사칙연산
1. series [ Boolean 판단문 ]
1. series.index = [ list ]
1. series.isnull()
1. series.drop()

### **review DataFrame**
1. pd.DataFrame( { columns :  [ data ] , columns :  [ data ] } )
1. df.column이름
1. df.rename( columns = { 기존 column , 새로운 column } )
1. df.insert( 컬럼순서,  컬럼명 ,  data )
1. df [ index Slicing ]
1. df.iloc[ index slicing,  column slicing ]
1. df.reset_index()        :  index  -> column
1. df.set_index( '컬럼명' ) :  column -> index
1. df.sort_index()
1. df.sort_value()
1. df[ boolean 함수 ]
1. df[ boolean 함수 ].column이름
1. axis = 0 : index | axis = 1 : column
1. df.drop( 'index이름'  , axis = 0 )
1. df.drop( 'column이름' ,  axis = 1 )
1. df.index.tolist()
1. df.column.tolist()

### **review DataFrame static**
1. .count()
1. .describe()
1. .min()     .max()
1. .idxmin()  .idxmax()
1. .quantile()   
1. .sum()
1. .mean()    .median()
1. .var() 분산 .std() 정규분산
1. .cumsum()  .cumprod()  누적 합    누적 곱
1. .cummin()  .cummax()   누적최소값, 누적최대값

### **review Series & DataFrame 결측치 제어하기**
1. df.dropna()
1. df.fillna(method='ffill',  limit=2)  # 결측치 대체
1. df.fillna(df.mean()['컬럼명'])   
1. Series.interpolate(method='time')    # 결측치 보간 (시계열적 특성을 부여가능)
1. Series.interpolate(method='values', limit=1, limit_direction='backward') # 'forward','backward','both'

### **review &nbsp; map, reduce, lambda, filter**
1. map & lambda : map(lambda x : str(x), [list])
1. map & lambda : list(map(lambda x : str(x), [list]))
1. map & lambda : <strike>[ map(lambda x : str(x), data) ]</strike>
1. Series & lambda : Series.apply(lambda x : str(x))
1. filter & lambda : list(filter(lambda x : x % 2 == 0,  data))
1. <strike>filter</strike> & DataFrame : DataFrame[ Series % 2 == 0 ]
1. reduce & lambda : reduce(lambda x, y: x+y, [1, 2, 3, 4, 5])      # 데이터 차원축소

### **review &nbsp; TimeSeries**
1. from datetime import datetime
1. pandas.date_range(end = '2017-07-01', periods=30, freq='BM')  
1. pandas.date_range('2017/8/8 09:09:09', periods=5, normalize=True)
1. [str(date.date()) &nbsp;&nbsp; for &nbsp;&nbsp; date &nbsp;&nbsp; in &nbsp;&nbsp; pd.date_range('2017/01/01', '2017/01/11')]

### **review &nbsp; Matplotlib**
1. DataFrame.loc['시작날짜':'종료날짜', :] : 주소 이름을 활용하여 인덱싱
1. DataFrame.iloc[1:10, : ] # 주소값으로 인덱싱
1. Series.plot(kind='line')  **# 'bar'**
1. Series.resample().plot()
1. Series.rolling().plot()
1. Series.ix['2018-01':'2018-03'].plot()
1. plt.figure(figsize=(,)); &nbsp;&nbsp; plt.plot(x축,y축,lw=1.5,label=); &nbsp;&nbsp; plt.legend(loc=); &nbsp;&nbsp; plt.show()
1. plt.figure(figsize=(,)); &nbsp;&nbsp; plt.subplot(121); &nbsp;&nbsp; plt.plot(); &nbsp;&nbsp; plt.subplot(122); &nbsp;&nbsp; plt.plot(); &nbsp;&nbsp; plot.show()


<br>
## **1 Web Crawling**
1. Pandas 를 활용한 데이터 크롤링
1. **lxml 모듈**을 활용한 **xpath** Web Crawling
1. BeautifulSoup 은 문서나 도서들이 잘 되어있으니 별도참고

<br>
### **01 Pandas를 활용한 주가 정보 수집**
1. HTML의 Table 형식으로 Source가 제공될 때에만 수집이 가능하다
1. 바로 DataFrame으로 객체가 출력되므로, 수정 및 편집 작업이 용이하다
1. Ajax를 찾기 보다는, 기존에 완성되어 있는 자료를 수정 보완하는 방법으로 익혀 나아가자
1. 앞에서 Nice의 간략 재무제표를 크롤링 하는 법을 익혔다면, 이제는 Ajax 의 Post 정보를 추가하는 크롤링을 익혀본다 (JavaScript 영역)
1. http://kind.krx.co.kr/
1. https://woosa7.github.io/krx_stock_master/

In [1]:
# 기업정보 수집하기
# http://kind.krx.co.kr/corpgeneral/corpList.do
def stock_master():
    import requests
    import pandas as pd
    import numpy as np
    from io import BytesIO
    url = 'http://kind.krx.co.kr/corpgeneral/corpList.do'
    data = {'method':'download',
            'orderMode':'1',           # 정렬컬럼
            'orderStat':'D',           # 정렬 내림차순
            'searchType':'13',         # 검색유형: 상장법인
            'fiscalYearEnd':'all',     # 결산월: 전체
            'location':'all',}         # 지역: 전체

    r = requests.post(url, data=data)
    f = BytesIO(r.content)             # HTML String을 HTML binary로 변환
    dfs = pd.read_html(f, header=0, parse_dates=['상장일'])
    df = dfs[0].copy()
    # 종목코드를 앞자리가 0인 6자리 문자로 변환
    df['종목코드'] = df['종목코드'].astype(np.str)   
    df['종목코드'] = df['종목코드'].str.zfill(6)
    return df

df_master = stock_master()
df_master.head(2)

Unnamed: 0,회사명,종목코드,업종,주요제품,상장일,결산월,대표자명,홈페이지,지역
0,BYC,1460,봉제의복 제조업,"메리야스,란제리 제조,도매/건축공사/부동산 임대,분양,공급",1975-06-02,12월,유 중 화,http://www.byc.co.kr,서울특별시
1,CJ CGV,79160,"영화, 비디오물, 방송프로그램 제작 및 배급업","영화상영,영화관 운영",2004-12-24,12월,서 정,http://www.cgv.co.kr,서울특별시


In [2]:
# 기업의 주가정보 수집하기
# http://marketdata.krx.co.kr/contents/COM/GenerateOTP.jspx
def stock_master_price(date=None):
    import pandas as pd
    import numpy as np
    import requests
    from io import BytesIO
    from datetime import datetime
    if date == None:
        date = datetime.today().strftime('%Y%m%d')   # 오늘 날짜

    # AJAX를 분석결과, OTP Code 정보값 수집
    gen_otp_url = 'http://marketdata.krx.co.kr/contents/COM/GenerateOTP.jspx'
    gen_otp_data = {'name':'fileDown', 'filetype':'xls','market_gubun':'ALL', #시장구분: ALL=전체
                    'url':'MKD/04/0404/04040200/mkd04040200_01',
                    'indx_ind_cd':'', 'sect_tp_cd':'', 'schdate': date,
                    'pagePath':'/contents/MKD/04/0404/04040200/MKD04040200.jsp',}
    r = requests.post(gen_otp_url, gen_otp_data)
    OTP_code = r.content
    
    # krx.co.kr 사이트에서 OTP값을 사용하여 xls 다운로드
    down_url = 'http://file.krx.co.kr/download.jspx'
    down_data = {'code': OTP_code}
    r = requests.post(down_url, down_data)
    df = pd.read_excel(BytesIO(r.content), header=0, thousands=',')
    return df

In [3]:
# 특정날짜 국내 주가정보 수집
from datetime import datetime
date = datetime(2018,1,2).strftime('%Y%m%d')
print(date)
df = stock_master_price(date)
df.head(3)

20180102


Unnamed: 0,종목코드,종목명,현재가,대비,등락률,거래량,거래대금,시가,고가,저가,시가총액,시가총액비중(%),상장주식수(천주),외국인 보유주식수,외국인 지분율(%)
0,5930,삼성전자,2551000,3000,0.1,169485,432677351468,2569000,2570000,2539000,329330258194000,17.27,129098494,68095088,52.75
1,660,SK하이닉스,76600,100,0.1,2014838,154679174100,77300,77300,76200,55764981159000,2.92,728002365,346184551,47.55
2,5935,삼성전자우,2097000,7000,0.3,21940,45532420000,2096000,2097000,2058000,38271466260000,2.01,18250580,15021675,82.31


<br>
### **02 BeautifulSoup 기본적인 사용법 익히기**
1. http://cryptosan.github.io/pythondocuments/documents/beautifulsoup4/
1. 공식문서가 한글로 잘 번역이 되어있고, 이를 따라하면 쉽게 구조를 파악 가능하다
1. 읽어온 HTML문서를 쉽게 편집 가능한 **Html 문서에 대한 Pandas 모듈**로 생각하면 된다
1. requsets수집, lxml 가공 (**Html's Numpy 모듈**), bs4관리로 여러 단계를 거침으로써 부하 및 속도저하가 필연적으로 발생

<br>
#### **1) BeautifulSoup 객체 정의하기**
bs4

In [4]:
html_doc = """
<html><head><title>The Dormouse's story</title></head>

<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

In [5]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc)
# print(soup.prettify()[:50])
type(soup)



 BeautifulSoup(YOUR_MARKUP})

to this:

 BeautifulSoup(YOUR_MARKUP, "lxml")

  markup_type=markup_type))


bs4.BeautifulSoup

In [6]:
# lxml 해석기를 부착하여 크롤링 데이터 읽어보기
soup = BeautifulSoup(html_doc, 'lxml')
soup

<html><head><title>The Dormouse's story</title></head>
<body><p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body></html>

<br>
#### **2) 'P' tag 문서내용 분석하기**
bs4 단일객체의 속성 및 내용 확인
1. .attrs()
1. .string.replacewith()

In [7]:
# p tag 문서내용 확인 및 내용추출하기
type(soup.p)

bs4.element.Tag

In [8]:
print(soup.p, 
      '\n\n', soup.p.string)

<p class="title"><b>The Dormouse's story</b></p> 

 The Dormouse's story


In [9]:
# 속성값 추출하기
print(type(soup.p.attrs), 
      '\n', soup.p.attrs)

<class 'dict'> 
 {'class': ['title']}


In [10]:
# 속성값 추가하기 (내용확인 및 수정도 가능하다)
soup.p['class'] = ['bs4','lxml'] 
soup.p.attrs

{'class': ['bs4', 'lxml']}

In [11]:
soup.p.string

"The Dormouse's story"

In [12]:
soup.p.string.replaceWith('I got a quant algorithm')
soup.p

<p class="bs4 lxml"><b>I got a quant algorithm</b></p>

<br>
#### **3) 조건문을 활용한 Html 문서의 활용**
조건문 구조를 활용하야 필요한 정보를 추출한다

In [13]:
soup.body

<body><p class="bs4 lxml"><b>I got a quant algorithm</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body>

In [14]:
# 1 내부 Text 추출하기
soup.find('a')  # 맨 처음의 객체를 출력한다

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

In [15]:
# 1 내부 Text 추출하기
soup.find_all('a')

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [16]:
soup.find_all('a')[0].get_text()

'Elsie'

In [17]:
text = [txt.get_text()    for txt in soup.find_all('a')]
text

['Elsie', 'Lacie', 'Tillie']

In [18]:
# 2 내부 속성값으로 찾기
# ( tag값, 속성값 )
soup.find_all('',{'class':"sister"})

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [19]:
soup

<html><head><title>The Dormouse's story</title></head>
<body><p class="bs4 lxml"><b>I got a quant algorithm</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body></html>

In [20]:
soup.p.contents

[<b>I got a quant algorithm</b>]

In [21]:
soup.a.string

'Elsie'

<br>
#### **4) regex 조건문을 활용한 Html 문서의 활용**
전체를 모를 떄 정규식 조건문 구조를 활용하여 필요한 정보를 추출한다

In [22]:
soup.find_all('',{'class':"sister"})

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [23]:
import re
soup.find_all('a', {'class':re.compile('sis')})

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [24]:
import re
soup.find_all('p', {'class':re.compile('ory')})[1]

<p class="story">...</p>

In [25]:
soup.body.descendants

<generator object descendants at 0x7fbd265a0f10>

In [26]:
soup.a.parent

<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

In [27]:
soup.p.string.parent

<b>I got a quant algorithm</b>

<br>
### **03 Lxml의 기본적인 사용법 익히기**
1. HTML 의 기본구조 이해하기 (html 언어를 **편집디자인**으로 불리는 이유)
1. **Xpath()** 이해하기 : https://msdn.microsoft.com/ko-kr/library/ms256086(v=vs.120).aspx
1. XPath 는 'query language'로써 XML의 nodes 들을 선택하는데 용이하다.
1. **'\\'** 와 **'\\\\'** 의 기능을 구분하기
1. 모든 HTML 문서는 XML 형식으로 작성되므로 webscraping 을 할 때 유용하고, 처리속도가 빠르다 
        site : http://m.finance.daum.net/item/main.daum?code=045660
        xpath : //article[@id="mArticle"]/div[@class="item_idx_info stUp"]/h2//text()

In [28]:
import requests
response = requests.get("http://example.com")
print(response.text[941:])



<body>
<div>
    <h1>Example Domain</h1>
    <p>This domain is established to be used for illustrative examples in documents. You may use this
    domain in examples without prior coordination or asking for permission.</p>
    <p><a href="http://www.iana.org/domains/example">More information...</a></p>
</div>
</body>
</html>



In [29]:
from lxml.html import fromstring
doc = fromstring(response.text)
doc  # HTML 을 lxml 객체로 변환

<Element html at 0x7fbd26236188>

In [30]:
from lxml.html import tostring
temp = doc.xpath("/html/body/div/h1")[0]
tostring(temp)

b'<h1>Example Domain</h1>\n    '

In [31]:
doc.xpath("/html/body/div/h1/text()")

['Example Domain']

In [32]:
doc.xpath("/html/body/div/p/text()")

['This domain is established to be used for illustrative examples in documents. You may use this\n    domain in examples without prior coordination or asking for permission.']

In [33]:
doc.xpath("/html/body/div/p//text()")

['This domain is established to be used for illustrative examples in documents. You may use this\n    domain in examples without prior coordination or asking for permission.',
 'More information...']

#### **Quiz**
    http://www.naver.com 에서 실시간 검색어를 수집해보시오

In [34]:
response = requests.get("https://www.naver.com/")
doc = fromstring(response.text)
txts = doc.xpath("/html/body/div[2]/div[1]/div[2]/div[2]/div[2]/ul[1]//text()")
# txts[:10]
# set(txts)
[txt for txt in txts if txt not in ["\n", '1','2','3','4','5','6','7','8','9','10', '데이터랩 그래프 보기']]

['김생민',
 '김생민 성추행',
 '김기식',
 '김생민 미투',
 '방배초등학교',
 '월화드라마',
 '장자연',
 '조현병',
 '미투',
 '오마이걸']

In [35]:
doc = fromstring(response.text)
txts = doc.xpath("/html/body/div[2]/div[1]/div[2]/div[2]/div[2]/ul[2]//text()")
[txt for txt in txts if txt not in ["\n", '11','12','13','14','15','16','17','18','19','20', '데이터랩 그래프 보기']]

['김경수', '뇌전증', '제니퍼송', '조보아', '박인비', 'ebs중학', '월정사', '텐궁1호', '우리말겨루기', '방상훈']

<br>
### **04 Lxml를 활용하여 데이터 수집하기**
1. Daum 에서 코스피/ 코스닥 정보 수집하기
1. 위의 code 테이블에 market 정보 이어 붙이기
1. 데이터를 dict으로 만들어서 pickle로 저장하기

In [36]:
def market_code(code):
    # texts = html_code.xpath('//div[@class="summary"]/dl[@class="etc"]//dd//text()')
    # result.append([code, percent, texts[1]])  # 가격변화비율  # 거래량, 시가총액, 외인비율
    import requests
    from lxml.html import fromstring, tostring
    code = '005930'
    url = 'http://m.finance.daum.net/item/main.daum?code='+code+\
          '&nil_profile=stockprice&nil_menu=sisemysearch7'
    response = requests.get(url)
    html_lxml = fromstring(response.text)
    txt = html_lxml.xpath('//strong[@class="round txt_kospi"]/span/text()')[0]
    if txt == '코스피':
        return 'KRX'
    else:
        return 'KOSDAQ'

In [37]:
# KRX CODE 에 Market Code 추가하기
#
# code        = df.iloc[:,:2]
# market_code = [ market_code(c)   
#                for c in code.종목코드 ]  # KRX/KOSDAQ 정보 수집

# result      = []                       # code명 수정하기
# for no, krx in enumerate(market_code):
#     cod = code.iloc[no,0]
#     cod = krx + ":" + cod
#     result.append(cod)
# code.종목코드 = result                   # 수정한 코드명 update
# code.to_csv('./data/krx_code.csv', index = None, encoding = 'ms949')
import pandas as pd
code = pd.read_csv('./data/krx_code.csv', encoding='ms949')
code.head(2)

Unnamed: 0,종목코드,종목명
0,KRX:005930,삼성전자
1,KRX:000660,SK하이닉스
