# Web Crawling

**아래 링크를 통해 이 노트북을 주피터 노트북 뷰어(nbviewer.jupyter.org)로 보거나 구글 코랩(colab.research.google.com)에서 실행할 수 있습니다.**

<table class="tfo-notebook-buttons" align="left">
  <td>
    <a target="_blank" href="https://nbviewer.jupyter.org/github/nhkim55/bigdata_fintech_python/blob/main/code/ch11_web.ipynb"><img src="https://jupyter.org/assets/share.png" width="60" />주피터 노트북 뷰어로 보기</a>
  </td>
  <td>
    <a target="_blank" href="https://colab.research.google.com/github/nhkim55/bigdata_fintech_python/blob/main/code/ch11_web.ipynb"><img src="https://www.tensorflow.org/images/colab_logo_32px.png" />구글 코랩(Colab)에서 실행하기</a>
  </td>
</table>

## 웹에서 데이터 다운로드

In [None]:
# 웹에서 데이터 다운로드 
import urllib.request as ur

url = "http://storage.googleapis.com/patents/grant_full_text/2014/ipg140107.zip" #url 주소
print("Start Download")
ur.urlretrieve(url, '/content/drive/MyDrive/python/data/ipg140107.zip') 
#다운로드된 파일명, header 정보 = urlretrieve(url, '파일저장경로와 파일명)
print("End Download")

## HTML Parsing

기본 모듈 임포트

In [1]:
# 기본모듈 임포트

## urllib은 웹에서 얻은 데이터를 다루는 파이썬 패키지. request는 웹 문서를 열어 데이터 읽어오는 모듈
import urllib.request as ur
## 웹문서를 구성하는 HTML과 XML문서에서 원하는 정보를 쉽게 추출할 수 있는 모듈을 모아놓은 패키지
from bs4 import BeautifulSoup as bs


### 1. urlopen으로 웹 사이트 정보 가져오기

삼성주가정보 [http://finance.naver.com/item/main.nhn?code=005930](http://finance.naver.com/item/main.nhn?code=005930)


웹 사이트에서 원하는 정보를 요청해서 그 결과물을 반환하는 명령
```
urllib.request.urlopen('URL주소')
```



In [2]:
# 접속하고 싶은 웹 사이트의 url주소를 url 객체에 문자열로 저장
url = 'http://finance.naver.com/item/main.nhn?code=005930'

html = ur.urlopen(url)
html

<http.client.HTTPResponse at 0x229b4989ca0>

html에 어떤 내용이 있는지 read()로 간단히 살펴볼 수 있음

In [3]:
html.read()[:100]

b"\n\n\t\n\t\n\t\n\t\n<html lang='ko'>\n<head>\n\n\n\t\n\t\t<title>\xbb\xef\xbc\xba\xc0\xfc\xc0\xda : \xb3\xd7\xc0\xcc\xb9\xf6 \xb1\xdd\xc0\xb6</title>\n\t\n\t\n\n\n\n\n\n\t\n\t\n\t\t<meta h"

### 2. 뷰티풀수프로 자료형 변환

html 객체에 저장한 자료를 정보를 쉽게 추출할 수 있는 형태, 즉 파싱(parsing)하기 쉬운 형태로 변환


```python
bs(html.read(), 'html.parser')
```

  * 파싱(parsing)이란 웹 문서에서 원하는 패턴이나 순서로 자료를 추출해 가공하는 것을 말함



In [4]:
soup = bs(html.read(), 'html.parser')

In [5]:
type(html), type(soup)

(http.client.HTTPResponse, bs4.BeautifulSoup)

In [7]:
# 위의 과정은 다음과 같이 한 줄로 표현가능
soup = bs(ur.urlopen(url).read(), 'html.parser')

### 3. 특정 태그에서 텍스트만 추출 

HTML 구조 살펴보기 


```html
<HTML>
<head>
  <title> 페이지 제목 </title>
</head>
<body>
  <h1> 글 제목 </h1>
  <p> 글 본문 </p>
</body>
</HTML>

```

이 구조를 참고해 웹 문서자료에서 원하는 요소를 찾음

find_all로 원하는 태그만 모으기

* soup에 find_all메서드 이용하여 특정 태그만 모을 수 있음
```
soup.find_all(찾아낼 태그)
```



In [8]:
soup.find_all('dl')

[<dl class="blind">
 <dt>종목 시세 정보</dt>
 <dd>2022년 01월 19일 16시 11분 기준 장마감</dd>
 <dd>종목명 삼성전자</dd>
 <dd>종목코드 005930 코스피</dd>
 <dd>현재가 76,300 전일대비 하락 700 마이너스 0.91 퍼센트</dd>
 <dd>전일가 77,000</dd>
 <dd>시가 76,500</dd>
 <dd>고가 76,900</dd>
 <dd>상한가 100,000</dd>
 <dd>저가 76,100</dd>
 <dd>하한가 53,900</dd>
 <dd>거래량 10,543,644</dd>
 <dd>거래대금 805,979백만</dd>
 </dl>,
 <dl class="blind">
 <dt><strong>삼성전자</strong></dt>
 <dd>오늘의시세 76,300 포인트</dd>
 <dd>700 포인트 하락</dd>
 <dd>0.91% 마이너스</dd>
 </dl>,
 <dl class="line">
 <dt>선차트</dt>
 <dd>
 <ul>
 <li class="day"><a class="on" href="#" onclick="showChart('day')">1일</a></li>
 <li class="week"><a href="#" onclick="showChart('week')">1주일</a></li>
 <li class="month3"><a href="#" onclick="showChart('month3');">3개월</a></li>
 <li class="year"><a href="#" onclick="showChart('year');">1년</a></li>
 <li class="year3"><a href="#" onclick="showChart('year3');">3년</a></li>
 <li class="year5"><a href="#" onclick="showChart('year5');">5년</a></li>
 <li class="year10"><a href="#"

In [9]:
info = soup.find_all('dl')
for i in info:
  print(i.text)


종목 시세 정보
2022년 01월 19일 16시 11분 기준 장마감
종목명 삼성전자
종목코드 005930 코스피
현재가 76,300 전일대비 하락 700 마이너스 0.91 퍼센트
전일가 77,000
시가 76,500
고가 76,900
상한가 100,000
저가 76,100
하한가 53,900
거래량 10,543,644
거래대금 805,979백만


삼성전자
오늘의시세 76,300 포인트
700 포인트 하락
0.91% 마이너스


선차트


1일
1주일
3개월
1년
3년
5년
10년




봉차트


일봉
주봉
월봉




조정영업이익
매출액-매출원가-판관비
지배주주지분
지배회상의 지분에 귀속되는 당기순이익
비지배주주지분
종속회사의 지분에 귀속되는 당기순이익


조정영업이익률
조정영업이익/매출액
ROE(지배주주지분)
지배주주지분 당기순이익 / (자본총계 - 비지배주주지분)


EPS(지배주주지분)
지배주주지분 당기순이익/지배주주 평균발행주식수(우선주+보통주)
BPS(지배주주지분
지배주주지분 귀속 순자산/지배주주 기말발행주식(우선주+보통주)



In [10]:
info = soup.find_all('dl',{"class": "blind"})
for i in info:
  print(i.text)


종목 시세 정보
2022년 01월 19일 16시 11분 기준 장마감
종목명 삼성전자
종목코드 005930 코스피
현재가 76,300 전일대비 하락 700 마이너스 0.91 퍼센트
전일가 77,000
시가 76,500
고가 76,900
상한가 100,000
저가 76,100
하한가 53,900
거래량 10,543,644
거래대금 805,979백만


삼성전자
오늘의시세 76,300 포인트
700 포인트 하락
0.91% 마이너스



In [11]:
print(info[0].text)


종목 시세 정보
2022년 01월 19일 16시 11분 기준 장마감
종목명 삼성전자
종목코드 005930 코스피
현재가 76,300 전일대비 하락 700 마이너스 0.91 퍼센트
전일가 77,000
시가 76,500
고가 76,900
상한가 100,000
저가 76,100
하한가 53,900
거래량 10,543,644
거래대금 805,979백만



In [12]:
info = soup.find('dl',{"class": "blind"})
print(info.text)


종목 시세 정보
2022년 01월 19일 16시 11분 기준 장마감
종목명 삼성전자
종목코드 005930 코스피
현재가 76,300 전일대비 하락 700 마이너스 0.91 퍼센트
전일가 77,000
시가 76,500
고가 76,900
상한가 100,000
저가 76,100
하한가 53,900
거래량 10,543,644
거래대금 805,979백만



## 정규표현식

HTML 문서를 문자열로 취급하고 문자열에서 필요한 부분만을 정규포현식을 이용하여 추출 가능 

### 아이디 추출 예제

[https://url.kr/krvn72](https://url.kr/krvn72)

In [10]:
# 모듈 임포트
## 정규표현식 사용하기 위한 모듈 re
import re
import urllib.request as ur

url = "https://url.kr/krvn72"

html = ur.urlopen(url)
html_contents = str(html.read())
id_results = re.findall("([a-zA-Z0-9]+\*\*\*\*)", html_contents)

In [11]:
id_results

['mo****',
 'ki****',
 'ka****',
 're****',
 'ss****',
 'fg****',
 'fr****',
 'ev****',
 'ha****',
 'su****',
 'to****',
 'dd****',
 'mc****',
 'dr****',
 'am****',
 'ly****',
 'ji****',
 'sj****',
 'mn****',
 'hw****',
 'si****',
 'jj****',
 'an****',
 'ag****',
 'fr****',
 'jj****',
 'dm****',
 'kr****',
 'ki****',
 'pl****',
 'sa****',
 'ma****',
 'mo****',
 'du****',
 'dk****',
 'ld****',
 'fi****',
 'ki****',
 'hy****',
 'yd****',
 'ma****',
 'ho****',
 'we****',
 'sp****',
 'kt****',
 '12****',
 'oz****',
 'ek****',
 'si****',
 'ce****',
 'es****',
 'bl****',
 'yo****',
 'ch****',
 'ko****']

### zip파일 링크 추출 예제

[http://www.google.com/googlebooks/uspto-patents-grants-text.html](http://www.google.com/googlebooks/uspto-patents-grants-text.html)

In [13]:
import urllib.request as ur
import re

url = "http://www.google.com/googlebooks/uspto-patents-grants-text.html"
html = ur.urlopen(url)
html_contents = str(html.read().decode("utf-8"))

url_list = re.findall("(http)(.+?)(zip)", html_contents)
url_list2 = re.findall("(http.+?zip)", html_contents)

In [14]:
for i, url in enumerate(url_list):
    print(i,"".join(url)) # 출력된 Tuple 형태 데이터를 str으로 join

0 http://storage.googleapis.com/patents/grant_full_text/2015/ipg150106.zip
1 http://storage.googleapis.com/patents/grant_full_text/2015/ipg150113.zip
2 http://storage.googleapis.com/patents/grant_full_text/2015/ipg150120.zip
3 http://storage.googleapis.com/patents/grant_full_text/2015/ipg150127.zip
4 http://storage.googleapis.com/patents/grant_full_text/2015/ipg150203.zip
5 http://storage.googleapis.com/patents/grant_full_text/2015/ipg150210.zip
6 http://storage.googleapis.com/patents/grant_full_text/2015/ipg150217.zip
7 http://storage.googleapis.com/patents/grant_full_text/2015/ipg150224.zip
8 http://storage.googleapis.com/patents/grant_full_text/2015/ipg150303.zip
9 http://storage.googleapis.com/patents/grant_full_text/2015/ipg150310.zip
10 http://storage.googleapis.com/patents/grant_full_text/2015/ipg150317.zip
11 http://storage.googleapis.com/patents/grant_full_text/2014/ipg140107.zip
12 http://storage.googleapis.com/patents/grant_full_text/2014/ipg140114.zip
13 http://storage.goog

1445 http://storage.googleapis.com/patents/grant_full_text/1988/pftaps19880628_wk26.zip
1446 http://storage.googleapis.com/patents/grant_full_text/1988/pftaps19880705_wk27.zip
1447 http://storage.googleapis.com/patents/grant_full_text/1988/pftaps19880712_wk28.zip
1448 http://storage.googleapis.com/patents/grant_full_text/1988/pftaps19880719_wk29.zip
1449 http://storage.googleapis.com/patents/grant_full_text/1988/pftaps19880726_wk30.zip
1450 http://storage.googleapis.com/patents/grant_full_text/1988/pftaps19880802_wk31.zip
1451 http://storage.googleapis.com/patents/grant_full_text/1988/pftaps19880809_wk32.zip
1452 http://storage.googleapis.com/patents/grant_full_text/1988/pftaps19880816_wk33.zip
1453 http://storage.googleapis.com/patents/grant_full_text/1988/pftaps19880823_wk34.zip
1454 http://storage.googleapis.com/patents/grant_full_text/1988/pftaps19880830_wk35.zip
1455 http://storage.googleapis.com/patents/grant_full_text/1988/pftaps19880906_wk36.zip
1456 http://storage.googleapis.c

In [15]:
for url in url_list:
  print(url)

('http', '://storage.googleapis.com/patents/grant_full_text/2015/ipg150106.', 'zip')
('http', '://storage.googleapis.com/patents/grant_full_text/2015/ipg150113.', 'zip')
('http', '://storage.googleapis.com/patents/grant_full_text/2015/ipg150120.', 'zip')
('http', '://storage.googleapis.com/patents/grant_full_text/2015/ipg150127.', 'zip')
('http', '://storage.googleapis.com/patents/grant_full_text/2015/ipg150203.', 'zip')
('http', '://storage.googleapis.com/patents/grant_full_text/2015/ipg150210.', 'zip')
('http', '://storage.googleapis.com/patents/grant_full_text/2015/ipg150217.', 'zip')
('http', '://storage.googleapis.com/patents/grant_full_text/2015/ipg150224.', 'zip')
('http', '://storage.googleapis.com/patents/grant_full_text/2015/ipg150303.', 'zip')
('http', '://storage.googleapis.com/patents/grant_full_text/2015/ipg150310.', 'zip')
('http', '://storage.googleapis.com/patents/grant_full_text/2015/ipg150317.', 'zip')
('http', '://storage.googleapis.com/patents/grant_full_text/2014/

In [16]:
for url in url_list2:
  print(url)

http://storage.googleapis.com/patents/grant_full_text/2015/ipg150106.zip
http://storage.googleapis.com/patents/grant_full_text/2015/ipg150113.zip
http://storage.googleapis.com/patents/grant_full_text/2015/ipg150120.zip
http://storage.googleapis.com/patents/grant_full_text/2015/ipg150127.zip
http://storage.googleapis.com/patents/grant_full_text/2015/ipg150203.zip
http://storage.googleapis.com/patents/grant_full_text/2015/ipg150210.zip
http://storage.googleapis.com/patents/grant_full_text/2015/ipg150217.zip
http://storage.googleapis.com/patents/grant_full_text/2015/ipg150224.zip
http://storage.googleapis.com/patents/grant_full_text/2015/ipg150303.zip
http://storage.googleapis.com/patents/grant_full_text/2015/ipg150310.zip
http://storage.googleapis.com/patents/grant_full_text/2015/ipg150317.zip
http://storage.googleapis.com/patents/grant_full_text/2014/ipg140107.zip
http://storage.googleapis.com/patents/grant_full_text/2014/ipg140114.zip
http://storage.googleapis.com/patents/grant_full_te

### 강의자료 다운 받기 예제

[https://cs229.stanford.edu/notes2021fall/](https://cs229.stanford.edu/notes2021fall/)

In [5]:
import urllib.request as ur
import re
import numpy as np

base_url = "https://cs229.stanford.edu/notes2021fall/"
html = ur.urlopen(base_url)
html_contents = str(html.read().decode("utf-8"))

In [6]:
url_list = re.findall("[a-zA-Z0-9\-\_\.]*\.pdf", html_contents)
url_list = np.unique(np.array(url_list))
print(url_list)

['addendum_bias_variance.pdf' 'cs229-notes1.pdf' 'cs229-notes10.pdf'
 'cs229-notes11.pdf' 'cs229-notes12.pdf' 'cs229-notes13.pdf'
 'cs229-notes14.pdf' 'cs229-notes2.pdf' 'cs229-notes3.pdf'
 'cs229-notes4.pdf' 'cs229-notes5.pdf' 'cs229-notes6.pdf'
 'cs229-notes7a.pdf' 'cs229-notes7b.pdf' 'cs229-notes8.pdf'
 'cs229-notes9.pdf' 'deep_learning_notes.pdf' 'error-analysis.pdf'
 'lecture10-bias-variance.pdf' 'lecture10-lasso-regression.pdf'
 'lecture10-ridge-regression.pdf' 'lecture11-boosting.pdf'
 'lecture11-decision-tree-overfitting.pdf' 'lecture11-decision-trees.pdf'
 'lecture12-kmeans.pdf' 'lecture13-em.pdf' 'lecture13-gmms.pdf'
 'lecture14-pca-annotated.pdf' 'lecture14-pca.pdf'
 'lecture14-types-of-learning-annotated.pdf'
 'lecture14-types-of-learning.pdf' 'lecture17-live-notes.pdf'
 'lecture4-live-notes.pdf' 'lecture5-live-notes.pdf'
 'lecture6-live-notes.pdf' 'lecture7-live-notes.pdf'
 'lecture8-live-notes.pdf' 'lecture9-live-notes.pdf'
 'section1notes-linear-algebra-review.pdf'
 'sec

In [7]:
for file_name in url_list:
    full_url = base_url+file_name
    print(full_url)
    fname, header = ur.urlretrieve(full_url, file_name) #여기서 다운받는다
    print("End Download")

https://cs229.stanford.edu/notes2021fall/addendum_bias_variance.pdf
End Download
https://cs229.stanford.edu/notes2021fall/cs229-notes1.pdf
End Download
https://cs229.stanford.edu/notes2021fall/cs229-notes10.pdf
End Download
https://cs229.stanford.edu/notes2021fall/cs229-notes11.pdf
End Download
https://cs229.stanford.edu/notes2021fall/cs229-notes12.pdf
End Download
https://cs229.stanford.edu/notes2021fall/cs229-notes13.pdf
End Download
https://cs229.stanford.edu/notes2021fall/cs229-notes14.pdf
End Download
https://cs229.stanford.edu/notes2021fall/cs229-notes2.pdf
End Download
https://cs229.stanford.edu/notes2021fall/cs229-notes3.pdf
End Download
https://cs229.stanford.edu/notes2021fall/cs229-notes4.pdf
End Download
https://cs229.stanford.edu/notes2021fall/cs229-notes5.pdf
End Download
https://cs229.stanford.edu/notes2021fall/cs229-notes6.pdf
End Download
https://cs229.stanford.edu/notes2021fall/cs229-notes7a.pdf
End Download
https://cs229.stanford.edu/notes2021fall/cs229-notes7b.pdf
En

### 주가 정보 추출 예제

In [12]:
import urllib.request as ur
import re

url = "http://finance.naver.com/item/main.nhn?code=005930"
html = ur.urlopen(url)
html_contents = str(html.read().decode("ms949"))

In [13]:
stock_results = re.findall("(\<dl class=\"blind\"\>)([\s\S]+?)(\<\/dl\>)", html_contents)
samsung_stock = stock_results[0] #2가지 중 1번째
samsung_index = samsung_stock[1] #1번째, 3번째는 <dl>, 2번째가 원하는 내용
print(samsung_index)


	        <dt>종목 시세 정보</dt>
	        <dd>2022년 01월 19일 16시 11분 기준 장마감</dd>
	        <dd>종목명 삼성전자</dd>
	        <dd>종목코드 005930 코스피</dd>
	        <dd>현재가 76,300 전일대비 하락 700 마이너스 0.91 퍼센트</dd>
	        <dd>전일가 77,000</dd>
	        <dd>시가 76,500</dd>
	        <dd>고가 76,900</dd>
	        <dd>상한가 100,000</dd>
	        <dd>저가 76,100</dd>
	        <dd>하한가 53,900</dd>
	        <dd>거래량 10,543,644</dd>
	        <dd>거래대금 805,979백만</dd>
        


In [14]:
index_list = re.findall("(\<dd\>)([\s\S]+?)(\<\/dd\>)", samsung_index)

In [15]:
for index in index_list:
    print(index[1])

2022년 01월 19일 16시 11분 기준 장마감
종목명 삼성전자
종목코드 005930 코스피
현재가 76,300 전일대비 하락 700 마이너스 0.91 퍼센트
전일가 77,000
시가 76,500
고가 76,900
상한가 100,000
저가 76,100
하한가 53,900
거래량 10,543,644
거래대금 805,979백만
