# 2) 웹 페이지 크롤링

이번 절에서는 웹 페이지의 데이터 중에서 원하는 값만 가져오는 스크레이핑에 대해 간략하게 알아보겠습니다. 스크레이핑은 웹에서 HTML 파일을 다운로드하는 과정과 다운로드 한 HTML에서 원하는 데이터를 파싱하는 두 단계로 진행합니다. 파이썬에서는 requests 모듈을 이용해 HTML 코드를 다운로드하고 BeautifulSoup 모듈로 원하는 데이터를 파싱합니다.

앞서 작성한 HTML 코드를 활용해 BeautifulSoup을 사용해 보겠습니다. 모듈을 사용하기 위해 먼저 BeaufifulSoup을 임포트해야 합니다. bs4 모듈에 정의된 BeautifulSoup 클래스는 HTML 코드가 바인딩된 변수와 HTML을 파싱할 것임을 알리는 문자열인 'html5lib'을 입력받습니다. 생성된 soup 객체를 사용하면 클래스에 정의된 메서드를 사용할 수 있겠죠? soup 객체에는 select 메서드가 있는데, 이 메서드는 HTML에서 특정 태그 값만 찾아주는 역할을 합니다. 즉, select('td')는 HTML에서 td태그를 찾으라는 의미입니다.

In [2]:
from bs4 import BeautifulSoup

html= '''
<html>
    <table border=1> 
        <tr>
            <td> 항목 </td> 
            <td> 2013 </td> 
            <td> 2014 </td> 
            <td> 2015 </td>
        </tr> 
        <tr>
            <td> 매출액 </td> 
            <td> 100 </td> 
            <td> 200 </td>
            <td> 300 </td>
        </tr> 
    </table>
</html> 
'''
soup = BeautifulSoup(html, 'html5lib')
result = soup.select('td')
print(result)

[<td> 항목 </td>, <td> 2013 </td>, <td> 2014 </td>, <td> 2015 </td>, <td> 매출액 </td>, <td> 100 </td>, <td> 200 </td>, <td> 300 </td>]


이 코드를 실행하면 그림 19.11과 같이 td태그가 포함하는 모든 값이 출력됩니다.아울러 select 메서드가 반환하는 값이 리스트임을 알 수 있습니다.

이번에는 td로 둘러싸인 태그 중에서 첫 번째에 위치한 "항목" 문자열만 가져와 보겠습니다. 값을 선택하는 select 메서드에에 ":nth-of-type(1)"을 지정했습니다. 이것은 태그 중에서 첫 번째 값만 가져오라는 의미입니다. 인덱스가 파이썬과 달리 1부터 시작하는 것에 주의하세요. 따라서 두 번째 값을 가져 오려면 (2)를 사용하면 됩니다.

In [6]:
from bs4 import BeautifulSoup

html =  '''
<html>
    <table border=1> 
        <tr>
            <td> 항목 </td> 
            <td> 2013 </td> 
            <td> 2014 </td> 
            <td> 2015 </td>
        </tr> 
        <tr>
            <td> 매출액 </td> 
            <td> 100 </td> 
            <td> 200 </td>
            <td> 300 </td>
        </tr> 
    </table>
</html> 
'''

soup = BeautifulSoup(html, 'html5lib')
result = soup.select('td:nth-of-type(1)')
print(result)

[<td> 항목 </td>, <td> 매출액 </td>]


그림 19.12를 보면 "항목"문자열만 화면에 출력됩니다. 지금은 간단한 HTML이라서 대수롭지 않게 보이지만 실제 HTML 코드는 방대하고 복잡하기 때문에 HTML의 특정 위치를 기술하는 것이 매우 중요합니다.


HTML 코드를 간단하게 수정하고 BeautifulSoup을 더 사용해 봅시다. 여기서 ul/li/ol 태그의 기능에 집중하기보다는 태그의 구조와 값을 가져오는 방법에 집중합시다. 만약 ul태그 안에 있는 li태그만 가져오고 싶다면 어떻게 해야 할까요? select 메서드는 하나 이상의 태그를 입력받을 수 있습니다. "ul 태그 안의 li 태그" 를 코드로 표현하면 "ul li"와 같습니다. 단순히 두 개의 태그를 나열해서 select 메서드로 전달합니다.

In [11]:
from bs4 import BeautifulSoup

html = '''
<ul>
    <li> 100 </li> 
    <li> 200 </li>
</ul> 
<ol>
    <li> 300 </li> 
    <li> 400 </li>
</ol>
'''
soup = BeautifulSoup(html, 'html5lib')
result1 = soup.select('ul li')
result2 = soup.select('ul li:nth-of-type(2)')
print(result1)
print(result2)


[<li> 100 </li>, <li> 200 </li>]
[<li> 200 </li>]


코드를 실행한 결과, 그림 19.13 과 같이 100, 200이 출력됩니다. 앞에서배운 ":nth-of-type(2)"를 select 메서드에 입력해보세요.

지금까지 사용한 select메서드는 태그와 함께 값이 리스트로 출려됐습니다. 태그 없이 태그 안의 값만 출력하려면 text 속성을 사용해야 합니다. 다음 코드는 반복문을 사용해 리스트에 저장된 모든 태그에 접근하고, 각 태그의 text 속성을 출력합니다.

In [12]:
from bs4 import BeautifulSoup

html =  '''
<ul>
    <li> 100 </li> 
    <li> 200 </li>
</ul> 
<ol>
    <li> 300 </li> 
    <li> 400 </li>
</ol>
'''
soup = BeautifulSoup(html, 'html5lib')
result = soup.select('ul li')
for r in result:
  print(r.text)

 100 
 200 


그림 19.14를 참고하면 태그 없이 값만 출력된 것을 알 수 있습니다.

이번에는 requests 모듈을 사용해 네이버 금융페이지의 HTML을 다운로드해보겠습니다. 먼저 모듈을 사용하기 위해 requests 모듈을 임포트합니다. requests의 get함수는 URL을 입력받고 해당 웹페이지의 HTML을 text속성에 바인딩합니다.

In [14]:
import requests

response = requests.get("http://companyinfo.stock.naver.com/v1/company/c1010001.aspx?cmp_cd=035720")
print(response.text)


<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html lang="ko">
<head>
	<title>온라인기업정보 - 기업모니터 - 기업개요(카카오)</title>
	<link rel="shortcut icon" href="/favicon.ico" />
	<meta http-equiv="X-UA-Compatible" content="IE=edge" />
	<script language="javascript" src="/include/domain.js" type="text/javascript"></script>
	<!--[if (!IE) | (gt IE 8)]>
    	<meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=1, user-scalable=no" />
    <![endif]-->
	<!--[if IE 6]>
            <link href="/include/only_ie6.css" type="text/css" rel="stylesheet"/>
        <![endif]-->
	<!--[if lt IE 8]>
            <link href="/include/lt_ie8.css" type="text/css" rel="stylesheet"/>
        <![endif]-->
	<link href="/v1/include/css?v=q7Pq73b9jj00gmFmOVUSxzXv_5FtLNW9qxkqFwJqh-g1" rel="stylesheet"/>

	<link href="/v1/include/css1?v=2Kc54WAY0-YKwI0WYHBphRe4FmbyttZ0_0A_hAhAjHc1" rel="stylesheet"/>

    <link href="/v1/

이 코드를 실행하면 웹 브라우저에서 확인했던 카카오 재무제표의 HTML코드가 화면에 출력됩니다. get함수로 전달한 URL 끝의 "cmp_cd=-35720"가 종목을 구분하는 코드로서 "cmd_cd=000660"으로 변경하면 SK하이닉스 재무제표의 HTML을 얻어올 수 있습니다.

최근 네이버 금융의 웹사이트가 개편되면서 한 번의 재무제표를 가져오기 어려워졌습니다. 그래서 두 단계에 걸쳐 데이터를 얻어오는데, 얻어오는 과정이 학습 범위를 넘어섭니다. 따라서 지금 단계에서는 "다음 코드의 실행 결과로 재무제표가 포함된 HTML을 얻어 올 수 있다" 정도로 이해하고 넘어가겠습니다.

In [20]:
import requests 
import re

code = "035720"

re_enc = re.compile("encparam: '(.*)'", re.IGNORECASE) 
re_id = re.compile("id: '([a-zA-Z0-9]*)' ?", re.IGNORECASE)

url = "http://companyinfo.stock.naver.com/v1/company/c1010001.aspx?cmp_cd={}".format(code) 
html = requests.get(url).text 
encparam = re_enc.search(html).group(1) 
encid = re_id.search(html).group(1)

url = "http://companyinfo.stock.naver.com/v1/company/ajax/cF1001.aspx?cmp_cd={}&fin_typ=0&freq_typ=A&encparam={}&id={}".format(code, encparam, encid) 
headers = {"Referer": "HACK"}
html = requests.get(url, headers=headers).text 
print(html)

<table class="hZlEwemUxRm gHead01 all-width" summary="주요재무정보를 제공합니다."><caption class="blind">"주요재무정보"</caption><thead><tr><th>7968</th><th>7968</th><th>7968</th><th>7968</th><th>7968</th><th>7968</th><th>7968</th><th>7968</th><th>7968</th></tr></thead><tbody><tr><td>7,968</td><td>7,968</td><td>7,968</td><td>7,968</td><td>7,968</td><td>7,968</td><td>7,968</td><td>7,968</td><td>7,968</td></tr><tr><td>7,968</td><td>7,968</td><td>7,968</td><td>7,968</td><td>7,968</td><td>7,968</td><td>7,968</td><td>7,968</td><td>7,968</td></tr><tr><td>7,968</td><td>7,968</td><td>7,968</td><td>7,968</td><td>7,968</td><td>7,968</td><td>7,968</td><td>7,968</td><td>7,968</td></tr><tr><td>7,968</td><td>7,968</td><td>7,968</td><td>7,968</td><td>7,968</td><td>7,968</td><td>7,968</td><td>7,968</td><td>7,968</td></tr><tr><td>7,968</td><td>7,968</td><td>7,968</td><td>7,968</td><td>7,968</td><td>7,968</td><td>7,968</td><td>7,968</td><td>7,968</td></tr><tr><td>7,968</td><td>7,968</td><td>7,968</td><td>7,968</td><td>7,

HTML 코드를 정성스레 분석하면 배당수익률은 두 번째 table 안에 있음을 알 수 있습니다. 13장에서 배운 판다스를 활용해서 원하는 데이터를 꺼내 오겠습니다. 판다스의 read_html은 HTML 태그 중 table 태그를 데이터 프레임으로 변환 후에 리스트로 변환해 줍니다. 하나 이상의 table이 존재할 수 있으므로 리스트로 반환하는 겁니다. 인덱싱으로 하나의 table을 꺼내온 뒤 불필요한 데이터를 제거하고 포맷팅을 수정합니다. to_dict 메서드는 데이터 프레임을 딕셔너리로 변환합니다.

In [21]:
import pandas as pd

dfs = pd.read_html(html)
df = dfs[1]['연간연간컨센서스보기']
df.index = dfs[1]['주요재무정보'].values.flatten()
df = df.loc['현금배당수익률']
df.index = df.index.str[:7]
print(df.to_dict())

{'2020/12': 0.04, '2021/12': 0.05, '2022/12': 0.11, '2023/12': 0.09}


가져온 배당연도와 배당수익률을 딕셔너리로 저장해서 get_financial_statements 함수로 정리한 최종 버전은 예제 19.4와 같습니다. 이 함수는 웹 페이지로부터 배당수익률을 추출한 후 딕셔너리 객체로 반환합니다.


In [22]:
def get_financial_statements(code):
  re_enc = re.compile("encparam: '(.*)'", re.IGNORECASE)
  re_id = re.compile("id: '([a-zA-Z0-9]*)' ?", re.IGNORECASE)

  url = "http://companyinfo.stock.naver.com/v1/company/c1010001.aspx?cmp_cd={}".format(code)
  html = requests.get(url).text
  encparam = re_enc.search(html).group(1)
  encid = re_id.search(html).group(1)

  url = "http://companyinfo.stock.naver.com/v1/company/ajax/cF1001.aspx?cmp_cd={}&fin_typ=0&freq_typ=A&encparam={}&id={}".format(code, encparam, encid)
  headers = {"Referer": "HACK"}
  html = requests.get(url, headers=headers).text

  dfs = pd.read_html(html)
  df = dfs[1]['연간연간컨센서스보기']
  df.index = dfs[1]['주요재무정보'].values.flatten()
  df = df.loc['현금배당수익률']
  df.index = df.index.str[:7]

  return df.to_dict()

if __name__ == "__main__":
  dividend_dict = get_financial_statements("035720")
  print(dividend_dict)


{'2020/12': 0.04, '2021/12': 0.05, '2022/12': 0.11, '2023/12': 0.09}
