# 크롤링을 위한 웹 기본지식

이번 장에서는 크롤링을 하기 위해 사전에 알고 있으면 도움이 되는 인코딩, 웹의 동작 방식, HTML과 CSS에 대해 알아보겠다.

## 인코딩에 대한 이해

### 인간과 컴퓨터 간 번역의 시작, ASCII

한글이 포함된 엑셀이나 CSV 파일을 불러올 때, 혹은 한글로 된 데이터를 크롤링하면 오류가 뜨거나 읽을 수 없는 문자로 나타나는 경우가 종종 있다. 이는 한글 인코딩 때문에 발생하는 문제이며, 이러한 현상을 흔히 '인코딩이 깨졌다'라고 표현한다. 인코딩이란 사람이 사용하는 언어를 컴퓨터가 사용하는 0과 1로 변환하는 과정을 말하며, 이와 반대의 과정을 디코딩이라고 한다.

이렇듯 사람과 컴퓨터 간의 언어를 번역하기 위해 최초로 사용된 방식이 아스키(ASCII: American Standard Code for Information Interchange)다. 0부터 127까지 총 128개 바이트에 알파벳과 숫자, 자주 사용되는 특수문자 값을 부여하고, 문자가 입력되면 이에 대응되는 바이트가 저장된다. 그러나 아스키의 'American'이라는 이름에서 알 수 있듯이 이는 영어의 알파벳이 아닌 다른 문자를 표현하는 데 한계가 있으며, 이를 보완하기 위한 여러 방법이 나오게 되었다.

![]( image/web/ascii_code.png)<br>
아스키 코드 표


### 한글 인코딩 방식의 종류

인코딩에 대한 전문적인 내용은 이 책의 범위를 넘어가며, 크롤링을 위해서는 한글을 인코딩하는 데 쓰이는 **EUC-KR**과 **CP949**, **UTF-8** 정도만 이해해도 충분하다. 만일 '퀀트'이라는 단어를 인코딩한다면 어떤 방법이 있을까요? 먼저 '퀀'과 '트'라는 문자 자체에 해당하는 코드를 부여해 나타내는 방법이 있다. 아니면 이를 구성하는 모음과 자음을 나누어 'ㅋ','ㅜ','ㅓ','ㄴ','ㅌ','ㅡ' 각각에 해당하는 코드를 부여하고 이를 조합할 수도 있다. 전자와 같이 완성된 문자 자체로 나타내는 방법을 완성형, 후자와 같이 각 자모로 나타내는 방법을 조합형이라고 한다.

한글 인코딩 중 완성형으로 가장 대표적인 방법은 **EUC-KR** 이다. EUC-KR은 현대 한글에서 많이 쓰이는 문자 2,350개에 번호를 붙인 방법이다. 그러나 2,350개 문자로 모든 한글 자모의 조합을 표현하기 부족해, 이를 보완하고자 마이크로소프트가 도입한 방법이 **CP949** 이다. CP949는 11,720개 한글 문자에 번호를 붙인 방법으로 기존 EUC-KR보다 나타낼 수 있는 한글의 개수가 훨씬 많아졌다. 윈도우의 경우 기본 인코딩이 CP949로 되어있다.

조합형의 대표적 방법인 **UTF-8**은 모음과 자음 각각에 코드를 부여한 후 조합해 한글을 나타낸다. 조합형은 한글뿐만 아니라 다양한 언어에 적용할 수 있다는 장점이 있어 전 세계 웹페이지의 대부분이 UTF-8로 만들어지고 있다.


![](image/web/encoding_ratio.png)<br>
웹페이지에서 사용되는 인코딩 비율

## 웹의 동작 방식

크롤링은 웹사이트의 정보를 수집하는 과정이다. 따라서 웹이 어떻게 동작하는지 이해할 필요가 있다.

먼저 클라이언트란 여러분의 데스크톱이나 휴대폰과 같은 장치와 크롬이나 파이어폭스와 같은 소프트웨어를 의미한다. 서버는 웹사이트와 앱을 저장하는 컴퓨터를 의미한다. 클라이언트가 특정 정보를 요구하는 과정을 '**요청**'이라고 하며, 서버가 해당 정보를 제공하는 과정을 '**응답**'이라고 한다. 그러나 클라이언트와 서버가 연결되어 있지 않다면 둘 사이에 정보를 주고받을 수 없으며, 이를 연결하는 공간이 바로 인터넷이다. 또한 건물에도 고유의 주소가 있는 것처럼, 각 서버에도 고유의 주소가 있는데 이것이 인터넷 주소 혹은 URL이다.

여러분이 네이버에서 경제 기사를 클릭하는 경우를 생각해보자. 클라이언트는 사용자인 여러분이고, 서버는 네이버이며, URL은 www.naver.com 이 된다. 경제 기사를 클릭하는 과정이 요청이며, 클릭 후 해당 페이지를 보여주는 과정이 응답이다.

![](image/web/web_str.png)<br>
웹 환경 구조

### HTTP

클라이언트가 각기 다른 방법으로 데이터를 요청한다면, 서버는 해당 요청을 알아듣지 못할 것이다. 이를 방지하기 위해 규정된 약속이나 표준에 맞추어 데이터를 요청해야 한다. 이러한 약속을 HTTP(HyperText Transfer Protocol)라고 한다.

클라이언트가 서버에게 요청의 목적이나 종류를 알리는 방법을 HTTP 요청 방식(HTTP Request Method)이라고 한다. HTTP 요청 방식은 크게 {numref}`http`와 같이 GET, POST, PUT, DELETE라는 네 가지로 나눌 수 있지만 크롤링에는 GET과 POST 방식이 대부분 사용되므로 이 두 가지만 알아도 충분하다. GET 방식과 POST 방식의 차이 및 크롤링 방법은 나중에 다시 자세하게 다룬다.

> HTTP 요청 방식과 설명

| 요청방식 | 내용 | 
| --- | --- |
| GET | 특정 정보 조회 |
| POST | 새로운 정보 등록 |
| PUT | 기존 특정 정보 갱신 |
| DELETE | 기존 특정 정보 삭제 |


인터넷을 사용하다 보면 한 번쯤 '**이 페이지를 볼 수 있는 권한이 없음(HTTP 오류 403 - 사용할 수 없음)**' 혹은 '**페이지를 찾을 수 없음(HTTP 오류 404 - 파일을 찾을 수 없음)**'이라는 오류를 본 적이 있을 것이다. 여기서 403과 404라는 숫자는 클라이언트의 요청에 대한 서버의 응답 상태를 나타내는 HTTP 상태 코드이다.

HTTP 상태 코드는 100번대부터 500번대까지 있으며, 성공적으로 응답을 받을 시 200번 코드를 받는다. 각 코드에 대한 내용은 HTTP 상태 코드를 검색하면 확인할 수 있으며, 크롤링 과정에서 오류가 발생할 시 해당 코드를 통해 어떤 부분에서 오류가 발생했는지 확인이 가능하다.

> HTTP 상태 코드 그룹 별 내용

| 코드 | 상태 | 내용 | 
| --- | --- | --- |
| 1xx |	Informational (조건부 응답) | 리퀘스트를 받고, 처리 중에 있음 |
| 2xx | Success (성공) | 리퀘스트를 정상적으로 처리함 |
| 3xx | Redirection (리디렉션) | 리퀘스트 완료를 위해 추가 동작이 필요함 |
| 4xx | Client Error (클라이언트 오류)	| 클라이언트 요청을 처리할 수 없어 오류 발생 |
| 5xx | Server Error (서버 오류) | 서버에서 처리를 하지 못하여 오류 발생 |


## HTML과 CSS

클라이언트와 서버가 데이터를 주고받을 때는 디자인이라는 개념이 필요하지 않다. 그러나 응답받은 정보를 사람이 확인하려면 보기 편한 방식으로 바꾸어줄 필요가 있는데 웹페이지가 그러한 역할을 한다. 
웹페이지의 제목, 단락, 목록 등 레이아웃을 잡아주는 데 쓰이는 대표적인 마크업 언어가 HTML(HyperText Markup Language)이다.
HTML을 통해 잡혀진 뼈대에 글자의 색상이나 폰트, 배경색, 배치 등 화면을 꾸며주는 역할을 하는 것이 CSS(Cascading Style Sheets)다.

우리의 목적은 웹페이지를 만드는 것이 아니므로 HTML과 CSS에 대해 자세히 알 필요는 없다. 그러나 크롤링하고자 하는 데이터가 웹페이지의 어떤 태그 내에 위치하고 있는지, 어떻게 크롤링하면 될지 파악하기 위해서는 HTML과 CSS에 대한 기본적인 지식은 알아야 한다.

HTML과 CSS의 실습은 아래 페이지에서 해볼 수 있다.

```
https://www.w3schools.com/html/tryit.asp?filename=tryhtml_intro
```

### HTML 기본 구조

HTML은 크게 메타 데이터를 나타내는 head와 본문을 나타내는 body로 나누어진다. head에서 title은 웹페이지에서 나타나는 제목을 나타내며 body 내에는 본문에 들어갈 각종 내용들이 포함되어 있다. w3schools 사이트에서 아래 소스코드를 복사해 좌측에 붙여넣은 후, 상단의 [Run] 버튼을 클릭해보자.

In [None]:
<html>
<head>
<title>Page Title</title>
</head>

<body>
<h2> This is page heading </h2>
<p> This is first paragraph text </p>
</body>
</html>

![](image/web/html_1.png)<br>
HTML 기본 구조


\<head> 부분에 입력한 내역은 실습 페이지 구조 상 확인되지 않지만, \<body> 부분에 입력한 글자들은 우측 결과물 페이지에서 확인이 가능하다. \<h2>와 \<p> 등의 태그가 하는 역할들에 대해서 더욱 자세히 알아보도록 하겠다.
    
### 태그와 속성

HTML 코드는 태그와 속성, 내용으로 이루어져 있다. 크롤링한 데이터에서 특정 태그의 데이터만을 찾는 방법, 특정 속성의 데이터만을 찾는 방법, 뽑은 자료에서 내용만을 찾는 방법 등 원하는 값을 찾는 방법이 모두 다르기 때문에 태그와 속성에 대해 좀 더 자세히 살펴보겠다.

![](image/web/html_tag.png)<br>
HTML 구성 요소 분석


꺾쇠(<>)로 감싸져 있는 부분을 태그라고 하며, 여는 태그 <>가 있으면 반드시 이를 닫는 태그인 \</>가 쌍으로 있어야 한다. 속성은 해당 태그에 대한 추가적인 정보를 제공해주는 것으로, 뒤에 속성값이 따라와야 한다. 내용은 우리가 눈으로 보는 텍스트 부분을 의미한다. {numref}`html_tag`의 HTML 코드는 문단을 나타내는 \<p> 태그, 정렬을 나타내는 align 속성과 center 속성값을 통해 가운데 정렬을 지정하며, 내용에는 '퀀트 투자'를 나타내고, \</p> 태그를 통해 태그를 마쳤다.

### h 태그와 p 태그

h 태그는 폰트의 크기를 나타내는 태그이며, p 태그는 문단을 나타내는 태그다. 이를 사용한 간단한 예제는 다음과 같다.

In [None]:
<html>
<body>

<h1>Page heading: size 1</h1>
<h2>Page heading: size 2</h2>
<h3>Page heading: size 3</h3>

<p>Quant Portfolio</p>
<p>By Henry</p>

</body>
</html>

![](image/web/html_2.png)<br>
h 태그와 p 태그 예제


h 태그의 숫자가 작을수록 텍스트 크기는 커지며, 숫자는 1에서 6까지 지원된다. 또한 p 태그를 사용하면 각각의 문단이 만들어진다.

### 리스트를 나타내는 ul 태그와 ol 태그

ul과 ol 태그는 리스트(글머리 기호)를 만들 때 사용됩니다. ul은 순서가 없는 리스트(unordered list), ol은 순서가 있는 리스트(ordered list)를 만든다.

In [None]:
<html>
<body>

<h2> Unordered List</h2>
<ul>
  <li>List 1</li>
  <li>List 2</li>
  <li>List 3</li>
</ul>  

<h2> Ordered List</h2>
<ol>
  <li>List A</li>
  <li>List B</li>
  <li>List C</li>
  <li>List D</li>
 </ol> 

</body>
</html>

![](image/web/html_3.png)<br>
리스트 관련 태그 예제


ul 태그로 감싼 부분은 글머리 기호가 순서가 없는 •으로 표현되며, ol 태그로 감싼 부분은 숫자가 순서대로 표현된다. 각각의 리스트는 li를 통해 생성된다.

### table 태그

table 태그는 표를 만드는 태그다.

In [None]:
<html>
<body>

<h2>Sample Table</h2>

<table>
  <tr>
    <th>Column 1</th>
    <th>Column 2</th>
    <th>Column 3</th>    
  </tr>
  <tr>
    <td>1</td>
    <td>2</td>
    <td>3</td>
  </tr>
  <tr>
    <td>A</td>
    <td>B</td>
    <td>C</td>
  </tr>
  <tr>
    <td>a</td>
    <td>b</td>
    <td>c</td>
  </tr>
</table>

</body>
</html>

![](image/web/html_4.png)<br>

리스트 관련 태그 예제

table 태그 내의 tr 태그는 각 행을 의미하며, 각 셀의 구분은 th 혹은 td 태그를 통해 구분할 수 있다. th 태그는 진하게 표현되므로 주로 테이블의 제목에 사용되고, td 태그는 테이블의 내용에 사용된다.

### a 태그와 img 태그 및 속성

a 태그와 img 태그는 다른 태그와는 다르게, 혼자 쓰이기보다는 속성과 결합해 사용된다. a 태그는 href 속성과 결합해 다른 페이지의 링크를 걸 수 있다. img 태그는 src 속성과 결합해 이미지를 불러온다.

In [None]:
<html>
<body>

<h2>a tag & href attribute</h2>
<p>HTML links are defined with the a tag.
The link address is specified in the href attribute:</p>

<a href="https://blog.naver.com/leebisu">Henry's Quantopia</a>

<h2>img tag & src attribute</h2>
<p>HTML images are defined with the img tag,
and the filename of the image source is
specified in the src attribute:</p>

<img src="https://www.python.org/static/img/python-logo.png",
width="200",height="100">

</body>
</html>

![](image/web/html_5.png)<br>
a 태그와 src 태그 예제


a 태그 뒤 href 속성에 연결하려는 웹페이지 주소를 속성값(https://blog.naver.com/leebisu)으로 입력한 후 내용(Henry's Quantopia)을 입력하면, 내용 텍스트에 웹페이지의 링크가 추가된다. img 태그 뒤 src 속성의 속성값에는 불러오려는 이미지 주소를 입력하며, width 속성과 height 속성을 통해 이미지의 가로 세로 길이를 조절할 수도 있다. 페이지 내에서 링크된 주소를 모두 찾거나, 모든 이미지를 저장하려고 할 때 속성값을 찾으면 손쉽게 원하는 작업을 할 수 있다.

### div 태그

div 태그는 화면의 전체적인 틀(레이아웃)을 만들 때 주로 사용하는 태그다. 단독으로도 사용될 수 있으며, 꾸밈을 담당하는 style 속성과 결합되어 사용되기도 한다.

In [None]:
<html>
<body>

<div style="background-color:black;color:white">
  <h5>First Div</h5>
  <p>Black backgrond, White Color</p>
</div> 

<div style="background-color:yellow;color:red">
  <h5>Second Div</h5>
  <p>Yellow backgrond, Red Color</p>
</div> 

<div style="background-color:blue;color:grey">
  <h5>Second Div</h5>
  <p>Blue backgrond, Grey Color</p>
</div> 

</body>
</html>

![]( image/web/html_6.png)
<br>
div 태그 예제


div 태그를 통해 총 세 개의 레이아웃으로 나누어진 것을 알 수 있다. style 속성 중 background-color는 배경 색상을, color는 글자 색상을 의미하며, 각 레이아웃마다 다른 스타일이 적용되었다.

### CSS

CSS는 앞서 설명했듯이 웹페이지를 꾸며주는 역할을 한다. head에서 각 태그에 CSS 효과를 입력하면 본문의 모든 해당 태그에 CSS 효과가 적용된다. 이처럼 웹페이지를 꾸미기 위해 특정 요소에 접근하는 것을 셀렉터(Selector)라고 한다.

In [None]:
<html>
<head>
<style>
body {background-color: powderblue;}
h4   {color: blue;}
</style>
</head>
<body>

<h4>This is a heading</h4>
<p>This is a first paragraph.</p>
<p>This is a second paragraph.</p>

</body>
</html>

![](image/web/html_7.png)<br>
css 예제


head의 style 태그에서 여러 CSS 효과가 정의되었다. 먼저 body의 전체 배경 색상을 powderblue로 설정했으며, h4 태그의 글자 색상은 파란색(blue)으로 설정했다. body 태그 내에서 style에 태그를 주지 않더라도, head에서 정의한 CSS 효과가 모두 적용된다.

### 클래스와 id

위의 예제에서 클래스 속성을 이용하면 특정 이름을 가진 클래스에 동일한 효과를 적용할 수 있다.

In [None]:
<html>
<style>
.language {
  background-color: tomato;
  color: white;
  padding: 10px;
} 
.desc {
  background-color: moccasin;
  color: black;
  padding: 10px;
} 
</style>

<div>
<h2 class="language">Python</h2>
<p class="desc"> Python is a high-level, general-purpose programming language.</p>
</div>

<div>
<h2>SQL</h2>
<p>SQL is a domain-specific language used in programming and designed for managing data held in a RDBMS, or for stream processing in a RDBMS. </p>
</div>

<div>
<h2 class="language">R</h2>
<p class="desc">R is a free software environment for statistical computing and graphics.</p>
<div>
</html>

![](image/web/html_8.png)<br>
class 예제
`

셀렉터를 클래스에 적용할 때는 클래스명 앞에 마침표(.)를 붙여 표현한다. 위 예제에서 language 클래스는 배경 색상이 tomato, 글자 색상은 흰색, 여백은 10px로 정의되다. desc 클래스는 배경 색상이 moccasin, 글자 색상은 검은색, 여백은 10px로 정의되었다. 본문의 첫 번째(Python)와 세 번째(R) 레이아웃의 h2 태그 뒤에는 language 클래스를, p 태그 뒤에는 desc 클래스를 속성으로 입력했다. 따라서 해당 레이아웃에만 CSS 효과가 적용되며, 클래스 값이 없는 두 번째 레이아웃에는 효과가 적용되지 않는다.

id 또한 이와 비슷한 역할을 한다. HTML 내에서 클래스는 여러 개가 정의될 수 있는 반면, id는 단 하나만 사용하기를 권장한다.

In [None]:
<html>
<head>
<style>

#myHeader {
  background-color: lightblue;
  color: black;
  padding: 15px;
  text-align: center;
}

</style>
</head>
<body>

<h1 id="myHeader">My Header</h1>

</body>
</html>

![]( image/web/html_9.png)<br>
class 예제


셀렉터를 id에 적용할 때는 id명 앞에 샵(#)를 붙여 표현하며, 페이지에서 한 번만 사용된다는 점을 제외하면 클래스와 사용 방법이 거의 동일하다. 클래스나 id 값을 통해 원하는 내용을 크롤링하는 경우도 많으므로, 각각의 이름 앞에 마침표(.)와 샵(#) 을 붙여야 한다는 점을 꼭 기억해야 한다.

> HTML과 관련해 추가적인 정보가 필요하거나 내용이 궁금하다면 아래 웹사이트를 참고하기 바란다.

- w3schools: https://www.w3schools.in/html-tutorial/


# 정적 크롤링 실습

- 각종 금융 웹사이트에는 주가, 재무정보 등 우리가 원하는 대부분의 주식 정보가 제공되고 있으며, 크롤링을 통해 이러한 데이터를 수집할 수 있다. 
- 크롤링 혹은 스크래핑이란 웹사이트에서 원하는 정보를 수집하는 기술이다. 이번 장에서는 크롤링에 대한 간단한 설명과 예제를 살펴보겠다.


- 크롤링을 할 때 주의해야 할 점이 있다. 특정 웹사이트의 페이지를 쉬지 않고 크롤링하는 행위를 무한 크롤링이라고 한다. 
    - 무한 크롤링은 해당 웹사이트의 자원을 독점하게 되어 타인의 사용을 막게 되며 웹사이트에 부하를 준다. 
        - 일부 웹사이트에서는 동일한 IP로 쉬지 않고 크롤링을 할 경우 접속을 막아버리는 경우도 있다.
        - 따라서 하나의 페이지를 크롤링한 후 1~2초 가량 정지하고 다시 다음 페이지를 크롤링하는 것이 좋다.

- 신문기사나 책, 논문, 사진 등 저작권이 있는 자료를 통해 부당이득을 얻는다는 등의 행위를 할 경우 법적 제재를 받을 수 있다. 
- 이 책에서 설명하는 크롤링을 통해, 상업적 가치가 있는 데이터에 접근을 시도하여 발생할 수 있는 어떠한 상황에 대해서도 책임을 질 수 없다는 점을 명심하기 바란다.


## GET과 POST 방식 이해하기

- 우리가 인터넷에 접속해 서버에 파일을 요청(Request)하면, 서버는 이에 해당하는 파일을 우리에게 보내준다(Response). 
- 크롬과 같은 웹 브라우저는 이러한 과정을 사람이 수행하기 편하고 시각적으로 보기 편하도록 만들어진 것이며, 인터넷 주소는 서버의 주소를 기억하기 쉽게 만든 것이다. 
- 우리가 서버에 데이터를 요청하는 형태는 다양하지만 크롤링에서는 주로 GET과 POST 방식을 사용한다.

![](image/crawl_basic/flow.png)<BR>
클라이언트와 서버 간의 요청/응답 과정



### GET 방식

- GET 방식은 인터넷 주소를 기준으로 이에 해당하는 데이터나 파일을 요청하는 것
- 주로 클라이언트가 요청하는 쿼리를 앰퍼샌드(&) 혹은 물음표(?) 형식으로 결합해 서버에 전달<BR><BR>

- 네이버 홈페이지에 접속한 후 [퀀트]를 검색하면, 주소 끝부분에 [&query=퀀트]가 추가되며 이에 해당하는 페이지의 내용을 보여줌. 
- 즉, 해당 페이지는 GET 방식을 사용하고 있으며 입력 종류는 query, 입력값은 퀀트임을 알 수 있다.

![](image/crawl_basic/naver_search_1.png)<BR>
네이버 검색 결과


- [헤지펀드]를 다시 검색하면, 주소 끝부분이 [&query=헤지펀드&oquery=퀀트...]로 변경된다. 
    - 현재 입력값은 헤지펀드, 기존 입력값은 퀀트이며 이러한 과정을 통해 연관검색어가 생성됨도 유추해볼 수 있다.

![](image/crawl_basic/naver_search_2.png)<BR>
네이버 재검색 결과
```


### POST 방식

- POST 방식은 사용자가 필요한 값을 추가해서 요청하는 방법이다
- GET 방식과 달리 클라이언트가 요청하는 쿼리를 body에 넣어서 전송하므로 요청 내역을 직접 볼 수 없다. 
동행복권 홈페이지에 접속해 [당첨결과] 메뉴를 확인해보자.

- https://www.dhlottery.co.kr/gameResult.do?method=byWin

![](image/crawl_basic/lotto.png)

회차별 당첨번호


- 이번엔 회차 바로가기를 변경한 후 [조회]를 클릭한다. 페이지의 내용은 선택일 기준으로 변경되었지만, 주소는 변경되지 않고 그대로 남아 있다.
- GET 방식에서는 입력 항목에 따라 웹페이지 주소가 변경되었지만, POST 방식을 사용해 서버에 데이터를 요청하는 해당 웹사이트는 그렇지 않은 것을 알 수 있다.

- POST 방식의 데이터 요청 과정을 살펴보려면 개발자도구를 이용해야 하며, 크롬에서는 [F12]키를 눌러 개발자도구 화면을 열 수 있다. 
    - 개발자도구 화면을 연 상태에서 다시 한번 [조회]를 클릭해보자.
- [Network] 탭을 클릭하면, [조회]을 클릭함과 동시에 브라우저와 서버 간의 통신 과정을 살펴볼 수 있다. 이 중 상단의 gameResult.do?method=byWin 이라는 항목이 POST 형태임을 알 수 있다.

![](image/crawl_basic/lotto_post.png)

크롬 개발자도구의 Network 화면


해당 메뉴를 클릭하면 통신 과정을 좀 더 자세히 알 수 있다. [Payload] 탭의 [Form Data]에는 서버에 데이터를 요청하는 내역이 있다. drwNo와 dwrNoList에는 선택한 회차의 숫자가 들어가있다.


![](image/crawl_basic/lotto_query.png)


- 이처럼 POST 방식은 요청하는 데이터에 대한 쿼리가 GET 방식처럼 URL을 통해 전송되는 것이 아닌 body를 통해 전송
    - 이에 대한 정보는 웹 브라우저를 통해 확인할 수 없으며, 개발자도구 화면을 통해 확인해야 한다.

## 크롤링 예제

- 일반적으로 크롤링은 {numref}`flowchart`의 과정을 따른다.
- 먼저, request 패키지의 `get()` 혹은 `post()` 함수를 이용해 데이터를 요청한 후 HTML을 정보를 가져오며, 
- bs4 패키지의 함수들을 이용해 원하는 데이터를 찾는 과정으로 이루어진다. 
- 기본적인 크롤링을 시작으로 GET 방식과 POST 방식으로 데이터를 받는 예제를 학습해 보겠다.

![](image/crawl_basic/flowchart.png)<BR>

일반적인 크롤링 과정


### 명언 크롤링하기

크롤링의 간단한 예제로 'Quotes to Scrape' 사이트에 있는 명언을 수집하겠다.


https://quotes.toscrape.com/


> 해당사이트에 접속한 후, 명언에 해당하는 부분에 마우스 커서를 올려둔 후 마우스 오른쪽 버튼을 클릭하고 [검사]를 선택하면 개발자도구 화면이 나타난다. 여기서 해당 글자가 HTML 내에서 어떤 부분에 위치하는지 확인할 수 있다.

- 각 네모에 해당하는 부분: [class가 quote인 div 태그]
- 명언: 위의 태그 하부의 [class가 text인 span 태그]
- 말한 사람은 [span 태그 하단의 class가 author인 small 태그]
- 말한 사람에 대한 정보인 about의 링크: [a 태그 href 속성]의 속성값

![](image/crawl_basic/quote.png)<BR>

Quotes to Scrape의 명언부분 HTML 

> 이제 위의 내용을 하나씩 크롤링 해보도록 하자. 먼저 해당 페이지의 내용을 불러온다.

In [1]:
import requests as rq

url = 'https://quotes.toscrape.com/'
quote = rq.get(url)

print(quote)

<Response [200]>


- url에 해당 주소를 입력한 후 `get()` 함수를 이용해 해당 페이지의 내용을 받았다. 이를 확인해보면 Response가 200, 즉 데이터가 이상 없이 받아졌음이 확인된다.

In [2]:
quote.content[:1000]

b'<!DOCTYPE html>\n<html lang="en">\n<head>\n\t<meta charset="UTF-8">\n\t<title>Quotes to Scrape</title>\n    <link rel="stylesheet" href="/static/bootstrap.min.css">\n    <link rel="stylesheet" href="/static/main.css">\n</head>\n<body>\n    <div class="container">\n        <div class="row header-box">\n            <div class="col-md-8">\n                <h1>\n                    <a href="/" style="text-decoration: none">Quotes to Scrape</a>\n                </h1>\n            </div>\n            <div class="col-md-4">\n                <p>\n                \n                    <a href="/login">Login</a>\n                \n                </p>\n            </div>\n        </div>\n    \n\n<div class="row">\n    <div class="col-md-8">\n\n    <div class="quote" itemscope itemtype="http://schema.org/CreativeWork">\n        <span class="text" itemprop="text">\xe2\x80\x9cThe world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.\xe2\x80\

- `content`를 통해 함수를 통해 받아온 내용을 확인할 수 있으며, 텍스트 형태로 이루어져있다. `BeautifulSoup()` 함수를 이용해 원하는 HTML 요소에 접근하기 쉬운 BeautifulSoup 객체로 변경할 수 있다.

In [4]:
from bs4 import BeautifulSoup

quote_html = BeautifulSoup(quote.content, 'html.parser')
quote_html.head()

[<meta charset="utf-8"/>,
 <title>Quotes to Scrape</title>,
 <link href="/static/bootstrap.min.css" rel="stylesheet"/>,
 <link href="/static/main.css" rel="stylesheet"/>]

- `BeautifulSoup()` 함수 내에 HTML 정보에 해당하는 `quote.content`와 파싱 방법에 해당하는 `html.parser`를 입력하면 
    - 개발자도구 화면에서 보던 것과 비슷한 형태인 BeautifulSoup 객체로 변경되며, 이를 통해 원하는 요소의 데이터를 읽어올 수 있다.


> `BeautifulSoup()` 함수는 다양한 파서를 지원하며, 그 내용은 다음과 같다.

| Parser | 선언방법 | 장점 | 단점 |
| --- | --- | --- | --- |
| html.parser | `BeautifulSoup(내용, 'html.parser')` | 설치할 필요 없음 <br> 적당한 속도 | 
| lxml HTML parser | `BeautifulSoup(내용, 'lxml')` | 매우 빠름 | lxml 추가 설치 필요 |
| lxml XML parser | `BeautifulSoup(내용, 'xml')` | 매우 빠름 <br> 유일하게 XML 파싱 | lxml 추가 설치 필요 |
| html5lib | `BeautifulSoup(내용, 'html5lib')` | 웹 브라우저와 같은 방식으로 페이지 파싱. <br> 유효한 HTML5 생성 | html5lib 추가 설치 필요 <br> 매우 느림 |

#### `find()` 함수 이용
> 먼저 BeautifulSoup 모듈의 `find()` 함수를 통해 크롤링 하는법을 알아보자. 
- 우리는 개발자도구 화면에서 명언에 해당하는 부분이 [class가 quote인 div 태그 → class가 text인 span 태그]에 위치하고 있음을 살펴보았다.
- 이를 활용해 명언만을 추출하는 방법은 다음과 같다.

In [6]:
quote_div = quote_html.find_all('div', class_='quote')

quote_div[0]

<div class="quote" itemscope="" itemtype="http://schema.org/CreativeWork">
<span class="text" itemprop="text">“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”</span>
<span>by <small class="author" itemprop="author">Albert Einstein</small>
<a href="/author/Albert-Einstein">(about)</a>
</span>
<div class="tags">
            Tags:
            <meta class="keywords" content="change,deep-thoughts,thinking,world" itemprop="keywords"/>
<a class="tag" href="/tag/change/page/1/">change</a>
<a class="tag" href="/tag/deep-thoughts/page/1/">deep-thoughts</a>
<a class="tag" href="/tag/thinking/page/1/">thinking</a>
<a class="tag" href="/tag/world/page/1/">world</a>
</div>
</div>

- `find_all()` 함수를 이용할 경우 원하는 태그의 내용들을 찾아올 수 있다. 
    - 먼저 태그에 해당하는 'div'를 입력하고, class 이름인 'quote'를 입력한다. 
    - class라는 키워드는 파이썬에서 클래스를 만들 때 사용하는 키워드이므로 언더바(\_)를 통해 중복을 피해준다. 
    - 조건에 만족하는 결과가 리스트 형태로 반환되므로, 첫번째 내용만 확인해보면 `div class="quote"`에 해당하는 내용을 찾아왔으며, 
    - 이제 여기서 [class가 text인 span 태그]에 해당하는 내용을 추가로 찾도록 하자.

In [7]:
quote_span = quote_div[0].find_all('span', class_='text')

quote_span

[<span class="text" itemprop="text">“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”</span>]

- 다시 한번 `find_all()` 함수를 이용해 원하는 부분(`'span', class_='text'`)을 입력하면 우리가 원하던 명언에 해당하는 내용이 찾아진다.

In [8]:
quote_span[0].text

'“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”'

- 결과물 마지막에 `.text`를 입력하면 텍스트 데이터만을 출력할 수 있다. for문 중에서 리스트 내포 형태를 이용하여 명언에 해당하는 부분을 한번에 추출해보도록 하자.

In [7]:
quote_div = quote_html.find_all('div', class_ = 'quote')

[i.find_all('span', class_ ='text')[0].text for i in quote_div]

['“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”',
 '“It is our choices, Harry, that show what we truly are, far more than our abilities.”',
 '“There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”',
 '“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”',
 "“Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”",
 '“Try not to become a man of success. Rather become a man of value.”',
 '“It is better to be hated for what you are than to be loved for what you are not.”',
 "“I have not failed. I've just found 10,000 ways that won't work.”",
 "“A woman is like a tea bag; you never know how strong it is until it's in hot water.”",
 '“A day without sunshine is like, you know, night.”']

> `find_all()` 함수가 아닌 `find()` 함수를 사용하면 해당 태그의 첫번째 내용만을 가져온다.



#### `select()` 함수 이용

- 데이터가 존재하는 곳의 태그를 여러번 찾아 내려가야 할 경우 `find_all()` 함수를 이용하는 방법은 매우 번거롭다. 
- `select()` 함수의 경우 좀더 쉬운 방법으로 원하는 데이터가 존재하는 태그를 입력할 수 있다. 
- 위의 동일한 내용을 `select()` 함수를 이용해 크롤링해보도록 하자.

In [8]:
quote_text = quote_html.select('div.quote > span.text')

quote_text

[<span class="text" itemprop="text">“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”</span>,
 <span class="text" itemprop="text">“It is our choices, Harry, that show what we truly are, far more than our abilities.”</span>,
 <span class="text" itemprop="text">“There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”</span>,
 <span class="text" itemprop="text">“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”</span>,
 <span class="text" itemprop="text">“Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”</span>,
 <span class="text" itemprop="text">“Try not to become a man of success. Rather become a man of value.”</span>,
 <span class="text" itemprop="text">“It is better to be hated for what you are than to be loved for what you are not.

`select()` 함수 내에 찾고자 하는 태그를 입력하며, 클래스명이 존재할 경우 점(.)을 붙여준다. 또한 여러 태그를 찾아 내려가야할 경우 `>` 기호를 이용해 순서대로 입력해주면 된다. 즉 'div.quote > span.text'는 [class가 quote인 div 태그] 중에서 [class가 text인 span 태그]를 찾는다. 이제 텍스트 데이터만 추출해보도록 하자.

In [9]:
quote_text_list = [i.text for i in quote_text]

quote_text_list

['“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”',
 '“It is our choices, Harry, that show what we truly are, far more than our abilities.”',
 '“There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”',
 '“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”',
 "“Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”",
 '“Try not to become a man of success. Rather become a man of value.”',
 '“It is better to be hated for what you are than to be loved for what you are not.”',
 "“I have not failed. I've just found 10,000 ways that won't work.”",
 "“A woman is like a tea bag; you never know how strong it is until it's in hot water.”",
 '“A day without sunshine is like, you know, night.”']

`find_all()` 함수를 이용한 것 보다 훨씬 간단하게 원하는 데이터를 찾을 수 있었다.

이번에는 명언을 말한 사람 역시 크롤링해보도록 하자. 해당 데이터는 [class가 quote인 div 태그] 하단의 [span 태그], 다시 하단의 [class가 author인 small 태그]에 위치하고 있다.

In [10]:
quote_author = quote_html.select('div.quote > span > small.author')
quote_author_list = [i.text for i in quote_author]

quote_author_list

['Albert Einstein',
 'J.K. Rowling',
 'Albert Einstein',
 'Jane Austen',
 'Marilyn Monroe',
 'Albert Einstein',
 'André Gide',
 'Thomas A. Edison',
 'Eleanor Roosevelt',
 'Steve Martin']

위와 동일한 방법을 이용해 말한 사람 역시 손쉽게 추출이 가능합니다.

마지막으로 말한 사람에 대한 정보인 (about)에 해당하는 링크도 추출해보자. 해당 주소는 [class가 quote인 div 태그] 하단의 [span 태그], 다시 하단의 [a 태그의 href 속성] 중 속성값에 위치하고 있다.

In [11]:
quote_link = quote_html.select('div.quote > span > a')

quote_link

[<a href="/author/Albert-Einstein">(about)</a>,
 <a href="/author/J-K-Rowling">(about)</a>,
 <a href="/author/Albert-Einstein">(about)</a>,
 <a href="/author/Jane-Austen">(about)</a>,
 <a href="/author/Marilyn-Monroe">(about)</a>,
 <a href="/author/Albert-Einstein">(about)</a>,
 <a href="/author/Andre-Gide">(about)</a>,
 <a href="/author/Thomas-A-Edison">(about)</a>,
 <a href="/author/Eleanor-Roosevelt">(about)</a>,
 <a href="/author/Steve-Martin">(about)</a>]

이 중에서 우리는 속성값에 해당하는 정보만 필요하다. 속성값의 경우 HTML 정보 뒤에 ['속성']을 입력하면 추출할 수 있다.

In [12]:
quote_link[0]['href']

'/author/Albert-Einstein'

모든 속성값을 한 번에 추출한 후, 완전한 URL을 만들기 위해 주소 부분도 합쳐주도록 하자.

In [13]:
['https://quotes.toscrape.com' + i['href'] for i in quote_link]

['https://quotes.toscrape.com/author/Albert-Einstein',
 'https://quotes.toscrape.com/author/J-K-Rowling',
 'https://quotes.toscrape.com/author/Albert-Einstein',
 'https://quotes.toscrape.com/author/Jane-Austen',
 'https://quotes.toscrape.com/author/Marilyn-Monroe',
 'https://quotes.toscrape.com/author/Albert-Einstein',
 'https://quotes.toscrape.com/author/Andre-Gide',
 'https://quotes.toscrape.com/author/Thomas-A-Edison',
 'https://quotes.toscrape.com/author/Eleanor-Roosevelt',
 'https://quotes.toscrape.com/author/Steve-Martin']

#### 모든 페이지 데이터 크롤링하기

화면 하단의 [Next→] 부분을 클릭하면 URL이 https://quotes.toscrape.com/page/2/ 로 바뀌며 다음 페이지의 내용이 나타난다. 이처럼 웹페이지 하단에서 다음 페이지 혹은 이전 페이지로 넘어가게 해주는 것을 흔히 페이지네이션이라고 한다. 

```{figure} image/crawl_basic/pagination.png
---
name: pagination
---
페이지네이션
```

URL의 'page/' 뒤에 위치하는 숫자를 for문을 이용해 바꿔준다면, 모든 페이지의 데이터를 크롤링할 수 있다.

In [14]:
import requests as rq
from bs4 import BeautifulSoup
import time

text_list = []
author_list = []
infor_list = []

for i in range(1, 100):

    url = f'https://quotes.toscrape.com/page/{i}/'
    quote = rq.get(url)
    quote_html = BeautifulSoup(quote.content, 'html.parser')

    quote_text = quote_html.select('div.quote > span.text')
    quote_text_list = [i.text for i in quote_text]

    quote_author = quote_html.select('div.quote > span > small.author')
    quote_author_list = [i.text for i in quote_author]
    
    quote_link = quote_html.select('div.quote > span > a')
    qutoe_link_list = ['https://quotes.toscrape.com' + i['href'] for i in quote_link]

    if len(quote_text_list) > 0:

        text_list.extend(quote_text_list)
        author_list.extend(quote_author_list)        
        infor_list.extend(qutoe_link_list)        
        time.sleep(1)

    else:
        break

1. 명언과 말한 사람, 링크가 들어갈 빈 리스트(text_list, author_list, infor_list)를 만든다.
2. for문을 1부터 100까지 적용하여 URL을 생성한다.
3. HTML 정보를 받아온 후 `BeautifulSoup()` 함수를 통해 파싱한다.
4. 명언과 말한 사람, 링크에 해당하는 내용을 각각 추출한다.
5. 해당 웹페이지는 10페이지까지 데이터가 존재하며, 11페이지부터는 아무런 내용이 없다. 그러나 이러한 정보는 사전에 알 수 없기에 만약 데이터가 있는 경우 위에서 생성한 리스트에 `extend()` 함수를 사용하여 데이터를 추가하며, 그렇지 않을 경우 `break`를 통해 for문을 종료한다.
6. 한 번 루프가 돌때마다 1초간 정지를 준다.

text_list와 author_list, infor_list를 확인해보면 모든 페이지의 내용이 저장되어 있다. 이제 크롤링 한 내용을 데이터프레임 형태로 만들도록 한다.

In [15]:
import pandas as pd

pd.DataFrame({'text': text_list, 'author': author_list, 'infor': infor_list})

Unnamed: 0,text,author,infor
0,“The world as we have created it is a process ...,Albert Einstein,https://quotes.toscrape.com/author/Albert-Eins...
1,"“It is our choices, Harry, that show what we t...",J.K. Rowling,https://quotes.toscrape.com/author/J-K-Rowling
2,“There are only two ways to live your life. On...,Albert Einstein,https://quotes.toscrape.com/author/Albert-Eins...
3,"“The person, be it gentleman or lady, who has ...",Jane Austen,https://quotes.toscrape.com/author/Jane-Austen
4,"“Imperfection is beauty, madness is genius and...",Marilyn Monroe,https://quotes.toscrape.com/author/Marilyn-Monroe
...,...,...,...
95,“You never really understand a person until yo...,Harper Lee,https://quotes.toscrape.com/author/Harper-Lee
96,“You have to write the book that wants to be w...,Madeleine L'Engle,https://quotes.toscrape.com/author/Madeleine-L...
97,“Never tell the truth to people who are not wo...,Mark Twain,https://quotes.toscrape.com/author/Mark-Twain
98,"“A person's a person, no matter how small.”",Dr. Seuss,https://quotes.toscrape.com/author/Dr-Seuss


### 금융 속보 크롤링

이번에는 금융 속보의 제목을 추출해보겠다. 먼저 네이버 금융에 접속한 후 [뉴스 → 실시간 속보]를 선택하며, URL은 다음과 같다. 


https://finance.naver.com/news/news_list.nhn?mode=LSS2D&section_id=101&section_id2=258


이 중 뉴스의 제목에 해당하는 텍스트만 추출해보도록 하자. 개발자도구 화면을 통헤 제목에 해당하는 부분은 [dl 태그 → class가 articleSubject 인 dd 태그 → a 태그 중 title 속성]에 위치하고 있음을 확인할 수 있다.

![](image/crawl_basic/naver_news.png)<br>
실시간 속보의 제목 부분 HTML


In [9]:
import requests as rq
from bs4 import BeautifulSoup

url = 'https://finance.naver.com/news/news_list.nhn?mode=LSS2D&section_id=101&section_id2=258'
data = rq.get(url)
html = BeautifulSoup(data.content, 'html.parser')
html_select = html.select('dl > dd.articleSubject > a')

html_select[0:3]

[<a href="/news/news_read.naver?article_id=0005768484&amp;office_id=018&amp;mode=LSS2D&amp;type=0§ion_id=101§ion_id2=258§ion_id3=&amp;date=20240619&amp;page=1" title="[이지혜의 뷰]밸류업 훈풍 ..고개를 들어 증권주를 보라">[이지혜의 뷰]밸류업 훈풍 ..고개를 들어 증권주를 보라</a>,
 <a href="/news/news_read.naver?article_id=0005434258&amp;office_id=277&amp;mode=LSS2D&amp;type=0§ion_id=101§ion_id2=258§ion_id3=&amp;date=20240619&amp;page=1" title='"고맙다 엔비디아" TSMC, 시총 1조달러 클럽 눈앞'>"고맙다 엔비디아" TSMC, 시총 1조달러 클럽 눈앞</a>,
 <a href="/news/news_read.naver?article_id=0001167195&amp;office_id=215&amp;mode=LSS2D&amp;type=0§ion_id=101§ion_id2=258§ion_id3=&amp;date=20240619&amp;page=1" title="인도 액시스 은행, 맥스생명 지분 430만 달러 조달">인도 액시스 은행, 맥스생명 지분 430만 달러 조달</a>]

1. `get()` 함수를 이용해 페이지의 내용을 받아온다.
2. `BeautifulSoup()` 함수를 통해 HTML 정보를 BeautifulSoup 객체로 만든다.
3. `select()` 함수를 통해 원하는 태그로 접근해 들어간다. 

출력된 내용을 살펴 보면 우리가 원하는 제목은 title 속성에 위치하고 있다.

In [10]:
html_select[0]['title']

'[이지혜의 뷰]밸류업 훈풍 ..고개를 들어 증권주를 보라'

속성값에 해당하는 내용을 추출했다. 이제 for문으로 묶어 한번에 제목들을 추출하도록 하겠다.

In [11]:
[i['title'] for i in html_select]

['[이지혜의 뷰]밸류업 훈풍 ..고개를 들어 증권주를 보라',
 '"고맙다 엔비디아" TSMC, 시총 1조달러 클럽 눈앞',
 '인도 액시스 은행, 맥스생명 지분 430만 달러 조달',
 '영국 5월 물가상승률 2%…3년만에 목표치로 하락',
 '동원F&B, 온라인 사업 자회사 동원디어푸드 흡수 합병',
 '‘노예 해방 기념일’ 19일 美 뉴욕 증시 쉽니다',
 "코스피 2년5개월 만에 최고치…삼전 '8만전자' 회복",
 '“옆집 엄마가 추천할때 살걸 그랬어”…시총 1위 등극한 엔비디아 ‘파죽지세’',
 '"해외 석유기업 5곳, 동해 유전 관심"…시추비용 분산?',
 '삼기, 자회사 삼기아메리카 미국 생산공장 준공식 개최',
 '주주권한 강화 목소리 높아진다…"임원 보수도 주주가 따져야"',
 "출산하면 한번 더 '특공'…집 문제 전방위 지원 나선다",
 'MS, 애플도 제쳤다…시총 1위 오른 엔비디아',
 '경제 동반자 된 중국·사우디… ETF 상호상장 추진',
 "'외감법 위반' 우리회계법인 회계사, 직무정지 등 업무제한",
 '"당국과 대화하겠다" 최운열 신임 한공회장, 과제는',
 '[마켓인]“돈 되는건 다 판다”…우주로 향하는 보령의 ‘큰 그림’',
 '[로터리] 펀드도 상장이 되나요',
 '[기자의 눈]땜질 처방은 제2의 파두 부른다']

### 테이블 크롤링하기

우리가 크롤링하고자 하는 데이터가 테이블 형태로 제공될 경우, 위와 같이 복잡한 과정을 거칠 필요 없이 매우 간단하게 테이블에 해당하는 내용만 가져올 수 있다. 먼저 아래 사이트에는 각 국가별 GDP가 테이블 형태로 제공되고 있다.

```
https://en.wikipedia.org/wiki/List_of_countries_by_stock_market_capitalization
```

```{figure} image/crawl_basic/cap.png
---
name: cap
---
국가별 시가총액 데이터
```

해당 내역을 크롤링하는 법은 매우 간단하다.

In [12]:
import pandas as pd

url = 'https://en.wikipedia.org/wiki/List_of_countries_by_stock_market_capitalization'
tbl = pd.read_html(url)

tbl[0].head()

Unnamed: 0_level_0,Country / Territory,Total market cap,Total market cap,Number of domestic companies listed[2],Year
Unnamed: 0_level_1,Country / Territory,(in millions of US$)[3],(as a % of GDP)[4],Number of domestic companies listed[2],Year
0,United States,54000000,194.5,4642,2024
1,China,"10,776,170[5]",65.1[6],11497,2024
2,Japan,"6,285,886[7]",126.7[8],3865,2024
3,India,"5,180,000[9]",120,5376,2024
4,France,4118528,84.9,457,2024


1. URL을 입력한다.
2. pandas 패키지의 `read_html()` 함수에 URL을 입력하면, 해당 페이지에 존재하는 테이블을 가져온 후 데이터프레임 형태로 불러온다. 

이처럼 테이블 형태로 존재하는 데이터는 HTML 정보를 불러온 후 태그와 속성을 찾을필요 없이 `read_html()` 함수를 이용해 매우 손쉽게 불러올 수 있다.

### 기업공시채널에서 오늘의 공시 불러오기

한국거래소 상장공시시스템(kind.krx.co.kr)에 접속한 후 [오늘의 공시 → 전체 → 더보기]를 선택해 전체 공시내용을 확인할 수 있다.

```{figure} image/crawl_basic/kind.png
---
name: kind
---
오늘의공시 확인하기
```

해당 페이지에서 날짜를 변경한 후 [검색]을 누르면, 페이지의 내용은 해당일의 공시로 변경되지만 URL은 변경되지 않는다. 이처럼 POST 방식은 요청하는 데이터에 대한 쿼리가 body의 형태를 통해 전송되므로, 개발자도구 화면을 통해 해당 쿼리에 대한 내용을 확인해야 한다.

개발자도구 화면을 연 상태에서 조회일자를 원하는 날짜로 선택, [검색]을 클릭한 후 [Network] 탭의 todaydisclosure.do 항목에서 [Headers]탭의 [General] 부분에는 데이터를 요청하는 서버 주소가, [Payload] 탭의 [Form Data]를 통해 서버에 데이터를 요청하는 내역을 확인할 수 있다. 여러 항목 중 selDate 부분이 우리가 선택한 일자로 설정되어 있다.

```{figure} image/crawl_basic/kind_post.png
---
name: kind_post
---
POST 방식의 데이터 요청
```

POST 방식으로 쿼리를 요청하는 방법을 코드로 나타내면 다음과 같다.

In [13]:
import requests as rq
from bs4 import BeautifulSoup
import pandas as pd

url = 'https://kind.krx.co.kr/disclosure/todaydisclosure.do'
payload = {
    'method': 'searchTodayDisclosureSub',
    'currentPageSize': '15',
    'pageIndex': '1',
    'orderMode': '0',
    'orderStat': 'D',
    'forward': 'todaydisclosure_sub',
    'chose': 'S',
    'todayFlag': 'N',
    'selDate': '2022-07-27'
}

data = rq.post(url, data=payload)
html = BeautifulSoup(data.content, 'html.parser')

# print(html)


```{figure} image/crawl_basic/html.png
---
name: html
---
```

1. URL과 쿼리를 입력한다. 쿼리는 딕셔너리 형태로 입력하며, Form Data와 동일하게 입력해준다. 쿼리 중 marketType과 같이 값이 없는 항목은 입력하지 않아도 된다.
2. `POST()` 함수를 통해 해당 URL에 원하는 쿼리를 요청한다.
3. `BeautifulSoup()` 함수를 통해 파싱한다.

읽어온 데이터를 확인해보면 엑셀 데이터가 HTML 형태로 나타나있다. 따라서 이를 변형해 데이터프레임 형태로 불러오도록 한다.

In [14]:
html_unicode = html.prettify()
tbl = pd.read_html(html.prettify())

tbl[0].head()

  tbl = pd.read_html(html.prettify())


Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4
0,19:08,지나인제약,기타시장안내(상장적격성 실질심사 사유추가 안내),코스닥시장본부,
1,19:00,지나인제약,최대주주변경,지나인제약,
2,18:57,지나인제약,최대주주 변경을 수반하는 주식 담보제공 계약 체결,지나인제약,
3,18:45,디딤이앤에프,[정정] 최대주주 변경을 수반하는 주식 담보제공 계약 체결,디딤이앤에프,공시차트 주가차트
4,18:39,케이옥션,추가상장(무상증자),코스닥시장본부,공시차트 주가차트


1. `prettify()` 함수를 이용해 BeautifulSoup 에서 파싱한 파서 트리를 유니코드 형태로 다시 돌려준다.
2. `read_html()` 함수를 통해 테이블을 읽어온다.

데이터를 확인하면 화면과 동일한 내용이 들어가있다. POST 형식의 경우 쿼리 내용을 바꾸어 원하는 데이터를 받을 수 있다. 만일 다른 날짜의 공시를 확인하고자 한다면 위의 코드에서 'selDate'만 해당일로 변경해주면 된다.

# 동적 크롤링과 정규 표현식

이번 장에서는 좀 더 복잡한 형태의 데이터를 크롤링하기 위한 동적 크롤링 및 정규 표현식의 사용방법에 대해 알아보도록 하겠다.

## 동적 크롤링이란?

지난 장에서 크롤링을 통해 웹사이트의 데이터를 수집하는 방법에 대해 배웠다. 그러나 일반적인 크롤링으로는 정적 데이터, 즉 변하지 않는 데이터만을 수집할 수 있다. 한 페이지 안에서 원하는 정보가 모두 드러나는 것을 정적 데이터라 한다. 반면 입력, 클릭, 로그인 등을 통해 데이터가 바뀌는 것을 동적 데이터라 한다. 예를 들어 네이버 지도에서 매장을 검색을 한 후 좌측에서 원하는 선택할 때 마다 이에 해당하는 내용이 뜬다. 

![]( image/selenium/twosome.png)<br>
동적 페이지
```

이는 웹페이지에서 사용자가 클릭 등과 같은 조작을 하면 AJAX 호출이 발생하여 그 결과가 페이지의 일부분에만 반영되어 변경되기 때문이다. 즉 매장을 클릭하면 웹브라우저가 연결된 자바스크립트 코드를 실행하여 해당 매장의 상세 정보가 동일한 페이지에 동적으로 표시된다. {numref}`compare`은 정적 페이지와 동적 페이지의 작동 방식의 차이를 나타낸다.

```{figure} image/selenium/compare.png
---
name: compare
---
정적 페이지와 동적 페이지의 차이
```

셀레니움을 이용할 경우 정적 페이지와 동적 페이지를 모두 크롤링 할 수 있다는 강력함이 있지만, 상대적으로 속도가 느리다. 따라서 정적 페이지는 기존의 방법을 이용한 크롤링을, 동적 페이지는 셀레니움을 이용한 크롤링을 하는 것이 일반적이다.

```{table} 정적 크롤링과 동적 크롤링 비교
:name: crawl_compare
| 구분 | 정적 크롤링 | 동적 크롤링 |
| --- | --- | --- |
|사용 패키지	|requests |	selenium |
|수집 커버리지 |정적 페이지 | 정적/동적 페이지 |
| 수집 속도 | 빠름 (별도 페이지 조작 필요 X) | 상대적으로 느림 |
| 파싱 패키지 | beautifulsoup | beautifulsoup / selenium |
```

셀레니움이란 다양한 브라우저(인터넷 익스플로러, 크롬, 사파리 오페라 등) 및 플랫폼에서 웹 응용 프로그램을 테스트할 수 있게 해주는 라이브러리다. 즉 웹 자동화 테스트 용도로 개발이 되었기에 실제 브라우저를 사용하며, 페이지가 변화하는 것도 관찰이 가능하기에 동적 크롤링에 사용할 수 있다.

### 셀레니움 실습하기

이제 간단한 예제를 통해 셀레니움 사용법을 알아보도록 하자.

In [1]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time
from bs4 import BeautifulSoup

driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))

```{figure} image/selenium/selenium_open.png
---
name: selenium_open
---
셀레니움: 창 열기
```

`webdriver.Chrome(service=Service(ChromeDriverManager().install()))` 코드를 실행하면 크롬 브라우저의 버전을 탐색한 다음, 버전에 맞는 웹드라이버를 다운로드하여 해당 경로를 셀레니움에 전달해준다. 또한 {numref}`selenium_open`와 같이 크롬 창이 열리며, 좌측 상단에 'Chrome이 자동화된 테스트 소프트웨어에 의해 제어되고 있습니다.'라는 문구가 뜬다. 이제 파이썬 코드를 이용해 해당 페이지를 조작할 수 있다. 

In [2]:
url = 'https://www.naver.com/'
driver.get(url)
driver.page_source[1:1000]

'html lang="ko" class="fzoom" data-dark="false"><head><script async="" src="https://ntm.pstatic.net/ex/nlog.js"></script><script async="" src="https://ntm.pstatic.net/scripts/ntm_27291e35193e.js"></script><script async="" type="text/javascript" src="https://ssl.pstatic.net/tveta/libs/ndpsdk/prod/ndp-core.js"></script> <meta charset="utf-8"> <meta name="Referrer" content="origin"> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=1190"> <title>NAVER</title> <meta name="apple-mobile-web-app-title" content="NAVER"> <meta name="robots" content="index,nofollow"> <meta name="description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"> <meta property="og:title" content="네이버"> <meta property="og:url" content="https://www.naver.com/"> <meta property="og:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta property="og:description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"> <meta name="twitter:card" content="


```{figure} image/selenium/selenium_naver.png
---
name: selenium_naver
---
셀레니움을 이용한 네이버 접속
```

`driver.get()` 내에 URL 주소를 입력하면 해당 주소로 이동한다. 또한 `driver.page_source`를 통해 열려있는 창의 HTML 코드를 확인할 수도 있다. 이제 네이버 메인에서 [뉴스]버튼을 누르는 동작을 실행해보자. 개발자도구 화면을 통해 확인해보면 [뉴스] 탭은 아래 HTML에 위치하고 있다.

```
<a href="https://news.naver.com/" class="link_service" target="_blank"><span class="service_icon type_news"></span><span class="service_name">뉴스</span></a>
```

위 정보를 통해 해당 부분을 클릭해보도록 하자.

```{figure} image/selenium/selenium_news.png
---
name: selenium_news
---
뉴스 탭의 HTML 확인
```

In [3]:
driver.find_element(By.LINK_TEXT , value = '뉴스').click()

```{figure} image/selenium/selenium_news2.png
---
name: selenium_news2
---
뉴스 탭으로 이동
```

새로운 탭이 열리면서 뉴스 화면이 열린다. 브라우저 상에서 보이는 버튼, 검색창, 사진, 테이블, 동영상 등을 엘레먼트(element, 요소)라고 한다. `find_element()`는 다양한 방법으로 엘레먼트에 접근하게 해주며, `By.*` 를 통해 어떠한 방법으로 엘레먼트에 접근할지 선언한다. LINK_TEXT의 경우 링크가 달려 있는 텍스트로 접근하며, `value = '뉴스'`, 즉 뉴스라는 단어가 있는 엘레먼트로 접근한다. `click()` 함수는 마우스 클릭을 실행하며 결과 적으로 뉴스 탭을 클릭한 후 페이지가 이동되는 것을 확인할 수 있다. `find_element()` 내 접근방법 및 셀레니움의 각종 동작 제어 방법에 대해서는 나중에 다시 정리하도록 한다.

이제 해당 탭을 닫아보자.

In [4]:
driver.switch_to.window(driver.window_handles[1])
driver.close()

`switch_to.window()` 메서드는 인자로 전달된 창의 핸들로 드라이버의 컨트롤을 전환한다. 즉 `driver.window_handles[1]`를 통해 현재 열린 두번째 창으로 포커스를 이동한다. 이 후 `close()`를 통해 해당 페이지를 닫는다.

이제 특정 검색어를 검색하는 방법에 대해 알아보자. 먼저 검색창의 위치가 어디에 있는지 확인해보면 query라는 id와 search_input라는 class에 위치하고 있다.

```{figure} image/selenium/selenium_search.png
---
name: selenium_search
---
검색 창 위치 확인하기
```

In [5]:
driver.switch_to.window(driver.window_handles[0])
driver.find_element(By.CLASS_NAME, value = 'search_input').send_keys('퀀트 투자 포트폴리오 만들기')

```{figure} image/selenium/selenium_send_keys.png
---
name: selenium_send_keys
---
검색어 입력하기
```

먼저 `driver.switch_to.window(driver.window_handles[0])`를 통해 현재 탭으로 다시 포커스를 이동한다.

`find_element()` 내에 By.CLASS_NAME을 입력하면 클래스 명에 해당하는 엘레먼트에 접근하며, 여기서는 검색창에 접근한다. 그 후 `send_keys()` 내에 텍스트를 입력하면 해당 내용이 웹페이지에 입력된다. 이제 웹페이지에서 검색 버튼 해당하는 돋보기 모양을 클릭하거나 엔터키를 누르면 검색이 실행된다. 먼저 돋보기 모양의 위치를 확인해보면 btn_search 클래스에 위치하고 있다.

```{figure} image/selenium/selenium_searchbutton.png
---
name: selenium_searchbutton
---
검색 버튼의 위치 확인
```

In [6]:
driver.find_element(By.CLASS_NAME, value = 'btn_search').send_keys(Keys.ENTER)

```{figure} image/selenium/selenium_enter.png
---
name: selenium_enter
---
엔터키 제어하기
```

`find_element(By.CLASS_NAME, value = 'btn_search')`를 통해 검색 버튼에 접근한다. 그 후 `send_keys(Keys.ENTER)`를 입력하면 엔터키를 누르는 동작이 실행된다. 페이지를 확인해보면 검색이 실행된 후 결과를 확인할 수 있다. 

이번에는 다른 단어를 검색해보도록 하자. 웹에서 기존 검색어 내용을 지운 후, 검색어를 입력하고, 버튼을 클릭해야 한다. 이를 위해 검색어 박스와 검색 버튼의 위치를 찾아보면 다음과 같다.

- 검색어 박스: nx_query id
- 검색 버튼: bt_search 클래스

```{figure} image/selenium/selenium_research.png
---
name: selenium_research
---
검색어 박스와 검색 버튼의 위치 확인
```

In [7]:
driver.find_element(By.ID, value = 'nx_query').clear()
driver.find_element(By.ID, value = 'nx_query').send_keys('이현열 퀀트')
driver.find_element(By.CLASS_NAME, value = 'bt_search').click()

```{figure} image/selenium/selenium_research2.png
---
name: selenium_research2
---
새로운 단어 검색하기
```

1. 검색어 박스(nx_query)에 접근한 후, `clear()`를 실행하면 모든 텍스트가 지워진다.
2. `send_keys('이현열 퀀트')`를 실행하여 새로운 검색어를 입력한다.
3. 검색 버튼(bt_search)에 접근한 후, `click()`을 실행하여 해당 버튼을 클릭한다.

이번에는 블로그에서 [최신순] 버튼을 클릭하는 동작을 실행해보도록 한다. 기존처럼 링크나 클래스명을 통해 엘레먼트에 접근할 수도 있지만, 이번에는 XPATH를 이용해 접근해보도록 하자. XPATH란 XML 중 특정 값의 태그나 속성을 찾기 쉽게 만든 주소다. 예를 들어 윈도우 탐색기에서는 특정 폴더의 위치가 '**C:\Program Files**'과 같이 주소처럼 보이며 이는 윈도우의 PATH 문법이다. XML 역시 이와 동일한 개념의 XPATH가 있다. 웹페이지에서 XPATH를 찾는 법은 다음과 같다.

1. 개발자도구 화면에서 위치를 찾고 싶은 부분에서 마우스 우클릭을 한다.
2. [Copy → Copy Xpath]를 선택한다.

```{figure} image/selenium/selenium_xpath.png
---
name: selenium_xpath
---
XPATH 찾기 및 복사하기
```

위 과정을 통해 XPATH가 복사된다. 메모장을 확인해보면 [최신순] 부분의 XPATH는 다음과 같다.

```
//*[@id="snb"]/div[2]/ul/li[1]/div/div/a[2]
```

이를 이용해 해당 부분을 클릭하는 동작을 실행해보자. 실행 순서는 [블로그 클릭 → 옵션 클릭 → 최신순 클릭] 순이다.

In [8]:
driver.find_element(By.XPATH, value = '//*[@id="lnb"]/div[1]/div/div[1]/div/div[1]/div[1]/a').click()
driver.find_element(By.XPATH, value = '//*[@id="snb"]/div[1]/div/div[2]/a').click()
driver.find_element(By.XPATH, value = '//*[@id="snb"]/div[2]/ul/li[1]/div/div/a[2]').click()

```{figure} image/selenium/selenium_new.png
---
name: selenium_new
---
최신순 정렬
```

위의 순서대로 클릭하는 동작을 수행하여 검색어가 최신순으로 정렬되었다. 이제 page down 기능을 수행해보도록 하자.

In [9]:
driver.execute_script('window.scrollTo(0, document.body.scrollHeight);')
# driver.find_element(By.TAG_NAME, value = 'body').send_keys(Keys.PAGE_DOWN)

먼저 `document.body.scrollHeight`는 웹페이지의 높이를 나타내는 것으로써, `window.scrollTo(0, document.body.scrollHeight);`는 웹페이지의 가장 하단까지 스크롤을 내리라는 자바스크립트 명령어다. `driver.execute_script()`를 통해 해당 명령어를 실행하면 웹페이지가 아래로 스크롤이 이동된다. `send_keys(Keys.PAGE_DOWN)` 는 키보드의 페이지다운(PgDn) 버튼을 누르는 동작이며 이 역시 페이지가 아래로 이동시킨다.

그러나 결과를 살펴보면 스크롤이 끝까지 내려간 후 얼마간의 로딩이 있은 후에 새로운 데이터가 생성된다. 이처럼 유튜브나 인스타그램, 페이스북 등 많은 검색결과를 보여줘야 하는 경우 웹페이지 상에서 한 번에 모든 데이터를 보여주기 보다는 스크롤을 가장 아래로 위치하면 로딩을 거쳐 추가적인 결과를 보여준다. 따라서 스크롤을 한 번만 내리는 것이 아닌 모든 결과가 나올 때까지 내리는 동작을 실행해야 한다.

In [10]:
prev_height = driver.execute_script('return document.body.scrollHeight')

while True:
    driver.execute_script('window.scrollTo(0, document.body.scrollHeight);')
    time.sleep(2)
    
    curr_height = driver.execute_script('return document.body.scrollHeight')
    if curr_height == prev_height:
        break
    prev_height = curr_height

1. `return document.body.scrollHeight`은 현재의 창 높이는 반환하는 자바스크립트 명령어이며, 이를 prev_height에 저장한다.
2. while문을 통해 반복문을 실행한다.
3. 셀레니움을 통해 페이지의 최하단으로 스크롤을 내린다.
4. 페이지가 로딩되는 시간을 기다리기 위해 2초간 슬립을 준다.
5. curr_height에 현재 창 높이를 저장한다.
6. curr_height와 prev_height가 동일하다는 의미는 페이지가 끝까지 내려왔다는 의미이다. 따라서 이 경우 `break`를 통해 while문을 멈추며, 그렇지 않을 경우 다시 스크롤을 내리는 동작을 반복한다.
7. prev_height에 새로운 창 높이를 입력한다.

이제 모든 검색 결과가 나타났으면 이전 장에서 살펴보았던 정적 크롤링을 통해 데이터 수집이 가능하다. 제목 부분을 확인해보면 **title_link** 클래스에 위치하고 있으며, 이를 통해 모든 제목을 크롤링해보자.

In [11]:
html = BeautifulSoup(driver.page_source, 'lxml')
txt = html.find_all(class_ = 'title_link')
txt_list = [i.get_text() for i in txt]

txt_list[0:10]

['월가의 퀀트투자 바이블, 스마트 베타',
 '신진오님의 시선으로 본 투자의 세계해석(벤저민 그레이엄 현명한 투자자 해석) - 현명한 투자자2 해제(신진오)',
 '2019-1학기 금융공학회 기록',
 '2023년 12월 주식 투자 결산',
 '[독서기록 #34] 헤지펀드 열전 『금융시장에서 돈을 벌고 싶은데, 방법을 모르는 사람들은 꼭 읽어봐야... ',
 '[책] 파이썬을 이용한 퀀트 투자 포트폴리오 만들기 (이현열)',
 '[이런저런 공부] 포트폴리오 최적화의 예',
 '20231122 멱(冪)파레토 독서법',
 '[책] R을 이용한 퀀트 투자 포트폴리오 만들기 (이현열)',
 '에드워드 소프의 생애에 관한 영상']

1. `driver.page_source`를 통해 현재 웹페이지의 HTML 정보를 가져올 수 있으며, 이를 BeautifulSoup 객체로 만들어준다.
2. `find_all()` 함수를 통해 제목 부분에 위치하는 데이터를 모두 불러온다.
3. for문을 통해 텍스트만 추출한다.

이처럼 동적 페이지의 경우도 셀레니움을 통해 웹페이지를 제어한 후 `BeautifulSoup` 패키지를 사용해 원하는 부분을 추출하면 얼마든지 크롤링이 가능하다.

In [12]:
driver.quit()

`driver.quit()`을 실행하면 열려있던 페이지가 종료된다.

### 셀레니움 명령어 정리

마지막으로 셀레니움의 각종 명령어는 다음과 같다.

#### 브라우저 관련

- `webdriver.Chrome()`: 브라우저 열기
- `driver.close()`: 현재 탭 닫기
- `driver.quit()`: 브라우저 닫기
- `driver.back()`: 뒤로 가기
- `driver.forward()`: 앞으로 가기

#### 엘레먼트 접근

`driver.find_element(by = 'id', value = 'value')` 중 by = 'id' 부분에 해당하는 방법에 따라 엘레먼트에 접근한다. 또한 `find_element()`는 해당하는 엘레먼트가 여러 개 있을 경우 첫 번째 요소 하나만을 반환하며, `find_elements()`는 여러 엘레먼트가 있을 경우 리스트로 반환한다.

- `By.ID`: 태그의 ID 값으로 추출
- `By.NAME`: 태그의 NAME 값으로 추출
- `By.XPATH`: 태그의 XPATH 값으로 추출
- `By.LINK_TEXT`: 링크에 존재하는 텍스트로 추출
- `By.TAG_NAME`: 태그명으로 추출
- `By.CLASS_NAME`: 태그의 클래스명으로 추출
- `By.CSS_SELECTOR`: CSS 선택자로 추출

#### 동작

엘레먼트에 접근한 후 각종 동작을 수행할 수 있다.

- `click()`: 엘레먼트를 클릭
- `clear()`: 텍스트 삭제
- `send_keys(text)`: 텍스트 입력
- `send_keys(Keys.CONTROL + 'v')`: 컨트롤 + v 누르기

#### 자바스크립트 코드 실행

`execute_script()` 내에 자바스크립트 코드를 입력하여 여러가지 동작을 수행할 수 있다.

```{note}
파이썬 내 셀레니움은 아래 페이지에 상세하게 설명되어 있다.

https://selenium-python.readthedocs.io/
```

## 정규 표현식

정규 표현식(정규식)이란 프로그래밍에서 문자열을 다룰 때 문자열의 일정한 패턴을 표현하는 일종의 형식 언어를 말하며, 영어로는 regular expression를 줄여 일반적으로 regex라 표현한다. 정규 표현식은 파이썬만의 고유 문법이 아니라 문자열을 처리하는 모든 프로그래밍에서 사용되는 공통 문법이기에 한 번 알아두면 파이썬 뿐만 아니라 다른 언어에서도 쉽게 적용할 수 있다. 본 책의 내용은 아래 페이지의 내용을 참고하여 작성되었다.

```
https://docs.python.org/3.10/howto/regex.html
```

### 정규 표현식을 알아야 하는 이유

만약 우리가 크롤링한 결과물이 다음과 같다고 하자.

```
"동 기업의 매출액은 전년 대비 29.2% 늘어났습니다."
```

만일 이 중에서 [29.2%]에 해당하는 데이터만 추출하려면 어떻게 해야 할까? 얼핏 보기에도 꽤나 복잡한 방법을 통해 클렌징을 해야 한다. 그러나 정규 표현식을 이용할 경우 이는 매우 간단한 작업이다.

In [13]:
import re

data = '동 기업의 매출액은 전년 대비 29.2% 늘어났습니다.'
re.findall('\d+.\d+%', data)

['29.2%']

'\d+.\d+%'라는 표현식은 '숫자.숫자%'의 형태를 나타내는 정규 표현식이며, re 모듈의 `findall()` 함수를 통해 텍스트에서 해당 표현식의 글자를 추출할 수 있다. 이제 정규 표현식의 종류에는 어떠한 것들이 있는지 알아보도록 하자.

### 메타문자

프로그래밍에서 메타 문자(Meta Characters)란 문자가 가진 원래의 의미가 아닌 특별한 용도로 사용되는 문자를 말한다. 정규 표현식에서 사용되는 메타 문자는 다음과 같다.

```
. ^ $ * + ? { } [ ] \ | ( )
```

정규 표현식에 메타 문자를 사용하면 특별한 기능을 갖는다.

#### 문자 클래스([ ])

정규 표현식에서 대괄호([ ])는 **대괄호 안에 포함된 문자들 중 하나와 매치**를 뜻한다. 예를 들어 'apple', 'blueberry', 'coconut'이 정규표현식이 [ae]와 어떻게 매치되는지 살펴보자.

- 'apple'에는 정규표현식 내의 a와 e가 모두 존재하므로 매치된다.
- 'blueberry'에는 e가 존재하므로 매치된다.
- 'coconut'에는 a와 e 중 어느 문자도 포함하고 있지 않으므로 매치되지 않는다.

만일 [ ] 안의 두 문자 사이에 하이픈(-)을 입력하면 두 문자 사이의 범위를 의미한다. 즉 [a-e]라는 정규 표현식은 [abcde]와 동일하며, [0-5]는 [012345]와 동일하다. 흔히 [a-z]는 알파벳 소문자를, [A-Z]는 알파벳 대문자를, [a-zA-Z]는 모든 알파벳을, [0-9]는 모든 숫자를 뜻한다. 또한 [ ]안의 ^는 반대를 뜻한다. 즉 [^0-9]는 숫자를 제외한 문자만 매치를, [^abc]는 a,b,c를 제외한 모든 문자와 매치를 뜻한다.

자주 사용하는 문자 클래스의 경우 별도의 표기법이 존재하여 훨씬 간단하게 표현할 수 있다.

```{table} 자주 사용하는 문자 클래스
:name: character_class
| 문자 클래스 | 설명 |
| --- | --- |
| \d | 숫자와 매치, [0-9]와 동일한 표현식 |
| \D | 숫자가 아닌 것 매치, [^0-9]와 동일한 표현식 |
| \s | whitespace(공백) 문자와 매치, [ \t\n\r\f\v]와 동일한 표현식 |
| \S | whitespace 문자가 아닌 것과 매치, [^\t\n\r\f\v]와 동일한 표현식 |
| \w | 문자+숫자(alphanumeric)와 매치, [a-zA-Z0-9]와 동일한 표현식 |
| \W | 문자+숫자(alphanumeric)가 아닌 문자와 매치, [^a-zA-Z0-9]와 동일한 표현식 |
```

{numref}`character_class`에서 알 수 있듯이 대문자로 표현된 문자 클래스는 소문자로 표현된 것의 반대를 의미한다.

#### 모든 문자(.)

Dot(.) 메타 문자는 줄바꿈 문자인 \n을 제외한 모든 문자와 매치되며, Dot 하나당 임의의 한 문자를 나타낸다. 정규 표현식 `a.e`는 'a+모든문자+e'의 형태다. 즉 a와 e 문자 사이에는 어떤 문자가 들어가도 모두 매치가 된다. 'abe', 'ace', 'abate', 'ae'의 경우 정규식 `a.e`와 어떻게 매치되는지 살펴보자.

- 'abe': a와 e 사이에 b라는 문자가 있으므로 정규식과 매치된다.
- 'ace': a와 e 사이에 c라는 문자가 있으므로 정규식과 매치된다.
- 'abate': a와 e 사이에 문자가 하나가 아닌 여러개가 있으므로 매치되지 않는다.
- 'ae': a와 e 사이에 문자가 없으므로 매치되지 않는다.

만일 정규식이 a[.]c의 형태일 경우는 'a.c'를 의미한다. 즉 a와 c사이의 dot(.)은 모든 문자를 의미하는 것이 아닌 문자 그대로인 .를 의미한다.

#### 반복문

정규 표현식에는 반복을 의미하는 여러 메타문자가 존재한다. 먼저 `*`의 경우 `*` 바로 앞에 있는 문자가 0부터 무한대로 반복될 수 있다는 의미다.  `ca*t` 이라는 정규식은 c 다음의 a가 0부터 무한대로 반복되고 t로 끝이난다는 의미로, 'ct', 'cat', 'caat', 'caaaat' 모두 정규식과 매치된다.

반면 메타문자 `+`는 최소 1번 이상 반복될 때 사용된다. `ca+t` 라는 정규식은 c 다음의 a가 1번 이상 반복된 후 t로 끝남을 의미하며, 위 예제에서 ct는 a가 없으므로 매치되지 않는다.

메타문자 `{ }`를 사용하면 반복 횟수를 고정할 수 있다. 즉 {m, n}은 반복 횟수가 m부터 n까지 고정된다. m 혹은 n은 생략할 수도 있으며, {3, }의 경우 반복 횟수가 3 이상, {, 3}의 경우 반복 횟수가 3 이하를 의미한다. 

메타문자 `?`는 {0, 1}과 동일하다. 즉 `?` 앞의 문자가 있어도 되고 없어도 된다는 의미다.

#### 기타 메타문자

이 외에도 정규 표현식에는 다양한 메타문자가 존재한다.

- `|`: or과 동일한 의미다. 즉 `expr1 | expr2`라는 정규식은 expr1 혹은 expr2 라는 의미로써, 둘 중 하나의 형태만 만족해도 매치가 된다.
- `^`: 문자열의 맨 처음과 일치함을 의미한다. 즉 `^a` 정규식은 a로 시작하는 단어와 매치가 된다.
- `$`: `^`와 반대의 의미로써, 문자열의 끝과 매치함을 의미한다. 즉, `a$`는 a로 끝나는 단어와 매치가 된다.
- `\`: 메타문자의 성질을 없앨때 붙인다. 즉 `^`이나 `$` 문자를 메타문자가 아닌 문자 그 자체로 매치하고 싶은 경우 `\^`, `\$`의 형태로 사용한다.
- `()`: 괄호안의 문자열을 하나로 묶어 취급한다.

### 정규식을 이용한 문자열 검색

대략적인 정규 표현식을 익혔다면, 실제 예제를 통해 문자열을 검색하는 법을 알아보자. 파이썬에서는 re(regular expression) 모듈을 통해 정규 표현식을 사용할 수 있다. 정규 표현식과 관련된 메서드는 다음과 같다.

- `match()`: 시작부분부터 일치하는 패턴을 찾는다.
- `search()`: 첫 번째 일치하는 패턴을 찾는다.
- `findall()`: 일치하는 모든 패턴을 찾는다.
- `finditer()`: `findall()`과 동일하지만 그 결과로 반복 가능한 객체를 반환한다.

간단한 실습을 해보도록 하자.

#### `match()`

In [14]:
import re

p = re.compile('[a-z]+')
type(p)

re.Pattern

파이썬에서는 re 모듈을 통해 정규 표현식을 사용할 수 있으며, `re.compile()`을 통해 정규 표현식을 컴파일하여 변수에 저장한 후 사용할 수 있다. `[a-z]+`는 알파벳 소문자가 1부터 여러개까지를 의미하는 표현식이다.

In [15]:
m = p.match('python')
print(m)

<re.Match object; span=(0, 6), match='python'>


`match()` 함수를 통해 처음부터 정규 표현식과 일치하는 패턴을 찾을 수 있다. python이라는 단어는 알파벳이 여러개가 있는 경우이므로 match 객체를 반환한다.

In [16]:
m.group()

'python'

match 객체 뒤에 `group()`을 입력하면 매치된 텍스트만 출력할 수 있다.

In [17]:
m = p.match('Use python')
print(m)

None


'Use python 이라는 문자열은 맨 처음의 문자 'U'가 대문자로써, 소문자를 의미하는 정규 표현식 `[a-z]+`와는 매치되지 않아 None을 반환한다.

In [18]:
m = p.match('PYTHON')
print(m)

None


PYTHON이라는 단어는 대문자이므로 이 역시`[a-z]+`와는 매치되지 않는다. 이 경우 대문자에 해당하는 `[A-Z]+` 표현식을 사용해야 매치가 된다.

In [19]:
p = re.compile('[가-힣]+')
m = p.match('파이썬')
print(m)

<re.Match object; span=(0, 3), match='파이썬'>


한글의 경우 알파벳이 아니므로 모든 한글을 뜻하는 `[가-힣]+` 표현식을 사용하면 매치가 된다.

#### `search()`

`search()` 함수는 첫 번째 일치하는 패턴을 찾는다.

In [20]:
p = re.compile('[a-z]+')
m = p.search('python')
print(m)

<re.Match object; span=(0, 6), match='python'>


'python'이라는 문자에 search 메서드를 수행하면 match 메서드를 수행한 것과 결과가 동일하다.

In [21]:
m = p.search('Use python')
print(m)

<re.Match object; span=(1, 3), match='se'>


'Use python' 문자의 경우 첫번째 문자인 'U'는 대문자라 매치가 되지 않지만, 그 이후의 문자열 'se'는 소문자로 구성되어 있기에 매치가 된다. 이처럼 `search()`는 문자열의 처음부터 검색하는 것이 아니라 문자열 전체를 검색하며, 첫 번째로 일치하는 패턴을 찾기에 띄어쓰기 이후의 'python'은 매치되지 않는다.

#### `findall()`

`findall()`은 하나가 아닌 일치하는 모든 패턴을 찾는다.

In [22]:
p = re.compile('[a-zA-Z]+')
m = p.findall('Life is too short, You need Python.')
print(m)

['Life', 'is', 'too', 'short', 'You', 'need', 'Python']


이번에는 대소문자 모든 알파벳을 뜻하는 `[a-zA-Z]+` 표현식을 입력하였다. 그 후 'Life is too short, You need Python.'라는 문자에 `finall()` 메서드를 적용하면 정규 표현식과 매치되는 모든 단어를 리스트 형태도 반환한다.

#### finditer()

마지막으로 `findall()`과 비슷한 `finditer()` 함수의 결과를 살펴보자.

In [23]:
p = re.compile('[a-zA-Z]+')
m = p.finditer('Life is too short, You need Python.')
print(m)

<callable_iterator object at 0x000001C26ED74BB0>


결과를 살펴보면 반복 가능한 객체(iterator object)를 반환한다. 이는 for문을 통해 출력할 수 있다.

In [24]:
for i in m:
    print(i)

<re.Match object; span=(0, 4), match='Life'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>
<re.Match object; span=(19, 22), match='You'>
<re.Match object; span=(23, 27), match='need'>
<re.Match object; span=(28, 34), match='Python'>


### 정규 표현식 연습해보기

위에서 배운 것들을 토대로 실제 크롤링 결과물 중 정규 표현식을 사용해 원하는 부분만 찾는 연습을 해보도록 하자.

In [25]:
num = """r\n\t\t\t\t\t\t\t\r\n\t\t\t\t\t\t\t\t15\r\n\t\t\t\t\t\t\t\t23\r\n\t\t\t\t\t\t\t\t29\r\n\t\t\t\t\t\t\t\t34\r\n\t\t\t\t\t\t\t\t40\r\n\t\t\t\t\t\t\t\t44\r\n\t\t\t\t\t\t\t\r\n\t\t\t\t\t\t"""

위의 HTML 결과물에서 숫자에 해당하는 부분만 추츨해보도록 하자.

In [26]:
import re

p = re.compile('[0-9]+')
m = p.findall(num)
print(m)

['15', '23', '29', '34', '40', '44']


\n, \t와 같은 문자를 없애는 방법으로 클렌징을 할 수도 있지만, 숫자를 의미하는 '[0-9]+' 정규 표현식을 사용하면 훨씬 간단하게 추출할 수 있다.

In [27]:
dt = '> 오늘의 날짜는 2022.12.31 입니다.'

이번에는 위의 문장에서 날짜에 해당하는 '2022.12.31' 혹은 '20221231' 만 추출해보도록 하자.

In [28]:
p = re.compile('[0-9]+.[0-9]+.[0-9]+')
p.findall(dt)

['2022.12.31']

정규 표현식 '[0-9]+.[0-9]+.[0-9]+'은 [숫자.숫자.숫자] 형태를 의미하며, 이를 통해 '2022.12.31'을 추출한다.

In [29]:
p = re.compile('[0-9]+')
m = p.findall(dt)
print(m)

['2022', '12', '31']


정규 표현식에 `[0-9]+`을 입력할 경우 숫자가 개별로 추출되므로, 추가적인 작업을 통해 '20221231' 형태로 만들어주면 된다.

In [30]:
''.join(m)

'20221231'

`join()` 함수는 `'구분자'.join(리스트)` 형태이므로, 구분자에 ''를 입력하면 리스트 내의 모든 문자를 공백없이 합쳐서 반환한다.

```{note}
아래의 웹사이트에서 정규 표현식을 연습하고 테스트할 수 있다. 크롤링 후 내가 선택하고자 하는 문자를 한 번에 정규 표현식을 이용해 추출하는 것은 초보자 단계에서는 쉬운일이 아니므로, 아래 웹사이트에서 텍스트를 입력하고 이를 추출하는 정규 표현식을 알아낸 후, 이를 파이썬에 적용하는 것이 훨씬 효율성이 높다.

- https://regexr.com
- https://regex101.com
```

In [1]:
# 주피터 노트북 파일의 병합
# 1. 먼저 병합 하려는 노트북 파일과 첨부 프로그램을 다운받아
#    별도의 폴더를 만들어 한 곳에 모읍니다. 
#    파일이름 순으로 병합되므로 파일 이름을 잘 조정해 놓습니다.원본 파일은 변경되지 않습니다.
# 2. 프로그램을 run하면 병합 파일이 생성됩니다. 병합된 결과 파일명은 "merged.ipynb" 입니다.

import json
import os

def get_files():
    # 병합할 노트북 파일의 list 만들기
    notebooks_to_merge = [file.name for file in os.scandir() if file.name.endswith('.ipynb') and file.is_file()]

    # 병합하는 노트북 파일을 정렬한다. 순서대로 병합하는 것으로 간주
    notebooks_to_merge.sort()

    print("다음 노트북이 병합됩니다.")
    for notebook in notebooks_to_merge:
        print(notebook)
    
    return notebooks_to_merge

def merge_notebooks(notebooks, merged_notebook):
    
    '''
    parameters:
    notebooks : 병합할 주피터노트북 파일들 이름
    merged_notebook : 병합된 결과물 파일
    returns : 없음
    '''
    with open (notebooks[0], mode = 'r', encoding = 'utf-8') as f:
        base = json.load(f)
    
    for notebook in notebooks[1:]:
        with open (notebook, mode = 'r', encoding = 'utf-8') as f:
            add = json.load(f)
            base['cells'].extend (add['cells']) 
     
    with open(merged_notebook, mode='w', encoding='utf-8') as f:
        json.dump(base, f)
    
    print(f'병합된 파일: {merged_notebook}')
    
notebooks_to_merge = get_files()
nfile = os.getcwd().split('\\')[-1]
merge_notebooks(notebooks_to_merge, f"{nfile}.ipynb")

다음 노트북이 병합됩니다.
01_tsa_and_stationarity.ipynb
02_arima_models.ipynb
03_arch_garch_models.ipynb
04_vector_autoregressive_model.ipynb
05_cointegration_tests.ipynb
06_statistical_arbitrage_with_cointegrated_pairs.ipynb
07_pairs_trading_backtest.ipynb
Untitled.ipynb
병합된 파일: 09_time_series_models.ipynb
