# Chapter 9. 웹과 웹크롤링



:::{admonition} 학습목표와 기대효과 
:class: info  
- 학습목표
    - 웹페이지의 구성과 동작을 이해해본다.
    - 웹크롤링(web crawling)과 웹스크래핑(web scraping)의 개념을 알아보자.
    - urlopen() 함수로 웹크롤링을 해보자.
    - BeautifulSoup() 함수로 웹스크랩핑을 해보자.
- 기대효과
  - 웹페이지가 어떠한 방법으로 만들어지고 동작되는지 이해할 수 있다.
  - 웹에서 데이터를 수집할 수 있다.
:::

## 웹(www)과 HTML
웹주소를 보면 보통 시작이 www이다. www는 world wide web의 약자로 web이 거미줄이라는 뜻을 가지고 있어서 전 세계로 퍼진 거미줄로 직역할 수 있다. 
웹에서 보여지는 페이지(문서)를 웹페이지라고 하며, 웹페이지를 만드는데 사용되는 언어중 하나가 바로 HTML이다.


- `HTML`은 Hypertext Markup Language의 약자로, 웹페이지가 어떻게 구조화되어 있는지 웹브라우저(크롬, 익스플로러, 엣지, 사파리 등)가 인식하도록 하는 마크업 언어이다. 

:::{admonition} 마크업(Markup)? 마크다운(Markdown)? 
:class: tip  
- 마크업 언어(Markup Language)란 `태그` 등을 이용하여 문서가 화면에 표시되는 형식을 나타내거나 데이터의 논리적인 구조를 명시하기 위한 규칙들을 정의한 언어의 일종이다. 데이터를 기술한 언어라는 점에서 프로그래밍 언어와는 차이가 있다.

- 마크다운 언어(Markdown Language)는 마크업 언어의 일종으로 마크업이 복잡한 태그로 구성되어 있어서 사용하기 힘들어서 만들어진 마크업의 파생형언어이다. 읽기도 쓰기도 쉬운 문서 양식을 지향하므로 복잡한 태그 구조가 사라지고 간단한 텍스트들과 몇 가지 문법만 알면 작성할 수 있다.
:::


### 태그(tag)
- `HTML로 작성된 페이지는 다양한 태그로 구성`되어 있다. 
- 태그(tag)는 웹 상의 다른 페이지로 이동하게 하는 하이퍼링크를 생성하거나, 단어를 강조하는 등의 다양한 역할을 한다.
- 태그에는 여는(opening) 태그와 닫는(closing) 태그가 있다.
- 여는 태그와 닫는 태그 사이에는 내용(content)이 들어간다.
```
<여는 태그> 내용 </닫는 태그>
```
- 예를 들어, 아래에서 여는 태그는 `<p>`, 닫는 태그는 `</p>`, 내용은 `아름다운 날이에요.`가 된다.
```
<p>아름다운 날이에요.</p> 
```
- 여는 태그, 닫는 태그, 내용을 통틀어 요소(element)라고 한다.

- 아래 매우 간단한 HTML문서를 살펴보자.

```
<!DOCTYPE html > 
<html>
  <head> 
    <title> This is my page </title>
  </head> 
  <body>
    <p>아름다운 날이에요.</p> 
  </body>
</html >
```

- 이 HTML문서를 웹브라우저에서 열면 HTML 코드가 9줄로 구성되었던 것과는 달리 아래와 같이 `아름다운 날이에요.` 한 줄만 보여진다.

<div align="center"><img src="https://haesunbyun.github.io/common/images/html1.png" style="width:600px;"></div>

- HTML문서안에 들어있는 태그를 하나 하나 파헤쳐보자. 
- HTML 문서는 `<!DOCTYPE html>` 태그로 시작한다. 이 태그는 문서의 타입을 정의하는 태그로 이 페이지가 html로 구성된 문서임을 웹브라우저가 알게 한다. 
- 그 이후 여는 태그 `<html>`로 열고, 끝은 닫는 태그 `</html>`로 닫는다. `<html> ~ </html>`는 전체 페이지의 컨텐츠를 포함하는 기본 요소이다.
- `<html> ~ </html>` 태그 사이에는 크게 `<head> ~ </head>` 태그와 `<body> ~ </body>`태그로 구성된다. 
  - `<head> ~ </head>` 태그 안에는 웹페이지의 인코딩 방식, 웹페이지의 제목, CSS(Cascading Stylesheets)의 링크, 그 밖의 부가정보(작성자, 중요 키워드)를 포함한다. 그러나 이러한 정보들은 웹페이지의 제목을 제외하고는 웹 브라우저에 표시되지 않는다.
  - `<body>~</body>` 태그 안에는 텍스트, 이미지, 비디오, 게임, 재생 가능한 오디오 트랙 등을 비롯하여 `웹페이지에 표시되는 모든 콘텐츠`가 들어간다.

- 태그 안에는 또 다른 태그가 중첩되기도 한다. 
- 한 예로, 아래에서  `<p> ~ </p>` 태그 사이에 `<strong> ~ </strong>` 태그가 중첩되어 있다. 참고로 `<p>` 태그는 paragraph를 의미하며, `<strong>`은 진하게 나타내라는 의미이다. (웹을 만드는 것이 목적이 아니므로 태그를 외우거나 의미가 무엇인지 알 필요가 없다.)

```
<p> <strong> 매우 </strong> 반갑습니다.</p>
```
- 출력 결과는 아래와 같다. 
<p> <strong> 매우 </strong> 반갑습니다.</p>


- 또한, 일부 태그는 여는 태그만 있고, 닫는 태그가 없는 단일 태그(Single tag) 형태도 있다. 
- 한 예로, `<img>` 태그는 이미지를 보여주기 위한 태그로 여는 태그만 있다.
```
<img src="https://haesunbyun.github.io/common/images/html2.png">
```
- 웹페이지에서 보여지는 결과는 다음과 같다.

<img src="https://haesunbyun.github.io/common/images/html2.png">

### 속성(attribute)
- 여는 태그안에는 하나 이상의 `속성`을 넣을 수 있다. 
- 속성은 요소에 추가적인 성질, 링크, 내용 등을 포함시키고 싶을 때 사용하며 실제 웹페이지에 보이지는 않는다.
- 속성을 주는 형식은 다음과 같다.
```
< 여는 태그 속성명="속성값" 속성명="속성값" ...>
```
- 태그와 속성, 속성과 속성 사이에는 공백이 있으며, 속성 값은 따옴표로 감싸져 있다.


```
<p class="editor-note"> 안녕하세요.</p>
<p> 여기는 <a href="https://www.snu.ac.kr/" title="서울대학교 홈페이지">서울대학교</a>입니다.</p>
```

- img 태그의 `src` p 태그의 `class`, a 태그의 `href`, `title` 이 속성명이다. 
- `"https://haesunbyun.github.io/common/images/html2.png", "editor-note", "https://www.snu.ac.kr/", "서울대학교 홈페이지"`는 속성 값이다.

- 웹페이지에서 보여지는 결과는 아래와 같다. 속성이 많지만 웹페이지에서는 보이지 않는다.

<p class="editor-note"> 안녕하세요.</p>
<p> 여기는 <a href="https://www.snu.ac.kr/" title="서울대학교 홈페이지">서울대학교</a>입니다.</p>

### 웹 동작
- 웹은 다음과 같이 동작한다.
<div align="center"><img src="https://haesunbyun.github.io/common/images/html3.png" style="width:600px;"></div>

- 일반적으로 웹페이지에 접속하기 위해서는 웹브라우저의 주소입력창에 접속하고자 하는 URL((Uniform Resource Locator)을 입력한다. 
- URL이 입력되면 브라우저는 HTTP Request 메시지를 웹서버에게 보낸다.
- 여기서 HTTP는 HyperText Transfer Protocol의 약자로, 하이퍼미디어 문서를 전송하기 위한 프로토콜이다. 프로토콜이란 컴퓨터들 간 데이터 통신을 원활하게 하기 위해 필요한 통신 규약을 의미한다.
- URL 앞에 http:// 또는 https:// 라고 쓰는 이유도 http 프로토콜이 사용된다는 뜻이다.
- 웹서버는 HTTP Request 메시지를 받으면 해당 웹문서가 웹서버에 있는지 검색하고 그에 대한 결과를 HTTP Response에 실어 보낸다. 웹문서가 있다면 그 컨텐츠도 함께 넣어 보낸다.
- 브라우저에서는 HTTP Response를 받아 웹문서를 브라우저에 나타낸다.

## 웹크롤링과 웹스크랩핑
- 웹은 무한히 많은 데이터가 있는 정보의 바다이다. 이러한 웹에서 유의미한 데이터를 찾는 것은 매우 중요한 일이 됐다.
- 웹 페이지에서 정보를 추출하는 프로그램을 웹크롤러(Web Crawler), 또는 스파이더(Spider), 봇(Bot)이라고도 부르며, 크롤러를 사용하여 데이터를 수집하는 것을 크롤링(Crawling)이라고 하다. 
- 즉, 웹크롤링은 웹페이지의 하이퍼링크를 순회하면서 웹 페이지를 다운로드 하는 작업을 의미한다.
- 웹스크랩핑(Scraping)은 다운로드한 웹 페이지에서 필요한 정보를 추출하는 작업을 의미한다.
- 일부 모듈들은 웹크롤링과 웹스크랩핑 기능을 모두 갖고 있기도 해서 이를 혼용하여 불리기도 한다.

- 웹크롤링은 다양하게 활용되고 있다.
  - 음식점의 예약 상황을 실시간으로 추출하여 어떤 음식점에 자리가 비어있는지, 어떤 요일과 어떤 시간에 어떤 음식점이 인기 있는지 등의 정보를 추출하는데 활용되기도 한다.
  - 여러 책 판매 사이트에서 정보를 추출하여 직접 가격 비교해서 최저가 정보를 알려주거나 웹사이트에서 정보를 추출하고 정보를 정리하는데 사용되기도 한다.
  - 정부, 자치단체, 기업 등이 자유롭게 사용할 수 있도록 공개한 데이터인 열린 데이터를 수집할 때도 도움이 된다.
  - 웹데이터 분석, 자연언어분석, 이미지 처리 등 대량의 데이터 수집이 필요 할 때도 이용된다.

- 파이썬 언어를 통해 크롤링을 하는 방법은  
    - 표준라이브러리인 urllib.request 모듈
    - 사람들이 직접 만들어 공개한 라이브러리(서드파티:Third Party)인 requests 모듈, Selenium 모듈 등이 있다.

- 스크레이핑(Scraping) 하는 방법은
  - re모듈을 사용한 정규표현식으로 추출
  - 요소를 지정하는 방식 Xpath와 CSS 선택자
  - BeautifulSoup 모듈
  - Selenium 모듈 등이 있다.


### urlopen()으로 웹페이지 가져오기
- 웹크롤링을 하기 위해서는 먼저 웹페이지에 접속부터 해야 한다. 
- 파이썬으로 웹페이지에 접속하기 위해서는 urllib.request 모듈의 urlopen() 함수를 통해 할 수 있다. 
  - urllib 패키지는 URL과 관련된 작업을 하기 위한 여러 모듈을 모은 패키지로, 그중에서 urllib.request 모듈은 URL을 여는것과 관련한 다양한 함수를 제공하고 있다. 
- 먼저, urlopen() 함수를 import하고, urlopen() 괄호안에 접속할 사이트의 주소를 넣어준다.

- 아래 웹페이지를 가져와보자. 

<div align="center"><img src="https://haesunbyun.github.io/common/images/html4.png" style="width:400px;"></div>

In [None]:
from urllib.request import urlopen
page = urlopen('https://haesunbyun.github.io/Basic-Computing/mypage2.html')
print(page)

- 변수 page를 출력해보면, 에러없이 웹페이지를 열었지만 반환된 값은 웹문서 스타일이 아니라 HTTPResponse 객체이다.

### BeautifulSoup()으로 웹스크랩핑하기
- urlopen()으로 가져온 웹페이지를 눈으로 확인 가능한 HTML문서로 바꿔보자.
- 이를 위해 BeautifulSoup() 함수를 활용할 수 있다.
- BeautifulSoup() 함수는 HTML에서 데이터를 추출할 수 있도록 하는 함수로 HTML 구문 분석 기능을 갖고 있다.
    - 참고자료: https://www.crummy.com/software/BeautifulSoup/bs4/doc/
    

- 먼저 bs4모듈에 BeautifulSoup() 함수를 import한다.
- BeautifulSoup() 함수의 괄호안에는 첫 번째 전달인자로 구문을 분석하고자 하는 HTML, 두 번째 전달인자로 분석할 파서의 종류를 넣어준다. 여기서는 html 구문으로 파싱할 것이므로 'html.parser'로 적어준다.
- 파싱(parsing)이란 구문 분석이라는 뜻으로 각 구성 성분으로 분해하고 이들간의 관계를 분석하여 구조를 결정하는 작업을 말한다.
- 파싱하여 변수 soup에 저장하여 출력해보면 urlopen()으로 가져왔던 웹페이지가 html코드로 보여진다.
  - 통상적으로 BeautifulSoup()으로 파싱한 객체는 변수 이름을 soup으로 한다.

In [None]:
from bs4 import BeautifulSoup
soup=BeautifulSoup(page,'html.parser')
print(soup)

- HTML언어는 파이썬과 다르게 들여쓰기가 필요없는 언어이다.
- 그러나 들여쓰기가 되어 있으면 문서의 구조를 파악하는데 도움이 된다. 
- soup.prettify()는 들여쓰기를 적용해 문서의 구조를 보기 쉽게 바꿔주는 메서드이다.

In [None]:
print(soup.prettify())

😄 웹사이트 https://haesunbyun.github.io/Basic-Computing/mypage3.html 의 페이지를 크롤링해와서 변수 page에 저장하고 page를 HTML코드로 파싱하고 그 결과를 mysoup에 저장한 후 출력하시오.

#### 태그로 이동
- 가져온 웹페이지에서 원하는 데이터를 추출하기 위해서는 데이터에 접근부터 해야한다.
- 먼저 데이터가 있는 태그까지 접근하는 방법을 알아보자. 
- BeautifulSoup은 객체(soup)에 점(.)을 붙여서 태그간 이동을 지원한다. 즉 점을 통해 원하는 태그에 접근할 수 있다.
- 변수 soup의 현재 위치는 태그의 가장 바깥쪽인 `<html>` 태그에 위치하고 있고, 구조상 `<html>` 다음 태그로는 `<head>` 태그와 `<body>`가 있다. 
- 이 가운데 `<body>` 태그로 이동하려면 soup.body와 같이 쓴다.
- `<body>` 태그로 이동하면 `<body>` 태그가 가장 바깥쪽 태그로 보여진다.

In [None]:
print(soup.body)

- 점(.)을 통한 태그 접근은 반드시 순서대로 해야 하는 것은 아니다.
- `<body><div><p>`태그가 차례대로 있는데 이 중 `<p>`태그에 접근하려면 soup.p로 쓰면 soup의 현재 위치인 가장 바깥쪽인 <html> 태그에서 아래쪽으로 가장 가까운 `<p>`태그로 이동한다. 

In [None]:
soup.p

- 그렇다면 다음 `<p>`태그에 접근하려면 어떻게 해야 할까?
- 어느 태그의 동일 레벨 즉, 형제 태그에 접근하려면 next_sibling과 previous_sibling을 사용하면 된다.
- 같은 부모 태그를 갖는 태그들을 형제(sibling)라고 하는데, 예를 들어, 
  - `<p class="inner-text first-item" ...>` 태그와, `<p class="inner-text second-item">`는 형제 태그이다.
  - 그런데 이 두 태그만 형제인 것이 아니다. 사실 `<p>`태그와 `<p>`태그 사이에는 줄바꿈 기호('\n')가 들어가 있다. 즉, 줄바꿈 기호도 이들의 형제이다.
  - 이 셋의 부모 태그는 `<div>` 태그이다.

In [None]:
soup.p.next_sibling

In [None]:
soup.p.next_sibling.next_sibling

In [None]:
soup.a

😄 mysoup에서 아래의 결과가 나오도록 태그로 접근해보세요.

```
<p>L0444.000400 컴퓨팅 기초: 처음 만나는 컴퓨팅</p>

```


😄 mysoup에서 아래의 결과가 나오도록 태그로 접근해보세요.

```
<li class="toctree-l1"><a class="reference internal" href="B_chapter1.html">Chapter 1. 기본자료형과 변수</a></li>

```


#### 텍스트 추출하기
- 추출하려는 데이터가 있는 태그까지 접근했다면 텍스트를 추출해보자.
- 텍스트를 추출하는 방법은 다음과 같다.
  - get_text(): 현재 태그를 포함하여 모든 하위 태그에 있는 텍스트를 추출한다.
    - 괄호안에 별도의 옵션을 줄 수 있다. 예) strip=True
  - text: 현재 태그를 포함하여 모든 하위 태그에 있는 텍스트를 추출한다.
  - .string: 태그에 컨텐츠가 하나인 경우만 추출가능하다.
- get_text()와 text는 정확히 동일한 결과를 반환한다. 차이점이 있다면 get_text()의 경우 괄호안에 별도의 옵션을 줄 수 있다는 것이다. 예) get_text(strip=True)


In [None]:
print(soup.get_text())

In [None]:
print(soup.text)

- 문자열 앞뒤의 여백(whitespace)를 지울 때에는 strip() 메서드를 사용하면 된다.

In [None]:
print(soup.text.strip())

- soup.a 태그에는 컨텐츠가 하나이므로 .string으로 문자열 추출이 가능하다.

In [None]:
print(soup.a.string)

- soup에는 하위태그도 많은데다가 각 하위태그마다 컨텐츠가 있어서, 컨텐츠가 여러개 이므로 .string으로 추출할 수 없다.

In [None]:
soup.string

😄 mysoup에서 아래의 결과가 나오도록 문자열을 추출해보세요.

```
Chapter 0. 프로그래밍 언어와 파이썬

```


😄 mysoup에서 아래의 결과가 나오도록 문자열을 추출해보세요.

```
소개#
L0444.000400 컴퓨팅 기초: 처음 만나는 컴퓨팅
프로그래밍 입문자와 비전공자를 위한 파이썬 프로그래밍 기초와 데이터 과학 기초를 다룬다.
컴퓨팅 기초: 처음 만나는 컴퓨팅 001,002,003 강좌 수강생들을 위한 자료이니 복제, 무단배포, 링크공유를 금합니다.

Python

Chapter 0. 프로그래밍 언어와 파이썬
Chapter 1. 기본자료형과 변수
Chapter 2. 입출력과 타입변환
Chapter 3. 조건문
Chapter 4. 반복문
Chapter 5. 리스트
Chapter 6. 함수
Chapter 7. 딕셔너리, 튜플, 셋

Web Crawing

Chapter 9. 웹과 웹크롤링

Data Science
```

#### 태그로 찾기
- 위의 예제는 매우 간단한 HTML문서였으므로 태그로 이동하여 데이터까지 접근하는 것이 별로 어려운 일이 아니었다.
- 그러나 일반적으로 HTML 문서는 매우 길고, 매우 많은 태그들이 중첩되어 있는 형태를 가진다.
- 이와 같을 때는 태그 이동으로 원하는 데이터까지 접근하기에는 사실 매우 번거로운 일이다. 
- BeautifulSoup은 태그나 속성으로 찾을 수 있도록 find()와 find_all() 메서드를 지원한다.

```
soup.find('tag명'): 가장 처음에 있는 <tag명> 하나만 반환
soup.find_all('tag명'): <tag명>을 모두 찾아내어 리스트와 비슷한 형태로 반환.
```

- 먼저, find() 메서드를 사용해보자.
- 아래 코드에서는 tag가 `<p>`인 하나를 찾는데, 가장 먼저 있는 `<p>`태그가 검색된다.

In [None]:
soup.find('p')

- 검색된 `<p>`태그에서 문자열을 추출한다.

In [None]:
soup.find('p').text

- 이번에는 find_all() 메서드로 모든 `<p>` 태그를 찾아보자.

In [None]:
ptagList = soup.find_all('p')
print(ptagList)

- find_all()의 결과는 'bs4.element.ResultSet'이다. 리스트는 아니지만 리스트처럼 보여지며, 리스트와 같이 접근이 가능하다. 

In [None]:
print(type(ptagList))
ptagList[0]


- 또한 문자열 추출도 가능하다.

In [None]:
ptagList[0].text

- 'bs4.element.ResultSet'은 반복가능한 데이터셋이다. 
- 즉, 리스트처럼 반복문에서 활용할 수 있다.

In [None]:
for each in soup.find_all('p'):
  print(each.text)

In [None]:
for each in soup.find_all('a'):
  print(each.string)

😄 mysoup에서 아래의 내용을 출력해보세요.


```
Chapter 0. 프로그래밍 언어와 파이썬
Chapter 1. 기본자료형과 변수
Chapter 2. 입출력과 타입변환
Chapter 3. 조건문
Chapter 4. 반복문
Chapter 5. 리스트
Chapter 6. 함수
Chapter 7. 딕셔너리, 튜플, 셋
Chapter 9. 웹과 웹크롤링
```


#### 속성으로 찾기
- find()나 find_all()함수에서 전달인자로 태그 안에 있는 속성명이나 속성값을 함께 지정하여 찾을 수도 있다.
- 조건을 여러개 지정하면 찾고자 하는 데이터에 더 근접하여 추출할 수 있다. 
- 조건을 속성명만 줄 때에는 태그명을 생략할 수도 있다.
```
soup.find('tag명', 속성명='속성값')
soup.find_all(속성명='속성값')
```

- 예를들어, 태그가 `<p>`이면서 class가 'outer-text'인 것을 모두 찾는다면 아래와 같이 쓸 수 있다.
- 이때 주의해야 할 것은 class라는 속성명은 반드시 class_로 써야 한다. 

In [None]:
soup.find_all('p', class_='outer-text')

- 속성명 id가 'first'인 것을 모두 찾아서 내용만 출력한다.

In [None]:
for each in soup.find_all(id='first'):
  print(each.text)

😄 mysoup에서 속성명이 class이면서 속성값이 caption인 것을 모두 찾아 출력하시오.

```
Python
Web Crawing
Data Science
```


#### 속성값 추출하기
- 어떤 경우에는 속성값을 추출해야 할 필요가 있기도 하다.  대표적인 예로 링크주소를 추출하고 싶을 때가 그렇다.
- 이럴 때에는 속성명을 활용하여 속성값을 추출하면 된다.
- 속성값을 추출할 때에는 태그 뒤 대괄호[ ] 안에  속성명을 문자열로 넣어주면 된다. 
```
soup.find('p')['속성명']
```

- 태그로 직접 접근해 속성값을 추출할 수 있다.

In [None]:
soup.p['class']

- find() 메서드로 찾아 속성값을 추출할 수 있다.

In [None]:
soup.find('p')['class']

- find_all() 메서드로 찾아 속성값을 추출할 수 있다.

In [None]:
for each in soup.find_all('p'):
  print(each['class'])

In [None]:
for each in soup.find_all('a'):
  print(f"{each['href']} : {each.string}")

😄 mysoup에서 속성명이 href인 속성값을 모두 찾아 다음과 같은 형태로 출력하시오.

```
B_chapter0.html ----> Chapter 0. 프로그래밍 언어와 파이썬
B_chapter1.html ----> Chapter 1. 기본자료형과 변수
B_chapter2.html ----> Chapter 2. 입출력과 타입변환
B_chapter3.html ----> Chapter 3. 조건문
B_chapter4.html ----> Chapter 4. 반복문
B_chapter5.html ----> Chapter 5. 리스트
B_chapter6.html ----> Chapter 6. 함수
B_chapter7.html ----> Chapter 7. 딕셔너리, 튜플, 셋
B_chapter9.html ----> Chapter 9. 웹과 웹크롤링
```


### 개발자 도구 활용하기
- 앞에서 말했던 바와 같이 HTML 문서는 매우 길고 많은 태그들이 중첩되어 있어서 구조를 파악하기가 쉽지 않다.
- 이를 위해 웹페이지의 구조를 파악하기 쉽도록 구조를 보여주는 도구가 바로 `개발자 도구`이다. 
- 개발자 도구는 브라우저에서 일반적으로 `오른쪽 상단에 (...)를 클릭하여 도구 더보기 > 개발자 도구`를 클릭하면 보인다.
- 단축키는 F12 또는 Ctrl+Shift+I이다.
- 개발자 도구를 활용하여 태그를 찾아보는 연습을 해보자.

#### 1단계: urlopen()으로 웹페이지를 가져오기
- 예를 들어, 네이버 증권의 시장지표 사이트를 크롤링해보자.
- 웹에서 추출하고자 데이터는 네이버 증권사이트에서 환전 고시 환율, 국제 시장 환율, 유가.금시세라고 가정해보자.

- 먼저, 크롬 브라우저를 활용해 네이버에 접속해서 증권 메뉴에서 시장지표를 클릭하여 해당사이트까지 이동한다.
- 브라우저의 주소 입력창에 나오는 링크를 복사한다.
- 아래 코드의 urlopen()함수의 괄호안에 붙여넣는다.

In [None]:
from urllib.request import urlopen
page = urlopen('https://finance.naver.com/marketindex/')
print(page)

<http.client.HTTPResponse object at 0x7f70a5929390>


#### 2단계: BeautifulSoup()으로 파싱하기
- BeautifulSoup()을 활용해 HTML 파싱을 해서 soup객체로 만든다.
- 여기까지는 앞에서 했던 것과 동일하다.

In [None]:
from bs4 import BeautifulSoup
soup=BeautifulSoup(page,'html.parser')
#print(soup)

#### 3단계: 개발자 도구 활용
-  개발자 도구를 활용하여 추출하고자 하는 데이터가 어느 태그에 혹은 어떤 속성을 갖고 있는지 확인한다.
- 이를 위해 개발자 도구 F12 또는 ... > 도구 더보기 > 개발자 도구를 클릭한다.

<div align="center"><img src="https://haesunbyun.github.io/common/images/html5.png" style="width:600px;"></div>

- 요소(element) 선택 버튼을 클릭한다.
- `요소 선택 버튼`은 현재 로딩된 웹페이지의 컨텐츠로 마우스를 가져가면 해당 요소의 상세 정보(태그 정보, CSS 정보)와 소스보기의 해당 요소 위치로 바로 이동시켜주는 기능을 제공한다.
- 마우스를 이동시킬 때마다 소스보기에서도 음영처리된 부분이 바뀌는 것을 볼 수 있을 것이다.

<div align="center"><img src="https://haesunbyun.github.io/common/images/html6.png" style="width:600px;"></div>

- 환전 고시 환율, 국제 시장 환율, 유가.금시세 정보를 추출하기 위해 미국USD 컨텐츠로 마우스를 가져가보자. 
- 도움말 기능으로 태그의 상세 정보인 h3.h_lst가 보인다. 
- 좀 더 자세히 확인해보기 위해 클릭한 후, 소스보기의 음영처리 된 부분으로 가보자.
- 미국USD라는 텍스트는 `<h3 class="h_lst">`에 들어있다.
- 태그 옆에는 작은 삼각형이 보이는데, 이 삼각형을 클릭하여 소스보기를 접거나 펼칠 수 있다.
- 삼각형을 눌러 펼쳐보면 `<span class="blind">미국 USD</span>`태그에 미국 USD 컨텐츠가 들어있다. 


<div align="center"><img src="https://haesunbyun.github.io/common/images/html7.png" style="width:600px;"></div>

- 추출하고자 하는 데이터를 몇 개 더 동일한 방법으로 확인해보자.
- 일본JPY나 유로/달러 등의 컨텐츠도 동일한 태그인 것을 확인했다면 이제 그 태그를 이용하여 데이터를 추출할 수 있다.
- 이때 태그를 잘 선택하는 것이 매우 중요하다. 우리는 두 가지의 옵션을 가지고 있다.
  - 첫 번째 옵션은 ```<h3 class="h_lst">```로 태그가 h3이고 class가 h_lst인 컨텐츠를 찾는 것
  - 두 번째 옵션은 ```<span class="blind">```로 태그가 span이고 class가 blind로 찾는 것
- 어떤 태그로 찾는 것이 가장 최소한의 노력으로 헛일하지 않고 원하는 데이터를 추출할 수 있는지 생각해야 한다.



#### 4단계: find_all()로 찾기
- 두 가지 옵션 모두 테스트해보자.
- 먼저 ```soup.find_all('h3', class_="h_lst")```는 추출하려고 했던 데이터가 태그 안에 예쁘게 들어가 있다.


In [None]:
soup.find_all('h3', class_="h_lst")

- 두 번째 옵션은 ```soup.find_all('span', class_="blind")```는 추출하려고 했던 데이터뿐만 아니라 원, 하락, 상승과 같은 필요하지 않은 데이터까지 포함되어 있다.
- 어떤 태그를 활용해야 데이터를 잘 추출할 것인가는 여러 번의 연습과 시행착오를 거쳐서 감을 잡는 것이 필요하다.^^;; 

In [None]:
soup.find_all('span', class_="blind")

- 그럼 find_all()로 찾은 요소들을 변수에 저장해보자.
- 앞에서도 설명한 바와 같이, find_all()의 결과는 'bs4.element.ResultSet'이다. 리스트는 아니지만 리스트처럼 보여지며, 리스트와 같이 접근이 가능하다고 얘기했었다.
- 인덱스접근과 반복문에 활용 할 수 있다는 것이다. 

In [None]:
fList = soup.find_all('h3', class_="h_lst")
print(fList[0])
print(fList[0].string)

In [None]:
for each in fList:
  print(each.string)

😄 환전 고시 환율, 국제 시장 환율, 유가.금시세의 가격을 추출하여 아래와 같이 출력하시오.

```
1,339.50
1,339.50
999.51
1,478.00
193.25
134.1100
1.1011
1.2466
101.2500
74.76
1664.17
1999.0
85538.28
```


😄 환전 고시 환율, 국제 시장 환율, 유가.금시세 최종 데이터를 아래와 같이 출력하시오.

```
미국 USD : 1,339.50
일본 JPY(100엔) : 999.51
유럽연합 EUR : 1,478.00
중국 CNY : 193.25
달러/일본 엔 : 134.1100
유로/달러 : 1.1011
영국 파운드/달러 : 1.2466
달러인덱스 : 101.2500
WTI : 74.76
휘발유 : 1664.17
국제 금 : 1999.0
국내 금 : 85538.28
```


## 마무리
- 웹페이지를 만드는데 사용되는 언어중 하나가 바로 HTML이다.
- HTML은 태그와 내용으로 구성되어 있다.
- 웹페이지 크롤링은 urllib.request 모듈의 urlopen() 함수를 통해 할 수 있다
- BeautifulSoup() 함수는 HTML에서 데이터를 추출할 수 있도록 하는 함수로 HTML 구문 분석 기능을 갖고 있다.
- html에서 태그 찾기는 
  - soup.find('tag명'): 첫 <tag명>을 찾아 반환
  - soup.find_all('tag명'): <tag명>을 모두 찾아 묶음으로 반환
  - 속성명 = ＇속성값'을 괄호안에 추가로 넣어서 찾을 수 있다.
- 태그에서 데이터 추출하기는
  - 속성값 추출하기: ['속성명'] 활용
  - tag의 Text 추출하기: get_text(), text, string 등으로 추출할 수 있다.
- 웹페이지의 구조를 파악하기 쉽도록 구조를 보여주는 도구가 바로 개발자 도구이다.
- 개발자 도구를 활용하여 추출하고자 하는 데이터의 태그명과 속성을 확인할 수 있다.
