## 웹문서 구조 이해

#### DOM (Document Object Model)

- DOM은 HTML 문서의 구조를 트리 형태로 표현한 모델입니다. JavaScript와 같은 언어를 사용하여 DOM을 탐색하고 수정할 수 있습니다.
- DOM 구조
```
<!DOCTYPE html>
<html>
<head>
    <title>Example</title>
</head>
<body>
    <h1>DOM Example</h1>
    <p id="intro">This is a simple DOM example.</p>
</body>
</html>
```

HTML 문서는 다음과 같은 DOM 트리로 표현
```
Document
└── html
    ├── head
    │   ├── title
    │   │   └── "Example"
    └── body
        ├── h1
        │   └── "DOM Example"
        └── p (id="intro")
            └── "This is a simple DOM example."
```

#### HTML 태그

```
기본 구조 태그
<!DOCTYPE html>: HTML 문서의 유형을 정의합니다. 최신 HTML5에서는 <!DOCTYPE html>을 사용합니다.
<html>: HTML 문서의 루트 요소입니다. 모든 HTML 문서의 최상위 요소입니다.
<head>: HTML 문서의 메타데이터를 포함합니다. 여기에는 문서 제목, 스타일 시트 링크, 스크립트 등이 포함됩니다.
<title>: 웹 페이지의 제목을 정의합니다. 이 제목은 브라우저 탭에 표시됩니다.
<meta>: 문서의 메타데이터를 정의합니다. 예를 들어, 문자 인코딩을 정의할 때 사용됩니다.
<link>: 외부 리소스를 문서에 연결합니다. 주로 CSS 파일을 연결할 때 사용됩니다.
<style>: 문서 내에 CSS 스타일을 정의합니다.
<body>: 실제로 브라우저에 표시되는 콘텐츠를 포함합니다.
```
```
콘텐츠 구조 태그
<header>: 문서나 섹션의 헤더를 정의합니다.
<nav>: 내비게이션 링크를 정의합니다.
<section>: 문서의 섹션을 정의합니다.
<article>: 독립적인 콘텐츠를 정의합니다.
<aside>: 주요 콘텐츠 외의 추가적인 콘텐츠를 정의합니다.
<footer>: 문서나 섹션의 푸터를 정의합니다.
```
```
텍스트 관련 태그
<h1> ~ <h6>: 제목을 정의합니다. <h1>은 가장 중요한 제목, <h6>은 가장 덜 중요한 제목입니다.
<p>: 단락을 정의합니다.
<a>: 하이퍼링크를 정의합니다. href 속성을 사용하여 링크 대상 URL을 지정합니다.
<strong>: 중요한 텍스트를 정의합니다. 일반적으로 굵게 표시됩니다.
<em>: 강조된 텍스트를 정의합니다. 일반적으로 기울임꼴로 표시됩니다.
<br>: 줄 바꿈을 삽입합니다.
<ul>: 순서 없는 목록을 정의합니다.
<ol>: 순서 있는 목록을 정의합니다.
<li>: 목록 항목을 정의합니다.
```
```
멀티미디어 태그
<img>: 이미지를 삽입합니다. src 속성을 사용하여 이미지 파일의 URL을 지정합니다.
<audio>: 오디오 콘텐츠를 삽입합니다.
<video>: 비디오 콘텐츠를 삽입합니다.
<iframe>: 다른 HTML 페이지를 현재 페이지에 삽입합니다.
```
```
테이블 태그
<table>: 표를 정의합니다.
<tr>: 표의 행을 정의합니다.
<td>: 표의 셀을 정의합니다.
<th>: 표의 헤더 셀을 정의합니다.
<thead>: 표의 머리글 섹션을 정의합니다.
<tbody>: 표의 본문 섹션을 정의합니다.
<tfoot>: 표의 바닥글 섹션을 정의합니다.
```
```
폼 태그
<form>: 사용자 입력을 받는 폼을 정의합니다.
<input>: 다양한 유형의 입력 필드를 정의합니다.
<textarea>: 여러 줄의 텍스트 입력 필드를 정의합니다.
<button>: 클릭 가능한 버튼을 정의합니다.
<select>: 드롭다운 목록을 정의합니다.
<option>: 드롭다운 목록의 항목을 정의합니다.
```

In [2]:
from bs4 import BeautifulSoup
import requests

url = 'https://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
soup.find_all('html')

[<html>
 <head>
 <title>Example Domain</title>
 <meta charset="utf-8"/>
 <meta content="text/html; charset=utf-8" http-equiv="Content-type"/>
 <meta content="width=device-width, initial-scale=1" name="viewport"/>
 <style type="text/css">
     body {
         background-color: #f0f0f2;
         margin: 0;
         padding: 0;
         font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;
         
     }
     div {
         width: 600px;
         margin: 5em auto;
         padding: 2em;
         background-color: #fdfdff;
         border-radius: 0.5em;
         box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02);
     }
     a:link, a:visited {
         color: #38488f;
         text-decoration: none;
     }
     @media (max-width: 700px) {
         div {
             margin: 0 auto;
             width: auto;
         }
     }
     </style>
 </head>
 <body>
 <div>
 <h1>Example Domain</h1>
 <p>This domain is for use in

In [3]:
# 모든 <a> 태그 추출
links = soup.find_all('a')
for link in links:
    print(link.get('href'))
    

https://www.iana.org/domains/example


In [4]:
# 클래스 이름이 'example-class '인 <div> 태그 추출
divs = soup.find_all('div')
for div in divs:
    print(div.text)


Example Domain
This domain is for use in illustrative examples in documents. You may use this
    domain in literature without prior coordination or asking for permission.
More information...



In [6]:
# <h1> 태그 추출
h1s = soup.find('h1')
for h1 in h1s:
    print(h1.text)

Example Domain


In [7]:
meta_tags = soup.find_all('meta')
meta_tags

[<meta charset="utf-8"/>,
 <meta content="text/html; charset=utf-8" http-equiv="Content-type"/>,
 <meta content="width=device-width, initial-scale=1" name="viewport"/>]

In [8]:
# 모든 <meta> 태그 추출
for meta in meta_tags:
    print(meta.attrs)

{'charset': 'utf-8'}
{'http-equiv': 'Content-type', 'content': 'text/html; charset=utf-8'}
{'name': 'viewport', 'content': 'width=device-width, initial-scale=1'}


#### HTML 속성
- HTML 속성(Attribute)은 HTML 요소에 추가적인 정보를 제공하는 데 사용됩니다. 
- 속성은 시작 태그 내에 있으며, 이름-값 쌍으로 작성됩니다.<br>
    ```<a href="https://example.com" class="example-link">Example</a>```
- 각 속성은 요소의 특정 특성이나 동작을 정의합니다. 
    ```
    - <a>: 앵커 태그로, 하이퍼링크를 만듭니다.
    - href: 링크의 URL을 지정하는 속성입니다.
    - class: CSS 클래스를 지정하는 속성입니다.
    ```
- 속성의 값은 일반적으로 따옴표로 감싸지만, 따옴표 없이 작성할 수도 있습니다.
- HTML 속성의 기본 구조 :<br>
    ```<a href="https://www.example.com" target="_blank">Example Link</a>```

  여기서 a 태그는 두 개의 속성을 가집니다:
    ```
    href: 링크의 URL을 지정
    target: 링크를 여는 방식 지정 (_blank는 새 탭에서 열기)
    ```
- 주요 HTML 속성

    글로벌 속성 (Global Attributes): 거의 모든 HTML 요소에서 사용할 수 있는 속성들입니다.<br>    
    ```<div id="header" class="main-header" style="color: blue;" title="Header Section">Welcome!</div>```
    - id: 요소의 고유 식별자
    - class: CSS 클래스 지정
    - style: 인라인 CSS 스타일 지정
    - title: 요소에 대한 추가 정보 제공 (마우스를 올렸을 때 표시)
    - data-*: 페이지나 애플리케이션에 사용자 정의 데이터를 저장

    폼 속성 (Form Attributes): 주로 폼 요소에서 사용되는 속성들입니다.
    ```
    <form action="/submit" method="post">
      <input type="text" name="username" value="JohnDoe" placeholder="Enter your username">
      <input type="submit" value="Submit"> # type="submit": 이 입력 필드를 제출 버튼으로 정의
    </form>
    ```
    - action: 폼 제출 시 데이터를 전송할 URL
    - method: 폼 데이터 전송 방식 (GET, POST)
    - name: 폼 요소의 이름
    - value: 입력 요소의 초기 값
    - placeholder: 입력 필드에 표시되는 힌트 텍스트

    이미지 속성 (Image Attributes): 주로 이미지 요소에서 사용되는 속성들입니다.<br>
    ```<img src="image.jpg" alt="Example Image" width="200" height="100">```
    - src: 이미지 파일의 경로
    - alt: 이미지가 표시되지 않을 때 대체 텍스트
    - width와 height: 이미지의 크기 지정

    링크 속성 (Link Attributes): 주로 앵커(a) 태그에서 사용되는 속성들입니다.<br>    
    ```<a href="https://www.example.com" target="_blank" rel="noopener noreferrer">Visit Example</a>```
    - href: 링크의 URL
    - target: 링크를 열 방법 (_blank, _self, _parent, _top)
    - rel: 링크와 현재 문서 간의 관계

    메타 데이터 속성 (Metadata Attributes): 주로 meta 태그에서 사용되는 속성들입니다.
    ```
    <meta name="description" content="This is an example of a meta description.">
    <meta charset="UTF-8">
    ```
    - name: 메타 데이터의 이름 (예: description, keywords)
    - content: 메타 데이터의 내용
    - charset: 문서의 문자 인코딩


In [9]:
from bs4 import BeautifulSoup

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a>
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>
</body></html>
"""

Task6_0618. 주어진 HTML 문서에서 모든 $<a>$ 태그를 추출하세요.

In [11]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(html_doc, 'html.parser')
links = soup.find_all('a')

for link in links:
    print(link)

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>


Task7_0618. 주어진 HTML 문서에서 첫 번째 $<p>$ 태그의 텍스트를 추출하세요.

In [14]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(html_doc, 'html.parser')
first_p = soup.find('p')
text = first_p.get_text()
print(text)

The Dormouse's story


Task8_0618. 주어진 HTML 문서에서 모든 링크의 URL을 추출하세요.

In [15]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')
links = soup.find_all('a')

for link in links:
    url = link.get('href')
    print(url)

http://example.com/elsie
http://example.com/lacie
http://example.com/tillie


Task9_0618. 주어진 HTML 문서에서 클래스가 sister인 모든 태그를 추출하세요.

In [16]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')
tags = soup.find_all(class_="sister")

for tag in tags:
    print(tag)

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>


Task10_0618. 주어진 HTML 문서에서 ID가 link1인 태그를 추출하세요

In [17]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')
tag = soup.find(id="link1")

print(tag)

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>


Task11_0618. 주어진 HTML 문서에서 모든 텍스트를 추출하세요.

In [18]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')
text = soup.get_text()

print(text)


The Dormouse's story

The Dormouse's story
Elsie
Lacie
Tillie




Task12_0618. 주어진 HTML 문서에서 href 속성이 http://example.com/lacie인 태그를 추출하세요.

In [19]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')
tag = soup.find('a', href='http://example.com/lacie')

print(tag)

<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>


Task13_0618. 주어진 HTML 문서에서 ID가 link1인 태그의 부모 태그를 추출하세요.

In [20]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')
tag = soup.find(id="link1")
parent_tag = tag.parent

print(parent_tag)

<body>
<p class="title"><b>The Dormouse's story</b></p>
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>
</body>


Task14_0618. 주어진 HTML 문서에서 ID가 link1인 태그의 다음 형제 태그를 추출하세요.

In [21]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')
tag = soup.find(id="link1")
next_sibling = tag.find_next_sibling()

print(next_sibling)

<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>


Task15_0618. 주어진 HTML 문서에서 ID가 link1인 태그의 href 속성 값을 추출하세요.

In [22]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')
tag = soup.find(id="link1")
href_value = tag.get('href')

print(href_value)

http://example.com/elsie


#### CSS 셀렉터

CSS 셀렉터는 HTML 요소를 선택하기 위해 사용됩니다. 크롤링 시 특정 요소를 선택할 때 유용합니다. 예:
```
#id: 특정 id를 가진 요소를 선택합니다.
.class: 특정 클래스를 가진 요소를 선택합니다.
tagname: 특정 태그명을 가진 요소를 선택합니다.
```
```
[ CSS 셀렉터의 주요 유형과 그 사용법]

1. 기본 셀렉터
    요소 셀렉터
    문법: element
    설명: 지정된 태그 이름의 모든 HTML 요소를 선택합니다.
    예시: p { color: blue; }는 모든 <p> 요소의 텍스트 색상을 파란색으로 설정합니다.
    클래스 셀렉터
    문법: .class
    설명: 특정 클래스 이름을 가진 모든 요소를 선택합니다.
    예시: .highlight { background-color: yellow; }는 클래스가 "highlight"인 모든 요소의 배경색을 노란색으로 설정합니다.
    ID 셀렉터
    문법: #id
    설명: 특정 ID를 가진 요소를 선택합니다. HTML 문서에서 ID는 고유해야 합니다.
    예시: #header { font-size: 24px; }는 ID가 "header"인 요소의 글꼴 크기를 24px로 설정합니다.

2. 속성 셀렉터
    속성 존재 셀렉터
    문법: [attribute]
    설명: 특정 속성이 있는 모든 요소를 선택합니다.
    예시: [title] { border: 1px solid black; }는 "title" 속성이 있는 모든 요소에 테두리를 추가합니다.
    특정 속성 값 셀렉터
    문법: [attribute=value]
    설명: 지정된 속성이 특정 값을 가진 모든 요소를 선택합니다.
    예시: [type="text"] { color: green; }는 type 속성이 "text"인 모든 입력 요소의 텍스트 색상을 초록색으로 설정합니다.

3. 결합 셀렉터
    자손 셀렉터
    문법: ancestor descendant
    설명: 특정 요소의 자손인 모든 요소를 선택합니다.
    예시: div p { margin: 10px; }는 <div> 요소의 자손인 모든 <p> 요소에 10px의 마진을 설정합니다.
    자식 셀렉터
    문법: parent > child
    설명: 특정 요소의 직계 자식인 모든 요소를 선택합니다.
    예시: ul > li { list-style-type: none; }는 <ul> 요소의 직계 자식인 모든 <li> 요소의 리스트 스타일을 제거합니다.
    인접 형제 셀렉터
    문법: element + adjacent
    설명: 특정 요소의 바로 다음 형제 요소를 선택합니다.
    예시: h1 + p { margin-top: 0; }는 <h1> 요소 바로 다음에 오는 <p> 요소의 위쪽 마진을 제거합니다.
    일반 형제 셀렉터
    문법: element ~ siblings
    설명: 특정 요소 이후의 모든 형제 요소를 선택합니다.
    예시: h2 ~ p { color: grey; }는 <h2> 요소 이후의 모든 <p> 요소의 텍스트 색상을 회색으로 설정합니다.

4. 가상 클래스 셀렉터
    동적 가상 클래스 셀렉터
    문법: :pseudo-class
    설명: 요소의 특정 상태를 선택합니다.
    예시: a:hover { color: red; }는 링크에 마우스를 올렸을 때 텍스트 색상을 빨간색으로 변경합니다.
    구조적 가상 클래스 셀렉터
    문법: :nth-child(n)
    설명: 부모 요소의 자식 중 특정 위치에 있는 요소를 선택합니다.
    예시: li:nth-child(odd) { background-color: #f2f2f2; }는 홀수 번째 <li> 요소의 배경색을 회색으로 설정합니다.

5. 가상 요소 셀렉터
    문법: ::pseudo-element
    설명: 요소의 일부를 선택합니다.
    예시: p::first-line { font-weight: bold; }는 단락의 첫 번째 줄을 굵게 만듭니다.

6. 속성값 서브스트링 매칭 셀렉터
    시작 문자열 매칭 셀렉터
    문법: [attribute^=value]
    설명: 특정 속성 값이 지정된 문자열로 시작하는 요소를 선택합니다.
    예시: [class^="btn"] { background-color: blue; }는 클래스 이름이 "btn"으로 시작하는 모든 요소의 배경색을 파란색으로 설정합니다.
    끝 문자열 매칭 셀렉터
    문법: [attribute$=value]
    설명: 특정 속성 값이 지정된 문자열로 끝나는 요소를 선택합니다.
    예시: [class$="danger"] { color: red; }는 클래스 이름이 "danger"로 끝나는 모든 요소의 텍스트 색상을 빨간색으로 설정합니다.
    포함 문자열 매칭 셀렉터
    문법: [attribute*=value]
    설명: 특정 속성 값이 지정된 문자열을 포함하는 요소를 선택합니다.
    예시: [class*="nav"] { font-size: 18px; }는 클래스 이름에 "nav"를 포함하는 모든 요소의 글꼴 크기를 18px로 설정합니다.

```

In [4]:
from bs4 import BeautifulSoup

html_doc = """
<html>
    <head>
        <title>The Dormouse's story</title>
    </head>
    <body>
        <p class="title">
            <b>The Dormouse's story</b>
        </p>
        <p class="story">Once upon a time there were three little sisters; and their names were</p>
        <p class="story">...</p>
    </body>
</html>
"""

In [5]:
# Q. 주어진 HTML 문서에서 첫번째 title 클래스를 가진 태그를 추출하세요. 
from bs4 import BeautifulSoup

soup = BeautifulSoup(html_doc, 'html.parser')
tag = soup.find(class_='title')

print(tag)

<p class="title">
<b>The Dormouse's story</b>
</p>


In [6]:
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a>
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>
</body></html>
"""


In [7]:
# 주어진 HTML 문서에서 모든 링크의 URL을 추출하세요.
from bs4 import BeautifulSoup

soup = BeautifulSoup(html_doc, 'html.parser')
links = soup.find_all('a')

for link in links:
    url = link.get('href')
    print(url)

http://example.com/elsie
http://example.com/lacie
http://example.com/tillie


In [8]:
# 주어진 HTML 문서에서 ID가 link1인 태그를 추출하세요.
from bs4 import BeautifulSoup
link1_tag = soup.select_one('#link1')
print(link1_tag)

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>


In [9]:
# 주어진 HTML 문서에서 <p>태그의 모든 자식 태그를 추출하세요.
from bs4 import BeautifulSoup
p_tag = soup.find('p')
children = p_tag.findChildren()
print(children)

[<b>The Dormouse's story</b>]


In [11]:
# 주어진 HTML문서에서 ID가 link1인 태그의 부모 태그를 추출하세요.
from bs4 import BeautifulSoup
link1_tag = soup.select_one('#link1')
print(link1_tag.findParent())

<body>
<p class="title"><b>The Dormouse's story</b></p>
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>
</body>


In [14]:
# 주어진 HTML문서에서 ID가 link1인 태그의 다음 형제 태그를 추출하세요.
from bs4 import BeautifulSoup
link1_tag = soup.select_one('#link1')
print(link1_tag.findNextSibling())


<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>


#### XPath

XPath는 XML 문서의 경로를 지정하기 위한 언어로, HTML 문서에서도 사용할 수 있습니다. 예:

```
//div[@id='main']: id가 'main'인 모든 <div> 요소를 선택합니다.
//a/text():
- //: 문서의 어디에서든 지정한 요소를 찾습니다. 즉, 루트 요소부터 시작해서 모든 자식 요소를 포함하여 탐색합니다.
- a: 찾고자 하는 요소의 이름입니다. 여기서는 <a> 태그를 의미합니다.
- /text(): 지정한 요소의 텍스트 노드를 선택합니다. <a> 태그 내부의 텍스트를 의미합니다.
```

In [15]:
from lxml import html

html_doc = """
<html>
  <head><title>The Dormouse's story</title></head>
  <body>
    <p class="title"><b>The Dormouse's story</b></p>
    <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>
    <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a>
    <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>
  </body>
</html>
"""

In [16]:
tree = html.fromstring(html_doc) # HTML 문서를 XML요소로 변환
a_texts = tree.xpath('//a/text()')
for text in a_texts:
    print(text)

Elsie
Lacie
Tillie


In [18]:
# 주어진 HTML 문서에서 ID가 link1인 태그를 추출하세요.
link1_tag = tree.xpath('//*[@id="link1"]')[0]
print(html.tostring(link1_tag).decode('utf-8'))


<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>
    


#### 웹페이지의 동적 로딩

일부 웹페이지는 JavaScript를 통해 동적으로 콘텐츠를 로드합니다. 이러한 페이지는 단순히 HTML을 요청하는 것으로는 모든 콘텐츠를 얻을 수 없으며, Selenium과 같은 도구를 사용하여 JavaScript를 실행하는 것이 필요할 수 있습니다.

#### HTTP 요청과 응답

웹 크롤링은 HTTP 프로토콜을 통해 웹페이지에 접근합니다. HTTP 요청과 응답의 기본 개념을 이해하는 것이 중요합니다.

- HTTP 메서드 (GET, POST 등)
- 상태 코드 (200, 404 등)

#### 크롤링 도구와 라이브러리

다양한 도구와 라이브러리가 크롤링을 도와줍니다.

- BeautifulSoup: HTML과 XML 파일을 파싱하는 라이브러리입니다.
- Requests: HTTP 요청을 보내기 위한 라이브러리입니다.
- Selenium: 웹 브라우저를 자동화하고 동적 웹페이지를 크롤링하는 데 사용됩니다.

In [22]:
import requests
from bs4 import BeautifulSoup

url = 'http://www.naver.com'
response = requests.get(url)
print(response.status_code)

soup = BeautifulSoup(response.text, 'html.parser')

# ID를 사용하여 'wrap' 영역 크롤링
wrap = soup.find(id='wrap')
print(wrap.prettify())

200
<div id="wrap">
 <div id="header" role="banner">
  <div class="header_inner" id="topSearchWrap">
   <div class="search_special_bg" id="special-logo">
   </div>
   <div class="ad_area" id="timeboard-ex" style="min-width:1340px">
   </div>
   <div class="search_area" id="search_area" style="border-color:#fff">
    <div class="search_group">
     <div class="search_group_inner" id="search">
      <h1 class="search_logo" id="special-input-logo">
      </h1>
      <form action="https://search.naver.com/search.naver" id="sform" method="get" name="search" role="search">
       <fieldset>
        <legend class="blind">
         검색
        </legend>
        <input name="where" type="hidden" value="nexearch"/>
        <input id="sm" name="sm" type="hidden" value="top_hty"/>
        <input id="fbm" name="fbm" type="hidden" value="0"/>
        <input disabled="disabled" id="acr" name="acr" type="hidden" value=""/>
        <input disabled="disabled" id="acq" name="acq" type="hidden" value=""/>


In [26]:
# a 태그를 모두 크롤링(텍스트와 href 속성을 출력)
links = soup.find_all('a')
for link in links:
    print(link.get('href'), link.text)

#topAsideButton 상단영역 바로가기
#shortcutArea 서비스 메뉴 바로가기
#newsstand 새소식 블록 바로가기
#shopping 쇼핑 블록 바로가기
#feed 관심사 블록 바로가기
#account MY 영역 바로가기
#widgetboard 위젯 보드 바로가기
#viewSetting 보기 설정 바로가기
# 전체삭제
https://help.naver.com/alias/search/word/word_35.naver 도움말
https://help.naver.com/alias/search/word/word_35.naver 도움말
# 자동저장 끄기
https://help.naver.com/alias/search/word/word_35.naver 도움말
# 닫기
# 이 정보가 표시된 이유
# 레이어 닫기
# 이전
# 다음
# 자세히보기
https://help.naver.com/alias/search/word/word_16.naver 관심사를 반영한 컨텍스트 자동완성도움말
# 컨텍스트 자동완성
https://help.naver.com/alias/search/word/word_16.naver 자세히 보기
https://help.naver.com/support/alias/search/word/word_16.naver 자세히 보기
https://nid.naver.com/nidlogin.login 네이버로그인
# 컨텍스트 자동완성 레이어 닫기
# 자동완성 끄기
https://help.naver.com/alias/search/word/word_17.naver 도움말
https://help.naver.com/alias/search/word/word_18.naver 신고
# 닫기


In [27]:
# search area 크롤링
search_area = soup.find(class_='search_area')
print(search_area.prettify())

<div class="search_area" id="search_area" style="border-color:#fff">
 <div class="search_group">
  <div class="search_group_inner" id="search">
   <h1 class="search_logo" id="special-input-logo">
   </h1>
   <form action="https://search.naver.com/search.naver" id="sform" method="get" name="search" role="search">
    <fieldset>
     <legend class="blind">
      검색
     </legend>
     <input name="where" type="hidden" value="nexearch"/>
     <input id="sm" name="sm" type="hidden" value="top_hty"/>
     <input id="fbm" name="fbm" type="hidden" value="0"/>
     <input disabled="disabled" id="acr" name="acr" type="hidden" value=""/>
     <input disabled="disabled" id="acq" name="acq" type="hidden" value=""/>
     <input disabled="disabled" id="qdt" name="qdt" type="hidden" value=""/>
     <input id="ie" name="ie" type="hidden" value="utf8"/>
     <input disabled="disabled" id="acir" name="acir" type="hidden" value=""/>
     <input disabled="disabled" id="os" name="os" type="hidden" value=""

Copy Selector

- copy selector는 해당 요소로 접근할 수 있는 CSS 선택자를 복사합니다.
- 이를 통해 JavaScript나 Selenium과 같은 도구에서 해당 요소를 선택할 수 있습니다.

 Copy XPath

- copy XPath는 해당 요소로 접근할 수 있는 XPath를 복사합니다.
- XPath는 XML 문서의 특정 요소를 선택할 때 사용되는 언어로, HTML에도 적용할 수 있습니다.

## 크롤링(웹 크롤링)
크롤링이란
- 인터넷 상의 웹 페이지 데이터를 자동으로 수집하는 과정.
- 웹 크롤링은 일반적으로 웹 스크래핑과 연관되며, 둘은 종종 혼용되지만 조금 다른 개념. 웹 크롤링은 웹 페이지를 탐색하고 데이터를 수집하는 반면, 웹 스크래핑은 그 페이지에서 특정 정보를 추출하는 데 중점을 둔다.
- 크롤링은 스크래핑을 포함할 수 있다. 크롤링 과정에서 각 페이지를 방문할 때, 스크래핑을 통해 필요한 데이터를 추출할 수 있다.

웹 크롤링에 사용되는 도구
- BeautifulSoup: Python 라이브러리로, HTML 및 XML 문서를 구문 분석하고 데이터를 추출하는 데 사용.

- Scrapy: 웹 크롤링을 위한 Python 프레임워크로, 효율적이고 확장성이 높은 크롤러를 쉽게 만들 수 있다.

- Selenium: 웹 브라우저 자동화 도구로, JavaScript가 동적으로 로드되는 페이지를 크롤링할 때 유용.

- Requests: Python의 HTTP 라이브러리로, 웹 페이지 요청을 쉽게 할 수 있다.

웹 크롤링의 기본 과정
- 크롤러 설정: 크롤러는 특정 웹 페이지를 시작점으로 설정. 이를 '시드(seed)'라고 부르며, 크롤러는 이 시드 URL에서 시작해 다른 페이지로 이동.

- 페이지 요청: 크롤러는 HTTP 요청을 보내 웹 페이지를 요청. 이 과정에서 크롤러는 브라우저처럼 행동하여 웹 서버에서 페이지를 가져온다.

- 데이터 추출: 웹 페이지가 응답되면, 크롤러는 페이지의 HTML을 분석하고 필요한 데이터를 추출. 이 과정에는 BeautifulSoup, Selenium 같은 라이브러리가 사용될 수 있다.

- 링크 추출 및 큐잉: 크롤러는 현재 페이지에서 다른 페이지로 연결되는 링크를 추출하고, 이 링크들을 큐(queue)에 추가하여 다음 크롤링 대상으로 삼는다.

- 반복: 이 과정은 정해진 규칙이나 종료 조건이 충족될 때까지 반복. 예를 들어, 특정 수의 페이지를 크롤링하거나, 주어진 도메인 내에서만 크롤링하도록 설정할 수 있다.

웹 크롤링의 주의사항

- 로봇 배제 표준(robots.txt): 많은 웹사이트는 robots.txt 파일을 통해 크롤러가 접근 가능한 부분과 접근을 제한하는 부분을 명시. 크롤러는 이 규칙을 준수해야 한다.

- 저작권 및 법적 이슈: 모든 웹사이트의 콘텐츠는 저작권의 보호를 받는다. 따라서 크롤링을 통해 수집한 데이터를 어떻게 사용할지에 대한 법적 문제를 주의해야 한다.

- 서버 부하: 지나친 크롤링은 웹 서버에 부하를 줄 수 있다. 크롤링 시에는 서버의 부담을 줄이기 위해 요청 간의 딜레이를 설정하는 것이 좋다.

#### BeautifulSoup
- BeautifulSoup은 HTML이나 XML 문서를 파싱하고, 파싱한 데이터에서 원하는 요소를 검색하고 추출하는 데 매우 유용한 도구입니다. 
- BeautifulSoup에서 객체를 찾는 주요 방법에는 find, find_all, select_one, select, find_parents, find_parent, find_next_sibling, find_previous_sibling 등이 있습니다.

검색 방식
- find, find_all: 태그 이름과 속성을 사용하여 요소를 검색합니다.
- select_one, select: CSS 선택자를 사용하여 요소를 검색합니다.

반환 결과:
- find: 첫 번째로 일치하는 요소를 반환합니다.
- find_all: 모든 일치하는 요소를 리스트로 반환합니다.
- select_one: 첫 번째로 일치하는 요소를 반환합니다.
- select: 모든 일치하는 요소를 리스트로 반환합니다.

표현력:
- select_one, select: 더 복잡하고 정교한 선택 조건을 지정할 수 있습니다. 예를 들어, CSS 선택자 문법을 사용하여 클래스, ID, 속성 등을 조합한 검색이 가능합니다.
- find, find_all: 단순한 태그 이름과 속성 조건에 기반한 검색이 주로 사용됩니다.


html.parser vs. lxml
- 파이썬에서 HTML 및 XML 문서를 파싱(parsing)하는 라이브러리
- html.parser는 HTML 문서를 파싱하는 데에 적합한 파서. 파이썬의 기본 라이브러리로 제공되며 파이썬 내부적으로 구현되어 있으며, 외부 종속성이 없으므로 파이썬과 함께 설치되는 패키지만 사용할 수 있습니다.
- lxml은 C 언어로 작성된 파이썬 외부 라이브러리로서 HTML 및 XML 문서를 파싱하는 데에 적합하며, 파서 성능이 매우 우수합니다.
- HTML 문서를 파싱하는 경우에는 html.parser를 사용하는 것이 간단하고 편리하며, 대부분의 경우에는 충분한 성능을 제공합니다. 그러나 대용량의 XML 문서나 매우 복잡한 HTML 문서를 파싱해야 하는 경우에는 lxml을 사용하는 것이 더 효율적입니다.

In [8]:
from IPython.core.display import display, HTML

html_content = '''
<html>
    <body>
        <h1>Title</h1>
        <p class="content">First paragraph.</p>
        <p class="content">Second paragraph.</p>
    </body>
</html>
'''

display(HTML(html_content))

  from IPython.core.display import display, HTML


In [10]:
# Task1_0619. 다음 사항을 수행하세요.
# 첫 번째로 매칭되는 'p' 태그 찾기
from bs4 import BeautifulSoup

soup = BeautifulSoup(html_content, 'html.parser')
first_p_tag = soup.find('p')

print(first_p_tag)

# 모든 'p' 태그 찾기
from bs4 import BeautifulSoup

soup = BeautifulSoup(html_content, 'html.parser')
p_tags = soup.find_all('p')

for p_tag in p_tags:
    print(p_tag)

# 클래스가 'content'인 첫 번째 'p' 태그 찾기
content_p_tag = soup.find('p', class_='content')
print(content_p_tag)
# 클래스가 'content'인 모든 'p' 태그 찾기
content_p_tags = soup.find_all('p', class_='content')
print(content_p_tags)
# 특정 'p' 태그의 모든 부모 태그 찾기
soup = BeautifulSoup(html_content, 'html.parser')

p_tag = soup.find('p', class_='content')
parent_tags = list(p_tag.parents)
for parent in parent_tags:
    print(parent.name)
# 특정 'p' 태그의 첫 번째 부모 태그 찾기
soup = BeautifulSoup(html_content, 'html.parser')
p_tag = soup.find('p', class_='content')
parent_tag = p_tag.find_parent()
print(parent_tag)
# 특정 'p' 태그의 다음 형제 태그 찾기
soup = BeautifulSoup(html_content, 'html.parser')
p_tag = soup.find('p', class_='content')
next_sibling_tag = p_tag.find_next_sibling()
print(next_sibling_tag)
# 특정 'p' 태그의 이전 형제 태그 찾기
soup = BeautifulSoup(html_content, 'html.parser')
p_tag = soup.find_all('p', class_='content')[1]
previous_sibling_tag = p_tag.find_previous_sibling()
print(previous_sibling_tag)
# 특정 'p' 태그 다음에 위치한 모든 태그나 문자열 찾기
soup = BeautifulSoup(html_content, 'html.parser')
p_tag = soup.find('p', class_='content')
next_elements = p_tag.next_elements
for element in next_elements:
    print(repr(element))
# 특정 'p' 태그 이전에 위치한 모든 태그나 문자열 찾기 
soup = BeautifulSoup(html_content, 'html.parser')
p_tag = soup.find('p', class_='content')
previous_elements = p_tag.previous_elements
for element in previous_elements:
    print(repr(element))

<p class="content">First paragraph.</p>
<p class="content">First paragraph.</p>
<p class="content">Second paragraph.</p>
<p class="content">First paragraph.</p>
[<p class="content">First paragraph.</p>, <p class="content">Second paragraph.</p>]
body
html
[document]
<body>
<h1>Title</h1>
<p class="content">First paragraph.</p>
<p class="content">Second paragraph.</p>
</body>
<p class="content">Second paragraph.</p>
<p class="content">First paragraph.</p>
'First paragraph.'
'\n'
<p class="content">Second paragraph.</p>
'Second paragraph.'
'\n'
'\n'
'\n'
'\n'
'Title'
<h1>Title</h1>
'\n'
<body>
<h1>Title</h1>
<p class="content">First paragraph.</p>
<p class="content">Second paragraph.</p>
</body>
'\n'
<html>
<body>
<h1>Title</h1>
<p class="content">First paragraph.</p>
<p class="content">Second paragraph.</p>
</body>
</html>
'\n'


headers : HTTP 요청에 포함되는 메타데이터
- User-Agent: 클라이언트 애플리케이션(브라우저 등)을 나타냅니다.
- Accept: 서버가 어떤 콘텐츠 타입을 반환해야 하는지 지정합니다.
- Accept-Language: 클라이언트가 선호하는 언어를 지정합니다.
- Referer: 요청이 발생한 이전 페이지의 URL을 지정합니다.
- Host: 요청을 보내는 서버의 호스트 이름을 지정합니다.
- Connection: 서버와 클라이언트 간의 연결 유형을 지정합니다.

```
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
    'Accept-Language': 'en-US,en;q=0.9',
    'Referer': 'http://example.com',
}
```

In [7]:
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}

response.content:
- response.content는 서버에서 반환된 응답을 바이트(byte) 문자열로 제공합니다.
- 주로 이미지, 파일 다운로드와 같은 바이너리 데이터를 다룰 때 사용됩니다.
- 인코딩과 상관없이 원본 그대로의 데이터를 가져오기 때문에, HTML 파싱을 할 때는 별도로 인코딩을 지정하지 않으면 기본 인코딩을 사용합니다.

response.text:
- response.text는 서버에서 반환된 응답을 유니코드 문자열로 제공합니다.
- requests 라이브러리는 response.text를 반환할 때, response.encoding에 지정된 인코딩을 사용하여 바이트 데이터를 유니코드 문자열로 디코딩합니다.
- 일반적인 텍스트 데이터, HTML, JSON 등의 처리를 할 때 유용합니다.

In [15]:
# Task2_0619. ID를 이용해서 '네이버 뉴스' 추출하세요.
import requests
from bs4 import BeautifulSoup

url = 'http://www.naver.com'
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
news = soup.find(id='news')
print(news)


None


In [16]:
# Task3_0619. soup.find_all(class_='Nitem_link_menu') 대신에 select를 이용하여 동일한 결과를 출력하세요.
import requests
from bs4 import BeautifulSoup

url = 'http://www.naver.com'
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
news = soup.select('.Nitem_link_menu')
for item in news:
    print(item)

In [17]:
# Task4_0619. select_one을 이용해서 'https://news.naver.com'에서 "뉴스"를 출력하세요
import requests
from bs4 import BeautifulSoup

url = 'https://news.naver.com'
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
news = soup.select_one('.news')
print(news)

None


In [19]:
#Task5_0619.'https://news.naver.com'에서 아래 예시와 같이 뉴스 기사 제목을 모두 출력하세요. 

# 예시: 1: [속보] '훈련병 사망' 얼차려 지시 중대장·부중대장 피의자 신분 첫 소환조사

import requests
from bs4 import BeautifulSoup

url = 'https://news.naver.com'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

response = requests.get(url, headers=headers)

soup = BeautifulSoup(response.text, 'html.parser')

titles = soup.select('.hdline_article_tit a, .com_list li a')

for index, title in enumerate(titles, start=1):
    print(f"{index}: {title.get_text(strip=True)}")
