## 웹문서 구조 이해

#### DOM (Document Object Model)

- DOM은 HTML 문서의 구조를 트리 형태로 표현한 모델입니다. JavaScript와 같은 언어를 사용하여 DOM을 탐색하고 수정할 수 있습니다.
- DOM 구조
```
<!DOCTYPE html>
<html>
<head>
    <title>Example</title>
</head>
<body>
    <h1>DOM Example</h1>
    <p id="intro">This is a simple DOM example.</p>
</body>
</html>
```

HTML 문서는 다음과 같은 DOM 트리로 표현
```
Document
└── html
    ├── head
    │   ├── title
    │   │   └── "Example"
    └── body
        ├── h1
        │   └── "DOM Example"
        └── p (id="intro")
            └── "This is a simple DOM example."
```

#### HTML 태그

```
기본 구조 태그
<!DOCTYPE html>: HTML 문서의 유형을 정의합니다. 최신 HTML5에서는 <!DOCTYPE html>을 사용합니다.
<html>: HTML 문서의 루트 요소입니다. 모든 HTML 문서의 최상위 요소입니다.
<head>: HTML 문서의 메타데이터를 포함합니다. 여기에는 문서 제목, 스타일 시트 링크, 스크립트 등이 포함됩니다.
<title>: 웹 페이지의 제목을 정의합니다. 이 제목은 브라우저 탭에 표시됩니다.
<meta>: 문서의 메타데이터를 정의합니다. 예를 들어, 문자 인코딩을 정의할 때 사용됩니다.
<link>: 외부 리소스를 문서에 연결합니다. 주로 CSS 파일을 연결할 때 사용됩니다.
<style>: 문서 내에 CSS 스타일을 정의합니다.
<body>: 실제로 브라우저에 표시되는 콘텐츠를 포함합니다.
```
```
콘텐츠 구조 태그
<header>: 문서나 섹션의 헤더를 정의합니다.
<nav>: 내비게이션 링크를 정의합니다.
<section>: 문서의 섹션을 정의합니다.
<article>: 독립적인 콘텐츠를 정의합니다.
<aside>: 주요 콘텐츠 외의 추가적인 콘텐츠를 정의합니다.
<footer>: 문서나 섹션의 푸터를 정의합니다.
```
```
텍스트 관련 태그
<h1> ~ <h6>: 제목을 정의합니다. <h1>은 가장 중요한 제목, <h6>은 가장 덜 중요한 제목입니다.
<p>: 단락을 정의합니다.
<a>: 하이퍼링크를 정의합니다. href 속성을 사용하여 링크 대상 URL을 지정합니다.
<strong>: 중요한 텍스트를 정의합니다. 일반적으로 굵게 표시됩니다.
<em>: 강조된 텍스트를 정의합니다. 일반적으로 기울임꼴로 표시됩니다.
<br>: 줄 바꿈을 삽입합니다.
<ul>: 순서 없는 목록을 정의합니다.
<ol>: 순서 있는 목록을 정의합니다.
<li>: 목록 항목을 정의합니다.
```
```
멀티미디어 태그
<img>: 이미지를 삽입합니다. src 속성을 사용하여 이미지 파일의 URL을 지정합니다.
<audio>: 오디오 콘텐츠를 삽입합니다.
<video>: 비디오 콘텐츠를 삽입합니다.
<iframe>: 다른 HTML 페이지를 현재 페이지에 삽입합니다.
```
```
테이블 태그
<table>: 표를 정의합니다.
<tr>: 표의 행을 정의합니다.
<td>: 표의 셀을 정의합니다.
<th>: 표의 헤더 셀을 정의합니다.
<thead>: 표의 머리글 섹션을 정의합니다.
<tbody>: 표의 본문 섹션을 정의합니다.
<tfoot>: 표의 바닥글 섹션을 정의합니다.
```
```
폼 태그
<form>: 사용자 입력을 받는 폼을 정의합니다.
<input>: 다양한 유형의 입력 필드를 정의합니다.
<textarea>: 여러 줄의 텍스트 입력 필드를 정의합니다.
<button>: 클릭 가능한 버튼을 정의합니다.
<select>: 드롭다운 목록을 정의합니다.
<option>: 드롭다운 목록의 항목을 정의합니다.
```

In [2]:
from bs4 import BeautifulSoup
import requests

url = 'https://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
soup.find_all('html')

[<html>
 <head>
 <title>Example Domain</title>
 <meta charset="utf-8"/>
 <meta content="text/html; charset=utf-8" http-equiv="Content-type"/>
 <meta content="width=device-width, initial-scale=1" name="viewport"/>
 <style type="text/css">
     body {
         background-color: #f0f0f2;
         margin: 0;
         padding: 0;
         font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;
         
     }
     div {
         width: 600px;
         margin: 5em auto;
         padding: 2em;
         background-color: #fdfdff;
         border-radius: 0.5em;
         box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02);
     }
     a:link, a:visited {
         color: #38488f;
         text-decoration: none;
     }
     @media (max-width: 700px) {
         div {
             margin: 0 auto;
             width: auto;
         }
     }
     </style>
 </head>
 <body>
 <div>
 <h1>Example Domain</h1>
 <p>This domain is for use in

In [3]:
# 모든 <a> 태그 추출
links = soup.find_all('a')
for link in links:
    print(link.get('href'))
    

https://www.iana.org/domains/example


In [4]:
# 클래스 이름이 'example-class '인 <div> 태그 추출
divs = soup.find_all('div')
for div in divs:
    print(div.text)


Example Domain
This domain is for use in illustrative examples in documents. You may use this
    domain in literature without prior coordination or asking for permission.
More information...



In [6]:
# <h1> 태그 추출
h1s = soup.find('h1')
for h1 in h1s:
    print(h1.text)

Example Domain


In [7]:
meta_tags = soup.find_all('meta')
meta_tags

[<meta charset="utf-8"/>,
 <meta content="text/html; charset=utf-8" http-equiv="Content-type"/>,
 <meta content="width=device-width, initial-scale=1" name="viewport"/>]

In [8]:
# 모든 <meta> 태그 추출
for meta in meta_tags:
    print(meta.attrs)

{'charset': 'utf-8'}
{'http-equiv': 'Content-type', 'content': 'text/html; charset=utf-8'}
{'name': 'viewport', 'content': 'width=device-width, initial-scale=1'}


#### HTML 속성
- HTML 속성(Attribute)은 HTML 요소에 추가적인 정보를 제공하는 데 사용됩니다. 
- 속성은 시작 태그 내에 있으며, 이름-값 쌍으로 작성됩니다.<br>
    ```<a href="https://example.com" class="example-link">Example</a>```
- 각 속성은 요소의 특정 특성이나 동작을 정의합니다. 
    ```
    - <a>: 앵커 태그로, 하이퍼링크를 만듭니다.
    - href: 링크의 URL을 지정하는 속성입니다.
    - class: CSS 클래스를 지정하는 속성입니다.
    ```
- 속성의 값은 일반적으로 따옴표로 감싸지만, 따옴표 없이 작성할 수도 있습니다.
- HTML 속성의 기본 구조 :<br>
    ```<a href="https://www.example.com" target="_blank">Example Link</a>```

  여기서 a 태그는 두 개의 속성을 가집니다:
    ```
    href: 링크의 URL을 지정
    target: 링크를 여는 방식 지정 (_blank는 새 탭에서 열기)
    ```
- 주요 HTML 속성

    글로벌 속성 (Global Attributes): 거의 모든 HTML 요소에서 사용할 수 있는 속성들입니다.<br>    
    ```<div id="header" class="main-header" style="color: blue;" title="Header Section">Welcome!</div>```
    - id: 요소의 고유 식별자
    - class: CSS 클래스 지정
    - style: 인라인 CSS 스타일 지정
    - title: 요소에 대한 추가 정보 제공 (마우스를 올렸을 때 표시)
    - data-*: 페이지나 애플리케이션에 사용자 정의 데이터를 저장

    폼 속성 (Form Attributes): 주로 폼 요소에서 사용되는 속성들입니다.
    ```
    <form action="/submit" method="post">
      <input type="text" name="username" value="JohnDoe" placeholder="Enter your username">
      <input type="submit" value="Submit"> # type="submit": 이 입력 필드를 제출 버튼으로 정의
    </form>
    ```
    - action: 폼 제출 시 데이터를 전송할 URL
    - method: 폼 데이터 전송 방식 (GET, POST)
    - name: 폼 요소의 이름
    - value: 입력 요소의 초기 값
    - placeholder: 입력 필드에 표시되는 힌트 텍스트

    이미지 속성 (Image Attributes): 주로 이미지 요소에서 사용되는 속성들입니다.<br>
    ```<img src="image.jpg" alt="Example Image" width="200" height="100">```
    - src: 이미지 파일의 경로
    - alt: 이미지가 표시되지 않을 때 대체 텍스트
    - width와 height: 이미지의 크기 지정

    링크 속성 (Link Attributes): 주로 앵커(a) 태그에서 사용되는 속성들입니다.<br>    
    ```<a href="https://www.example.com" target="_blank" rel="noopener noreferrer">Visit Example</a>```
    - href: 링크의 URL
    - target: 링크를 열 방법 (_blank, _self, _parent, _top)
    - rel: 링크와 현재 문서 간의 관계

    메타 데이터 속성 (Metadata Attributes): 주로 meta 태그에서 사용되는 속성들입니다.
    ```
    <meta name="description" content="This is an example of a meta description.">
    <meta charset="UTF-8">
    ```
    - name: 메타 데이터의 이름 (예: description, keywords)
    - content: 메타 데이터의 내용
    - charset: 문서의 문자 인코딩


In [9]:
from bs4 import BeautifulSoup

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a>
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>
</body></html>
"""

Task6_0618. 주어진 HTML 문서에서 모든 $<a>$ 태그를 추출하세요.

In [11]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(html_doc, 'html.parser')
links = soup.find_all('a')

for link in links:
    print(link)

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>


Task7_0618. 주어진 HTML 문서에서 첫 번째 $<p>$ 태그의 텍스트를 추출하세요.

In [14]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(html_doc, 'html.parser')
first_p = soup.find('p')
text = first_p.get_text()
print(text)

The Dormouse's story


Task8_0618. 주어진 HTML 문서에서 모든 링크의 URL을 추출하세요.

In [15]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')
links = soup.find_all('a')

for link in links:
    url = link.get('href')
    print(url)

http://example.com/elsie
http://example.com/lacie
http://example.com/tillie


Task9_0618. 주어진 HTML 문서에서 클래스가 sister인 모든 태그를 추출하세요.

In [16]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')
tags = soup.find_all(class_="sister")

for tag in tags:
    print(tag)

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>


Task10_0618. 주어진 HTML 문서에서 ID가 link1인 태그를 추출하세요

In [17]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')
tag = soup.find(id="link1")

print(tag)

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>


Task11_0618. 주어진 HTML 문서에서 모든 텍스트를 추출하세요.

In [18]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')
text = soup.get_text()

print(text)


The Dormouse's story

The Dormouse's story
Elsie
Lacie
Tillie




Task12_0618. 주어진 HTML 문서에서 href 속성이 http://example.com/lacie인 태그를 추출하세요.

In [19]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')
tag = soup.find('a', href='http://example.com/lacie')

print(tag)

<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>


Task13_0618. 주어진 HTML 문서에서 ID가 link1인 태그의 부모 태그를 추출하세요.

In [20]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')
tag = soup.find(id="link1")
parent_tag = tag.parent

print(parent_tag)

<body>
<p class="title"><b>The Dormouse's story</b></p>
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>
</body>


Task14_0618. 주어진 HTML 문서에서 ID가 link1인 태그의 다음 형제 태그를 추출하세요.

In [21]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')
tag = soup.find(id="link1")
next_sibling = tag.find_next_sibling()

print(next_sibling)

<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>


Task15_0618. 주어진 HTML 문서에서 ID가 link1인 태그의 href 속성 값을 추출하세요.

In [22]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')
tag = soup.find(id="link1")
href_value = tag.get('href')

print(href_value)

http://example.com/elsie


#### CSS 셀렉터

CSS 셀렉터는 HTML 요소를 선택하기 위해 사용됩니다. 크롤링 시 특정 요소를 선택할 때 유용합니다. 예:
```
#id: 특정 id를 가진 요소를 선택합니다.
.class: 특정 클래스를 가진 요소를 선택합니다.
tagname: 특정 태그명을 가진 요소를 선택합니다.
```
```
[ CSS 셀렉터의 주요 유형과 그 사용법]

1. 기본 셀렉터
    요소 셀렉터
    문법: element
    설명: 지정된 태그 이름의 모든 HTML 요소를 선택합니다.
    예시: p { color: blue; }는 모든 <p> 요소의 텍스트 색상을 파란색으로 설정합니다.
    클래스 셀렉터
    문법: .class
    설명: 특정 클래스 이름을 가진 모든 요소를 선택합니다.
    예시: .highlight { background-color: yellow; }는 클래스가 "highlight"인 모든 요소의 배경색을 노란색으로 설정합니다.
    ID 셀렉터
    문법: #id
    설명: 특정 ID를 가진 요소를 선택합니다. HTML 문서에서 ID는 고유해야 합니다.
    예시: #header { font-size: 24px; }는 ID가 "header"인 요소의 글꼴 크기를 24px로 설정합니다.

2. 속성 셀렉터
    속성 존재 셀렉터
    문법: [attribute]
    설명: 특정 속성이 있는 모든 요소를 선택합니다.
    예시: [title] { border: 1px solid black; }는 "title" 속성이 있는 모든 요소에 테두리를 추가합니다.
    특정 속성 값 셀렉터
    문법: [attribute=value]
    설명: 지정된 속성이 특정 값을 가진 모든 요소를 선택합니다.
    예시: [type="text"] { color: green; }는 type 속성이 "text"인 모든 입력 요소의 텍스트 색상을 초록색으로 설정합니다.

3. 결합 셀렉터
    자손 셀렉터
    문법: ancestor descendant
    설명: 특정 요소의 자손인 모든 요소를 선택합니다.
    예시: div p { margin: 10px; }는 <div> 요소의 자손인 모든 <p> 요소에 10px의 마진을 설정합니다.
    자식 셀렉터
    문법: parent > child
    설명: 특정 요소의 직계 자식인 모든 요소를 선택합니다.
    예시: ul > li { list-style-type: none; }는 <ul> 요소의 직계 자식인 모든 <li> 요소의 리스트 스타일을 제거합니다.
    인접 형제 셀렉터
    문법: element + adjacent
    설명: 특정 요소의 바로 다음 형제 요소를 선택합니다.
    예시: h1 + p { margin-top: 0; }는 <h1> 요소 바로 다음에 오는 <p> 요소의 위쪽 마진을 제거합니다.
    일반 형제 셀렉터
    문법: element ~ siblings
    설명: 특정 요소 이후의 모든 형제 요소를 선택합니다.
    예시: h2 ~ p { color: grey; }는 <h2> 요소 이후의 모든 <p> 요소의 텍스트 색상을 회색으로 설정합니다.

4. 가상 클래스 셀렉터
    동적 가상 클래스 셀렉터
    문법: :pseudo-class
    설명: 요소의 특정 상태를 선택합니다.
    예시: a:hover { color: red; }는 링크에 마우스를 올렸을 때 텍스트 색상을 빨간색으로 변경합니다.
    구조적 가상 클래스 셀렉터
    문법: :nth-child(n)
    설명: 부모 요소의 자식 중 특정 위치에 있는 요소를 선택합니다.
    예시: li:nth-child(odd) { background-color: #f2f2f2; }는 홀수 번째 <li> 요소의 배경색을 회색으로 설정합니다.

5. 가상 요소 셀렉터
    문법: ::pseudo-element
    설명: 요소의 일부를 선택합니다.
    예시: p::first-line { font-weight: bold; }는 단락의 첫 번째 줄을 굵게 만듭니다.

6. 속성값 서브스트링 매칭 셀렉터
    시작 문자열 매칭 셀렉터
    문법: [attribute^=value]
    설명: 특정 속성 값이 지정된 문자열로 시작하는 요소를 선택합니다.
    예시: [class^="btn"] { background-color: blue; }는 클래스 이름이 "btn"으로 시작하는 모든 요소의 배경색을 파란색으로 설정합니다.
    끝 문자열 매칭 셀렉터
    문법: [attribute$=value]
    설명: 특정 속성 값이 지정된 문자열로 끝나는 요소를 선택합니다.
    예시: [class$="danger"] { color: red; }는 클래스 이름이 "danger"로 끝나는 모든 요소의 텍스트 색상을 빨간색으로 설정합니다.
    포함 문자열 매칭 셀렉터
    문법: [attribute*=value]
    설명: 특정 속성 값이 지정된 문자열을 포함하는 요소를 선택합니다.
    예시: [class*="nav"] { font-size: 18px; }는 클래스 이름에 "nav"를 포함하는 모든 요소의 글꼴 크기를 18px로 설정합니다.

```