In [3]:
!python --version

Python 3.10.13


In [4]:
!where python

c:\Users\Administrator\anaconda3\envs\myenv\python.exe
C:\Users\Administrator\anaconda3\python.exe
C:\Users\Administrator\AppData\Local\Microsoft\WindowsApps\python.exe


In [5]:
# 현재 디텍토리 확인
print('current directory:')
%pwd

current directory:


'd:\\workspace\\M3_분석라이브러리\\crawling'

## 웹문서 구조 이해

#### DOM (Document Object Model)

- DOM은 HTML 문서의 구조를 트리 형태로 표현한 모델입니다. JavaScript와 같은 언어를 사용하여 DOM을 탐색하고 수정할 수 있습니다.
- DOM 구조
```
<!DOCTYPE html>
<html>
<head>
    <title>Example</title>
</head>
<body>
    <h1>DOM Example</h1>
    <p id="intro">This is a simple DOM example.</p>
</body>
</html>
```

HTML 문서는 다음과 같은 DOM 트리로 표현
```
Document
└── html
    ├── head
    │   ├── title
    │   │   └── "Example"
    └── body
        ├── h1
        │   └── "DOM Example"
        └── p (id="intro")
            └── "This is a simple DOM example."
```

#### HTML 태그

```
기본 구조 태그
<!DOCTYPE html>: HTML 문서의 유형을 정의합니다. 최신 HTML5에서는 <!DOCTYPE html>을 사용합니다.
<html>: HTML 문서의 루트 요소입니다. 모든 HTML 문서의 최상위 요소입니다.
<head>: HTML 문서의 메타데이터를 포함합니다. 여기에는 문서 제목, 스타일 시트 링크, 스크립트 등이 포함됩니다.
<title>: 웹 페이지의 제목을 정의합니다. 이 제목은 브라우저 탭에 표시됩니다.
<meta>: 문서의 메타데이터를 정의합니다. 예를 들어, 문자 인코딩을 정의할 때 사용됩니다.
<link>: 외부 리소스를 문서에 연결합니다. 주로 CSS 파일을 연결할 때 사용됩니다.
<style>: 문서 내에 CSS 스타일을 정의합니다.
<body>: 실제로 브라우저에 표시되는 콘텐츠를 포함합니다.
```
```
콘텐츠 구조 태그
<header>: 문서나 섹션의 헤더를 정의합니다.
<nav>: 내비게이션 링크를 정의합니다.
<section>: 문서의 섹션을 정의합니다.
<article>: 독립적인 콘텐츠를 정의합니다.
<aside>: 주요 콘텐츠 외의 추가적인 콘텐츠를 정의합니다.
<footer>: 문서나 섹션의 푸터를 정의합니다.
```
```
텍스트 관련 태그
<h1> ~ <h6>: 제목을 정의합니다. <h1>은 가장 중요한 제목, <h6>은 가장 덜 중요한 제목입니다.
<p>: 단락을 정의합니다.
<a>: 하이퍼링크를 정의합니다. href 속성을 사용하여 링크 대상 URL을 지정합니다.
<strong>: 중요한 텍스트를 정의합니다. 일반적으로 굵게 표시됩니다.
<em>: 강조된 텍스트를 정의합니다. 일반적으로 기울임꼴로 표시됩니다.
<br>: 줄 바꿈을 삽입합니다.
<ul>: 순서 없는 목록을 정의합니다.
<ol>: 순서 있는 목록을 정의합니다.
<li>: 목록 항목을 정의합니다.
```
```
멀티미디어 태그
<img>: 이미지를 삽입합니다. src 속성을 사용하여 이미지 파일의 URL을 지정합니다.
<audio>: 오디오 콘텐츠를 삽입합니다.
<video>: 비디오 콘텐츠를 삽입합니다.
<iframe>: 다른 HTML 페이지를 현재 페이지에 삽입합니다.
```
```
테이블 태그
<table>: 표를 정의합니다.
<tr>: 표의 행을 정의합니다.
<td>: 표의 셀을 정의합니다.
<th>: 표의 헤더 셀을 정의합니다.
<thead>: 표의 머리글 섹션을 정의합니다.
<tbody>: 표의 본문 섹션을 정의합니다.
<tfoot>: 표의 바닥글 섹션을 정의합니다.
```
```
폼 태그
<form>: 사용자 입력을 받는 폼을 정의합니다.
<input>: 다양한 유형의 입력 필드를 정의합니다.
<textarea>: 여러 줄의 텍스트 입력 필드를 정의합니다.
<button>: 클릭 가능한 버튼을 정의합니다.
<select>: 드롭다운 목록을 정의합니다.
<option>: 드롭다운 목록의 항목을 정의합니다.
```


In [16]:
from bs4 import BeautifulSoup
import requests

url = 'http://example.com'
response = requests.get(url)
print(response.text)
soup = BeautifulSoup(response.text, 'html.parser')
soup.find_all('html')

<!doctype html>
<html>
<head>
    <title>Example Domain</title>

    <meta charset="utf-8" />
    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1" />
    <style type="text/css">
    body {
        background-color: #f0f0f2;
        margin: 0;
        padding: 0;
        font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;
        
    }
    div {
        width: 600px;
        margin: 5em auto;
        padding: 2em;
        background-color: #fdfdff;
        border-radius: 0.5em;
        box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02);
    }
    a:link, a:visited {
        color: #38488f;
        text-decoration: none;
    }
    @media (max-width: 700px) {
        div {
            margin: 0 auto;
            width: auto;
        }
    }
    </style>    
</head>

<body>
<div>
    <h1>Example Domain</h1>
    <p>This domai

[<html>
 <head>
 <title>Example Domain</title>
 <meta charset="utf-8"/>
 <meta content="text/html; charset=utf-8" http-equiv="Content-type"/>
 <meta content="width=device-width, initial-scale=1" name="viewport"/>
 <style type="text/css">
     body {
         background-color: #f0f0f2;
         margin: 0;
         padding: 0;
         font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;
         
     }
     div {
         width: 600px;
         margin: 5em auto;
         padding: 2em;
         background-color: #fdfdff;
         border-radius: 0.5em;
         box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02);
     }
     a:link, a:visited {
         color: #38488f;
         text-decoration: none;
     }
     @media (max-width: 700px) {
         div {
             margin: 0 auto;
             width: auto;
         }
     }
     </style>
 </head>
 <body>
 <div>
 <h1>Example Domain</h1>
 <p>This domain is for use in

In [19]:
soup.find('a')

<a href="https://www.iana.org/domains/example">More information...</a>

In [17]:
# 모든 <a> 태그 추출
links = soup.find_all('a')
for link in links:
    print(link.get('href'))


https://www.iana.org/domains/example


In [21]:
soup.find('div')

<div>
<h1>Example Domain</h1>
<p>This domain is for use in illustrative examples in documents. You may use this
    domain in literature without prior coordination or asking for permission.</p>
<p><a href="https://www.iana.org/domains/example">More information...</a></p>
</div>

In [20]:
# 모든 <div> 태그 추출
divs = soup.find_all('div')
for div in divs:
    print(div.text)


Example Domain
This domain is for use in illustrative examples in documents. You may use this
    domain in literature without prior coordination or asking for permission.
More information...



In [22]:
soup.find('h1')

<h1>Example Domain</h1>

In [25]:
# <h1> 태그 추출
tags = soup.find('h1')
print(tags.text)


Example Domain


In [29]:
meta_tags = soup.find_all('meta')
meta_tags

[<meta charset="utf-8"/>,
 <meta content="text/html; charset=utf-8" http-equiv="Content-type"/>,
 <meta content="width=device-width, initial-scale=1" name="viewport"/>]

In [28]:
# 모든 <meta> 태그 추출
for meta in meta_tags:
    print(meta.attrs)

{'charset': 'utf-8'}
{'http-equiv': 'Content-type', 'content': 'text/html; charset=utf-8'}
{'name': 'viewport', 'content': 'width=device-width, initial-scale=1'}


#### HTML 속성
- HTML 속성(Attribute)은 HTML 요소에 추가적인 정보를 제공하는 데 사용됩니다. 
- 속성은 시작 태그 내에 있으며, 이름-값 쌍으로 작성됩니다.<br>
    ```<a href="https://example.com" class="example-link">Example</a>```
- 각 속성은 요소의 특정 특성이나 동작을 정의합니다. 
    ```
    - <a>: 앵커 태그로, 하이퍼링크를 만듭니다.
    - href: 링크의 URL을 지정하는 속성입니다.
    - class: CSS 클래스를 지정하는 속성입니다.
    ```
- 속성의 값은 일반적으로 따옴표로 감싸지만, 따옴표 없이 작성할 수도 있습니다.
- HTML 속성의 기본 구조 :<br>
    ```<a href="https://www.example.com" target="_blank">Example Link</a>```

  여기서 a 태그는 두 개의 속성을 가집니다:
    ```
    href: 링크의 URL을 지정
    target: 링크를 여는 방식 지정 (_blank는 새 탭에서 열기)
    ```
- 주요 HTML 속성

    글로벌 속성 (Global Attributes): 거의 모든 HTML 요소에서 사용할 수 있는 속성들입니다.<br>    
    ```<div id="header" class="main-header" style="color: blue;" title="Header Section">Welcome!</div>```
    - id: 요소의 고유 식별자
    - class: CSS 클래스 지정
    - style: 인라인 CSS 스타일 지정
    - title: 요소에 대한 추가 정보 제공 (마우스를 올렸을 때 표시)
    - data-*: 페이지나 애플리케이션에 사용자 정의 데이터를 저장

    폼 속성 (Form Attributes): 주로 폼 요소에서 사용되는 속성들입니다.
    ```
    <form action="/submit" method="post">
      <input type="text" name="username" value="JohnDoe" placeholder="Enter your username">
      <input type="submit" value="Submit"> # type="submit": 이 입력 필드를 제출 버튼으로 정의
    </form>
    ```
    - action: 폼 제출 시 데이터를 전송할 URL
    - method: 폼 데이터 전송 방식 (GET, POST)
    - name: 폼 요소의 이름
    - value: 입력 요소의 초기 값
    - placeholder: 입력 필드에 표시되는 힌트 텍스트

    이미지 속성 (Image Attributes): 주로 이미지 요소에서 사용되는 속성들입니다.<br>
    ```<img src="image.jpg" alt="Example Image" width="200" height="100">```
    - src: 이미지 파일의 경로
    - alt: 이미지가 표시되지 않을 때 대체 텍스트
    - width와 height: 이미지의 크기 지정

    링크 속성 (Link Attributes): 주로 앵커(a) 태그에서 사용되는 속성들입니다.<br>    
    ```<a href="https://www.example.com" target="_blank" rel="noopener noreferrer">Visit Example</a>```
    - href: 링크의 URL
    - target: 링크를 열 방법 (_blank, _self, _parent, _top)
    - rel: 링크와 현재 문서 간의 관계

    메타 데이터 속성 (Metadata Attributes): 주로 meta 태그에서 사용되는 속성들입니다.
    ```
    <meta name="description" content="This is an example of a meta description.">
    <meta charset="UTF-8">
    ```
    - name: 메타 데이터의 이름 (예: description, keywords)
    - content: 메타 데이터의 내용
    - charset: 문서의 문자 인코딩

