## 웹문서 구조 이해

#### DOM (Document Object Model)

- DOM은 HTML 문서의 구조를 트리 형태로 표현한 모델입니다. JavaScript와 같은 언어를 사용하여 DOM을 탐색하고 수정할 수 있습니다.

#### HTML 태그

```
기본 구조 태그
<!DOCTYPE html>: HTML 문서의 유형을 정의합니다. 최신 HTML5에서는 <!DOCTYPE html>을 사용합니다.
<html>: HTML 문서의 루트 요소입니다. 모든 HTML 문서의 최상위 요소입니다.
<head>: HTML 문서의 메타데이터를 포함합니다. 여기에는 문서 제목, 스타일 시트 링크, 스크립트 등이 포함됩니다.
<title>: 웹 페이지의 제목을 정의합니다. 이 제목은 브라우저 탭에 표시됩니다.
<meta>: 문서의 메타데이터를 정의합니다. 예를 들어, 문자 인코딩을 정의할 때 사용됩니다.
<link>: 외부 리소스를 문서에 연결합니다. 주로 CSS 파일을 연결할 때 사용됩니다.
<style>: 문서 내에 CSS 스타일을 정의합니다.
<body>: 실제로 브라우저에 표시되는 콘텐츠를 포함합니다.
```
```
콘텐츠 구조 태그
<header>: 문서나 섹션의 헤더를 정의합니다.
<nav>: 내비게이션 링크를 정의합니다.
<section>: 문서의 섹션을 정의합니다.
<article>: 독립적인 콘텐츠를 정의합니다.
<aside>: 주요 콘텐츠 외의 추가적인 콘텐츠를 정의합니다.
<footer>: 문서나 섹션의 푸터를 정의합니다.
```
```
텍스트 관련 태그
<h1> ~ <h6>: 제목을 정의합니다. <h1>은 가장 중요한 제목, <h6>은 가장 덜 중요한 제목입니다.
<p>: 단락을 정의합니다.
<a>: 하이퍼링크를 정의합니다. href 속성을 사용하여 링크 대상 URL을 지정합니다.
<strong>: 중요한 텍스트를 정의합니다. 일반적으로 굵게 표시됩니다.
<em>: 강조된 텍스트를 정의합니다. 일반적으로 기울임꼴로 표시됩니다.
<br>: 줄 바꿈을 삽입합니다.
<ul>: 순서 없는 목록을 정의합니다.
<ol>: 순서 있는 목록을 정의합니다.
<li>: 목록 항목을 정의합니다.
```
```
멀티미디어 태그
<img>: 이미지를 삽입합니다. src 속성을 사용하여 이미지 파일의 URL을 지정합니다.
<audio>: 오디오 콘텐츠를 삽입합니다.
<video>: 비디오 콘텐츠를 삽입합니다.
<iframe>: 다른 HTML 페이지를 현재 페이지에 삽입합니다.
```
```
테이블 태그
<table>: 표를 정의합니다.
<tr>: 표의 행을 정의합니다.
<td>: 표의 셀을 정의합니다.
<th>: 표의 헤더 셀을 정의합니다.
<thead>: 표의 머리글 섹션을 정의합니다.
<tbody>: 표의 본문 섹션을 정의합니다.
<tfoot>: 표의 바닥글 섹션을 정의합니다.
```
```
폼 태그
<form>: 사용자 입력을 받는 폼을 정의합니다.
<input>: 다양한 유형의 입력 필드를 정의합니다.
<textarea>: 여러 줄의 텍스트 입력 필드를 정의합니다.
<button>: 클릭 가능한 버튼을 정의합니다.
<select>: 드롭다운 목록을 정의합니다.
<option>: 드롭다운 목록의 항목을 정의합니다.
```


HTML 태그와 속성

각 HTML 요소는 태그와 속성으로 구성됩니다. 예를 들어:
```<a href="https://example.com" class="example-link">Example</a>```
```
- <a>: 앵커 태그로, 하이퍼링크를 만듭니다.
- href: 링크의 URL을 지정하는 속성입니다.
- class: CSS 클래스를 지정하는 속성입니다.
```

#### CSS 셀렉터

CSS 셀렉터는 HTML 요소를 선택하기 위해 사용됩니다. 크롤링 시 특정 요소를 선택할 때 유용합니다. 예:
```
#id: 특정 id를 가진 요소를 선택합니다.
.class: 특정 클래스를 가진 요소를 선택합니다.
tagname: 특정 태그명을 가진 요소를 선택합니다.
```
```
[ CSS 셀렉터의 주요 유형과 그 사용법]

1. 기본 셀렉터
    요소 셀렉터
    문법: element
    설명: 지정된 태그 이름의 모든 HTML 요소를 선택합니다.
    예시: p { color: blue; }는 모든 <p> 요소의 텍스트 색상을 파란색으로 설정합니다.
    클래스 셀렉터
    문법: .class
    설명: 특정 클래스 이름을 가진 모든 요소를 선택합니다.
    예시: .highlight { background-color: yellow; }는 클래스가 "highlight"인 모든 요소의 배경색을 노란색으로 설정합니다.
    ID 셀렉터
    문법: #id
    설명: 특정 ID를 가진 요소를 선택합니다. HTML 문서에서 ID는 고유해야 합니다.
    예시: #header { font-size: 24px; }는 ID가 "header"인 요소의 글꼴 크기를 24px로 설정합니다.

2. 속성 셀렉터
    속성 존재 셀렉터
    문법: [attribute]
    설명: 특정 속성이 있는 모든 요소를 선택합니다.
    예시: [title] { border: 1px solid black; }는 "title" 속성이 있는 모든 요소에 테두리를 추가합니다.
    특정 속성 값 셀렉터
    문법: [attribute=value]
    설명: 지정된 속성이 특정 값을 가진 모든 요소를 선택합니다.
    예시: [type="text"] { color: green; }는 type 속성이 "text"인 모든 입력 요소의 텍스트 색상을 초록색으로 설정합니다.

3. 결합 셀렉터
    자손 셀렉터
    문법: ancestor descendant
    설명: 특정 요소의 자손인 모든 요소를 선택합니다.
    예시: div p { margin: 10px; }는 <div> 요소의 자손인 모든 <p> 요소에 10px의 마진을 설정합니다.
    자식 셀렉터
    문법: parent > child
    설명: 특정 요소의 직계 자식인 모든 요소를 선택합니다.
    예시: ul > li { list-style-type: none; }는 <ul> 요소의 직계 자식인 모든 <li> 요소의 리스트 스타일을 제거합니다.
    인접 형제 셀렉터
    문법: element + adjacent
    설명: 특정 요소의 바로 다음 형제 요소를 선택합니다.
    예시: h1 + p { margin-top: 0; }는 <h1> 요소 바로 다음에 오는 <p> 요소의 위쪽 마진을 제거합니다.
    일반 형제 셀렉터
    문법: element ~ siblings
    설명: 특정 요소 이후의 모든 형제 요소를 선택합니다.
    예시: h2 ~ p { color: grey; }는 <h2> 요소 이후의 모든 <p> 요소의 텍스트 색상을 회색으로 설정합니다.

4. 가상 클래스 셀렉터
    동적 가상 클래스 셀렉터
    문법: :pseudo-class
    설명: 요소의 특정 상태를 선택합니다.
    예시: a:hover { color: red; }는 링크에 마우스를 올렸을 때 텍스트 색상을 빨간색으로 변경합니다.
    구조적 가상 클래스 셀렉터
    문법: :nth-child(n)
    설명: 부모 요소의 자식 중 특정 위치에 있는 요소를 선택합니다.
    예시: li:nth-child(odd) { background-color: #f2f2f2; }는 홀수 번째 <li> 요소의 배경색을 회색으로 설정합니다.

5. 가상 요소 셀렉터
    문법: ::pseudo-element
    설명: 요소의 일부를 선택합니다.
    예시: p::first-line { font-weight: bold; }는 단락의 첫 번째 줄을 굵게 만듭니다.

6. 속성값 서브스트링 매칭 셀렉터
    시작 문자열 매칭 셀렉터
    문법: [attribute^=value]
    설명: 특정 속성 값이 지정된 문자열로 시작하는 요소를 선택합니다.
    예시: [class^="btn"] { background-color: blue; }는 클래스 이름이 "btn"으로 시작하는 모든 요소의 배경색을 파란색으로 설정합니다.
    끝 문자열 매칭 셀렉터
    문법: [attribute$=value]
    설명: 특정 속성 값이 지정된 문자열로 끝나는 요소를 선택합니다.
    예시: [class$="danger"] { color: red; }는 클래스 이름이 "danger"로 끝나는 모든 요소의 텍스트 색상을 빨간색으로 설정합니다.
    포함 문자열 매칭 셀렉터
    문법: [attribute*=value]
    설명: 특정 속성 값이 지정된 문자열을 포함하는 요소를 선택합니다.
    예시: [class*="nav"] { font-size: 18px; }는 클래스 이름에 "nav"를 포함하는 모든 요소의 글꼴 크기를 18px로 설정합니다.

```

#### XPath

XPath는 XML 문서의 경로를 지정하기 위한 언어로, HTML 문서에서도 사용할 수 있습니다. 예:

```//div[@id='main']: id가 'main'인 모든 <div> 요소를 선택합니다.```

#### 웹페이지의 동적 로딩

일부 웹페이지는 JavaScript를 통해 동적으로 콘텐츠를 로드합니다. 이러한 페이지는 단순히 HTML을 요청하는 것으로는 모든 콘텐츠를 얻을 수 없으며, Selenium과 같은 도구를 사용하여 JavaScript를 실행하는 것이 필요할 수 있습니다.

#### HTTP 요청과 응답

웹 크롤링은 HTTP 프로토콜을 통해 웹페이지에 접근합니다. HTTP 요청과 응답의 기본 개념을 이해하는 것이 중요합니다.

- HTTP 메서드 (GET, POST 등)
- 상태 코드 (200, 404 등)

#### 크롤링 도구와 라이브러리

다양한 도구와 라이브러리가 크롤링을 도와줍니다.

- BeautifulSoup: HTML과 XML 파일을 파싱하는 라이브러리입니다.
- Requests: HTTP 요청을 보내기 위한 라이브러리입니다.
- Selenium: 웹 브라우저를 자동화하고 동적 웹페이지를 크롤링하는 데 사용됩니다.

In [1]:
import requests
from bs4 import BeautifulSoup

# 웹페이지 요청
url = 'https://example.com'
response = requests.get(url)

# HTML 파싱
soup = BeautifulSoup(response.text, 'html.parser')

# 특정 요소 선택
title = soup.find('title').get_text()
print(title)


Example Domain


In [7]:
import requests
from bs4 import BeautifulSoup

# URL을 입력하세요
url = 'https://naver.com'

# 요청 보내기
response = requests.get(url)
html = response.text

# BeautifulSoup 객체 생성
soup = BeautifulSoup(html, 'html.parser')

# 제목 추출
title = soup.find('title').text

print("웹 페이지의 제목:", title)




웹 페이지의 제목: NAVER


In [8]:
import requests
from bs4 import BeautifulSoup

# URL을 입력하세요
url = 'https://naver.com'

# 요청 보내기
response = requests.get(url)
html = response.text

# BeautifulSoup 객체 생성
soup = BeautifulSoup(html, 'html.parser')

# h1 태그의 텍스트 추출
h1_text = soup.find('h1').text if soup.find('h1') else 'h1 태그가 없습니다'

print("h1 태그의 텍스트:", h1_text)



h1 태그의 텍스트: 


In [9]:
import requests
from bs4 import BeautifulSoup

# URL을 입력하세요
url = 'https://naver.com'

# 요청 보내기
response = requests.get(url)
html = response.text

# BeautifulSoup 객체 생성
soup = BeautifulSoup(html, 'html.parser')

# 모든 a 태그의 텍스트와 href 속성 추출
links = soup.find_all('a')
for link in links:
    text = link.text.strip()
    href = link.get('href')
    print("텍스트:", text, "링크:", href)



텍스트: 상단영역 바로가기 링크: #topAsideButton
텍스트: 서비스 메뉴 바로가기 링크: #shortcutArea
텍스트: 새소식 블록 바로가기 링크: #newsstand
텍스트: 쇼핑 블록 바로가기 링크: #shopping
텍스트: 관심사 블록 바로가기 링크: #feed
텍스트: MY 영역 바로가기 링크: #account
텍스트: 위젯 보드 바로가기 링크: #widgetboard
텍스트: 보기 설정 바로가기 링크: #viewSetting
텍스트: 전체삭제 링크: #
텍스트: 도움말 링크: https://help.naver.com/alias/search/word/word_35.naver
텍스트: 도움말 링크: https://help.naver.com/alias/search/word/word_35.naver
텍스트: 자동저장 끄기 링크: #
텍스트: 도움말 링크: https://help.naver.com/alias/search/word/word_35.naver
텍스트: 닫기 링크: #
텍스트: 이 정보가 표시된 이유 링크: #
텍스트: 레이어 닫기 링크: #
텍스트: 이전 링크: #
텍스트: 다음 링크: #
텍스트: 자세히보기 링크: #
텍스트: 관심사를 반영한 컨텍스트 자동완성도움말 링크: https://help.naver.com/alias/search/word/word_16.naver
텍스트: 컨텍스트 자동완성 링크: #
텍스트: 자세히 보기 링크: https://help.naver.com/alias/search/word/word_16.naver
텍스트: 자세히 보기 링크: https://help.naver.com/support/alias/search/word/word_16.naver
텍스트: 네이버로그인 링크: https://nid.naver.com/nidlogin.login
텍스트: 컨텍스트 자동완성 레이어 닫기 링크: #
텍스트: 자동완성 끄기 링크: #
텍스트: 도움말 링크: https://help.naver.com/alias/search/

In [10]:
import requests
from bs4 import BeautifulSoup

# URL을 입력하세요
url = 'https://naver.com'

# 요청 보내기
response = requests.get(url)
html = response.text

# BeautifulSoup 객체 생성
soup = BeautifulSoup(html, 'html.parser')

# 특정 클래스의 텍스트 추출
elements = soup.find_all(class_='nav')
for element in elements:
    print("텍스트:", element.text.strip())


In [11]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# URL을 입력하세요
url = 'https://naver.com'

# 요청 보내기
response = requests.get(url)
html = response.text

# BeautifulSoup 객체 생성
soup = BeautifulSoup(html, 'html.parser')

# 표 데이터 추출 (예제에서는 <table>이 있는지 확인 필요)
table = soup.find('table')
if table:
    rows = table.find_all('tr')

    data = []
    for row in rows:
        cols = row.find_all('td')
        cols = [col.text.strip() for col in cols]
        data.append(cols)

    # 데이터 프레임 생성
    df = pd.DataFrame(data)
    print(df)
else:
    print("표 데이터를 찾을 수 없습니다")


표 데이터를 찾을 수 없습니다
