In [3]:
!python --version

Python 3.10.13


In [4]:
!where python

c:\Users\Administrator\anaconda3\envs\myenv\python.exe
C:\Users\Administrator\anaconda3\python.exe
C:\Users\Administrator\AppData\Local\Microsoft\WindowsApps\python.exe


In [5]:
# 현재 디텍토리 확인
print('current directory:')
%pwd

current directory:


'd:\\workspace\\M3_분석라이브러리\\crawling'

## 웹문서 구조 이해

#### DOM (Document Object Model)

- DOM은 HTML 문서의 구조를 트리 형태로 표현한 모델입니다. JavaScript와 같은 언어를 사용하여 DOM을 탐색하고 수정할 수 있습니다.
- DOM 구조
```
<!DOCTYPE html>
<html>
<head>
    <title>Example</title>
</head>
<body>
    <h1>DOM Example</h1>
    <p id="intro">This is a simple DOM example.</p>
</body>
</html>
```

HTML 문서는 다음과 같은 DOM 트리로 표현
```
Document
└── html
    ├── head
    │   ├── title
    │   │   └── "Example"
    └── body
        ├── h1
        │   └── "DOM Example"
        └── p (id="intro")
            └── "This is a simple DOM example."
```

#### HTML 태그

```
기본 구조 태그
<!DOCTYPE html>: HTML 문서의 유형을 정의합니다. 최신 HTML5에서는 <!DOCTYPE html>을 사용합니다.
<html>: HTML 문서의 루트 요소입니다. 모든 HTML 문서의 최상위 요소입니다.
<head>: HTML 문서의 메타데이터를 포함합니다. 여기에는 문서 제목, 스타일 시트 링크, 스크립트 등이 포함됩니다.
<title>: 웹 페이지의 제목을 정의합니다. 이 제목은 브라우저 탭에 표시됩니다.
<meta>: 문서의 메타데이터를 정의합니다. 예를 들어, 문자 인코딩을 정의할 때 사용됩니다.
<link>: 외부 리소스를 문서에 연결합니다. 주로 CSS 파일을 연결할 때 사용됩니다.
<style>: 문서 내에 CSS 스타일을 정의합니다.
<body>: 실제로 브라우저에 표시되는 콘텐츠를 포함합니다.
```
```
콘텐츠 구조 태그
<header>: 문서나 섹션의 헤더를 정의합니다.
<nav>: 내비게이션 링크를 정의합니다.
<section>: 문서의 섹션을 정의합니다.
<article>: 독립적인 콘텐츠를 정의합니다.
<aside>: 주요 콘텐츠 외의 추가적인 콘텐츠를 정의합니다.
<footer>: 문서나 섹션의 푸터를 정의합니다.
```
```
텍스트 관련 태그
<h1> ~ <h6>: 제목을 정의합니다. <h1>은 가장 중요한 제목, <h6>은 가장 덜 중요한 제목입니다.
<p>: 단락을 정의합니다.
<a>: 하이퍼링크를 정의합니다. href 속성을 사용하여 링크 대상 URL을 지정합니다.
<strong>: 중요한 텍스트를 정의합니다. 일반적으로 굵게 표시됩니다.
<em>: 강조된 텍스트를 정의합니다. 일반적으로 기울임꼴로 표시됩니다.
<br>: 줄 바꿈을 삽입합니다.
<ul>: 순서 없는 목록을 정의합니다.
<ol>: 순서 있는 목록을 정의합니다.
<li>: 목록 항목을 정의합니다.
```
```
멀티미디어 태그
<img>: 이미지를 삽입합니다. src 속성을 사용하여 이미지 파일의 URL을 지정합니다.
<audio>: 오디오 콘텐츠를 삽입합니다.
<video>: 비디오 콘텐츠를 삽입합니다.
<iframe>: 다른 HTML 페이지를 현재 페이지에 삽입합니다.
```
```
테이블 태그
<table>: 표를 정의합니다.
<tr>: 표의 행을 정의합니다.
<td>: 표의 셀을 정의합니다.
<th>: 표의 헤더 셀을 정의합니다.
<thead>: 표의 머리글 섹션을 정의합니다.
<tbody>: 표의 본문 섹션을 정의합니다.
<tfoot>: 표의 바닥글 섹션을 정의합니다.
```
```
폼 태그
<form>: 사용자 입력을 받는 폼을 정의합니다.
<input>: 다양한 유형의 입력 필드를 정의합니다.
<textarea>: 여러 줄의 텍스트 입력 필드를 정의합니다.
<button>: 클릭 가능한 버튼을 정의합니다.
<select>: 드롭다운 목록을 정의합니다.
<option>: 드롭다운 목록의 항목을 정의합니다.
```


In [16]:
from bs4 import BeautifulSoup
import requests

url = 'http://example.com'
response = requests.get(url)
print(response.text)
soup = BeautifulSoup(response.text, 'html.parser')
soup.find_all('html')

<!doctype html>
<html>
<head>
    <title>Example Domain</title>

    <meta charset="utf-8" />
    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1" />
    <style type="text/css">
    body {
        background-color: #f0f0f2;
        margin: 0;
        padding: 0;
        font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;
        
    }
    div {
        width: 600px;
        margin: 5em auto;
        padding: 2em;
        background-color: #fdfdff;
        border-radius: 0.5em;
        box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02);
    }
    a:link, a:visited {
        color: #38488f;
        text-decoration: none;
    }
    @media (max-width: 700px) {
        div {
            margin: 0 auto;
            width: auto;
        }
    }
    </style>    
</head>

<body>
<div>
    <h1>Example Domain</h1>
    <p>This domai

[<html>
 <head>
 <title>Example Domain</title>
 <meta charset="utf-8"/>
 <meta content="text/html; charset=utf-8" http-equiv="Content-type"/>
 <meta content="width=device-width, initial-scale=1" name="viewport"/>
 <style type="text/css">
     body {
         background-color: #f0f0f2;
         margin: 0;
         padding: 0;
         font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;
         
     }
     div {
         width: 600px;
         margin: 5em auto;
         padding: 2em;
         background-color: #fdfdff;
         border-radius: 0.5em;
         box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02);
     }
     a:link, a:visited {
         color: #38488f;
         text-decoration: none;
     }
     @media (max-width: 700px) {
         div {
             margin: 0 auto;
             width: auto;
         }
     }
     </style>
 </head>
 <body>
 <div>
 <h1>Example Domain</h1>
 <p>This domain is for use in

In [19]:
soup.find('a')

<a href="https://www.iana.org/domains/example">More information...</a>

In [17]:
# 모든 <a> 태그 추출
links = soup.find_all('a')
for link in links:
    print(link.get('href'))


https://www.iana.org/domains/example


In [21]:
soup.find('div')

<div>
<h1>Example Domain</h1>
<p>This domain is for use in illustrative examples in documents. You may use this
    domain in literature without prior coordination or asking for permission.</p>
<p><a href="https://www.iana.org/domains/example">More information...</a></p>
</div>

In [20]:
# 모든 <div> 태그 추출
divs = soup.find_all('div')
for div in divs:
    print(div.text)


Example Domain
This domain is for use in illustrative examples in documents. You may use this
    domain in literature without prior coordination or asking for permission.
More information...



In [22]:
soup.find('h1')

<h1>Example Domain</h1>

In [25]:
# <h1> 태그 추출
tags = soup.find('h1')
print(tags.text)


Example Domain


In [29]:
meta_tags = soup.find_all('meta')
meta_tags

[<meta charset="utf-8"/>,
 <meta content="text/html; charset=utf-8" http-equiv="Content-type"/>,
 <meta content="width=device-width, initial-scale=1" name="viewport"/>]

In [28]:
# 모든 <meta> 태그 추출
for meta in meta_tags:
    print(meta.attrs)

{'charset': 'utf-8'}
{'http-equiv': 'Content-type', 'content': 'text/html; charset=utf-8'}
{'name': 'viewport', 'content': 'width=device-width, initial-scale=1'}


#### HTML 속성
- HTML 속성(Attribute)은 HTML 요소에 추가적인 정보를 제공하는 데 사용됩니다. 
- 속성은 시작 태그 내에 있으며, 이름-값 쌍으로 작성됩니다.<br>
    ```<a href="https://example.com" class="example-link">Example</a>```
- 각 속성은 요소의 특정 특성이나 동작을 정의합니다. 
    ```
    - <a>: 앵커 태그로, 하이퍼링크를 만듭니다.
    - href: 링크의 URL을 지정하는 속성입니다.
    - class: CSS 클래스를 지정하는 속성입니다.
    ```
- 속성의 값은 일반적으로 따옴표로 감싸지만, 따옴표 없이 작성할 수도 있습니다.
- HTML 속성의 기본 구조 :<br>
    ```<a href="https://www.example.com" target="_blank">Example Link</a>```

  여기서 a 태그는 두 개의 속성을 가집니다:
    ```
    href: 링크의 URL을 지정
    target: 링크를 여는 방식 지정 (_blank는 새 탭에서 열기)
    ```
- 주요 HTML 속성

    글로벌 속성 (Global Attributes): 거의 모든 HTML 요소에서 사용할 수 있는 속성들입니다.<br>    
    ```<div id="header" class="main-header" style="color: blue;" title="Header Section">Welcome!</div>```
    - id: 요소의 고유 식별자
    - class: CSS 클래스 지정
    - style: 인라인 CSS 스타일 지정
    - title: 요소에 대한 추가 정보 제공 (마우스를 올렸을 때 표시)
    - data-*: 페이지나 애플리케이션에 사용자 정의 데이터를 저장

    폼 속성 (Form Attributes): 주로 폼 요소에서 사용되는 속성들입니다.
    ```
    <form action="/submit" method="post">
      <input type="text" name="username" value="JohnDoe" placeholder="Enter your username">
      <input type="submit" value="Submit"> # type="submit": 이 입력 필드를 제출 버튼으로 정의
    </form>
    ```
    - action: 폼 제출 시 데이터를 전송할 URL
    - method: 폼 데이터 전송 방식 (GET, POST)
    - name: 폼 요소의 이름
    - value: 입력 요소의 초기 값
    - placeholder: 입력 필드에 표시되는 힌트 텍스트

    이미지 속성 (Image Attributes): 주로 이미지 요소에서 사용되는 속성들입니다.<br>
    ```<img src="image.jpg" alt="Example Image" width="200" height="100">```
    - src: 이미지 파일의 경로
    - alt: 이미지가 표시되지 않을 때 대체 텍스트
    - width와 height: 이미지의 크기 지정

    링크 속성 (Link Attributes): 주로 앵커(a) 태그에서 사용되는 속성들입니다.<br>    
    ```<a href="https://www.example.com" target="_blank" rel="noopener noreferrer">Visit Example</a>```
    - href: 링크의 URL
    - target: 링크를 열 방법 (_blank, _self, _parent, _top)
    - rel: 링크와 현재 문서 간의 관계

    메타 데이터 속성 (Metadata Attributes): 주로 meta 태그에서 사용되는 속성들입니다.
    ```
    <meta name="description" content="This is an example of a meta description.">
    <meta charset="UTF-8">
    ```
    - name: 메타 데이터의 이름 (예: description, keywords)
    - content: 메타 데이터의 내용
    - charset: 문서의 문자 인코딩



#### CSS 셀렉터

CSS 셀렉터는 HTML 요소를 선택하기 위해 사용됩니다. 크롤링 시 특정 요소를 선택할 때 유용합니다. 예:
```
#id: 특정 id를 가진 요소를 선택합니다.
.class: 특정 클래스를 가진 요소를 선택합니다.
tagname: 특정 태그명을 가진 요소를 선택합니다.
```
```
[ CSS 셀렉터의 주요 유형과 그 사용법]

1. 기본 셀렉터
    요소 셀렉터
    문법: element
    설명: 지정된 태그 이름의 모든 HTML 요소를 선택합니다.
    예시: p { color: blue; }는 모든 <p> 요소의 텍스트 색상을 파란색으로 설정합니다.
    클래스 셀렉터
    문법: .class
    설명: 특정 클래스 이름을 가진 모든 요소를 선택합니다.
    예시: .highlight { background-color: yellow; }는 클래스가 "highlight"인 모든 요소의 배경색을 노란색으로 설정합니다.
    ID 셀렉터
    문법: #id
    설명: 특정 ID를 가진 요소를 선택합니다. HTML 문서에서 ID는 고유해야 합니다.
    예시: #header { font-size: 24px; }는 ID가 "header"인 요소의 글꼴 크기를 24px로 설정합니다.

2. 속성 셀렉터
    속성 존재 셀렉터
    문법: [attribute]
    설명: 특정 속성이 있는 모든 요소를 선택합니다.
    예시: [title] { border: 1px solid black; }는 "title" 속성이 있는 모든 요소에 테두리를 추가합니다.
    특정 속성 값 셀렉터
    문법: [attribute=value]
    설명: 지정된 속성이 특정 값을 가진 모든 요소를 선택합니다.
    예시: [type="text"] { color: green; }는 type 속성이 "text"인 모든 입력 요소의 텍스트 색상을 초록색으로 설정합니다.

3. 결합 셀렉터
    자손 셀렉터
    문법: ancestor descendant
    설명: 특정 요소의 자손인 모든 요소를 선택합니다.
    예시: div p { margin: 10px; }는 <div> 요소의 자손인 모든 <p> 요소에 10px의 마진을 설정합니다.
    자식 셀렉터
    문법: parent > child
    설명: 특정 요소의 직계 자식인 모든 요소를 선택합니다.
    예시: ul > li { list-style-type: none; }는 <ul> 요소의 직계 자식인 모든 <li> 요소의 리스트 스타일을 제거합니다.
    인접 형제 셀렉터
    문법: element + adjacent
    설명: 특정 요소의 바로 다음 형제 요소를 선택합니다.
    예시: h1 + p { margin-top: 0; }는 <h1> 요소 바로 다음에 오는 <p> 요소의 위쪽 마진을 제거합니다.
    일반 형제 셀렉터
    문법: element ~ siblings
    설명: 특정 요소 이후의 모든 형제 요소를 선택합니다.
    예시: h2 ~ p { color: grey; }는 <h2> 요소 이후의 모든 <p> 요소의 텍스트 색상을 회색으로 설정합니다.

4. 가상 클래스 셀렉터
    동적 가상 클래스 셀렉터
    문법: :pseudo-class
    설명: 요소의 특정 상태를 선택합니다.
    예시: a:hover { color: red; }는 링크에 마우스를 올렸을 때 텍스트 색상을 빨간색으로 변경합니다.
    구조적 가상 클래스 셀렉터
    문법: :nth-child(n)
    설명: 부모 요소의 자식 중 특정 위치에 있는 요소를 선택합니다.
    예시: li:nth-child(odd) { background-color: #f2f2f2; }는 홀수 번째 <li> 요소의 배경색을 회색으로 설정합니다.

5. 가상 요소 셀렉터
    문법: ::pseudo-element
    설명: 요소의 일부를 선택합니다.
    예시: p::first-line { font-weight: bold; }는 단락의 첫 번째 줄을 굵게 만듭니다.

6. 속성값 서브스트링 매칭 셀렉터
    시작 문자열 매칭 셀렉터
    문법: [attribute^=value]
    설명: 특정 속성 값이 지정된 문자열로 시작하는 요소를 선택합니다.
    예시: [class^="btn"] { background-color: blue; }는 클래스 이름이 "btn"으로 시작하는 모든 요소의 배경색을 파란색으로 설정합니다.
    끝 문자열 매칭 셀렉터
    문법: [attribute$=value]
    설명: 특정 속성 값이 지정된 문자열로 끝나는 요소를 선택합니다.
    예시: [class$="danger"] { color: red; }는 클래스 이름이 "danger"로 끝나는 모든 요소의 텍스트 색상을 빨간색으로 설정합니다.
    포함 문자열 매칭 셀렉터
    문법: [attribute*=value]
    설명: 특정 속성 값이 지정된 문자열을 포함하는 요소를 선택합니다.
    예시: [class*="nav"] { font-size: 18px; }는 클래스 이름에 "nav"를 포함하는 모든 요소의 글꼴 크기를 18px로 설정합니다.

```

In [17]:
from bs4 import BeautifulSoup

html_doc = """
<html>
<head>
<title>The Dormouse's story</title>
</head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were</p>
<p class="story">...</p>
</body></html>
"""

In [14]:
# Q. 주어진 HTML 문서에서 첫 번째 title 클래스를 가진 태그를 추출
soup = BeautifulSoup(html_doc, 'html.parser')

title_tag = soup.select_one('.title')
print(title_tag)

<p class="title"><b>The Dormouse's story</b></p>


#### XPath

XPath는 XML 문서의 경로를 지정하기 위한 언어로, HTML 문서에서도 사용할 수 있습니다. 예:

```
//div[@id='main']: id가 'main'인 모든 <div> 요소를 선택합니다.
//a/text():
- //: 문서의 어디에서든 지정한 요소를 찾습니다. 즉, 루트 요소부터 시작해서 모든 자식 요소를 포함하여 탐색합니다.
- a: 찾고자 하는 요소의 이름입니다. 여기서는 <a> 태그를 의미합니다.
- /text(): 지정한 요소의 텍스트 노드를 선택합니다. <a> 태그 내부의 텍스트를 의미합니다.
```

In [6]:
from lxml import html

html_doc = """
<html>
  <head><title>The Dormouse's story</title></head>
  <body>
    <p class="title"><b>The Dormouse's story</b></p>
    <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>
    <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a>
    <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>
  </body>
</html>
"""

In [7]:
tree = html.fromstring(html_doc) # HTML 문서를 XML 요소로 변환
a_texts = tree.xpath('//a/text()')
for text in a_texts:
    print(text)

Elsie
Lacie
Tillie


In [8]:
# 주어진 HTML 문서에서 ID가 link1인 태그를 추출
link1 = tree.get_element_by_id('link1')
print(html.tostring(link1).decode('utf-8'))

<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>
    


#### 웹페이지의 동적 로딩

일부 웹페이지는 JavaScript를 통해 동적으로 콘텐츠를 로드합니다. 이러한 페이지는 단순히 HTML을 요청하는 것으로는 모든 콘텐츠를 얻을 수 없으며, Selenium과 같은 도구를 사용하여 JavaScript를 실행하는 것이 필요할 수 있습니다.


#### HTTP 요청과 응답

웹 크롤링은 HTTP 프로토콜을 통해 웹페이지에 접근합니다. HTTP 요청과 응답의 기본 개념을 이해하는 것이 중요합니다.

- HTTP 메서드 (GET, POST 등)
- 상태 코드 (200, 404 등)


#### 웹페이지의 동적 로딩

일부 웹페이지는 JavaScript를 통해 동적으로 콘텐츠를 로드합니다. 이러한 페이지는 단순히 HTML을 요청하는 것으로는 모든 콘텐츠를 얻을 수 없으며, Selenium과 같은 도구를 사용하여 JavaScript를 실행하는 것이 필요할 수 있습니다.


#### 크롤링 도구와 라이브러리

다양한 도구와 라이브러리가 크롤링을 도와줍니다.

- BeautifulSoup: HTML과 XML 파일을 파싱하는 라이브러리입니다.
- Requests: HTTP 요청을 보내기 위한 라이브러리입니다.
- Selenium: 웹 브라우저를 자동화하고 동적 웹페이지를 크롤링하는 데 사용됩니다.

In [9]:
import requests
from bs4 import BeautifulSoup

url = 'https://www.naver.com/'
response = requests.get(url)
print(response.status_code)

soup = BeautifulSoup(response.text, 'html.parser')

# ID를 사용해 wrap 영역 크롤링
wrap = soup.find(id='wrap')
print(wrap.prettify())

200
<div id="wrap">
 <div id="header" role="banner">
  <div class="header_inner" id="topSearchWrap">
   <div class="search_special_bg" id="special-logo">
   </div>
   <div class="ad_area" id="timeboard-ex" style="min-width:1340px">
   </div>
   <div class="search_area" id="search_area" style="border-color:#fff">
    <div class="search_group">
     <div class="search_group_inner" id="search">
      <h1 class="search_logo" id="special-input-logo">
      </h1>
      <form action="https://search.naver.com/search.naver" id="sform" method="get" name="search" role="search">
       <fieldset>
        <legend class="blind">
         검색
        </legend>
        <input name="where" type="hidden" value="nexearch"/>
        <input id="sm" name="sm" type="hidden" value="top_hty"/>
        <input id="fbm" name="fbm" type="hidden" value="0"/>
        <input disabled="disabled" id="acr" name="acr" type="hidden" value=""/>
        <input disabled="disabled" id="acq" name="acq" type="hidden" value=""/>


In [29]:
# ID를 사용해 wrap 영역 크롤링 (a,href,text )
# link1 = tree.get_element_by_id('link1')
# print(html.tostring(link1).decode('utf-8'))

links = soup.find_all('a')
for link in links:
    print(link.get_text('href'),link.text)

상단영역 바로가기 상단영역 바로가기
서비스 메뉴 바로가기 서비스 메뉴 바로가기
새소식 블록 바로가기 새소식 블록 바로가기
쇼핑 블록 바로가기 쇼핑 블록 바로가기
관심사 블록 바로가기 관심사 블록 바로가기
MY 영역 바로가기 MY 영역 바로가기
위젯 보드 바로가기 위젯 보드 바로가기
보기 설정 바로가기 보기 설정 바로가기
전체삭제 전체삭제
도움말 도움말
도움말 도움말
자동저장 끄기 자동저장 끄기
도움말 도움말
닫기 닫기
이 정보가 표시된 이유 이 정보가 표시된 이유
레이어 닫기 레이어 닫기
이전 이전
다음 다음
자세히보기 자세히보기
관심사를 반영한 컨텍스트 자동완성href도움말 관심사를 반영한 컨텍스트 자동완성도움말
컨텍스트 자동완성 컨텍스트 자동완성
자세히 보기 자세히 보기
자세히 보기 자세히 보기
네이버href로그인 네이버로그인
컨텍스트 자동완성 레이어 닫기 컨텍스트 자동완성 레이어 닫기
자동완성 끄기 자동완성 끄기
도움말 도움말
신고 신고
닫기 닫기


In [37]:
#a 태그 모두 크롤링
links = soup.find_all('a')
for link in links:
    print(link.get('href'), link.get_text('href'))

#topAsideButton 상단영역 바로가기
#shortcutArea 서비스 메뉴 바로가기
#newsstand 새소식 블록 바로가기
#shopping 쇼핑 블록 바로가기
#feed 관심사 블록 바로가기
#account MY 영역 바로가기
#widgetboard 위젯 보드 바로가기
#viewSetting 보기 설정 바로가기
# 전체삭제
https://help.naver.com/alias/search/word/word_35.naver 도움말
https://help.naver.com/alias/search/word/word_35.naver 도움말
# 자동저장 끄기
https://help.naver.com/alias/search/word/word_35.naver 도움말
# 닫기
# 이 정보가 표시된 이유
# 레이어 닫기
# 이전
# 다음
# 자세히보기
https://help.naver.com/alias/search/word/word_16.naver 관심사를 반영한 컨텍스트 자동완성href도움말
# 컨텍스트 자동완성
https://help.naver.com/alias/search/word/word_16.naver 자세히 보기
https://help.naver.com/support/alias/search/word/word_16.naver 자세히 보기
https://nid.naver.com/nidlogin.login 네이버href로그인
# 컨텍스트 자동완성 레이어 닫기
# 자동완성 끄기
https://help.naver.com/alias/search/word/word_17.naver 도움말
https://help.naver.com/alias/search/word/word_18.naver 신고
# 닫기


In [43]:
# search_area 크롤링
search_area = soup.find(class_='search_area')
print(search_area.prettify())

<div class="search_area" id="search_area" style="border-color:#fff">
 <div class="search_group">
  <div class="search_group_inner" id="search">
   <h1 class="search_logo" id="special-input-logo">
   </h1>
   <form action="https://search.naver.com/search.naver" id="sform" method="get" name="search" role="search">
    <fieldset>
     <legend class="blind">
      검색
     </legend>
     <input name="where" type="hidden" value="nexearch"/>
     <input id="sm" name="sm" type="hidden" value="top_hty"/>
     <input id="fbm" name="fbm" type="hidden" value="0"/>
     <input disabled="disabled" id="acr" name="acr" type="hidden" value=""/>
     <input disabled="disabled" id="acq" name="acq" type="hidden" value=""/>
     <input disabled="disabled" id="qdt" name="qdt" type="hidden" value=""/>
     <input id="ie" name="ie" type="hidden" value="utf8"/>
     <input disabled="disabled" id="acir" name="acir" type="hidden" value=""/>
     <input disabled="disabled" id="os" name="os" type="hidden" value=""

In [48]:
banner = soup.find_all('script')
for i in banner:
    print(i)

<script>window.gladsdk=window.gladsdk||{},window.gladsdk.cmd=window.gladsdk.cmd||[],window.ndpsdk=window.ndpsdk||{},window.ndpsdk.cmd=window.ndpsdk.cmd||[],window.ndpsdk.polyfill=window.ndpsdk.polyfill||{cmd:[]};var g_ssc="navertop.v5";window.nsc=g_ssc,window.nmain=window.nmain||{},window.nmain.jsOrigin="www"</script>
<script async="" src="https://ssl.pstatic.net/tveta/libs/ndpsdk/prod/ndp-loader.js"></script>
<script async="" src="https://ssl.pstatic.net/tveta/libs/glad/prod/gfp-core.js"></script>
<script defer="defer" src="https://ssl.pstatic.net/tveta/libs/assets/js/pc/main/min/pc.veta.core.min.js"></script>
<script>
window["EAGER-DATA"] = window["EAGER-DATA"] || {};
window["EAGER-DATA"]["PC-FEED-WRAPPER"] = {"@type":"BLOCK","blocks":[{"@type":"BLOCK","blocks":[{"@type":"PC-FEED-BLOCK","blocks":[{"@type":"PC-FEED-BLOCK","materials":[{"@type":"MATERIAL-PC-FEED","title":"리샤 드가자","url":"https://chzzk.naver.com/live/f39c3d74e33a81ab3080356b91bb8de5","image":{"url":"https://s.pstatic.net

In [44]:
# data-gfp-banner-size 속성가진 태그 크롤링
banners = soup.find_all(attrs = {'data-gfp-banner-size': '830x130'})
for banner in banners:
    print(banner.prettify())

<script data-gfp-banner-size="830x130" data-gfp-banner-type="full" id="ad-timeboard-response" type="text/plain">
 {"payload":{"requestId":"f61c3c93b7e04d2d9d89289cf9da2a42","head":{"version":"0.0.1","description":"Naver SSP Waterfall List"},"eventTracking":{"ackImpressions":[{"url":"https://tivan.naver.com/sc2/1/"}],"activeViewImpressions":[{"url":"https://tivan.naver.com/sc2/2/"}],"clicks":[{"url":"https://tivan.naver.com/sc2/3/"}],"completions":[{"url":"https://tivan.naver.com/sc2/4/"}],"attached":[{"url":"https://tivan.naver.com/sc2/10/"}],"renderedImpressions":[{"url":"https://tivan.naver.com/sc2/11/"}],"viewableImpressions":[{"url":"https://tivan.naver.com/sc2/12/"}],"loadErrors":[{"url":"https://tivan.naver.com/sc2/91/"}],"startErrors":[{"url":"https://tivan.naver.com/sc2/92/"}],"lazyRenderMediaFailed":[{"url":"https://tivan.naver.com/sc2/93/"}],"mute":[{"url":"https://tivan.naver.com/sc2/5/"}],"close":[{"url":"https://tivan.naver.com/sc2/6/"}]},"adUnit":"p_main_timeboard_v1","ra

In [47]:
banners = soup.find_all(attrs = {'id':'ad-timeboard-response'})
for banner in banners:
    print(banner.prettify())

<script data-gfp-banner-size="830x130" data-gfp-banner-type="full" id="ad-timeboard-response" type="text/plain">
 {"payload":{"requestId":"f61c3c93b7e04d2d9d89289cf9da2a42","head":{"version":"0.0.1","description":"Naver SSP Waterfall List"},"eventTracking":{"ackImpressions":[{"url":"https://tivan.naver.com/sc2/1/"}],"activeViewImpressions":[{"url":"https://tivan.naver.com/sc2/2/"}],"clicks":[{"url":"https://tivan.naver.com/sc2/3/"}],"completions":[{"url":"https://tivan.naver.com/sc2/4/"}],"attached":[{"url":"https://tivan.naver.com/sc2/10/"}],"renderedImpressions":[{"url":"https://tivan.naver.com/sc2/11/"}],"viewableImpressions":[{"url":"https://tivan.naver.com/sc2/12/"}],"loadErrors":[{"url":"https://tivan.naver.com/sc2/91/"}],"startErrors":[{"url":"https://tivan.naver.com/sc2/92/"}],"lazyRenderMediaFailed":[{"url":"https://tivan.naver.com/sc2/93/"}],"mute":[{"url":"https://tivan.naver.com/sc2/5/"}],"close":[{"url":"https://tivan.naver.com/sc2/6/"}]},"adUnit":"p_main_timeboard_v1","ra

In [49]:
# ID가 u_skip인 div 내부 모든 a태그 크롤링
link = soup.select('#u_skip a')
for a in link:
    print(a.text)

상단영역 바로가기
서비스 메뉴 바로가기
새소식 블록 바로가기
쇼핑 블록 바로가기
관심사 블록 바로가기
MY 영역 바로가기
위젯 보드 바로가기
보기 설정 바로가기


In [50]:
# ID warp인 div 내부의 id가 header인 div 선택
header = soup.select_one('#wrap #header')
print(header.text if header else 'no header')

           검색                       검색       입력도구     자동완성/최근검색어펼치기        최근 검색어  전체삭제     검색어 저장 기능이 꺼져 있습니다.설정이 초기화 된다면 도움말을 확인해주세요. 최근 검색어 내역이 없습니다.설정이 초기화 된다면 도움말을 확인해주세요.     자동저장 끄기  도움말   닫기       CUE대화하듯 질문해 보세요이 정보가 표시된 이유  검색어와 포함된 키워드를 기반으로 AI 기술을 활용하여 연관된 추천 질문을 제공합니다. 레이어 닫기      이전 다음             자세히보기      관심사를 반영한 컨텍스트 자동완성도움말   컨텍스트 자동완성   컨텍스트 자동완성  ON/OFF 설정은 해당기기(브라우저)에 저장됩니다.  자세히 보기    동일한 시간대・연령대・남녀별 사용자 그룹의 관심사에 맞춰 자동완성을 제공합니다. 자세히 보기   네이버로그인   컨텍스트 자동완성 레이어 닫기       자동완성 끄기  도움말 신고   닫기                   


In [52]:
# id가 ad-timeboard-response인 script 태그에 data-gfp-banner-size 속성값 선택
ad_time = soup.select_one('script#ad-timeboard-response')
size = ad_time['data-gfp-banner-size'] if ad_time else 'No size data'
print(size)

830x130


Copy Selector

- copy selector는 해당 요소로 접근할 수 있는 CSS 선택자를 복사합니다.
- 이를 통해 JavaScript나 Selenium과 같은 도구에서 해당 요소를 선택할 수 있습니다.

In [60]:
# 동적 콘텐츠 로딩 : selenium
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
import time

options = Options()
options.add_argument("--start-maximized")
options.add_experimental_option("detach",True)

driver = webdriver.Chrome(options=options)

# 네이버 페이지 열기
url = 'https://www.naver.com/'
driver.get(url)

# 페이지 로딩 대기
time.sleep(2) # 5초 대기

# 뉴스스탠드 링크 찾기 : #newsstand > div.ContentHeaderView-module__content_header___nSgPg > div > ul > li:nth-child(1) > span > a:nth-child(1)
try:
    newsstand_link = driver.find_element(By.CSS_SELECTOR, '#newsstand > div.ContentHeaderView-module__content_header___nSgPg > div > ul > li:nth-child(1) > span > a:nth-child(1)')
    print(newsstand_link.text)
except:
    print('링크없음')

driver.quit()

뉴스스탠드


 Copy XPath

- copy XPath는 해당 요소로 접근할 수 있는 XPath를 복사합니다.
- XPath는 XML 문서의 특정 요소를 선택할 때 사용되는 언어로, HTML에도 적용할 수 있습니다.

In [61]:
# 동적 콘텐츠 로딩 : selenium
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
import time

options = Options()
options.add_argument("--start-maximized")
options.add_experimental_option("detach",True)

driver = webdriver.Chrome(options=options)

# 네이버 페이지 열기
url = 'https://www.naver.com/'
driver.get(url)

# 페이지 로딩 대기
time.sleep(2) # 5초 대기

# 뉴스스탠드 링크 찾기 : #newsstand > div.ContentHeaderView-module__content_header___nSgPg > div > ul > li:nth-child(1) > span > a:nth-child(1)
try:
    newsstand_link = driver.find_element(By.XPATH, '//*[@id="newsstand"]/div[1]/div/ul/li[1]/span/a[1]')
    print(newsstand_link.text)
except:
    print('링크없음')

driver.quit()

뉴스스탠드
