## 크롤링(웹 크롤링)
크롤링이란
- 인터넷 상의 웹 페이지 데이터를 자동으로 수집하는 과정.
- 웹 크롤링은 일반적으로 웹 스크래핑과 연관되며, 둘은 종종 혼용되지만 조금 다른 개념. 웹 크롤링은 웹 페이지를 탐색하고 데이터를 수집하는 반면, 웹 스크래핑은 그 페이지에서 특정 정보를 추출하는 데 중점을 둔다.
- 크롤링은 스크래핑을 포함할 수 있다. 크롤링 과정에서 각 페이지를 방문할 때, 스크래핑을 통해 필요한 데이터를 추출할 수 있다.

웹 크롤링에 사용되는 도구
- BeautifulSoup: Python 라이브러리로, HTML 및 XML 문서를 구문 분석하고 데이터를 추출하는 데 사용.

- Scrapy: 웹 크롤링을 위한 Python 프레임워크로, 효율적이고 확장성이 높은 크롤러를 쉽게 만들 수 있다.

- Selenium: 웹 브라우저 자동화 도구로, JavaScript가 동적으로 로드되는 페이지를 크롤링할 때 유용.

- Requests: Python의 HTTP 라이브러리로, 웹 페이지 요청을 쉽게 할 수 있다.

웹 크롤링의 기본 과정
- 크롤러 설정: 크롤러는 특정 웹 페이지를 시작점으로 설정. 이를 '시드(seed)'라고 부르며, 크롤러는 이 시드 URL에서 시작해 다른 페이지로 이동.

- 페이지 요청: 크롤러는 HTTP 요청을 보내 웹 페이지를 요청. 이 과정에서 크롤러는 브라우저처럼 행동하여 웹 서버에서 페이지를 가져온다.

- 데이터 추출: 웹 페이지가 응답되면, 크롤러는 페이지의 HTML을 분석하고 필요한 데이터를 추출. 이 과정에는 BeautifulSoup, lxml, Selenium 같은 라이브러리가 사용될 수 있다.

- 링크 추출 및 큐잉: 크롤러는 현재 페이지에서 다른 페이지로 연결되는 링크를 추출하고, 이 링크들을 큐(queue)에 추가하여 다음 크롤링 대상으로 삼는다.

- 반복: 이 과정은 정해진 규칙이나 종료 조건이 충족될 때까지 반복. 예를 들어, 특정 수의 페이지를 크롤링하거나, 주어진 도메인 내에서만 크롤링하도록 설정할 수 있다.

웹 크롤링의 주의사항
로봇 배제 표준(robots.txt): 많은 웹사이트는 robots.txt 파일을 통해 크롤러가 접근 가능한 부분과 접근을 제한하는 부분을 명시. 크롤러는 이 규칙을 준수해야 한다.

저작권 및 법적 이슈: 모든 웹사이트의 콘텐츠는 저작권의 보호를 받는다. 따라서 크롤링을 통해 수집한 데이터를 어떻게 사용할지에 대한 법적 문제를 주의해야 한다.

서버 부하: 지나친 크롤링은 웹 서버에 부하를 줄 수 있다. 크롤링 시에는 서버의 부담을 줄이기 위해 요청 간의 딜레이를 설정하는 것이 좋다.

스크래핑 사례
- 특정 웹페이지에서 유용한 데이터를 추출하는 과정. 주로 특정 정보 추출, 데이터 분석 등에 사용

In [None]:
import requests
from bs4 import BeautifulSoup

# 예시 네이버 뉴스 페이지 URL
url = 'https://news.naver.com/main/list.naver?mode=LSD&mid=shm&sid1=100'

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}

response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.content, 'html.parser')

# 네이버 뉴스 페이지의 뉴스 제목 추출
news_titles = soup.find_all('dt')

for idx, title in enumerate(news_titles):
    print(f"{idx + 1}: {title.get_text().strip()}")


1: 
2: 육군, 'AI군수빅데이터융합센터' 만든다…미군 LDAC 벤치마킹
3: 
4: 언론개혁 나서는 거야…김홍일 탄핵 카드 꺼내나
5: 동영상기사
6: 북한발 오물풍선 수도권·강원서 발견…육지·바다 곳곳 낙하
7: 
8: AI 교과서, 학업성취도 떨어뜨릴까? 교사 출신 백승아 의원 "내년 도입 유보해야"
9: 
10: 대북 방송 재개…“우발적 충돌 누그러뜨릴 수단 있어야”
11: 
12: 민주, 부산 지역위원장 인선 의결… 금정 박인영, 해운대을은 삼파전
13: 
14: 부산시의회, 안성민 의장 연임 카드 부상
15: 
16: 정청래 법사위ㆍ최민희 과방위로 전투력 높인 민주당…“상임위 국정조사도 적극 추진”
17: 
18: 민주당, 이재명 대표 맞춤형 당헌개정 논란
19: 동영상기사
20: 군, 오늘부터 최전방에서 고정식 대북 확성기 가동
21: 동영상기사
22: 북 오물풍선 살포 재개에…"대북 확성기 방송 실시"
23: 
24: 결국, 대북확성기 ON
25: 동영상기사
26: 野 "단독 원 구성에 특검까지"...與 "정권 전복 시도"
27: 
28: 여야, 원 구성 놓고 협상 없이 공방만…10일 야당 단독 처리(종합)
29: 
30: "이병철 양자"라고? 피선거권 또 박탈된 `허본좌`…재등판하려면 84세 돼야
31: 동영상기사
32: 정부 "총파업 깊은 유감...국민 생명 담보로 불법 집단행동"
33: 
34: [데일리안 오늘뉴스 종합] 의협 "18일 집단 휴진"…정부 "깊은 유감", '대북 확성기' 재설치로 '오물 풍선' 맞대응 등
35: 
36: 충북 영동 야산서도 오물풍선 발견…"위험물질 없어"
37: 동영상기사
38: [현장영상] '숨겨놨던 스피커가 스르륵' 대북 확성기 훈련 최초 공개…8년 만에 대북 방송 재개
39: 
40: 군, 오늘부터 최전방 여러 곳에서 대북 확성기 가동


크롤링 사례
- 웹페이지를 자동으로 탐색하며 링크를 따라가면서 여러 페이지를 방문하는 과정. 주로 검색 엔진 인덱싱이나 웹사이트 구조 파악에 사용

In [None]:
!pip install requests beautifulsoup4 urllib3



In [None]:
import requests
from bs4 import BeautifulSoup
from collections import deque
import urllib.robotparser
from urllib.parse import urljoin
import time

# 주어진 URL이 해당 웹사이트의 robots.txt 파일에 의해 접근이 허용되는지를 확인하는 함수
def can_fetch_url(url):
    robot_parser = urllib.robotparser.RobotFileParser()
    robot_parser.set_url('https://example.com/robots.txt')
    robot_parser.read()
    return robot_parser.can_fetch('*', url) # '*'는 모든 사용자 에이전트를 의미. 반환값은 True 또는 False

def get_response_with_retries(url, max_retries=5, backoff_factor=0.3):
    for i in range(max_retries):
        try:
            response = requests.get(url)
            response.raise_for_status()  # HTTP 응답 코드가 200이 아닌 경우 예외 발생
            return response
        except requests.ConnectionError as e: # 네트워크 문제나 서버가 응답하지 않는 경우
            print(f"Connection error: {e}")
        except requests.HTTPError as e: # 클라이언트 오류(4xx) 또는 서버 오류(5xx) 응답 코드
            print(f"HTTP error: {e}")
        except requests.RequestException as e: # 기타 모든 요청 관련 예외(RequestException)를 처리
            print(f"Request failed: {e}")
        time.sleep(backoff_factor * (2 ** i))  # 지수 백오프의 기본 원리는 재시도할 때마다 대기 시간을 두 배로 늘리는 것. 백오프 시간=기본 시간×(2의 n승)
    return None

start_url = 'https://example.com'
# 이미 방문한 URL들을 저장하는 집합
visited = set() # 집합을 사용하여 중복된 URL 방문을 피할 수 있다.
# 방문할 URL들을 저장하는 큐
queue = deque([start_url]) # deque는 양쪽 끝에서 빠르게 추가 및 제거할 수 있는 양방향 큐

max_urls = 10  # 최대 방문할 URL 수
visited_count = 0 # 현재까지 방문한 URL 수

# BFS(Breadth-First Search) 알고리즘을 사용하여 큐를 통해 웹 페이지를 순차적으로 방문. 각 페이지에서 h1 태그를 추출하고, 새로운 링크를 큐에 추가하여 크롤링을 확장
while queue: # 큐에 방문할 URL이 있는 동안 계속 반복
    if visited_count >= max_urls:
        print(f"Reached the limit of {max_urls} URLs. Stopping the crawler.")
        break

    current_url = queue.popleft() # 큐에서 다음 방문할 URL을 꺼내기
    if current_url in visited: # 이미 방문한 URL이면 다음 반복으로 건너뛰기
        continue

    visited.add(current_url) # 현재 URL을 방문한 URL 집합에 추가
    visited_count += 1

    if not can_fetch_url(current_url): # robots.txt 규칙을 확인하여 현재 URL이 접근 가능한지 확인
        print(f"Blocked by robots.txt: {current_url}") # 접근이 차단된 URL이면 메시지를 출력하고 다음 반복으로 건너뛰기
        continue

    response = get_response_with_retries(current_url)
    if response is None: # 응답이 성공적이지 않으면 메시지를 출력하고 다음 반복으로 건너뛰
        print(f"Failed to retrieve {current_url} after retries")
        continue

    soup = BeautifulSoup(response.text, 'html.parser') # 응답 내용을 BeautifulSoup으로 파싱

    titles = soup.find_all('h1') # 페이지 내의 모든 h1 태그를 찾
    for title in titles: # 각 h1 태그의 텍스트를 출력
        print(title.get_text())

    links = soup.find_all('a', href=True) # 페이지 내의 모든 a 태그에서 href 속성이 있는 링크를 찾
    for link in links:
        href = link['href']
        full_url = urljoin(current_url, href)  # 각 링크의 href 속성을 절대 경로로 변환하고, 큐에 추가
        if full_url not in visited and full_url.startswith('http'):
            queue.append(full_url)


Example Domain
Example Domains
Internet Assigned Numbers Authority
Domain Name Services
Protocol Registries
Number Resources
About us
IANA-managed Reserved Domains
Reached the limit of 10 URLs. Stopping the crawler.


Beautiful Soup Documentation <br/>
https://www.crummy.com/software/BeautifulSoup/bs4/doc/

In [None]:
html_doc = """<html><head><title>The Dormouse's story</title></head>
<body>
<div></div>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

In [None]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(html_doc, 'html.parser')
print(soup.prettify())

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <div>
  </div>
  <p class="title">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>



In [None]:
soup.title

<title>The Dormouse's story</title>

In [None]:
soup.title.name

'title'

In [None]:
soup.title.parent

<head><title>The Dormouse's story</title></head>

In [None]:
soup.title.parent.name

'head'

In [None]:
# p태그 첫번째 데이터
soup.p

<p class="title"><b>The Dormouse's story</b></p>

In [None]:
# a태그 첫번째 데이터
soup.a

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

In [None]:
soup.find('a')

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

In [None]:
soup.a['class']

['sister']

In [None]:
soup.find_all('a')

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [None]:
soup.find_all(class_="sister")

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [None]:
soup.find(id="link3")

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

In [None]:
soup.p

<p class="title"><b>The Dormouse's story</b></p>

In [None]:
soup.p['class']

['title']

In [None]:
soup.find('p')

<p class="title"><b>The Dormouse's story</b></p>

In [None]:
# class는 Python의 예약어이기 때문에 class_를 사용
soup.find(class_='title')

<p class="title"><b>The Dormouse's story</b></p>

In [None]:
soup.find_all('p')

[<p class="title"><b>The Dormouse's story</b></p>,
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>,
 <p class="story">...</p>]

In [None]:
for link in soup.find_all('a'):
    print(link.get('href'))

http://example.com/elsie
http://example.com/lacie
http://example.com/tillie


In [None]:
soup.find_all()

[<html><head><title>The Dormouse's story</title></head>
 <body>
 <div></div>
 <p class="title"><b>The Dormouse's story</b></p>
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>
 <p class="story">...</p>
 </body></html>,
 <head><title>The Dormouse's story</title></head>,
 <title>The Dormouse's story</title>,
 <body>
 <div></div>
 <p class="title"><b>The Dormouse's story</b></p>
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;

#### string vs. get_text() vs. text
- BeautifulSoup 객체에서 text 속성, get_text() 메서드, string 속성은 모두 HTML 또는 XML 문서에서 텍스트 데이터를 추출하는 데 사용
- text 속성은 해당 태그에서 모든 텍스트 데이터를 가져오며,
- get_text() 메서드도 동일한 결과를 반환합니다.
- string 속성은 해당 태그에서 첫 번째로 발견된 문자열 데이터만 가져옵니다.

| Method      | 특징                                                                               | 사용 사례                                      |
|-------------|----------------------------------------------------------------------------------|-----------------------------------------------|
| `string`    | 자식 텍스트 노드가 하나인 경우에만 해당 텍스트 반환, 여러 노드가 있으면 `None` 반환                | 단일 텍스트 노드만 있는 요소의 텍스트를 추출할 때      |
| `get_text()`| 요소 및 모든 하위 요소의 텍스트를 모두 포함하여 문자열로 반환, `separator` 및 `strip` 옵션 사용 가능 | 요소 내 모든 텍스트를 추출하고, 구분자 및 공백 처리가 필요한 경우 |
| `text`      | 요소 및 모든 하위 요소의 텍스트를 모두 포함하여 문자열로 반환, 추가 매개변수 없음                  | 요소 내 모든 텍스트를 단순하게 추출할 때                   |


string
- 정의: string 속성은 BeautifulSoup 객체의 자식 노드 중 하나의 텍스트 노드만 반환. 해당 요소의 직접적인 텍스트 콘텐츠가 하나일 때만 유용.
- 특징:
요소가 하나의 자식 텍스트 노드를 가지고 있는 경우에만 그 텍스트를 반환.
여러 자식 요소가 있거나 텍스트 노드가 여러 개 있는 경우 None을 반환.

In [None]:
from bs4 import BeautifulSoup

html = """
<div class="example">
    Single text node
</div>
<div class="example">
    <p>Multiple</p> text <span>nodes</span>
</div>
"""

soup = BeautifulSoup(html, 'html.parser')
single_text_node = soup.find('div', class_='example').string
multiple_text_nodes = soup.find_all('div', class_='example')[1].string

print(single_text_node)  # Output: Single text node
print(multiple_text_nodes)  # Output: None



    Single text node

None


get_text()
- 정의: get_text() 메서드는 요소 및 모든 하위 요소의 텍스트를 모두 추출하여 하나의 문자열로 반환.
- 특징:
요소 내의 모든 텍스트를 포함하여 반환.
기본적으로 하위 요소 사이에 공백을 추가하지만, separator 매개변수를 사용하여 구분자를 지정할 수 있다.
strip=True 옵션을 사용하여 앞뒤 공백을 제거할 수 있다.

In [None]:
from bs4 import BeautifulSoup

html = """
<div class="example">
    Single text node
</div>
<div class="example">
    <p>Multiple</p> text <span>nodes</span>
</div>
"""

soup = BeautifulSoup(html, 'html.parser')

# 기본적으로 `get_text()` 메서드는 공백을 구분자로 사용합니다.
# strip=True 옵션을 사용하여 앞뒤 공백을 제거하고 텍스트를 추출
single_text_node = soup.find('div', class_='example').get_text(strip=True)
multiple_text_nodes = soup.find_all('div', class_='example')[1].get_text(strip=True)

print("Default separator:")
print(single_text_node)  # Output: Single text node
print(multiple_text_nodes)  # Output: Multiple text nodes

# `separator` 매개변수를 사용하여 구분자를 지정합니다.
single_text_node_with_separator = soup.find('div', class_='example').get_text(strip=True)
multiple_text_nodes_with_separator = soup.find_all('div', class_='example')[1].get_text(separator=' | ', strip=True)

print("\nCustom separator (' | '):")
print(single_text_node_with_separator)  # Output: Single text node
print(multiple_text_nodes_with_separator)  # Output: Multiple | text | nodes


Default separator:
Single text node
Multipletextnodes

Custom separator (' | '):
Single text node
Multiple | text | nodes


text
- 정의: text 속성은 요소 및 모든 하위 요소의 텍스트를 모두 포함하는 문자열을 반환. get_text() 메서드와 동일한 기능을 한다.
- 특징:
get_text()와 거의 동일한 결과를 제공.
get_text()와 다르게 추가 매개변수(separator, strip)를 사용할 수 없다.

In [None]:
from bs4 import BeautifulSoup

html = """
<div class="example">
    Single text node
</div>
<div class="example">
    <p>Multiple</p> text <span>nodes</span>
</div>
"""

soup = BeautifulSoup(html, 'html.parser')
single_text_node = soup.find('div', class_='example').text
multiple_text_nodes = soup.find_all('div', class_='example')[1].text

print(single_text_node)  # Output: Single text node
print(multiple_text_nodes)  # Output: Multiple text nodes



    Single text node


Multiple text nodes



Q. 정규표현식을 사용하여 아래와 같이 출력하세요.
```
Hello,world!
Hello,world!
```

In [48]:
html = '''
<html>
<body>
<div>
Hello,world!
</div>
<div>
<p>
Hello,<b>world!</b>
</p>
</div>
</body>
</html>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
bs = soup.body.text
print(bs)



Hello,world!



Hello,world!





In [50]:
import re
text = re.findall('[^\s]+',bs)
for t in text:
    print(t)
# print(re.findall('[A-Za-z!]+',bs))

Hello,world!
Hello,world!


Q. 아래와 같이 출력하세요.

`Hello,world! Hello,world!`

In [51]:
li = ''
for t in text:
    li += t
    li += ' '
print(li)

Hello,world! Hello,world! 


In [57]:
from bs4 import BeautifulSoup
html_doc = """<html><head><title>The Dormouse's story</title></head>
<body>
<div></div>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""
soup = BeautifulSoup(html_doc, 'html.parser')
print(soup.prettify())

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <div>
  </div>
  <p class="title">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>



In [53]:
# BeautifulSoup 객체를 문자열로 변환하여 bs 변수에 저장
# 문자열로 변환하면 정규 표현식이나 다른 문자열 처리 기법을 사용하여 HTML 콘텐츠를 검색하거나 조작할 수 있다.
bs = str(soup)
print(bs,type(bs))

<html><head><title>The Dormouse's story</title></head>
<body>
<div></div>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body></html> <class 'str'>


In [56]:
# 영어 텍스트만 출력
p = re.findall('[a-zA-Z]+',bs) # 정규표현식
m = ' '.join(p)
m

'html head title The Dormouse s story title head body div div p class title b The Dormouse s story b p p class story Once upon a time there were three little sisters and their names were a class sister href http example com elsie id link Elsie a a class sister href http example com lacie id link Lacie a and a class sister href http example com tillie id link Tillie a and they lived at the bottom of a well p p class story p body html'

In [59]:
print(type(soup))

<class 'bs4.BeautifulSoup'>


In [62]:
print(soup.get_text())
print(soup.text)
print(type(soup.text))

The Dormouse's story


The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...

The Dormouse's story


The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...

<class 'str'>


In [63]:
texts = soup.find_all('body')
li = ''
for t in texts:
    li += t.text
print(li)



The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...



In [64]:
# 개행을 정규표현식으로 제거
import re
texts = re.findall('[^\s]+', soup.text) # [^\s]는 공백 문자가 아닌 모든 문자를 의미
li =''
for text in texts:
    li += text
    li += ' '
print(li)

The Dormouse's story The Dormouse's story Once upon a time there were three little sisters; and their names were Elsie, Lacie and Tillie; and they lived at the bottom of a well. ... 


In [65]:
print(soup.title.string)

The Dormouse's story


bs

https://hi-guten-tag.tistory.com/8

#### html.parser vs. lxml
- 파이썬에서 HTML 및 XML 문서를 파싱(parsing)하는 라이브러리
- html.parser는 HTML 문서를 파싱하는 데에 적합한 파서. 파이썬의 기본 라이브러리로 제공되며 파이썬 내부적으로 구현되어 있으며, 외부 종속성이 없으므로 파이썬과 함께 설치되는 패키지만 사용할 수 있습니다.
- lxml은 C 언어로 작성된 파이썬 외부 라이브러리로서 HTML 및 XML 문서를 파싱하는 데에 적합하며, 파서 성능이 매우 우수합니다.
- HTML 문서를 파싱하는 경우에는 html.parser를 사용하는 것이 간단하고 편리하며, 대부분의 경우에는 충분한 성능을 제공합니다. 그러나 대용량의 XML 문서나 매우 복잡한 HTML 문서를 파싱해야 하는 경우에는 lxml을 사용하는 것이 더 효율적입니다.


#### urllib + bs

In [None]:
# lxml은 파이썬에서 XML과 HTML 문서를 파싱하고 조작하기 위한 빠르고 유연한 라이브러리
!pip install lxml

In [None]:
import urllib.request as rq

url = 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100'
# html = rq.urlopen(url).read()
html = rq.urlopen(url)
bs = BeautifulSoup(html, 'lxml')
print(bs)

<!DOCTYPE HTML>
<html lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta contents="always" name="referrer"/>
<meta content="600" http-equiv="refresh"/>
<meta content="width=1106" name="viewport"/>
<meta content="정치 : 네이버 뉴스" property="og:title"/>
<meta content="website" property="og:type"/>
<meta content="https://news.naver.com/main/main.naver?mode=LSD&amp;mid=shm&amp;sid1=100" property="og:url"/>
<meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800x420_20221201.png" property="og:image"/>
<meta content="국회, 행정, 국방, 외교 등 정치 분야 뉴스 제공" property="og:description"/>
<meta content="네이버" property="og:article:author"/>
<meta content="summary" name="twitter:card"/>
<meta content="정치 : 네이버 뉴스" name="twitter:title"/>
<meta content="네이버 뉴스" name="twitter:site"/>
<meta content="네이버 뉴스" name="twitter:creator"/>
<meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800x420_20221201.png" name="twitt

In [None]:
text1 = bs.find('p')
print(text1,'\n')
text2 = bs.find('p').string
print(text2,'\n')
text3 = bs.find('p').get_text()
print(text3)

<p class="airs_info_inner"><i class="airs_info_icon_airs">AiRS</i><span class="airs_info_text"><b>추천</b>으로 구성된 뉴스를 제공합니다.</span></p> 

None 

AiRS추천으로 구성된 뉴스를 제공합니다.


In [None]:
texts = bs.find_all('p')
for t in texts:
    print(t.text)

AiRS추천으로 구성된 뉴스를 제공합니다.
오전 9시~오전 10시까지 집계한 결과입니다.
본 콘텐츠의 저작권은 제공처 또는 네이버에 있으며 이를 무단 이용하는 경우 저작권법 등에 따라 법적책임을 질 수 있습니다.


bs4에서 headers는
- HTTP 요청을 보낼 때 요청 헤더를 설정하는 데 사용됩니다.
- 일반적으로 웹 사이트에서 데이터를 스크래핑하려면, 해당 웹 사이트에서 HTTP 요청을 받을 때 자신이 웹 브라우저인 것처럼 보이도록 요청 헤더를 설정해야 합니다.
- 이를 통해 웹 사이트는 봇이나 크롤러와 같은 자동화된 스크래핑 도구에서 요청을 보내는 것으로 인식하는 것을 방지할 수 있습니다.

 #### 인코딩 에러를 해결
 chardet.detect(response.content)['encoding']은 response.content의 인코딩 방식을 자동으로 감지하여 반환하며
 이 값을 encoding 변수에 저장한 후, response.content를 이 encoding 방식으로 디코딩하여 html 변수에 저장하고 출력

In [None]:
import requests
import chardet

# HTTP 요청에서 사용될 헤더 정보를 설정합니다.
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}

# 웹사이트에서 스크래핑할 URL을 지정합니다.
url = 'https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100'

# 지정된 url에 HTTP GET 요청을 전달
response = requests.get(url, headers=headers)

# HTTP 요청이 성공적으로 전달되었다면, 웹사이트의 HTML 코드를 출력합니다.
if response.status_code == 200:
    encoding = chardet.detect(response.content)['encoding']
    # print(response.content.decode(encoding)) # 웹사이트의 HTML 코드를 포함하는 이진(binary) 데이터를 반환
    print(response.text) # 웹사이트의 HTML 코드를 문자열 형태로 반환
else:
    print("HTTP request failed.")


<!doctype html>
<html lang="ko" data-useragent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36">
	<head>
		<meta charset="utf-8">
		<meta http-equiv="X-UA-Compatible" content="IE=edge">
		<meta name="referrer" contents="always">
		<meta http-equiv="refresh" content="600">
		<meta name="viewport" content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0, user-scalable=no" />
		<meta property="og:title" content="정치 : 네이버 뉴스">
		<meta property="og:type" content="website">
		<meta property="og:url" content="https://news.naver.com/section/100">
		<meta property="og:image" content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800x420_20221201.png">
		<meta property="og:description" content="국회, 행정, 국방, 외교 등 정치 분야 뉴스 제공">
		<meta property="og:article:author" content="네이버">
		<meta name="twitter:card" content="summary">
		<meta name="twitter:title" content="정치 : 네이버 뉴스">
		<meta nam

In [None]:
# 한글만 출력
import re
texts = response.text
result = re.findall('[가-힣]+',texts)
' '.join(result)


'정치 네이버 뉴스 국회 행정 국방 외교 등 정치 분야 뉴스 제공 네이버 정치 네이버 뉴스 네이버 뉴스 네이버 뉴스 국회 행정 국방 외교 등 정치 분야 뉴스 제공 정치 홈 네이버 뉴스 광고적용 태그 추가 메인 메뉴로 바로가기 본문으로 바로가기 검색 뉴스 연예 스포츠 날씨 프리미엄 언론사별 정치 선택됨 경제 사회 생활 문화 과학 세계 랭킹 신문보기 오피니언 팩트체크 전체 언론사 전체 언론사 뉴스스탠드 뉴스스탠드 라이브러리 라이브러리 일 전체 언론사 전체 언론사 뉴스스탠드 뉴스스탠드 라이브러리 라이브러리 기사목록 정치 대통령실 국회 정당 북한 행정 국방 외교 정치일반 언론사 구독하기 네이버 프리미엄콘텐츠 안내 헤드라인 뉴스 헤드라인 뉴스와 각 기사묶음 타이틀은 기사 내용을 기반으로 자동 추출 됩니다 닫기 한미 정상 부부 가슴 울린 아이들 초 아리랑 앵콜곡 요청까지 분 미만으로 예정됐던 한미 정상 부부와 합창단 아이들 간 조우가 분을 넘어섰습니다 이들의 초 아리랑 을 감상한 조 바이든은 아이들이 너무 헤럴드경제 백악관에 또 와라 초 아리랑 으로 감동 전한 아이들 연합뉴스 초 행사가 분으로 한미정상 부부에 감동전한 한인 아이들 동아일보 백악관 또 와달라 한미정상 부부 멈추게한 아이들의 아리랑 개의 관련뉴스 더보기 동영상기사 년 성취 무너져 허망 발언 빠져 다큐 문재인입니다 보니 년간 이룬 성취가 무너졌다 는 취지의 문재인 전 대통령 발언은 빠졌고 그의 평산마을 전원 생활이 부각됐다 문 전 대통령의 퇴임 후 일상을 보여주는 중앙일보 서울신문 다큐 문재인입니다 첫 공개 년 간 성취 발언 빠진 이유는 다큐 문재인입니다 공개 문재인이라는 인간 탐구에 초점 조선일보 년 성취 무너져 허망 다큐 발언 실제 공개땐 빠졌다 개의 관련뉴스 더보기 워싱턴 선언 핵 공유 논란 대국민 사기극 성과 딴지 김태효 차장 사실상 핵 공유 핵 공유 아냐 온도 차 강선우 온도 차가 아니라 비교체험 극과 극 장동혁 과 더불어민주당이 찰떡 세계일보 국민의힘 북한 민주당 찰떡공조로 방미성과 깎아내리고 딴지

In [None]:
import requests as rq
from bs4 import BeautifulSoup
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}
url = 'https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100'
r = rq.get(url,headers=headers)
# print(r)
html = r.text
bs = BeautifulSoup(html, 'lxml')
print(bs.prettify)

<bound method Tag.prettify of <!DOCTYPE html>
<html data-useragent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36" lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta contents="always" name="referrer"/>
<meta content="600" http-equiv="refresh"/>
<meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0, user-scalable=no" name="viewport"/>
<meta content="정치 : 네이버 뉴스" property="og:title"/>
<meta content="website" property="og:type"/>
<meta content="https://news.naver.com/section/100" property="og:url"/>
<meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800x420_20221201.png" property="og:image"/>
<meta content="국회, 행정, 국방, 외교 등 정치 분야 뉴스 제공" property="og:description"/>
<meta content="네이버" property="og:article:author"/>
<meta content="summary" name="twitter:card"/>
<meta content="정치 : 네이버 뉴스" name="twitter:title"

In [None]:
# bs.find('div')
# bs.find('div',id=True)
bs.find('div', id='header')

In [None]:
import requests as rq
from bs4 import BeautifulSoup
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}
url = 'https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100'
r = rq.get(url,headers=headers)
# print(r)
html = r.text
bs = BeautifulSoup(html, 'lxml')
# print(bs.find('div',id=True))
bs.find('div',id=True).find('a').text

'메인 메뉴로 바로가기'

In [None]:
lists = bs.find('div',id=True).find_all('a')
for i in lists:
    print(i.text)

메인 메뉴로 바로가기
본문으로 바로가기
검색
NAVER
뉴스
TV연예
스포츠
날씨
프리미엄
언론사별 
정치 선택됨
경제 
사회 
생활/문화 
IT/과학 
세계 
랭킹 
신문보기 
오피니언 
TV 
팩트체크 
전체 언론사
뉴스스탠드
라이브러리
전체 언론사
뉴스스탠드
라이브러리
정치
대통령실 
국회/정당 
북한 
행정 
국방/외교 
정치일반 


안내헤드라인 뉴스



김기현, '음주운전 방지 장치 부착 의무화' 법안 내일 대표 발의
'후~' 불어야 시동…김기현 '음주운전 방지장치' 법안 내일 발의
3번째 음주운전…중앙선 넘어 트럭 들이받았지만 '집행유예'
'스쿨존 음주운전' 엄벌…"안전시설 설치부터"
40개의 관련뉴스 더보기



민주당 "尹대통령 방미, 대국민 사기 외교"
민주당 “尹 방미, 대국민 사기 외교…텅빈 쇼핑백”
민주 "尹 방미, '빈손' 넘어 '사기' 외교…경제 사안 해결 없어"
"무한·영원한 번영" "텅 빈 쇼핑백"‥여야, 국빈방미 극과극 평가
24개의 관련뉴스 더보기



한·미정상회담 끝나자 ‘비싼대가 치를 것’ 위협한 북한, 군사 행동 수위 높이나?
北, ‘워싱턴 선언’에 핵 선제타격 위협…대형도발 강행하나
北, 연일 ‘워싱턴 선언’ 비난하며 도발 명분 쌓기…“군사억제력 강화 당연”
北김여정, 한미 비난하며 '결정적 행동' 위협…도발 명분쌓기
8개의 관련뉴스 더보기



민주당 "있지도 않은 핵공유 말 지어내" 정부·여당 비판한 이유는?
민주 “핵 공유? 대국민 사기극…아전인수식 정신 승리”
민주당, '사실상 핵 공유'에 "대통령실·與, 정신승리 끈 놓지 못해"
민주, '사실상 핵공유' 논란에 "대국민 사기극…정신승리 하자는 것"
31개의 관련뉴스 더보기



김여정, '정권종말' 바이든에 "미래없는 늙은이의 망언"



[속보] 北김여정, 바이든 ‘정권 종말’ 발언에 “늙은이의 망언, 쉽게 넘길 수 없다”
85개의 관련뉴스 더보기


동영상기사

'방미' 윤대통령, MIT 석학 만나…'디지털 바이오' 논의



MIT 찾은 尹 대통령 “한

In [None]:
import urllib.request as rq

url = 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100'
html = rq.urlopen(url)
bs = BeautifulSoup(html, 'lxml')
texts = bs.find_all('p')
print(texts)

[<p class="airs_info_inner"><i class="airs_info_icon_airs">AiRS</i><span class="airs_info_text"><b>추천</b>으로 구성된 뉴스를 제공합니다.</span></p>, <p class="section_sub_txt">오후 3시~오후 4시까지 집계한 결과입니다.</p>, <p class="copyright">본 콘텐츠의 저작권은 제공처 또는 네이버에 있으며 이를 무단 이용하는 경우 저작권법 등에 따라 법적책임을 질 수 있습니다.</p>]


In [None]:
for t in texts:
    t = t.get_text()
    print(t,'\n')

AiRS추천으로 구성된 뉴스를 제공합니다. 

오후 3시~오후 4시까지 집계한 결과입니다. 

본 콘텐츠의 저작권은 제공처 또는 네이버에 있으며 이를 무단 이용하는 경우 저작권법 등에 따라 법적책임을 질 수 있습니다. 



In [None]:
import urllib.request as rq
url = 'https://news.naver.com'
html = rq.urlopen(url)
bs = BeautifulSoup(html, 'lxml')
print(bs.prettify())

<!DOCTYPE html>
<html lang="ko">
 <head>
  <title id="browserTitleArea">
   네이버 뉴스
  </title>
  <script>
   function isMobileDevice() {
		return /^.*(iPhone|iPod|iPad|Android).*/.test(navigator.userAgent);
	}
  </script>
  <script>
   (function () {
		try {
			if (isMobileDevice() && isAbleApplyPrefersColorScheme()) {
				
				document.querySelector("html").classList.add("DARK_THEME");
			}
		} catch(e) {}

		function isAbleApplyPrefersColorScheme() {
			
			if (window.matchMedia("(prefers-color-scheme)").matches === false) {
				return false;
			}

			var userAgent = navigator.userAgent;

			if (userAgent.indexOf("NAVER") > -1) {
				
				if (/.*NAVER\([a-zA-Z]*;\s[a-zA-Z]*;\s([0-9]*);/.test(userAgent)) {
					return Number(RegExp.$1) >= 1000;
				}
			} else {
				
				return document.cookie.indexOf("NSCS=1") > -1;
			}

			return false;
		}
	})();
  </script>
  <script>
   var g_ssc = 'news.v3_media' || null;
  </script>
  <meta charset="utf-8"/>
  <meta content="width=device-width,

In [None]:
# bs.find_all
texts = bs.find_all('p')
for t in texts:
    print(t.string)

물건을 먼저 구입하고 나중에 결제하는 '선구매 후불결제(BNPL)' 서비스의 연체율이 높아지면서 건전성에 대한 우려도 커지고 있다. 30일 국회 정무위원회 소속 최승재 국민의힘 의원이 금융감독원으로부터 받은 네이버파
'K팝 사상 최단 기간 빌보드 입성', '중소의 기적' 등의 영광스러운 수식어를 지닌 피프티피프티 활약에 제동이 걸렸다. 튀르계 가수 Evrencan Gündüz가 피프티피프티의 데뷔곡 '큐피드'가
'축구 황제' 펠레의 이름이 '뛰어난, 비교할 수 없는, 유일무이한' 사람을 의미하는 형용사로 브라질 사전에 영원히 남게 됐습니다. 현지 시간으로 지난 27일 CNN, BBC 등 외신들은 '펠레'가 포르투갈어 사전에
“한국인이 없어서 못타는 ‘독일차’…가수 위너도 반했다” 중고차 거래 플랫폼 KB차차차가 지난 1년간 한국인이 가장 많이 찾는 독일 3사(벤츠·BMW·아우디) 중고차 모델을 분석한 결과 벤츠 E클래스가 1위를 기록한
29일 오후 7시 무렵 전북 전주시 전북대 삼성문화회관은 사람들로 붐볐다. 제24회 전주국제영화제에서 첫 공개되는 다큐멘터리영화 ‘문재인입니다’를 보려는 이들이 대부분이었다. 일부 관객은 로비에 설치된 대형 영화 포
지난달 경기도 포천의 한 주택가 골목. 늦은 밤, 남성 세 명이 계속 주변을 두리번거리며 골목을 서성입니다. 다른 날에도 이 골목엔 같은 남성들이 찾아와 누군가를 기다리는 듯 한참을 서 있다 떠났습니다. 다음날인 2
간호법 제정 반대를 위해 단식 시위 중이던 곽지연 대한간호조무사협회장이 병원으로 이송됐다. 30일 오후 국회 앞에서 단식 농성을 벌이던 곽 회장은 보건복지부 조규홍 장관과 현장 의사의 권유로 병원에 응급 이송됐다. 
요즘 4대강 사업의 주역들이 부쩍 대중 앞에 자주 등장하고 있다. 이명박 전 대통령(이하 존칭 생략)은 며칠 전 측근 유인촌의 연극을 관람했고 앞으로 4대강도 방문할 예정이라고 한다. 4대강 추진본부장이었던 심명필은
남북이 가장 가깝게 총구를 맞대고 있는 곳, 최북단 철책에는 24시간 경계를

In [None]:
url = 'https://news.naver.com'
html = rq.urlopen(url)
bs = BeautifulSoup(html, 'lxml')

import re
texts = bs.text
result = re.findall('[가-힣]+',texts)
' '.join(result)

'네이버 뉴스 본문 바로가기 뉴스 연예 스포츠 날씨 프리미엄 검색 언론사별 정치 경제 사회 생활 문화 과학 세계 랭킹 신문보기 오피니언 팩트체크 전체 언론사 뉴스스탠드 라이브러리 콘텐츠 일 전체 언론사 뉴스스탠드 라이브러리 언론사편집 기자 연재 구독설정 블로터 월 일 구독 나이트크로우 위메이드 캐시카우로 자리잡을까 오 컬쳐 지난 일 출시한 모바일 나이트크로우 가 출시 일 만에 구글플레이 스토어 매출 순위 위를 기록했다 그간 글로벌 지역을 중심으로 블록체인과 관련 기술을 탑재한 게임 플랫폼을 운영해온 위메이드는 나 국민일보 월 일 구독 강제추행 출신 힘찬 대법서 징역 개월 확정 강제추행 혐의로 기소된 남성그룹 출신 김힘찬 활동명 힘찬 씨가 대법원에서 실형을 확정했다 일 법조계에 따르면 대법원 부 주심 대법관 오석준 는 최근 김씨의 상고를 기각하고 징역 개월을 선고 코리아헤럴드 월 일 구독 주간동아 월 일 구독 우울증 갤러리 엔 아직도 여성 회원에 만나자는 글 수십 건 활동 무대 옮겨가며 미성년자 성 착취하는 유사 번방 기승 팸 옵챗 오픈채팅 들어가지마셈 온라인 커뮤니티 디시인사이드의 우울증 갤러리 에는 최근 이 같은 내용의 게시물이 여러 건 디지털타임스 월 일 구독 속보 대통령 박 일 국빈 방미 마치고 귀국 윤석열 대통령이 일 박 일 간의 미국 국빈 방문을 마치고 귀국했다 윤 대통령과 부인 김건희 여사는 이날 오후 전용기인 공군 호기 편으로 서울공항에 도착해 미리 나와 있던 환영객들과 인사했다 지난 일 출 새로보기 조세일보 월 일 구독 빚 만드는 외상결제 서비스업체 연체율 급증에 건전성 우려 물건을 먼저 구입하고 나중에 결제하는 선구매 후불결제 서비스의 연체율이 높아지면서 건전성에 대한 우려도 커지고 있다 일 국회 정무위원회 소속 최승재 국민의힘 의원이 금융감독원으로부터 받은 네이버파 매경이코노미 월 일 구독 백스윙 때 오른발 뒤꿈치 밟고 스윙 때 떼라 김상현의 정교한 샷 한국프로골프 코리안투어가 개막하는 매년 월 주목받는 한 선수가 있습니다 전년도 스릭슨투어 

#### requests + bs

In [None]:
from bs4 import BeautifulSoup
import requests as rq
url = 'https://news.naver.com/'
r = rq.get(url)
html = r.text
bs = BeautifulSoup(html, 'lxml')
print(bs)

<!DOCTYPE html>
<html lang="ko">
<head>
<title id="browserTitleArea">네이버 뉴스</title>
<script>
	function isMobileDevice() {
		return /^.*(iPhone|iPod|iPad|Android).*/.test(navigator.userAgent);
	}
</script>
<script>
	(function () {
		try {
			if (isMobileDevice() && isAbleApplyPrefersColorScheme()) {
				
				document.querySelector("html").classList.add("DARK_THEME");
			}
		} catch(e) {}

		function isAbleApplyPrefersColorScheme() {
			
			if (window.matchMedia("(prefers-color-scheme)").matches === false) {
				return false;
			}

			var userAgent = navigator.userAgent;

			if (userAgent.indexOf("NAVER") > -1) {
				
				if (/.*NAVER\([a-zA-Z]*;\s[a-zA-Z]*;\s([0-9]*);/.test(userAgent)) {
					return Number(RegExp.$1) >= 1000;
				}
			} else {
				
				return document.cookie.indexOf("NSCS=1") > -1;
			}

			return false;
		}
	})();
</script>
<script>
		var g_ssc = 'news.v3_media' || null;
		</script>
<meta charset="utf-8"/>
<meta content="width=device-width,initial-scale=1.0,maximum-sca

In [None]:
bs.find('title').get_text()

'네이버 뉴스'

In [None]:
bs.find('title').text

'네이버 뉴스'

In [None]:
bs.find('title').string


'네이버 뉴스'

In [None]:
# 기상청 데이터
# urlopen() 과 BeautifulSoup 조합
from bs4 import BeautifulSoup
import urllib.request as req
url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"
# urlopen()으로 데이터 가져오기
res = req.urlopen(url)
# BeautifulSoup으로 분석하기
soup = BeautifulSoup(res, "html.parser")
print(soup)

<?xml version="1.0" encoding="utf-8" ?>
<rss version="2.0">
<channel>
<title>기상청 육상 중기예보</title>
<link/>http://www.kma.go.kr/weather/forecast/mid-term_01.jsp
<description>기상청 날씨 웹서비스</description>
<language>ko</language>
<generator>기상청</generator>
<pubdate>2023년 04월 30일 (일)요일 06:00</pubdate>
<item>
<author>기상청</author>
<category>육상중기예보</category>
<title>전국 육상 중기예보 - 2023년 04월 30일 (일)요일 06:00 발표</title>
<link/>http://www.kma.go.kr/weather/forecast/mid-term_01.jsp
<guid>http://www.kma.go.kr/weather/forecast/mid-term_01.jsp</guid>
<description>
<header>
<title>전국 육상중기예보</title>
<tm>202304300600</tm>
<wf><![CDATA[○ (강수) 5월 4일(목)은 전남권과 경남권, 제주도에 비가 오겠습니다.<br />○ (기온) 이번 예보기간 아침 기온은 8~18도로 평년(최저기온 9~14도)과 비슷하거나 조금 높겠고, 낮 기온은 18~25도로 평년(최고기온 20~25도)과 비슷하겠습니다.<br />○ (해상) 5월 4일(목)~6일(토)은 전해상에서 물결이 1.0~3.0m로 높게 일겠습니다.<br /><br />* 이번 예보기간에는 기압골의 발달 정도와 이동 속도에 따라 강수시점과 구역이 변경될 가능성이 있으니, 앞으로 발표되는 최신 예보를 참고하기 바랍니다.]]></wf>
</header>
<body>
<location wl_ver="3">
<province>서울ㆍ인천ㆍ경기도</province>
<ci

In [None]:
# 원하는 데이터 추출하기
title = soup.find("title").text
print(title)

기상청 육상 중기예보


In [None]:
wf = soup.find("wf").text
print(wf)

○ (강수) 5월 4일(목)은 전남권과 경남권, 제주도에 비가 오겠습니다.<br />○ (기온) 이번 예보기간 아침 기온은 8~18도로 평년(최저기온 9~14도)과 비슷하거나 조금 높겠고, 낮 기온은 18~25도로 평년(최고기온 20~25도)과 비슷하겠습니다.<br />○ (해상) 5월 4일(목)~6일(토)은 전해상에서 물결이 1.0~3.0m로 높게 일겠습니다.<br /><br />* 이번 예보기간에는 기압골의 발달 정도와 이동 속도에 따라 강수시점과 구역이 변경될 가능성이 있으니, 앞으로 발표되는 최신 예보를 참고하기 바랍니다.


In [None]:
# 한글과 숫자만 출력
result = re.findall('[가-힣0-9]+',wf)
' '.join(result)

'강수 5월 4일 목 은 전남권과 경남권 제주도에 비가 오겠습니다 기온 이번 예보기간 아침 기온은 8 18도로 평년 최저기온 9 14도 과 비슷하거나 조금 높겠고 낮 기온은 18 25도로 평년 최고기온 20 25도 과 비슷하겠습니다 해상 5월 4일 목 6일 토 은 전해상에서 물결이 1 0 3 0 로 높게 일겠습니다 이번 예보기간에는 기압골의 발달 정도와 이동 속도에 따라 강수시점과 구역이 변경될 가능성이 있으니 앞으로 발표되는 최신 예보를 참고하기 바랍니다'

In [None]:
wf = soup.find("wf").text
wf = re.sub('<.+?>','',wf)
print(wf)
wf = ''.join(re.findall('[^A-Z0-9]?[0-9가-힣]+[^A-Z0-9]?',wf))
# wf = ''.join(re.findall('\w*\s',wf))
wf

○ (강수) 5월 4일(목)은 전남권과 경남권, 제주도에 비가 오겠습니다.○ (기온) 이번 예보기간 아침 기온은 8~18도로 평년(최저기온 9~14도)과 비슷하거나 조금 높겠고, 낮 기온은 18~25도로 평년(최고기온 20~25도)과 비슷하겠습니다.○ (해상) 5월 4일(목)~6일(토)은 전해상에서 물결이 1.0~3.0m로 높게 일겠습니다.* 이번 예보기간에는 기압골의 발달 정도와 이동 속도에 따라 강수시점과 구역이 변경될 가능성이 있으니, 앞으로 발표되는 최신 예보를 참고하기 바랍니다.


'(강수) 5월 4일(목)은 전남권과 경남권, 제주도에 비가 오겠습니다.(기온) 이번 예보기간 아침 기온은 8~18도로 평년(최저기온 9~14도)과 비슷하거나 조금 높겠고, 낮 기온은 18~25도로 평년(최고기온 20~25도)과 비슷하겠습니다.(해상) 5월 4일(목)~6일(토)은 전해상에서 물결이 1.0~3.0m로 높게 일겠습니다. 이번 예보기간에는 기압골의 발달 정도와 이동 속도에 따라 강수시점과 구역이 변경될 가능성이 있으니, 앞으로 발표되는 최신 예보를 참고하기 바랍니다.'

In [None]:
wf = soup.find('wf').get_text()
wf = re.sub('<.+?>','',wf) # wf 문자열에서 모든 HTML 태그를 제거하여 반환
wf = re.finditer('\w',wf)
print(title,'\n')
for i in wf:
    print(i.group(), end='')

기상청 육상 중기예보 

강수5월4일목은전남권과경남권제주도에비가오겠습니다기온이번예보기간아침기온은818도로평년최저기온914도과비슷하거나조금높겠고낮기온은1825도로평년최고기온2025도과비슷하겠습니다해상5월4일목6일토은전해상에서물결이1030m로높게일겠습니다이번예보기간에는기압골의발달정도와이동속도에따라강수시점과구역이변경될가능성이있으니앞으로발표되는최신예보를참고하기바랍니다

#### [과제] 기상청 육상 정보에서 강원도의 지역번호는 105이다. 강원도의 날씨예보를 출력하세요.
url = 'https://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=105'

In [None]:
# requests
from bs4 import BeautifulSoup
import requests
import re
url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=105"
res = requests.get(url).text
soup = BeautifulSoup(res,'html.parser')
wf = soup.find('wf').text
text = ''.join(re.findall('[^A-Z0-9]?[0-9가-힣]+[^A-Z0-9]?',wf))
text

'(하늘상태) 이번 예보기간은 대체로 흐린 날이 많겠으나, 5월 8일(월)~10일(수)은 대체로 맑겠습니다.(기온) 이번 예보기간 아침 기온은 5~16도, 낮 기온은 14~26도로 평년(최저기온 6~12도, 최고기온 17~25도)과 비슷하거나 조금 높겠습니다.(해상) 동해중부해상의 물결은 5월 5일(금)~6일(토)은 1.0~3.0m로 높게 일겠습니다. 이번 예보기간에는 기압골의 발달 정도와 이동 속도에 따라 강수시점과 구역이 변경될 가능성이 있으니, 앞으로 발표되는 최신 예보를 참고하기 바랍니다.'

In [None]:
# urllib
import re
from bs4 import BeautifulSoup
import urllib.request
import urllib.parse

API = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"
# 매개변수를 URL 인코딩합니다.
values = {
    'stnId': '105'
}
params = urllib.parse.urlencode(values)
# 요청 전용 URL을 생성합니다.
url = API + "?" + params
print("url=", url)

res = urllib.request.urlopen(url)
soup = BeautifulSoup(res,'html.parser')
wf = soup.find('wf').string
text = ''.join(re.findall('[^A-Z0-9]?[0-9가-힣]+[^A-Z0-9]?',wf))
text

url= http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=105


'(하늘상태) 이번 예보기간은 대체로 흐린 날이 많겠으나, 5월 8일(월)~10일(수)은 대체로 맑겠습니다.(기온) 이번 예보기간 아침 기온은 5~16도, 낮 기온은 14~26도로 평년(최저기온 6~12도, 최고기온 17~25도)과 비슷하거나 조금 높겠습니다.(해상) 동해중부해상의 물결은 5월 5일(금)~6일(토)은 1.0~3.0m로 높게 일겠습니다. 이번 예보기간에는 기압골의 발달 정도와 이동 속도에 따라 강수시점과 구역이 변경될 가능성이 있으니, 앞으로 발표되는 최신 예보를 참고하기 바랍니다.'

#### 연습 : urllib

#### Q. "http://www.naver.com" 사이트에서 span 태그에 연결된 한글만을 불필요한 공백을 제거한 후 출력하세요.

In [None]:
import urllib.request as rq
import re
url = "http://www.naver.com"
html = rq.urlopen(url)
bs = BeautifulSoup(html, 'lxml')
print(bs.prettify())

<!DOCTYPE html>
<html data-dark="false" lang="ko">
 <head>
  <meta charset="utf-8"/>
  <title>
   NAVER
  </title>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <meta content="width=1190" name="viewport"/>
  <meta content="NAVER" name="apple-mobile-web-app-title"/>
  <meta content="index,nofollow" name="robots"/>
  <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" name="description"/>
  <meta content="네이버" property="og:title"/>
  <meta content="https://www.naver.com/" property="og:url"/>
  <meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png" property="og:image"/>
  <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" property="og:description"/>
  <meta content="summary" name="twitter:card"/>
  <meta content="" name="twitter:title"/>
  <meta content="https://www.naver.com/" name="twitter:url"/>
  <meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png" name="twitter:image"/>
  <meta content="네이버 메인에서

In [None]:
text = bs.find('div')
print(text)

<div id="u_skip"> <a href="#newsstand"><span>뉴스스탠드 바로가기</span></a> <a href="#themecast"><span>주제별캐스트 바로가기</span></a> <a href="#timesquare"><span>타임스퀘어 바로가기</span></a> <a href="#shopcast"><span>쇼핑캐스트 바로가기</span></a> <a href="#account"><span>로그인 바로가기</span></a> </div>


In [None]:
text = bs.find('span')
text.string

'뉴스스탠드 바로가기'

In [None]:
print(bs.find('div').string)
print(bs.find('div').find('span').string)
print(bs.find('div').get_text())
print(bs.find('div').text)

None
뉴스스탠드 바로가기
 뉴스스탠드 바로가기 주제별캐스트 바로가기 타임스퀘어 바로가기 쇼핑캐스트 바로가기 로그인 바로가기 
 뉴스스탠드 바로가기 주제별캐스트 바로가기 타임스퀘어 바로가기 쇼핑캐스트 바로가기 로그인 바로가기 


In [None]:
texts = bs.find_all('span')
texts

[<span>뉴스스탠드 바로가기</span>,
 <span>주제별캐스트 바로가기</span>,
 <span>타임스퀘어 바로가기</span>,
 <span>쇼핑캐스트 바로가기</span>,
 <span>로그인 바로가기</span>,
 <span class="_1syGnXOL _3VkgqBXB" data-clk="dropbanner1a" style="padding-right: 20px; font-size: 17px; color: black"><span>매일 쓰는 브라우저 보안이 걱정된다면, </span><strong>안전하고 빠른 최신 브라우저 웨일로 업데이트 하세요.</strong></span>,
 <span>매일 쓰는 브라우저 보안이 걱정된다면, </span>,
 <span style="background-color: #0436c7">다운로드</span>,
 <span class="blind">네이버</span>,
 <span class="blind">쥬니어네이버</span>,
 <span class="blind">해피빈</span>,
 <span class="blind">검색</span>,
 <span class="ico_search_submit"></span>,
 <span class="blind">한글 입력기</span>,
 <span class="ico_keyboard"></span>,
 <span class="blind">자동완성 레이어</span>,
 <span class="ico_arr"></span>,
 <span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span><span>@txt@</span></span>,
 <span class="common_ico_kwd"><i class="imsc ico_search"></i></span>,
 <span>@txt@</span>,
 <span class="etc">
 <em class="date">@date@.</e

In [None]:
# texts = str(texts)
texts = bs.find_all('span')
lt = ''
for t in texts:
    t = t.get_text()
    lt += t
print(lt)


뉴스스탠드 바로가기주제별캐스트 바로가기타임스퀘어 바로가기쇼핑캐스트 바로가기로그인 바로가기매일 쓰는 브라우저 보안이 걱정된다면, 안전하고 빠른 최신 브라우저 웨일로 업데이트 하세요.매일 쓰는 브라우저 보안이 걱정된다면, 다운로드네이버쥬니어네이버해피빈검색한글 입력기자동완성 레이어@txt@@txt@
@date@.

삭제
설정이 초기화 된다면 도움말을 확인해주세요.설정이 초기화 된다면 도움말을 확인해주세요.
도움말
도움말


자동저장 끄기



자동저장 끄기
@5@회 로또당첨번호
동행복권 제공
동행복권 제공

@6@@7@@8@@9@@10@@11@@12@


@6@@7@@8@@9@@10@@11@@12@
@14@@txt@@currency@@currency@
@8@(@9@%)
@8@(@9@%)
@6@원
@6@원@txt@
@7@, @message@
@7@, @message@


@7@
@8@°



@7@
@8@°
@7@@txt@
@5@
@5@
바로가기
바로가기@txt@
추가
@txt@

@date@.
추가
@query@ @intend@@intend@
추가




자세히보기

도움말
신고
도움말신고


자동완성 끄기



자동완성 끄기
쇼핑쇼핑LIVE8.0°18.0°상암동상암동리스트형썸네일형설정이전다음닫기닫기이전다음닫기닫기이전다음다음닫기닫기이전다음닫기닫기주제별로 분류된 다양한 글 모음641 개의 글이전다음재생재생시간9:25재생시간어제
제59회 백상예술대상
제59회 백상예술대상재생재생시간1:49재생시간18시간 전
닥터 차정숙
닥터 차정숙재생재생시간2:37재생시간17시간 전
닥터 차정숙
닥터 차정숙재생재생시간1:19재생시간8시간 전
닥터 차정숙
닥터 차정숙재생재생시간3:52재생시간1개월 전
불타는 트롯맨
불타는 트롯맨재생재생시간1:47재생시간18시간 전
닥터 차정숙
닥터 차정숙재생재생시간3:58재생시간어제
서진이네
서진이네재생재생시간0:57재생시간어제
제59회 백상예술대상
제59회 백상예술대상재생재생시간4:08재생시간8시간 전
뭉쳐야 찬다2
뭉쳐야 찬다2오전 2시 업데이트위
임

In [None]:
lt = str(lt)
lt = re.findall('[가-힣]+',lt)
lt = ' '.join(lt)
lt

'뉴스스탠드 바로가기주제별캐스트 바로가기타임스퀘어 바로가기쇼핑캐스트 바로가기로그인 바로가기매일 쓰는 브라우저 보안이 걱정된다면 안전하고 빠른 최신 브라우저 웨일로 업데이트 하세요 매일 쓰는 브라우저 보안이 걱정된다면 다운로드네이버쥬니어네이버해피빈검색한글 입력기자동완성 레이어 삭제 설정이 초기화 된다면 도움말을 확인해주세요 설정이 초기화 된다면 도움말을 확인해주세요 도움말 도움말 자동저장 끄기 자동저장 끄기 회 로또당첨번호 동행복권 제공 동행복권 제공 원 원 바로가기 바로가기 추가 추가 추가 자세히보기 도움말 신고 도움말신고 자동완성 끄기 자동완성 끄기 쇼핑쇼핑 상암동상암동리스트형썸네일형설정이전다음닫기닫기이전다음닫기닫기이전다음다음닫기닫기이전다음닫기닫기주제별로 분류된 다양한 글 모음 개의 글이전다음재생재생시간 재생시간어제 제 회 백상예술대상 제 회 백상예술대상재생재생시간 재생시간 시간 전 닥터 차정숙 닥터 차정숙재생재생시간 재생시간 시간 전 닥터 차정숙 닥터 차정숙재생재생시간 재생시간 시간 전 닥터 차정숙 닥터 차정숙재생재생시간 재생시간 개월 전 불타는 트롯맨 불타는 트롯맨재생재생시간 재생시간 시간 전 닥터 차정숙 닥터 차정숙재생재생시간 재생시간어제 서진이네 서진이네재생재생시간 재생시간어제 제 회 백상예술대상 제 회 백상예술대상재생재생시간 재생시간 시간 전 뭉쳐야 찬다 뭉쳐야 찬다 오전 시 업데이트위 임재현 시작은 첫키스 재생가사위 허각 물론재생가사위 박재정 집 재생가사위상승 손승연 꽃선비 열애사 재생가사위하락 윤지영 나의 정원에서재생가사위 노리플라이 랑데뷰 재생가사위 볼빨간사춘기 사랑 재생가사위 진수영 홍이삭 재생가사위 박시환 재생가사위상승 박재범 재생가사재생재생시간 재생시간 시간 전 낭만닥터 김사부 낭만닥터 김사부 재생재생시간 재생시간어제 제 회 백상예술대상 제 회 백상예술대상재생재생시간 재생시간 시간 전 닥터 차정숙 닥터 차정숙재생재생시간 재생시간 시간 전 닥터 차정숙 닥터 차정숙재생재생시간 재생시간 시간 전 낭만닥터 김사부 낭만닥터 김사부 재생재생시간 재생

#### Q. "http://www.naver.com" 사이트에서 span 태그에 연결된 문자 + 숫자를 불필요한 공백을 제거한 후 출력하세요.

In [None]:
import urllib.request as rq
import re
url = "http://www.naver.com"
html = rq.urlopen(url)
bs = BeautifulSoup(html, 'lxml')
texts = bs.find_all('span')
for t in texts:
    print(t.text)


뉴스스탠드 바로가기
주제별캐스트 바로가기
타임스퀘어 바로가기
쇼핑캐스트 바로가기
로그인 바로가기
매일 쓰는 브라우저 보안이 걱정된다면, 안전하고 빠른 최신 브라우저 웨일로 업데이트 하세요.
매일 쓰는 브라우저 보안이 걱정된다면, 
다운로드
네이버
쥬니어네이버
해피빈
검색

한글 입력기

자동완성 레이어

@txt@

@txt@

@date@.

삭제

설정이 초기화 된다면 도움말을 확인해주세요.
설정이 초기화 된다면 도움말을 확인해주세요.

도움말

도움말



자동저장 끄기




자동저장 끄기


@5@회 로또당첨번호

동행복권 제공

동행복권 제공


@6@@7@@8@@9@@10@@11@@12@



@6@@7@@8@@9@@10@@11@@12@

@14@
@txt@@currency@
@currency@

@8@(@9@%)

@8@(@9@%)

@6@원

@6@원

@txt@

@7@, @message@

@7@, @message@



@7@
@8@°




@7@
@8@°

@7@

@txt@

@5@

@5@

바로가기

바로가기
@txt@


추가

@txt@



@date@.
추가

@query@ @intend@

@intend@

추가






자세히보기



도움말
신고

도움말
신고



자동완성 끄기




자동완성 끄기

쇼핑
쇼핑LIVE
8.0°
18.0°
상암동
상암동




리스트형
썸네일형
설정
이전
다음
닫기
닫기
이전
다음
























닫기
닫기
이전
다음
다음
닫기
닫기
이전
다음
닫기
닫기
주제별로 분류된 다양한 글 모음
641 개의 글
이전
다음


4일 전

경제만랩

경제만랩

2일 전

KT 에스테이트

KT 에스테이트

5일 전

부동산R114

부동산R114

5일 전

비즈한국

비즈한국

어제

뉴스1

뉴스1


재생
재생시간
재생시간
1주일 전


머니투데이


머니투데이


재생
재생시간
재생시간
1주일 전


한국경제TV - 신속한 경제/증권 채널


한국경제TV - 신

In [None]:
result = ''
for t in texts:
    t = t.text
    result += t

r = str(result)
r = re.findall('[가-힣]+',r)
print(' '.join(r))

뉴스스탠드 바로가기주제별캐스트 바로가기타임스퀘어 바로가기쇼핑캐스트 바로가기로그인 바로가기매일 쓰는 브라우저 보안이 걱정된다면 안전하고 빠른 최신 브라우저 웨일로 업데이트 하세요 매일 쓰는 브라우저 보안이 걱정된다면 다운로드네이버쥬니어네이버해피빈검색한글 입력기자동완성 레이어 삭제 설정이 초기화 된다면 도움말을 확인해주세요 설정이 초기화 된다면 도움말을 확인해주세요 도움말 도움말 자동저장 끄기 자동저장 끄기 회 로또당첨번호 동행복권 제공 동행복권 제공 원 원 바로가기 바로가기 추가 추가 추가 자세히보기 도움말 신고 도움말신고 자동완성 끄기 자동완성 끄기 쇼핑쇼핑 상암동상암동리스트형썸네일형설정이전다음닫기닫기이전다음닫기닫기이전다음다음닫기닫기이전다음닫기닫기주제별로 분류된 다양한 글 모음 개의 글이전다음 일 전 경제만랩 경제만랩 일 전 에스테이트 에스테이트 일 전 부동산 부동산 일 전 비즈한국 비즈한국어제 뉴스 뉴스 재생재생시간재생시간 주일 전 머니투데이 머니투데이재생재생시간재생시간 주일 전 한국경제 신속한 경제 증권 채널 한국경제 신속한 경제 증권 채널재생재생시간재생시간 개월 전 머니투데이 머니투데이 시간 전 한국경제 한국경제 일 전 집코노미 집코노미 일 전 아시아경제 아시아경제 일 전 일 전 데이트저스트 데이트저스트재생재생시간재생시간 주일 전 머니투데이 머니투데이재생재생시간재생시간 일 전 머니투데이 머니투데이재생재생시간재생시간 주일 전 후랭이 후랭이 일 전 국민일보 국민일보어제 월급쟁이부자들 월급쟁이부자들 일 전 데이트저스트 데이트저스트 일 전 뉴스웨이 뉴스웨이 일 전 서울경제신문 서울경제신문재생재생시간재생시간 주일 전 한경 글로벌마켓 한경 글로벌마켓재생재생시간재생시간 개월 전 후랭이 후랭이 재생재생시간재생시간 개월 전 주슨생 주슨생 주일 전 전국투자자교육협의회 전국투자자교육협의회 일 전 바삭한경제 바삭한경제 일 전 조선비즈 조선비즈 일 전 부자동 부자동어제 부자비즈 부자비즈재생재생시간재생시간 주일 전 후랭이 후랭이 재생재생시간재생시간 개월 전 후랭이 후랭이 재생재생

In [None]:
import urllib.request as rq
import re
url = "http://www.naver.com"
html = rq.urlopen(url)
bs = BeautifulSoup(html, 'lxml')
texts = bs.find_all('span')

lt = ''
for t in texts:
    t = t.get_text()
    lt += t
# print(lt)

lt = str(lt)
lt = re.findall('[^\W]+',lt) # 문자 + 숫자와 매치
lt = ' '.join(lt)
lt

'뉴스스탠드 바로가기주제별캐스트 바로가기타임스퀘어 바로가기쇼핑캐스트 바로가기로그인 바로가기매일 쓰는 브라우저 보안이 걱정된다면 안전하고 빠른 최신 브라우저 웨일로 업데이트 하세요 매일 쓰는 브라우저 보안이 걱정된다면 다운로드네이버쥬니어네이버해피빈검색한글 입력기자동완성 레이어 txt txt date 삭제 설정이 초기화 된다면 도움말을 확인해주세요 설정이 초기화 된다면 도움말을 확인해주세요 도움말 도움말 자동저장 끄기 자동저장 끄기 5 회차 당첨번호 추첨 13 지급기한 1년 추첨 13 지급기한 1년 6 7 8 9 10 11 12 6 7 8 9 10 11 12 14 txt currency currency 8 9 8 9 6 원 6 원 txt 7 message 7 message 7 8 7 8 7 txt 5 5 바로가기 바로가기 txt 추가 txt date 추가 query intend intend 추가 자세히보기 도움말 신고 도움말신고 자동완성 끄기 자동완성 끄기 쇼핑쇼핑LIVE23 0 30 0 서초동서초동리스트형썸네일형설정이전다음닫기닫기이전다음닫기닫기이전다음다음닫기닫기이전다음닫기닫기주제별로 분류된 다양한 글 모음671 개의 글이전다음아백아백요일별 웹툰요일별 웹툰랑데뷰랑데뷰투신전생기투신전생기위유지 박태준 만화회사 김정현 스튜디오 137화 참아내야만 했다위유지 자까 시즌2 84화 어서 와 우리 집은 처음이지위상승 박태준만화회사 김숭늉 광산 9화_감시위유지 청담 56화위하락 이혜 101화위유지 서패스 김진석 200화위유지 웹툰 작가 18 몽유병 bunny 작가위상승 생일기분 56화위하락 박태준 만화회사 38화 허 접 ㅋ위유지 티바 여슬기 88화위유지 로유진 1화 무료위하락 린더 50화 무료위하락 비가 25화 무료위유지 파추 115화 무료위상승 글망쟁이 1화 무료위유지 전혁 1화 무료위유지 왕위 1화 무료위유지 글라딘 1화 무료위유지 우각 1화 무료위유지 windfall 1화 무료위유지 MAKOTO RAIKU 1화 무료위하락 박태준 김정현 141화 무료위유지 EIICHIRO 

#### Q. "http://www.naver.com" 사이트에서 a 태그에 id가 있는 경우에 대하여 연결된 문자 + 숫자를 아래와 같이 출력하세요.
- 해당되는 조건에 맞게 모두 출력
- 한글만 열방향으로 출력
- 불필요한 공백을 제거한 후 한글만 한줄에 출력

In [None]:
# A.
import urllib.request as rq
import re
url = "http://www.naver.com"
html = rq.urlopen(url)
bs = BeautifulSoup(html, 'html.parser')
texts = bs.find_all('a',id=True)
texts

[<a class="_2aeXMlrb BMgpjddw" data-clk="dropdownload1b" href="https://installer-whale.pstatic.net/downloads/banner/RydDy7/WhaleSetup.exe" id="NM_whale_download_btn"><span style="background-color: #0436c7">다운로드</span></a>,
 <a class="link_set" data-clk="top.mkhome" href="https://help.naver.com/support/welcomePage/guide.help" id="NM_set_home_btn">네이버를 시작페이지로</a>,
 <a class="btn_keyboard" href="#" id="ke_kbd_btn" onclick="return false;" role="button"><span class="blind">한글 입력기</span><span class="ico_keyboard"></span></a>,
 <a aria-pressed="false" class="btn_arw _btn_arw fold" data-atcmp-element="" href="#" id="nautocomplete" role="button" tabindex="2"><span class="blind">자동완성 레이어</span><span class="ico_arr"></span></a>,
 <a class="btn_set" data-clk="tca.like" href="#" id="NM_THEME_EDIT_SET" role="button">관심주제 설정</a>,
 <a class="content_top" href="#wrap" id="NM_scroll_top_btn"><span class="blind">TOP</span></a>]

In [None]:
# A.
import urllib.request as rq
import re
url = "http://www.naver.com"
html = rq.urlopen(url)
bs = BeautifulSoup(html, 'html.parser')
texts = bs.find_all('a',id=True)
for t in texts:
    t = t.get_text()
    print(t)

다운로드
네이버를 시작페이지로
한글 입력기
자동완성 레이어
관심주제 설정
TOP


In [None]:
# A.
url = "http://www.naver.com"
html = rq.urlopen(url)
bs = BeautifulSoup(html, 'html.parser')
texts = bs.find_all('a',id=True)
texts = str(texts)
p = re.findall('[가-힣]+',texts)
# p = re.findall('[^\W]+',texts)
m = ' '.join(p)
m

'다운로드 네이버를 시작페이지로 한글 입력기 자동완성 레이어 관심주제 설정'

In [None]:
# A.
import urllib.request as rq
import re
url = "http://www.naver.com"
html = rq.urlopen(url)
bs = BeautifulSoup(html, 'html.parser')
texts = bs.find_all('a',id=True)
lt = ''
for t in texts:
    t = t.get_text()
    lt += t
lt = str(lt)
lt = re.findall('[^\W]+', lt)
lt = ' '.join(lt)
print(lt)

다운로드네이버를 시작페이지로한글 입력기자동완성 레이어관심주제 설정TOP


In [None]:
import urllib.request as rq
import re
url = "http://www.naver.com"
html = rq.urlopen(url)
bs = BeautifulSoup(html, 'lxml')
text = bs.find('div').get_text()
text

' 뉴스스탠드 바로가기 주제별캐스트 바로가기 타임스퀘어 바로가기 쇼핑캐스트 바로가기 로그인 바로가기 '

In [None]:
from bs4 import BeautifulSoup
import urllib.request as rq
url = 'https://news.naver.com/'
html = rq.urlopen(url)
bs = BeautifulSoup(html, 'lxml')
print(bs.find_all('p'))

[<p class="cjs_d">(410) 김상현의 정교한 샷 한국프로골프(KPGA) 코리안투어가 개막하는 매년 4월, 주목받는 한 선수가 있습니다. 전년도 스릭슨투어 상금왕 김상현입니다. 2부 투어지만 지난해 정규투어에서 2번의 우승을 포함해 1</p>, <p class="cjs_d">넷플릭스 코리아 '성+인물' 신동엽, 성시경 진행 맡아 일본 AV 배우·호스트 인터뷰 국내 불법인 AV 성 산업 조명 여성 배우 성착취 문제 언급 없어 넷플릭스 코리아가 제작한 예능 '성+인물 : 일본편'이 공개된 </p>, <p class="cjs_d">이태원 참사 희생자 분향소 운영을 두고 서울시와 유족의 갈등이 3개월째 이어지고 있다. 앞서 서울시는 이태원 참사 유가족협의회(유가협)와 시민대책회의에 2023년 2월4일부터 4월6일까지 무단점유한 서울광장 72㎡에</p>, <p class="cjs_d">박지원 “尹, 한 소절 더 했으면 바이든과 듀엣” 대통령실 “바이든 노력 알기에 한 소절 부른 것” 대통령실은 30일 윤석열 대통령이 지난 26일(현지 시각) 백악관 국빈 만찬에서 ‘아메리칸 파이’를 부른 것과 관련</p>, <p class="cjs_d">정부가 우리 농업의 미래와 식량주권 확보를 위해 '가루쌀' 보급·육성에 사활을 걸고 있습니다. 농림축산식품부(장관 정황근)는 '2024년도 가루쌀 전문 재배단지 육성사업' 지원 대상자를 모집한다고 30일 밝혔습니다.</p>, <p class="cjs_d">“한국인이 없어서 못타는 ‘독일차’…가수 위너도 반했다” 중고차 거래 플랫폼 KB차차차가 지난 1년간 한국인이 가장 많이 찾는 독일 3사(벤츠·BMW·아우디) 중고차 모델을 분석한 결과 벤츠 E클래스가 1위를 기록한</p>, <p class="cjs_d">개봉을 앞둔 디즈니 영화 '인어공주'의 타이틀롤을 맡은 미국 배우 할리 베일리(23)가 동물 학대를 부추겼다는 논란에 휩싸였다. 29일(현지시간) 영국 매체 미러에 따르면, 베일리는 지난 19일 자신의 인스타그램을 </p>

In [None]:
# find() : 하나의 요소만 가져 옴
print(bs.find('p'))

<p class="cjs_d">(410) 김상현의 정교한 샷 한국프로골프(KPGA) 코리안투어가 개막하는 매년 4월, 주목받는 한 선수가 있습니다. 전년도 스릭슨투어 상금왕 김상현입니다. 2부 투어지만 지난해 정규투어에서 2번의 우승을 포함해 1</p>


In [None]:
# limit : 태그의 양을 제한
print(bs.find_all('p', limit=1),'\n')
print(bs.find_all('p', limit=3))


[<p class="cjs_d">(410) 김상현의 정교한 샷 한국프로골프(KPGA) 코리안투어가 개막하는 매년 4월, 주목받는 한 선수가 있습니다. 전년도 스릭슨투어 상금왕 김상현입니다. 2부 투어지만 지난해 정규투어에서 2번의 우승을 포함해 1</p>] 

[<p class="cjs_d">(410) 김상현의 정교한 샷 한국프로골프(KPGA) 코리안투어가 개막하는 매년 4월, 주목받는 한 선수가 있습니다. 전년도 스릭슨투어 상금왕 김상현입니다. 2부 투어지만 지난해 정규투어에서 2번의 우승을 포함해 1</p>, <p class="cjs_d">넷플릭스 코리아 '성+인물' 신동엽, 성시경 진행 맡아 일본 AV 배우·호스트 인터뷰 국내 불법인 AV 성 산업 조명 여성 배우 성착취 문제 언급 없어 넷플릭스 코리아가 제작한 예능 '성+인물 : 일본편'이 공개된 </p>, <p class="cjs_d">이태원 참사 희생자 분향소 운영을 두고 서울시와 유족의 갈등이 3개월째 이어지고 있다. 앞서 서울시는 이태원 참사 유가족협의회(유가협)와 시민대책회의에 2023년 2월4일부터 4월6일까지 무단점유한 서울광장 72㎡에</p>]


url = 'https://news.naver.com/' 사이트 p태크에서 class가 cjs_ht인 데이터를 출력하세요.

In [None]:
from bs4 import BeautifulSoup
import requests as rq
url = 'https://news.naver.com/'
r = rq.get(url)
html = r.text
bs = BeautifulSoup(html, 'lxml')

print(bs.find('p', class_="cjs_ht"))
print(bs.find_all('p', {'class':"cjs_d"}))

<p class="cjs_ht">
                        
                            
                                오늘 언론사가 발행한<br/>종이신문에 실린 뉴스 1면<br/>기사가 제공됩니다.
                            
                            
                        
                    </p>
[<p class="cjs_d">정부가 우리 농업의 미래와 식량주권 확보를 위해 '가루쌀' 보급·육성에 사활을 걸고 있습니다. 농림축산식품부(장관 정황근)는 '2024년도 가루쌀 전문 재배단지 육성사업' 지원 대상자를 모집한다고 30일 밝혔습니다.</p>, <p class="cjs_d">미국을 국빈 방문 중인 윤석열 대통령은 28일(현지시간) 오후 보스턴 하버드대 케네디스쿨에서 진행한 연설 이후 조지프 나이 하버드대 석좌교수와의 토론 및 학생 질의응답에서 "대한민국은 핵무장을 하겠다고 마음을 먹으면</p>, <p class="cjs_d">돈 한 푼 안들이고 시간, 장소 제약 없이 할 수 있는 최고의 운동, 바로 '계단 걷기'입니다. 그런데 막상 하려니 무릎 관절이 걱정이신 분들, 이 두 가지만 명심하십시오. '올라갈 땐 숙이고, 내려갈 땐 세우라' </p>, <p class="cjs_d">코미디언 겸 사업가 고(故) 서세원씨의 한국 장례식이 30일인 오늘부터 한국코미디언협회장으로 치러지고 있다. 동료 코미디언 이용식씨와 엄영수씨(개명 전 엄용수) 등이 빈소를 찾아 고인을 애도했다. 30일 뉴스1에 따</p>, <p class="cjs_d">5박7일 일정 마무리…與, '워싱턴선언' 최대 성과 지목 12년 만의 국빈 방문에 '최초' 기록도 여럿 '빈손' IRA‧반도체법‧'핵 공유' 논란 등 찜찜한 뒷맛 윤석열 대통령과 김건희 여사는 </p>, <p class="cjs_d">대만에서 한국인 여성 관광객이 현지 

In [None]:
texts = bs.find_all('p', {'class':"cjs_d"})
for t in texts:
    t = str(t)
    t = re.findall('[가-힣]+',t)
    t = ' '.join(t)
    print(t,'\n')

정부가 우리 농업의 미래와 식량주권 확보를 위해 가루쌀 보급 육성에 사활을 걸고 있습니다 농림축산식품부 장관 정황근 는 년도 가루쌀 전문 재배단지 육성사업 지원 대상자를 모집한다고 일 밝혔습니다 

미국을 국빈 방문 중인 윤석열 대통령은 일 현지시간 오후 보스턴 하버드대 케네디스쿨에서 진행한 연설 이후 조지프 나이 하버드대 석좌교수와의 토론 및 학생 질의응답에서 대한민국은 핵무장을 하겠다고 마음을 먹으면 

돈 한 푼 안들이고 시간 장소 제약 없이 할 수 있는 최고의 운동 바로 계단 걷기 입니다 그런데 막상 하려니 무릎 관절이 걱정이신 분들 이 두 가지만 명심하십시오 올라갈 땐 숙이고 내려갈 땐 세우라 

코미디언 겸 사업가 고 서세원씨의 한국 장례식이 일인 오늘부터 한국코미디언협회장으로 치러지고 있다 동료 코미디언 이용식씨와 엄영수씨 개명 전 엄용수 등이 빈소를 찾아 고인을 애도했다 일 뉴스 에 따 

박 일 일정 마무리 워싱턴선언 최대 성과 지목 년 만의 국빈 방문에 최초 기록도 여럿 빈손 반도체법 핵 공유 논란 등 찜찜한 뒷맛 윤석열 대통령과 김건희 여사는 

대만에서 한국인 여성 관광객이 현지 호텔에서 숨진 채 발견된 가운데 현지 수사당국은 이 여성과 동행했던 한국인 남자친구를 긴급 체포했다 일 현지시간 대만연합보는 지난 일 낮 시 분쯤 남부 가오슝 첸 

대만에 여행 간 한국인 여성 관광객이 현지 호텔에서 숨진 채 발견됐다 이 사건과 관련해 현지 수사당국은 여성과 동행한 한국인 남성을 체포했다 일 현지시간 대만연합보는 지난 일 낮 시 분께 대만 남부 

명의 청년이 목숨을 잃은 이태원 참사가 개월을 맞았다 반년의 시간이 흘러 봄이 왔지만 유족들에게 치유의 시간은 아직 허락되지 않고 있다 유족이 애타게 알고 싶은 그날의 진실 이 여전히 베일에 싸여 있기 

이태원 참사 희생자 분향소 운영을 두고 서울시와 유족의 갈등이 개월째 이어지고 있다 앞서 서울시는 이태원 참사 유가족협의회 유가협 와 시민대책회의에 년 월 일부터 월 일까지 무단점유한 서울광장 에 


In [None]:
# A.
import requests as rq
from bs4 import BeautifulSoup

url = 'https://news.daum.net/politics'

r = rq.get(url)
html = r.text
bs = BeautifulSoup(html,'html.parser')
title = bs.find('h2',id='mainContent').text
title


'정치'

In [None]:
# 점검
# Q. 네이버 영화 랭킹 조회순 첫번째 영화제목을 출력하세요.

In [None]:
import requests
from bs4 import BeautifulSoup

url = "https://serieson.naver.com/v3/movie/ranking/realtime"

# HTTP GET 요청을 보냅니다.
response = requests.get(url)
response

<Response [200]>

In [None]:
import requests
from bs4 import BeautifulSoup

url = "https://serieson.naver.com/v3/movie/ranking/realtime"

# HTTP GET 요청을 보냅니다.
response = requests.get(url)

# HTTP 요청이 성공적으로 전달되었다면, 웹사이트의 HTML 코드를 가져옵니다.
if response.status_code == 200:
    # HTML 코드를 파싱합니다.
    soup = BeautifulSoup(response.text, "html.parser")
# print(soup)
soup.find("span", class_="Title_title__s9o0D").text

'던전 앤 드래곤: 도적들의 명예'

In [None]:
<span class="Title_title__s9o0D">던전 앤 드래곤: 도적들의 명예</span>

In [None]:
import requests
from bs4 import BeautifulSoup
req = requests.get("https://serieson.naver.com/v3/movie/ranking/realtime")
html = req.content.decode('utf-8')
soup = BeautifulSoup(html, 'html.parser')
list = soup.find_all("span", class_="Title_title__s9o0D")
for i, l in enumerate(list[:10]):
    print(f'{i+1}: {l.text}')

1: 던전 앤 드래곤: 도적들의 명예
2: 존 윅
3: 존 윅 3: 파라벨룸
4: 앤트맨과 와스프: 퀀텀매니아
5: 아바타: 물의 길(부가영상 제공)
6: 존 윅 - 리로드
7: 소중한 날의 꿈
8: 앤트맨과 와스프: 퀀텀매니아(세트: 1~3편)
9: 에브리씽 에브리웨어 올 앳 원스
10: 극장판 짱구는 못말려: 수수께끼! 꽃피는 천하떡잎학교


In [None]:
# 점검
# Q. 네이버 영화 랭킹 가져와서 조회순 첫번째 영화제목을 출력하세요.
import requests
from bs4 import BeautifulSoup
req = requests.get("https://serieson.naver.com/v3/movie/ranking/realtime")
html = req.content.decode('utf-8')
soup = BeautifulSoup(html, 'html.parser')
#container > div.RankingPage_ranking_wrap__GB855 > ol > li:nth-child(1) > a > div.Poster_info_area__HGRo_.Poster_margin_left__sLY0L > span
# print(soup)
movie = soup.select_one('#container > div > ol > li > a > div > span')
print('1위:', movie.get_text().strip())


1위: 던전 앤 드래곤: 도적들의 명예


In [None]:
from bs4 import BeautifulSoup
import re # 정규 표현식을 사용할 때
html = """
<ul>
  <li><a href="hoge.html">hoge</li>
  <li><a href="https://example.com/fuga">fuga*</li>
  <li><a href="https://example.com/foo">foo*</li>
  <li><a href="http://example.com/aaa">aaa</li>
</ul>
"""
soup = BeautifulSoup(html, "html.parser")
# 정규 표현식으로 href에서 https인 것 추출하기
li = soup.find_all(href=re.compile(r"^https://"))
for e in li: print(e.attrs['href'])

https://example.com/fuga
https://example.com/foo


### CSS 선택자
- 원하는 정보만 선별하여 수집하고 싶을 때 css선택자를 활용할 수 있음
- (CSS 선택자 설명 추가)
- F12 >> 수집하고 싶은 부분 클릭 >> 태그 선택 >> copy Selector
- BeautifulSoup의 select_one, select 활용

In [None]:
# select()
import requests as rq
from bs4 import BeautifulSoup

url = 'https://news.daum.net/politics#1'
r = rq.get(url)
html = r.text
bs = BeautifulSoup(html,'lxml')
# lines = bs.select('body > div > main > section > div.main-sub > div > ul > li:nth-child(1) > strong > a')
lines = bs.select('body > div > main > section > div.main-sub > div > ul > li > strong > a')
body = '\n'.join([line.text for line in lines])
print(body)
body

금융위기 때 부실 금융사도 지원했으면서…피해 세입자는 왜?
여야, 엇갈린 방미 평가...'전세 사기 특별법' 본격 논의
내일 윤리위 첫 회의, 김재원 '5·18 이전 징계' 무게  [시사스페셜]
30대 퇴직금 평균 1180만원…전체 평균의 79% 수준
박광온 `통합` 내세웠지만… 민주당 계파결집 갈수록 심화
적과 아군 뿐인 ‘치명적’ 윤석열 외교…북·중·러 반발 거세진다
檢, 송영길 금품살포 공범 영장 적시…"지시 여부 확인할 것"
돈봉투·쇄신·개딸… 野 새 원내사령탑 과제 산적
북한, 연일 '워싱턴 선언' 비난…릴레이 도발 나서나
與, 윤리위·노동개혁특위 본격 가동


'금융위기 때 부실 금융사도 지원했으면서…피해 세입자는 왜?\n여야, 엇갈린 방미 평가...\'전세 사기 특별법\' 본격 논의\n내일 윤리위 첫 회의, 김재원 \'5·18 이전 징계\' 무게  [시사스페셜]\n30대 퇴직금 평균 1180만원…전체 평균의 79% 수준\n박광온 `통합` 내세웠지만… 민주당 계파결집 갈수록 심화\n적과 아군 뿐인 ‘치명적’ 윤석열 외교…북·중·러 반발 거세진다\n檢, 송영길 금품살포 공범 영장 적시…"지시 여부 확인할 것"\n돈봉투·쇄신·개딸… 野 새 원내사령탑 과제 산적\n북한, 연일 \'워싱턴 선언\' 비난…릴레이 도발 나서나\n與, 윤리위·노동개혁특위 본격 가동'

In [None]:
texts = re.findall('[가-힣0-9]+',body)
print(' '.join(texts))

금융위기 때 부실 금융사도 지원했으면서 피해 세입자는 왜 여야 엇갈린 방미 평가 전세 사기 특별법 본격 논의 내일 윤리위 첫 회의 김재원 5 18 이전 징계 무게 시사스페셜 30대 퇴직금 평균 1180만원 전체 평균의 79 수준 박광온 통합 내세웠지만 민주당 계파결집 갈수록 심화 적과 아군 뿐인 치명적 윤석열 외교 북 중 러 반발 거세진다 송영길 금품살포 공범 영장 적시 지시 여부 확인할 것 돈봉투 쇄신 개딸 새 원내사령탑 과제 산적 북한 연일 워싱턴 선언 비난 릴레이 도발 나서나 윤리위 노동개혁특위 본격 가동


In [None]:
import requests as rq
from bs4 import BeautifulSoup

url = 'https://news.daum.net/politics#1'
r = rq.get(url)
html = r.text
bs = BeautifulSoup(html,'lxml')
lines = bs.select('body > div > main > section > div > div > ul > li > strong > a')
for line in lines:
    print(line.text)

금융위기 때 부실 금융사도 지원했으면서…피해 세입자는 왜?
여야, 엇갈린 방미 평가...'전세 사기 특별법' 본격 논의
내일 윤리위 첫 회의, 김재원 '5·18 이전 징계' 무게  [시사스페셜]
30대 퇴직금 평균 1180만원…전체 평균의 79% 수준
박광온 `통합` 내세웠지만… 민주당 계파결집 갈수록 심화
적과 아군 뿐인 ‘치명적’ 윤석열 외교…북·중·러 반발 거세진다
檢, 송영길 금품살포 공범 영장 적시…"지시 여부 확인할 것"
돈봉투·쇄신·개딸… 野 새 원내사령탑 과제 산적
북한, 연일 '워싱턴 선언' 비난…릴레이 도발 나서나
與, 윤리위·노동개혁특위 본격 가동


#### 크롤링) 접속 차단되었을때 User-Agent지정(header)
https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=kiddwannabe&logNo=221185808375

In [None]:
from bs4 import BeautifulSoup
import requests

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}
url = "https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=102" # 네이버 뉴스 사회면 메인 페이지
req = requests.get(url, headers=headers)   # GET방식으로 서비스 호출
soup = BeautifulSoup(req.content, "html.parser")
print(soup)


<!DOCTYPE HTML>

<html lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta contents="always" name="referrer"/>
<meta content="600" http-equiv="refresh">
<meta content="width=1106" name="viewport">
<meta content="사회 : 네이버 뉴스" property="og:title"/>
<meta content="website" property="og:type"/>
<meta content="https://news.naver.com/main/main.naver?mode=LSD&amp;mid=shm&amp;sid1=102" property="og:url"/>
<meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800x420_20221201.png" property="og:image">
<meta content="교육, 언론, 의료, 인물, 사건사고 등 사회 분야 뉴스 제공" property="og:description"/>
<meta content="네이버" property="og:article:author">
<meta content="summary" name="twitter:card"/>
<meta content="사회 : 네이버 뉴스" name="twitter:title"/>
<meta content="네이버 뉴스" name="twitter:site"/>
<meta content="네이버 뉴스" name="twitter:creator"/>
<meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800x420_20221201.png" name="t

In [None]:
target = soup.select_one('#main_content > div > div._persist > div:nth-child(1) > div:nth-child(1) > div.cluster_body > ul > li:nth-child(3) > div > a')
print(target)
print(target.text)

<a class="cluster_text_headline nclicks(cls_nav.clsart)" href="https://n.news.naver.com/mnews/article/014/0005004987?sid=102">4년제 대학 평균 등록금 679만원… 91% 동결·인하</a>
4년제 대학 평균 등록금 679만원… 91% 동결·인하


In [None]:
# select_one: 한 개 선택(동일한 태그가 여러 개 있을 경우엔 가장 첫 번째를 선택)
target = soup.select_one("#main_content > div > div._persist > div > div > div.cluster_body > ul > li > div.cluster_text > a")
print(target,'\n')
print(target.text,'\n')
print(target['class'],'\n')
print(target['href'])

<a class="cluster_text_headline nclicks(cls_nav.clsart)" href="https://n.news.naver.com/mnews/article/025/0003276844?sid=102">등록금 인상 17곳 중 8곳이 ‘교대’…정원 감축에 “더 오를수도”</a> 

등록금 인상 17곳 중 8곳이 ‘교대’…정원 감축에 “더 오를수도” 

['cluster_text_headline', 'nclicks(cls_nav.clsart)'] 

https://n.news.naver.com/mnews/article/025/0003276844?sid=102


In [None]:
# select: 여러 개를 선택 (리스트 형태 - for문을 이용하여 출력)
target = soup.select("#main_content > div > div._persist > div > div > div.cluster_body > ul > li > div.cluster_text > a")
for element in target:
    print(element.text)
    print(element['href'])

등록금 인상 17곳 중 8곳이 ‘교대’…정원 감축에 “더 오를수도”
https://n.news.naver.com/mnews/article/025/0003276844?sid=102
전국 4년제 대학 17개교 등록금 인상…평균 680만원
https://n.news.naver.com/mnews/article/119/0002708072?sid=102
4년제 대학 평균 등록금 679만원… 91% 동결·인하
https://n.news.naver.com/mnews/article/014/0005004987?sid=102
4년제 대학 17곳 올해 등록금 인상…전문대 18곳도 인상
https://n.news.naver.com/mnews/article/079/0003764975?sid=102
軍병원서 수술하다 죽은 군인…대법 “보훈대상자 아냐” 왜?
https://n.news.naver.com/mnews/article/009/0005123843?sid=102
대법 "군 병원에서 수술받다 숨진 군인, 보훈 대상자 인정 안돼"
https://n.news.naver.com/mnews/article/214/0001269764?sid=102
軍야유회 숙소 복귀하다 추락→수술 중 사망…대법 "보훈대상자 아냐"
https://n.news.naver.com/mnews/article/003/0011832377?sid=102
귀가 중 추락해 치료 받다 숨진 군인…대법 "보훈보상대상 아냐"
https://n.news.naver.com/mnews/article/421/0006778436?sid=102
민원 처리 안되자 공무원 앞서 분신시도한 사슴농장주 집유
https://n.news.naver.com/mnews/article/003/0011832432?sid=102
민원처리 안되자 몸에 휘발유 붓고 공무원 위협한 60대 집행유예
https://n.news.naver.com/mnews/article/655/0000009594?sid=102
"공무원이 내 말 안 들어"…휘발유 끼얹고 '분신 시도'한 60

In [None]:
from bs4 import BeautifulSoup
import requests

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}
url = "https://n.news.naver.com/mnews/article/032/0003161880?sid=101" # 네이버 기사 본문 페이지
req = requests.get(url, headers=headers)
soup = BeautifulSoup(req.content, "html.parser")
print(soup)

<!DOCTYPE html>

<html data-useragent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36" lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0, user-scalable=no" name="viewport">
<meta content="‘7% 할인’ 서울광역상품권 또 풀린다···“출생연도 홀짝수로 구매시간 분리”" property="og:title"/>
<meta content="article" property="og:type"/>
<meta content="https://n.news.naver.com/mnews/article/032/0003161880?sid=101" property="og:url"/>
<meta content="https://imgnews.pstatic.net/image/032/2022/07/24/0003161880_001_20220724112401144.jpg?type=w800" property="og:image"/>
<meta content="서울 25개 자치구 어디에서나 쓸 수 있는 ‘서울사랑상품권(광역상품권)’이 오는 28일 추가 발행된다. 1차 발행 때처럼 동시접속자가 몰리는 것을 막기 위해 이번에는 출생연도를 기준으로 홀수는 오전 10시부터, 짝수" property="og:description"/>
<meta content="경향신문 | 네이버" property="og:article:author"/>
<meta content="summary_large_image" nam

In [None]:
# 제목 추출 #title_area > span
target = soup.select_one("#title_area > span")
print(target)
print("-"*100)
target = target.text # tag를 떼고 추출
print(target)

<span>‘7% 할인’ 서울광역상품권 또 풀린다···“출생연도 홀짝수로 구매시간 분리”</span>
----------------------------------------------------------------------------------------------------
‘7% 할인’ 서울광역상품권 또 풀린다···“출생연도 홀짝수로 구매시간 분리”


In [None]:
# 본문 추출 : #dic_area
target = soup.select_one("#dic_area")
print(target)
print("-"*100)
target = target.text
print(target)

<div class="go_trans _article_content" id="dic_area">
<strong class="media_end_summary">1차는 6만4650명 구매···평균 39만원어치 팔려<br/>서울시 “서울페이플러스 회원 가입은 전날 미리”</strong><span class="end_photo_org"><div class="nbd_im_w _LAZY_LOADING_WRAP">
<div class="nbd_a _LAZY_LOADING_ERROR_HIDE" id="img_a1">
<img class="_LAZY_LOADING" data-src="https://imgnews.pstatic.net/image/032/2022/07/24/0003161880_001_20220724112401144.jpg?type=w647" id="img1">
</img></div>
</div><em class="img_desc">한 시민이 초복을 하루 앞둔 지난 15일 서울 시내 대형마트에서 장을 보고 있다. |성동훈 기자</em></span><br/><br/>서울 25개 자치구 어디에서나 쓸 수 있는 ‘서울사랑상품권(광역상품권)’이 오는 28일 추가 발행된다. 1차 발행 때처럼 동시접속자가 몰리는 것을 막기 위해 이번에는 출생연도를 기준으로 홀수는 오전 10시부터, 짝수는 오후 2시부터 각각 4시간씩 구매할 수 있다.<br/><br/>서울시는 7% 할인금액으로 구매할 수 있는 광역상품권을 28일 발행한다고 24일 밝혔다. 발행 규모는 1차(250억원) 때보다 2배 많은 총 500억원이다. 시민들의 장바구니 물가 부담을 덜고 소상공인 매출증대를 통한 지역경제 활성화를 위해 2차 발행 규모를 늘렸다고 서울시는 설명했다.<br/><br/>광역상품권은 서울 25개 자치구 내 가맹점 어디에서나 사용할 수 있는 상품권으로 1인당 월 40만원까지 구매할 수 있다. 보유는 총 100만원까지 가능하다. 지난 14일 1차 발행 상품권을 구매한 소비자는 총 6만4650명이었으며,

In [None]:
# 이미지 주소 추출 : #img1
target = soup.select_one("#img1")
print(target)
print("-"*100)
target = target["data-src"]
print(target)

<img class="_LAZY_LOADING" data-src="https://imgnews.pstatic.net/image/032/2022/07/24/0003161880_001_20220724112401144.jpg?type=w647" id="img1">
</img>
----------------------------------------------------------------------------------------------------
https://imgnews.pstatic.net/image/032/2022/07/24/0003161880_001_20220724112401144.jpg?type=w647


In [None]:
# 네이버 환율 가져오기 : #exchangeList > li.on > a.head.usd > div > span.value
from bs4 import BeautifulSoup
import urllib.request as req
# HTML 가져오기
url = "https://finance.naver.com/marketindex/"
res = req.urlopen(url)
# HTML 분석하기
soup = BeautifulSoup(res, "html.parser")
# 원하는 데이터 추출하기
price = soup.select_one("#exchangeList > li.on > a.head.usd > div > span.value").string
print("usd/krw =", price)

usd/krw = 1,341.00


#### Q. url = 'https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100' 사이트에서 뉴스기사를 출력하세요.

In [None]:
# A.
# select()
import requests as rq
from bs4 import BeautifulSoup
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}

url = 'https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100'
r = rq.get(url, headers=headers)
html = r.text
bs = BeautifulSoup(html,'lxml')
lines = bs.select('#main_content > div > div > div > div > div > ul > li > div > a')
body = '\n'.join([line.text for line in lines])
print(body)

김기현, '음주운전 방지장치 의무화법' 발의…"음주운전, 커다란 해악"
두 차례 음주운전 30대 남성 또 음주운전... 법원, 집행유예
김기현, ‘음주운전 방지장치 의무화’ 대표발의…설치비용은 음주자 부담으로
김기현 ‘음주운전 방지 장치 의무화’ 도로교통법 개정안 발의
하버드 연단 선 尹, 중·러 겨냥…"힘에 의한 현상변경 안돼"
尹대통령 "자유 위협하는 세력은 공동체 안에도 있다"
윤 대통령 “자유 무시 결정판이 북한…용기와 연대로 민주주의 지켜야”
尹대통령 첫 하버드대 연설…"자유 무시, 결연한 연대 대응"
통일부, 北 김여정 비방에 “적반하장 억지 주장…좌절감 반영돼”
北 김여정, '워싱턴 선언' 맹비난…바이든에 "미래 없는 늙은이"
통일부, 북한 김여정 막말에 "허둥지둥 억지 주장…초조함 반영"
통일부, 北김여정 비방에 "저급한 수준…국제사회 웃음거리"
MIT 석학들 만난 尹…디지털바이오 혁신 논의
윤 대통령, MIT 디지털바이오 석학들과 대담
尹, MIT 석학 만남…"韓 과학기술 인력, 보스턴에 보내 배울 것"(종합2보)
MIT 석학 만난 尹 "한국 과학기술인력 많이 보낼 것"
5차례 대면한 양국 정상 ‘케미’ 빛났다
 5번 만남에 끈끈해진 한미 정상…`어깨동무` 만찬 백미[국빈 방미 결산]
尹 "워싱턴 선언, 불가피한 선택… 정부 바뀐다고 바뀔 문제 아냐"(종합)
尹 "北 핵보유 인정하면 韓도 핵보유…마음 먹으면 1년內 핵무장"
민주당 “핵인지 감수성, 등장할 판” 워싱턴선언 비판
민주, 귀국 尹에 "이번 방미는 대국민 사기 외교…냉정한 평가 직시해야"
이재명 "박광온과 견고한 통합 이룰 것…우리 안 차이 안 커"
이재명 "박광온과 '담대한 변화·견고한 통합' 반드시 이룰 것"
간호법·특검법 여야 대치...尹 귀국 후 거부권 주목
巨野 강행 처리→尹 거부권 반복…눈살 찌푸리는 ‘파워게임’
윤 대통령, 국빈 방미 마무리하고 한국으로 출발
尹대통령, 5박7일 국빈 방미 마치고 귀국…김기현·윤재옥 공항서 환영
박지원 '바이든 듀엣설'에 대통령실 "사실무근

In [None]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import ssl

context = ssl._create_unverified_context()
html = urlopen('http://www.pythonscraping.com/pages/page3.html')
bs = BeautifulSoup(html,'html.parser')
bs.find('table')

<table id="giftList">
<tr><th>
Item Title
</th><th>
Description
</th><th>
Cost
</th><th>
Image
</th></tr>
<tr class="gift" id="gift1"><td>
Vegetable Basket
</td><td>
This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
<span class="excitingNote">Now with super-colorful bell peppers!</span>
</td><td>
$15.00
</td><td>
<img src="../img/gifts/img1.jpg"/>
</td></tr>
<tr class="gift" id="gift2"><td>
Russian Nesting Dolls
</td><td>
Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! <span class="excitingNote">8 entire dolls per set! Octuple the presents!</span>
</td><td>
$10,000.52
</td><td>
<img src="../img/gifts/img2.jpg"/>
</td></tr>
<tr class="gift" id="gift3"><td>
Fish Painting
</td><td>
If something seems fishy about this painting, it's because it's a fish! <span class="excitingNote">Also hand-painted by trained monkeys!</span>
</td><td>
$10,005.00
</td><td>
<img src="../img/gift

In [None]:
for child in bs.find('table',{'id':'giftList'}).children:
    print(child)



<tr><th>
Item Title
</th><th>
Description
</th><th>
Cost
</th><th>
Image
</th></tr>


<tr class="gift" id="gift1"><td>
Vegetable Basket
</td><td>
This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
<span class="excitingNote">Now with super-colorful bell peppers!</span>
</td><td>
$15.00
</td><td>
<img src="../img/gifts/img1.jpg"/>
</td></tr>


<tr class="gift" id="gift2"><td>
Russian Nesting Dolls
</td><td>
Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! <span class="excitingNote">8 entire dolls per set! Octuple the presents!</span>
</td><td>
$10,000.52
</td><td>
<img src="../img/gifts/img2.jpg"/>
</td></tr>


<tr class="gift" id="gift3"><td>
Fish Painting
</td><td>
If something seems fishy about this painting, it's because it's a fish! <span class="excitingNote">Also hand-painted by trained monkeys!</span>
</td><td>
$10,005.00
</td><td>
<img src="../img/gifts/img3.jpg"/>


In [None]:
print(bs.find('img',{'src':'../img/gifts/img1.jpg'}).parent.previous_sibling.get_text())


$15.00



In [None]:
for sibling in bs.find('table',{'id':'giftList'}).tr.next_siblings:
    print(sibling)



<tr class="gift" id="gift1"><td>
Vegetable Basket
</td><td>
This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
<span class="excitingNote">Now with super-colorful bell peppers!</span>
</td><td>
$15.00
</td><td>
<img src="../img/gifts/img1.jpg"/>
</td></tr>


<tr class="gift" id="gift2"><td>
Russian Nesting Dolls
</td><td>
Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! <span class="excitingNote">8 entire dolls per set! Octuple the presents!</span>
</td><td>
$10,000.52
</td><td>
<img src="../img/gifts/img2.jpg"/>
</td></tr>


<tr class="gift" id="gift3"><td>
Fish Painting
</td><td>
If something seems fishy about this painting, it's because it's a fish! <span class="excitingNote">Also hand-painted by trained monkeys!</span>
</td><td>
$10,005.00
</td><td>
<img src="../img/gifts/img3.jpg"/>
</td></tr>


<tr class="gift" id="gift4"><td>
Dead Parrot
</td><td>
This is an ex-parr

In [None]:
html="""
<head>
    <title>crawler</title>
</head>
<body>
    <p class="a" align="center"> text1</p>
    <p class="b" align="center"> text2</p>
    <p class="c" align="center"> text3</p>
    <div>
        <img src="/source" width="300" height="200">
    </div>
</body>
</html>
"""

In [None]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html.parser')
contents = soup.find('body')
for child in contents.children:
    print(child)



<p align="center" class="a"> text1</p>


<p align="center" class="b"> text2</p>


<p align="center" class="c"> text3</p>


<div>
<img height="200" src="/source" width="300"/>
</div>




In [None]:
# body 의 자손은 p, div, img 등
for d in contents.descendants:
    print(d)



<p align="center" class="a"> text1</p>
 text1


<p align="center" class="b"> text2</p>
 text2


<p align="center" class="c"> text3</p>
 text3


<div>
<img height="200" src="/source" width="300"/>
</div>


<img height="200" src="/source" width="300"/>






In [None]:
img_tag = contents.find('img')
print(img_tag)
print(img_tag.parent)

<img height="200" src="/source" width="300"/>
<div>
<img height="200" src="/source" width="300"/>
</div>


In [None]:
print(list(img_tag.parents))

[<div>
<img height="200" src="/source" width="300"/>
</div>, <body>
<p align="center" class="a"> text1</p>
<p align="center" class="b"> text2</p>
<p align="center" class="c"> text3</p>
<div>
<img height="200" src="/source" width="300"/>
</div>
</body>, 
<head>
<title>crawler</title>
</head>
<body>
<p align="center" class="a"> text1</p>
<p align="center" class="b"> text2</p>
<p align="center" class="c"> text3</p>
<div>
<img height="200" src="/source" width="300"/>
</div>
</body>

]


In [None]:
# 태그 객체
contents.div.img

<img height="200" src="/source" width="300"/>

In [None]:
print(contents,'\n')
print(img_tag.find_parent('body'),'\n')
print(img_tag.find_parent('div'))

<body>
<p align="center" class="a"> text1</p>
<p align="center" class="b"> text2</p>
<p align="center" class="c"> text3</p>
<div>
<img height="200" src="/source" width="300"/>
</div>
</body> 

<body>
<p align="center" class="a"> text1</p>
<p align="center" class="b"> text2</p>
<p align="center" class="c"> text3</p>
<div>
<img height="200" src="/source" width="300"/>
</div>
</body> 

<div>
<img height="200" src="/source" width="300"/>
</div>


In [None]:
print(contents,'\n')
print(img_tag.find_parent('body'),'\n')
print(img_tag.find_parent('div'))

In [None]:
p_tag = soup.find('p',class_='b')
print(p_tag)

<p align="center" class="b"> text2</p>


In [None]:
# find_previous_sibling() : 바로 이전 형제 노드를 검색
# find_previous_siblings() : 모든 형제 노드를 검색
print(p_tag.find_previous_sibling())
print(p_tag.find_previous_siblings())

<p align="center" class="a"> text1</p>
[<p align="center" class="a"> text1</p>]


In [None]:
import urllib
from bs4 import BeautifulSoup
response = urllib.request.urlopen('https://naver.com')
byte_data = response.read()
html = byte_data.decode('utf-8')
soup = BeautifulSoup(html, 'html.parser')
print(soup.find_all('a',{'class':'link_newsstand'}),'\n')
print(soup.find_all('a',{'class':'btn_sort'}))

[<a class="link_newsstand" data-clk="title" href="http://newsstand.naver.com/" target="_blank">뉴스스탠드</a>] 

[<a aria-controls="NM_NEWSSTAND_MY_LIST" aria-selected="false" class="btn_sort" data-clk="my" data-type="my" href="#" role="tab">구독한 언론사</a>, <a aria-controls="NM_NEWSSTAND_DEFAULT_THUMB" aria-selected="true" class="btn_sort" data-clk="all" data-type="all" href="#" role="tab">전체언론사</a>]


In [None]:
nlists = soup.findAll('a',{'class':{'link_newsstand','btn_sort'}})
for n in nlists:
#     print(n.text)
    print(n.get_text())

뉴스스탠드
구독한 언론사
전체언론사


In [None]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen('https://naver.com')
bs = BeautifulSoup(html,'html.parser')

hlists = bs.findAll({'h1','h2','h3','h4','h5','h6'},limit=5)
for h in hlists:
    print(h, '\n')

<h1 class="logo_default">
<a class="logo_naver" data-clk="top.logo" href="/"><span class="blind">네이버</span></a>
</h1> 

<h2 class="blind">뉴스스탠드</h2> 

<h2 class="blind">주제별 캐스트</h2> 

<h2 class="blind">Sign in</h2> 

<h2 class="blind">타임스퀘어</h2> 



In [None]:
hlists = bs.findAll({'h1','h2','h3','h4','h5','h6'}, text='뉴스스탠드')
print(hlists)

[<h2 class="blind">뉴스스탠드</h2>]


In [None]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

html = urlopen('http://en.wikipedia.org/wiki/Kevin_Bacon')
bs = BeautifulSoup(html, 'html.parser')
bs.find('div', {'id':'bodyContent'}).find_all('a')

[<a href="/wiki/Wikipedia:Protection_policy#semi" title="This article is semi-protected to promote compliance with the policy on biographies of living persons"><img alt="Page semi-protected" data-file-height="512" data-file-width="512" decoding="async" height="20" src="//upload.wikimedia.org/wikipedia/en/thumb/1/1b/Semi-protection-shackle.svg/20px-Semi-protection-shackle.svg.png" srcset="//upload.wikimedia.org/wikipedia/en/thumb/1/1b/Semi-protection-shackle.svg/30px-Semi-protection-shackle.svg.png 1.5x, //upload.wikimedia.org/wikipedia/en/thumb/1/1b/Semi-protection-shackle.svg/40px-Semi-protection-shackle.svg.png 2x" width="20"/></a>,
 <a class="mw-disambig" href="/wiki/Kevin_Bacon_(disambiguation)" title="Kevin Bacon (disambiguation)">Kevin Bacon (disambiguation)</a>,
 <a class="image" href="/wiki/File:Kevin_Bacon_SDCC_2014.jpg"><img alt="Kevin Bacon SDCC 2014.jpg" data-file-height="2649" data-file-width="1907" decoding="async" height="306" src="//upload.wikimedia.org/wikipedia/common

re.compile('^(/wiki/)((?!:).)*$')의 의미

- ^ : 문자열의 시작
- $(/wiki/) : /wiki/로 시작하는 문자열$
- $((?!:).)* :  :을 포함하지 않은 모든 문자열$
- $(?!:) : :이 포함되지 않은 경우$
- $. : 어떤 문자열이라도 일치$
- $* : 0번 이상 반복$
- $\$ : 문자열의 끝$

이 정규표현식은 /wiki/로 시작하면서 :이 포함되지 않은 모든 문자열과 일치합니다. 이러한 패턴을 가진 문자열은 위키피디아의 링크에 해당하는 문자열이기 때문에, 위키피디아에서 링크를 추출할 때 사용될 수 있습니다.

In [None]:
# /wiki/Wikipedia:Protection_policy#semi 형태를 제외
for link in bs.find('div', {'id':'bodyContent'}).find_all(
    'a', href=re.compile('^(/wiki/)((?!:).)*$')): # 부정형 전방탐색
    if 'href' in link.attrs:
        print(link.attrs['href'])

/wiki/Kevin_Bacon_(disambiguation)
/wiki/Philadelphia,_Pennsylvania
/wiki/Kevin_Bacon_filmography
/wiki/Kyra_Sedgwick
/wiki/Sosie_Bacon
/wiki/Edmund_Bacon_(architect)
/wiki/Michael_Bacon_(musician)
/wiki/Holly_Near
/wiki/Footloose_(1984_film)
/wiki/JFK_(film)
/wiki/A_Few_Good_Men
/wiki/Apollo_13_(film)
/wiki/Mystic_River_(film)
/wiki/Balto_(film)
/wiki/Sleepers
/wiki/The_Woodsman_(2004_film)
/wiki/Animal_House
/wiki/Diner_(1982_film)
/wiki/Tremors_(1990_film)
/wiki/Crazy,_Stupid,_Love
/wiki/Friday_the_13th_(1980_film)
/wiki/Flatliners
/wiki/The_River_Wild
/wiki/Wild_Things_(film)
/wiki/Stir_of_Echoes
/wiki/Hollow_Man
/wiki/Frost/Nixon_(film)
/wiki/Black_Mass_(film)
/wiki/Patriots_Day_(film)
/wiki/Fox_Broadcasting_Company
/wiki/The_Following
/wiki/HBO
/wiki/Taking_Chance
/wiki/Golden_Globe_Award
/wiki/Screen_Actors_Guild_Award
/wiki/Primetime_Emmy_Award
/wiki/Streaming_television
/wiki/I_Love_Dick_(TV_series)
/wiki/Golden_Globe_Award_for_Best_Actor_%E2%80%93_Television_Series_Musical_or

In [None]:
# Q. 코스피 지수, 등락폭 및 등락율을 출력하세요.
import requests
from bs4 import BeautifulSoup

# 네이버 금융 국내증시 메인 사이트 주소
# url = "https://finance.naver.com/sise/"
url = 'https://finance.naver.com/sise/sise_index.naver?code=KOSPI'

# 웹사이트 정보 요청
html = requests.get(url).text

# html.parser로 html 형식 태그에서 데이터 추출 준비
soup = BeautifulSoup(html, 'html.parser')
print(soup.prettify())

<script type="text/javascript">
 function mainSiseMove(code) {
	if (code=='KONEX') {
		document.location.href='/sise/konex.naver';
	} else if(code=='ETF') {
		document.location.href='/sise/etf.naver';
    } else if(code=='ETN') {
        document.location.href='/sise/etn.naver';
	} else {
		document.location.href='/sise/sise_index.naver?code='+code;
	}
}
</script>
<!--  global include -->
<html lang="ko">
 <head>
  <title>
   코스피 : 네이버 증권
  </title>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <meta content="text/javascript" http-equiv="Content-Script-Type"/>
  <meta content="text/css" http-equiv="Content-Style-Type"/>
  <meta content="네이버 증권" name="apple-mobile-web-app-title">
   <meta content="http://finance.naver.com/sise/sise_index.naver" property="og:url">
    <meta content="코스피 : 네이버 증권" property="og:title"/>
    <meta content="관심종목의 실시간 주가를 가장 빠르게 확인하는 곳" property="og:description"/>
    <meta content="https://ssl.pstatic.net/static/m/stock/im/2016/08/

In [None]:
# #now_value
soup.select_one('#now_value').string

'2,501.53'

In [None]:
import requests
from bs4 import BeautifulSoup
req = requests.get('https://naver.com')
html = req.text
soup = BeautifulSoup(html, 'html.parser')
print(soup.prettify())

<!DOCTYPE html>
<html data-dark="false" lang="ko">
 <head>
  <meta charset="utf-8"/>
  <title>
   NAVER
  </title>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <meta content="width=1190" name="viewport"/>
  <meta content="NAVER" name="apple-mobile-web-app-title">
   <meta content="index,nofollow" name="robots">
    <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" name="description">
     <meta content="네이버" property="og:title"/>
     <meta content="https://www.naver.com/" property="og:url"/>
     <meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png" property="og:image"/>
     <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" property="og:description">
      <meta content="summary" name="twitter:card"/>
      <meta content="" name="twitter:title"/>
      <meta content="https://www.naver.com/" name="twitter:url"/>
      <meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png" name="twitter:image"/

In [None]:
soup.select_one('body a')

<a href="#newsstand"><span>뉴스스탠드 바로가기</span></a>

In [None]:
soup.select('body a')

[<a href="#newsstand"><span>뉴스스탠드 바로가기</span></a>,
 <a href="#themecast"><span>주제별캐스트 바로가기</span></a>,
 <a href="#timesquare"><span>타임스퀘어 바로가기</span></a>,
 <a href="#shopcast"><span>쇼핑캐스트 바로가기</span></a>,
 <a href="#account"><span>로그인 바로가기</span></a>,
 <a class="_3h-N8T9V" data-clk="dropbanner1b" href="https://whale.naver.com/banner/details/security/?=main&amp;wpid=RydDy7"></a>,
 <a class="_2aeXMlrb BMgpjddw" data-clk="dropdownload1b" href="https://installer-whale.pstatic.net/downloads/banner/RydDy7/WhaleSetup.exe" id="NM_whale_download_btn"><span style="background-color: #0436c7">다운로드</span></a>,
 <a class="special_logo_link" data-clk="top.spe" href="https://campaign.naver.com/collect_v2/?pcode=naver_speciallogo&amp;event_id=anniversary_summer&amp;target=https%253A%252F%252Fcampaign.naver.com%252Fissue%252Fanniversary%252Fsummer%252F" title="더위 정복! 중복">
 <img alt="더위 정복! 중복" class="special_img_fold" height="60" src="https://s.pstatic.net/static/www/mobile/edit/20220725/mobile_16414224

In [None]:
soup.select_one('div > a')

<a href="#newsstand"><span>뉴스스탠드 바로가기</span></a>

https://yongku.tistory.com/entry/Python-%ED%81%AC%EB%A1%A4%EB%A7%81-%EB%84%A4%EC%9D%B4%EB%B2%84-%EB%89%B4%EC%8A%A4-%ED%81%AC%EB%A1%A4%EB%A7%81%ED%95%98%EA%B8%B0-with-Python<br>
https://everyday-tech.tistory.com/entry/%EC%89%BD%EA%B2%8C-%EB%94%B0%EB%9D%BC%ED%95%98%EB%8A%94-%EB%84%A4%EC%9D%B4%EB%B2%84-%EB%89%B4%EC%8A%A4-%ED%81%AC%EB%A1%A4%EB%A7%81python-2%ED%83%84

In [None]:
from datetime import datetime

date = str(datetime.now())
print(date)
date = date[:date.rfind(':')].replace(' ', '_') # date 문자열에서 마지막 : 문자의 인덱스를 반환
print(date)
date = date.replace(':','시') + '분'
print(date)

2023-04-30 21:22:34.857364
2023-04-30_21:22
2023-04-30_21시22분


query = query.replace(' ', '+') 를 사용하는 이유
- 검색어에서 공백을 + 문자로 대체하는 코드로 HTTP GET 요청에서 검색어를 전달할 때 사용하는 일반적인 방법
- HTTP GET 요청에서는 URL의 일부분으로 검색어를 전달해야 하는데, 이때 공백은 URL에서 특별한 의미를 가지는 문자이기 때문에, 검색어에서 공백을 + 문자로 대체하여 URL에 포함시켜야 함
- python web scraping은 python+web+scraping으로 나타낸다.

In [None]:
import requests
from pandas import DataFrame
from bs4 import BeautifulSoup
import re
from datetime import datetime
import os

date = str(datetime.now())
date = date[:date.rfind(':')].replace(' ', '_')
date = date.replace(':','시') + '분'

query = input('검색 키워드를 입력하세요 : ')
news_num = int(input('총 필요한 뉴스기사 수를 입력해주세요(숫자만 입력) : '))
print(query)
query = query.replace(' ', '+')
print(query)

news_url = 'https://search.naver.com/search.naver?where=news&sm=tab_jum&query={}'

req = requests.get(news_url.format(query)) #
print(req)
# soup = BeautifulSoup(req.text, 'html.parser'

검색 키워드를 입력하세요 : 대한민국
총 필요한 뉴스기사 수를 입력해주세요(숫자만 입력) : 10
대한민국
대한민국
<Response [200]>


In [None]:
html ='''
<ul class="list_news"> <li class="bx" id="sp_nws1"> <div class="news_wrap api_ani_send"> <div class="news_area"> <div class="news_info"> <div class="api_save_group _keep_wrap"> <a href="#" role="button" class="btn_save _keep_trigger" data-url="http://www.kihoilbo.co.kr/news/articleView.html?idxno=1028448" onclick="tCR('a=nws*b.kep&amp;r=1&amp;i=8811BF05_000000000000000000460335&amp;u=javascript'); return false;" aria-pressed="false"><i class="spnew ico_save">문서 저장하기</i></a> <div class="api_ly_save _keep_save_layer"> <a href="#" role="button" class="spnew_af item item_save _keep_save" data-cr-on="a=nws*b.kepon&amp;r=1&amp;i=8811BF05_000000000000000000460335&amp;u=javascript" data-cr-off="a=nws*b.kepoff&amp;r=1&amp;i=8811BF05_000000000000000000460335&amp;u=javascript">Keep에 저장</a> <a href="https://keep.naver.com/" class="spnew_af item item_quick" target="_blank" onclick="return goOtherCR(this,'a=nws*b.kephome&amp;r=1&amp;i=8811BF05_000000000000000000460335&amp;u='+urlencode(this.href));">Keep 바로가기</a> </div></div><div class="info_group"> <a href="http://www.kihoilbo.co.kr/" class="info press" target="_blank" onclick="return goOtherCR(this, 'a=nws*b.prof&amp;r=1&amp;i=8811BF05_000000000000000000460335&amp;g=5154.0000460335&amp;u='+urlencode(this.href));"><span class="thumb_box"></span>기호일보</a><span class="info">8시간 전</span> </div></div><a href="http://www.kihoilbo.co.kr/news/articleView.html?idxno=1028448" class="news_tit" target="_blank" onclick="return goOtherCR(this, 'a=nws*b.tit&amp;r=1&amp;i=8811BF05_000000000000000000460335&amp;g=5154.0000460335&amp;u='+urlencode(this.href));" title="화성시, ChatGPT 활용연구 TF 출범">화성시, ChatGPT 활용연구 TF 출범</a> <div class="news_dsc"> <div class="dsc_wrap"> <a href="http://www.kihoilbo.co.kr/news/articleView.html?idxno=1028448" class="api_txt_lines dsc_txt_wrap" target="_blank" onclick="return goOtherCR(this, 'a=nws*b.body&amp;r=1&amp;i=8811BF05_000000000000000000460335&amp;g=5154.0000460335&amp;u='+urlencode(this.href));">기호일보 - 아침을 여는 신문, KIHOILBO 화성시가 ChatGPT를 활용한 스마트 행정 추진을 위해 전담팀(TF)을 구성하고 지난 28일 근로자복지회관에서 'ChatGPT 활용연구 TF 출범식'을 개최했다. TF팀은 기획조정실장을...</a> </div></div></div><a href="http://www.kihoilbo.co.kr/news/articleView.html?idxno=1028448" class="dsc_thumb " target="_blank" onclick="return goOtherCR(this, 'a=nws*b.img&amp;r=1&amp;i=8811BF05_000000000000000000460335&amp;g=5154.0000460335&amp;u='+urlencode(this.href));"><img src="https://search.pstatic.net/common/?src=https%3A%2F%2Fimgnews.pstatic.net%2Fimage%2Forigin%2F5154%2F2023%2F04%2F30%2F460335.jpg&amp;type=ff264_180&amp;expire=2&amp;refresh=true" width="132" height="90" alt="화성시, ChatGPT 활용" class="thumb api_get" onerror="this.parentNode.style.display='none';"></a> </div><div class="news_cluster"> <ul class="list_cluster"> <li class="sub_bx"> <span class="sub_wrap"> <span class="sub_area"> <cite class="sub_txt press" title="뉴데일리">뉴데일리</cite><span class="sub_txt">7시간 전</span> </span><a href="https://tk.newdaily.co.kr/site/data/html/2023/04/30/2023043000026.html" class="elss sub_tit" target="_blank" onclick="return goOtherCR(this, 'a=nws*d.tit&amp;r=2&amp;i=88000391_000000000000000000739242&amp;g=5005.0000739242&amp;u='+urlencode(this.href));" title="동구청, ChatGPT 활용 행정혁신 강연">동구청, ChatGPT 활용 행정혁신 강연</a> </span></li> <li class="sub_bx"> <span class="sub_wrap"> <span class="sub_area"> <cite class="sub_txt press" title="인천일보">인천일보</cite><span class="sub_txt">11시간 전</span> </span><a href="http://www.incheonilbo.com/news/articleView.html?idxno=1191926" class="elss sub_tit" target="_blank" onclick="return goOtherCR(this, 'a=nws*d.tit&amp;r=3&amp;i=88123FBD_000000000000000000507093&amp;g=5193.0000507093&amp;u='+urlencode(this.href));" title="화성 chat GPT 활용연구 TF 팀 출범">화성 <mark>chat</mark> <mark>GPT</mark> 활용연구 TF 팀 출범</a> </span></li> <li class="sub_bx"> <span class="sub_wrap"> <span class="sub_area"> <cite class="sub_txt press" title="중도일보">중도일보</cite><span class="sub_txt">6시간 전</span> </span><a href="http://www.joongdo.co.kr/web/view.php?key=20230430010009098" class="elss sub_tit" target="_blank" onclick="return goOtherCR(this, 'a=nws*d.tit&amp;r=4&amp;i=88121F5C_000000000000000000851390&amp;g=5340.0000851390&amp;u='+urlencode(this.href));" title="화성시, 스마트 행정 'ChatGPT' 활용연구 출범">화성시, 스마트 행정 'ChatGPT' 활용연구 출범</a> </span></li> </ul></div></li> <li class="bx" id="sp_nws5"> <div class="news_wrap api_ani_send"> <div class="news_area"> <div class="news_info"> <div class="api_save_group _keep_wrap"> <a href="#" role="button" class="btn_save _keep_trigger" data-url="http://www.newspim.com/news/view/20230430000069" onclick="tCR('a=nws*b.kep&amp;r=5&amp;i=88000394_000000000000000002333192&amp;u=javascript'); return false;" aria-pressed="false"><i class="spnew ico_save">문서 저장하기</i></a> <div class="api_ly_save _keep_save_layer"> <a href="#" role="button" class="spnew_af item item_save _keep_save" data-cr-on="a=nws*b.kepon&amp;r=5&amp;i=88000394_000000000000000002333192&amp;u=javascript" data-cr-off="a=nws*b.kepoff&amp;r=5&amp;i=88000394_000000000000000002333192&amp;u=javascript">Keep에 저장</a> <a href="https://keep.naver.com/" class="spnew_af item item_quick" target="_blank" onclick="return goOtherCR(this,'a=nws*b.kephome&amp;r=5&amp;i=88000394_000000000000000002333192&amp;u='+urlencode(this.href));">Keep 바로가기</a> </div></div><div class="info_group"> <a href="http://www.newspim.com" class="info press" target="_blank" onclick="return goOtherCR(this, 'a=nws*b.prof&amp;r=5&amp;i=88000394_000000000000000002333192&amp;g=5002.0002333192&amp;u='+urlencode(this.href));"><span class="thumb_box"></span>뉴스핌</a><span class="info">5시간 전</span> </div></div><a href="http://www.newspim.com/news/view/20230430000069" class="news_tit" target="_blank" onclick="return goOtherCR(this, 'a=nws*b.tit&amp;r=5&amp;i=88000394_000000000000000002333192&amp;g=5002.0002333192&amp;u='+urlencode(this.href));" title="경기도의회 'ChatGPT의 현재와 미래' 특강 실시">경기도의회 'ChatGPT의 현재와 미래' 특강 실시</a> <div class="news_dsc"> <div class="dsc_wrap"> <a href="http://www.newspim.com/news/view/20230430000069" class="api_txt_lines dsc_txt_wrap" target="_blank" onclick="return goOtherCR(this, 'a=nws*b.body&amp;r=5&amp;i=88000394_000000000000000002333192&amp;g=5002.0002333192&amp;u='+urlencode(this.href));">경기도의회는 지난 28일 도의원 및 사무처 직원을 대상으로 자체교육(5차)을 진행했다고 30일 밝혔다. 경기도의회는 지난 28일 도의원 및 사무처 직원을 대상으로 자체교육(5차)을 진행했다고 30일 밝혔다. [사진...</a> </div></div></div><a href="http://www.newspim.com/news/view/20230430000069" class="dsc_thumb " target="_blank" onclick="return goOtherCR(this, 'a=nws*b.img&amp;r=5&amp;i=88000394_000000000000000002333192&amp;g=5002.0002333192&amp;u='+urlencode(this.href));"><img src="https://search.pstatic.net/common/?src=https%3A%2F%2Fimgnews.pstatic.net%2Fimage%2Forigin%2F5002%2F2023%2F04%2F30%2F2333192.jpg&amp;type=ff264_180&amp;expire=2&amp;refresh=true" width="132" height="90" alt="경기도의회 ‘ChatGPT의" class="thumb api_get" onerror="this.parentNode.style.display='none';"></a> </div><div class="news_cluster"> <ul class="list_cluster"> <li class="sub_bx"> <span class="sub_wrap"> <span class="sub_area"> <cite class="sub_txt press" title="에너지경제">에너지경제</cite><span class="sub_txt">7시간 전</span> </span><a href="https://www.ekn.kr/web/view.php?key=20230430010007764" class="elss sub_tit" target="_blank" onclick="return goOtherCR(this, 'a=nws*d.tit&amp;r=6&amp;i=88102504_000000000000000000578788&amp;g=5133.0000578788&amp;u='+urlencode(this.href));" title="경기도의회, 도의원과 사무처 직원 대상으로 ChatGPT 특강 진행">경기도의회, 도의원과 사무처 직원 대상으로 ChatGPT 특강 진행</a> </span></li> <li class="sub_bx"> <span class="sub_wrap"> <span class="sub_area"> <cite class="sub_txt press" title="열린뉴스통신">열린뉴스통신</cite><span class="sub_txt">38분 전</span> </span><a href="https://www.onews.tv/news/articleView.html?idxno=164071" class="elss sub_tit" target="_blank" onclick="return goOtherCR(this, 'a=nws*d.tit&amp;r=7&amp;i=88202ra6_000000000000000000121835&amp;g=5818.0000121835&amp;u='+urlencode(this.href));" title="경기도의회, 'ChatGPT의 현재와 미래' 5차 자체교육">경기도의회, 'ChatGPT의 현재와 미래' 5차 자체교육</a> </span></li> </ul></div></li> <li class="bx" id="sp_nws8"> <div class="news_wrap api_ani_send"> <div class="news_area"> <div class="news_info"> <div class="api_save_group _keep_wrap"> <a href="#" role="button" class="btn_save _keep_trigger" data-url="https://www.idaegu.co.kr/news/articleView.html?idxno=418679" onclick="tCR('a=nws*f.kep&amp;r=8&amp;i=88155e7b_000000000000000000256731&amp;u=javascript'); return false;" aria-pressed="false"><i class="spnew ico_save">문서 저장하기</i></a> <div class="api_ly_save _keep_save_layer"> <a href="#" role="button" class="spnew_af item item_save _keep_save" data-cr-on="a=nws*f.kepon&amp;r=8&amp;i=88155e7b_000000000000000000256731&amp;u=javascript" data-cr-off="a=nws*f.kepoff&amp;r=8&amp;i=88155e7b_000000000000000000256731&amp;u=javascript">Keep에 저장</a> <a href="https://keep.naver.com/" class="spnew_af item item_quick" target="_blank" onclick="return goOtherCR(this,'a=nws*f.kephome&amp;r=8&amp;i=88155e7b_000000000000000000256731&amp;u='+urlencode(this.href));">Keep 바로가기</a> </div></div><div class="info_group"> <a href="http://www.idaegu.co.kr" class="info press" target="_blank" onclick="return goOtherCR(this, 'a=nws*f.prof&amp;r=8&amp;i=88155e7b_000000000000000000256731&amp;g=5341.0000256731&amp;u='+urlencode(this.href));"><span class="thumb_box"></span>대구신문</a><span class="info">3시간 전</span> </div></div><a href="https://www.idaegu.co.kr/news/articleView.html?idxno=418679" class="news_tit" target="_blank" onclick="return goOtherCR(this, 'a=nws*f.tit&amp;r=8&amp;i=88155e7b_000000000000000000256731&amp;g=5341.0000256731&amp;u='+urlencode(this.href));" title="대구 동구청&amp;중구청, 챗(Chat) GPT를 활용한 행정혁신 강연 개최">대구 동구청&amp;중구청, 챗(<mark>Chat</mark>) <mark>GPT</mark>를 활용한 행정혁신 강연 개최</a> <div class="news_dsc"> <div class="dsc_wrap"> <a href="https://www.idaegu.co.kr/news/articleView.html?idxno=418679" class="api_txt_lines dsc_txt_wrap" target="_blank" onclick="return goOtherCR(this, 'a=nws*f.body&amp;r=8&amp;i=88155e7b_000000000000000000256731&amp;g=5341.0000256731&amp;u='+urlencode(this.href));">중구청 제공 대구 동구청과 중구청은 지난 달 27일과 28일 양일간 전 직원을 대상으로 챗(<mark>Chat</mark>) <mark>GPT</mark>를 활용한 행정혁신 강연을 개최했다. 챗 <mark>GPT</mark>는 지난해 11월 미국 오픈에이아이(OpenAI)사가 개발한 대화형 인공지능...</a> </div></div></div><a href="https://www.idaegu.co.kr/news/articleView.html?idxno=418679" class="dsc_thumb " target="_blank" onclick="return goOtherCR(this, 'a=nws*f.img&amp;r=8&amp;i=88155e7b_000000000000000000256731&amp;g=5341.0000256731&amp;u='+urlencode(this.href));"><img src="https://search.pstatic.net/common/?src=https%3A%2F%2Fimgnews.pstatic.net%2Fimage%2Forigin%2F5341%2F2023%2F04%2F30%2F256731.jpg&amp;type=ofullfill264_180_gray&amp;expire=2&amp;refresh=true" width="132" height="90" alt="대구 동구청&amp;중구청, " class="thumb api_get" onerror="this.parentNode.style.display='none';"></a> </div></li> <li class="bx" id="sp_nws9"> <div class="news_wrap api_ani_send"> <div class="news_area"> <div class="news_info"> <div class="api_save_group _keep_wrap"> <a href="#" role="button" class="btn_save _keep_trigger" data-url="http://www.mediatoday.co.kr/news/articleView.html?idxno=309816" onclick="tCR('a=nws*j.kep&amp;r=9&amp;i=880000C5_000000000000000000117871&amp;u=javascript'); return false;" aria-pressed="false"><i class="spnew ico_save">문서 저장하기</i></a> <div class="api_ly_save _keep_save_layer"> <a href="#" role="button" class="spnew_af item item_save _keep_save" data-cr-on="a=nws*j.kepon&amp;r=9&amp;i=880000C5_000000000000000000117871&amp;u=javascript" data-cr-off="a=nws*j.kepoff&amp;r=9&amp;i=880000C5_000000000000000000117871&amp;u=javascript">Keep에 저장</a> <a href="https://keep.naver.com/" class="spnew_af item item_quick" target="_blank" onclick="return goOtherCR(this,'a=nws*j.kephome&amp;r=9&amp;i=880000C5_000000000000000000117871&amp;u='+urlencode(this.href));">Keep 바로가기</a> </div></div><div class="info_group"> <a href="http://www.mediatoday.co.kr/" class="info press" target="_blank" onclick="return goOtherCR(this, 'a=nws*j.prof&amp;r=9&amp;i=880000C5_000000000000000000117871&amp;g=006.0000117871&amp;u='+urlencode(this.href));"><span class="thumb_box"></span>미디어오늘<i class="spnew ico_pick">언론사 선정</i></a><span class="info">1일 전</span><a href="https://n.news.naver.com/mnews/article/006/0000117871?sid=101" class="info" target="_blank" onclick="return goOtherCR(this, 'a=nws*j.nav&amp;r=9&amp;i=880000C5_000000000000000000117871&amp;u='+urlencode(this.href));">네이버뉴스</a> </div></div><a href="http://www.mediatoday.co.kr/news/articleView.html?idxno=309816" class="news_tit" target="_blank" onclick="return goOtherCR(this, 'a=nws*j.tit&amp;r=9&amp;i=880000C5_000000000000000000117871&amp;g=006.0000117871&amp;u='+urlencode(this.href));" title="챗GPT와 함께 소설 쓰기 과정은 이랬다">챗<mark>GPT</mark>와 함께 소설 쓰기 과정은 이랬다</a> <div class="news_dsc"> <div class="dsc_wrap"> <a href="http://www.mediatoday.co.kr/news/articleView.html?idxno=309816" class="api_txt_lines dsc_txt_wrap" target="_blank" onclick="return goOtherCR(this, 'a=nws*j.body&amp;r=9&amp;i=880000C5_000000000000000000117871&amp;g=006.0000117871&amp;u='+urlencode(this.href));">이 책은 챗<mark>GPT</mark>와 인간 작가가 공동 집필한 국내 첫 소설집이다. 책은 작가별 단편 소설이 나온 다음 챗<mark>GPT</mark>와 어떻게 협업했는지 과정을 '협업일지'와 '협업후기' 형식으로 담았다. 책을 기획한 자음과모음 출판사의 박진혜...</a> </div></div></div><a href="http://www.mediatoday.co.kr/news/articleView.html?idxno=309816" class="dsc_thumb " target="_blank" onclick="return goOtherCR(this, 'a=nws*j.img&amp;r=9&amp;i=880000C5_000000000000000000117871&amp;g=006.0000117871&amp;u='+urlencode(this.href));"><img src="https://search.pstatic.net/common/?src=https%3A%2F%2Fimgnews.pstatic.net%2Fimage%2Forigin%2F006%2F2023%2F04%2F29%2F117871.jpg&amp;type=ff264_180&amp;expire=2&amp;refresh=true" width="132" height="90" alt="챗GPT와 함께 소설 쓰" class="thumb api_get" onerror="this.parentNode.style.display='none';"></a> </div></li> <li class="bx" id="sp_nws10"> <div class="news_wrap api_ani_send"> <div class="news_area"> <div class="news_info"> <div class="api_save_group _keep_wrap"> <a href="#" role="button" class="btn_save _keep_trigger" data-url="https://www.dailian.co.kr/news/view/1228765/?sc=Naver" onclick="tCR('a=nws*a.kep&amp;r=10&amp;i=8812A0A8_000000000000000002707906&amp;u=javascript'); return false;" aria-pressed="false"><i class="spnew ico_save">문서 저장하기</i></a> <div class="api_ly_save _keep_save_layer"> <a href="#" role="button" class="spnew_af item item_save _keep_save" data-cr-on="a=nws*a.kepon&amp;r=10&amp;i=8812A0A8_000000000000000002707906&amp;u=javascript" data-cr-off="a=nws*a.kepoff&amp;r=10&amp;i=8812A0A8_000000000000000002707906&amp;u=javascript">Keep에 저장</a> <a href="https://keep.naver.com/" class="spnew_af item item_quick" target="_blank" onclick="return goOtherCR(this,'a=nws*a.kephome&amp;r=10&amp;i=8812A0A8_000000000000000002707906&amp;u='+urlencode(this.href));">Keep 바로가기</a> </div></div><div class="info_group"> <a href="http://www.dailian.co.kr/" class="info press" target="_blank" onclick="return goOtherCR(this, 'a=nws*a.prof&amp;r=10&amp;i=8812A0A8_000000000000000002707906&amp;g=119.0002707906&amp;u='+urlencode(this.href));"><span class="thumb_box"></span>데일리안</a><span class="info">2일 전</span><a href="https://n.news.naver.com/mnews/article/119/0002707906?sid=004" class="info" target="_blank" onclick="return goOtherCR(this, 'a=nws*a.nav&amp;r=10&amp;i=8812A0A8_000000000000000002707906&amp;u='+urlencode(this.href));">네이버뉴스</a> </div></div><a href="https://www.dailian.co.kr/news/view/1228765/?sc=Naver" class="news_tit" target="_blank" onclick="return goOtherCR(this, 'a=nws*a.tit&amp;r=10&amp;i=8812A0A8_000000000000000002707906&amp;g=119.0002707906&amp;u='+urlencode(this.href));" title="화성시, ChatGPT 활용연구 TF팀 출범">화성시, ChatGPT 활용연구 TF팀 출범</a> <div class="news_dsc"> <div class="dsc_wrap"> <a href="https://www.dailian.co.kr/news/view/1228765/?sc=Naver" class="api_txt_lines dsc_txt_wrap" target="_blank" onclick="return goOtherCR(this, 'a=nws*a.body&amp;r=10&amp;i=8812A0A8_000000000000000002707906&amp;g=119.0002707906&amp;u='+urlencode(this.href));">경기 화성시가 ChatGPT를 활용한 스마트 행정 추진을 위해 전담팀(TF)을 구성하고 28일, 근로자복지회관에서 ChatGPT 활용연구 TF 출범식을 개최했다. TF팀은 기획조정실장을 단장, 스마트도시과장을 부단장으로...</a> </div></div></div><a href="https://www.dailian.co.kr/news/view/1228765/?sc=Naver" class="dsc_thumb " target="_blank" onclick="return goOtherCR(this, 'a=nws*a.img&amp;r=10&amp;i=8812A0A8_000000000000000002707906&amp;g=119.0002707906&amp;u='+urlencode(this.href));"><img src="https://search.pstatic.net/common/?src=https%3A%2F%2Fimgnews.pstatic.net%2Fimage%2Forigin%2F119%2F2023%2F04%2F28%2F2707906.jpg&amp;type=ofullfill264_180_gray&amp;expire=2&amp;refresh=true" width="132" height="90" alt="화성시, ChatGPT 활용" class="thumb api_get" onerror="this.parentNode.style.display='none';"></a> </div><div class="news_cluster"> <ul class="list_cluster"> <li class="sub_bx"> <span class="sub_wrap"> <span class="sub_area"> <cite class="sub_txt press" title="대한경제">대한경제</cite><span class="sub_txt">2일 전</span> </span><a href="https://www.dnews.co.kr/uhtml/view.jsp?idxno=202304281737548950693" class="elss sub_tit" target="_blank" onclick="return goOtherCR(this, 'a=nws*d.tit&amp;r=11&amp;i=88105698_000000000000000000451347&amp;g=5138.0000451347&amp;u='+urlencode(this.href));" title="화성시, 스마트 행정은 ChatGPT로">화성시, 스마트 행정은 ChatGPT로</a> </span></li> <li class="sub_bx"> <span class="sub_wrap"> <span class="sub_area"> <cite class="sub_txt press" title="에너지경제">에너지경제</cite><span class="sub_txt">2일 전</span> </span><a href="https://www.ekn.kr/web/view.php?key=20230428010007594" class="elss sub_tit" target="_blank" onclick="return goOtherCR(this, 'a=nws*d.tit&amp;r=12&amp;i=88102504_000000000000000000578618&amp;g=5133.0000578618&amp;u='+urlencode(this.href));" title="화성시, Chat GPT 활용연구 TF팀 출범식 개최">화성시, <mark>Chat</mark> <mark>GPT</mark> 활용연구 TF팀 출범식 개최</a> </span></li> <li class="sub_bx"> <span class="sub_wrap"> <span class="sub_area"> <cite class="sub_txt press" title="위클리오늘">위클리오늘</cite><span class="sub_txt">2일 전</span> </span><a href="http://www.weeklytoday.com/news/articleView.html?idxno=567824" class="elss sub_tit" target="_blank" onclick="return goOtherCR(this, 'a=nws*d.tit&amp;r=13&amp;i=8813C2D2_000000000000000000281685&amp;g=5294.0000281685&amp;u='+urlencode(this.href));" title="화성시, ChatGPT 활용연구 TF 출범식 개최">화성시, ChatGPT 활용연구 TF 출범식 개최</a> </span></li> <li class="sub_bx"> <span class="sub_wrap"> <span class="sub_area"> <cite class="sub_txt press" title="NSP통신">NSP통신</cite><span class="sub_txt">2일 전</span> </span><a href="https://www.nspna.com/news/?mode=view&amp;newsid=634625" class="elss sub_tit" target="_blank" onclick="return goOtherCR(this, 'a=nws*d.tit&amp;r=14&amp;i=880003F1_000000000000000000606368&amp;g=5025.0000606368&amp;u='+urlencode(this.href));" title="화성시, 행정에 부는 챗GPT 바람…활용연구TF출범">화성시, 행정에 부는 챗<mark>GPT</mark> 바람…활용연구TF출범</a> </span></li> </ul></div></li> <li class="bx" id="sp_nws15"> <div class="news_wrap api_ani_send"> <div class="news_area"> <div class="news_info"> <div class="api_save_group _keep_wrap"> <a href="#" role="button" class="btn_save _keep_trigger" data-url="http://www.newsis.com/view/?id=NISX20230427_0002282419&amp;cID=10811&amp;pID=10800" onclick="tCR('a=nws*a.kep&amp;r=15&amp;i=88000127_000000000000000011826825&amp;u=javascript'); return false;" aria-pressed="false"><i class="spnew ico_save">문서 저장하기</i></a> <div class="api_ly_save _keep_save_layer"> <a href="#" role="button" class="spnew_af item item_save _keep_save" data-cr-on="a=nws*a.kepon&amp;r=15&amp;i=88000127_000000000000000011826825&amp;u=javascript" data-cr-off="a=nws*a.kepoff&amp;r=15&amp;i=88000127_000000000000000011826825&amp;u=javascript">Keep에 저장</a> <a href="https://keep.naver.com/" class="spnew_af item item_quick" target="_blank" onclick="return goOtherCR(this,'a=nws*a.kephome&amp;r=15&amp;i=88000127_000000000000000011826825&amp;u='+urlencode(this.href));">Keep 바로가기</a> </div></div><div class="info_group"> <a href="http://www.newsis.com" class="info press" target="_blank" onclick="return goOtherCR(this, 'a=nws*a.prof&amp;r=15&amp;i=88000127_000000000000000011826825&amp;g=003.0011826825&amp;u='+urlencode(this.href));"><span class="thumb_box"></span>뉴시스</a><span class="info">3일 전</span><a href="https://n.news.naver.com/mnews/article/003/0011826825?sid=102" class="info" target="_blank" onclick="return goOtherCR(this, 'a=nws*a.nav&amp;r=15&amp;i=88000127_000000000000000011826825&amp;u='+urlencode(this.href));">네이버뉴스</a> </div></div><a href="http://www.newsis.com/view/?id=NISX20230427_0002282419&amp;cID=10811&amp;pID=10800" class="news_tit" target="_blank" onclick="return goOtherCR(this, 'a=nws*a.tit&amp;r=15&amp;i=88000127_000000000000000011826825&amp;g=003.0011826825&amp;u='+urlencode(this.href));" title="DX포럼, ‘ChatGPT 활용 사례로 보는 인공지능과 데이터의 미래’">DX포럼, ‘ChatGPT 활용 사례로 보는 인공지능과 데이터의 미래’</a> <div class="news_dsc"> <div class="dsc_wrap"> <a href="http://www.newsis.com/view/?id=NISX20230427_0002282419&amp;cID=10811&amp;pID=10800" class="api_txt_lines dsc_txt_wrap" target="_blank" onclick="return goOtherCR(this, 'a=nws*a.body&amp;r=15&amp;i=88000127_000000000000000011826825&amp;g=003.0011826825&amp;u='+urlencode(this.href));">기사내용 요약 27일 오후 6시 부산빅데이터혁신센터 ‘제7회 디지털 전환 포럼(DX포럼)‘이 27일 오후 6시 해운대 부산빅데이터혁신센터에서 ‘ChatGPT 활용 사례로 보는 인공지능과 데이터의 미래’를 주제로 열린다....</a> </div></div></div><a href="http://www.newsis.com/view/?id=NISX20230427_0002282419&amp;cID=10811&amp;pID=10800" class="dsc_thumb " target="_blank" onclick="return goOtherCR(this, 'a=nws*a.img&amp;r=15&amp;i=88000127_000000000000000011826825&amp;g=003.0011826825&amp;u='+urlencode(this.href));"></a> </div><div class="news_cluster"> <ul class="list_cluster"> <li class="sub_bx"> <span class="sub_wrap"> <span class="sub_area"> <cite class="sub_txt press" title="뉴스1">뉴스1</cite><span class="sub_txt">3일 전</span><a href="https://n.news.naver.com/mnews/article/421/0006772755?sid=102" class="sub_txt" target="_blank" onclick="return goOtherCR(this, 'a=nws*c.nav&amp;r=16&amp;i=08138263_000000000000000006772755&amp;u='+urlencode(this.href));">네이버뉴스</a> </span><a href="https://www.news1.kr/articles/5029003" class="elss sub_tit" target="_blank" onclick="return goOtherCR(this, 'a=nws*c.tit&amp;r=16&amp;i=08138263_000000000000000006772755&amp;g=421.0006772755&amp;u='+urlencode(this.href));" title="부산빅데이터혁신센터, 27일 디지털 전환 포럼 개최">부산빅데이터혁신센터, 27일 디지털 전환 포럼 개최</a> </span></li> </ul></div></li> <li class="bx" id="sp_nws17"> <div class="news_wrap api_ani_send"> <div class="news_area"> <div class="news_info"> <div class="api_save_group _keep_wrap"> <a href="#" role="button" class="btn_save _keep_trigger" data-url="https://n.news.naver.com/mnews/article/077/0005927161?sid=104" onclick="tCR('a=nws*e.kep&amp;r=17&amp;i=880000DD_000000000000000005927161&amp;u=javascript'); return false;" aria-pressed="false"><i class="spnew ico_save">문서 저장하기</i></a> <div class="api_ly_save _keep_save_layer"> <a href="#" role="button" class="spnew_af item item_save _keep_save" data-cr-on="a=nws*e.kepon&amp;r=17&amp;i=880000DD_000000000000000005927161&amp;u=javascript" data-cr-off="a=nws*e.kepoff&amp;r=17&amp;i=880000DD_000000000000000005927161&amp;u=javascript">Keep에 저장</a> <a href="https://keep.naver.com/" class="spnew_af item item_quick" target="_blank" onclick="return goOtherCR(this,'a=nws*e.kephome&amp;r=17&amp;i=880000DD_000000000000000005927161&amp;u='+urlencode(this.href));">Keep 바로가기</a> </div></div><div class="info_group"> <a href="https://en.yna.co.kr/image/index" class="info press" target="_blank" onclick="return goOtherCR(this, 'a=nws*e.prof&amp;r=17&amp;i=880000DD_000000000000000005927161&amp;g=&amp;u='+urlencode(this.href));"><span class="thumb_box"></span>AP연합뉴스</a><span class="info">1일 전</span><a href="https://n.news.naver.com/mnews/article/077/0005927161?sid=104" class="info" target="_blank" onclick="return goOtherCR(this, 'a=nws*e.nav&amp;r=17&amp;i=880000DD_000000000000000005927161&amp;u='+urlencode(this.href));">네이버뉴스</a> </div></div><a href="https://n.news.naver.com/mnews/article/077/0005927161?sid=104" class="news_tit" target="_blank" onclick="return goOtherCR(this, 'a=nws*e.tit&amp;r=17&amp;i=880000DD_000000000000000005927161&amp;g=&amp;u='+urlencode(this.href));" title="Italy ChatGPT">Italy ChatGPT</a> <div class="news_dsc"> <div class="dsc_wrap"> <a href="https://n.news.naver.com/mnews/article/077/0005927161?sid=104" class="api_txt_lines dsc_txt_wrap" target="_blank" onclick="return goOtherCR(this, 'a=nws*e.body&amp;r=17&amp;i=880000DD_000000000000000005927161&amp;g=&amp;u='+urlencode(this.href));">FILE - The OpenAI logo is seen on a mobile phone in front of a computer screen which displays the ChatGPT home Screen, on March 17, 2023, in Boston. ChatGPT's maker said Friday April 28, 2023...</a> </div></div></div><a href="https://n.news.naver.com/mnews/article/077/0005927161?sid=104" class="dsc_thumb " target="_blank" onclick="return goOtherCR(this, 'a=nws*e.img&amp;r=17&amp;i=880000DD_000000000000000005927161&amp;g=&amp;u='+urlencode(this.href));"></a> </div></li> <li class="bx" id="sp_nws18"> <div class="news_wrap api_ani_send"> <div class="news_area"> <div class="news_info"> <div class="api_save_group _keep_wrap"> <a href="#" role="button" class="btn_save _keep_trigger" data-url="https://www.news1.kr/articles/5029548" onclick="tCR('a=nws*a.kep&amp;r=18&amp;i=08138263_000000000000000006773571&amp;u=javascript'); return false;" aria-pressed="false"><i class="spnew ico_save">문서 저장하기</i></a> <div class="api_ly_save _keep_save_layer"> <a href="#" role="button" class="spnew_af item item_save _keep_save" data-cr-on="a=nws*a.kepon&amp;r=18&amp;i=08138263_000000000000000006773571&amp;u=javascript" data-cr-off="a=nws*a.kepoff&amp;r=18&amp;i=08138263_000000000000000006773571&amp;u=javascript">Keep에 저장</a> <a href="https://keep.naver.com/" class="spnew_af item item_quick" target="_blank" onclick="return goOtherCR(this,'a=nws*a.kephome&amp;r=18&amp;i=08138263_000000000000000006773571&amp;u='+urlencode(this.href));">Keep 바로가기</a> </div></div><div class="info_group"> <a href="http://news1.kr/" class="info press" target="_blank" onclick="return goOtherCR(this, 'a=nws*a.prof&amp;r=18&amp;i=08138263_000000000000000006773571&amp;g=421.0006773571&amp;u='+urlencode(this.href));"><span class="thumb_box"></span>뉴스1</a><span class="info">3일 전</span><a href="https://n.news.naver.com/mnews/article/421/0006773571?sid=105" class="info" target="_blank" onclick="return goOtherCR(this, 'a=nws*a.nav&amp;r=18&amp;i=08138263_000000000000000006773571&amp;u='+urlencode(this.href));">네이버뉴스</a> </div></div><a href="https://www.news1.kr/articles/5029548" class="news_tit" target="_blank" onclick="return goOtherCR(this, 'a=nws*a.tit&amp;r=18&amp;i=08138263_000000000000000006773571&amp;g=421.0006773571&amp;u='+urlencode(this.href));" title="카톡 챗GPT '아숙업' 만든 업스테이지, 활용 비법 알려준다">카톡 챗<mark>GPT</mark> '아숙업' 만든 업스테이지, 활용 비법 알려준다</a> <div class="news_dsc"> <div class="dsc_wrap"> <a href="https://www.news1.kr/articles/5029548" class="api_txt_lines dsc_txt_wrap" target="_blank" onclick="return goOtherCR(this, 'a=nws*a.body&amp;r=18&amp;i=08138263_000000000000000006773571&amp;g=421.0006773571&amp;u='+urlencode(this.href));">채팅형 인공지능(AI) 아숙업(AskUp) 제작사 업스테이지가 챗<mark>GPT</mark> 활용 비법과 이를 활용해 직접 서비스를 만드는 교육을 선보인다. AI 스타트업 업스테이지는 챗<mark>GPT</mark> 활용 서비스 기획과 활용 비법을 알려주는 온라인...</a> </div></div></div><a href="https://www.news1.kr/articles/5029548" class="dsc_thumb " target="_blank" onclick="return goOtherCR(this, 'a=nws*a.img&amp;r=18&amp;i=08138263_000000000000000006773571&amp;g=421.0006773571&amp;u='+urlencode(this.href));"></a> </div><div class="news_cluster"> <ul class="list_cluster"> <li class="sub_bx"> <span class="sub_wrap"> <span class="sub_area"> <cite class="sub_txt press" title="뉴시스">뉴시스</cite><span class="sub_txt">3일 전</span><a href="https://n.news.naver.com/mnews/article/003/0011826923?sid=105" class="sub_txt" target="_blank" onclick="return goOtherCR(this, 'a=nws*c.nav&amp;r=19&amp;i=88000127_000000000000000011826923&amp;u='+urlencode(this.href));">네이버뉴스</a> </span><a href="http://www.newsis.com/view/?id=NISX20230427_0002282520&amp;cID=10406&amp;pID=13100" class="elss sub_tit" target="_blank" onclick="return goOtherCR(this, 'a=nws*c.tit&amp;r=19&amp;i=88000127_000000000000000011826923&amp;g=003.0011826923&amp;u='+urlencode(this.href));" title="&quot;챗GPT 활용비법 알려준다&quot; 아숙업 만든 업스테이지">"챗<mark>GPT</mark> 활용비법 알려준다" 아숙업 만든 업스테이지</a> </span></li> <li class="sub_bx"> <span class="sub_wrap"> <span class="sub_area"> <cite class="sub_txt press" title="데일리안">데일리안</cite><span class="sub_txt">3일 전</span><a href="https://n.news.naver.com/mnews/article/119/0002707019?sid=105" class="sub_txt" target="_blank" onclick="return goOtherCR(this, 'a=nws*c.nav&amp;r=20&amp;i=8812A0A8_000000000000000002707019&amp;u='+urlencode(this.href));">네이버뉴스</a> </span><a href="https://www.dailian.co.kr/news/view/1227756/?sc=Naver" class="elss sub_tit" target="_blank" onclick="return goOtherCR(this, 'a=nws*c.tit&amp;r=20&amp;i=8812A0A8_000000000000000002707019&amp;g=119.0002707019&amp;u='+urlencode(this.href));" title="업스테이지, 챗GPT 활용 비법 알린다…‘ChatGPT UP’ 강의 개설">업스테이지, 챗<mark>GPT</mark> 활용 비법 알린다…‘ChatGPT UP’ 강의 개설</a> </span></li> <li class="sub_bx"> <span class="sub_wrap"> <span class="sub_area"> <cite class="sub_txt press" title="뉴스핌">뉴스핌</cite><span class="sub_txt">3일 전</span> </span><a href="http://www.newspim.com/news/view/20230427000143" class="elss sub_tit" target="_blank" onclick="return goOtherCR(this, 'a=nws*d.tit&amp;r=21&amp;i=88000394_000000000000000002330946&amp;g=5002.0002330946&amp;u='+urlencode(this.href));" title="업스테이지, 챗GPT 활용비법 알려주는 'ChatGPT UP' 강의 개설">업스테이지, 챗<mark>GPT</mark> 활용비법 알려주는 'ChatGPT UP' 강의 개설</a> </span></li> <li class="sub_bx"> <span class="sub_wrap"> <span class="sub_area"> <cite class="sub_txt press" title="문화일보">문화일보</cite><span class="sub_txt">3일 전</span><a href="https://n.news.naver.com/mnews/article/021/0002568885?sid=101" class="sub_txt" target="_blank" onclick="return goOtherCR(this, 'a=nws*c.nav&amp;r=22&amp;i=880000C4_000000000000000002568885&amp;u='+urlencode(this.href));">네이버뉴스</a> </span><a href="https://www.munhwa.com/news/view.html?no=2023042701039907275002" class="elss sub_tit" target="_blank" onclick="return goOtherCR(this, 'a=nws*c.tit&amp;r=22&amp;i=880000C4_000000000000000002568885&amp;g=021.0002568885&amp;u='+urlencode(this.href));" title="업스테이지, 챗GPT로 앱 만드는 법 강의한다">업스테이지, 챗<mark>GPT</mark>로 앱 만드는 법 강의한다</a> </span></li> </ul></div><a href="?where=news&amp;sm=tab_tnw&amp;query=%7Bchatgpt%7D&amp;sort=0&amp;photo=0&amp;field=0&amp;pd=0&amp;ds=&amp;de=&amp;mynews=0&amp;office_type=0&amp;office_section_code=0&amp;news_office_checked=&amp;related=1&amp;docid=4210006773571&amp;nso=so:r,p:all,a:all" class="news_more" onclick="return goOtherCR(this, 'a=nws*r.more&amp;u='+urlencode(urlexpand(this.href)));">관련뉴스 10건 전체보기<i class="spnew ico_arrow"></i></a> </li> <li class="bx" id="sp_nws23"> <div class="news_wrap api_ani_send"> <div class="news_area"> <div class="news_info"> <div class="api_save_group _keep_wrap"> <a href="#" role="button" class="btn_save _keep_trigger" data-url="https://www.donga.com/news/Economy/article/all/20230426/119007018/1" onclick="tCR('a=nws*j.kep&amp;r=23&amp;i=880000A9_000000000000000003493687&amp;u=javascript'); return false;" aria-pressed="false"><i class="spnew ico_save">문서 저장하기</i></a> <div class="api_ly_save _keep_save_layer"> <a href="#" role="button" class="spnew_af item item_save _keep_save" data-cr-on="a=nws*j.kepon&amp;r=23&amp;i=880000A9_000000000000000003493687&amp;u=javascript" data-cr-off="a=nws*j.kepoff&amp;r=23&amp;i=880000A9_000000000000000003493687&amp;u=javascript">Keep에 저장</a> <a href="https://keep.naver.com/" class="spnew_af item item_quick" target="_blank" onclick="return goOtherCR(this,'a=nws*j.kephome&amp;r=23&amp;i=880000A9_000000000000000003493687&amp;u='+urlencode(this.href));">Keep 바로가기</a> </div></div><div class="info_group"> <a href="http://www.donga.com/" class="info press" target="_blank" onclick="return goOtherCR(this, 'a=nws*j.prof&amp;r=23&amp;i=880000A9_000000000000000003493687&amp;g=020.0003493687&amp;u='+urlencode(this.href));"><span class="thumb_box"></span>동아일보<i class="spnew ico_pick">언론사 선정</i></a><span class="info"><i class="spnew ico_paper"></i>A12면 1단</span><span class="info">4일 전</span><a href="https://n.news.naver.com/mnews/article/020/0003493687?sid=101" class="info" target="_blank" onclick="return goOtherCR(this, 'a=nws*j.nav&amp;r=23&amp;i=880000A9_000000000000000003493687&amp;u='+urlencode(this.href));">네이버뉴스</a> </div></div><a href="https://www.donga.com/news/Economy/article/all/20230426/119007018/1" class="news_tit" target="_blank" onclick="return goOtherCR(this, 'a=nws*j.tit&amp;r=23&amp;i=880000A9_000000000000000003493687&amp;g=020.0003493687&amp;u='+urlencode(this.href));" title="‘○○GPT’ 명칭 함부로 못쓴다… 개발사, 상표권 출원">‘○○<mark>GPT</mark>’ 명칭 함부로 못쓴다… 개발사, 상표권 출원</a> <div class="news_dsc"> <div class="dsc_wrap"> <a href="https://www.donga.com/news/Economy/article/all/20230426/119007018/1" class="api_txt_lines dsc_txt_wrap" target="_blank" onclick="return goOtherCR(this, 'a=nws*j.body&amp;r=23&amp;i=880000A9_000000000000000003493687&amp;g=020.0003493687&amp;u='+urlencode(this.href));">앞으로 ‘<mark>GPT</mark>’를 붙인 인공지능(AI) 서비스명을 사용하기 어려워질 것으로 전망된다. 챗<mark>GPT</mark>를 개발한 오픈AI가 상표권을 내세워 챗<mark>GPT</mark>의 API를 사용한 서비스 명칭 가이드라인을 제시했기 때문이다. 오픈AI는...</a> </div></div></div><a href="https://www.donga.com/news/Economy/article/all/20230426/119007018/1" class="dsc_thumb " target="_blank" onclick="return goOtherCR(this, 'a=nws*j.img&amp;r=23&amp;i=880000A9_000000000000000003493687&amp;g=020.0003493687&amp;u='+urlencode(this.href));"></a> </div></li> <li class="bx" id="sp_nws24"> <div class="news_wrap api_ani_send"> <div class="news_area"> <div class="news_info"> <div class="api_save_group _keep_wrap"> <a href="#" role="button" class="btn_save _keep_trigger" data-url="http://www.kbsm.net/news/view.php?idx=389951" onclick="tCR('a=nws*f.kep&amp;r=24&amp;i=8817ca6c_000000000000000000209563&amp;u=javascript'); return false;" aria-pressed="false"><i class="spnew ico_save">문서 저장하기</i></a> <div class="api_ly_save _keep_save_layer"> <a href="#" role="button" class="spnew_af item item_save _keep_save" data-cr-on="a=nws*f.kepon&amp;r=24&amp;i=8817ca6c_000000000000000000209563&amp;u=javascript" data-cr-off="a=nws*f.kepoff&amp;r=24&amp;i=8817ca6c_000000000000000000209563&amp;u=javascript">Keep에 저장</a> <a href="https://keep.naver.com/" class="spnew_af item item_quick" target="_blank" onclick="return goOtherCR(this,'a=nws*f.kephome&amp;r=24&amp;i=8817ca6c_000000000000000000209563&amp;u='+urlencode(this.href));">Keep 바로가기</a> </div></div><div class="info_group"> <a href="http://www.kbsm.net" class="info press" target="_blank" onclick="return goOtherCR(this, 'a=nws*f.prof&amp;r=24&amp;i=8817ca6c_000000000000000000209563&amp;g=5533.0000209563&amp;u='+urlencode(this.href));"><span class="thumb_box"></span>경북신문</a><span class="info">8시간 전</span> </div></div><a href="http://www.kbsm.net/news/view.php?idx=389951" class="news_tit" target="_blank" onclick="return goOtherCR(this, 'a=nws*f.tit&amp;r=24&amp;i=8817ca6c_000000000000000000209563&amp;g=5533.0000209563&amp;u='+urlencode(this.href));" title="대구 동구, 챗GPT 활용 행정혁신 추진">대구 동구, 챗<mark>GPT</mark> 활용 행정혁신 추진</a> <div class="news_dsc"> <div class="dsc_wrap"> <a href="http://www.kbsm.net/news/view.php?idx=389951" class="api_txt_lines dsc_txt_wrap" target="_blank" onclick="return goOtherCR(this, 'a=nws*f.body&amp;r=24&amp;i=8817ca6c_000000000000000000209563&amp;g=5533.0000209563&amp;u='+urlencode(this.href));">대구 동구가 지난 27일 전 직원을 대상으로 챗지피티(ChatGPT)를 이해하고 활용할 수 있는 강연을 열었다. 챗지피티는 오픈AI에서 개발한 대화형 인공지능 언어 모델이다. 이를 활용하면 문서 작성, 정보 검색, 민원 처리...</a> </div></div></div><a href="http://www.kbsm.net/news/view.php?idx=389951" class="dsc_thumb " target="_blank" onclick="return goOtherCR(this, 'a=nws*f.img&amp;r=24&amp;i=8817ca6c_000000000000000000209563&amp;g=5533.0000209563&amp;u='+urlencode(this.href));"></a> </div></li> </ul>
'''
bs = BeautifulSoup(html,'html.parser')
print(bs.prettify())

<ul class="list_news">
 <li class="bx" id="sp_nws1">
  <div class="news_wrap api_ani_send">
   <div class="news_area">
    <div class="news_info">
     <div class="api_save_group _keep_wrap">
      <a aria-pressed="false" class="btn_save _keep_trigger" data-url="http://www.kihoilbo.co.kr/news/articleView.html?idxno=1028448" href="#" onclick="tCR('a=nws*b.kep&amp;r=1&amp;i=8811BF05_000000000000000000460335&amp;u=javascript'); return false;" role="button">
       <i class="spnew ico_save">
        문서 저장하기
       </i>
      </a>
      <div class="api_ly_save _keep_save_layer">
       <a class="spnew_af item item_save _keep_save" data-cr-off="a=nws*b.kepoff&amp;r=1&amp;i=8811BF05_000000000000000000460335&amp;u=javascript" data-cr-on="a=nws*b.kepon&amp;r=1&amp;i=8811BF05_000000000000000000460335&amp;u=javascript" href="#" role="button">
        Keep에 저장
       </a>
       <a class="spnew_af item item_quick" href="https://keep.naver.com/" onclick="return goOtherCR(this,'a=nws*b.kephome&amp;r

In [None]:
import requests
from pandas import DataFrame
from bs4 import BeautifulSoup
import re
from datetime import datetime
import os

date = str(datetime.now())
date = date[:date.rfind(':')].replace(' ', '_')
date = date.replace(':','시') + '분'

query = input('검색 키워드를 입력하세요 : ')
news_num = int(input('총 필요한 뉴스기사 수를 입력해주세요(숫자만 입력) : '))
query = query.replace(' ', '+') # 검색 키워드 공백 처리

news_url = 'https://search.naver.com/search.naver?where=news&sm=tab_jum&query={}'

req = requests.get(news_url.format(query)) # format() 메서드를 사용하여 {} 부분을 query 변수로 대체
soup = BeautifulSoup(req.text, 'html.parser')


news_dict = {}
idx = 0
cur_page = 1

print()
print('크롤링 중...')

while idx < news_num:
### 네이버 뉴스 웹페이지 구성이 바뀌어 태그명, class 속성 값 등을 수정###

    table = soup.find('ul',{'class' : 'list_news'})
    li_list = table.find_all('li', {'id': re.compile('sp_nws.*')})
    area_list = [li.find('div', {'class' : 'news_area'}) for li in li_list]
    a_list = [area.find('a', {'class' : 'news_tit'}) for area in area_list]

    for n in a_list[:min(len(a_list), news_num-idx)]:
        news_dict[idx] = {'title' : n.get('title'),
                          'url' : n.get('href') }
        idx += 1

    cur_page += 1

pages = soup.find('div', {'class' : 'sc_page_inner'})
next_page_url = [p for p in pages.find_all('a') if p.text == str(cur_page)][0].get('href')

req = requests.get('https://search.naver.com/search.naver' + next_page_url)
soup = BeautifulSoup(req.text, 'html.parser')

print('크롤링 완료')

print('데이터프레임 변환')
news_df = DataFrame(news_dict).T

news_df
# folder_path = os.getcwd()
# xlsx_file_name = '네이버뉴스_{}_{}.xlsx'.format(query, date)

# news_df.to_excel(xlsx_file_name)

# print('엑셀 저장 완료 | 경로 : {}\\{}'.format(folder_path, xlsx_file_name))
# os.startfile(folder_path)

검색 키워드를 입력하세요 : chatgpt
총 필요한 뉴스기사 수를 입력해주세요(숫자만 입력) : 10

크롤링 중...
크롤링 완료
데이터프레임 변환


Unnamed: 0,title,url
0,"화성시, ChatGPT 활용연구 TF 출범",http://www.kihoilbo.co.kr/news/articleView.htm...
1,경기도의회 'ChatGPT의 현재와 미래' 특강 실시,http://www.newspim.com/news/view/20230430000069
2,"대구 동구청&중구청, 챗(Chat) GPT를 활용한 행정혁신 강연 개최",https://www.idaegu.co.kr/news/articleView.html...
3,챗GPT와 함께 소설 쓰기 과정은 이랬다,http://www.mediatoday.co.kr/news/articleView.h...
4,"화성시, ChatGPT 활용연구 TF팀 출범",https://www.dailian.co.kr/news/view/1228765/?s...
5,"DX포럼, ‘ChatGPT 활용 사례로 보는 인공지능과 데이터의 미래’",http://www.newsis.com/view/?id=NISX20230427_00...
6,Italy ChatGPT,https://n.news.naver.com/mnews/article/077/000...
7,"카톡 챗GPT '아숙업' 만든 업스테이지, 활용 비법 알려준다",https://www.news1.kr/articles/5029548
8,"‘○○GPT’ 명칭 함부로 못쓴다… 개발사, 상표권 출원",https://www.donga.com/news/Economy/article/all...
9,"대구 동구, 챗GPT 활용 행정혁신 추진",http://www.kbsm.net/news/view.php?idx=389951
