## 크롤링(웹 크롤링)
크롤링이란
- 인터넷 상의 웹 페이지 데이터를 자동으로 수집하는 과정.
- 웹 크롤링은 일반적으로 웹 스크래핑과 연관되며, 둘은 종종 혼용되지만 조금 다른 개념. 웹 크롤링은 웹 페이지를 탐색하고 데이터를 수집하는 반면, 웹 스크래핑은 그 페이지에서 특정 정보를 추출하는 데 중점을 둔다.
- 크롤링은 스크래핑을 포함할 수 있다. 크롤링 과정에서 각 페이지를 방문할 때, 스크래핑을 통해 필요한 데이터를 추출할 수 있다.

웹 크롤링에 사용되는 도구
- BeautifulSoup: Python 라이브러리로, HTML 및 XML 문서를 구문 분석하고 데이터를 추출하는 데 사용.

- Scrapy: 웹 크롤링을 위한 Python 프레임워크로, 효율적이고 확장성이 높은 크롤러를 쉽게 만들 수 있다.

- Selenium: 웹 브라우저 자동화 도구로, JavaScript가 동적으로 로드되는 페이지를 크롤링할 때 유용.

- Requests: Python의 HTTP 라이브러리로, 웹 페이지 요청을 쉽게 할 수 있다.

웹 크롤링의 기본 과정
- 크롤러 설정: 크롤러는 특정 웹 페이지를 시작점으로 설정. 이를 '시드(seed)'라고 부르며, 크롤러는 이 시드 URL에서 시작해 다른 페이지로 이동.

- 페이지 요청: 크롤러는 HTTP 요청을 보내 웹 페이지를 요청. 이 과정에서 크롤러는 브라우저처럼 행동하여 웹 서버에서 페이지를 가져온다.

- 데이터 추출: 웹 페이지가 응답되면, 크롤러는 페이지의 HTML을 분석하고 필요한 데이터를 추출. 이 과정에는 BeautifulSoup, Selenium 같은 라이브러리가 사용될 수 있다.

- 링크 추출 및 큐잉: 크롤러는 현재 페이지에서 다른 페이지로 연결되는 링크를 추출하고, 이 링크들을 큐(queue)에 추가하여 다음 크롤링 대상으로 삼는다.

- 반복: 이 과정은 정해진 규칙이나 종료 조건이 충족될 때까지 반복. 예를 들어, 특정 수의 페이지를 크롤링하거나, 주어진 도메인 내에서만 크롤링하도록 설정할 수 있다.

웹 크롤링의 주의사항

- 로봇 배제 표준(robots.txt): 많은 웹사이트는 robots.txt 파일을 통해 크롤러가 접근 가능한 부분과 접근을 제한하는 부분을 명시. 크롤러는 이 규칙을 준수해야 한다.

- 저작권 및 법적 이슈: 모든 웹사이트의 콘텐츠는 저작권의 보호를 받는다. 따라서 크롤링을 통해 수집한 데이터를 어떻게 사용할지에 대한 법적 문제를 주의해야 한다.

- 서버 부하: 지나친 크롤링은 웹 서버에 부하를 줄 수 있다. 크롤링 시에는 서버의 부담을 줄이기 위해 요청 간의 딜레이를 설정하는 것이 좋다.

#### BeautifulSoup
- BeautifulSoup은 HTML이나 XML 문서를 파싱하고, 파싱한 데이터에서 원하는 요소를 검색하고 추출하는 데 매우 유용한 도구입니다. 
- BeautifulSoup에서 객체를 찾는 주요 방법에는 find, find_all, select_one, select, find_parent, find_next_sibling, find_previous_sibling 등이 있습니다.

검색 방식
- find, find_all: 태그 이름과 속성을 사용하여 요소를 검색합니다.
- select_one, select: CSS 선택자를 사용하여 요소를 검색합니다.

반환 결과:
- find: 첫 번째로 일치하는 요소를 반환합니다.
- find_all: 모든 일치하는 요소를 리스트로 반환합니다.
- select_one: 첫 번째로 일치하는 요소를 반환합니다.
- select: 모든 일치하는 요소를 리스트로 반환합니다.

표현력:
- select_one, select: 더 복잡하고 정교한 선택 조건을 지정할 수 있습니다. 예를 들어, CSS 선택자 문법을 사용하여 클래스, ID, 속성 등을 조합한 검색이 가능합니다.
- find, find_all: 단순한 태그 이름과 속성 조건에 기반한 검색이 주로 사용됩니다.


html.parser vs. lxml
- 파이썬에서 HTML 및 XML 문서를 파싱(parsing)하는 라이브러리
- html.parser는 HTML 문서를 파싱하는 데에 적합한 파서. 파이썬의 기본 라이브러리로 제공되며 파이썬 내부적으로 구현되어 있으며, 외부 종속성이 없으므로 파이썬과 함께 설치되는 패키지만 사용할 수 있습니다.
- lxml은 C 언어로 작성된 파이썬 외부 라이브러리로서 HTML 및 XML 문서를 파싱하는 데에 적합하며, 파서 성능이 매우 우수합니다.
- HTML 문서를 파싱하는 경우에는 html.parser를 사용하는 것이 간단하고 편리하며, 대부분의 경우에는 충분한 성능을 제공합니다. 그러나 대용량의 XML 문서나 매우 복잡한 HTML 문서를 파싱해야 하는 경우에는 lxml을 사용하는 것이 더 효율적입니다.

In [3]:
from bs4 import BeautifulSoup

html_contents='<html><body><h1>Title</h1><p class="content">First paragraph.</p><p class="content">Second paragraph.</p></body></html>'
soup=BeautifulSoup(html_contents,'html.parser')
print(soup.prettify())

<html>
 <body>
  <h1>
   Title
  </h1>
  <p class="content">
   First paragraph.
  </p>
  <p class="content">
   Second paragraph.
  </p>
 </body>
</html>



크롤링 시 헤더를 포함하면 성공적으로 데이터를 가져올 가능성을 높여준다.

headers : HTTP 요청에 포함되는 메타데이터
- User-Agent: 클라이언트 애플리케이션(브라우저 등)을 나타냅니다.
- Accept: 서버가 어떤 콘텐츠 타입을 반환해야 하는지 지정합니다.
- Accept-Language: 클라이언트가 선호하는 언어를 지정합니다.
- Referer: 요청이 발생한 이전 페이지의 URL을 지정합니다.
- Host: 요청을 보내는 서버의 호스트 이름을 지정합니다.
- Connection: 서버와 클라이언트 간의 연결 유형을 지정합니다.

In [8]:
import requests
from bs4 import BeautifulSoup 

## 예시 네이버 뉴스 페이지 URL
url='https://news.naver.com'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
    'Accept-Language': 'en-US,en;q=0.9',
    'Referer': 'http://example.com'
}
response=requests.get(url, headers=headers)
#response=requests.get(url)
response

<Response [200]>

response.content:
- response.content는 서버에서 반환된 응답을 바이트(byte) 문자열로 제공합니다.
- 주로 이미지, 파일 다운로드와 같은 바이너리 데이터를 다룰 때 사용됩니다.
- 인코딩과 상관없이 원본 그대로의 데이터를 가져오기 때문에, HTML 파싱을 할 때는 별도로 인코딩을 지정하지 않으면 기본 인코딩을 사용합니다.

response.text:
- response.text는 서버에서 반환된 응답을 유니코드 문자열로 제공합니다.
- requests 라이브러리는 response.text를 반환할 때, response.encoding에 지정된 인코딩을 사용하여 바이트 데이터를 유니코드 문자열로 디코딩합니다.
- 일반적인 텍스트 데이터, HTML, JSON 등의 처리를 할 때 유용합니다.

In [13]:
## response content vs. text
response.content

b'\n<!doctype html>\n<html lang="ko">\n\t<head>\n\t\t<title id="browserTitleArea">\xeb\x84\xa4\xec\x9d\xb4\xeb\xb2\x84 \xeb\x89\xb4\xec\x8a\xa4</title>\n\t\t\n\n\n<script>\n\tfunction isMobileDevice() {\n\t\treturn /^.*(iPhone|iPod|iPad|Android).*/.test(navigator.userAgent);\n\t}\n</script>\n<script>\n\t(function () {\n\t\ttry {\n\t\t\tif (isMobileDevice() && isAbleApplyPrefersColorScheme()) {\n\t\t\t\t\n\t\t\t\tdocument.querySelector("html").classList.add("DARK_THEME");\n\t\t\t}\n\t\t} catch(e) {}\n\n\t\tfunction isAbleApplyPrefersColorScheme() {\n\t\t\t\n\t\t\tif (window.matchMedia("(prefers-color-scheme)").matches === false) {\n\t\t\t\treturn false;\n\t\t\t}\n\n\t\t\tvar userAgent = navigator.userAgent;\n\n\t\t\tif (userAgent.indexOf("NAVER") > -1) {\n\t\t\t\t\n\t\t\t\tif (/.*NAVER\\([a-zA-Z]*;\\s[a-zA-Z]*;\\s([0-9]*);/.test(userAgent)) {\n\t\t\t\t\treturn Number(RegExp.$1) >= 1000;\n\t\t\t\t}\n\t\t\t} else {\n\t\t\t\t\n\t\t\t\treturn document.cookie.indexOf("NSCS=1") > -1;\n\t\t\t}

In [14]:
response.text

'\n<!doctype html>\n<html lang="ko">\n\t<head>\n\t\t<title id="browserTitleArea">네이버 뉴스</title>\n\t\t\n\n\n<script>\n\tfunction isMobileDevice() {\n\t\treturn /^.*(iPhone|iPod|iPad|Android).*/.test(navigator.userAgent);\n\t}\n</script>\n<script>\n\t(function () {\n\t\ttry {\n\t\t\tif (isMobileDevice() && isAbleApplyPrefersColorScheme()) {\n\t\t\t\t\n\t\t\t\tdocument.querySelector("html").classList.add("DARK_THEME");\n\t\t\t}\n\t\t} catch(e) {}\n\n\t\tfunction isAbleApplyPrefersColorScheme() {\n\t\t\t\n\t\t\tif (window.matchMedia("(prefers-color-scheme)").matches === false) {\n\t\t\t\treturn false;\n\t\t\t}\n\n\t\t\tvar userAgent = navigator.userAgent;\n\n\t\t\tif (userAgent.indexOf("NAVER") > -1) {\n\t\t\t\t\n\t\t\t\tif (/.*NAVER\\([a-zA-Z]*;\\s[a-zA-Z]*;\\s([0-9]*);/.test(userAgent)) {\n\t\t\t\t\treturn Number(RegExp.$1) >= 1000;\n\t\t\t\t}\n\t\t\t} else {\n\t\t\t\t\n\t\t\t\treturn document.cookie.indexOf("NSCS=1") > -1;\n\t\t\t}\n\n\t\t\treturn false;\n\t\t}\n\t})();\n</script>\n\n\t

In [21]:
import requests
from bs4 import BeautifulSoup 

## 예시 네이버 뉴스 페이지 URL
url='https://news.naver.com'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
    'Accept-Language': 'en-US,en;q=0.9',
    'Referer': 'http://example.com'
}
response=requests.get(url, headers=headers)

soup=BeautifulSoup(response.text, 'html.parser')
print(soup.prettify())

<!DOCTYPE html>
<html lang="ko">
 <head>
  <title id="browserTitleArea">
   네이버 뉴스
  </title>
  <script>
   function isMobileDevice() {
		return /^.*(iPhone|iPod|iPad|Android).*/.test(navigator.userAgent);
	}
  </script>
  <script>
   (function () {
		try {
			if (isMobileDevice() && isAbleApplyPrefersColorScheme()) {
				
				document.querySelector("html").classList.add("DARK_THEME");
			}
		} catch(e) {}

		function isAbleApplyPrefersColorScheme() {
			
			if (window.matchMedia("(prefers-color-scheme)").matches === false) {
				return false;
			}

			var userAgent = navigator.userAgent;

			if (userAgent.indexOf("NAVER") > -1) {
				
				if (/.*NAVER\([a-zA-Z]*;\s[a-zA-Z]*;\s([0-9]*);/.test(userAgent)) {
					return Number(RegExp.$1) >= 1000;
				}
			} else {
				
				return document.cookie.indexOf("NSCS=1") > -1;
			}

			return false;
		}
	})();
  </script>
  <script>
   var g_ssc = 'news.v3_media' || null;
  </script>
  <meta charset="utf-8"/>
  <meta content="width=device-width,

In [24]:
### 네이버 뉴스 찾기
## title 태그만으로 찾기
news_titles=soup.find('title')
news_titles.text
news_titles.get_text()
news_titles.string


'네이버 뉴스'

In [30]:
tag1=soup.select('#browserTitleArea')
print(tag1[0].text.strip())             # select에서는 .text나 .get_text()가 안된다

네이버 뉴스


In [31]:
### 네이버 뉴스에서 언론사별 ... 카테고리 출력
cats=soup.find_all(class_='Nitem_link_menu')
for idx,cat in enumerate(cats):
    print(f"{idx+1}: {cat.get_text().strip()}")

1: 언론사별
2: 정치
3: 경제
4: 사회
5: 생활/문화
6: IT/과학
7: 세계
8: 랭킹
9: 신문보기
10: 오피니언
11: TV
12: 팩트체크
13: 알고리즘 안내
14: 정정보도 모음


string vs. get_text() vs. text
- BeautifulSoup 객체에서 text 속성, get_text() 메서드, string 속성은 모두 HTML 또는 XML 문서에서 텍스트 데이터를 추출하는 데 사용
- text 속성은 해당 태그에서 모든 텍스트 데이터를 가져오며,
- get_text() 메서드도 동일한 결과를 반환합니다.
- string 속성은 해당 태그에서 첫 번째로 발견된 문자열 데이터만 가져옵니다.

| Method      | 특징                                                                               | 사용 사례                                      |
|-------------|----------------------------------------------------------------------------------|-----------------------------------------------|
| `string`    | 자식 텍스트 노드가 하나인 경우에만 해당 텍스트 반환, 여러 노드가 있으면 `None` 반환                | 단일 텍스트 노드만 있는 요소의 텍스트를 추출할 때      |
| `get_text()`| 요소 및 모든 하위 요소의 텍스트를 모두 포함하여 문자열로 반환, `separator` 및 `strip` 옵션 사용 가능 | 요소 내 모든 텍스트를 추출하고, 구분자 및 공백 처리가 필요한 경우 |
| `text`      | 요소 및 모든 하위 요소의 텍스트를 모두 포함하여 문자열로 반환, 추가 매개변수 없음                  | 요소 내 모든 텍스트를 단순하게 추출할 때                   |

string
- 정의: string 속성은 BeautifulSoup 객체의 자식 노드 중 하나의 텍스트 노드만 반환. 해당 요소의 직접적인 텍스트 콘텐츠가 하나일 때만 유용.
- 특징:
요소가 하나의 자식 텍스트 노드를 가지고 있는 경우에만 그 텍스트를 반환.
여러 자식 요소가 있거나 텍스트 노드가 여러 개 있는 경우 None을 반환.

get_text()
- 정의: get_text() 메서드는 요소 및 모든 하위 요소의 텍스트를 모두 추출하여 하나의 문자열로 반환.
- 특징:
요소 내의 모든 텍스트를 포함하여 반환.
기본적으로 하위 요소 사이에 공백을 추가하지만, separator 매개변수를 사용하여 구분자를 지정할 수 있다.
strip=True 옵션을 사용하여 앞뒤 공백을 제거할 수 있다.

text
- 정의: text 속성은 요소 및 모든 하위 요소의 텍스트를 모두 포함하는 문자열을 반환. get_text() 메서드와 동일한 기능을 한다.
- 특징:
get_text()와 거의 동일한 결과를 제공.
get_text()와 다르게 추가 매개변수(separator, strip)를 사용할 수 없다.

In [9]:

import requests
from bs4 import BeautifulSoup 

html = """
<div class="example">
    Single text node
</div>
<div class="example">
    <p>Multiple</p> text <span>nodes</span>
</div>
"""

soup=BeautifulSoup(html, 'html.parser')
single_text_node=soup.find('div', class_='example').string
multiple=soup.find_all('div', class_='example')

multiple_text_nodes=soup.find_all('div', class_='example')[1].string

print(single_text_node)
print(multiple,'\n\n\n')
print(multiple_text_nodes)          ## None 값 반환


    Single text node

[<div class="example">
    Single text node
</div>, <div class="example">
<p>Multiple</p> text <span>nodes</span>
</div>] 



None


In [8]:
### string ==> get_text()
soup=BeautifulSoup(html, 'html.parser')
single_text_node=soup.find('div', class_='example').get_text(strip=True)
multiple=soup.find_all('div', class_='example')

multiple_text_nodes=soup.find_all('div', class_='example')[1].get_text(strip=True)

print(single_text_node)
print(multiple_text_nodes)

Single text node
Multipletextnodes


In [10]:
### w/ separator
soup=BeautifulSoup(html, 'html.parser')
single_text_node=soup.find('div', class_='example').get_text(strip=True)
multiple=soup.find_all('div', class_='example')

multiple_text_nodes=soup.find_all('div', class_='example')[1].get_text(separator=' | ', strip=True)

print(single_text_node)
print(multiple_text_nodes)

Single text node
Multiple | text | nodes


In [11]:
### ==> text: multiple node는 사용가능하지만 option은 사용 불가
soup=BeautifulSoup(html, 'html.parser')
single_text_node=soup.find('div', class_='example').text
multiple=soup.find_all('div', class_='example')

multiple_text_nodes=soup.find_all('div', class_='example')[1].text

print(single_text_node)
print(multiple_text_nodes)


    Single text node


Multiple text nodes



정규표현식을 이용한 크롤링 방법 

HTML 가져오기:
- requests 라이브러리를 사용하여 웹 페이지의 HTML을 가져옵니다.
HTML 파싱:
- BeautifulSoup을 사용하여 HTML 문서를 파싱합니다.
정규표현식 사용:
- re 모듈을 사용하여 특정 패턴을 가진 텍스트를 추출합니다.

In [12]:
import requests
from bs4 import BeautifulSoup 
import re

html = """
<ul>
<li>Email:example@example.com</li>
<li>Contact:contact@sample.org</li>
</ul>
"""

## 이메일 주소 추출
email_pattern = r'[a-zA-z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+'
emails=re.findall(email_pattern,html)
print(emails)

['example@example.com', 'contact@sample.org']


In [37]:
import requests
from bs4 import BeautifulSoup 
import re

html = '''
<html>
<body>
<div>
Hello,world!
</div>
<div>
<p>
Hello,<b>world!</b>
</p>
</div>
</body>
</html>
'''

soup=BeautifulSoup(html,'html.parser')
bs=soup.body.text

texts=re.findall('[^\s]+', bs)
for t in texts:
    print(t)

#print(bs)
new_bs=re.sub("\s+", " ", bs)
#new_bs=re.sub("\n\n", "", bs)
print(new_bs.strip())


Hello,world!
Hello,world!
Hello,world! Hello,world!


In [47]:
html = '''
<html>
<head>
<title>Sample Page</title>
</head>
<body>
<div>
Hello, world! 123
</div>
<div>
<p>
456 Hello, <b>789 world!</b> Visit us at <a href="http://example.com">example.com</a>
</p>
</div>
<footer>
Contact us at <a href="mailto:info@example.com">info@example.com</a>
</footer>
</body>
</html>
'''

In [83]:
### Q. 주어진 html에서 아래 사항을 수행
# 모든 단어 추출
# 이메일 주소 추출
# URL 주소
# 숫자 추출
# HTML 태크 내 텍스트 추출

# 1. 모든 단어 추출
print("1. 모든 단어 추출")
soup=BeautifulSoup(html,'html.parser')
words=re.findall(r'\b\w+\b',soup.text)
words_list=''
for i in words:
    words_list += i
    words_list += ' '
print(words_list)

# 2. 이메일 주소 추출
email_pattern = r'[a-zA-z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+'
emails=re.findall(email_pattern,html)
print("\n2. 이메일 주소 추출")
for email in emails:
    print(email)

# 3. URL 주소 http://example.com
print("\n3. URL 주소 추출")
url_pattern = r'https?://[^\s<>"]+|www\.[^\s<>"]+'
#url_pattern = r'https?:\/\/[^\s/$.?#].[^\s]*'
urls = re.findall(url_pattern, html)
print(urls)

# 4. 숫자 추출
print("\n4. 숫자 추출")
num_pattern = r'\b\d+\b'
nums=re.findall(num_pattern,html)
num_list=''
for num in nums:
    num_list += num
    num_list += ' '
print(num_list)

# 5. HTML 태크 내 텍스트 추출
print("\n5. 텍스트 추출")
soup=BeautifulSoup(html,'html.parser')
bs=soup.body.text

new_bs=re.sub("\s+", " ", bs)
print(new_bs.strip())

## 강사님
print("\n강사님 5. 텍스트 추출")
tag_texts=re.findall(r'>([^<]+)<',html)
text_lists=' '.join(text.strip() for text in tag_texts)
text_lists=re.sub(r'\s+', ' ', text_lists)
print(text_lists.strip())


1. 모든 단어 추출
Sample Page Hello world 123 456 Hello 789 world Visit us at example com Contact us at info example com 

2. 이메일 주소 추출
info@example.com
info@example.com

3. URL 주소 추출
['http://example.com']

4. 숫자 추출
123 456 789 

5. 텍스트 추출
Hello, world! 123 456 Hello, 789 world! Visit us at example.com Contact us at info@example.com

강사님 5. 텍스트 추출
Sample Page Hello, world! 123 456 Hello, 789 world! Visit us at example.com Contact us at info@example.com


In [86]:
import requests
from bs4 import BeautifulSoup 
import re

html = """
<ul>
  <li><a href="hoge.html">hoge</li>
  <li><a href="https://example.com/fuga">fuga*</li>
  <li><a href="https://example.com/foo">foo*</li>
  <li><a href="http://example.com/aaa">aaa</li>
</ul>
"""

soup=BeautifulSoup(html,'html.parser')
li=soup.find_all(href=re.compile(r"^https://"))
print(li)
for e in li:print(e.attrs['href'])

[<a href="https://example.com/fuga">fuga*</a>, <a href="https://example.com/foo">foo*</a>]
https://example.com/fuga
https://example.com/foo


In [91]:
from bs4 import BeautifulSoup
import requests
url='https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100'
response=requests.get(url)
html=response.text
bs=BeautifulSoup(html,'html.parser')
print(bs)

<!DOCTYPE html>

<html data-useragent="python-requests/2.32.3" lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta contents="always" name="referrer"/>
<meta content="600" http-equiv="refresh"/>
<meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0, user-scalable=no" name="viewport">
<meta content="정치 : 네이버 뉴스" property="og:title"/>
<meta content="website" property="og:type"/>
<meta content="https://news.naver.com/section/100" property="og:url"/>
<meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800x420_20221201.png" property="og:image"/>
<meta content="국회, 행정, 국방, 외교 등 정치 분야 뉴스 제공" property="og:description"/>
<meta content="네이버" property="og:article:author"/>
<meta content="summary" name="twitter:card"/>
<meta content="정치 : 네이버 뉴스" name="twitter:title"/>
<meta content="네이버 뉴스" name="twitter:site"/>
<meta content="네이버 뉴스" name="twitter:creator"/>
<meta content="https://ssl

In [104]:
import urllib.request as rq
url='https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100'
html=rq.urlopen(url)
bs=BeautifulSoup(html,'html.parser')
print(bs)

<!DOCTYPE html>

<html data-useragent="Python-urllib/3.10" lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta contents="always" name="referrer"/>
<meta content="600" http-equiv="refresh"/>
<meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0, user-scalable=no" name="viewport">
<meta content="정치 : 네이버 뉴스" property="og:title"/>
<meta content="website" property="og:type"/>
<meta content="https://news.naver.com/section/100" property="og:url"/>
<meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800x420_20221201.png" property="og:image"/>
<meta content="국회, 행정, 국방, 외교 등 정치 분야 뉴스 제공" property="og:description"/>
<meta content="네이버" property="og:article:author"/>
<meta content="summary" name="twitter:card"/>
<meta content="정치 : 네이버 뉴스" name="twitter:title"/>
<meta content="네이버 뉴스" name="twitter:site"/>
<meta content="네이버 뉴스" name="twitter:creator"/>
<meta content="https://ssl.pst

In [92]:
text1=bs.find('p')
print(text1)

<p class="sa_head_layer_p">각 헤드라인의 기사와 배열 순서는 개인화를 반영해 자동 추천되어 제공됩니다. 기사 수량이 표기된 기사 우측 하단의 파란색 아이콘을 클릭하면 기사묶음을 확인할 수 있고 기사묶음과 기사묶음 타이틀도 기사 내용을 기반으로 <strong>자동 추출</strong>됩니다.</p>


In [105]:
texts=bs.find_all('p')
for texti in texts:
    print(texti.text)

각 헤드라인의 기사와 배열 순서는 개인화를 반영해 자동 추천되어 제공됩니다. 기사 수량이 표기된 기사 우측 하단의 파란색 아이콘을 클릭하면 기사묶음을 확인할 수 있고 기사묶음과 기사묶음 타이틀도 기사 내용을 기반으로 자동 추출됩니다.
AiRS 추천으로 구성된 뉴스를 제공합니다.
각 언론사의 가장 많이 본 기사 1건을 제공합니다.
'김건희 논문 검증' 학생들 몰표‥'숙대'의 선택은
“미용실 몇 시까지 해요?” 묻던 남성, 등 뒤에 흉기가…[영상]
“한달에 3천만원 저축, 연봉 5~6억”…악착같이 모은다는 무명개그맨의 정체
슬기로운 에어컨 사용법? "구형 2시간마다 OFF·신형 연속운전"
“목욕탕서 집단 성관계·마약을”…北청소년들 ‘남녀칠세부동석’ 발칵
또 터진 불량 공모주 사태…이노그리드, 사상 첫 상장승인 취소
“자식 돈에 어디 숟가락”…박세리 논란에 소환된 손웅정
"유명 식당서 훠궈 먹자 혀 까매져"..中, 끝없는 식품위생 논란
“비상 깜빡이 켰는데”…고속도로서 후진한 여성의 최후 [잇슈 키워드]
“아빠의 신부” 어린딸 드레스 입히더니…수상한 ‘웨딩사진’에 日 경악
"외계인이 만든 듯"…돌연 사막에 솟아난 '거울기둥' 미스터리
백종원·김어준·임영웅의 '굴욕'…'이 여자'한테 다 밀렸다…한국인 최애 유튜버는 누구?
[단독] 에코프로비엠, 3조원대 투자 유치 추진… FI 물밑 접촉
조국 "이재명, 대통령 되면 재판정지? 한동훈 헌법해석 엉터리"
北 남녀 고교생 6명, 목욕탕 빌려 집단 성관계에 마약까지
“비둘기, 멧돼지, 다람쥐 여러분…피임하세요” 과학자들 피임약 뿌려 개체수 조절 시험중
국제마약조직의 ‘배달사고’…110만명분 코카인, 부산항으로 오배달
[속보]尹 "경주에 3천억 규모 SMR 국가산단…영일만 횡단고속도로 건설"
"2억이 금세 3억 됐어요"…은퇴 고민하던 김부장 신났다 [일확연금 노후부자]
현빈이 입은 '이 옷' 해외서도 난리…주가 58% 뛰었는데 "더 뛴다"
임현택 의협회장 경찰 출석…"전공의가 죄 없다는 것 전 국민이 아는 내용"
"짝까지 바꿔

In [98]:
p_head=bs.find('p', class_='sa_head_layer_p')
print(p_head)
text2=bs.find('p').string
print(text2)

<p class="sa_head_layer_p">각 헤드라인의 기사와 배열 순서는 개인화를 반영해 자동 추천되어 제공됩니다. 기사 수량이 표기된 기사 우측 하단의 파란색 아이콘을 클릭하면 기사묶음을 확인할 수 있고 기사묶음과 기사묶음 타이틀도 기사 내용을 기반으로 <strong>자동 추출</strong>됩니다.</p>
None


In [99]:
print(bs.find('title'))

<title>정치 : 네이버 뉴스</title>


In [100]:
print(bs.find('title').string)

정치 : 네이버 뉴스


In [101]:
print(bs.find('p').string)
print(bs.find('p').get_text())

None
각 헤드라인의 기사와 배열 순서는 개인화를 반영해 자동 추천되어 제공됩니다. 기사 수량이 표기된 기사 우측 하단의 파란색 아이콘을 클릭하면 기사묶음을 확인할 수 있고 기사묶음과 기사묶음 타이틀도 기사 내용을 기반으로 자동 추출됩니다.


인코딩 에러를 해결

- chardet는 "Universal Character Encoding Detector"로, 다양한 인코딩을 감지할 수 있는 파이썬 패키지
- chardet.detect(response.content)['encoding']은 response.content의 인코딩 방식을 자동으로 감지하여 반환하며
 이 값을 encoding 변수에 저장한 후, response.content를 이 encoding 방식으로 디코딩하여 html 변수에 저장하고 출력

In [106]:
!pip install chardet

Collecting chardet
  Downloading chardet-5.2.0-py3-none-any.whl.metadata (3.4 kB)
Downloading chardet-5.2.0-py3-none-any.whl (199 kB)
   ---------------------------------------- 0.0/199.4 kB ? eta -:--:--
   --------------------------------------- 199.4/199.4 kB 11.8 MB/s eta 0:00:00
Installing collected packages: chardet
Successfully installed chardet-5.2.0


In [114]:
import requests
import chardet

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
    'Accept-Language': 'en-US,en;q=0.9',
    'Referer': 'http://example.com'
}

url='https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100'

response=requests.get(url, headers=headers)
if response.status_code==200:
    encoding=chardet.detect(response.content)['encoding']
    #print(response.text)
    print(encoding)
else:
    print("HTTP request failed")


utf-8


In [118]:
# 한글만 출력
texts=response.text
result=re.findall('[가-힣]+', texts)
print(' '.join(result))


정치 네이버 뉴스 국회 행정 국방 외교 등 정치 분야 뉴스 제공 네이버 정치 네이버 뉴스 네이버 뉴스 네이버 뉴스 국회 행정 국방 외교 등 정치 분야 뉴스 제공 정치 네이버 뉴스 로그 전송 최대치 도달 본문 바로가기 뉴스 연예 스포츠 날씨 프리미엄 검색 언론사별 정치 경제 사회 생활 문화 과학 세계 랭킹 신문보기 오피니언 팩트체크 알고리즘 안내 정정보도 모음 목 전체 언론사 뉴스스탠드 라이브러리 정치 대통령실 국회 정당 북한 행정 국방 외교 정치일반 뉴스 알고리즘 프리미엄콘텐츠 헤드라인 뉴스 안내 각 헤드라인의 기사와 배열 순서는 개인화를 반영해 자동 추천되어 제공됩니다 기사 수량이 표기된 기사 우측 하단의 파란색 아이콘을 클릭하면 기사묶음을 확인할 수 있고 기사묶음과 기사묶음 타이틀도 기사 내용을 기반으로 자동 추출 됩니다 알고리즘 자세히 보기 닫기 피고인 대통령 재판 놓고 충돌 신속한 재판 따른 확정판결이 답 피고인 대통령 재판 놓고 충돌 신속한 재판 따른 확정판결이 답 장영수의 헌법 조 의 해석 헌법 조 불소추특권에 재판 포함되나 문구에 충실한 해석 제정 의도에 충실한 해석 합리적 해결방안은 재판 지연 없이 대선 전 대법원 판결로 문화일보 개의 관련뉴스 더보기 루마니아 총리 자주포 도입 계기 협력 기대 국산화 관심 루마니아 총리 자주포 도입 계기 협력 기대 국산화 관심 신원식 장관과 마르첼 치올라쿠 루마니아 총리 루마니아를 방문 중인 신원식 국방부 장관이 일 현지시간 마르첼 치올라쿠 루마니아 총리를 예방했다고 국방부가 밝혔습니다 치올라쿠 총리는 루마니아의 한국산 자 개의 관련뉴스 더보기 민주당 아버지 이재명 조선중앙통신서나 할 말 민주당 아버지 이재명 조선중앙통신서나 할 말 국민의힘은 일 더불어민주당 최고위원들이 이재명 대표를 향해 민주당의 아버지 라는 표현을 사용한 데 대해 북한 조선중앙통신에서나 들을 수 있는 민주당의 아버지 를 운운하지 말고 전통의 민주당으로 돌아오라 고 이데일리 개의 관련뉴스 더보기 한동훈 이번 주말 당대표 출마 채비 한동훈 전 국

In [132]:
## inside out 제목 가져오기
import requests
import chardet

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
    'Accept-Language': 'en-US,en;q=0.9',
    'Referer': 'http://example.com'
}

url = "https://serieson.naver.com/v3/movie/ranking/realtime"

response=requests.get(url, headers=headers)
if response.status_code==200:
    encoding=chardet.detect(response.content)['encoding']
    soup = BeautifulSoup(response.text,'html.parser')  
else:
    print("HTTP request failed")
#print(soup.prettify())
#<span class="Title_title__s9o0D">인사이드 아웃(패키지상품 : 더빙판 + 부가영상 추가증정)</span>
#insideout=soup.select_one('img.Thumbnail_image__TxHd0')
#print(insideout['alt'])
insideout=soup.select_one('span.Title_title__s9o0D')
print(insideout.text)
print(re.split('\(',insideout.text)[0])

인사이드 아웃(패키지상품 : 더빙판 + 부가영상 추가증정)
인사이드 아웃


In [148]:
#1
titles=soup.select('span.Title_title__s9o0D')
for idx, title in enumerate(titles):
    print(f"{idx+1}: {title.text}")
    if idx==9: break
#2
print('\n')
title_list=[]
for idx, title in enumerate(titles):
    title_list.append(title.text)

for idx, title in enumerate(set(title_list)): 
    print(f"{idx+1}: {title}")
    if idx == 9: break
#3
print('\n')
titles=soup.select('span.Title_title__s9o0D')
for idx, title in enumerate(titles[:10]):
    print(f"{idx+1}: {title.text}")
    

1: 인사이드 아웃(패키지상품 : 더빙판 + 부가영상 추가증정)
2: 소울메이트
3: 밀애
4: 듄
5: 콰이어트 플레이스
6: 너의 이름은.
7: 명탐정 코난 VS 괴도 키드
8: 듄: 파트 2(부가영상 제공)
9: 파묘
10: 파묘


1: 가여운 것들(부가영상 제공)
2: 인사이드 아웃(패키지상품 : 더빙판 + 부가영상 추가증정)
3: 여름날 우리
4: 한산 리덕스
5: 듄
6: 물방울을 그리는 남자
7: 레드
8: 판도라
9: 동물, 원
10: 장사리 : 잊혀진 영웅들


1: 인사이드 아웃(패키지상품 : 더빙판 + 부가영상 추가증정)
2: 소울메이트
3: 밀애
4: 듄
5: 콰이어트 플레이스
6: 너의 이름은.
7: 명탐정 코난 VS 괴도 키드
8: 듄: 파트 2(부가영상 제공)
9: 파묘
10: 파묘


### CSS 선택자
- 원하는 정보만 선별하여 수집하고 싶을 때 css선택자를 활용할 수 있음
- (CSS 선택자 설명 추가)
- F12 >> 수집하고 싶은 부분 클릭 >> 태그 선택 >> copy Selector
- BeautifulSoup의 select_one, select 활용

In [188]:
## 정치면 기사 제목 가져오기
import requests
import chardet
import pandas as pd

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
    'Accept-Language': 'en-US,en;q=0.9',
    'Referer': 'http://example.com'
}

url = "https://news.daum.net/politics#1"

response=requests.get(url, headers=headers)
if response.status_code==200:
    encoding=chardet.detect(response.content)['encoding']
    soup = BeautifulSoup(response.text,'html.parser')  
else:
    print("HTTP request failed")

links=soup.select('a.link_txt')
print(links)
articles=[line.text.strip() for line in links]
df=pd.DataFrame({"Articles":articles})
#df=pd.DataFrame({"Articles":links})
df.head(len(df))

[<a class="link_txt" href="https://v.daum.net/v/20240620165011418">노봉법, 양곡법, 간호법..'거부권-폐기' 법안 속속 되살리는 野</a>, <a class="link_txt" href="https://v.daum.net/v/20240620164912365">노동약자 챙긴다더니…`미조직근로자` 저출생 대책은 없었다</a>, <a class="link_txt" href="https://v.daum.net/v/20240620164849352">[북러 회담] 조만간 비준 절차…중요조약이면 김정은이 비준 가능</a>, <a class="link_txt" href="https://v.daum.net/v/20240620164833339">"군사동맹 복원" "정치적 선물"…북러 '군사지원 조약'에 해석 분분</a>, <a class="link_txt" href="https://v.daum.net/v/20240620164744307">빨라지는 與 당권시계..한동훈·원희룡·윤상현 동시 출사표, 나경원은 막판 고심</a>, <a class="link_txt" href="https://v.daum.net/v/20240620164750308">전북도의회 후반기 민주당 의장 후보에 문승우 도의원</a>, <a class="link_txt" href="https://v.daum.net/v/20240620164649277">野 "7개 상임위원장도 후보 명단 있다"…'상임위 독식' 시동</a>, <a class="link_txt" href="https://v.daum.net/v/20240620164622261">여당 없이 열린 농해수위 '尹 거부했던 양곡법 개정안 상정' [TF사진관]</a>, <a class="link_txt" href="https://v.daum.net/v/20240620164645272">속리산둘레길 탐사대 "500리 국가숲길 함께 걸어요"</a>, <a class="link_txt" href="https://v.

Unnamed: 0,Articles
0,"노봉법, 양곡법, 간호법..'거부권-폐기' 법안 속속 되살리는 野"
1,노동약자 챙긴다더니…`미조직근로자` 저출생 대책은 없었다
2,[북러 회담] 조만간 비준 절차…중요조약이면 김정은이 비준 가능
3,"""군사동맹 복원"" ""정치적 선물""…북러 '군사지원 조약'에 해석 분분"
4,"빨라지는 與 당권시계..한동훈·원희룡·윤상현 동시 출사표, 나경원은 막판 고심"
5,전북도의회 후반기 민주당 의장 후보에 문승우 도의원
6,"野 ""7개 상임위원장도 후보 명단 있다""…'상임위 독식' 시동"
7,여당 없이 열린 농해수위 '尹 거부했던 양곡법 개정안 상정' [TF사진관]
8,"속리산둘레길 탐사대 ""500리 국가숲길 함께 걸어요"""
9,"민주당 김문수, '교사·공무원 정치적 기본권 보장 4법' 대표발의"


In [174]:
# body > div.container-doc.cont-category > main > section > div.main-sub > div.box_g.box_news_major > ul > li:nth-child(1) > strong > a
titles=soup.select('body > div > main > section > div > div > ul > li > div > div > strong > a')
for i, title in enumerate(titles, start=1):
    print(f"{i}. {title.get_text().strip()}")

1. 尹, 차관인사 단행… 환경 이병화·고용 김민석·특허청 김완기
2. [단독]민주, 국회청문회서 ‘동행명령’ 가능토록 법 개정안 발의
3. 박찬대 “尹, 야당을 궤멸할 적으로 여겨”
4. 저출생 대응에도 손 못잡은 여야... 민주, 정부 대책에 날선 비판
5. 이준석 1호 법안은 '반값 선거법'…"젊은 후보, 유권자들에 혜택"
6. 민주당 “팔수록 석유 대신 ‘카르텔’ 의혹···동해 바다가 동문회 장소냐”
7. 野, 채상병특검 청문회 불출석 증인 ‘무더기 고발’ 예고…“신원식·김계환만 사유서 제출”
8. 나경원 "근본 깨는 이재명, 대한민국 비명횡사..무조건 막아야, 곧 결심"
9. 박원석 "원희룡 출마? 용산 참전신호"...김근식 "결선투표 노린 듯"
10. 나경원 “당 대표는 대통령과의 갈등이 겉으로 드러나면 안 돼…차별화해 대권 가겠다는 건 미래 없어”
11. 최진녕 변호사 / 서용주 전 더불어민주당 상근부대변인 - 원 구성 놓고 여야 입장 차…대치 정국 심화
12. ③중산층까지 악영향? 금투세 쟁점과 필요한 결정은?
13. 위계충 권폭귀
14. 1년 전 나경원 막은 친윤, 이번엔 한동훈 대항마로 키운다?
15. “김경율 누가 데려왔나”… 與, 한동훈 둘러싸고 뜬금없는 공방


In [176]:
## 해당 title에서 F12/선택활성화/copy/copy.selector 로 가져오면 아래와 같음
# body > div.container-doc.cont-category > main > section > div.main-sub > div.box_g.box_news_major > ul > li:nth-child(1) > strong > a
titles=soup.select('body > div > main > section > div > div > ul > li > strong > a')
for i, title in enumerate(titles, start=1):
    print(f"{i}. {title.get_text().strip()}")

1. 행복청, 삼성이노베이션뮤지엄 등 찾아 1박2일 벤치마킹
2. “회의 전날 김건희 안건 긴급 추가 제보”···야3당, ‘건희권익위’ 대응 간담회
3. 이준석, '반값 선거법' 발의…"5%만 득표해도 절반 보전"
4. 정부 고위 관계자, 북러 조약에 "세상에 없을 시나리오에 대한 약속"
5. 원희룡, 당 대표 출마선언…'한·나·원' 3파전 예고
6. 육군 학사·간부사관 438명 임관…독립후손가 후손 등 눈길
7. 광양시의회 후반기 의장 선거 '복당파' 변수
8. [프로필] 김완기 특허청장…무역·통상 전문 정통 관료
9. [단독] 이스라엘, 레바논 공격 승인 후폭풍...동명부대 외부활동 금지령
10. [단독] 김 여사에 엿 300만원어치? 권익위 “직무 관련 없으면 가능”


개발자 도구상에서 정치기사 개수는 58개인데 반면에 select('.class')로 크롤링한 기사 개수는 38개인 이유:
- 많은 사이트는 JavaScript를 사용하여 콘텐츠를 동적으로 로딩하는 반면 requests + BS는 기본적으로 JavaScript를 실행하지 않기 때문에 일부 js로 로딩되는 컨텐츠는 크롤링되지 않는다.
- 페이지가 완전히 로드되기 전에 크롤링이 시도될 경우 일부 컨텐츠가 누락될 수 있음
- 웹 페이지가 비동기 요청(Ajax)를 사용하여 데이터를 가져오는 경우 이 요청을 수동으로 처리하지 않는 한 해당 데이터를 가져오지 못함.


In [184]:
titles=soup.select('body > div > main > section > div > div > ul > li > strong > a')
for i, tag in enumerate(titles, start=1):
    text=tag.get_text().strip().replace(',', '')
    matches = re.findall('[가-힣0-9]+',text)
    print(f"{i}, {' '.join(matches)}")

1, 정부 북러 안보리결의 위반 군사기술 협력 언급 유감
2, 한동훈 23일 당대표 출마 선언 용산과 기싸움 하지 않겠다
3, 단독 방북 대납 동기 없었다는 이재명 당시 적극적 정치 활동
4, 차관인사 단행 환경 이병화 고용 김민석 특허청 김완기
5, 단독 민주 국회청문회서 동행명령 가능토록 법 개정안 발의
6, 저출생 대응에도 손 못잡은 여야 민주 정부 대책에 날선 비판
7, 이준석 1호 법안은 반값 선거법 젊은 후보 유권자들에 혜택
8, 민주당 동해 바다가 동문회 장소냐 팔수록 석유 대신 카르텔 의혹
9, 행복청 삼성이노베이션뮤지엄 등 찾아 1박2일 벤치마킹
10, 권익위 회의 전날 김건희 안건 급히 추가 내부 제보


news_url.format(query): URL 문자열 내의 특정 부분을 query 변수의 값으로 대체
- news_url 변수에는 포맷 문자열 'https://news.example.com/search?query={}'가 저장
- news_url.format(query)는 포맷 문자열의 {} 부분을 query 변수의 값으로 대체
- 결과적으로, 포맷팅된 URL은 'https://news.example.com/search?query=politics'가 된다.

In [185]:
import requests
import chardet
import pandas as pd
import re
from datetime import datetime
import os



query=input('검색 키워드를 입력하세요: ')
query=query.replace(' ', '+')
print(query)

news_url='https://search.naver.com/search.naver?where=nexearch&sm=tab_jum&query={}'
req=requests.get(news_url.format(query))

html=req.text
soup=BeautifulSoup(html, 'html.parser')
links=soup.select('.news_tit')

for link in links:
    title=link.text
    url=link.attrs['href']
    print(title, '\n', url)


삼성전자
이걸로 전기료 낮췄다.. 삼성전자가 내놓은 야심작 
 http://www.edaily.co.kr/news/newspath.asp?newsid=02168086638923688
삼성전자, 보급형 스마트폰 ‘갤럭시 A35′ 내일 출시…49만9400원 
 https://biz.chosun.com/it-science/ict/2024/06/20/RGECIE7ZYZBZNLGZZG3C5RDJFA/?utm_source=naver&utm_medium=original&utm_campaign=biz
삼성전자, 보급폰 '갤럭시 A35 5G' 21일 국내 출시 
 https://www.moneys.co.kr/article/2024062008220012105
삼성전자 '비스포크 AI 하이브리드' 냉장고 관련 브리핑 
 https://www.yna.co.kr/view/PYH20240620069700013?input=1196m
