## 크롤링(웹 크롤링)
크롤링이란
- 인터넷 상의 웹 페이지 데이터를 자동으로 수집하는 과정.
- 웹 크롤링은 일반적으로 웹 스크래핑과 연관되며, 둘은 종종 혼용되지만 조금 다른 개념. 웹 크롤링은 웹 페이지를 탐색하고 데이터를 수집하는 반면, 웹 스크래핑은 그 페이지에서 특정 정보를 추출하는 데 중점을 둔다.
- 크롤링은 스크래핑을 포함할 수 있다. 크롤링 과정에서 각 페이지를 방문할 때, 스크래핑을 통해 필요한 데이터를 추출할 수 있다.

웹 크롤링에 사용되는 도구
- BeautifulSoup: Python 라이브러리로, HTML 및 XML 문서를 구문 분석하고 데이터를 추출하는 데 사용.

- Scrapy: 웹 크롤링을 위한 Python 프레임워크로, 효율적이고 확장성이 높은 크롤러를 쉽게 만들 수 있다.

- Selenium: 웹 브라우저 자동화 도구로, JavaScript가 동적으로 로드되는 페이지를 크롤링할 때 유용.

- Requests: Python의 HTTP 라이브러리로, 웹 페이지 요청을 쉽게 할 수 있다.

웹 크롤링의 기본 과정
- 크롤러 설정: 크롤러는 특정 웹 페이지를 시작점으로 설정. 이를 '시드(seed)'라고 부르며, 크롤러는 이 시드 URL에서 시작해 다른 페이지로 이동.

- 페이지 요청: 크롤러는 HTTP 요청을 보내 웹 페이지를 요청. 이 과정에서 크롤러는 브라우저처럼 행동하여 웹 서버에서 페이지를 가져온다.

- 데이터 추출: 웹 페이지가 응답되면, 크롤러는 페이지의 HTML을 분석하고 필요한 데이터를 추출. 이 과정에는 BeautifulSoup, Selenium 같은 라이브러리가 사용될 수 있다.

- 링크 추출 및 큐잉: 크롤러는 현재 페이지에서 다른 페이지로 연결되는 링크를 추출하고, 이 링크들을 큐(queue)에 추가하여 다음 크롤링 대상으로 삼는다.

- 반복: 이 과정은 정해진 규칙이나 종료 조건이 충족될 때까지 반복. 예를 들어, 특정 수의 페이지를 크롤링하거나, 주어진 도메인 내에서만 크롤링하도록 설정할 수 있다.

웹 크롤링의 주의사항

- 로봇 배제 표준(robots.txt): 많은 웹사이트는 robots.txt 파일을 통해 크롤러가 접근 가능한 부분과 접근을 제한하는 부분을 명시. 크롤러는 이 규칙을 준수해야 한다.

- 저작권 및 법적 이슈: 모든 웹사이트의 콘텐츠는 저작권의 보호를 받는다. 따라서 크롤링을 통해 수집한 데이터를 어떻게 사용할지에 대한 법적 문제를 주의해야 한다.

- 서버 부하: 지나친 크롤링은 웹 서버에 부하를 줄 수 있다. 크롤링 시에는 서버의 부담을 줄이기 위해 요청 간의 딜레이를 설정하는 것이 좋다.

#### BeautifulSoup
- BeautifulSoup은 HTML이나 XML 문서를 파싱하고, 파싱한 데이터에서 원하는 요소를 검색하고 추출하는 데 매우 유용한 도구입니다. 
- BeautifulSoup에서 객체를 찾는 주요 방법에는 find, find_all, select_one, select, find_parent, find_next_sibling, find_previous_sibling 등이 있습니다.

검색 방식
- find, find_all: 태그 이름과 속성을 사용하여 요소를 검색합니다.
- select_one, select: CSS 선택자를 사용하여 요소를 검색합니다.

반환 결과:
- find: 첫 번째로 일치하는 요소를 반환합니다.
- find_all: 모든 일치하는 요소를 리스트로 반환합니다.
- select_one: 첫 번째로 일치하는 요소를 반환합니다.
- select: 모든 일치하는 요소를 리스트로 반환합니다.

표현력:
- select_one, select: 더 복잡하고 정교한 선택 조건을 지정할 수 있습니다. 예를 들어, CSS 선택자 문법을 사용하여 클래스, ID, 속성 등을 조합한 검색이 가능합니다.
- find, find_all: 단순한 태그 이름과 속성 조건에 기반한 검색이 주로 사용됩니다.


html.parser vs. lxml
- 파이썬에서 HTML 및 XML 문서를 파싱(parsing)하는 라이브러리
- html.parser는 HTML 문서를 파싱하는 데에 적합한 파서. 파이썬의 기본 라이브러리로 제공되며 파이썬 내부적으로 구현되어 있으며, 외부 종속성이 없으므로 파이썬과 함께 설치되는 패키지만 사용할 수 있습니다.
- lxml은 C 언어로 작성된 파이썬 외부 라이브러리로서 HTML 및 XML 문서를 파싱하는 데에 적합하며, 파서 성능이 매우 우수합니다.
- HTML 문서를 파싱하는 경우에는 html.parser를 사용하는 것이 간단하고 편리하며, 대부분의 경우에는 충분한 성능을 제공합니다. 그러나 대용량의 XML 문서나 매우 복잡한 HTML 문서를 파싱해야 하는 경우에는 lxml을 사용하는 것이 더 효율적입니다.

In [36]:
from bs4 import BeautifulSoup

html_contents='<html><body><h1>Title</h1><p class="content">First paragraph.</p><p class="content">Second paragraph.</p></body></html>'
soup=BeautifulSoup(html_contents,'html.parser')
print(soup.prettify())

<html>
 <body>
  <h1>
   Title
  </h1>
  <p class="content">
   First paragraph.
  </p>
  <p class="content">
   Second paragraph.
  </p>
 </body>
</html>



크롤링 시 헤더를 포함하면 성공적으로 데이터를 가져올 가능성을 높여준다.

headers : HTTP 요청에 포함되는 메타데이터
- User-Agent: 클라이언트 애플리케이션(브라우저 등)을 나타냅니다.
- Accept: 서버가 어떤 콘텐츠 타입을 반환해야 하는지 지정합니다.
- Accept-Language: 클라이언트가 선호하는 언어를 지정합니다.
- Referer: 요청이 발생한 이전 페이지의 URL을 지정합니다.
- Host: 요청을 보내는 서버의 호스트 이름을 지정합니다.
- Connection: 서버와 클라이언트 간의 연결 유형을 지정합니다.

In [37]:
import requests
from bs4 import BeautifulSoup 

## 예시 네이버 뉴스 페이지 URL
url='https://news.naver.com'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
    'Accept-Language': 'en-US,en;q=0.9',
    'Referer': 'http://example.com'
}
response=requests.get(url, headers=headers)
#response=requests.get(url)
response

<Response [200]>

response.content:
- response.content는 서버에서 반환된 응답을 바이트(byte) 문자열로 제공합니다.
- 주로 이미지, 파일 다운로드와 같은 바이너리 데이터를 다룰 때 사용됩니다.
- 인코딩과 상관없이 원본 그대로의 데이터를 가져오기 때문에, HTML 파싱을 할 때는 별도로 인코딩을 지정하지 않으면 기본 인코딩을 사용합니다.

response.text:
- response.text는 서버에서 반환된 응답을 유니코드 문자열로 제공합니다.
- requests 라이브러리는 response.text를 반환할 때, response.encoding에 지정된 인코딩을 사용하여 바이트 데이터를 유니코드 문자열로 디코딩합니다.
- 일반적인 텍스트 데이터, HTML, JSON 등의 처리를 할 때 유용합니다.

In [38]:
## response content vs. text
response.content

b'\n<!doctype html>\n<html lang="ko">\n\t<head>\n\t\t<title id="browserTitleArea">\xeb\x84\xa4\xec\x9d\xb4\xeb\xb2\x84 \xeb\x89\xb4\xec\x8a\xa4</title>\n\t\t\n\n\n<script>\n\tfunction isMobileDevice() {\n\t\treturn /^.*(iPhone|iPod|iPad|Android).*/.test(navigator.userAgent);\n\t}\n</script>\n<script>\n\t(function () {\n\t\ttry {\n\t\t\tif (isMobileDevice() && isAbleApplyPrefersColorScheme()) {\n\t\t\t\t\n\t\t\t\tdocument.querySelector("html").classList.add("DARK_THEME");\n\t\t\t}\n\t\t} catch(e) {}\n\n\t\tfunction isAbleApplyPrefersColorScheme() {\n\t\t\t\n\t\t\tif (window.matchMedia("(prefers-color-scheme)").matches === false) {\n\t\t\t\treturn false;\n\t\t\t}\n\n\t\t\tvar userAgent = navigator.userAgent;\n\n\t\t\tif (userAgent.indexOf("NAVER") > -1) {\n\t\t\t\t\n\t\t\t\tif (/.*NAVER\\([a-zA-Z]*;\\s[a-zA-Z]*;\\s([0-9]*);/.test(userAgent)) {\n\t\t\t\t\treturn Number(RegExp.$1) >= 1000;\n\t\t\t\t}\n\t\t\t} else {\n\t\t\t\t\n\t\t\t\treturn document.cookie.indexOf("NSCS=1") > -1;\n\t\t\t}

In [39]:
response.text

'\n<!doctype html>\n<html lang="ko">\n\t<head>\n\t\t<title id="browserTitleArea">네이버 뉴스</title>\n\t\t\n\n\n<script>\n\tfunction isMobileDevice() {\n\t\treturn /^.*(iPhone|iPod|iPad|Android).*/.test(navigator.userAgent);\n\t}\n</script>\n<script>\n\t(function () {\n\t\ttry {\n\t\t\tif (isMobileDevice() && isAbleApplyPrefersColorScheme()) {\n\t\t\t\t\n\t\t\t\tdocument.querySelector("html").classList.add("DARK_THEME");\n\t\t\t}\n\t\t} catch(e) {}\n\n\t\tfunction isAbleApplyPrefersColorScheme() {\n\t\t\t\n\t\t\tif (window.matchMedia("(prefers-color-scheme)").matches === false) {\n\t\t\t\treturn false;\n\t\t\t}\n\n\t\t\tvar userAgent = navigator.userAgent;\n\n\t\t\tif (userAgent.indexOf("NAVER") > -1) {\n\t\t\t\t\n\t\t\t\tif (/.*NAVER\\([a-zA-Z]*;\\s[a-zA-Z]*;\\s([0-9]*);/.test(userAgent)) {\n\t\t\t\t\treturn Number(RegExp.$1) >= 1000;\n\t\t\t\t}\n\t\t\t} else {\n\t\t\t\t\n\t\t\t\treturn document.cookie.indexOf("NSCS=1") > -1;\n\t\t\t}\n\n\t\t\treturn false;\n\t\t}\n\t})();\n</script>\n\n\t

In [40]:
import requests
from bs4 import BeautifulSoup 

## 예시 네이버 뉴스 페이지 URL
url='https://news.naver.com'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
    'Accept-Language': 'en-US,en;q=0.9',
    'Referer': 'http://example.com'
}
response=requests.get(url, headers=headers)

soup=BeautifulSoup(response.text, 'html.parser')
print(soup.prettify())

<!DOCTYPE html>
<html lang="ko">
 <head>
  <title id="browserTitleArea">
   네이버 뉴스
  </title>
  <script>
   function isMobileDevice() {
		return /^.*(iPhone|iPod|iPad|Android).*/.test(navigator.userAgent);
	}
  </script>
  <script>
   (function () {
		try {
			if (isMobileDevice() && isAbleApplyPrefersColorScheme()) {
				
				document.querySelector("html").classList.add("DARK_THEME");
			}
		} catch(e) {}

		function isAbleApplyPrefersColorScheme() {
			
			if (window.matchMedia("(prefers-color-scheme)").matches === false) {
				return false;
			}

			var userAgent = navigator.userAgent;

			if (userAgent.indexOf("NAVER") > -1) {
				
				if (/.*NAVER\([a-zA-Z]*;\s[a-zA-Z]*;\s([0-9]*);/.test(userAgent)) {
					return Number(RegExp.$1) >= 1000;
				}
			} else {
				
				return document.cookie.indexOf("NSCS=1") > -1;
			}

			return false;
		}
	})();
  </script>
  <script>
   var g_ssc = 'news.v3_media' || null;
  </script>
  <meta charset="utf-8"/>
  <meta content="width=device-width,

In [41]:
### 네이버 뉴스 찾기
## title 태그만으로 찾기
news_titles=soup.find('title')
news_titles.text
news_titles.get_text()
news_titles.string


'네이버 뉴스'

In [42]:
tag1=soup.select('#browserTitleArea')
print(tag1[0].text.strip())             # select에서는 .text나 .get_text()가 안된다

네이버 뉴스


In [43]:
### 네이버 뉴스에서 언론사별 ... 카테고리 출력
cats=soup.find_all(class_='Nitem_link_menu')
for idx,cat in enumerate(cats):
    print(f"{idx+1}: {cat.get_text().strip()}")

1: 언론사별
2: 정치
3: 경제
4: 사회
5: 생활/문화
6: IT/과학
7: 세계
8: 랭킹
9: 신문보기
10: 오피니언
11: TV
12: 팩트체크
13: 알고리즘 안내
14: 정정보도 모음


string vs. get_text() vs. text
- BeautifulSoup 객체에서 text 속성, get_text() 메서드, string 속성은 모두 HTML 또는 XML 문서에서 텍스트 데이터를 추출하는 데 사용
- text 속성은 해당 태그에서 모든 텍스트 데이터를 가져오며,
- get_text() 메서드도 동일한 결과를 반환합니다.
- string 속성은 해당 태그에서 첫 번째로 발견된 문자열 데이터만 가져옵니다.

| Method      | 특징                                                                               | 사용 사례                                      |
|-------------|----------------------------------------------------------------------------------|-----------------------------------------------|
| `string`    | 자식 텍스트 노드가 하나인 경우에만 해당 텍스트 반환, 여러 노드가 있으면 `None` 반환                | 단일 텍스트 노드만 있는 요소의 텍스트를 추출할 때      |
| `get_text()`| 요소 및 모든 하위 요소의 텍스트를 모두 포함하여 문자열로 반환, `separator` 및 `strip` 옵션 사용 가능 | 요소 내 모든 텍스트를 추출하고, 구분자 및 공백 처리가 필요한 경우 |
| `text`      | 요소 및 모든 하위 요소의 텍스트를 모두 포함하여 문자열로 반환, 추가 매개변수 없음                  | 요소 내 모든 텍스트를 단순하게 추출할 때                   |

string
- 정의: string 속성은 BeautifulSoup 객체의 자식 노드 중 하나의 텍스트 노드만 반환. 해당 요소의 직접적인 텍스트 콘텐츠가 하나일 때만 유용.
- 특징:
요소가 하나의 자식 텍스트 노드를 가지고 있는 경우에만 그 텍스트를 반환.
여러 자식 요소가 있거나 텍스트 노드가 여러 개 있는 경우 None을 반환.

get_text()
- 정의: get_text() 메서드는 요소 및 모든 하위 요소의 텍스트를 모두 추출하여 하나의 문자열로 반환.
- 특징:
요소 내의 모든 텍스트를 포함하여 반환.
기본적으로 하위 요소 사이에 공백을 추가하지만, separator 매개변수를 사용하여 구분자를 지정할 수 있다.
strip=True 옵션을 사용하여 앞뒤 공백을 제거할 수 있다.

text
- 정의: text 속성은 요소 및 모든 하위 요소의 텍스트를 모두 포함하는 문자열을 반환. get_text() 메서드와 동일한 기능을 한다.
- 특징:
get_text()와 거의 동일한 결과를 제공.
get_text()와 다르게 추가 매개변수(separator, strip)를 사용할 수 없다.

In [44]:

import requests
from bs4 import BeautifulSoup 

html = """
<div class="example">
    Single text node
</div>
<div class="example">
    <p>Multiple</p> text <span>nodes</span>
</div>
"""

soup=BeautifulSoup(html, 'html.parser')
single_text_node=soup.find('div', class_='example').string
multiple=soup.find_all('div', class_='example')

multiple_text_nodes=soup.find_all('div', class_='example')[1].string

print(single_text_node)
print(multiple,'\n\n\n')
print(multiple_text_nodes)          ## None 값 반환


    Single text node

[<div class="example">
    Single text node
</div>, <div class="example">
<p>Multiple</p> text <span>nodes</span>
</div>] 



None


In [45]:
### string ==> get_text()
soup=BeautifulSoup(html, 'html.parser')
single_text_node=soup.find('div', class_='example').get_text(strip=True)
multiple=soup.find_all('div', class_='example')

multiple_text_nodes=soup.find_all('div', class_='example')[1].get_text(strip=True)

print(single_text_node)
print(multiple_text_nodes)

Single text node
Multipletextnodes


In [46]:
### w/ separator
soup=BeautifulSoup(html, 'html.parser')
single_text_node=soup.find('div', class_='example').get_text(strip=True)
multiple=soup.find_all('div', class_='example')

multiple_text_nodes=soup.find_all('div', class_='example')[1].get_text(separator=' | ', strip=True)

print(single_text_node)
print(multiple_text_nodes)

Single text node
Multiple | text | nodes


In [47]:
### ==> text: multiple node는 사용가능하지만 option은 사용 불가
soup=BeautifulSoup(html, 'html.parser')
single_text_node=soup.find('div', class_='example').text
multiple=soup.find_all('div', class_='example')

multiple_text_nodes=soup.find_all('div', class_='example')[1].text

print(single_text_node)
print(multiple_text_nodes)


    Single text node


Multiple text nodes



정규표현식을 이용한 크롤링 방법 

HTML 가져오기:
- requests 라이브러리를 사용하여 웹 페이지의 HTML을 가져옵니다.
HTML 파싱:
- BeautifulSoup을 사용하여 HTML 문서를 파싱합니다.
정규표현식 사용:
- re 모듈을 사용하여 특정 패턴을 가진 텍스트를 추출합니다.

In [48]:
import requests
from bs4 import BeautifulSoup 
import re

html = """
<ul>
<li>Email:example@example.com</li>
<li>Contact:contact@sample.org</li>
</ul>
"""

## 이메일 주소 추출
email_pattern = r'[a-zA-z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+'
emails=re.findall(email_pattern,html)
print(emails)

['example@example.com', 'contact@sample.org']


In [49]:
import requests
from bs4 import BeautifulSoup 
import re

html = '''
<html>
<body>
<div>
Hello,world!
</div>
<div>
<p>
Hello,<b>world!</b>
</p>
</div>
</body>
</html>
'''

soup=BeautifulSoup(html,'html.parser')
bs=soup.body.text

texts=re.findall('[^\s]+', bs)
for t in texts:
    print(t)

#print(bs)
new_bs=re.sub("\s+", " ", bs)
#new_bs=re.sub("\n\n", "", bs)
print(new_bs.strip())


Hello,world!
Hello,world!
Hello,world! Hello,world!


In [50]:
html = '''
<html>
<head>
<title>Sample Page</title>
</head>
<body>
<div>
Hello, world! 123
</div>
<div>
<p>
456 Hello, <b>789 world!</b> Visit us at <a href="http://example.com">example.com</a>
</p>
</div>
<footer>
Contact us at <a href="mailto:info@example.com">info@example.com</a>
</footer>
</body>
</html>
'''

In [51]:
### Q. 주어진 html에서 아래 사항을 수행
# 모든 단어 추출
# 이메일 주소 추출
# URL 주소
# 숫자 추출
# HTML 태크 내 텍스트 추출

# 1. 모든 단어 추출
print("1. 모든 단어 추출")
soup=BeautifulSoup(html,'html.parser')
words=re.findall(r'\b\w+\b',soup.text)
words_list=''
for i in words:
    words_list += i
    words_list += ' '
print(words_list)

# 2. 이메일 주소 추출
email_pattern = r'[a-zA-z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+'
emails=re.findall(email_pattern,html)
print("\n2. 이메일 주소 추출")
for email in emails:
    print(email)

# 3. URL 주소 http://example.com
print("\n3. URL 주소 추출")
url_pattern = r'https?://[^\s<>"]+|www\.[^\s<>"]+'
#url_pattern = r'https?:\/\/[^\s/$.?#].[^\s]*'
urls = re.findall(url_pattern, html)
print(urls)

# 4. 숫자 추출
print("\n4. 숫자 추출")
num_pattern = r'\b\d+\b'
nums=re.findall(num_pattern,html)
num_list=''
for num in nums:
    num_list += num
    num_list += ' '
print(num_list)

# 5. HTML 태크 내 텍스트 추출
print("\n5. 텍스트 추출")
soup=BeautifulSoup(html,'html.parser')
bs=soup.body.text

new_bs=re.sub("\s+", " ", bs)
print(new_bs.strip())

## 강사님
print("\n강사님 5. 텍스트 추출")
tag_texts=re.findall(r'>([^<]+)<',html)
text_lists=' '.join(text.strip() for text in tag_texts)
text_lists=re.sub(r'\s+', ' ', text_lists)
print(text_lists.strip())


1. 모든 단어 추출
Sample Page Hello world 123 456 Hello 789 world Visit us at example com Contact us at info example com 

2. 이메일 주소 추출
info@example.com
info@example.com

3. URL 주소 추출
['http://example.com']

4. 숫자 추출
123 456 789 

5. 텍스트 추출
Hello, world! 123 456 Hello, 789 world! Visit us at example.com Contact us at info@example.com

강사님 5. 텍스트 추출
Sample Page Hello, world! 123 456 Hello, 789 world! Visit us at example.com Contact us at info@example.com


In [52]:
import requests
from bs4 import BeautifulSoup 
import re

html = """
<ul>
  <li><a href="hoge.html">hoge</li>
  <li><a href="https://example.com/fuga">fuga*</li>
  <li><a href="https://example.com/foo">foo*</li>
  <li><a href="http://example.com/aaa">aaa</li>
</ul>
"""

soup=BeautifulSoup(html,'html.parser')
li=soup.find_all(href=re.compile(r"^https://"))
print(li)
for e in li:print(e.attrs['href'])

[<a href="https://example.com/fuga">fuga*</a>, <a href="https://example.com/foo">foo*</a>]
https://example.com/fuga
https://example.com/foo


In [53]:
from bs4 import BeautifulSoup
import requests
url='https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100'
response=requests.get(url)
html=response.text
bs=BeautifulSoup(html,'html.parser')
print(bs)

<!DOCTYPE html>

<html data-useragent="python-requests/2.32.3" lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta contents="always" name="referrer"/>
<meta content="600" http-equiv="refresh"/>
<meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0, user-scalable=no" name="viewport">
<meta content="정치 : 네이버 뉴스" property="og:title"/>
<meta content="website" property="og:type"/>
<meta content="https://news.naver.com/section/100" property="og:url"/>
<meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800x420_20221201.png" property="og:image"/>
<meta content="국회, 행정, 국방, 외교 등 정치 분야 뉴스 제공" property="og:description"/>
<meta content="네이버" property="og:article:author"/>
<meta content="summary" name="twitter:card"/>
<meta content="정치 : 네이버 뉴스" name="twitter:title"/>
<meta content="네이버 뉴스" name="twitter:site"/>
<meta content="네이버 뉴스" name="twitter:creator"/>
<meta content="https://ssl

In [54]:
import urllib.request as rq
url='https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100'
html=rq.urlopen(url)
bs=BeautifulSoup(html,'html.parser')
print(bs)

<!DOCTYPE html>

<html data-useragent="Python-urllib/3.10" lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta contents="always" name="referrer"/>
<meta content="600" http-equiv="refresh"/>
<meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0, user-scalable=no" name="viewport">
<meta content="정치 : 네이버 뉴스" property="og:title"/>
<meta content="website" property="og:type"/>
<meta content="https://news.naver.com/section/100" property="og:url"/>
<meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800x420_20221201.png" property="og:image"/>
<meta content="국회, 행정, 국방, 외교 등 정치 분야 뉴스 제공" property="og:description"/>
<meta content="네이버" property="og:article:author"/>
<meta content="summary" name="twitter:card"/>
<meta content="정치 : 네이버 뉴스" name="twitter:title"/>
<meta content="네이버 뉴스" name="twitter:site"/>
<meta content="네이버 뉴스" name="twitter:creator"/>
<meta content="https://ssl.pst

In [55]:
text1=bs.find('p')
print(text1)

<p class="sa_head_layer_p">각 헤드라인의 기사와 배열 순서는 개인화를 반영해 자동 추천되어 제공됩니다. 기사 수량이 표기된 기사 우측 하단의 파란색 아이콘을 클릭하면 기사묶음을 확인할 수 있고 기사묶음과 기사묶음 타이틀도 기사 내용을 기반으로 <strong>자동 추출</strong>됩니다.</p>


In [56]:
texts=bs.find_all('p')
for texti in texts:
    print(texti.text)

각 헤드라인의 기사와 배열 순서는 개인화를 반영해 자동 추천되어 제공됩니다. 기사 수량이 표기된 기사 우측 하단의 파란색 아이콘을 클릭하면 기사묶음을 확인할 수 있고 기사묶음과 기사묶음 타이틀도 기사 내용을 기반으로 자동 추출됩니다.
AiRS 추천으로 구성된 뉴스를 제공합니다.
각 언론사의 가장 많이 본 기사 1건을 제공합니다.
무좀, ‘식인 박테리아’에 치명적…日여행 계획 있다면 치료 먼저
與 "위대하신 이재명 수령님"...민주당 내서도 "감정 과잉"
“팔짱끼고 사과?”…‘치킨집 갑질’ 대구 공무원 또 논란
“원 없이 했으면 원통하지도 않겠다”…‘갑질논란’ 입 연 배우 고현정
목욕탕 통째 빌려 집단 성관계·마약한 남녀 청소년들…발칵 뒤집힌 북한
성스러운 호수에서 남자들 왜 이러나 했더니…벌써 4만명 열사병 환자 속출에 110명 사망한 '이 나라'
“밀양성폭행 가해자입니다…용서는 바라지 않습니다”
"매년 6억씩 벌어 자산은…" 유튜버 대박난 무명 개그맨 정체
"점프하는 육지 거머리 첫 포착…100년 논쟁 마침표"
"대통령 하야 청탁 하려는데, 300만 원 선물 가능?" 질의에 권익위 답변은?
당황한 푸틴, 자리서 ‘벌떡’…러 기자도 놀란 ‘달라진’ 평양 모습 어땠길래
장윤정·도경완, 나인원한남 120억에 팔고 이사한 곳은? [집코노미-핫! 부동산]
장마가 달라졌다…"이 정도면 우기 아닌가" 요즘 늘어난 현상
명품백에 가려진 스모킹건, 김건희 여사와 관저 공사
"속옷만 입히고 인증샷"..뉴진스, 협업 게임서 성희롱 논란
“어딜 도망가”…13세 소녀 성폭행범 응징한 주민들 [잇슈 SNS]
에어컨 고치려다…강남 30억짜리 아파트 대참사
“콜 다 꺼” 결국 들고일어난 사장님들…'배민1 보이콧'
“아 나한테 세금 좀 받으라니깐...” 상속세 폐지된 오스트리아의 재벌상속녀, 재산 90% 기부
“월급 절반은 주식”…엔비디아, 5년 전부터 근무한 직원은 '백만장자'다?
법원 "노소영 아트센터 나비, SK서린빌딩 나가고 10억 배상해야"
오사카 갈 여객기를 크로아티아로 보낸 

In [57]:
p_head=bs.find('p', class_='sa_head_layer_p')
print(p_head)
text2=bs.find('p').string
print(text2)

<p class="sa_head_layer_p">각 헤드라인의 기사와 배열 순서는 개인화를 반영해 자동 추천되어 제공됩니다. 기사 수량이 표기된 기사 우측 하단의 파란색 아이콘을 클릭하면 기사묶음을 확인할 수 있고 기사묶음과 기사묶음 타이틀도 기사 내용을 기반으로 <strong>자동 추출</strong>됩니다.</p>
None


In [58]:
print(bs.find('title'))

<title>정치 : 네이버 뉴스</title>


In [59]:
print(bs.find('title').string)

정치 : 네이버 뉴스


In [60]:
print(bs.find('p').string)
print(bs.find('p').get_text())

None
각 헤드라인의 기사와 배열 순서는 개인화를 반영해 자동 추천되어 제공됩니다. 기사 수량이 표기된 기사 우측 하단의 파란색 아이콘을 클릭하면 기사묶음을 확인할 수 있고 기사묶음과 기사묶음 타이틀도 기사 내용을 기반으로 자동 추출됩니다.


인코딩 에러를 해결

- chardet는 "Universal Character Encoding Detector"로, 다양한 인코딩을 감지할 수 있는 파이썬 패키지
- chardet.detect(response.content)['encoding']은 response.content의 인코딩 방식을 자동으로 감지하여 반환하며
 이 값을 encoding 변수에 저장한 후, response.content를 이 encoding 방식으로 디코딩하여 html 변수에 저장하고 출력

In [61]:
!pip install chardet



In [62]:
import requests
import chardet

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
    'Accept-Language': 'en-US,en;q=0.9',
    'Referer': 'http://example.com'
}

url='https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100'

response=requests.get(url, headers=headers)
if response.status_code==200:
    encoding=chardet.detect(response.content)['encoding']
    #print(response.text)
    print(encoding)
else:
    print("HTTP request failed")


utf-8


In [63]:
# 한글만 출력
texts=response.text
result=re.findall('[가-힣]+', texts)
print(' '.join(result))


정치 네이버 뉴스 국회 행정 국방 외교 등 정치 분야 뉴스 제공 네이버 정치 네이버 뉴스 네이버 뉴스 네이버 뉴스 국회 행정 국방 외교 등 정치 분야 뉴스 제공 정치 네이버 뉴스 로그 전송 최대치 도달 본문 바로가기 뉴스 연예 스포츠 날씨 프리미엄 검색 언론사별 정치 경제 사회 생활 문화 과학 세계 랭킹 신문보기 오피니언 팩트체크 알고리즘 안내 정정보도 모음 금 전체 언론사 뉴스스탠드 라이브러리 정치 대통령실 국회 정당 북한 행정 국방 외교 정치일반 뉴스 알고리즘 프리미엄콘텐츠 헤드라인 뉴스 안내 각 헤드라인의 기사와 배열 순서는 개인화를 반영해 자동 추천되어 제공됩니다 기사 수량이 표기된 기사 우측 하단의 파란색 아이콘을 클릭하면 기사묶음을 확인할 수 있고 기사묶음과 기사묶음 타이틀도 기사 내용을 기반으로 자동 추출 됩니다 알고리즘 자세히 보기 닫기 유시민 패소후 한동훈 향해 당신 팔뚝 굵어 언론하이에나 물어뜯는날 곧 온다 유시민 패소후 한동훈 향해 당신 팔뚝 굵어 언론하이에나 물어뜯는날 곧 온다 유시민 전 노무현재단 이사장이 한동훈 전 국민의힘 비상대책위원장의 명예훼손 등의 혐의로 열린 재판에서 패배한 것을 인정하면서도 조금 있으면 언론 하이에나가 한동훈을 물어뜯는 날이 곧 온다 고 주장했다 유 전 이사 문화일보 개의 관련뉴스 더보기 윤석열 대통령 지지율 유지 호감도 위는 오세훈 서울시장 윤석열 대통령 지지율 유지 호감도 위는 오세훈 서울시장 윤석열 대통령의 지지율이 지난주와 같은 를 기록했다는 여론조사 결과가 나왔다 정계 주요 인물 호감도 조사에서는 오세훈 서울시장이 위를 차지했다 한국갤럽이 지난 일 전국 만 세 이상 명을 머니투데이 개의 관련뉴스 더보기 원희룡 당대표 출마 당정 민심 받들어 변화 개혁 이뤄내야 원희룡 당대표 출마 당정 민심 받들어 변화 개혁 이뤄내야 원희룡 전 국토교통부 장관이 다음달 일 치러지는 국민의힘 차기 대표 경선에 출마하겠다고 일 밝혔다 국민의힘 당권 주자 가운데 공식 출마 선언을 한 것은 원 전 장관이 처음이다 원 전 장관은 

In [64]:
## inside out 제목 가져오기
import requests
import chardet

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
    'Accept-Language': 'en-US,en;q=0.9',
    'Referer': 'http://example.com'
}

url = "https://serieson.naver.com/v3/movie/ranking/realtime"

response=requests.get(url, headers=headers)
if response.status_code==200:
    encoding=chardet.detect(response.content)['encoding']
    soup = BeautifulSoup(response.text,'html.parser')  
else:
    print("HTTP request failed")
#print(soup.prettify())
#<span class="Title_title__s9o0D">인사이드 아웃(패키지상품 : 더빙판 + 부가영상 추가증정)</span>
#insideout=soup.select_one('img.Thumbnail_image__TxHd0')
#print(insideout['alt'])
insideout=soup.select_one('span.Title_title__s9o0D')
print(insideout.text)
print(re.split('\(',insideout.text)[0])

인사이드 아웃(패키지상품 : 더빙판 + 부가영상 추가증정)
인사이드 아웃


In [65]:
#1
titles=soup.select('span.Title_title__s9o0D')
for idx, title in enumerate(titles):
    print(f"{idx+1}: {title.text}")
    if idx==9: break
#2
print('\n')
title_list=[]
for idx, title in enumerate(titles):
    title_list.append(title.text)

for idx, title in enumerate(set(title_list)): 
    print(f"{idx+1}: {title}")
    if idx == 9: break
#3
print('\n')
titles=soup.select('span.Title_title__s9o0D')
for idx, title in enumerate(titles[:10]):
    print(f"{idx+1}: {title.text}")
    

1: 인사이드 아웃(패키지상품 : 더빙판 + 부가영상 추가증정)
2: 파묘
3: 귀공자
4: 원피스 필름 레드
5: 원더
6: 설계자
7: 듄: 파트 2
8: 소울메이트
9: 콰이어트 플레이스 2
10: 아직 사랑하고 있습니까?


1: 전쟁과 한 여자
2: 싱 스트리트
3: 군중낙원
4: 장화신은 고양이: 끝내주는 모험
5: 소울메이트
6: 귀공자
7: 호빗 : 뜻밖의 여정
8: 악마와의 토크쇼
9: 리얼
10: 신은 죽지 않았다 2


1: 인사이드 아웃(패키지상품 : 더빙판 + 부가영상 추가증정)
2: 파묘
3: 귀공자
4: 원피스 필름 레드
5: 원더
6: 설계자
7: 듄: 파트 2
8: 소울메이트
9: 콰이어트 플레이스 2
10: 아직 사랑하고 있습니까?


### CSS 선택자
- 원하는 정보만 선별하여 수집하고 싶을 때 css선택자를 활용할 수 있음
- (CSS 선택자 설명 추가)
- F12 >> 수집하고 싶은 부분 클릭 >> 태그 선택 >> copy Selector
- BeautifulSoup의 select_one, select 활용

In [66]:
## 정치면 기사 제목 가져오기
import requests
import chardet
import pandas as pd

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
    'Accept-Language': 'en-US,en;q=0.9',
    'Referer': 'http://example.com'
}

url = "https://news.daum.net/politics#1"

response=requests.get(url, headers=headers)
if response.status_code==200:
    encoding=chardet.detect(response.content)['encoding']
    soup = BeautifulSoup(response.text,'html.parser')  
else:
    print("HTTP request failed")

links=soup.select('a.link_txt')
print(links)
articles=[line.text.strip() for line in links]
df=pd.DataFrame({"Articles":articles})
#df=pd.DataFrame({"Articles":links})
df.head(len(df))

[<a class="link_txt" href="https://v.daum.net/v/20240621114507289">트럼프보다 이재명이 더 악성인 이유[김세동의 시론]</a>, <a class="link_txt" href="https://v.daum.net/v/20240621114457275">원희룡, 유영하·김재섭·김용태·김민전 러닝메이트 구성 '윤곽'</a>, <a class="link_txt" href="https://v.daum.net/v/20240621105055045">北, 어제 DMZ 작업 중 군사분계선 침범…2주 사이 3차례</a>, <a class="link_txt" href="https://v.daum.net/v/20240621114414254">대통령실 "尹, 모든 당대표 후보들에 똑같이"…윤심 논란 선긋기</a>, <a class="link_txt" href="https://v.daum.net/v/20240621114212181">민주당의 진짜 아버지[오후여담]</a>, <a class="link_txt" href="https://v.daum.net/v/20240621114251202">대통령실 "우크라 '155㎜ 포탄·탄약' 우선 지원 사실 아냐"</a>, <a class="link_txt" href="https://v.daum.net/v/20240621114503285">[생생경제] '591,078%' 엔비디아, 상승 랠리 계속될까? 주목할 포인트 3가지</a>, <a class="link_txt" href="https://v.daum.net/v/20240621114010110">[자막뉴스] 푸틴 보란듯 '살상무기'까지 꺼냈다 ‥우크라행 대기 중인 'K-방산'</a>, <a class="link_txt" href="https://v.daum.net/v/20240621112703556">방통위 법률자문 로펌조차... 대통령 추천 2인 의결은 '판단보류'</a>, <a class="link_txt" href="https://v.daum

Unnamed: 0,Articles
0,트럼프보다 이재명이 더 악성인 이유[김세동의 시론]
1,"원희룡, 유영하·김재섭·김용태·김민전 러닝메이트 구성 '윤곽'"
2,"北, 어제 DMZ 작업 중 군사분계선 침범…2주 사이 3차례"
3,"대통령실 ""尹, 모든 당대표 후보들에 똑같이""…윤심 논란 선긋기"
4,민주당의 진짜 아버지[오후여담]
5,"대통령실 ""우크라 '155㎜ 포탄·탄약' 우선 지원 사실 아냐"""
6,"[생생경제] '591,078%' 엔비디아, 상승 랠리 계속될까? 주목할 포인트 3가지"
7,[자막뉴스] 푸틴 보란듯 '살상무기'까지 꺼냈다 ‥우크라행 대기 중인 'K-방산'
8,방통위 법률자문 로펌조차... 대통령 추천 2인 의결은 '판단보류'
9,한·헝가리 수교 35주년…부다페스트서 재헝가리한인회 출범식


In [67]:
# body > div.container-doc.cont-category > main > section > div.main-sub > div.box_g.box_news_major > ul > li:nth-child(1) > strong > a
titles=soup.select('body > div > main > section > div > div > ul > li > div > div > strong > a')
for i, title in enumerate(titles, start=1):
    print(f"{i}. {title.get_text().strip()}")

1. 트럼프보다 이재명이 더 악성인 이유[김세동의 시론]
2. 원희룡, 유영하·김재섭·김용태·김민전 러닝메이트 구성 '윤곽'
3. 北, 어제 DMZ 작업 중 군사분계선 침범…2주 사이 3차례
4. 대통령실 "尹, 모든 당대표 후보들에 똑같이"…윤심 논란 선긋기
5. 민주당의 진짜 아버지[오후여담]
6. 대통령실 "우크라 '155㎜ 포탄·탄약' 우선 지원 사실 아냐"
7. 푸틴 떠난 뒤 다시 당정책 관철전…내달 파리올림픽 준비도
8. 양문석 "애완견, 학술용어인 거 모르나"  vs 이상휘 "말실수 포장"
9. 한동훈 ‘대세론’-원희룡 ‘당정일치’-나경원 ‘계파통합’-윤상현 ‘주류교체’
10. 남인순 더불어민주당 의원 - ‘의정 갈등·저출생·연금개혁’…견해는?
11. 한미동맹엔 없지만 북중동맹에 있는 것…새로운 북러 조약에도?
12. 퀸익위
13. 철문 걸어잠근 기재부 세제실, ‘철통보안’ 모드 된 까닭은
14. 이재명과 한동훈의 급소
15. 이철희, “한동훈 당대표 될 듯, 남 공격 그만하고 자기 얘기 해야”


In [68]:
## 해당 title에서 F12/선택활성화/copy/copy.selector 로 가져오면 아래와 같음
# body > div.container-doc.cont-category > main > section > div.main-sub > div.box_g.box_news_major > ul > li:nth-child(1) > strong > a
titles=soup.select('body > div > main > section > div > div > ul > li > strong > a')
for i, title in enumerate(titles, start=1):
    print(f"{i}. {title.get_text().strip()}")

1. [생생경제] '591,078%' 엔비디아, 상승 랠리 계속될까? 주목할 포인트 3가지
2. [자막뉴스] 푸틴 보란듯 '살상무기'까지 꺼냈다 ‥우크라행 대기 중인 'K-방산'
3. 방통위 법률자문 로펌조차... 대통령 추천 2인 의결은 '판단보류'
4. 한·헝가리 수교 35주년…부다페스트서 재헝가리한인회 출범식
5. 이종섭·신범철·임성근 선서 거부‥"처음부터 왜 이러시나" 신경전 [현장영상]
6. '해병대원 청문회' 박정훈 "힘 있든 없든 법 앞엔 평등…합당한 책임져야"
7. 성형외과 의사회장 “비의료인에 미용성형 개방...의료에 대한 몰이해”
8. 당정 “쌀값 안정화” 15만t 매입
9. 사의 표명했단 임성근, '사표 제출' 묻자…"말장난합니까?" [현장영상]
10. [바로이뉴스] 장관부터 일사분란 "선서 거부"…"녹봉 받는 공직자 맞나" 격앙


개발자 도구상에서 정치기사 개수는 58개인데 반면에 select('.class')로 크롤링한 기사 개수는 38개인 이유:
- 많은 사이트는 JavaScript를 사용하여 콘텐츠를 동적으로 로딩하는 반면 requests + BS는 기본적으로 JavaScript를 실행하지 않기 때문에 일부 js로 로딩되는 컨텐츠는 크롤링되지 않는다.
- 페이지가 완전히 로드되기 전에 크롤링이 시도될 경우 일부 컨텐츠가 누락될 수 있음
- 웹 페이지가 비동기 요청(Ajax)를 사용하여 데이터를 가져오는 경우 이 요청을 수동으로 처리하지 않는 한 해당 데이터를 가져오지 못함.


In [69]:
titles=soup.select('body > div > main > section > div > div > ul > li > strong > a')
for i, tag in enumerate(titles, start=1):
    text=tag.get_text().strip().replace(',', '')
    matches = re.findall('[가-힣0-9]+',text)
    print(f"{i}, {' '.join(matches)}")

1, 생생경제 591078 엔비디아 상승 랠리 계속될까 주목할 포인트 3가지
2, 자막뉴스 푸틴 보란듯 살상무기 까지 꺼냈다 우크라행 대기 중인 방산
3, 방통위 법률자문 로펌조차 대통령 추천 2인 의결은 판단보류
4, 한 헝가리 수교 35주년 부다페스트서 재헝가리한인회 출범식
5, 이종섭 신범철 임성근 선서 거부 처음부터 왜 이러시나 신경전 현장영상
6, 해병대원 청문회 박정훈 힘 있든 없든 법 앞엔 평등 합당한 책임져야
7, 성형외과 의사회장 비의료인에 미용성형 개방 의료에 대한 몰이해
8, 당정 쌀값 안정화 15만 매입
9, 사의 표명했단 임성근 사표 제출 묻자 말장난합니까 현장영상
10, 바로이뉴스 장관부터 일사분란 선서 거부 녹봉 받는 공직자 맞나 격앙


news_url.format(query): URL 문자열 내의 특정 부분을 query 변수의 값으로 대체
- news_url 변수에는 포맷 문자열 'https://news.example.com/search?query={}'가 저장
- news_url.format(query)는 포맷 문자열의 {} 부분을 query 변수의 값으로 대체
- 결과적으로, 포맷팅된 URL은 'https://news.example.com/search?query=politics'가 된다.

In [70]:
import requests
import chardet
import pandas as pd
import re
from datetime import datetime
import os



query=input('검색 키워드를 입력하세요: ')
query=query.replace(' ', '+')
print(query)

news_url='https://search.naver.com/search.naver?where=nexearch&sm=tab_jum&query={}'
req=requests.get(news_url.format(query))

html=req.text
soup=BeautifulSoup(html, 'html.parser')
links=soup.select('.news_tit')

for link in links:
    title=link.text
    url=link.attrs['href']
    print(title, '\n', url)


AI
떡볶이 먹는 유관순 언니…가슴 뭉클해지는 AI 이미지 
 https://www.newsis.com/view/NISX20240620_0002780393
앤스로픽, 2배 빨라진 AI 모델 출시…"오픈AI 등 경쟁사 능가" 
 https://www.yna.co.kr/view/AKR20240621003400075?input=1195m
SK바이오사이언스, 백신 공정에 AI 시스템 결합 
 https://view.asiae.co.kr/article/2024062108185748223
삼성, 냉장고에 반도체·AI 적용 ‘하이브리드 절전’ 
 http://www.segye.com/newsView/20240620515252?OutUrl=naver


In [None]:
# csv파일로 저장
# utf-8-sig는 UTF-8 인코딩에 BOM(Byte Order Mark)를 추가하는 옵션
df.to_csv('result.csv', encoding='utf-8-sig',index=False)

In [72]:
# 네이버 뉴스 제목과 링크 추출
# urllib  사용
import urllib.request
import urllib.parse
from bs4 import BeautifulSoup

baseUrl = 'https://search.naver.com/search.naver?where=news&sm=tab_jum&query='
plusUrl = input('검색어를 입력하세요: ')

url = baseUrl + urllib.parse.quote_plus(plusUrl)

html = urllib.request.urlopen(url).read()
soup = BeautifulSoup(html, 'html.parser')

title = soup.find_all(class_ = 'news_tit')

for i in title :
    print(i.attrs['title'])
    print(i.attrs['href'])
    print()


떡볶이 먹는 유관순 언니…가슴 뭉클해지는 AI 이미지
https://www.newsis.com/view/NISX20240620_0002780393

앤스로픽, 2배 빨라진 AI 모델 출시…"오픈AI 등 경쟁사 능가"
https://www.yna.co.kr/view/AKR20240621003400075?input=1195m

SK바이오사이언스, 백신 공정에 AI 시스템 결합
https://view.asiae.co.kr/article/2024062108185748223

삼성, 냉장고에 반도체·AI 적용 ‘하이브리드 절전’
http://www.segye.com/newsView/20240620515252?OutUrl=naver

애플표 AI, 중국에서 무산될까
https://zdnet.co.kr/view/?no=20240621075711

AI가 추천에 맞춤형 운영까지…새로워진 '퇴직연금'
https://www.news1.kr/articles/5453611

"국민 10명 중 1명 생성형 AI 사용…정보 유출은 우려"
https://www.yna.co.kr/view/AKR20240620038600017?input=1195m

KT, 13개 교육청 대상 AI 맞춤형 교육·학습 서비스 제공
http://www.fnnews.com/news/202406211003156253

'AI로 만드는 배경화면'…LG유플러스, AI 체험형 옥외광고 론칭
https://www.hankyung.com/article/202406211664g

삼성전자, 냉장고 신제품에 AI∙반도체 소자 결합… “전기료 연 3만원 절감”
https://biz.chosun.com/it-science/ict/2024/06/20/4PRDN246JVCHRMD7DSTOC4ZHSQ/?utm_source=naver&utm_medium=original&utm_campaign=biz



In [82]:
#### 여러 page를 for 문 돌려서 크롤링

import requests
from bs4 import BeautifulSoup 
import pandas as pd
import chardet
import re


headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}

## 빈리스트를 만들어 기사 저장 준비
all_articles=[]

for page_num in range(1,6):
    url=f'https://finance.naver.com/news/mainnews.naver?&page={page_num}'
    
    response=requests.get(url, headers=headers)
    
    if response.status_code==200:
        encoding=chardet.detect(response.content)['encoding']
        soup = BeautifulSoup(response.text,'html.parser')  
    else:
        print("HTTP request failed")
    lines=soup.select('.articleSubject > a')
    for line in lines:
        title=line.get_text(strip=True)
        link='https://finance.naver.com'+line['href']
        all_articles.append((title,link))

df=pd.DataFrame(all_articles, columns=['title','link'])
df

Unnamed: 0,title,link
0,1390원대 환율과 외인 국채선물 매집…변동성 장세 불가피[채권분석],https://finance.naver.com/news/news_read.naver...
1,"‘자본시장 단골’ SK 재편시도, 시장 화답할까",https://finance.naver.com/news/news_read.naver...
2,삼성전자 주가 ‘제자리’ 때 엔비디아 10배↑,https://finance.naver.com/news/news_read.naver...
3,"삼성전자, D램 날개달고 HBM 통과도 기대…순매수 1위[주식 초고수는 지금]",https://finance.naver.com/news/news_read.naver...
4,"""한국산? 믿고 먹지"" 알고보니 수출강자…건기식주 '재조명'",https://finance.naver.com/news/news_read.naver...
...,...,...
57,상폐 결정에 법원 찾는 기업들...속 타는 주주들,https://finance.naver.com/news/news_read.naver...
58,적출되는 ETF들···LP 호가 공백 괜찮나,https://finance.naver.com/news/news_read.naver...
59,"“채권으로 돈 좀 버나 했더니, 찬물 끼얹나”…개미들 ‘멘붕’ 빠진 이유",https://finance.naver.com/news/news_read.naver...
60,"신용등급 '줄강등' 우려에···증권사, 후순위채 발행 '러시'",https://finance.naver.com/news/news_read.naver...


검색 키워드 및 뉴스 기사 수 입력 

네이버 뉴스 검색 결과 페이지의 URL 구조를 활용
- start 파라미터는 10 * (page_number - 1) + 1입니다. 즉, 첫 번째 페이지는 &start=1 또는 생략, 두 번째 페이지는 &start=11, 세 번째 페이지는 &start=21입니다.
- 첫 번째 페이지: https://search.naver.com/search.naver?where=news&sm=tab_jum&query=검색어
- 두 번째 페이지: https://search.naver.com/search.naver?where=news&sm=tab_jum&query=검색어&start=11
- 세 번째 페이지: https://search.naver.com/search.naver?where=news&sm=tab_jum&query=검색어&start=21

페이지 네비게이션 링크를 추출하여 이동
- 페이지 네비게이션 링크를 사용하여 직접 다음 페이지로 이동하는 방법입니다. 이 방법은 네이버 뉴스 검색 결과 페이지의 HTML 구조를 이용하여 다음 페이지로 이동할 링크를 추출하는 것입니다.
- 네이버 뉴스 검색 결과 페이지에는 페이지 번호 링크가 있습니다. 이 링크는 <a> 태그로 구성되어 있으며, href 속성에 다음 페이지의 URL이 들어 있습니다.
```
<div class="sc_page_inner">
    <a href="/search.naver?where=news&sm=tab_jum&query=검색어&start=11">2</a>
    <a href="/search.naver?where=news&sm=tab_jum&query=검색어&start=21">3</a>
    ...
</div>

```

In [87]:
import requests
import chardet
import pandas as pd
import re
from datetime import datetime
import os

#query=input('검색 키워드를 입력하세요: ')
query='인공지능'
query=query.replace(' ', '+')
print(query)
news_url='https://search.naver.com/search.naver?where=nexearch&sm=tab_jum&query={}'

for i in range(1,6):
    url=news_url.format(query)+'&start=' + str(i)
    print(url)
    req=requests.get(news_url.format(query))

    html=req.text
    soup=BeautifulSoup(html, 'html.parser')
    links=soup.select('.news_tit')

    for link in links:
        title=link.text
        url=link.attrs['href']
        print(title, '\n', url)


인공지능
https://search.naver.com/search.naver?where=nexearch&sm=tab_jum&query=인공지능&start=1
떡볶이 먹는 유관순 언니…가슴 뭉클해지는 AI 이미지 
 https://www.newsis.com/view/NISX20240620_0002780393
한컴-한전, 인공지능·데이터 분야 협력…AI기반 사무 소프트웨어 도입 
 https://www.electimes.com/news/articleView.html?idxno=338964
AI의 일자리 습격…"은행업 54% 자동화 전망" 
 https://view.asiae.co.kr/article/2024062004370354312
[그래픽] 생성형 인공지능(AI) 이용 조사 결과 
 https://www.yna.co.kr/view/GYH20240620000300044?input=1363m
https://search.naver.com/search.naver?where=nexearch&sm=tab_jum&query=인공지능&start=2
떡볶이 먹는 유관순 언니…가슴 뭉클해지는 AI 이미지 
 https://www.newsis.com/view/NISX20240620_0002780393
한컴-한전, 인공지능·데이터 분야 협력…AI기반 사무 소프트웨어 도입 
 https://www.electimes.com/news/articleView.html?idxno=338964
AI의 일자리 습격…"은행업 54% 자동화 전망" 
 https://view.asiae.co.kr/article/2024062004370354312
[그래픽] 생성형 인공지능(AI) 이용 조사 결과 
 https://www.yna.co.kr/view/GYH20240620000300044?input=1363m
https://search.naver.com/search.naver?where=nexearch&sm=tab_jum&query=인공지능&start=3
떡볶이 먹는 유관순 언니…가슴 뭉클해지는 AI 이미

In [None]:
## 네이버 뉴스 검색 결과 페이지의 URL 구조를 활용
## 네이버 뉴스 결과 페이지는 기본적으로 &start= 파라미터를 통해 페이지를 제어
import requests
import chardet
import pandas as pd
import re
from datetime import datetime
import os

date=str(datetime.now())
date=date[:,date,rfind(':')].replace(' ', '_')
date=date.replace()

#query=input('검색 키워드를 입력하세요: ')
query='인공지능'
query=query.replace(' ', '+')
#print(query)

#news_num=input('검색할 기사의 제한 개수를 입력하세요 : ')
news_num=100
#print(news_num)

news_url='https://search.naver.com/search.naver?where=nexearch&sm=tab_jum&query={}'

while idx < news_num:
    req=requests.get(news_url.format(query)+'&start='+str(cur_page))
    soup=BeautifulSoup(req.text, 'html.parser')

    table=soup.find('u1',{'class':'list_news'})
    if not table:
        print("No table found on page", cur_page)
        

In [108]:
## 네이버 뉴스 검색 결과 페이지의 URL 구조를 활용
## 네이버 뉴스 결과 페이지는 기본적으로 &start= 파라미터를 통해 페이지를 제어
import requests
import chardet
import pandas as pd
import re
from datetime import datetime
import os

date=str(datetime.now())
date=date[:date.rfind(':')].replace(' ', '_')
date=date.replace(':','시') + '분'


#query=input('검색 키워드를 입력하세요: ')
query='인공지능'
query=query.replace(' ', '+')
#print(query)

#news_num=input('검색할 기사의 제한 개수를 입력하세요 : ')
news_num=100
#print(news_num)

news_dict={}
idx=0
cur_page=1

print()
print('크롤링 중....')

news_url='https://search.naver.com/search.naver?where=nexearch&sm=tab_jum&query={}'

while idx < news_num:
    req=requests.get(news_url.format(query)+'&start='+str(cur_page))
    if req.status_code !=200:
        print(f'Request failed with status code {req.status_code} on page {cur_page}')
        break
    soup=BeautifulSoup(req.text, 'html.parser')
    
    table=soup.find('ul',{'class':'list_news'})
    if not table:
        print("No table found on page", cur_page)
        break
    
    li_list=table.find_all('li', {'id':re.compile('sp_nws.*')})
    area_list=[li.find('div',{'class':'news_area'}) for li in li_list]
    a_list=[area.find('a',{'class':'news_tit'}) for area in area_list if area is not None]

    for n in a_list[:min(len(a_list), news_num-idx)]:
        news_dict[idx]={'title': n.get('title'),
                        'url':n.get('href') }
        idx +=1
    cur_page += 1          # 네이버 뉴스 검색 결과는 한 페이지에 10개 기사로 구성됨

print('크롤링 완료')

print('데이터 프레임 변환')

news_df=pd.DataFrame(news_dict).T
news_df.to_csv(f'{query}_{date}.csv', encoding='utf-8-sig')
news_df



크롤링 중....
크롤링 완료
데이터 프레임 변환


Unnamed: 0,title,url
0,떡볶이 먹는 유관순 언니…가슴 뭉클해지는 AI 이미지,https://www.newsis.com/view/NISX20240620_00027...
1,"한컴-한전, 인공지능·데이터 분야 협력…AI기반 사무 소프트웨어 도입",https://www.electimes.com/news/articleView.htm...
2,"손정의 ""초인공지능 10년 내 실현…인류 역사 바꾼다""",https://www.hankyung.com/article/202406212534i
3,"AI의 일자리 습격…""은행업 54% 자동화 전망""",https://view.asiae.co.kr/article/2024062004370...
4,떡볶이 먹는 유관순 언니…가슴 뭉클해지는 AI 이미지,https://www.newsis.com/view/NISX20240620_00027...
...,...,...
95,"AI의 일자리 습격…""은행업 54% 자동화 전망""",https://view.asiae.co.kr/article/2024062004370...
96,떡볶이 먹는 유관순 언니…가슴 뭉클해지는 AI 이미지,https://www.newsis.com/view/NISX20240620_00027...
97,"한컴-한전, 인공지능·데이터 분야 협력…AI기반 사무 소프트웨어 도입",https://www.electimes.com/news/articleView.htm...
98,"손정의 ""초인공지능 10년 내 실현…인류 역사 바꾼다""",https://www.hankyung.com/article/202406212534i


In [107]:
######################## 강사님 코드 

# 네이버 뉴스 검색 결과 페이지의 URL 구조를 활용
import requests
import pandas as pd
from bs4 import BeautifulSoup
import re
from datetime import datetime

date = str(datetime.now())
date = date[:date.rfind(':')].replace(' ', '_')
date = date.replace(':','시') + '분'

query = input('검색 키워드를 입력하세요 : ')
news_num = int(input('총 필요한 뉴스기사 수를 입력해주세요(숫자만 입력) : '))
query = query.replace(' ', '+') # 검색 키워드 공백 처리

news_url = 'https://search.naver.com/search.naver?where=news&sm=tab_jum&query={}'

news_dict = {}
idx = 0
cur_page = 1

print()
print('크롤링 중...')

while idx < news_num:
    req = requests.get(news_url.format(query) + '&start=' + str(cur_page))
    if req.status_code != 200:
        print(f'Request failed with status code {req.status_code} on page {cur_page}')
        break
    soup = BeautifulSoup(req.text, 'html.parser')

    table = soup.find('ul',{'class' : 'list_news'})
    if not table:
        print("No table found on page", cur_page)
        break

    li_list = table.find_all('li', {'id': re.compile('sp_nws.*')})
    area_list = [li.find('div', {'class' : 'news_area'}) for li in li_list]
    a_list = [area.find('a', {'class' : 'news_tit'}) for area in area_list if area is not None]
    
    for n in a_list[:min(len(a_list), news_num-idx)]:
        news_dict[idx] = {'title' : n.get('title'),
                          'url' : n.get('href') }
        idx += 1
    
    cur_page += 1  # 네이버 뉴스 검색 결과는 한 페이지에 10개 기사로 구성됨

print('크롤링 완료')

print('데이터프레임 변환')
news_df = pd.DataFrame(news_dict).T

news_df.to_csv(f'{query}_{date}.csv', encoding='utf-8-sig')
news_df



크롤링 중...
Request failed with status code 403 on page 10
크롤링 완료
데이터프레임 변환


Unnamed: 0,title,url
0,떡볶이 먹는 유관순 언니…가슴 뭉클해지는 AI 이미지,https://www.newsis.com/view/NISX20240620_00027...
1,"한컴-한전, 인공지능·데이터 분야 협력…AI기반 사무 소프트웨어 도입",https://www.electimes.com/news/articleView.htm...
2,"손정의 ""초인공지능 10년 내 실현…인류 역사 바꾼다""",https://www.hankyung.com/article/202406212534i
3,"AI의 일자리 습격…""은행업 54% 자동화 전망""",https://view.asiae.co.kr/article/2024062004370...
4,[그래픽] 생성형 인공지능(AI) 이용 조사 결과,https://www.yna.co.kr/view/GYH2024062000030004...
...,...,...
85,인공지능 탑재된 냉장고,https://www.news1.kr/photos/view/?6715440
86,"유영상 SKT CEO, 국제무대서 AI 세일즈…""기술·역량 응집하자""",https://view.asiae.co.kr/article/2024062009194...
87,"한전-한컴, 인공지능 활용·확산 힘 합친다",https://www.pressian.com/pages/articles/202406...
88,세계 통신사 인공지능 협력 본격화,https://www.naeil.com/news/read/514064?ref=naver
