## 크롤링(웹 크롤링)
크롤링이란
- 인터넷 상의 웹 페이지 데이터를 자동으로 수집하는 과정.
- 웹 크롤링은 일반적으로 웹 스크래핑과 연관되며, 둘은 종종 혼용되지만 조금 다른 개념. 웹 크롤링은 웹 페이지를 탐색하고 데이터를 수집하는 반면, 웹 스크래핑은 그 페이지에서 특정 정보를 추출하는 데 중점을 둔다.
- 크롤링은 스크래핑을 포함할 수 있다. 크롤링 과정에서 각 페이지를 방문할 때, 스크래핑을 통해 필요한 데이터를 추출할 수 있다.

웹 크롤링에 사용되는 도구
- BeautifulSoup: Python 라이브러리로, HTML 및 XML 문서를 구문 분석하고 데이터를 추출하는 데 사용.

- Scrapy: 웹 크롤링을 위한 Python 프레임워크로, 효율적이고 확장성이 높은 크롤러를 쉽게 만들 수 있다.

- Selenium: 웹 브라우저 자동화 도구로, JavaScript가 동적으로 로드되는 페이지를 크롤링할 때 유용.

- Requests: Python의 HTTP 라이브러리로, 웹 페이지 요청을 쉽게 할 수 있다.

웹 크롤링의 기본 과정
- 크롤러 설정: 크롤러는 특정 웹 페이지를 시작점으로 설정. 이를 '시드(seed)'라고 부르며, 크롤러는 이 시드 URL에서 시작해 다른 페이지로 이동.

- 페이지 요청: 크롤러는 HTTP 요청을 보내 웹 페이지를 요청. 이 과정에서 크롤러는 브라우저처럼 행동하여 웹 서버에서 페이지를 가져온다.

- 데이터 추출: 웹 페이지가 응답되면, 크롤러는 페이지의 HTML을 분석하고 필요한 데이터를 추출. 이 과정에는 BeautifulSoup, Selenium 같은 라이브러리가 사용될 수 있다.

- 링크 추출 및 큐잉: 크롤러는 현재 페이지에서 다른 페이지로 연결되는 링크를 추출하고, 이 링크들을 큐(queue)에 추가하여 다음 크롤링 대상으로 삼는다.

- 반복: 이 과정은 정해진 규칙이나 종료 조건이 충족될 때까지 반복. 예를 들어, 특정 수의 페이지를 크롤링하거나, 주어진 도메인 내에서만 크롤링하도록 설정할 수 있다.

웹 크롤링의 주의사항

- 로봇 배제 표준(robots.txt): 많은 웹사이트는 robots.txt 파일을 통해 크롤러가 접근 가능한 부분과 접근을 제한하는 부분을 명시. 크롤러는 이 규칙을 준수해야 한다.

- 저작권 및 법적 이슈: 모든 웹사이트의 콘텐츠는 저작권의 보호를 받는다. 따라서 크롤링을 통해 수집한 데이터를 어떻게 사용할지에 대한 법적 문제를 주의해야 한다.

- 서버 부하: 지나친 크롤링은 웹 서버에 부하를 줄 수 있다. 크롤링 시에는 서버의 부담을 줄이기 위해 요청 간의 딜레이를 설정하는 것이 좋다.

#### BeautifulSoup
- BeautifulSoup은 HTML이나 XML 문서를 파싱하고, 파싱한 데이터에서 원하는 요소를 검색하고 추출하는 데 매우 유용한 도구입니다. 
- BeautifulSoup에서 객체를 찾는 주요 방법에는 find, find_all, select_one, select, find_parents, find_parent, find_next_sibling, find_previous_sibling 등이 있습니다.

검색 방식
- find, find_all: 태그 이름과 속성을 사용하여 요소를 검색합니다.
- select_one, select: CSS 선택자를 사용하여 요소를 검색합니다.

반환 결과:
- find: 첫 번째로 일치하는 요소를 반환합니다.
- find_all: 모든 일치하는 요소를 리스트로 반환합니다.
- select_one: 첫 번째로 일치하는 요소를 반환합니다.
- select: 모든 일치하는 요소를 리스트로 반환합니다.

표현력:
- select_one, select: 더 복잡하고 정교한 선택 조건을 지정할 수 있습니다. 예를 들어, CSS 선택자 문법을 사용하여 클래스, ID, 속성 등을 조합한 검색이 가능합니다.
- find, find_all: 단순한 태그 이름과 속성 조건에 기반한 검색이 주로 사용됩니다.



html.parser vs. lxml
- 파이썬에서 HTML 및 XML 문서를 파싱(parsing)하는 라이브러리
- html.parser는 HTML 문서를 파싱하는 데에 적합한 파서. 파이썬의 기본 라이브러리로 제공되며 파이썬 내부적으로 구현되어 있으며, 외부 종속성이 없으므로 파이썬과 함께 설치되는 패키지만 사용할 수 있습니다.
- lxml은 C 언어로 작성된 파이썬 외부 라이브러리로서 HTML 및 XML 문서를 파싱하는 데에 적합하며, 파서 성능이 매우 우수합니다.
- HTML 문서를 파싱하는 경우에는 html.parser를 사용하는 것이 간단하고 편리하며, 대부분의 경우에는 충분한 성능을 제공합니다. 그러나 대용량의 XML 문서나 매우 복잡한 HTML 문서를 파싱해야 하는 경우에는 lxml을 사용하는 것이 더 효율적입니다.

In [10]:
from bs4 import BeautifulSoup

html_content = '<html><body><h1>Title</h1><p class="content">First paragraph.</p><p class="content">Second paragraph.</p></body></html>'
soup = BeautifulSoup(html_content,'html.parser')
print(soup.prettify())

<html>
 <body>
  <h1>
   Title
  </h1>
  <p class="content">
   First paragraph.
  </p>
  <p class="content">
   Second paragraph.
  </p>
 </body>
</html>



크롤링 시 헤더를 포함하면 성공적으로 데이터를 가져올 가능성을 높여준다
headers : HTTP 요청에 포함되는 메타데이터
- User-Agent: 클라이언트 애플리케이션(브라우저 등)을 나타냅니다.
- Accept: 서버가 어떤 콘텐츠 타입을 반환해야 하는지 지정합니다.
- Accept-Language: 클라이언트가 선호하는 언어를 지정합니다.
- Referer: 요청이 발생한 이전 페이지의 URL을 지정합니다.
- Host: 요청을 보내는 서버의 호스트 이름을 지정합니다.
- Connection: 서버와 클라이언트 간의 연결 유형을 지정합니다.

```
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
    'Accept-Language': 'en-US,en;q=0.9',
    'Referer': 'http://example.com',
}


In [11]:
import requests
from bs4 import BeautifulSoup

# 예시 뉴스 페이지 URL
url = 'http://news.naver.com'
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}

response = requests.get(url,headers=headers)
response

<Response [200]>

response.content:
- response.content는 서버에서 반환된 응답을 바이트(byte) 문자열로 제공합니다.
- 주로 이미지, 파일 다운로드와 같은 바이너리 데이터를 다룰 때 사용됩니다.
- 인코딩과 상관없이 원본 그대로의 데이터를 가져오기 때문에, HTML 파싱을 할 때는 별도로 인코딩을 지정하지 않으면 기본 인코딩을 사용합니다.

response.text:
- response.text는 서버에서 반환된 응답을 유니코드 문자열로 제공합니다.
- requests 라이브러리는 response.text를 반환할 때, response.encoding에 지정된 인코딩을 사용하여 바이트 데이터를 유니코드 문자열로 디코딩합니다.
- 일반적인 텍스트 데이터, HTML, JSON 등의 처리를 할 때 유용합니다.

In [12]:
response.text

'\n<!doctype html>\n<html lang="ko">\n\t<head>\n\t\t<title id="browserTitleArea">네이버 뉴스</title>\n\t\t\n\n\n<script>\n\tfunction isMobileDevice() {\n\t\treturn /^.*(iPhone|iPod|iPad|Android).*/.test(navigator.userAgent);\n\t}\n</script>\n<script>\n\t(function () {\n\t\ttry {\n\t\t\tif (isMobileDevice() && isAbleApplyPrefersColorScheme()) {\n\t\t\t\t\n\t\t\t\tdocument.querySelector("html").classList.add("DARK_THEME");\n\t\t\t}\n\t\t} catch(e) {}\n\n\t\tfunction isAbleApplyPrefersColorScheme() {\n\t\t\t\n\t\t\tif (window.matchMedia("(prefers-color-scheme)").matches === false) {\n\t\t\t\treturn false;\n\t\t\t}\n\n\t\t\tvar userAgent = navigator.userAgent;\n\n\t\t\tif (userAgent.indexOf("NAVER") > -1) {\n\t\t\t\t\n\t\t\t\tif (/.*NAVER\\([a-zA-Z]*;\\s[a-zA-Z]*;\\s([0-9]*);/.test(userAgent)) {\n\t\t\t\t\treturn Number(RegExp.$1) >= 1000;\n\t\t\t\t}\n\t\t\t} else {\n\t\t\t\t\n\t\t\t\treturn document.cookie.indexOf("NSCS=1") > -1;\n\t\t\t}\n\n\t\t\treturn false;\n\t\t}\n\t})();\n</script>\n\n\t

In [13]:
soup = BeautifulSoup(response.text,'html.parser')
print(soup)


<!DOCTYPE html>

<html lang="ko">
<head>
<title id="browserTitleArea">네이버 뉴스</title>
<script>
	function isMobileDevice() {
		return /^.*(iPhone|iPod|iPad|Android).*/.test(navigator.userAgent);
	}
</script>
<script>
	(function () {
		try {
			if (isMobileDevice() && isAbleApplyPrefersColorScheme()) {
				
				document.querySelector("html").classList.add("DARK_THEME");
			}
		} catch(e) {}

		function isAbleApplyPrefersColorScheme() {
			
			if (window.matchMedia("(prefers-color-scheme)").matches === false) {
				return false;
			}

			var userAgent = navigator.userAgent;

			if (userAgent.indexOf("NAVER") > -1) {
				
				if (/.*NAVER\([a-zA-Z]*;\s[a-zA-Z]*;\s([0-9]*);/.test(userAgent)) {
					return Number(RegExp.$1) >= 1000;
				}
			} else {
				
				return document.cookie.indexOf("NSCS=1") > -1;
			}

			return false;
		}
	})();
</script>
<script>
		var g_ssc = 'news.v3_media' || null;
		</script>
<meta charset="utf-8"/>
<meta content="width=device-width,initial-scale=1.0,maximum-s

In [14]:
soup = BeautifulSoup(response.content,'html.parser')
print(soup.prettify())

<!DOCTYPE html>
<html lang="ko">
 <head>
  <title id="browserTitleArea">
   네이버 뉴스
  </title>
  <script>
   function isMobileDevice() {
		return /^.*(iPhone|iPod|iPad|Android).*/.test(navigator.userAgent);
	}
  </script>
  <script>
   (function () {
		try {
			if (isMobileDevice() && isAbleApplyPrefersColorScheme()) {
				
				document.querySelector("html").classList.add("DARK_THEME");
			}
		} catch(e) {}

		function isAbleApplyPrefersColorScheme() {
			
			if (window.matchMedia("(prefers-color-scheme)").matches === false) {
				return false;
			}

			var userAgent = navigator.userAgent;

			if (userAgent.indexOf("NAVER") > -1) {
				
				if (/.*NAVER\([a-zA-Z]*;\s[a-zA-Z]*;\s([0-9]*);/.test(userAgent)) {
					return Number(RegExp.$1) >= 1000;
				}
			} else {
				
				return document.cookie.indexOf("NSCS=1") > -1;
			}

			return false;
		}
	})();
  </script>
  <script>
   var g_ssc = 'news.v3_media' || null;
  </script>
  <meta charset="utf-8"/>
  <meta content="width=device-width,

In [15]:
# 'title' 태그만으로 요소 찾기
news_titles = soup.find('title')
news_titles.text
news_titles.get_text()
news_titles.string

'네이버 뉴스'

In [16]:
cats = soup.find_all(class_='Nitem_link_menu')
for idx, cat in enumerate(cats):
    print(f"{idx + 1}: {cat.get_text().strip()}")

1: 언론사별
2: 정치
3: 경제
4: 사회
5: 생활/문화
6: IT/과학
7: 세계
8: 랭킹
9: 신문보기
10: 오피니언
11: TV
12: 팩트체크
13: 알고리즘 안내
14: 정정보도 모음


string vs. get_text() vs. text
- BeautifulSoup 객체에서 text 속성, get_text() 메서드, string 속성은 모두 HTML 또는 XML 문서에서 텍스트 데이터를 추출하는 데 사용
- text 속성은 해당 태그에서 모든 텍스트 데이터를 가져오며,
- get_text() 메서드도 동일한 결과를 반환합니다.
- string 속성은 해당 태그에서 첫 번째로 발견된 문자열 데이터만 가져옵니다.

| Method      | 특징                                                                               | 사용 사례                                      |
|-------------|----------------------------------------------------------------------------------|-----------------------------------------------|
| `string`    | 자식 텍스트 노드가 하나인 경우에만 해당 텍스트 반환, 여러 노드가 있으면 `None` 반환                | 단일 텍스트 노드만 있는 요소의 텍스트를 추출할 때      |
| `get_text()`| 요소 및 모든 하위 요소의 텍스트를 모두 포함하여 문자열로 반환, `separator` 및 `strip` 옵션 사용 가능 | 요소 내 모든 텍스트를 추출하고, 구분자 및 공백 처리가 필요한 경우 |
| `text`      | 요소 및 모든 하위 요소의 텍스트를 모두 포함하여 문자열로 반환, 추가 매개변수 없음                  | 요소 내 모든 텍스트를 단순하게 추출할 때                   |

string
- 정의: string 속성은 BeautifulSoup 객체의 자식 노드 중 하나의 텍스트 노드만 반환. 해당 요소의 직접적인 텍스트 콘텐츠가 하나일 때만 유용.
- 특징:
요소가 하나의 자식 텍스트 노드를 가지고 있는 경우에만 그 텍스트를 반환.
여러 자식 요소가 있거나 텍스트 노드가 여러 개 있는 경우 None을 반환.

In [17]:
from bs4 import BeautifulSoup

html = """
<div class="example">
    Single text node
</div>
<div class="example">
    <p>Multiple</p> text <span>nodes</span>
</div>
"""

soup = BeautifulSoup(html,'html.parser')
single_text_node = soup.find('div',class_='example').string
multiple = soup.find_all('div',class_='example')

multiple_text_nodes = soup.find_all('div',class_='example')[1].string

print(single_text_node) # Output : Single text node
print(multiple, '\n')
print(multiple_text_nodes) # Output : None


    Single text node

[<div class="example">
    Single text node
</div>, <div class="example">
<p>Multiple</p> text <span>nodes</span>
</div>] 

None


get_text()
- 정의: get_text() 메서드는 요소 및 모든 하위 요소의 텍스트를 모두 추출하여 하나의 문자열로 반환.
- 특징:
요소 내의 모든 텍스트를 포함하여 반환.
기본적으로 하위 요소 사이에 공백을 추가하지만, separator 매개변수를 사용하여 구분자를 지정할 수 있다.
strip=True 옵션을 사용하여 앞뒤 공백을 제거할 수 있다.

In [18]:
from bs4 import BeautifulSoup

html = """
<div class="example">
    Single text node
</div>
<div class="example">
    <p>Multiple</p> text <span>nodes</span>
</div>
"""
soup = BeautifulSoup(html, 'html.parser')

# 기본적으로 'get_text()' 메서드는 공백을 구분차로 사용합니다
# strip=True 옵션을 사용하여 앞뒤 공백을 제거하고 텍스트를 추출
single_text_node = soup.find('div',class_='example').get_text(strip=True)
multiple_text_nodes = soup.find_all('div',class_='example')[1].get_text(strip=True)

print("Default separator : ")
print(single_text_node) # Output : Single text node
print(multiple_text_nodes)  # Output : Multiple text nodes

Default separator : 
Single text node
Multipletextnodes


In [19]:
# 'separator' 매개변수를 사용하여 구분자를 지정합니다
single_text_node_with_separator = soup.find('div',class_='example').get_text(strip=True)
multiple_text_nodes_with_separator = soup.find_all('div',class_='example')[1].get_text(separator='|',strip=True)

print("\nCustom separator ( ' | ' )")
print(single_text_node_with_separator)
print(multiple_text_nodes_with_separator)


Custom separator ( ' | ' )
Single text node
Multiple|text|nodes


text
- 정의: text 속성은 요소 및 모든 하위 요소의 텍스트를 모두 포함하는 문자열을 반환. get_text() 메서드와 동일한 기능을 한다.
- 특징:
get_text()와 거의 동일한 결과를 제공.
get_text()와 다르게 추가 매개변수(separator, strip)를 사용할 수 없다.

In [20]:
from bs4 import BeautifulSoup

html = """
<div class="example">
    Single text node
</div>
<div class="example">
    <p>Multiple</p> text <span>nodes</span>
</div>
"""
soup = BeautifulSoup(html, 'html.parser')

single_text_node = soup.find('div',class_='example').text
multiple_text_nodes = soup.find_all('div',class_='example')[1].text


print(single_text_node) 
print(multiple_text_nodes)  


    Single text node


Multiple text nodes



정규표현식을 이용한 크롤링 방법 

HTML 가져오기:
- requests 라이브러리를 사용하여 웹 페이지의 HTML을 가져옵니다.
HTML 파싱:
- BeautifulSoup을 사용하여 HTML 문서를 파싱합니다.
정규표현식 사용:
- re 모듈을 사용하여 특정 패턴을 가진 텍스트를 추출합니다.

In [21]:
import requests
from bs4 import BeautifulSoup
import re

html = """
<ul>
    <li>Email : example@example.com</li>
    <li>Email : example@example.org</li>
</ul>
"""

# 이메일 주소 추출
email_pattern= r'[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+'
emails = re.findall(email_pattern,html)
print(emails)

['example@example.com', 'example@example.org']


In [22]:
html = '''
<html>
<body>
<div>
Hello,world!
</div>
<div>
<p>
Hello,<b>world!</b>
</p>
</div>
</body>
</html>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
bs = soup.body.text
print(bs)



Hello,world!



Hello,world!





In [23]:
import re

texts =re.findall('[^\s]+',bs)
for t in texts:
    print(t)
# print(re.findall('[A-Za-z!]+',bs))

Hello,world!
Hello,world!


In [24]:
li = ' '
for t in texts:
    li += t
    li += ' '
print(li)

 Hello,world! Hello,world! 


In [25]:
html = '''
<html>
<head>
<title>Sample Page</title>
</head>
<body>
<div>
Hello, world! 123
</div>
<div>
<p>
456 Hello, <b>789 world!</b> Visit us at <a href="http://example.com">example.com</a>
</p>
</div>
<footer>
Contact us at <a href="mailto:info@example.com">info@example.com</a>
</footer>
</body>
</html>
'''

Q 주어진 html에서 아래 사항을 수행하세요
- 모든 단어 추출
- 이메일 주소 추출
- URL 추출
- 숫자 추출
- HTML 태그

In [26]:

soup = BeautifulSoup(html, 'html.parser')
text = soup.get_text()

# 1. 모든 단어 추출
words = re.findall(r'\b[A-Za-z]+\b', text)

# 2. 이메일 주소 추출
emails = re.findall(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', html)

# 3. URL 추출
urls = re.findall(r'https?://[^\s<>"]+|www\.[^\s<>"]+', html)

# 4. 숫자 추출
numbers = re.findall(r'\b\d+\b', text)

# 5. HTML 태그 추출
tags = re.findall(r'<[^>]+>', html)

# 결과 출력
print("모든 단어:", words)
print("이메일 주소:", emails)
print("URL:", urls)
print("숫자:", numbers)
print("HTML 태그:", tags)

모든 단어: ['Sample', 'Page', 'Hello', 'world', 'Hello', 'world', 'Visit', 'us', 'at', 'example', 'com', 'Contact', 'us', 'at', 'info', 'example', 'com']
이메일 주소: ['info@example.com', 'info@example.com']
URL: ['http://example.com']
숫자: ['123', '456', '789']
HTML 태그: ['<html>', '<head>', '<title>', '</title>', '</head>', '<body>', '<div>', '</div>', '<div>', '<p>', '<b>', '</b>', '<a href="http://example.com">', '</a>', '</p>', '</div>', '<footer>', '<a href="mailto:info@example.com">', '</a>', '</footer>', '</body>', '</html>']


In [27]:
# 모든 단어 추출
# \b 단어 경계, \w 단어 문자
words_list = ' '
soup = BeautifulSoup(html, 'html.parser')
words = re.findall(r'\b\w+\b',soup.text)
for word in words:
    words_list += word
    words_list += ' '
print(words_list)

 Sample Page Hello world 123 456 Hello 789 world Visit us at example com Contact us at info example com 


In [28]:
# 이메일 주소 추출
email_pattern = r'[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+'
emails = re.findall(email_pattern, html)
for email in emails:
    print(email)

info@example.com
info@example.com


In [29]:
# URL 추출
url_pattern = r'https?://[^\s<>"]+|www\.[^s<>"]+'
urls = re.findall(url_pattern, html)
for url in urls:
    print(url)

http://example.com


In [30]:
# 숫자 추출
num_list = ''
numbers = re.findall(r'\b\d+\b', html)
for number in numbers:
    num_list += number
    num_list += ' '
print(num_list)

123 456 789 


In [31]:
# HTML 태그 내 텍스트 추출
tag_texts = re.findall(r'>([^<]+)<', html)
text_lists = ' '.join(text.strip() for text in tag_texts)
text_lists = re.sub(r'\s+', ' ', text_lists)
# text_lists = text.lists.split()
print(text_lists)

 Sample Page Hello, world! 123 456 Hello, 789 world! Visit us at example.com Contact us at info@example.com 


In [32]:
from bs4 import BeautifulSoup
import re # 정규 표현식을 사용할 떄
html = """
<ul>
  <li><a href="hoge.html">hoge</li>
  <li><a href="https://example.com/fuga">fuga*</li>
  <li><a href="https://example.com/foo">foo*</li>
  <li><a href="http://example.com/aaa">aaa</li>
</ul>
"""

soup = BeautifulSoup(html, 'html.parser')

li = soup.find_all(href = re.compile(r"https://"))
print(li)
for e in li:
    print(e.attrs['href'])

[<a href="https://example.com/fuga">fuga*</a>, <a href="https://example.com/foo">foo*</a>]
https://example.com/fuga
https://example.com/foo


### urllib + bs

In [33]:
import urllib.request as rq

url = 'https://news.naver.com/section/100'

html = rq.urlopen(url)
bs = BeautifulSoup(html,'html.parser')
print(bs)

<!DOCTYPE html>

<html data-useragent="Python-urllib/3.10" lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta contents="always" name="referrer"/>
<meta content="600" http-equiv="refresh"/>
<meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0, user-scalable=no" name="viewport">
<meta content="정치 : 네이버 뉴스" property="og:title"/>
<meta content="website" property="og:type"/>
<meta content="https://news.naver.com/section/100" property="og:url"/>
<meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800x420_20221201.png" property="og:image"/>
<meta content="국회, 행정, 국방, 외교 등 정치 분야 뉴스 제공" property="og:description"/>
<meta content="네이버" property="og:article:author"/>
<meta content="summary" name="twitter:card"/>
<meta content="정치 : 네이버 뉴스" name="twitter:title"/>
<meta content="네이버 뉴스" name="twitter:site"/>
<meta content="네이버 뉴스" name="twitter:creator"/>
<meta content="https://ssl.pst

In [34]:
text1 = bs.find('p')
print(text1)

<p class="sa_head_layer_p">각 헤드라인의 기사와 배열 순서는 개인화를 반영해 자동 추천되어 제공됩니다. 기사 수량이 표기된 기사 우측 하단의 파란색 아이콘을 클릭하면 기사묶음을 확인할 수 있고 기사묶음과 기사묶음 타이틀도 기사 내용을 기반으로 <strong>자동 추출</strong>됩니다.</p>


In [35]:
text10 = bs.find_all('p')
for t in text10:
    print(t.text)

각 헤드라인의 기사와 배열 순서는 개인화를 반영해 자동 추천되어 제공됩니다. 기사 수량이 표기된 기사 우측 하단의 파란색 아이콘을 클릭하면 기사묶음을 확인할 수 있고 기사묶음과 기사묶음 타이틀도 기사 내용을 기반으로 자동 추출됩니다.
AiRS 추천으로 구성된 뉴스를 제공합니다.
각 언론사의 가장 많이 본 기사 1건을 제공합니다.
“아버지와 갈등 와중에”...박세리, 미국서 희소식 날아왔다
'콩가루' 아워홈 큰딸, 회장 맡자마자 "경영권 판다" 깜짝 선언
“군수 부인이 명품백 선물 받았다” 제보…충남도, 감사 착수
“미용실 몇 시까지 해요?” 묻던 남성, 등 뒤에 흉기가…[영상]
이국종 "의대생 200만명 늘린다고 소아과 가겠나"
[제보23] 강남구 호텔서 화재…경부고속도로 화물차 3대 추돌 外
"이러다 타 죽어"...찜통 폭염 속 건강관리 주의
맥도날드에서 '감튀' 못 먹는다…"판매 일시 중단" 이유는
"국내 대기업 아이스크림에서 2cm '너트'가 발견됐습니다"
[속보]서울 역삼동 아이파크 아파트 화재...11개월 아기·에어컨 기사 병원 이송
“이대생 성상납” 野 김준혁… 되레 이화여대 고소
[북러 회담] 벤츠 "공식 판매 아닌데…" 제재 비웃듯 평양 퍼레이드
딸이 삼켰으면 끔찍…대기업 아이스크림서 '2cm 너트' 나왔다
"어제 꿈에서 본 호랑이" 뭐길래? 1억뷰 찍은 이 그림 [소셜픽]
"北 고등학생들, 목욕탕 빌려 집단 성관계에 마약까지"
“시청률 0%, 터질게 터졌다” 넷플릭스발 초유의 사태 ‘발칵’
[속보]서울 강남구 역삼동 아이파크 아파트 화재
하루에 물 1300t 빼가는 생수공장…“좀 보소, 사람 사는 집엔 흙탕물뿐”
이국종 "의료계 벌집 터졌다…의대생 늘린다고 소아과 하겠나"
"이게 무슨 추태냐"...'대구 공무원 치킨집 갑질' 탄식에 홍준표 한마디
'MBC 신뢰도 1위'에 눈 감은 언론재단..."언론 '장악 진흥' 재단인가"
"부자는커녕 간신히 생활"…月 500만원 벌던 인플루언서 눈물
[단독] '한동훈 딸 논문 대필 의혹' 재수사 여부, 오늘 

In [36]:
bs.find('p',class_='sa_head_layer_p')

<p class="sa_head_layer_p">각 헤드라인의 기사와 배열 순서는 개인화를 반영해 자동 추천되어 제공됩니다. 기사 수량이 표기된 기사 우측 하단의 파란색 아이콘을 클릭하면 기사묶음을 확인할 수 있고 기사묶음과 기사묶음 타이틀도 기사 내용을 기반으로 <strong>자동 추출</strong>됩니다.</p>

In [37]:
text2 = bs.find('p').string
print(text2)

None


In [38]:
print(bs.find('title'))

<title>정치 : 네이버 뉴스</title>


In [39]:
print(bs.find('title').string)

정치 : 네이버 뉴스


### requests + bs

인코딩 에러를 해결
- chardet는 "Universal Character Encoding Detector"로, 다양한 인코딩을 감지할 수 있는 파이썬 패키지
- chardet.detect(response.content)['encoding']은 response.content의 인코딩 방식을 자동으로 감지하여 반환하며<br>
- 이 값을 encoding 변수에 저장한 후, response.content를 이 encoding 방식으로 디코딩하여 html 변수에 저장하고 출력

In [40]:
! pip install chardet



In [41]:
import requests
import chardet

# HTTP 요청에서 사용할 헤더 정보를 설정합니다
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}

# 웹사이트에서 스크래핑 URL를 지정합니다
url = 'https://news.naver.com/section/100'

# 지정된 url에 HTTP GET 요청을 전달
response = requests.get(url, headers=headers)

# HTTP 요총이 성공적으로 전달되었다면, 웹사이트의 HTML 코드를 출력합니다
if response.status_code == 200:
    encoding = chardet.detect(response.content)['encoding']
    # print(response.)
    print(response.text)
else:
    print("HTTP request failed")


<!doctype html>
<html lang="ko" data-useragent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36">
	<head>
		<meta charset="utf-8">
		<meta http-equiv="X-UA-Compatible" content="IE=edge">
		<meta name="referrer" contents="always">
		<meta http-equiv="refresh" content="600">
		<meta name="viewport" content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0, user-scalable=no" />
		<meta property="og:title" content="정치 : 네이버 뉴스">
		<meta property="og:type" content="website">
		<meta property="og:url" content="https://news.naver.com/section/100">
		<meta property="og:image" content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800x420_20221201.png">
		<meta property="og:description" content="국회, 행정, 국방, 외교 등 정치 분야 뉴스 제공">
		<meta property="og:article:author" content="네이버">
		<meta name="twitter:card" content="summary">
		<meta name="twitter:title" content="정치 : 네이버 뉴스">
		<meta nam

In [42]:
# 한글만 출력
import re

texts = response.text
result = re.findall('[가-핳]+',texts)
print(' '.join(result))

정치 네이버 뉴스 국 정 국방 외교 등 정치 분야 뉴스 제공 네이버 정치 네이버 뉴스 네이버 뉴스 네이버 뉴스 국 정 국방 외교 등 정치 분야 뉴스 제공 정치 네이버 뉴스 로그 전송 최대치 도달 본문 바로가기 뉴스 연예 스포츠 날씨 프리미엄 검색 언론사별 정치 경제 사 생 문 과학 세계 랭킹 신문보기 오피니언 팩트체크 알고리즘 안내 정정보도 모음 목 전체 언론사 뉴스스탠드 라이브러리 정치 대통령실 국 정당 북한 정 국방 외교 정치일반 뉴스 알고리즘 프리미엄콘텐츠 드라인 뉴스 안내 각 드라인의 기사와 배열 순서는 개인 를 반영 자동 추천되어 제공됩니다 기사 수량이 표기된 기사 우측 하단의 파란색 아이콘을 클릭하면 기사묶음을 인할 수 있고 기사묶음과 기사묶음 타이틀도 기사 내용을 기반으로 자동 추출 됩니다 알고리즘 자세 보기 닫기 민주 방통위 무력 중단하라 무슨 근거로 정 마비 민주 방통위 무력 중단하라 무슨 근거로 정 마비 민주당 스스로 인체제 합법성 인정 인 체제 구성에 조하면 될 일 국민의 은 일 더불어민주당이 방송통신위원 인 체제 합법성을 인정 다며 그동안 인 체제를 문제 삼아 방통위 무력 를 시도 온 것 연합뉴스 개의 관련뉴스 더보기 민주당 오늘은 거부 양곡관리법 노란봉투법 상임위 상정 민주당 오늘은 거부 양곡관리법 노란봉투법 상임위 상정 국 주요 상임위원 위원장을 차지한 더불어민주당이 일 농림축산식품 양수산위원 와 경노동위원 를 열어 양곡관리법 개정안과 노란봉투법 노동조합법 개정안 을 상정한다 법제사법위원 에서는 병대원 특검법안에 조선일보 개의 관련뉴스 더보기 북러 조약 공개 전쟁상태 처하면 지체 없이 군사 원조 제공 북러 조약 공개 전쟁상태 처하면 지체 없이 군사 원조 제공 북한과 러시아가 한 쪽이 무력 침공을 받으면 유엔 장과 북한과 러시아의 법에 준 지체 없이 군사 원조를 제공하기로 합의 습니다 조선중앙통신은 오늘 일 김정은 국무위원장과 푸틴 러시아 대통령이 체결한 포 개의 관련뉴스 더보기 조국 한동 씨 법 석 엉터리 소법 공부 안 한 사람 조국 

In [43]:
import requests
from bs4 import BeautifulSoup

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}


url = 'https://serieson.naver.com/v3/movie/ranking/realtime'
response = requests.get(url,headers=headers)

if response.status_code == 200:
    soup = BeautifulSoup(response.text, "html.parser")

soup.find("span", class_="Title_title__s9o0D").text


'인사이드 아웃(패키지상품 : 더빙판 + 부가영상 추가증정)'

In [44]:
list = soup.find_all("span",class_="Title_title__s9o0D")
for i, l in enumerate(list[:10]):
    print(f'{i+1} : {l.text}')

1 : 인사이드 아웃(패키지상품 : 더빙판 + 부가영상 추가증정)
2 : 소울메이트
3 : 원더
4 : 설계자
5 : 외계+인 2부
6 : 너의 이름은.
7 : 매드맥스: 분노의 도로(2.35:1 극장판)
8 : 빌리 엘리어트
9 : 콩나물
10 : 악마와의 토크쇼


### CSS 선택자
- 원하는 정보만 선별하여 수집하고 싶을 때 css선택자를 활용할 수 있음
- (CSS 선택자 설명 추가)
- F12 >> 수집하고 싶은 부분 클릭 >> 태그 선택 >> copy Selector
- BeautifulSoup의 select_one, select 활용

개발자 도구상에서 .classs로 확인한 정치기사 개수는 58개인 반변에 select('.class')로 크롤링한 기사 개수는 38개인 이유
- 많은 사이트는 javaScript를 사용하여 콘텐츠를 동적으로 로딩하는 반면 requests + Beautifulsoup은 기본적으로 JavaScript
   를 실행하지 않기 떄문에 일부 js로 로딩되즌 콘텐츠는 크롤링 되지 않는다
-  페이지가 완전히 로드되기 전에 크롤링이 시도될 경우 일부 콘텐츠가 누락될 수 있다
-  웹페이지가 비동기 요청(Ajax)를 사용하여 데이터를 가져오는 경우 이 요청을 수동으로 처리하지 않는 한 해당 데이터를 가져오지 못할 수 있다

In [45]:
import requests as rq
from bs4 import BeautifulSoup


headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}

url = 'https://news.daum.net/politics#1'
r = rq.get(url, headers=headers)
html = r.text
soup = BeautifulSoup(html, 'html.parser')

lines = soup.select('.link_txt')
body = '\n'.join([f'{i+1},{line.text}' for i, line in enumerate(lines)])
print(body)

1,[맞수다] 출마 선언 봇물‥용산 '깐부'는 누구?
2,아이 발달 골든타임 놓치지 않도록...성북구 부모교육
3,野, 채상병특검 청문회 불출석 증인 ‘무더기 고발’ 예고…“신원식·김계환만 사유서 제출”[이런정치]
4,정부 "북러 안보리결의 위반 군사기술 협력 언급 유감"
5,한동훈, 23일 당대표 출마 선언… “용산과 기싸움 하지 않겠다”
6,[단독] 방북·대납 동기 없었다는 이재명…檢 “당시 적극적 정치 활동”
7,尹, 차관인사 단행… 환경 이병화·고용 김민석·특허청 김완기
8,[단독]민주, 국회청문회서 ‘동행명령’ 가능토록 법 개정안 발의
9,저출생 대응에도 손 못잡은 여야... 민주, 정부 대책에 날선 비판
10,이준석 1호 법안은 '반값 선거법'…"젊은 후보, 유권자들에 혜택"
11,민주당 “팔수록 석유 대신 ‘카르텔’ 의혹···동해 바다가 동문회 장소냐”
12,행복청, 삼성이노베이션뮤지엄 등 찾아 1박2일 벤치마킹
13,“권익위, 회의 전날 ‘김건희 안건’ 급히 추가” 내부 제보
14,정부 고위 관계자, 북러 조약에 "세상에 없을 시나리오에 대한 약속"
15,원희룡, 당 대표 출마선언…'한·나·원' 3파전 예고
16,육군 학사·간부사관 438명 임관…독립후손가 후손 등 눈길
17,野, 채상병특검 청문회 불출석 증인 ‘무더기 고발’ 예고…“신원식·김계환만 사유서 제출”
18,나경원 "근본 깨는 이재명, 대한민국 비명횡사..무조건 막아야, 곧 결심"
19,박원석 "원희룡 출마? 용산 참전신호"...김근식 "결선투표 노린 듯"
20,나경원 “당 대표는 대통령과의 갈등이 겉으로 드러나면 안 돼…차별화해 대권 가겠다는 건 미래 없어”
21,최진녕 변호사 / 서용주 전 더불어민주당 상근부대변인 - 원 구성 놓고 여야 입장 차…대치 정국 심화
22,③중산층까지 악영향? 금투세 쟁점과 필요한 결정은?
23,위계충 권폭귀
24,1년 전 나경원 막은 친윤, 이번엔 한동훈 대항마로 키운다?
25,“김경율 누가 데려왔나”… 與, 한동훈 둘러싸고 뜬금없는 공방
26,뉴스홈

In [46]:
import requests as rq
from bs4 import BeautifulSoup
import pandas as pd


headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}

url = 'https://news.daum.net/politics#1'
r = rq.get(url, headers=headers)
html = r.text
soup = BeautifulSoup(html, 'html.parser')


lines = soup.select('a.link_txt')
articles = [line.text.strip() for line in lines]
df = pd.DataFrame({'Article' : articles})
df.head()

Unnamed: 0,Article
0,[맞수다] 출마 선언 봇물‥용산 '깐부'는 누구?
1,아이 발달 골든타임 놓치지 않도록...성북구 부모교육
2,"野, 채상병특검 청문회 불출석 증인 ‘무더기 고발’ 예고…“신원식·김계환만 사유서 ..."
3,"정부 ""북러 안보리결의 위반 군사기술 협력 언급 유감"""
4,"한동훈, 23일 당대표 출마 선언… “용산과 기싸움 하지 않겠다”"


In [54]:
# 개발자 도구 copy.selector
titles = soup.select('body > div > main > section > div > div > ul > li > div > div > strong > a')
for i, title in enumerate(titles, start=1):
    print(f"{i}, {title.get_text().strip()}")

1, [맞수다] 출마 선언 봇물‥용산 '깐부'는 누구?
2, 아이 발달 골든타임 놓치지 않도록...성북구 부모교육
3, 野, 채상병특검 청문회 불출석 증인 ‘무더기 고발’ 예고…“신원식·김계환만 사유서 제출”[이런정치]
4, 정부 "북러 안보리결의 위반 군사기술 협력 언급 유감"
5, 한동훈, 23일 당대표 출마 선언… “용산과 기싸움 하지 않겠다”
6, [단독] 방북·대납 동기 없었다는 이재명…檢 “당시 적극적 정치 활동”
7, 野, 채상병특검 청문회 불출석 증인 ‘무더기 고발’ 예고…“신원식·김계환만 사유서 제출”
8, 나경원 "근본 깨는 이재명, 대한민국 비명횡사..무조건 막아야, 곧 결심"
9, 박원석 "원희룡 출마? 용산 참전신호"...김근식 "결선투표 노린 듯"
10, 나경원 “당 대표는 대통령과의 갈등이 겉으로 드러나면 안 돼…차별화해 대권 가겠다는 건 미래 없어”
11, 최진녕 변호사 / 서용주 전 더불어민주당 상근부대변인 - 원 구성 놓고 여야 입장 차…대치 정국 심화
12, ③중산층까지 악영향? 금투세 쟁점과 필요한 결정은?
13, 위계충 권폭귀
14, 1년 전 나경원 막은 친윤, 이번엔 한동훈 대항마로 키운다?
15, “김경율 누가 데려왔나”… 與, 한동훈 둘러싸고 뜬금없는 공방


In [56]:
import re

soup = BeautifulSoup(html, 'html.parser')

lines = soup.select('body > div > main > section > div > div > ul > li > div > div > strong > a')

for i, tag in enumerate(lines, start=1):
    text = tag.get_text().strip().replace(',','')
    matches = re.findall('[가-힣0-9]+', text)
    print(f"{i}, {' '.join(matches)}")

1, 맞수다 출마 선언 봇물 용산 깐부 는 누구
2, 아이 발달 골든타임 놓치지 않도록 성북구 부모교육
3, 채상병특검 청문회 불출석 증인 무더기 고발 예고 신원식 김계환만 사유서 제출 이런정치
4, 정부 북러 안보리결의 위반 군사기술 협력 언급 유감
5, 한동훈 23일 당대표 출마 선언 용산과 기싸움 하지 않겠다
6, 단독 방북 대납 동기 없었다는 이재명 당시 적극적 정치 활동
7, 채상병특검 청문회 불출석 증인 무더기 고발 예고 신원식 김계환만 사유서 제출
8, 나경원 근본 깨는 이재명 대한민국 비명횡사 무조건 막아야 곧 결심
9, 박원석 원희룡 출마 용산 참전신호 김근식 결선투표 노린 듯
10, 나경원 당 대표는 대통령과의 갈등이 겉으로 드러나면 안 돼 차별화해 대권 가겠다는 건 미래 없어
11, 최진녕 변호사 서용주 전 더불어민주당 상근부대변인 원 구성 놓고 여야 입장 차 대치 정국 심화
12, 중산층까지 악영향 금투세 쟁점과 필요한 결정은
13, 위계충 권폭귀
14, 1년 전 나경원 막은 친윤 이번엔 한동훈 대항마로 키운다
15, 김경율 누가 데려왔나 한동훈 둘러싸고 뜬금없는 공방


In [62]:
# 검색 키워드 입력받아 출력
from bs4 import BeautifulSoup
import re
from datetime import datetime
import os

query = input('검색 키워드 입력하세요 : ')
query = query.replace(' ', '*')
print(query)

news_url ='https://search.naver.com/search.naver?where=news&sm=tab_jum&query={}'

# format(query) 메서드는 URL 템플릿 { } 부분을 query로 대체
req = requests.get(news_url.format(query))

html = req.text
soup =BeautifulSoup(html, 'html.parser')
links = soup.select('.news_tit')

for link in links:
    title = link.text
    url = link.attrs['href']
    print(title,'\n',url)

삼성전자
이걸로 전기료 낮췄다.. 삼성전자가 내놓은 야심작 
 http://www.edaily.co.kr/news/newspath.asp?newsid=02168086638923688
삼성전자, 보급형 스마트폰 ‘갤럭시 A35′ 내일 출시…49만9400원 
 https://biz.chosun.com/it-science/ict/2024/06/20/RGECIE7ZYZBZNLGZZG3C5RDJFA/?utm_source=naver&utm_medium=original&utm_campaign=biz
삼성전자, 보급폰 '갤럭시 A35 5G' 21일 국내 출시 
 https://www.moneys.co.kr/article/2024062008220012105
삼성전자 '비스포크 AI 하이브리드' 냉장고 소개 브리핑 
 https://www.yna.co.kr/view/PYH20240620069900013?input=1196m
삼성전자 AI TV의 기반이 된 타이젠 OS, 온디바이스 플랫폼으로 진화 
 https://www.etoday.co.kr/news/view/2371627
삼성전자 주가 더 오를까…반도체 경영진 릴레이 매수 
 https://www.hankyung.com/article/2024061980771
삼성전자, '인포콤 2024' 11개 어워드 수상…역대 최다 
 https://zdnet.co.kr/view/?no=20240619091420
삼성전자 프리미엄 빌트인 가전 '데이코'…소비자 접점 늘린다 
 https://www.news1.kr/articles/5451731
'美 출장' 전영현 등 삼성전자 임직원 13명, 자사주 대거 매입…배경 주목 
 https://view.asiae.co.kr/article/2024062007135589863
삼성전자, ‘스마트싱스 에너지’ 서비스 개편 
 https://www.busan.com/view/busan/view.php?code=2024062009095914613


In [7]:
# 실습 과제 : Electro 사이트를 크롤링해서 category, name,   link, price 4개 컬럼으로 구성되는 데이터프레임을 출력하세요.
import requests
from bs4 import BeautifulSoup 

url = 'https://startcoding.pythonanywhere.com/basic'

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}

response = requests.get(url, headers=headers)

soup = BeautifulSoup(response.text, 'html.parser')

In [8]:
soup.select_one(".product-price").text

'1,419,000원\n\t\t\t\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\t\t'

In [9]:
soup.select_one(".product-price").text.strip()

'1,419,000원'

In [10]:
soup.select_one(".product-price").text.strip().replace("원","").replace(",","")

'1419000'

In [48]:
items = soup.select(".product")
for itme in items:
    categorie = itme.select_one(".product-category").text.strip()
    name = itme.select_one(".product-name").text.strip()
    link = itme.select_one(".product-name > a").attrs['href']
    price = itme.select_one(".product-price").text.strip().replace("원","").replace(",","")
    print(categorie,name,link,price)

노트북 에이서 스위프트 GO 16 OLED, 스틸 그레이, 코어i7, 512GB, 16GB, WIN11 Home, SFG16-71-77FT #product1_detail.html 1419000
노트북 삼성전자 노트북 플러스2 15.6, 퓨어 화이트, NT550XDA-K24AT, 펜티엄, 256GB, 8GB, WIN11 Pro #product2_detail.html 549000
노트북 레노버 아이디어패드 슬림 1 15AMN7 15.6, 256GB, Free DOS, 82VG002EKR, 라이젠3, Cloud Grey (82VG), 8GB #product3_detail.html 529000
노트북 레노버 V15 G4 AMN 15.6, Arctic Grey, 라이젠3, 256GB, 8GB, WIN11 Home, 82YU0009KR #product4_detail.html 624000
										
										649000
노트북 LG 울트라PC 엣지 16, 차콜 그레이, 라이젠5, 256GB, 16GB, WIN11 Home, 16U70R-GA56K #product5_detail.html 1135000
노트북 베이직스 베이직북 14 3세대, BB1422SS, 256GB, White, WIN11 Pro, 셀러론, 8GB #product6_detail.html 398000
노트북 레노버 아이디어패드 슬림 5i 14IRL 14, Cloud Grey, 코어i5, 512GB, 16GB, Free DOS, 82XD002XKR #product7_detail.html 899000
										
										1099000
노트북 레노버 아이디어패드 슬림 5 16IRL 16, Cloud Grey, 512GB, 16GB, Free DOS, 82XF001RKR #product8_detail.html 929000
노트북 에이서 스위프트 GO 16 OLED, 스틸 그레이, 코어i5, 512GB, 16GB, Free DOS, SFG16-71-51BY #product9_det

In [53]:
import requests
from bs4 import BeautifulSoup 

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}


data =[]
for i in range(1, 5):
    response = requests.get(f"https://startcoding.pythonanywhere.com/basic?page={i}", headers=headers)

    soup = BeautifulSoup(response.text, 'html.parser')
    items = soup.select(".product")
    for itme in items:
        category = itme.select_one(".product-category").text.strip()
        name = itme.select_one(".product-name").text.strip()
        link = itme.select_one(".product-name > a").attrs['href']
        price = itme.select_one(".product-price").text.split("원")[0].replace(",","")
        print(category,name,link,price)
        data.append([category,name,link,price])

df = pd.DataFrame(data)
df

노트북 에이서 스위프트 GO 16 OLED, 스틸 그레이, 코어i7, 512GB, 16GB, WIN11 Home, SFG16-71-77FT #product1_detail.html 1419000
노트북 삼성전자 노트북 플러스2 15.6, 퓨어 화이트, NT550XDA-K24AT, 펜티엄, 256GB, 8GB, WIN11 Pro #product2_detail.html 549000
노트북 레노버 아이디어패드 슬림 1 15AMN7 15.6, 256GB, Free DOS, 82VG002EKR, 라이젠3, Cloud Grey (82VG), 8GB #product3_detail.html 529000
노트북 레노버 V15 G4 AMN 15.6, Arctic Grey, 라이젠3, 256GB, 8GB, WIN11 Home, 82YU0009KR #product4_detail.html 624000
노트북 LG 울트라PC 엣지 16, 차콜 그레이, 라이젠5, 256GB, 16GB, WIN11 Home, 16U70R-GA56K #product5_detail.html 1135000
노트북 베이직스 베이직북 14 3세대, BB1422SS, 256GB, White, WIN11 Pro, 셀러론, 8GB #product6_detail.html 398000
노트북 레노버 아이디어패드 슬림 5i 14IRL 14, Cloud Grey, 코어i5, 512GB, 16GB, Free DOS, 82XD002XKR #product7_detail.html 899000
노트북 레노버 아이디어패드 슬림 5 16IRL 16, Cloud Grey, 512GB, 16GB, Free DOS, 82XF001RKR #product8_detail.html 929000
노트북 에이서 스위프트 GO 16 OLED, 스틸 그레이, 코어i5, 512GB, 16GB, Free DOS, SFG16-71-51BY #product9_detail.html 1008000
노트북 삼성전자 갤럭시북 2 15.6, 500GB, 실버, NT550XE

Unnamed: 0,0,1,2,3
0,노트북,"에이서 스위프트 GO 16 OLED, 스틸 그레이, 코어i7, 512GB, 16GB...",#product1_detail.html,1419000
1,노트북,"삼성전자 노트북 플러스2 15.6, 퓨어 화이트, NT550XDA-K24AT, 펜티...",#product2_detail.html,549000
2,노트북,"레노버 아이디어패드 슬림 1 15AMN7 15.6, 256GB, Free DOS, ...",#product3_detail.html,529000
3,노트북,"레노버 V15 G4 AMN 15.6, Arctic Grey, 라이젠3, 256GB,...",#product4_detail.html,624000
4,노트북,"LG 울트라PC 엣지 16, 차콜 그레이, 라이젠5, 256GB, 16GB, WIN...",#product5_detail.html,1135000
5,노트북,"베이직스 베이직북 14 3세대, BB1422SS, 256GB, White, WIN1...",#product6_detail.html,398000
6,노트북,"레노버 아이디어패드 슬림 5i 14IRL 14, Cloud Grey, 코어i5, 5...",#product7_detail.html,899000
7,노트북,"레노버 아이디어패드 슬림 5 16IRL 16, Cloud Grey, 512GB, 1...",#product8_detail.html,929000
8,노트북,"에이서 스위프트 GO 16 OLED, 스틸 그레이, 코어i5, 512GB, 16GB...",#product9_detail.html,1008000
9,노트북,"삼성전자 갤럭시북 2 15.6, 500GB, 실버, NT550XED-K78AS, 코...",#product10_detail.html,1149000


In [55]:
# 데이터 프레임 만들기
import pandas as pd
df = pd.DataFrame(data, columns=['category','name','link','price'])
df.head()

Unnamed: 0,category,name,link,price
0,노트북,"에이서 스위프트 GO 16 OLED, 스틸 그레이, 코어i7, 512GB, 16GB...",#product1_detail.html,1419000
1,노트북,"삼성전자 노트북 플러스2 15.6, 퓨어 화이트, NT550XDA-K24AT, 펜티...",#product2_detail.html,549000
2,노트북,"레노버 아이디어패드 슬림 1 15AMN7 15.6, 256GB, Free DOS, ...",#product3_detail.html,529000
3,노트북,"레노버 V15 G4 AMN 15.6, Arctic Grey, 라이젠3, 256GB,...",#product4_detail.html,624000
4,노트북,"LG 울트라PC 엣지 16, 차콜 그레이, 라이젠5, 256GB, 16GB, WIN...",#product5_detail.html,1135000


In [56]:
# utf-8-sig는 UTF-8 인코딩에 BOM(Byte Order Mark)을 추가하는 옵션
df.to_csv('result.csv',encoding='utf-8-sig',index=False)

In [57]:
df = pd.read_csv('result.csv')
df.head()

Unnamed: 0,category,name,link,price
0,노트북,"에이서 스위프트 GO 16 OLED, 스틸 그레이, 코어i7, 512GB, 16GB...",#product1_detail.html,1419000
1,노트북,"삼성전자 노트북 플러스2 15.6, 퓨어 화이트, NT550XDA-K24AT, 펜티...",#product2_detail.html,549000
2,노트북,"레노버 아이디어패드 슬림 1 15AMN7 15.6, 256GB, Free DOS, ...",#product3_detail.html,529000
3,노트북,"레노버 V15 G4 AMN 15.6, Arctic Grey, 라이젠3, 256GB,...",#product4_detail.html,624000
4,노트북,"LG 울트라PC 엣지 16, 차콜 그레이, 라이젠5, 256GB, 16GB, WIN...",#product5_detail.html,1135000


In [None]:
df.category.value_counts

## 6/21

In [59]:
# 네이버 뉴스제목과 링크 추출
# urllib 사용
import urllib.request
import urllib.parse
from bs4 import BeautifulSoup

baseUrl = 'https://search.naver.com/search.naver?where=news&sm=tab_jum&query='
plusUrl = input('검색어를 입력하세요 ')
url = baseUrl + urllib.parse.quote_plus(plusUrl)

html = urllib.request.urlopen(url).read()
soup = BeautifulSoup(html,'html.parser')

title = soup.find_all(class_='news_tit')

for i in title:
    print(i.attrs['title'])
    print(i.attrs['href'])
    print()

떡볶이 먹는 유관순 언니…가슴 뭉클해지는 AI 이미지
https://www.newsis.com/view/NISX20240620_0002780393

한컴-한전, 인공지능·데이터 분야 협력…AI기반 사무 소프트웨어 도입
https://www.electimes.com/news/articleView.html?idxno=338964

AI의 일자리 습격…"은행업 54% 자동화 전망"
https://view.asiae.co.kr/article/2024062004370354312

[그래픽] 생성형 인공지능(AI) 이용 조사 결과
https://www.yna.co.kr/view/GYH20240620000300044?input=1363m

SK바이오사이언스, 백신 연구개발에 AI 기반 실험 설계 시스템 구축
https://www.etoday.co.kr/news/view/2372185

제주도, 실종자 수색에 인공지능 AI 활용
https://news.kbs.co.kr/news/pc/view/view.do?ncd=7993391&ref=A

KT, 미래교육 위한 '인공지능(AI) 맞춤형 교수학습 플랫폼' 구축
https://www.econovill.com/news/articleView.html?idxno=658337

인공지능 탑재된 냉장고
https://www.news1.kr/photos/view/?6715440

세계 통신사 인공지능 협력 본격화
https://www.naeil.com/news/read/514064?ref=naver

[월드 핫피플] 인공지능(AI) 왕의 귀환 “안전한 초지능 만들겠다”
https://www.seoul.co.kr/news/plan/2024/06/20/20240620500110?wlog_tag3=naver



In [61]:
# 여러 페이지 기사 크롤링

import requests
from bs4 import BeautifulSoup
import pandas as pd

# HTTP 요청에 사용할 헤더 설정
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}

# 빈 리스트를 만들어 기사를 저장할 준비를 합니다
all_articles = []

# 여러 페이즈를 순회하며 기사 제목을 추출
for page_num in range(1, 6): # 예를 들어 1 ~ 5 페이지를 순회
    url = f'https://finance.naver.com/news/mainnews.naver?&page={page_num}'
    r =requests.get(url, headers=headers)
    html = r.text
    soup = BeautifulSoup(html, 'html.parser')

    # 기사 제목 추출
    lines = soup.select('.articleSubject > a')
    for line in lines:
        title =line.get_text(strip=True)
        # https://finance.naver.com 이라는 도메인을 상대 경로를 추가하여 절대 경로를 만듭니다ㅠ
        link = 'https://finance.naver.com'+line['href']
        all_articles.append((title, link))

# 데이터프레임 생성
df = pd.DataFrame(all_articles, columns=['Title','Link'])

# 데이터프레임 추력
df

Unnamed: 0,Title,Link
0,"‘자본시장 단골’ SK 재편시도, 시장 화답할까",https://finance.naver.com/news/news_read.naver...
1,삼성전자 주가 ‘제자리’ 때 엔비디아 10배↑,https://finance.naver.com/news/news_read.naver...
2,"삼성전자, D램 날개달고 HBM 통과도 기대…순매수 1위[주식 초고수는 지금]",https://finance.naver.com/news/news_read.naver...
3,"""한국산? 믿고 먹지"" 알고보니 수출강자…건기식주 '재조명'",https://finance.naver.com/news/news_read.naver...
4,"코스피, 2800선 하루 만에 반납…시총 상위주 일제히 하락",https://finance.naver.com/news/news_read.naver...
...,...,...
95,"코스피 뛸 때, 기는 코스닥…그래도 후광 수혜주는 웃는다",https://finance.naver.com/news/news_read.naver...
96,상폐 결정에 법원 찾는 기업들...속 타는 주주들,https://finance.naver.com/news/news_read.naver...
97,적출되는 ETF들···LP 호가 공백 괜찮나,https://finance.naver.com/news/news_read.naver...
98,"“채권으로 돈 좀 버나 했더니, 찬물 끼얹나”…개미들 ‘멘붕’ 빠진 이유",https://finance.naver.com/news/news_read.naver...


In [62]:
df.Link.loc[0]

'https://finance.naver.com/news/news_read.naver?article_id=0002325150&office_id=016&mode=mainnews&type=&date=2024-06-21&page=1'

검색 키워드 및 뉴스 기사 수 입력 

네이버 뉴스 검색 결과 페이지의 URL 구조를 활용
- start 파라미터는 10 * (page_number - 1) + 1입니다. 즉, 첫 번째 페이지는 &start=1 또는 생략, 두 번째 페이지는 &start=11, 세 번째 페이지는 &start=21입니다.
- 첫 번째 페이지: https://search.naver.com/search.naver?where=news&sm=tab_jum&query=검색어
- 두 번째 페이지: https://search.naver.com/search.naver?where=news&sm=tab_jum&query=검색어&start=11
- 세 번째 페이지: https://search.naver.com/search.naver?where=news&sm=tab_jum&query=검색어&start=21

페이지 네비게이션 링크를 추출하여 이동
- 페이지 네비게이션 링크를 사용하여 직접 다음 페이지로 이동하는 방법입니다. 이 방법은 네이버 뉴스 검색 결과 페이지의 HTML 구조를 이용하여 다음 페이지로 이동할 링크를 추출하는 것입니다.
- 네이버 뉴스 검색 결과 페이지에는 페이지 번호 링크가 있습니다. 이 링크는 <a> 태그로 구성되어 있으며, href 속성에 다음 페이지의 URL이 들어 있습니다.
```
<div class="sc_page_inner">
    <a href="/search.naver?where=news&sm=tab_jum&query=검색어&start=11">2</a>
    <a href="/search.naver?where=news&sm=tab_jum&query=검색어&start=21">3</a>
    ...
</div>

```

In [63]:
# 네이버 뉴스 검색 결과 페이지는 기본적으로 &start=파라미터를 통해 페이지를 제어
query='인공지능'

news_url='https://search.naver.com/search.naver?where=news&sm=tab_jum&query={}'
for i in range(1, 6):
    url = news_url.format(query) + '&start=' + str(i)
    print(url)

https://search.naver.com/search.naver?where=news&sm=tab_jum&query=인공지능&start=1
https://search.naver.com/search.naver?where=news&sm=tab_jum&query=인공지능&start=2
https://search.naver.com/search.naver?where=news&sm=tab_jum&query=인공지능&start=3
https://search.naver.com/search.naver?where=news&sm=tab_jum&query=인공지능&start=4
https://search.naver.com/search.naver?where=news&sm=tab_jum&query=인공지능&start=5


In [2]:
query='뉴진스'

news_url='https://search.naver.com/search.naver?where=news&sm=tab_jum&query={}'
for i in range(1, 6):
    url = news_url.format(query) + '&start=' + str(i)
    print(url)

https://search.naver.com/search.naver?where=news&sm=tab_jum&query=뉴진스&start=1
https://search.naver.com/search.naver?where=news&sm=tab_jum&query=뉴진스&start=2
https://search.naver.com/search.naver?where=news&sm=tab_jum&query=뉴진스&start=3
https://search.naver.com/search.naver?where=news&sm=tab_jum&query=뉴진스&start=4
https://search.naver.com/search.naver?where=news&sm=tab_jum&query=뉴진스&start=5


In [4]:
# 네이버 뉴스 검색 결과 페이지의 URL 구조를 활용
import requests
import pandas as pd
from bs4 import BeautifulSoup
import re
from datetime import datetime

date = str(datetime.now())
date = date[:date.rfind(':')].replace(' ','_')
date = date.replace(':','시') + '분'

query = input('검색 키워드를 입력하세요: ')
news_num = int(input('총 필요한 뉴스 기사 수를 입력해주세요(숫자만 입력): '))
query = query.replace(' ', '+')  # 검색 키워드 공백 처리

news_url = 'https://search.naver.com/search.naver?where=news&sm=tab_jum&query={}'

news_dict = {}
idx = 0
cur_page = 1

print()
print('크롤링 중 ....')

while idx < news_num:
    req = requests.get(news_url.format(query) + '&start=' + str(cur_page))
    if req.status_code != 200:
        print(f"Request failed with status code {req.status_code} on page {cur_page}")
        break
    soup = BeautifulSoup(req.text, 'html.parser')

    ul_list = soup.find('ul', {'class': 'list_news'})
    if not ul_list:
        print('No list_news class found on page', cur_page)
        break

    li_list = ul_list.find_all('li', {'id': re.compile('sp_nws.*')})
    a_list = [li.find('a', {'class': 'news_tit'}) for li in li_list]

    for a in a_list[:min(len(a_list), news_num - idx)]:
        if a:
            news_dict[idx] = {'title': a.get('title'),
                              'url': a.get('href')}
            idx += 1
    cur_page += 10  # 네이버 뉴스 검색 결과는 한 페이지에 10개 기사로 구성됨

print('크롤링 완료')
print('데이터프레임 변환')
news_df = pd.DataFrame(news_dict).T

news_df.to_csv(f'{query}_{date}.csv', encoding='utf-8-sig')
news_df


크롤링 중 ....
크롤링 완료
데이터프레임 변환


Unnamed: 0,title,url
0,떡볶이 먹는 유관순 언니…가슴 뭉클해지는 AI 이미지,https://www.newsis.com/view/NISX20240620_00027...
1,"한컴-한전, 인공지능·데이터 분야 협력…AI기반 사무 소프트웨어 도입",https://www.electimes.com/news/articleView.htm...
2,"손정의 ""초인공지능 10년 내 실현…인류 역사 바꾼다""",https://www.hankyung.com/article/202406212534i
3,"AI의 일자리 습격…""은행업 54% 자동화 전망""",https://view.asiae.co.kr/article/2024062004370...
4,[그래픽] 생성형 인공지능(AI) 이용 조사 결과,https://www.yna.co.kr/view/GYH2024062000030004...
5,"[기고] 인공지능 규제, 어디로 가야 하나",https://zdnet.co.kr/view/?no=20240621124317
6,"SK바이오사이언스, 백신 연구개발에 AI 기반 실험 설계 시스템 구축",https://www.etoday.co.kr/news/view/2372185
7,"제주도, 실종자 수색에 인공지능 AI 활용",https://news.kbs.co.kr/news/pc/view/view.do?nc...
8,인공지능 탑재된 냉장고,https://www.news1.kr/photos/view/?6715440
9,"KT, 미래교육 위한 '인공지능(AI) 맞춤형 교수학습 플랫폼' 구축",https://www.econovill.com/news/articleView.htm...
