## 크롤링(웹 크롤링)
크롤링이란
- 인터넷 상의 웹 페이지 데이터를 자동으로 수집하는 과정.
- 웹 크롤링은 일반적으로 웹 스크래핑과 연관되며, 둘은 종종 혼용되지만 조금 다른 개념. 웹 크롤링은 웹 페이지를 탐색하고 데이터를 수집하는 반면, 웹 스크래핑은 그 페이지에서 특정 정보를 추출하는 데 중점을 둔다.
- 크롤링은 스크래핑을 포함할 수 있다. 크롤링 과정에서 각 페이지를 방문할 때, 스크래핑을 통해 필요한 데이터를 추출할 수 있다.

웹 크롤링에 사용되는 도구
- BeautifulSoup: Python 라이브러리로, HTML 및 XML 문서를 구문 분석하고 데이터를 추출하는 데 사용.

- Scrapy: 웹 크롤링을 위한 Python 프레임워크로, 효율적이고 확장성이 높은 크롤러를 쉽게 만들 수 있다.

- Selenium: 웹 브라우저 자동화 도구로, JavaScript가 동적으로 로드되는 페이지를 크롤링할 때 유용.

- Requests: Python의 HTTP 라이브러리로, 웹 페이지 요청을 쉽게 할 수 있다.

웹 크롤링의 기본 과정
- 크롤러 설정: 크롤러는 특정 웹 페이지를 시작점으로 설정. 이를 '시드(seed)'라고 부르며, 크롤러는 이 시드 URL에서 시작해 다른 페이지로 이동.

- 페이지 요청: 크롤러는 HTTP 요청을 보내 웹 페이지를 요청. 이 과정에서 크롤러는 브라우저처럼 행동하여 웹 서버에서 페이지를 가져온다.

- 데이터 추출: 웹 페이지가 응답되면, 크롤러는 페이지의 HTML을 분석하고 필요한 데이터를 추출. 이 과정에는 BeautifulSoup, Selenium 같은 라이브러리가 사용될 수 있다.

- 링크 추출 및 큐잉: 크롤러는 현재 페이지에서 다른 페이지로 연결되는 링크를 추출하고, 이 링크들을 큐(queue)에 추가하여 다음 크롤링 대상으로 삼는다.

- 반복: 이 과정은 정해진 규칙이나 종료 조건이 충족될 때까지 반복. 예를 들어, 특정 수의 페이지를 크롤링하거나, 주어진 도메인 내에서만 크롤링하도록 설정할 수 있다.

웹 크롤링의 주의사항

- 로봇 배제 표준(robots.txt): 많은 웹사이트는 robots.txt 파일을 통해 크롤러가 접근 가능한 부분과 접근을 제한하는 부분을 명시. 크롤러는 이 규칙을 준수해야 한다.

- 저작권 및 법적 이슈: 모든 웹사이트의 콘텐츠는 저작권의 보호를 받는다. 따라서 크롤링을 통해 수집한 데이터를 어떻게 사용할지에 대한 법적 문제를 주의해야 한다.

- 서버 부하: 지나친 크롤링은 웹 서버에 부하를 줄 수 있다. 크롤링 시에는 서버의 부담을 줄이기 위해 요청 간의 딜레이를 설정하는 것이 좋다.

#### BeautifulSoup
- BeautifulSoup은 HTML이나 XML 문서를 파싱하고, 파싱한 데이터에서 원하는 요소를 검색하고 추출하는 데 매우 유용한 도구입니다. 
- BeautifulSoup에서 객체를 찾는 주요 방법에는 find, find_all, select_one, select, find_parents, find_parent, find_next_sibling, find_previous_sibling 등이 있습니다.

검색 방식
- find, find_all: 태그 이름과 속성을 사용하여 요소를 검색합니다. (a, p, attr 등)
- select_one, select: CSS 선택자를 사용하여 요소를 검색합니다. (id, class 등)

반환 결과:
- find: 첫 번째로 일치하는 요소를 반환합니다.
- find_all: 모든 일치하는 요소를 리스트로 반환합니다.
- select_one: 첫 번째로 일치하는 요소를 반환합니다.
- select: 모든 일치하는 요소를 리스트로 반환합니다.

표현력:
- select_one, select: 더 복잡하고 정교한 선택 조건을 지정할 수 있습니다. 예를 들어, CSS 선택자 문법을 사용하여 클래스, ID, 속성 등을 조합한 검색이 가능합니다.
- find, find_all: 단순한 태그 이름과 속성 조건에 기반한 검색이 주로 사용됩니다.



html.parser vs. lxml
- 파이썬에서 HTML 및 XML 문서를 파싱(parsing)하는 라이브러리
- html.parser는 HTML 문서를 파싱하는 데에 적합한 파서. 파이썬의 기본 라이브러리로 제공되며 파이썬 내부적으로 구현되어 있으며, 외부 종속성이 없으므로 파이썬과 함께 설치되는 패키지만 사용할 수 있습니다.
- lxml은 C 언어로 작성된 파이썬 외부 라이브러리로서 HTML 및 XML 문서를 파싱하는 데에 적합하며, 파서 성능이 매우 우수합니다.
- HTML 문서를 파싱하는 경우에는 html.parser를 사용하는 것이 간단하고 편리하며, 대부분의 경우에는 충분한 성능을 제공합니다. 그러나 대용량의 XML 문서나 매우 복잡한 HTML 문서를 파싱해야 하는 경우에는 lxml을 사용하는 것이 더 효율적입니다.

In [1]:
from bs4 import BeautifulSoup

html_content = '<html><body><h1>Title</h1><p class="content">First paragraph.</p><p class="content">Second paragraph.</p></body></html>'
soup = BeautifulSoup(html_content, 'html.parser')
print(soup.prettify())

<html>
 <body>
  <h1>
   Title
  </h1>
  <p class="content">
   First paragraph.
  </p>
  <p class="content">
   Second paragraph.
  </p>
 </body>
</html>



크롤링 시 헤더를 포함하면 성공적으로 데이터를 가져올 가능성을 높여준다.

headers : HTTP 요청에 포함되는 메타데이터
- User-Agent: 클라이언트 애플리케이션(브라우저 등)을 나타냅니다.
- Accept: 서버가 어떤 콘텐츠 타입을 반환해야 하는지 지정합니다.
- Accept-Language: 클라이언트가 선호하는 언어를 지정합니다.
- Referer: 요청이 발생한 이전 페이지의 URL을 지정합니다.
- Host: 요청을 보내는 서버의 호스트 이름을 지정합니다.
- Connection: 서버와 클라이언트 간의 연결 유형을 지정합니다.

```
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
    'Accept-Language': 'en-US,en;q=0.9',
    'Referer': 'http://example.com',
}
```

In [2]:
import requests
from bs4 import BeautifulSoup

# 예시 네이버 뉴스 페이지 URL
url = 'https://news.naver.com'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}

res = requests.get(url, headers=headers)

response.content:
- response.content는 서버에서 반환된 응답을 바이트(byte) 문자열로 제공합니다.
- 주로 이미지, 파일 다운로드와 같은 바이너리 데이터를 다룰 때 사용됩니다.
- 인코딩과 상관없이 원본 그대로의 데이터를 가져오기 때문에, HTML 파싱을 할 때는 별도로 인코딩을 지정하지 않으면 기본 인코딩을 사용합니다.

response.text:
- response.text는 서버에서 반환된 응답을 유니코드 문자열로 제공합니다.
- requests 라이브러리는 response.text를 반환할 때, response.encoding에 지정된 인코딩을 사용하여 바이트 데이터를 유니코드 문자열로 디코딩합니다.
- 일반적인 텍스트 데이터, HTML, JSON 등의 처리를 할 때 유용합니다.

In [3]:
res.content

res.text

'\n<!doctype html>\n<html lang="ko">\n\t<head>\n\t\t<title id="browserTitleArea">네이버 뉴스</title>\n\t\t\n\n\n<script>\n\tfunction isMobileDevice() {\n\t\treturn /^.*(iPhone|iPod|iPad|Android).*/.test(navigator.userAgent);\n\t}\n</script>\n<script>\n\t(function () {\n\t\ttry {\n\t\t\tif (isMobileDevice() && isAbleApplyPrefersColorScheme()) {\n\t\t\t\t\n\t\t\t\tdocument.querySelector("html").classList.add("DARK_THEME");\n\t\t\t}\n\t\t} catch(e) {}\n\n\t\tfunction isAbleApplyPrefersColorScheme() {\n\t\t\t\n\t\t\tif (window.matchMedia("(prefers-color-scheme)").matches === false) {\n\t\t\t\treturn false;\n\t\t\t}\n\n\t\t\tvar userAgent = navigator.userAgent;\n\n\t\t\tif (userAgent.indexOf("NAVER") > -1) {\n\t\t\t\t\n\t\t\t\tif (/.*NAVER\\([a-zA-Z]*;\\s[a-zA-Z]*;\\s([0-9]*);/.test(userAgent)) {\n\t\t\t\t\treturn Number(RegExp.$1) >= 1000;\n\t\t\t\t}\n\t\t\t} else {\n\t\t\t\t\n\t\t\t\treturn document.cookie.indexOf("NSCS=1") > -1;\n\t\t\t}\n\n\t\t\treturn false;\n\t\t}\n\t})();\n</script>\n\n\t

In [4]:
soup = BeautifulSoup(res.text, 'html.parser') # content은 디코딩을 해서 출력해줌
#print(soup.prettify())

# title 태그 요소 찾기
soup.find('title').text
#soup.find('title').get_text()
#soup.find('title').string

'네이버 뉴스'

In [5]:
cats = soup.find_all(class_='Nitem_link_menu')
for idx, cat in enumerate(cats):
    print(f"{idx+1}: {cat.get_text().strip()}")

1: 언론사별
2: 정치
3: 경제
4: 사회
5: 생활/문화
6: IT/과학
7: 세계
8: 랭킹
9: 신문보기
10: 오피니언
11: TV
12: 팩트체크
13: 알고리즘 안내
14: 정정보도 모음


string vs. get_text() vs. text
- BeautifulSoup 객체에서 text 속성, get_text() 메서드, string 속성은 모두 HTML 또는 XML 문서에서 텍스트 데이터를 추출하는 데 사용
- text 속성은 해당 태그에서 모든 텍스트 데이터를 가져오며,
- get_text() 메서드도 동일한 결과를 반환합니다.
- string 속성은 해당 태그에서 첫 번째로 발견된 문자열 데이터만 가져옵니다.

| Method      | 특징                                                                               | 사용 사례                                      |
|-------------|----------------------------------------------------------------------------------|-----------------------------------------------|
| `string`    | 자식 텍스트 노드가 하나인 경우에만 해당 텍스트 반환, 여러 노드가 있으면 `None` 반환                | 단일 텍스트 노드만 있는 요소의 텍스트를 추출할 때      |
| `get_text()`| 요소 및 모든 하위 요소의 텍스트를 모두 포함하여 문자열로 반환, `separator` 및 `strip` 옵션 사용 가능 | 요소 내 모든 텍스트를 추출하고, 구분자 및 공백 처리가 필요한 경우 |
| `text`      | 요소 및 모든 하위 요소의 텍스트를 모두 포함하여 문자열로 반환, 추가 매개변수 없음                  | 요소 내 모든 텍스트를 단순하게 추출할 때                   |

string
- 정의: string 속성은 BeautifulSoup 객체의 자식 노드 중 하나의 텍스트 노드만 반환. 해당 요소의 직접적인 텍스트 콘텐츠가 하나일 때만 유용.
- 특징:
요소가 하나의 자식 텍스트 노드를 가지고 있는 경우에만 그 텍스트를 반환.
여러 자식 요소가 있거나 텍스트 노드가 여러 개 있는 경우 None을 반환.

In [None]:
from bs4 import BeautifulSoup

html = """
<div class="example">
    Single text node
</div>
<div class="example">
    <p>Multiple</p> text <span>nodes</span>
</div>
"""

soup = BeautifulSoup(html, 'html.parser')

single_text_node = soup.find('div', class_="example").string
multiple = soup.find_all("div", class_="example")

multiple_text_nodes = soup.find_all('div', class_='example')[1].string

print(single_text_node) # Single text node
print(multiple, '\n')
print(multiple_text_nodes) # None

get_text()
- 정의: get_text() 메서드는 요소 및 모든 하위 요소의 텍스트를 모두 추출하여 하나의 문자열로 반환.
- 특징:
요소 내의 모든 텍스트를 포함하여 반환.
기본적으로 하위 요소 사이에 공백을 추가하지만, separator 매개변수를 사용하여 구분자를 지정할 수 있다.
strip=True 옵션을 사용하여 앞뒤 공백을 제거할 수 있다.

In [None]:
from bs4 import BeautifulSoup

html = """
<div class="example">
    Single text node
</div>
<div class="example">
    <p>Multiple</p> text <span>nodes</span>
</div>
"""

soup = BeautifulSoup(html, 'html.parser')

# 기본적으로 get_text() 메서드는 공백을 구분자로 사용합니다.
# strip=True 옵션을 사용하여 압뒤 공백을 제거하고 텍스트를 추출
single_text_node = soup.find('div', class_="example").get_text(strip=True)
multiple_text_nodes = soup.find_all('div', class_='example')[1].get_text(strip=True)

print(single_text_node) # Single text node
print(multiple_text_nodes) # Multiple text nodes

In [None]:
# 'separator' 매개변수를 사용하여 구분자를 지정합니다.

single_text_node = soup.find('div', class_="example").get_text(strip=True)
multiple_text_nodes = soup.find_all('div', class_='example')[1].get_text(separator=' | ', strip=True)

print("\nCustom separator (' | '): ")
print(single_text_node) # Single text node
print(multiple_text_nodes) # Multiple | text | nodes

text
- 정의: text 속성은 요소 및 모든 하위 요소의 텍스트를 모두 포함하는 문자열을 반환. get_text() 메서드와 동일한 기능을 한다.
- 특징:
get_text()와 거의 동일한 결과를 제공.
get_text()와 다르게 추가 매개변수(separator, strip)를 사용할 수 없다.

In [None]:
from bs4 import BeautifulSoup

html = """
<div class="example">
    Single text node
</div>
<div class="example">
    <p>Multiple</p> text <span>nodes</span>
</div>
"""

soup = BeautifulSoup(html, 'html.parser')

single_text_node = soup.find('div', class_="example").text
multiple_text_nodes = soup.find_all('div', class_='example')[1].text

print(single_text_node) # Single text node
print(multiple_text_nodes) # Multiple text nodes

정규표현식을 이용한 크롤링 방법 

HTML 가져오기:
- requests 라이브러리를 사용하여 웹 페이지의 HTML을 가져옵니다.
HTML 파싱:
- BeautifulSoup을 사용하여 HTML 문서를 파싱합니다.
정규표현식 사용:
- re 모듈을 사용하여 특정 패턴을 가진 텍스트를 추출합니다.

In [None]:
import requests
from bs4 import BeautifulSoup
import re

html = """
<ul>
	<li>Email: example@example.com</li>
	<li>Contact: contact#sample.org</li>
</ul>
"""

# 이메일 주소 추출
email_pattern = r'[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+'
emails = re.findall(email_pattern, html)
print(emails)

In [36]:
import re

html = '''
<html>
<body>
<div>
Hello,world!
</div>
<div>
<p>
Hello,<b>world!</b>
</p>
</div>
</body>
</html>
'''

soup = BeautifulSoup(html, 'html.parser')
bs = soup.body.text

#bs = re.sub(r'[\n]', '', bs)
#bs

texts = re.findall('[^\s]+', bs)
for text in texts:
  print(text, end=' ')

Hello,world! Hello,world! 

In [122]:
import re

html = '''
<html>
<head>
<title>Sample Page</title>
</head>
<body>
<div>
Hello, world! 123
</div>
<div>
<p>
456 Hello, <b>789 world!</b> Visit us at <a href="http://example.com">example.com</a>
</p>
</div>
<footer>
Contact us at <a href="mailto:info@example.com">info@example.com</a>
</footer>
</body>
</html>
'''

# Q. 주어진 html에서 정규표현식을 사용하여 아래 사항을 수행하세요.

# 모든 단어 추출
#words = re.findall(r'[\w]+', html)
words = re.findall(r'\b\w+\b', html)
print(words, '\n')

# 이메일 주소 추출
email_pattern = r'[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+'
emails = re.findall(email_pattern, html)
#emails = re.findall(r'[^(:|>)][\w]+@[\w]+\.[\w]+', html)
print(emails, '\n')

# URL 추출
url = re.search(r'https?://[^\s<>"]+|www\.[^\s<>"]+', html)
print(url.group(), '\n')

# 숫자 추출
numbers = re.findall(r'[\d]+', html)
#numbers = re.findall(r'\b\d+\b', html)
print(numbers, '\n')

# HTML 태그 내 텍스트 추출
texts = re.findall(r'>([^<]+)<', html)
text_lists = ' '.join(text.strip() for text in texts)
text_lists = re.sub(r'\s+', ' ', text_lists)
print(text_lists)

['html', 'head', 'title', 'Sample', 'Page', 'title', 'head', 'body', 'div', 'Hello', 'world', '123', 'div', 'div', 'p', '456', 'Hello', 'b', '789', 'world', 'b', 'Visit', 'us', 'at', 'a', 'href', 'http', 'example', 'com', 'example', 'com', 'a', 'p', 'div', 'footer', 'Contact', 'us', 'at', 'a', 'href', 'mailto', 'info', 'example', 'com', 'info', 'example', 'com', 'a', 'footer', 'body', 'html'] 

['info@example.com', 'info@example.com'] 

http://example.com 

['123', '456', '789'] 

 Sample Page Hello, world! 123 456 Hello, 789 world! Visit us at example.com Contact us at info@example.com 


In [123]:
from bs4 import BeautifulSoup
import re

html = """
<ul>
  <li><a href="hoge.html"></li>
  <li><a href="https://example.com/fuga"></li>
  <li><a href="https://example.com/foo"></li>
  <li><a href="http://example.com/aaa"></li>
</ul>
"""

soup = BeautifulSoup(html, 'html.parser')

# 정규표현식으로 href에서 https인 것 추출하기
li = soup.find_all(href=re.compile(r'^https://'))
print(li)
for e in li:
  print(e.attrs['href'])

[<a href="https://example.com/fuga"></a>, <a href="https://example.com/foo"></a>]
https://example.com/fuga
https://example.com/foo


### urllib + BeautifulSoup

In [125]:
import urllib.request as rq

url = 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100'

html = rq.urlopen(url)
bs = BeautifulSoup(html, 'html.parser')
print(bs.find('p'))


<p class="sa_head_layer_p">각 헤드라인의 기사와 배열 순서는 개인화를 반영해 자동 추천되어 제공됩니다. 기사 수량이 표기된 기사 우측 하단의 파란색 아이콘을 클릭하면 기사묶음을 확인할 수 있고 기사묶음과 기사묶음 타이틀도 기사 내용을 기반으로 <strong>자동 추출</strong>됩니다.</p>


In [130]:
text10 = bs.find_all('p')
for text in text10:
  print(text.get_text())

각 헤드라인의 기사와 배열 순서는 개인화를 반영해 자동 추천되어 제공됩니다. 기사 수량이 표기된 기사 우측 하단의 파란색 아이콘을 클릭하면 기사묶음을 확인할 수 있고 기사묶음과 기사묶음 타이틀도 기사 내용을 기반으로 자동 추출됩니다.
AiRS 추천으로 구성된 뉴스를 제공합니다.
각 언론사의 가장 많이 본 기사 1건을 제공합니다.
“한달에 3천만원 저축, 연봉 5~6억”…악착같이 모은다는 무명개그맨의 정체
“비상 깜빡이 켰는데”…고속도로서 후진한 여성의 최후 [잇슈 키워드]
"2억이 금세 3억 됐어요"…은퇴 고민하던 김부장 신났다 [일확연금 노후부자]
"유명 식당서 훠궈 먹자 혀 까매져"..中, 끝없는 식품위생 논란
北 남녀 고교생 6명, 목욕탕 빌려 집단 성관계에 마약까지
[단독] 에코프로비엠, 3조원대 투자 유치 추진… FI 물밑 접촉
국제마약조직의 ‘배달사고’…110만명분 코카인, 부산항으로 오배달
“자식 돈에 어디 숟가락”…박세리 논란에 소환된 손웅정
"외계인이 만든 듯"…돌연 사막에 솟아난 '거울기둥' 미스터리
'김건희 논문 검증' 학생들 몰표‥'숙대'의 선택은
"짝까지 바꿔가며"..고급중학교 학생 6명, 목욕탕 빌려 집단 성관계, 북한 사회 '발칵'
"특이한 안경" 끼고 대화하는 경찰관 바라본 여성…알고 보니
조국 "이재명, 대통령 되면 재판정지? 한동훈 헌법해석 엉터리"
“월급 절반은 주식”…엔비디아, 5년 전부터 근무한 직원은 '백만장자'다?
“목욕탕서 집단 성관계·마약을”…北청소년들 ‘남녀칠세부동석’ 발칵
박세리 부친 입 열었다…“내가 아빠니까 나설 수 있지”
'콩가루' 아워홈 큰딸, 회장 맡자마자 "경영권 판다" 깜짝 선언
“미용실 몇 시까지 해요?” 묻던 남성, 등 뒤에 흉기가…[영상]
또 터진 불량 공모주 사태…이노그리드, 사상 첫 상장승인 취소
"1억 주면 조용히 있고, 5천 주면 소문내고" 연돈볼카츠 점주들 녹취록 공개
박세리 부친 입 열었다…"내가 아버지니까 나설 수 있지"
'산유국' 예언 천공, 석유 시추는 반대, 왜?
백종원·김어준

In [131]:
bs.select_one('p.sa_head_layer_p')

<p class="sa_head_layer_p">각 헤드라인의 기사와 배열 순서는 개인화를 반영해 자동 추천되어 제공됩니다. 기사 수량이 표기된 기사 우측 하단의 파란색 아이콘을 클릭하면 기사묶음을 확인할 수 있고 기사묶음과 기사묶음 타이틀도 기사 내용을 기반으로 <strong>자동 추출</strong>됩니다.</p>

In [133]:
bs.find('title').string # string은 해당 태그 내에 하위 태그가 존재하지 않는 경우 사용 가능

'정치 : 네이버 뉴스'

### requests + BeautifulSoup

인코딩 에러를 해결

- chardet는 "Universal Character Encoding Detector"로, 다양한 인코딩을 감지할 수 있는 파이썬 패키지

- chardet.detect(response.content)['encoding']은 response.content의 인코딩 방식을 자동으로 감지하여 반환하며, 이 값을 encoding 변수에 저장한 후, response.content를 이 encoding 방식으로 디코딩하여 html 변수에 저장하고 출력

In [134]:
! pip install chardet

Collecting chardet
  Downloading chardet-5.2.0-py3-none-any.whl.metadata (3.4 kB)
Downloading chardet-5.2.0-py3-none-any.whl (199 kB)
   ---------------------------------------- 0.0/199.4 kB ? eta -:--:--
   --------------------------------------- 199.4/199.4 kB 11.8 MB/s eta 0:00:00
Installing collected packages: chardet
Successfully installed chardet-5.2.0


In [136]:
import requests
import chardet

# HTTP 요청에서 사용될 헤더 정보를 설정합니다.
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}

# 웹사이트에서 스크래핑할 URL을 지정합니다.
url = url = 'https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100'

# 지정된 url에 HTTP GET 요청을 전달
res = requests.get(url, headers=headers)

# HTTP 요청이 성공적으로 전달되었다면, 웹사이트의 HTML 코드를 출력합니다.
if res.status_code == 200:
  encoding = chardet.detect(res.content)['encoding']
  #print(res.content.decode(encoding)) # 웹사이트의 HTML 코드를 포함하는 바이너리 데이터를 반환
  print(res.text) # 웹사이트의 HTML 코드를 문자열 형태로 반환
else:
  print("HTTP request failed.")

texts = res.text

<!doctype html>
<html lang="ko" data-useragent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36">
	<head>
		<meta charset="utf-8">
		<meta http-equiv="X-UA-Compatible" content="IE=edge">
		<meta name="referrer" contents="always">
		<meta http-equiv="refresh" content="600">
		<meta name="viewport" content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0, user-scalable=no" />
		<meta property="og:title" content="정치 : 네이버 뉴스">
		<meta property="og:type" content="website">
		<meta property="og:url" content="https://news.naver.com/section/100">
		<meta property="og:image" content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800x420_20221201.png">
		<meta property="og:description" content="국회, 행정, 국방, 외교 등 정치 분야 뉴스 제공">
		<meta property="og:article:author" content="네이버">
		<meta name="twitter:card" content="summary">
		<meta name="twitter:title" content="정치 : 네이버 뉴스">
		<meta nam

In [137]:
# 한글만 출력
import re

hangul = re.findall('[가-힣]+', texts)
print(' '.join(hangul))

정치 네이버 뉴스 국회 행정 국방 외교 등 정치 분야 뉴스 제공 네이버 정치 네이버 뉴스 네이버 뉴스 네이버 뉴스 국회 행정 국방 외교 등 정치 분야 뉴스 제공 정치 네이버 뉴스 로그 전송 최대치 도달 본문 바로가기 뉴스 연예 스포츠 날씨 프리미엄 검색 언론사별 정치 경제 사회 생활 문화 과학 세계 랭킹 신문보기 오피니언 팩트체크 알고리즘 안내 정정보도 모음 목 전체 언론사 뉴스스탠드 라이브러리 정치 대통령실 국회 정당 북한 행정 국방 외교 정치일반 뉴스 알고리즘 프리미엄콘텐츠 헤드라인 뉴스 안내 각 헤드라인의 기사와 배열 순서는 개인화를 반영해 자동 추천되어 제공됩니다 기사 수량이 표기된 기사 우측 하단의 파란색 아이콘을 클릭하면 기사묶음을 확인할 수 있고 기사묶음과 기사묶음 타이틀도 기사 내용을 기반으로 자동 추출 됩니다 알고리즘 자세히 보기 닫기 박찬대 대통령도 년씩 돌아가며 맡자고 할 기세 박찬대 대통령도 년씩 돌아가며 맡자고 할 기세 박찬대 더불어민주당 원내대표가 일 국회 법제사법위원장 운영위원장직을 여야가 년씩 번갈아 맡자는 국민의힘의 제안에 이러다가는 대통령도 년씩 돌아가며 하자고 하겠다 고 비꼬았다 박 원내대표는 이날 오전 국회에 파이낸셜뉴스 개의 관련뉴스 더보기 홍준표 이재명 겨냥 여의도에 동탁 이 등장했네요 홍준표 이재명 겨냥 여의도에 동탁 이 등장했네요 홍준표 대구시장은 이재명 더불어민주당 대표를 삼국지에 등장하는 동탁 에 비유하며 비판했다 일 홍 시장은 자신의 페이스북을 통해 여의도에 동탁이 등장했네요 라고 운을 뗐다 이어 민심은 총선 이겼다고 그렇게 매일신문 개의 관련뉴스 더보기 요동치는 차기 당권 경쟁 원희룡 등판 김재섭 강판 요동치는 차기 당권 경쟁 원희룡 등판 김재섭 강판 국민의힘 차기 당권 경쟁 구도가 출렁이고 있다 원희룡 전 국토교통부 장관이 전당대회 출마 의사를 밝히고 대 소장파 김재섭 의원은 출마 뜻을 접으면서다 한동훈 전 비상대책위원장과 나경원 의원 윤상현 의원의 세계일보 개의 관련뉴스 더보기 외국인력 안정적 수급 위해 통

In [191]:
import urllib.request as rq

url = "https://serieson.naver.com/v3/movie/ranking/realtime"

html = rq.urlopen(url)
bs = BeautifulSoup(html, 'html.parser')

titles = bs.select('span.Title_title__s9o0D')
for i in range(10):
  print(f"{i+1}. {titles[i].text}")

for i, title in enumerate(titles[:10]):
  print(f"{i+1}. {title.text}")

1. 인사이드 아웃(패키지상품 : 더빙판 + 부가영상 추가증정)
2. 소울메이트
3. 밀애
4. 듄
5. 콰이어트 플레이스
6. 너의 이름은.
7. 명탐정 코난 VS 괴도 키드
8. 듄: 파트 2(부가영상 제공)
9. 파묘
10. 파묘
1. 인사이드 아웃(패키지상품 : 더빙판 + 부가영상 추가증정)
2. 소울메이트
3. 밀애
4. 듄
5. 콰이어트 플레이스
6. 너의 이름은.
7. 명탐정 코난 VS 괴도 키드
8. 듄: 파트 2(부가영상 제공)
9. 파묘
10. 파묘


### CSS 선택자
- 원하는 정보만 선별하여 수집하고 싶을 때 css선택자를 활용할 수 있음
- (CSS 선택자 설명 추가)
- F12 >> 수집하고 싶은 부분 클릭 >> 태그 선택 >> copy Selector
- BeautifulSoup의 select_one, select 활용

개발자 도구상에서 .class로 확인한 정치 기사 개수는 58개인 반면 select('.class')로 크롤링한 기사 개수는 38개인 이유
  - 많은 사이트는 JavaScript를 사용하여 콘텐츠를 동적으로 로딩하는 반면 requests + BeautifulSoup은 기본적으로 JavaScript를 실행하지 않기 때문에 일부 js로 로딩되는 콘텐츠를 크롤링되지 않는다.
  - 페이지가 완전히 로드되기 전에 크롤링이 시도될 경우 일부 콘텐츠가 누락될 수 있다.
  - 웹페이지가 비동기 요청(Ajax)를 사용하여 데이터를 가져오는 경우 이 요청을 수동으로 처리하지 않는 한 해당 데이터를 가져오지 못할 수 있다.

In [199]:
import requests as rq
import pandas as pd

# 다음 정치 카테고리 뉴스 크롤링

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}

url = 'https://news.daum.net/politics#1'

r = rq.get(url, headers=headers)
html = r.text
soup = BeautifulSoup(html, 'html.parser')

lines = soup.select('.link_txt')
body = '\n'.join([f'{i+1}. {line.text}' for i, line in enumerate(lines)])
print(body)

titles = [i.text for i in lines]
df = pd.DataFrame({
  'Title':titles
})

df

1. 이준석 “尹, 어물전 엎어놓을 사람…어대한? 나경원 선전할 것”
2. 조태용 국정원장이 민주당 의원과 오찬을 갑자기 취소한 이유는
3. [노컷브이]與 "법사·운영위 1년씩" vs 野 "대통령도 1년씩?"…원구성 난항
4. 이준석 "與 전당대회, 윤 대통령 의중 작용 시작…한동훈 포기 압박"
5. [광주 남구소식] 등산로·고장 운동기구 점검 보수
6. 의협, 올바른 의료를 위한 특별위원회 출범...전공의 자리 공석
7. [제천소식] 중장기 종합발전계획 수립 용역 추진
8. '당권 도전' 윤상현 "내가 적통…한동훈·원희룡 자숙 시간"
9. 방통위, 이용자 보호업무 평가위원 위촉 간담회
10. 정부, '안전부품 미설치' 승강기 조건부 운행 허용…"폭염 상황 고려"
11. [자막뉴스]윤건영 “배현진, 의정활동 아닌 스토킹…못된 버릇 고쳐놔야”
12. 與 "민주, 방통위 무력화 중단하라...5인 체제에 협조"
13. 채상병 특검법, 野 주도로 법사위 소위 강행 처리…내일 전체회의 상정
14. 민주당 “라인야후 사태 국정조사 위해 TF 구성”
15. 與 원외 이상규, 최고위원 출사표…"승리의 기쁨 잊은 당에 활력"
16. 조은희 의원 "위기청년에 실질적 격차해소 안전망 구축 필요"
17. 野, 채상병특검 청문회 불출석 증인 ‘무더기 고발’ 예고…“신원식·김계환만 사유서 제출”
18. 나경원 "근본 깨는 이재명, 대한민국 비명횡사..무조건 막아야, 곧 결심"
19. 박원석 "원희룡 출마? 용산 참전신호"...김근식 "결선투표 노린 듯"
20. 나경원 “당 대표는 대통령과의 갈등이 겉으로 드러나면 안 돼…차별화해 대권 가겠다는 건 미래 없어”
21. 최진녕 변호사 / 서용주 전 더불어민주당 상근부대변인 - 원 구성 놓고 여야 입장 차…대치 정국 심화
22. ③중산층까지 악영향? 금투세 쟁점과 필요한 결정은?
23. 위계충 권폭귀
24. 1년 전 나경원 막은 친윤, 이번엔 한동훈 대항마로 키운다?
25. “김경율 누가 데려왔나”… 與, 한동훈 둘러싸고 뜬금없는 공방
26

Unnamed: 0,Title
0,"이준석 “尹, 어물전 엎어놓을 사람…어대한? 나경원 선전할 것”"
1,조태용 국정원장이 민주당 의원과 오찬을 갑자기 취소한 이유는
2,"[노컷브이]與 ""법사·운영위 1년씩"" vs 野 ""대통령도 1년씩?""…원구성 난항"
3,"이준석 ""與 전당대회, 윤 대통령 의중 작용 시작…한동훈 포기 압박"""
4,[광주 남구소식] 등산로·고장 운동기구 점검 보수
5,"의협, 올바른 의료를 위한 특별위원회 출범...전공의 자리 공석"
6,[제천소식] 중장기 종합발전계획 수립 용역 추진
7,"'당권 도전' 윤상현 ""내가 적통…한동훈·원희룡 자숙 시간"""
8,"방통위, 이용자 보호업무 평가위원 위촉 간담회"
9,"정부, '안전부품 미설치' 승강기 조건부 운행 허용…""폭염 상황 고려"""


In [196]:
# 자연어 처리 할때에는 ,이나 !과같은 문자들을 모두 제거하고 숫자와 문자만 남겨야한다.

lines = soup.select('body > div > main > section > div > div > ul > li > div > div > strong > a')
for i, tag in enumerate(lines, start=1):
  text = tag.get_text().strip().replace(',', '')
  matches = re.findall('[가-힣0-9]+', text)
  print(f"{i}. {' '.join(matches)}")

1. 민주당 팔수록 석유 대신 카르텔 의혹 동해 바다가 동문회 장소냐
2. 행복청 삼성이노베이션뮤지엄 등 찾아 1박2일 벤치마킹
3. 회의 전날 김건희 안건 긴급 추가 제보 야3당 건희권익위 대응 간담회
4. 이준석 반값 선거법 발의 5 만 득표해도 절반 보전
5. 원희룡 당 대표 출마선언 한 나 원 3파전 예고
6. 육군 학사 간부사관 438명 임관 독립후손가 후손 등 눈길
7. 나경원 근본 깨는 이재명 대한민국 비명횡사 무조건 막아야 곧 결심
8. 박원석 원희룡 출마 용산 참전신호 김근식 결선투표 노린 듯
9. 나경원 당 대표는 대통령과의 갈등이 겉으로 드러나면 안 돼 차별화해 대권 가겠다는 건 미래 없어
10. 최진녕 변호사 서용주 전 더불어민주당 상근부대변인 원 구성 놓고 여야 입장 차 대치 정국 심화
11. 이재명 당대표 사퇴 연임 도전 임박 친명 2기 지도부 도 뜬다
12. 중산층까지 악영향 금투세 쟁점과 필요한 결정은
13. 위계충 권폭귀
14. 1년 전 나경원 막은 친윤 이번엔 한동훈 대항마로 키운다
15. 김경율 누가 데려왔나 한동훈 둘러싸고 뜬금없는 공방


In [198]:
from bs4 import BeautifulSoup
import re
from datetime import datetime
import os

query = input("검색어를 입력하세요 : ")
query = query.replace(' ', '+')

news_url = 'https://search.naver.com/search.naver?where=news&sm=tab_jum&query={}'

# format(query)메서드는 URL 템플릿의 {} 부분을 query로 대체
req = requests.get(news_url.format(query))
html = req.text
soup = BeautifulSoup(html, 'html.parser')
links = soup.select('.news_tit')

for link in links:
  title = link.text
  url = link.attrs['href']
  print(title, '\n', url)

이걸로 전기료 낮췄다.. 삼성전자가 내놓은 야심작 
 http://www.edaily.co.kr/news/newspath.asp?newsid=02168086638923688
삼성전자, 보급형 스마트폰 ‘갤럭시 A35′ 내일 출시…49만9400원 
 https://biz.chosun.com/it-science/ict/2024/06/20/RGECIE7ZYZBZNLGZZG3C5RDJFA/?utm_source=naver&utm_medium=original&utm_campaign=biz
삼성전자, 보급폰 '갤럭시 A35 5G' 21일 국내 출시 
 https://www.moneys.co.kr/article/2024062008220012105
삼성전자, 보급형 스마트폰 '갤럭시 A35' 내일 국내 출시 
 https://www.yna.co.kr/view/AKR20240620023700017?input=1195m
"연간 전기료 3만원 절약"…삼성전자, 'AI 하이브리드' 냉장고 최초 출시 
 http://news.tf.co.kr/read/economy/2108514.htm
삼성전자 '비스포크 AI 하이브리드' 냉장고 관련 브리핑 
 https://www.yna.co.kr/view/PYH20240620069700013?input=1196m
삼성전자 AI TV의 기반이 된 타이젠 OS, 온디바이스 플랫폼으로 진화 
 https://www.etoday.co.kr/news/view/2371627
삼성전자 '비스포크 AI 하이브리드' 냉장고 소개 브리핑 
 https://www.yna.co.kr/view/PYH20240620069900013?input=1196m
삼성전자 주가 더 오를까…반도체 경영진 릴레이 매수 
 https://www.hankyung.com/article/2024061980771
삼성전자, '인포콤 2024' 11개 어워드 수상…역대 최다 
 https://zdnet.co.kr/view/?no=20240619091420
