## 크롤링(웹 크롤링)
크롤링이란
- 인터넷 상의 웹 페이지 데이터를 자동으로 수집하는 과정.
- 웹 크롤링은 일반적으로 웹 스크래핑과 연관되며, 둘은 종종 혼용되지만 조금 다른 개념. 웹 크롤링은 웹 페이지를 탐색하고 데이터를 수집하는 반면, 웹 스크래핑은 그 페이지에서 특정 정보를 추출하는 데 중점을 둔다.
- 크롤링은 스크래핑을 포함할 수 있다. 크롤링 과정에서 각 페이지를 방문할 때, 스크래핑을 통해 필요한 데이터를 추출할 수 있다.

웹 크롤링에 사용되는 도구
- BeautifulSoup: Python 라이브러리로, HTML 및 XML 문서를 구문 분석하고 데이터를 추출하는 데 사용.

- Scrapy: 웹 크롤링을 위한 Python 프레임워크로, 효율적이고 확장성이 높은 크롤러를 쉽게 만들 수 있다.

- Selenium: 웹 브라우저 자동화 도구로, JavaScript가 동적으로 로드되는 페이지를 크롤링할 때 유용.

- Requests: Python의 HTTP 라이브러리로, 웹 페이지 요청을 쉽게 할 수 있다.

웹 크롤링의 기본 과정
- 크롤러 설정: 크롤러는 특정 웹 페이지를 시작점으로 설정. 이를 '시드(seed)'라고 부르며, 크롤러는 이 시드 URL에서 시작해 다른 페이지로 이동.

- 페이지 요청: 크롤러는 HTTP 요청을 보내 웹 페이지를 요청. 이 과정에서 크롤러는 브라우저처럼 행동하여 웹 서버에서 페이지를 가져온다.

- 데이터 추출: 웹 페이지가 응답되면, 크롤러는 페이지의 HTML을 분석하고 필요한 데이터를 추출. 이 과정에는 BeautifulSoup, Selenium 같은 라이브러리가 사용될 수 있다.

- 링크 추출 및 큐잉: 크롤러는 현재 페이지에서 다른 페이지로 연결되는 링크를 추출하고, 이 링크들을 큐(queue)에 추가하여 다음 크롤링 대상으로 삼는다.

- 반복: 이 과정은 정해진 규칙이나 종료 조건이 충족될 때까지 반복. 예를 들어, 특정 수의 페이지를 크롤링하거나, 주어진 도메인 내에서만 크롤링하도록 설정할 수 있다.

웹 크롤링의 주의사항

- 로봇 배제 표준(robots.txt): 많은 웹사이트는 robots.txt 파일을 통해 크롤러가 접근 가능한 부분과 접근을 제한하는 부분을 명시. 크롤러는 이 규칙을 준수해야 한다.

- 저작권 및 법적 이슈: 모든 웹사이트의 콘텐츠는 저작권의 보호를 받는다. 따라서 크롤링을 통해 수집한 데이터를 어떻게 사용할지에 대한 법적 문제를 주의해야 한다.

- 서버 부하: 지나친 크롤링은 웹 서버에 부하를 줄 수 있다. 크롤링 시에는 서버의 부담을 줄이기 위해 요청 간의 딜레이를 설정하는 것이 좋다.

#### BeautifulSoup
- BeautifulSoup은 HTML이나 XML 문서를 파싱하고, 파싱한 데이터에서 원하는 요소를 검색하고 추출하는 데 매우 유용한 도구입니다. 
- BeautifulSoup에서 객체를 찾는 주요 방법에는 find, find_all, select_one, select, find_parents, find_parent, find_next_sibling, find_previous_sibling, findChildren 등이 있습니다.

검색 방식
- find, find_all: 태그 이름과 속성을 사용하여 요소를 검색합니다.
- select_one, select: CSS 선택자(ex) id, class를 사용하여 요소를 검색합니다.

반환 결과:
- find: 첫 번째로 일치하는 요소를 반환합니다.
- find_all: 모든 일치하는 요소를 리스트로 반환합니다.
- select_one: 첫 번째로 일치하는 요소를 반환합니다.
- select: 모든 일치하는 요소를 리스트로 반환합니다.

표현력:
- select_one, select: 더 복잡하고 정교한 선택 조건을 지정할 수 있습니다. 예를 들어, CSS 선택자 문법을 사용하여 클래스, ID, 속성 등을 조합한 검색이 가능합니다.
- find, find_all: 단순한 태그 이름과 속성 조건에 기반한 검색이 주로 사용됩니다.



html.parser vs. lxml
- 파이썬에서 HTML 및 XML 문서를 파싱(parsing)하는 라이브러리
- html.parser는 HTML 문서를 파싱하는 데에 적합한 파서. 파이썬의 기본 라이브러리로 제공되며 파이썬 내부적으로 구현되어 있으며, 외부 종속성이 없으므로 파이썬과 함께 설치되는 패키지만 사용할 수 있습니다.
- lxml은 C 언어로 작성된 파이썬 외부 라이브러리로서 HTML 및 XML 문서를 파싱하는 데에 적합하며, 파서 성능이 매우 우수합니다.
- HTML 문서를 파싱하는 경우에는 html.parser를 사용하는 것이 간단하고 편리하며, 대부분의 경우에는 충분한 성능을 제공합니다. 그러나 대용량의 XML 문서나 매우 복잡한 HTML 문서를 파싱해야 하는 경우에는 lxml을 사용하는 것이 더 효율적입니다.

In [2]:
from bs4 import BeautifulSoup

html_content = '<html><body><h1>Title</h1><p class="content">First paragraph.</p><p class="content">Second paragraph.</p></body></html>'

soup = BeautifulSoup(html_content, 'html.parser')
print(soup.prettify())

<html>
 <body>
  <h1>
   Title
  </h1>
  <p class="content">
   First paragraph.
  </p>
  <p class="content">
   Second paragraph.
  </p>
 </body>
</html>



Task1_0619. 다음 사항을 수행하세요.
- 첫 번째로 매칭되는 'p' 태그 찾기
- 모든 'p' 태그 찾기
- 클래스가 'content'인 첫 번째 'p' 태그 찾기
- 클래스가 'content'인 모든 'p' 태그 찾기
- 특정 'p' 태그의 모든 부모 태그 찾기
- 특정 'p' 태그의 첫 번째 부모 태그 찾기
- 특정 'p' 태그의 다음 형제 태그 찾기
- 특정 'p' 태그의 이전 형제 태그 찾기
- 특정 'p' 태그 다음에 위치한 모든 태그나 문자열 찾기
- 특정 'p' 태그 이전에 위치한 모든 태그나 문자열 찾기 

In [5]:
p_tag = soup.find('p')
print(f"첫번째 매칭되는 p {p_tag.get_text()}")
p_tags = soup.find_all('p')
for p in p_tags:
    print(p.get_text())


첫번째 매칭되는 p First paragraph.
First paragraph.
Second paragraph.


In [7]:
c_tag = soup.find(class_ = 'content')
print(f"첫번째 매칭되는 클래스 {c_tag.text}")
c_tags = soup.find_all(class_ = 'content')
for c in c_tags:
    print(c.text)

첫번째 매칭되는 클래스 First paragraph.
First paragraph.
Second paragraph.


In [24]:
# class가 content이면서 첫번째 p태그 찾기
c_tag = soup.find('p',class_ = 'content')
print(c_tag)
print(f"첫번째 매칭되는 클래스 {c_tag.text}")

<p class="content">First paragraph.</p>
첫번째 매칭되는 클래스 First paragraph.


In [18]:
# select 사용
first_content_p = soup.select_one('p.content')
print(first_content_p,'\n')
print(first_content_p.text)

<p class="content">First paragraph.</p> 

First paragraph.


In [20]:
# p태그 이면서 class가 content인 태그
all_content_p = soup.select('p.content')

# p를 제외하고 클래스만 써도 추출이 가능하다
# all_content_p = soup.select('.content')

print(all_content_p)
for p in all_content_p:
    print(p.get_text())

[<p class="content">First paragraph.</p>, <p class="content">Second paragraph.</p>]
First paragraph.
Second paragraph.


In [37]:
# 첫번째 p 태그의 모든 부모 태그 찾기
# [document] > [html] > [body] > [p] : 최상위 요소 document에서 시작하여 p태그까지의 모든 부모 요소를 출력
all_parents = p_tag.find_parents()
print(all_parents,'\n')
for parent in all_parents:
    print(parent)
    print(parent.name)

[<body><h1>Title</h1><p class="content">First paragraph.</p><p class="content">Second paragraph.</p></body>, <html><body><h1>Title</h1><p class="content">First paragraph.</p><p class="content">Second paragraph.</p></body></html>, <html><body><h1>Title</h1><p class="content">First paragraph.</p><p class="content">Second paragraph.</p></body></html>] 

<body><h1>Title</h1><p class="content">First paragraph.</p><p class="content">Second paragraph.</p></body>
body
<html><body><h1>Title</h1><p class="content">First paragraph.</p><p class="content">Second paragraph.</p></body></html>
html
<html><body><h1>Title</h1><p class="content">First paragraph.</p><p class="content">Second paragraph.</p></body></html>
[document]


In [39]:
# 첫번째 p 태그의 첫번째 부모 태그 찾기
first_parent = p_tag.find_parent()
print(first_parent)
f1 = c_tag.find_parent()
print('1111',f1)
print('name : ',f1.name,'\n')

# 첫번째 p 태그의 다음 형제 태그 찾기
next_sli = p_tag.find_next_sibling()
print(next_sli,'\n')
print(next_sli.name,'\n')
# 첫번째 p 태그의 이전 형제 태그 찾기
pre_sli = p_tag.find_previous_sibling()
print(pre_sli,'\n')

<body><h1>Title</h1><p class="content">First paragraph.</p><p class="content">Second paragraph.</p></body>
1111 <body><h1>Title</h1><p class="content">First paragraph.</p><p class="content">Second paragraph.</p></body>
name :  body 

<p class="content">Second paragraph.</p> 

p 

<h1>Title</h1> 

[<p class="content">Second paragraph.</p>] 

[<h1>Title</h1>] 



In [45]:
# 특정 p 태그 다음에 위치한 모든 태그나 문자열 찾기
next_elements = p_tag.find_next()
print(next_elements)

<p class="content">Second paragraph.</p>


In [44]:
previous_elements = p_tag.find_previous()
print(previous_elements)

<h1>Title</h1>


크롤링 시 헤더를 포함하면 성공적으로 데이터를 가져올 가능성을 높여준다.

headers : HTTP 요청에 포함되는 메타데이터
- User-Agent: 클라이언트 애플리케이션(브라우저 등)을 나타냅니다.
- Accept: 서버가 어떤 콘텐츠 타입을 반환해야 하는지 지정합니다.
- Accept-Language: 클라이언트가 선호하는 언어를 지정합니다.
- Referer: 요청이 발생한 이전 페이지의 URL을 지정합니다.
- Host: 요청을 보내는 서버의 호스트 이름을 지정합니다.
- Connection: 서버와 클라이언트 간의 연결 유형을 지정합니다.

```
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
    'Accept-Language': 'en-US,en;q=0.9',
    'Referer': 'http://example.com',
}
```

In [46]:
import requests
from bs4 import BeautifulSoup

url = 'https://news.naver.com'

headers = {
    "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebkit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
}

response = requests.get(url, headers=headers)
print(response)

<Response [200]>


response.content:
- response.content는 서버에서 반환된 응답을 바이트(byte) 문자열로 제공합니다.
- 주로 이미지, 파일 다운로드와 같은 바이너리 데이터를 다룰 때 사용됩니다.
- 인코딩과 상관없이 원본 그대로의 데이터를 가져오기 때문에, HTML 파싱을 할 때는 별도로 인코딩을 지정하지 않으면 기본 인코딩을 사용합니다.

response.text:
- response.text는 서버에서 반환된 응답을 유니코드 문자열로 제공합니다.
- requests 라이브러리는 response.text를 반환할 때, response.encoding에 지정된 인코딩을 사용하여 바이트 데이터를 유니코드 문자열로 디코딩합니다.
- 일반적인 텍스트 데이터, HTML, JSON 등의 처리를 할 때 유용합니다.

In [5]:
response.content

b'\n<!doctype html>\n<html lang="ko">\n\t<head>\n\t\t<title id="browserTitleArea">\xeb\x84\xa4\xec\x9d\xb4\xeb\xb2\x84 \xeb\x89\xb4\xec\x8a\xa4</title>\n\t\t\n\n\n<script>\n\tfunction isMobileDevice() {\n\t\treturn /^.*(iPhone|iPod|iPad|Android).*/.test(navigator.userAgent);\n\t}\n</script>\n<script>\n\t(function () {\n\t\ttry {\n\t\t\tif (isMobileDevice() && isAbleApplyPrefersColorScheme()) {\n\t\t\t\t\n\t\t\t\tdocument.querySelector("html").classList.add("DARK_THEME");\n\t\t\t}\n\t\t} catch(e) {}\n\n\t\tfunction isAbleApplyPrefersColorScheme() {\n\t\t\t\n\t\t\tif (window.matchMedia("(prefers-color-scheme)").matches === false) {\n\t\t\t\treturn false;\n\t\t\t}\n\n\t\t\tvar userAgent = navigator.userAgent;\n\n\t\t\tif (userAgent.indexOf("NAVER") > -1) {\n\t\t\t\t\n\t\t\t\tif (/.*NAVER\\([a-zA-Z]*;\\s[a-zA-Z]*;\\s([0-9]*);/.test(userAgent)) {\n\t\t\t\t\treturn Number(RegExp.$1) >= 1000;\n\t\t\t\t}\n\t\t\t} else {\n\t\t\t\t\n\t\t\t\treturn document.cookie.indexOf("NSCS=1") > -1;\n\t\t\t}

In [6]:
response.text

'\n<!doctype html>\n<html lang="ko">\n\t<head>\n\t\t<title id="browserTitleArea">네이버 뉴스</title>\n\t\t\n\n\n<script>\n\tfunction isMobileDevice() {\n\t\treturn /^.*(iPhone|iPod|iPad|Android).*/.test(navigator.userAgent);\n\t}\n</script>\n<script>\n\t(function () {\n\t\ttry {\n\t\t\tif (isMobileDevice() && isAbleApplyPrefersColorScheme()) {\n\t\t\t\t\n\t\t\t\tdocument.querySelector("html").classList.add("DARK_THEME");\n\t\t\t}\n\t\t} catch(e) {}\n\n\t\tfunction isAbleApplyPrefersColorScheme() {\n\t\t\t\n\t\t\tif (window.matchMedia("(prefers-color-scheme)").matches === false) {\n\t\t\t\treturn false;\n\t\t\t}\n\n\t\t\tvar userAgent = navigator.userAgent;\n\n\t\t\tif (userAgent.indexOf("NAVER") > -1) {\n\t\t\t\t\n\t\t\t\tif (/.*NAVER\\([a-zA-Z]*;\\s[a-zA-Z]*;\\s([0-9]*);/.test(userAgent)) {\n\t\t\t\t\treturn Number(RegExp.$1) >= 1000;\n\t\t\t\t}\n\t\t\t} else {\n\t\t\t\t\n\t\t\t\treturn document.cookie.indexOf("NSCS=1") > -1;\n\t\t\t}\n\n\t\t\treturn false;\n\t\t}\n\t})();\n</script>\n\n\t

In [47]:
soup = BeautifulSoup(response.text,'html.parser')
print(soup.prettify())

<!DOCTYPE html>
<html lang="ko">
 <head>
  <title id="browserTitleArea">
   네이버 뉴스
  </title>
  <script>
   function isMobileDevice() {
		return /^.*(iPhone|iPod|iPad|Android).*/.test(navigator.userAgent);
	}
  </script>
  <script>
   (function () {
		try {
			if (isMobileDevice() && isAbleApplyPrefersColorScheme()) {
				
				document.querySelector("html").classList.add("DARK_THEME");
			}
		} catch(e) {}

		function isAbleApplyPrefersColorScheme() {
			
			if (window.matchMedia("(prefers-color-scheme)").matches === false) {
				return false;
			}

			var userAgent = navigator.userAgent;

			if (userAgent.indexOf("NAVER") > -1) {
				
				if (/.*NAVER\([a-zA-Z]*;\s[a-zA-Z]*;\s([0-9]*);/.test(userAgent)) {
					return Number(RegExp.$1) >= 1000;
				}
			} else {
				
				return document.cookie.indexOf("NSCS=1") > -1;
			}

			return false;
		}
	})();
  </script>
  <script>
   var g_ssc = 'news.v3_media' || null;
  </script>
  <meta charset="utf-8"/>
  <meta content="width=device-width,

In [12]:
# title 태그만으로 요소 찾기
news_titles = soup.find('title')
print(news_titles.text)
print(news_titles.get_text())

네이버 뉴스
네이버 뉴스


Task2_0619. ID를 이용해서 '네이버 뉴스' 추출하세요.

In [48]:
s = soup.select_one('#browserTitleArea')
s = soup.select_one('title#browserTitleArea')
print(s.text)

네이버 뉴스


In [50]:
title_element = soup.find('title',id='browserTitleArea')
print(title_element)
print(title_element.get_text())

<title id="browserTitleArea">네이버 뉴스</title>
네이버 뉴스


In [52]:
# body > section > header > div.Nlnb._float_lnb > div > div > div > div > div > ul > li.Nlist_item.is_active > a > span

cats = soup.find_all(class_ ='Nitem_link_menu')
for idx, cat in enumerate(cats):
    print(f"{idx+1} : {cat.get_text().strip()}")

1 : 언론사별
2 : 정치
3 : 경제
4 : 사회
5 : 생활/문화
6 : IT/과학
7 : 세계
8 : 랭킹
9 : 신문보기
10 : 오피니언
11 : TV
12 : 팩트체크
13 : 알고리즘 안내
14 : 정정보도 모음


Task3_0619. soup.find_all(class_='Nitem_link_menu') 대신에 select를 이용하여 동일한 결과를 출력하세요.

In [56]:
items = soup.select('.Nitem_link_menu')
for i, item in enumerate(items):
    print(f"{i+1} : {item.get_text().strip()}")

1 : 언론사별
2 : 정치
3 : 경제
4 : 사회
5 : 생활/문화
6 : IT/과학
7 : 세계
8 : 랭킹
9 : 신문보기
10 : 오피니언
11 : TV
12 : 팩트체크
13 : 알고리즘 안내
14 : 정정보도 모음


Task4_0619. select_one을 이용해서 'https://news.naver.com'에서 "뉴스"를 출력하세요

In [60]:
news = soup.select_one('.Nicon_service')
# news = soup.select_one('span.Nicon_service')
print(news.get_text())

뉴스


Task5_0619.'https://news.naver.com'에서 아래 예시와 같이 뉴스 기사 제목을 모두 출력하세요. 

예시: 1: [속보] '훈련병 사망' 얼차려 지시 중대장·부중대장 피의자 신분 첫 소환조사

In [64]:
news = soup.select_one('.cjs_t')
print(news.get_text())

뉴스 이용 설문 응답자 39% "뉴스 피한다"... 역대 최고


In [57]:
titles = soup.select('.cjs_t')
for i, title in enumerate(titles):
    print(f"{i+1} : {title.get_text()}")

1 : 3억 로또 줍줍…이번엔 성남에 20만명 몰렸다
2 : "엉덩이 조금 때렸는데"…경찰, 순창 '집단 폭행' 안일 대응 논란[영상]
3 : 석유공사 사장 "말하면 알만한 글로벌 기업과 추가 검증 마쳤다"
4 : [도초도 수국축제] 지금 만나러 갑니다 1004만 송이 수국
5 : 속속 드러난 부실 대응... 지차체 공무원 10명 추가 기소
6 : 실질 지원 기대감 “해봐야”…익명 출산 딜레마 “해봤자”
7 : 은행 슈퍼앱, 디지털 헬스케어 품는다
8 : 박세리 부친 입 열었다 "아빠니까 나설 수 있다는 생각"
9 : 2025년 직장인 쉬는 날 119일…3일 이상 연휴 6번
10 : 징역 9년 6개월 이화영 판결문 속 이재명
11 : [단독]‘몰카 안경’ 쓰고 유치장-판사 몰래 찍은 30대 여성 구속기소
12 : 푸틴, 또 김정은에게 ‘러시아판 롤스로이스’ 아우루스 선물
13 : 지방선거까지 尹-韓 충돌 없다? '출마 임박' 韓 앞 '고차방정식'
14 : 비대면 대출 해준다더니…돌아온 건 계좌 정지
15 : 양육비 안 준 부모 164명, 출국금지·명단공개 등 제재
16 : 오물 풍선 소동, 끝난 게 아니다
17 : "자식 돈은 자식 돈, 어디 숟가락을 얹나"…박세리 논란에 손웅정 발언 재조명
18 : “자식 돈에 어디 숟가락”…박세리 논란에 소환된 손웅정
19 : "버티다, 버티다 못해 가입했다"…신규 요금제 이용 유도하는 배민[배달앱의배신]
20 : 에코+페미, 우리 지금 만나
21 : 현빈이 입은 '이 옷' 해외서도 난리…주가 58% 뛰었는데 "더 뛴다"
22 : 김호중 음주운전 혐의 제외에…"우리도 도망가자" 공분
23 : BBQ, '4000원 할인 쿠폰' 프로모션...민심 잡기 나선다
24 : "한쪽 침략당하면 상호지원"…랍스터 먹고, 한밤 배웅까지
25 : Summit of two loners: Kim breaks seclusion with Putin by his side
26 : "자식 돈에 어디 숟가락 얹나"…박세리 논란에 손흥민父 재조명
27 :

In [1]:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
import time

driver = webdriver.Chrome()


# Naver 페이지 열기
url = 'https://news.naver.com'
driver.get(url)

# 페이지 로딩 대기
time.sleep(2) #2초 대기(필요에 따라 조정)

# 뉴스스탠드 링크 찾기
try :
    newsstand_link = driver.find_element(By.XPATH, '//*[@id="ct"]/div/section[1]/div[2]/div/div[1]/div[2]/div[1]/div/div[2]/a/div[2]/div')
    print(newsstand_link.text)
except:
    print("링크를 찾을 수 없습니다")

# 브라우저 닫기
driver.quit()


제로라니까 제로인 줄 알았어? '제로슈거'의 거짓말 [추적+]


#### 0620

string vs. get_text() vs. text
- BeautifulSoup 객체에서 text 속성, get_text() 메서드, string 속성은 모두 HTML 또는 XML 문서에서 텍스트 데이터를 추출하는 데 사용
- text 속성은 해당 태그에서 모든 텍스트 데이터를 가져오며,
- get_text() 메서드도 동일한 결과를 반환합니다.
- string 속성은 해당 태그에서 첫 번째로 발견된 문자열 데이터만 가져옵니다.

| Method      | 특징                                                                               | 사용 사례                                      |
|-------------|----------------------------------------------------------------------------------|-----------------------------------------------|
| `string`    | 자식 텍스트 노드가 하나인 경우에만 해당 텍스트 반환, 여러 노드가 있으면 `None` 반환                | 단일 텍스트 노드만 있는 요소의 텍스트를 추출할 때      |
| `get_text()`| 요소 및 모든 하위 요소의 텍스트를 모두 포함하여 문자열로 반환, `separator` 및 `strip` 옵션 사용 가능 | 요소 내 모든 텍스트를 추출하고, 구분자 및 공백 처리가 필요한 경우 |
| `text`      | 요소 및 모든 하위 요소의 텍스트를 모두 포함하여 문자열로 반환, 추가 매개변수 없음                  | 요소 내 모든 텍스트를 단순하게 추출할 때                   |

string
- 정의: string 속성은 BeautifulSoup 객체의 자식 노드 중 하나의 텍스트 노드만 반환. 해당 요소의 직접적인 텍스트 콘텐츠가 하나일 때만 유용.
- 특징:
요소가 하나의 자식 텍스트 노드를 가지고 있는 경우에만 그 텍스트를 반환.
여러 자식 요소가 있거나 텍스트 노드가 여러 개 있는 경우 None을 반환.

get_text()
- 정의: get_text() 메서드는 요소 및 모든 하위 요소의 텍스트를 모두 추출하여 하나의 문자열로 반환.
- 특징:
요소 내의 모든 텍스트를 포함하여 반환.
기본적으로 하위 요소 사이에 공백을 추가하지만, separator 매개변수를 사용하여 구분자를 지정할 수 있다.
strip=True 옵션을 사용하여 앞뒤 공백을 제거할 수 있다.

text
- 정의: text 속성은 요소 및 모든 하위 요소의 텍스트를 모두 포함하는 문자열을 반환. get_text() 메서드와 동일한 기능을 한다.
- 특징:
get_text()와 거의 동일한 결과를 제공.
get_text()와 다르게 추가 매개변수(separator, strip)를 사용할 수 없다.

In [59]:
from bs4 import BeautifulSoup

html = """
<div class="example">
    Single text node
</div>
<div class="example">
    <p>Multiple</p> text <span>nodes</span>
</div>
"""

soup = BeautifulSoup(html, 'html.parser')
single_text_node = soup.find('div',class_ = 'example').string
multiple = soup.find_all('div',class_ = 'example')

# 자식 노드가 하나가 아닌 여러개이므로 None 반환
multiple_text_node = soup.find_all('div',class_ = 'example')[1].string

print(single_text_node)
print(multiple,'\n')
print(multiple_text_node)


    Single text node

[<div class="example">
    Single text node
</div>, <div class="example">
<p>Multiple</p> text <span>nodes</span>
</div>] 

None


<div class="example">
<p>Multiple</p> text <span>nodes</span>
</div>

In [62]:
from bs4 import BeautifulSoup

html = """
<div class="example">
    Single text node
</div>
<div class="example">
    <p>Multiple</p> text <span>nodes</span>
</div>
"""

soup = BeautifulSoup(html, 'html.parser')

# 기본적으로 'get_text()' 메서드는 공백을 구분자로 사용함
# strip = True 옵션을 사용하여 앞뒤 공백을 제거하고 텍스트를 추출
single_text_node = soup.find('div',class_='example').get_text(strip=True)
multiple_text_node = soup.find_all('div',class_='example')[1].get_text(strip=True)


print("Default separator: ")
print(single_text_node)
print(multiple_text_node)

Default separator: 
Single text node
Multipletextnodes


In [63]:
# separator 매개변수를 사용하여 구분자를 지정

single_text_node_with_separator = soup.find('div',class_='example').get_text(strip=True)
multiple_text_node_with_separator = soup.find_all('div',class_='example')[1].get_text(separator = ' | ' ,strip=True)

print("Default separator(' | '): ")
print(single_text_node_with_separator)
print(multiple_text_node_with_separator)

Default separator(' | '): 
Single text node
Multiple | text | nodes


In [64]:
from bs4 import BeautifulSoup

html = """
<div class="example">
    Single text node
</div>
<div class="example">
    <p>Multiple</p> text <span>nodes</span>
</div>
"""

soup = BeautifulSoup(html, 'html.parser')


single_text_node = soup.find('div',class_='example').text
multiple_text_node = soup.find_all('div',class_='example')[1].text


print(single_text_node)
print(multiple_text_node)


    Single text node


Multiple text nodes



정규표현식을 이용한 크롤링 방법 

HTML 가져오기:
- requests 라이브러리를 사용하여 웹 페이지의 HTML을 가져옵니다.
HTML 파싱:
- BeautifulSoup을 사용하여 HTML 문서를 파싱합니다.
정규표현식 사용:
- re 모듈을 사용하여 특정 패턴을 가진 텍스트를 추출합니다.

In [67]:
from bs4 import BeautifulSoup
import requests
import re

html = """
<ul>
    <li>Email: example@example.com</li>
    <li>Contact: contact@sample.org</li>
</ul>
"""

# 이메일 주소 출력
email_pattern = r'[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+'
emails = re.findall(email_pattern,html)
print(emails)

['example@example.com', 'contact@sample.org']


In [80]:
from bs4 import BeautifulSoup
html = '''
<html>
<body>
<div>
Hello,world!
</div>
<div>
<p>
Hello,<b>world!</b>
</p>
</div>
</body>
</html>
'''


soup = BeautifulSoup(html,'html.parser')
bs = soup.body.text
print(bs)



Hello,world!



Hello,world!





In [82]:
import re
texts = re.findall('[^\s]+',bs)
for t in texts:
    print(t)

Hello,world!
Hello,world!


In [86]:
soup.find('div').get_text(strip=True)


'Hello,world!'

In [89]:
texts = soup.find_all('div')
for t in texts:
    print(t.get_text(strip=True),end='')

Hello,world!Hello,world!

In [92]:
texts = re.findall('[^\s]+',bs)
li = ''
for t in texts:
    li += t
    li += ' '
print(li)

Hello,world! Hello,world! 


In [94]:
html = '''
<html>
<head>
<title>Sample Page</title>
</head>
<body>
<div>
Hello, world! 123
</div>
<div>
<p>
456 Hello, <b>789 world!</b> Visit us at <a href="http://example.com">example.com</a>
</p>
</div>
<footer>
Contact us at <a href="mailto:info@example.com">info@example.com</a>
</footer>
</body>
</html>
'''

In [102]:
soup = BeautifulSoup(html,'html.parser')
bs = soup.body.text
print(bs)



Hello, world! 123



456 Hello, 789 world! Visit us at example.com



Contact us at info@example.com




In [127]:
# Q. 주어진 html에서 아래 사항을 정규 표현식을 이용해서 수행하세요
# r'[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+'
# 모든 단어 추출
textss = re.findall('[^\s]+',html)
print(textss)
# 이메일 주소 추출
emails = re.findall('[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+',html)
print(emails)
# url 추출
# http://example.com
ur = re.findall(r'https?://[a-zA-Z]+\.com',html)
print(ur)
# 숫자 추출
num = re.findall('\d',html)
print(num)
# html 태그 내 텍스트 추출
matches = re.findall(r'<[^>]*>(.*?)</[^>]*', html)
print(matches)

['<html>', '<head>', '<title>Sample', 'Page</title>', '</head>', '<body>', '<div>', 'Hello,', 'world!', '123', '</div>', '<div>', '<p>', '456', 'Hello,', '<b>789', 'world!</b>', 'Visit', 'us', 'at', '<a', 'href="http://example.com">example.com</a>', '</p>', '</div>', '<footer>', 'Contact', 'us', 'at', '<a', 'href="mailto:info@example.com">info@example.com</a>', '</footer>', '</body>', '</html>']
['info@example.com', 'info@example.com']
['http://example.com']
['1', '2', '3', '4', '5', '6', '7', '8', '9']
['Sample Page', '789 world!', 'example.com', 'info@example.com']


In [128]:
# 모든 단어 추출
words_list = ''
soup = BeautifulSoup(html, 'html.parser')
words = re.findall(r'\b\w+\b',soup.text)
for word in words:
    words_list += word
    words_list += ' '
print(words_list)

Sample Page Hello world 123 456 Hello 789 world Visit us at example com Contact us at info example com 


In [130]:
# 이메일 주소 추출
eamil_pattern = r'[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+'
emails = re.findall(email_pattern, html)
for email in emails:
    print(email)

info@example.com
info@example.com


In [134]:
# url 추출
url_pattern = r'https?://[^\s<>]+|www\.[^\s<>]+'
urls = re.findall(url_pattern,html)
print(urls)
for url in urls:
    print(url)

['http://example.com"']
http://example.com"


In [135]:
# 숫자 추출
num_list = ''
numbers = re.findall(r'\b\d+\b',html)
for number in numbers:
    num_list += number
    num_list += ' '

print(num_list)

123 456 789 


In [139]:
# html 태그 내 텍스트 추출
tag_texts = re.findall(r'>([^<]+)<',html)
text_lists = ' '.join(text.strip() for text in tag_texts)
text_lists = re.sub(r'\s+',' ',text_lists)
print(text_lists)

 Sample Page Hello, world! 123 456 Hello, 789 world! Visit us at example.com Contact us at info@example.com 


In [141]:
from bs4 import BeautifulSoup
import re
html = """
<ul>
  <li><a href="hoge.html">hoge</li>
  <li><a href="https://example.com/fuga">fuga*</li>
  <li><a href="https://example.com/foo">foo*</li>
  <li><a href="http://example.com/aaa">aaa</li>
</ul>
"""


soup = BeautifulSoup(html,'html.parser')
# 정규 표현식으로 href에서 https인 것 추출하기
li = soup.find_all(href=re.compile(r"^https://"))
print(li,'\n')
for e in li:
    print(e.attrs['href'])

[<a href="https://example.com/fuga">fuga*</a>, <a href="https://example.com/foo">foo*</a>] 

https://example.com/fuga
https://example.com/foo


#### urllib + bs

In [None]:
url = 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100'

html = requests.get(url)
print(html)
print(html.text)
bs = BeautifulSoup(html.text,'html.parser')
bs

In [None]:
import urllib.request as rq

url = 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100'

html = rq.urlopen(url)

bs = BeautifulSoup(html,'html.parser')
bs

In [150]:
text1 = bs.find('p')
text1

<p class="sa_head_layer_p">각 헤드라인의 기사와 배열 순서는 개인화를 반영해 자동 추천되어 제공됩니다. 기사 수량이 표기된 기사 우측 하단의 파란색 아이콘을 클릭하면 기사묶음을 확인할 수 있고 기사묶음과 기사묶음 타이틀도 기사 내용을 기반으로 <strong>자동 추출</strong>됩니다.</p>

In [151]:
text10 = bs.find_all('p')
for t in text10:
    print(t.text)

각 헤드라인의 기사와 배열 순서는 개인화를 반영해 자동 추천되어 제공됩니다. 기사 수량이 표기된 기사 우측 하단의 파란색 아이콘을 클릭하면 기사묶음을 확인할 수 있고 기사묶음과 기사묶음 타이틀도 기사 내용을 기반으로 자동 추출됩니다.
AiRS 추천으로 구성된 뉴스를 제공합니다.
각 언론사의 가장 많이 본 기사 1건을 제공합니다.
"외계인이 만든 듯"…돌연 사막에 솟아난 '거울기둥' 미스터리
“미용실 몇 시까지 해요?” 묻던 남성, 등 뒤에 흉기가…[영상]
국제마약조직의 ‘배달사고’…110만명분 코카인, 부산항으로 오배달
[속보] 윤 대통령 "경북에 3.4조 영일만 횡단고속도로, 3000억 국가산업단지 지원"
"北 고등학생들, 목욕탕 빌려 집단 성관계에 마약까지"
현빈이 입은 '이 옷' 해외서도 난리…주가 58% 뛰었는데 "더 뛴다"
'김건희 논문 검증' 학생들 몰표‥'숙대'의 선택은
"일곱번째 아이가 태어났어요!"..육아 수당만 5,040만 원
"1억 주면 조용히 있고, 5천 주면 소문내고" 연돈볼카츠 점주들 녹취록 공개
“시청률 0%, 터질게 터졌다” 넷플릭스발 초유의 사태 ‘발칵’
"유명 식당서 훠궈 먹자 혀 까매져"..中, 끝없는 식품위생 논란
“비상 깜빡이 켰는데”…고속도로서 후진한 여성의 최후 [잇슈 키워드]
[속보] 북러 조약문 "전쟁상태 처하면 지체없이 군사 원조 제공"
백종원·김어준·임영웅의 '굴욕'…'이 여자'한테 다 밀렸다…한국인 최애 유튜버는 누구?
"특이한 안경" 끼고 대화하는 경찰관 바라본 여성…알고 보니
“비둘기, 멧돼지, 다람쥐 여러분…피임하세요” 과학자들 피임약 뿌려 개체수 조절 시험중
北 남녀 고교생 6명, 목욕탕 빌려 집단 성관계에 마약까지
“자식 돈에 어디 숟가락”…박세리 논란에 소환된 손웅정
“아빠의 신부” 어린딸 드레스 입히더니…수상한 ‘웨딩사진’에 日 경악
하루에 물 1300t 빼가는 생수공장…“좀 보소, 집엔 누런 흙탕물”
또 터진 불량 공모주 사태…이노그리드, 사상 첫 상장승인 취소
조국 "이재명, 대통령 되면 재판정

In [152]:
bs.find('p',class_ ='sa_head_layer_p')

<p class="sa_head_layer_p">각 헤드라인의 기사와 배열 순서는 개인화를 반영해 자동 추천되어 제공됩니다. 기사 수량이 표기된 기사 우측 하단의 파란색 아이콘을 클릭하면 기사묶음을 확인할 수 있고 기사묶음과 기사묶음 타이틀도 기사 내용을 기반으로 <strong>자동 추출</strong>됩니다.</p>

In [153]:
text2 = bs.find('p').string
print(text2)

None


In [155]:
print(bs.find('title'))

<title>정치 : 네이버 뉴스</title>


In [156]:
print(bs.find('title').string)

정치 : 네이버 뉴스


In [158]:
text3 = bs.find('p').get_text()
print(text3)

각 헤드라인의 기사와 배열 순서는 개인화를 반영해 자동 추천되어 제공됩니다. 기사 수량이 표기된 기사 우측 하단의 파란색 아이콘을 클릭하면 기사묶음을 확인할 수 있고 기사묶음과 기사묶음 타이틀도 기사 내용을 기반으로 자동 추출됩니다.


.: 어떤 한 문자와 일치 (\n 제외)
^: 문자열의 시작과 일치
$: 문자열의 끝과 일치
*: 0번 이상 반복되는 경우와 일치
+: 1번 이상 반복되는 경우와 일치
?: 0번 또는 1번 등장하는 경우와 일치
{m,n}: 최소 m번, 최대 n번 반복
[]: 문자 집합 중 하나와 일치 (예: [abc]는 a, b, c 중 하나와 일치)
|: OR 조건 (예: a|b는 a 또는 b)
(...): 그룹화
\d: 숫자와 일치
\D: 숫자가 아닌 공백, 문자, 구두점 등 모든 문자와 일치
\s: 스페이스(' '), 탭('\t'), 캐리지 리턴('\r'), 뉴라인('\n'), 폼 피드('\f') 등 공백 문자와 일치
\S: 공백이 아닌 문자, 숫자, 특수 문자 등 모든 것과 일치
\w: 단어 문자(문자, 숫자, 밑줄)와 일치
\W: 단어 문자가 아닌 특수 문자, 공백 문자, 구두점 등과 일치

인코딩 에러를 해결

 chardet.detect(response.content)['encoding']은 response.content의 인코딩 방식을 자동으로 감지하여 반환하며
 이 값을 encoding 변수에 저장한 후, response.content를 이 encoding 방식으로 디코딩하여 html 변수에 저장하고 출력

- chardet는 "Universal Character Encoding Detector"로, 다양한 인코딩을 감지할 수 있는 파이썬 패키지

In [161]:
import requests
import chardet

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}

url = 'https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100'

response = requests.get(url, headers=headers)

# http 요청이 성공적으로 전달되었다면, 웹사이트의  html 코드를 출력
if response.status_code == 200:
    encoding = chardet.detect(response.content)['encoding']
    # print(response.content.decode(encoding)) # 웹사이트의 HTML 코드를 포함하는 이진(binary) 데이터를 반환
    print(response.text) #웹사이트의 html코드를 문자열 형태로 반환
    print(encoding)
else:
    print('HTTP request failed')

<!doctype html>
<html lang="ko" data-useragent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36">
	<head>
		<meta charset="utf-8">
		<meta http-equiv="X-UA-Compatible" content="IE=edge">
		<meta name="referrer" contents="always">
		<meta http-equiv="refresh" content="600">
		<meta name="viewport" content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0, user-scalable=no" />
		<meta property="og:title" content="정치 : 네이버 뉴스">
		<meta property="og:type" content="website">
		<meta property="og:url" content="https://news.naver.com/section/100">
		<meta property="og:image" content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800x420_20221201.png">
		<meta property="og:description" content="국회, 행정, 국방, 외교 등 정치 분야 뉴스 제공">
		<meta property="og:article:author" content="네이버">
		<meta name="twitter:card" content="summary">
		<meta name="twitter:title" content="정치 : 네이버 뉴스">
		<meta nam

In [166]:
import re
texts = response.text
result = re.findall('[가-힣]+',texts)
print(' '.join(result))
print(type(result))

정치 네이버 뉴스 국회 행정 국방 외교 등 정치 분야 뉴스 제공 네이버 정치 네이버 뉴스 네이버 뉴스 네이버 뉴스 국회 행정 국방 외교 등 정치 분야 뉴스 제공 정치 네이버 뉴스 로그 전송 최대치 도달 본문 바로가기 뉴스 연예 스포츠 날씨 프리미엄 검색 언론사별 정치 경제 사회 생활 문화 과학 세계 랭킹 신문보기 오피니언 팩트체크 알고리즘 안내 정정보도 모음 목 전체 언론사 뉴스스탠드 라이브러리 정치 대통령실 국회 정당 북한 행정 국방 외교 정치일반 뉴스 알고리즘 프리미엄콘텐츠 헤드라인 뉴스 안내 각 헤드라인의 기사와 배열 순서는 개인화를 반영해 자동 추천되어 제공됩니다 기사 수량이 표기된 기사 우측 하단의 파란색 아이콘을 클릭하면 기사묶음을 확인할 수 있고 기사묶음과 기사묶음 타이틀도 기사 내용을 기반으로 자동 추출 됩니다 알고리즘 자세히 보기 닫기 민주 이재명 녹취 공개 박정훈 허위사실 고발 검토 민주 이재명 녹취 공개 박정훈 허위사실 고발 검토 국민의힘 박정훈 의원이 이재명 더불어민주당 대표의 위증교사 혐의 재판과 관련해 통화 녹취 파일을 공개한 가운데 더불어민주당은 박 의원을 허위사실 유포 혐의로 고발하는 것을 검토 중이라고 밝혔습니다 더불어민주당 한민 개의 관련뉴스 더보기 북러 포괄적 전략 동반자 협정 서명 강력한 파트너십 체결 반미연대 굳어질듯 북러 포괄적 전략 동반자 협정 서명 강력한 파트너십 체결 반미연대 굳어질듯 북한 러시아의 밀착 행보 로 한반도를 둘러싼 역학 구도가 급변할 것으로 관측된다 국제사회에서 고립 상태인 북 러가 강력한 파트너십을 맺으면서 반미 연대가 한층 노골적으로 드러날 것으로 보인다 이로 인해 매일신문 개의 관련뉴스 더보기 단독 김건희 종결 책임지고 사퇴한 권익위원 알선수재 논의 없었다 단독 김건희 종결 책임지고 사퇴한 권익위원 알선수재 논의 없었다 국민권익위원회 권익위 가 김건희 여사 명품 가방 수수 사건을 종결 처리한 데 대해 책임지겠다 는 뜻을 밝히고 사퇴한 최정묵 권익위원이 전원위원회에서 사건 종결을 결정하면서 청탁금지

In [172]:
url = "https://serieson.naver.com/v3/movie/ranking/realtime"

response = requests.get(url)
bs = BeautifulSoup(response.text,'html.parser')

te = bs.select('span.Title_title__s9o0D')
print(te[0].get_text())

인사이드 아웃(패키지상품 : 더빙판 + 부가영상 추가증정)


In [173]:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
import time


driver = webdriver.Chrome()


url = "https://serieson.naver.com/v3/movie/ranking/realtime"
driver.get(url)


time.sleep(2) #2초 대기(필요에 따라 조정)


try :
    newsstand_link = driver.find_element(By.XPATH, '//*[@id="container"]/div[2]/ol/li[1]/a/div[3]/span')
    print(newsstand_link.text)
except:
    print("링크를 찾을 수 없습니다")


driver.quit()

인사이드 아웃(패키지상품 : 더빙판 + 부가영상 추가증정)


In [175]:
import requests
from bs4 import BeautifulSoup

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}

url = "https://serieson.naver.com/v3/movie/ranking/realtime"

response = requests.get(url, headers=headers)

# http 요청이 성공적으로 전달되었다면, 웹사이트의  html 코드를 출력
if response.status_code == 200:
    soup = BeautifulSoup(response.text,'html.parser')
soup.find('span',class_='Title_title__s9o0D').text

'인사이드 아웃(패키지상품 : 더빙판 + 부가영상 추가증정)'

In [187]:
url = "https://serieson.naver.com/v3/movie/ranking/realtime"

response = requests.get(url)
bs = BeautifulSoup(response.text,'html.parser')

te = bs.select('span.Title_title__s9o0D')
for i, t in enumerate(te[:10]):
    print(f"{i+1}위 : {t.text}")

1위 : 인사이드 아웃(패키지상품 : 더빙판 + 부가영상 추가증정)
2위 : 소울메이트
3위 : 밀애
4위 : 듄
5위 : 콰이어트 플레이스
6위 : 너의 이름은.
7위 : 명탐정 코난 VS 괴도 키드
8위 : 듄: 파트 2(부가영상 제공)
9위 : 파묘
10위 : 파묘


Task1_0620. 네이버 영화 순위 사이트에서 영화제목, 가격, 타입(구매 or 대여) 정보를 가져와서 TITLE, PRICE, TYPE 3개의 컬럼과 100개의 데이터포인트로 구성된 데이터프레임을 출력하세요.

In [222]:
import re
import requests
from bs4 import BeautifulSoup
import pandas as pd

url = "https://serieson.naver.com/v3/movie/ranking/realtime"

response = requests.get(url)
bs = BeautifulSoup(response.text,'html.parser')


prices = bs.find_all('span', class_ = 'Price_price__GqXqo')
price = [re.findall(r'\d',p.text) for p in prices]
price = [''.join(r) for r in price]


types = bs.find_all('span', class_ = 'Price_text__pRk_f')
type1 = [type1.text for type1 in types]


titles = bs.find_all('span', class_ = 'Title_title__s9o0D')
title = [title.text for title in titles]


df = pd.DataFrame({'TITLE' : title,
                   'PRICE' : price,
                   'TYPE' : type1})
df

Unnamed: 0,TITLE,PRICE,TYPE
0,인사이드 아웃(패키지상품 : 더빙판 + 부가영상 추가증정),7150,구매
1,소울메이트,1540,대여
2,원더,1540,대여
3,설계자,11000,대여
4,외계+인 2부,2750,대여
...,...,...,...
95,두근두근 내 인생,1200,구매
96,명량,1540,대여
97,리오 2,5500,구매
98,고스톱 살인,2000,구매


### CSS 선택자
- 원하는 정보만 선별하여 수집하고 싶을 때 css선택자를 활용할 수 있음
- (CSS 선택자 설명 추가)
- F12 >> 수집하고 싶은 부분 클릭 >> 태그 선택 >> copy Selector
- BeautifulSoup의 select_one, select 활용

개발자 도구상에서 .class로 확인한 정치기사 개수는 58개인 반면에 select('.class')로 크롤링한 기사 개수는 38개인 이유
- 많은 사이트는 JavaScript를 사용하여 콘텐츠를 동적으로 로딩하는 반면 requests + Beautifulsoup은 기본적으로 JavaScript를 실행하지 않기 때문에 일부 js로
로딩되는 콘텐츠는 크롤링되지 않는다.
- 페이지가 완전히 로드되기 전에 크롤링이 시도될 경우 일부 콘텐츠가 누락될 수 있다.
- 웹 페이지가 비동기 요청(Ajax)를 사용하여 데이터를 가져오는 경우 이 요청을 수동으로 처리하지 않는 한 해당 데이터를 가져오지 못할 수 있다.

In [193]:
import requests
from bs4 import BeautifulSoup


headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}


url = 'https://news.daum.net/politics#1'

r = requests.get(url,headers=headers)
html = r.text
soup = BeautifulSoup(html,'html.parser')

lines = soup.select('.link_txt')
body = '\n'.join([f'{i+1}. {line.text}' for i, line in enumerate(lines)])
print(body)

1. [단독] 입 연 권익위 “여사께 300만원 엿 선물? 직무 연관성 없으면 줘도 됩니다”
2. 구리고 '자율형 공립고 2.0' 전환 추진
3. 이준석, ‘밥값선거법’ 1호 법안 발의 예고…“공정한 선거환경 만들어야”
4. 유시민, 패소 확정 후 한동훈 언급… "그래, 네 팔뚝 굵다"
5. 이준석 "원희룡 당대표 출마… 대통령과 상의 있었을 것"
6. 강민구 "민주당의 아버지는 이재명"···국민의힘 "북한 조선중앙통신에서나 들을 말"
7. 尹 “새마을운동 시작된 경북, 정부가 적극 지원할 것”
8. 나경원 "근본 깨는 이재명, 대한민국 비명횡사..무조건 막아야, 곧 결심"[여의도초대석]
9. 울산 미취업 청년에 어학·자격증 응시료 지원…연간 8만원
10. 강훈식, 1호 법안으로 ‘소액주주 권리 강화’
11. 외교부 "북러 안보리결의 위반 군사기술 협력 언급 유감"
12. 국민의힘 "불합리한 상속세에 기업 경영·가계 부담...개편 필요"(종합)
13. 김경일 파주시장 “대북전단, 오물풍선 중단해달라”
14. 경기도 '1회용품 없는 경기 특화지구' 5곳 조성
15. 이병화 환경·김민석 고용차관…특허청장 김완기
16. [속보] 이병화 환경차관, 김민석 고용차관, 김완기 특허청장 내정
17. 나경원 "근본 깨는 이재명, 대한민국 비명횡사..무조건 막아야, 곧 결심"
18. 박원석 "원희룡 출마? 용산 참전신호"...김근식 "결선투표 노린 듯"
19. 나경원 “당 대표는 대통령과의 갈등이 겉으로 드러나면 안 돼…차별화해 대권 가겠다는 건 미래 없어”
20. 최진녕 변호사 / 서용주 전 더불어민주당 상근부대변인 - 원 구성 놓고 여야 입장 차…대치 정국 심화
21. 이재명, 당대표 사퇴-연임 도전 ‘임박’…‘친명 2기 지도부’도 뜬다
22. ③중산층까지 악영향? 금투세 쟁점과 필요한 결정은?
23. 위계충 권폭귀
24. 1년 전 나경원 막은 친윤, 이번엔 한동훈 대항마로 키운다?
25. “김경율 누가 데려왔나”… 與, 한동훈 둘러싸고 뜬금없는 공방
26. 뉴스홈
27.

In [203]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}


url = 'https://news.daum.net/politics#1'

r = requests.get(url,headers=headers)
html = r.text
soup = BeautifulSoup(html,'html.parser')

lines = soup.select('a.link_txt')
articles = [line.text.strip() for line in lines]
df = pd.DataFrame({'Article':articles})
df

Unnamed: 0,Article
0,민주당 “팔수록 석유 대신 ‘카르텔’ 의혹···동해 바다가 동문회 장소냐”
1,"행복청, 삼성이노베이션뮤지엄 등 찾아 1박2일 벤치마킹"
2,"“회의 전날 김건희 안건 긴급 추가 제보”···야3당, ‘건희권익위’ 대응 간담회"
3,"이준석, '반값 선거법' 발의…""5%만 득표해도 절반 보전"""
4,"원희룡, 당 대표 출마선언…'한·나·원' 3파전 예고"
5,육군 학사·간부사관 438명 임관…독립후손가 후손 등 눈길
6,"정부 고위 관계자, 북러 조약에 ""세상에 없을 시나리오에 대한 약속"""
7,광양시의회 후반기 의장 선거 '복당파' 변수
8,[프로필] 김완기 특허청장…무역·통상 전문 정통 관료
9,"[단독] 이스라엘, 레바논 공격 승인 후폭풍...동명부대 외부활동 금지령"


In [217]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}


url = 'https://news.daum.net/politics#1'

r = requests.get(url,headers=headers)
html = r.text
soup = BeautifulSoup(html,'html.parser')

# 개발자 도구 copy.selector 사용
titles = soup.select('body > div > main > section > div > div > ul > li > div > div > strong > a')
# start = 1 인덱스를 1부터 시작하겠다는 의미
for i, title in enumerate(titles,start=1):
    print(f"{i}. {title.get_text().strip()}")

1. 아이 발달 골든타임 놓치지 않도록...성북구 부모교육
2. 野, 채상병특검 청문회 불출석 증인 ‘무더기 고발’ 예고…“신원식·김계환만 사유서 제출”[이런정치]
3. 정부 "북러 안보리결의 위반 군사기술 협력 언급 유감"
4. 한동훈, 23일 당대표 출마 선언… “용산과 기싸움 하지 않겠다”
5. [단독] 방북·대납 동기 없었다는 이재명…檢 “당시 적극적 정치 활동”
6. 尹, 차관인사 단행… 환경 이병화·고용 김민석·특허청 김완기
7. 野, 채상병특검 청문회 불출석 증인 ‘무더기 고발’ 예고…“신원식·김계환만 사유서 제출”
8. 나경원 "근본 깨는 이재명, 대한민국 비명횡사..무조건 막아야, 곧 결심"
9. 박원석 "원희룡 출마? 용산 참전신호"...김근식 "결선투표 노린 듯"
10. 나경원 “당 대표는 대통령과의 갈등이 겉으로 드러나면 안 돼…차별화해 대권 가겠다는 건 미래 없어”
11. 최진녕 변호사 / 서용주 전 더불어민주당 상근부대변인 - 원 구성 놓고 여야 입장 차…대치 정국 심화
12. ③중산층까지 악영향? 금투세 쟁점과 필요한 결정은?
13. 위계충 권폭귀
14. 1년 전 나경원 막은 친윤, 이번엔 한동훈 대항마로 키운다?
15. “김경율 누가 데려왔나”… 與, 한동훈 둘러싸고 뜬금없는 공방


In [232]:
# 한글과 숫자만 출력, 콤마 제거
import re
import requests
from bs4 import BeautifulSoup
import pandas as pd

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}


url = 'https://news.daum.net/politics#1'

r = requests.get(url,headers=headers)
html = r.text
soup = BeautifulSoup(html,'html.parser')

lines = soup.select('body > div > main > section > div > div > ul > li > div > div > strong > a')

for i, tag in enumerate(lines,start =1):
    text = tag.get_text().strip().replace(',','')
    matches = re.findall('[가-힣0-9]+',text)
    print(f"{i}. {' '.join(matches)}")

1. 이슈 지체없이 군사원조 한반도 전쟁나면 러시아 개입
2. 조태용 국정원장이 민주당 의원과 오찬을 갑자기 취소한 이유는
3. 노컷브이 법사 운영위 1년씩 대통령도 1년씩 원구성 난항
4. 이준석 전당대회 윤 대통령 의중 작용 시작 한동훈 포기 압박
5. 광주 남구소식 등산로 고장 운동기구 점검 보수
6. 의협 올바른 의료를 위한 특별위원회 출범 전공의 자리 공석
7. 한동훈 23일 당대표 출마 선언 이재명 연임 도전 수순
8. 채상병특검 청문회 불출석 증인 무더기 고발 예고 신원식 김계환만 사유서 제출
9. 나경원 근본 깨는 이재명 대한민국 비명횡사 무조건 막아야 곧 결심
10. 박원석 원희룡 출마 용산 참전신호 김근식 결선투표 노린 듯
11. 나경원 당 대표는 대통령과의 갈등이 겉으로 드러나면 안 돼 차별화해 대권 가겠다는 건 미래 없어
12. 최진녕 변호사 서용주 전 더불어민주당 상근부대변인 원 구성 놓고 여야 입장 차 대치 정국 심화
13. 중산층까지 악영향 금투세 쟁점과 필요한 결정은
14. 위계충 권폭귀
15. 1년 전 나경원 막은 친윤 이번엔 한동훈 대항마로 키운다


Task2_0620. 앞에서 출력한 기사 리스트를 pandas 데이터프레임으로 변환 후 csv 파일로 저장 후 다시 불러오세요.

인덱스와 기사를 컬럼으로 (2개 컬럼)

In [233]:
import re
import requests
from bs4 import BeautifulSoup
import pandas as pd

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}


url = 'https://news.daum.net/politics#1'

r = requests.get(url,headers=headers)
html = r.text
soup = BeautifulSoup(html,'html.parser')

lines = soup.select('body > div > main > section > div > div > ul > li > div > div > strong > a')

index = []
title = []
for i, tag in enumerate(lines,start =1):
    text = tag.get_text().strip().replace(',','')
    matches = re.findall('[가-힣0-9]+',text)
    index.append(i)
    title.append(' '.join(matches))

df = pd.DataFrame({'INDEX':index,
                   'TITLE': title})
df

Unnamed: 0,INDEX,TITLE
0,1,이슈 지체없이 군사원조 한반도 전쟁나면 러시아 개입
1,2,조태용 국정원장이 민주당 의원과 오찬을 갑자기 취소한 이유는
2,3,노컷브이 법사 운영위 1년씩 대통령도 1년씩 원구성 난항
3,4,이준석 전당대회 윤 대통령 의중 작용 시작 한동훈 포기 압박
4,5,광주 남구소식 등산로 고장 운동기구 점검 보수
5,6,의협 올바른 의료를 위한 특별위원회 출범 전공의 자리 공석
6,7,한동훈 23일 당대표 출마 선언 이재명 연임 도전 수순
7,8,채상병특검 청문회 불출석 증인 무더기 고발 예고 신원식 김계환만 사유서 제출
8,9,나경원 근본 깨는 이재명 대한민국 비명횡사 무조건 막아야 곧 결심
9,10,박원석 원희룡 출마 용산 참전신호 김근식 결선투표 노린 듯


In [234]:
df.to_csv('articles_title.csv')

In [236]:
df1 = pd.read_csv('articles_title.csv',index_col = 0)
df1

Unnamed: 0,INDEX,TITLE
0,1,이슈 지체없이 군사원조 한반도 전쟁나면 러시아 개입
1,2,조태용 국정원장이 민주당 의원과 오찬을 갑자기 취소한 이유는
2,3,노컷브이 법사 운영위 1년씩 대통령도 1년씩 원구성 난항
3,4,이준석 전당대회 윤 대통령 의중 작용 시작 한동훈 포기 압박
4,5,광주 남구소식 등산로 고장 운동기구 점검 보수
5,6,의협 올바른 의료를 위한 특별위원회 출범 전공의 자리 공석
6,7,한동훈 23일 당대표 출마 선언 이재명 연임 도전 수순
7,8,채상병특검 청문회 불출석 증인 무더기 고발 예고 신원식 김계환만 사유서 제출
8,9,나경원 근본 깨는 이재명 대한민국 비명횡사 무조건 막아야 곧 결심
9,10,박원석 원희룡 출마 용산 참전신호 김근식 결선투표 노린 듯


In [239]:
import re
import requests
from bs4 import BeautifulSoup
from datetime import datetime
import os


query = input('검색 키워드를 입력하세요 : ')
query = query.replace(' ','+')
print(query)

news_url = 'https://search.naver.com/search.naver?where=news&sm=tab_jum&query={}'

# format(query) 메서드는 url 템플릿의 {}부분을 query로 대체
req = requests.get(news_url.format(query))
html = req.text
soup =BeautifulSoup(html,'html.parser')
links = soup.select('.news_tit')

for link in links:
    title = link.text
    url = link.attrs['href']
    print(title, '\n', url)

삼성전자
         삼성전자 : 네이버 뉴스검색       메뉴 영역으로 바로가기 본문 영역으로 바로가기      NAVER   검색                    한글 입력기 입력도구       자동완성 레이어검색 레이어     최근 검색어  전체삭제     검색어 저장 기능이 꺼져 있습니다.설정이 초기화 된다면 도움말을 확인해 주세요. 최근 검색어 내역이 없습니다.설정이 초기화 된다면 도움말을 확인해 주세요.    자동저장 끄기 도움말   닫기       CUE대화하듯 질문해 보세요이 정보가 표시된 이유  검색어와 포함된 키워드를 기반으로 AI 기술을 활용하여 연관된 추천 질문을 제공합니다. 레이어 닫기      이전 다음             자세히 보기     관심사를 반영한 컨텍스트 자동완성도움말   컨텍스트 자동완성   컨텍스트 자동완성  ON/OFF 설정은 해당기기(브라우저)에 저장됩니다.  자세히 보기    동일한 시간대・연령대・남녀별 사용자 그룹의 관심사에 맞춰 자동완성을 제공합니다. 자세히 보기  네이버로그인   컨텍스트 자동완성 레이어 닫기      자동완성 끄기 도움말 신고   닫기        검색 검색              전체뉴스블로그카페이미지지식iN인플루언서동영상쇼핑어학사전지도도서지식백과학술정보   이전 다음     더보기   전체뉴스블로그카페이미지지식iN인플루언서동영상쇼핑어학사전지도도서지식백과학술정보  검색옵션       공유      삼성전자 뉴스검색 결과                          관련도순 최신순   모바일 메인 언론사    옵션    옵션      정렬  관련도순 최신순 오래된순    서비스 영역  전체 모바일 메인 언론사 PC 메인 언론사      기간  전체 1시간옵션펼치기접기 1일 1주 1개월 3개월 6개월 1년 직접입력옵션펼치기접기    시간선택     1시간 2시간 3시간 4시간 5시간 6시간     기간 설정시작       기간 설정끝     년(Year)       월(Month)  

news_url.format(query): URL 문자열 내의 특정 부분을 query 변수의 값으로 대체
- news_url 변수에는 포맷 문자열 'https://news.example.com/search?query={}'가 저장
- news_url.format(query)는 포맷 문자열의 {} 부분을 query 변수의 값으로 대체
- 결과적으로, 포맷팅된 URL은 'https://news.example.com/search?query=politics'가 된다.

Task3_0620. url = 'https://news.daum.net/politics#1'은 정치기사 1페이지인데 10페이지에 있는 기사를 모두 출력하세요. 

req, bs만 사용

In [243]:
import requests
from bs4 import BeautifulSoup

url = 'https://news.daum.net/politics#{}'

for i in range(1,11):
    response = requests.get(url.format(i))
    html = BeautifulSoup(response.text,'html.parser')
    result = html.find_all(class_ = 'link_txt')
    for r in result:
        print(f"{i}번째 페이지")
        print(f"기사 제목 : {r.text}")


1번째 페이지
기사 제목 : [북러 회담] "러, 조약 근거로 북한과 무기거래 공식화할듯"
1번째 페이지
기사 제목 : 한반도 상공 등장한 '하늘의 전함' AC-130J [양낙규의 Defence Club]
1번째 페이지
기사 제목 : 춘천시 정원도시 협력지원단 '첫발'…8개 기관·단체 구성
1번째 페이지
기사 제목 : [성공예감] 지역이 살아야 출생률도 올라간다, 해법은 – 양승훈 교수(경남대 사회학과), 서영민 기자(KBS)
1번째 페이지
기사 제목 : 민주당 전남도의회 의장후보에 김태균 선출…27일 본회의서 투표
1번째 페이지
기사 제목 : 민주당 "與의 법사위원장 1년 제안? 비현실적" 재확인
1번째 페이지
기사 제목 : 여야, 연일 ‘빈손 회동’…원 구성 협상 난항
1번째 페이지
기사 제목 : 野 정무위원, '김여사 명품가방 의혹' 종결 권익위 청문회 예고
1번째 페이지
기사 제목 : 윤 대통령, 이병화 환경·김민석 고용차관...특허청장 김완기 내정
1번째 페이지
기사 제목 : [이슈+] "지체없이 군사원조"‥한반도 전쟁나면 러시아 개입?
1번째 페이지
기사 제목 : 조태용 국정원장이 민주당 의원과 오찬을 갑자기 취소한 이유는
1번째 페이지
기사 제목 : [노컷브이]與 "법사·운영위 1년씩" vs 野 "대통령도 1년씩?"…원구성 난항
1번째 페이지
기사 제목 : 이준석 "與 전당대회, 윤 대통령 의중 작용 시작…한동훈 포기 압박"
1번째 페이지
기사 제목 : [광주 남구소식] 등산로·고장 운동기구 점검 보수
1번째 페이지
기사 제목 : 의협, 올바른 의료를 위한 특별위원회 출범...전공의 자리 공석
1번째 페이지
기사 제목 : [제천소식] 중장기 종합발전계획 수립 용역 추진
1번째 페이지
기사 제목 : 한동훈 23일 당대표 출마 선언…이재명 연임 도전 수순
1번째 페이지
기사 제목 : 野, 채상병특검 청문회 불출석 증인 ‘무더기 고발’ 예고…“신원식·김계환만 사유서 제출”
1번째 페이지
기사 제목 : 나경원 "근본 깨는 이재명, 대한민국 비명횡사..무조