In [40]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

In [41]:
url = 'https://news.kbs.co.kr/news/pc/category/category.do?ref=pSiteMap#20240311&1'
html_doc = requests.get(url).text
html_doc

'<!DOCTYPE html>\n<html lang="ko" >\n<head>\n    \n\n    \n\n\n\n\n\n\n\n\n<!--  for global var  -->\n<script type="text/javascript">\n  var application = {"root_url":"https://news.kbs.co.kr","vod_cloud_front_url_block_international":"http://news-restrict.gscdn.kbs.co.kr","imagePath":"","resourcesPath":"/resources","root_domain":"news.kbs.co.kr","news_map_client_id":"udun63q80x","vod_api_url":"https://static.api.kbs.co.kr/play/1.2/sign","vodDefaultImage":"/resource/image/common/noimg_633_355.png","cdn_api_url_root":"https://static.api.kbs.co.kr","img_path_m_big":"https://img.kbs.co.kr/kbs/620/news.kbs.co.kr","cms_root_domain":"newscms.kbs.co.kr","vod_bucket":"newsvod.s3.kbs.co.kr","news_mobile_map_client_id":"vogmbm9h4v","jebo_root_url":"jebo.kbs.co.kr","defaultImage":"/resource/image/common/noimg_633_355.png","contextPath":"","rootDomain":"news.kbs.co.kr","img_path_m_sm":"https://img.kbs.co.kr/kbs/44/news.kbs.co.kr","img_path_m_thum":"https://img.kbs.co.kr/kbs/160/news.kbs.co.kr","res

In [42]:
soup = BeautifulSoup(html_doc, 'html.parser')
soup

<!DOCTYPE html>

<html lang="ko">
<head>
<!--  for global var  -->
<script type="text/javascript">
  var application = {"root_url":"https://news.kbs.co.kr","vod_cloud_front_url_block_international":"http://news-restrict.gscdn.kbs.co.kr","imagePath":"","resourcesPath":"/resources","root_domain":"news.kbs.co.kr","news_map_client_id":"udun63q80x","vod_api_url":"https://static.api.kbs.co.kr/play/1.2/sign","vodDefaultImage":"/resource/image/common/noimg_633_355.png","cdn_api_url_root":"https://static.api.kbs.co.kr","img_path_m_big":"https://img.kbs.co.kr/kbs/620/news.kbs.co.kr","cms_root_domain":"newscms.kbs.co.kr","vod_bucket":"newsvod.s3.kbs.co.kr","news_mobile_map_client_id":"vogmbm9h4v","jebo_root_url":"jebo.kbs.co.kr","defaultImage":"/resource/image/common/noimg_633_355.png","contextPath":"","rootDomain":"news.kbs.co.kr","img_path_m_sm":"https://img.kbs.co.kr/kbs/44/news.kbs.co.kr","img_path_m_thum":"https://img.kbs.co.kr/kbs/160/news.kbs.co.kr","resource_root_url":"//news.kbs.co.kr","

In [43]:
box_contents = soup.find_all('a', class_ = 'box-content flex-style')
box_contents

[]

## 데이터가 담겨있지 않은 원인
1. 크롤링하려는 태그들이 잘 설정되어있는지 확인
2. 페이지 소스에 JavaScript가 사용되었는지 확인
- 많은 웹페이지들이 javascript 동적 데이터를 로드

이 경우, 해결책 = Selenium
- Selenium 웹 페이지를 자동으로 제어, 테스트할 수 있는 도구. 직접적으로 웹 브라우저를 제어.
- requests, beautifulsoup으로 크롤링 불가능할 때, 원하는 결과를 가져오지 못할 때 : Selenium

## 정적 페이지 = requests + Beautifulsoup
- 서버로부터 한 번 요펑하면 변하지 않는 형태의 HTML로 작성된 페이지
- 웹 서버는 클라이언트 요청이 들어올 때마다 미리 만들어놓은 HTML 파일을 그대로 반환.
- 서버 측에서 미리 준비가 되어있기 때문에, 클라이언트 측에서 별다른 처리 없이 바로 브라우저에 표시

## 동적 페이지 = Selenium
- 웹 서버로 부터 HTML을 받아온 다음, 브라우저가 해석하고 실행하면서, JavaScript 같은 스크립트 언어를 사용, 동적으로 페이지를 만듦
- 이렇게 생성된 HTML > 데이터를 불러오거나, 저희가 입력하거나 클릭, 스크롤을 할 때 > 화면이 변경되는 등의 이런 상호작용이 필요한 웹페이지에서 사용.

In [44]:
pip install selenium

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [45]:
pip install webdriver_manager

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [46]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.support.ui import WebDriverWait

In [47]:
# Selenium으로 웹 드라이버 실행
driver_path = ChromeDriverManager().install()
service = Service(driver_path)
driver = webdriver.Chrome(executable_path=driver_path)

# url 전달
url = 'https://news.kbs.co.kr/news/pc/category/category.do?ref=pSiteMap#20240311&1'
driver.get(url)

# 기다려달라는 값 전달
wait = WebDriverWait(driver, 10)

# 드라이버 접근 > 페이지 소스 가져오기
html = driver.page_source

# 드라이버 종료
driver.quit()

In [48]:
soup = BeautifulSoup(html, 'html.parser')

box_contents = soup.find_all('a', class_ = 'box-content flex-style')
box_contents

[<a class="box-content flex-style" href="/news/view.do?ncd=7910732">
 <div class="thumbnail">
 <img class="img" onerror="javascript:handleError(this);" src="/resource/image/common/noimg_633_355.png"/>
 </div>
 <div class="txt-wrapper">
 <p class="title">[총선] ‘친명’ 정봉주 서울 강북을 경선 승리…박용진 낙천</p>
 <p class="news-text">비명(비이재명)계로 분류되는 박용진 더불어민주당 의원이 서울 강북을 경선에서 오늘(11일)...</p>
 <div class="field-writer">
 <span class="date">2024.03.11 (20:18)</span>
 </div>
 </div>
 </a>,
 <a class="box-content flex-style" href="/news/view.do?ncd=7910722">
 <div class="thumbnail">
 <img class="img" onerror="javascript:handleError(this);" src="/resource/image/common/noimg_633_355.png"/>
 </div>
 <div class="txt-wrapper">
 <p class="title">부산 사하구서 승용차 추돌사고로 1명 숨져</p>
 <p class="news-text">오늘(11일) 오후 3시 20분쯤, 부산 사하구 당리동의 한 도로에서 승용차가 진로를 변경...</p>
 <div class="field-writer">
 <span class="date">2024.03.11 (20:11)</span>
 </div>
 </div>
 </a>,
 <a class="box-content flex-style" href="/news/view.do?ncd=7910719">
 <d

In [49]:
len(box_contents)

12

In [50]:
box_contents[3]

<a class="box-content flex-style" href="/news/view.do?ncd=7910708">
<div class="thumbnail">
<img class="img" onerror="javascript:handleError(this);" src="/resource/image/common/noimg_633_355.png"/>
</div>
<div class="txt-wrapper">
<p class="title">[총선] 조국, 비례대표 출마 선언…“후보 선정 관여 안하기로”</p>
<p class="news-text">조국혁신당의 조국 대표가 4월 총선에 비례대표 후보로 출마하기로 했습니다. 조 대표는 오늘...</p>
<div class="field-writer">
<span class="date">2024.03.11 (19:56)</span>
</div>
</div>
</a>

In [51]:
url = 'http://news.kbs.co.kr' + box_contents[0]['href']
url

'http://news.kbs.co.kr/news/view.do?ncd=7910732'

In [52]:
title = box_contents[0].find('p', class_ = 'title').text
title

'[총선] ‘친명’ 정봉주 서울 강북을 경선 승리…박용진 낙천'

In [53]:
body = box_contents[0].find('p', class_ = 'news-text').text
body

'비명(비이재명)계로 분류되는 박용진 더불어민주당 의원이 서울 강북을 경선에서 오늘(11일)...'

In [54]:
date = box_contents[0].find('span', class_ = 'date').text
date

'2024.03.11 (20:18)'

In [55]:
# 원하는 부분들만 찾아서, 리스트에 담고, 데이터 프레임으로 만들기
# 빈 리스트 만들기

url_list = []
title_list = []
body_list = []
date_list = []

for box_content in box_contents:
    url = 'http://news.kbs.co.kr' + box_content['href']
    title = box_content.find('p', class_ = 'title').text
    body = box_content.find('p', class_ = 'news-text').text
    date = box_content.find('span', class_ = 'date').text

    url_list.append(url)
    title_list.append(title)
    body_list.append(body)
    date_list.append(date)

In [56]:
url_list

['http://news.kbs.co.kr/news/view.do?ncd=7910732',
 'http://news.kbs.co.kr/news/view.do?ncd=7910722',
 'http://news.kbs.co.kr/news/view.do?ncd=7910719',
 'http://news.kbs.co.kr/news/view.do?ncd=7910708',
 'http://news.kbs.co.kr/news/view.do?ncd=7910707',
 'http://news.kbs.co.kr/news/view.do?ncd=7910698',
 'http://news.kbs.co.kr/news/view.do?ncd=7910696',
 'http://news.kbs.co.kr/news/view.do?ncd=7910694',
 'http://news.kbs.co.kr/news/view.do?ncd=7910693',
 'http://news.kbs.co.kr/news/view.do?ncd=7910689',
 'http://news.kbs.co.kr/news/view.do?ncd=7910677',
 'http://news.kbs.co.kr/news/view.do?ncd=7910666']

In [57]:
title_list

['[총선] ‘친명’ 정봉주 서울 강북을 경선 승리…박용진 낙천',
 '부산 사하구서 승용차 추돌사고로 1명 숨져',
 '“중국 당국, 대형은행들에 부동산업체 ‘완커’ 금융지원 요청”',
 '[총선] 조국, 비례대표 출마 선언…“후보 선정 관여 안하기로”',
 '윤 대통령, 미 아칸소 주지사 접견…“한국과 각별한 인연, 협력 강화”',
 '[여의도 중계 LIVE 3회] D-30, ‘트루블루’ 조국혁신당 급부상 혼돈의 총선판, 영향은?',
 '[속보] 서울대 의대 교수들 “정부 해결 방안 없으면 교수 전원 18일 사직”',
 '“30초 만에 금은방 털어”…2인조 절도범 구속',
 '[뉴스레터K] 신동욱 “민심은 정쟁보다 민생…국민 삶 나아지는 정치하겠다”',
 '[뉴스레터K] 류삼영 “민심은 ‘정권 심판’…모든 것 걸고 저항하겠다”',
 '뉴스7(경인)',
 '‘오펜하이머’ 아카데미 작품상 등 7관왕']

In [58]:
body_list

['비명(비이재명)계로 분류되는 박용진 더불어민주당 의원이 서울 강북을 경선에서 오늘(11일)...',
 '오늘(11일) 오후 3시 20분쯤, 부산 사하구 당리동의 한 도로에서 승용차가 진로를 변경...',
 '중국 당국이 정부가 일부 지분을 소유한 대형 부동산 개발업체 ‘완커’의 자금난 해소를 위한...',
 '조국혁신당의 조국 대표가 4월 총선에 비례대표 후보로 출마하기로 했습니다. 조 대표는 오늘...',
 '대통령실은 윤석열 대통령이 오늘(11일) 용산 대통령실에서 방한 중인 사라 샌더스 미국 아...',
 " 한달 앞으로 다가온 2024 총선!KBS는 총 6회에 걸쳐 '여의도 중계 Live'를 통...",
 '서울대학교 의과대학 교수들이 의료 공백 사태와 관련해 정부의 진정성 있고 합리적인 방안 제...',
 '인천의 한 금은방 유리문을 둔기로 부수고 금품을 훔쳐 달아난 일당 두 명이 구속됐습니다. ...',
 '■ 인터뷰 자료의 저작권은 KBS라디오에 있습니다. 전문 게재나 인터뷰 인용 보도 시 KB...',
 '■ 인터뷰 자료의 저작권은 KBS라디오에 있습니다. 전문 게재나 인터뷰 인용 보도 시 KB...',
 '',
 "천재과학자 로버트 오펜하이머를 다룬 크리스토퍼 놀런 감독의 영화 '오펜하이머'가 올해 미국..."]

In [59]:
date_list

['2024.03.11 (20:18)',
 '2024.03.11 (20:11)',
 '2024.03.11 (20:08)',
 '2024.03.11 (19:56)',
 '2024.03.11 (19:56)',
 '2024.03.11 (19:50)',
 '2024.03.11 (19:49)',
 '2024.03.11 (19:48)',
 '2024.03.11 (19:47)',
 '2024.03.11 (19:46)',
 '2024.03.11 (19:40)',
 '2024.03.11 (19:35)']

In [60]:
# 데이터 저장
data = {'뉴스  url' : url_list, '제목' : title_list, '내용' : body_list, '날짜' : date_list}
df = pd.DataFrame(data)

df

Unnamed: 0,뉴스 url,제목,내용,날짜
0,http://news.kbs.co.kr/news/view.do?ncd=7910732,[총선] ‘친명’ 정봉주 서울 강북을 경선 승리…박용진 낙천,비명(비이재명)계로 분류되는 박용진 더불어민주당 의원이 서울 강북을 경선에서 오늘(...,2024.03.11 (20:18)
1,http://news.kbs.co.kr/news/view.do?ncd=7910722,부산 사하구서 승용차 추돌사고로 1명 숨져,"오늘(11일) 오후 3시 20분쯤, 부산 사하구 당리동의 한 도로에서 승용차가 진로...",2024.03.11 (20:11)
2,http://news.kbs.co.kr/news/view.do?ncd=7910719,"“중국 당국, 대형은행들에 부동산업체 ‘완커’ 금융지원 요청”",중국 당국이 정부가 일부 지분을 소유한 대형 부동산 개발업체 ‘완커’의 자금난 해소...,2024.03.11 (20:08)
3,http://news.kbs.co.kr/news/view.do?ncd=7910708,"[총선] 조국, 비례대표 출마 선언…“후보 선정 관여 안하기로”",조국혁신당의 조국 대표가 4월 총선에 비례대표 후보로 출마하기로 했습니다. 조 대표...,2024.03.11 (19:56)
4,http://news.kbs.co.kr/news/view.do?ncd=7910707,"윤 대통령, 미 아칸소 주지사 접견…“한국과 각별한 인연, 협력 강화”",대통령실은 윤석열 대통령이 오늘(11일) 용산 대통령실에서 방한 중인 사라 샌더스 ...,2024.03.11 (19:56)
5,http://news.kbs.co.kr/news/view.do?ncd=7910698,"[여의도 중계 LIVE 3회] D-30, ‘트루블루’ 조국혁신당 급부상 혼돈의 총선...",한달 앞으로 다가온 2024 총선!KBS는 총 6회에 걸쳐 '여의도 중계 Live...,2024.03.11 (19:50)
6,http://news.kbs.co.kr/news/view.do?ncd=7910696,[속보] 서울대 의대 교수들 “정부 해결 방안 없으면 교수 전원 18일 사직”,서울대학교 의과대학 교수들이 의료 공백 사태와 관련해 정부의 진정성 있고 합리적인 ...,2024.03.11 (19:49)
7,http://news.kbs.co.kr/news/view.do?ncd=7910694,“30초 만에 금은방 털어”…2인조 절도범 구속,인천의 한 금은방 유리문을 둔기로 부수고 금품을 훔쳐 달아난 일당 두 명이 구속됐습...,2024.03.11 (19:48)
8,http://news.kbs.co.kr/news/view.do?ncd=7910693,[뉴스레터K] 신동욱 “민심은 정쟁보다 민생…국민 삶 나아지는 정치하겠다”,■ 인터뷰 자료의 저작권은 KBS라디오에 있습니다. 전문 게재나 인터뷰 인용 보도 ...,2024.03.11 (19:47)
9,http://news.kbs.co.kr/news/view.do?ncd=7910689,[뉴스레터K] 류삼영 “민심은 ‘정권 심판’…모든 것 걸고 저항하겠다”,■ 인터뷰 자료의 저작권은 KBS라디오에 있습니다. 전문 게재나 인터뷰 인용 보도 ...,2024.03.11 (19:46)


In [61]:
df.to_csv('news_kbs_box.csv', index=False)

In [62]:
# 페이지네이션 : 1~n 페이지 돌면서 크롤링하는 방법
# for 문 f string
for i in range(1, 14):
    print(f'{i}번째 페이지')

1번째 페이지
2번째 페이지
3번째 페이지
4번째 페이지
5번째 페이지
6번째 페이지
7번째 페이지
8번째 페이지
9번째 페이지
10번째 페이지
11번째 페이지
12번째 페이지
13번째 페이지


In [63]:
# 빈 리스트 만들기
url_list = []
title_list = []
body_list = []
date_list = []

# 서비스 변수 설정
driver_path = ChromeDriverManager().install()


# 1. 페이지를 돌면서 작업을 수행할 예정
for page_num in range(1,32):

    # Selenium으로 웹 드라이버 실행
    service = Service(driver_path)
    driver = webdriver.Chrome(executable_path=driver_path)

    # url 전달
    url = f'https://news.kbs.co.kr/news/pc/category/category.do?ref=pSiteMap#20240311&{page_num}'
    driver.get(url)

    # 기다려달라는 값 전달 : 최대 10초 기다리기
    wait = WebDriverWait(driver, 10)

    # 드라이버 접근 > 페이지 소스 가져오기
    html = driver.page_source

    # 드라이버 종료
    driver.quit()

    # 2.Beautifulsoup 사용해서 파싱하고, 태그들을 찾아서 담아줌
    soup = BeautifulSoup(html, 'html.parser')
    box_contents = soup.find_all('a', class_ = 'box-content flex-style')

    # 3. 박스 데이터들을 하나씩 돌면서 리스트에 데이터를 담음
    for box_content in box_contents:
        url = 'http://news.kbs.co.kr' + box_content['href']
        title = box_content.find('p', class_ = 'title').text
        body = box_content.find('p', class_ = 'news-text').text
        date = box_content.find('span', class_ = 'date').text

        url_list.append(url)
        title_list.append(title)
        body_list.append(body)
        date_list.append(date)

# 데이터 저장
data = {'뉴스  url' : url_list, '제목' : title_list, '내용' : body_list, '날짜' : date_list}
df = pd.DataFrame(data)

df.to_csv('news_kbs_pagenation.csv', index=False)

KeyboardInterrupt: 