# BeautifulSoup
- BeautifulSoup는 Selenium, Scrapy 등과 같이 대표적인 파이썬 웹 크롤링 라이브러리
- HTML 정보로부터 원하는 데이터를 가져오기 쉽게, 비슷한 분류의 데이터별로 나누어 주는 (parsing) 기능 제공
- 보통 html 정보를 가져오는 urllib.request.urlopen() 모듈과 함께 사용
- find() 함수를 통해서 원하는 html 태그 추출

In [1]:
# BeautifulSoup 설치
from bs4 import BeautifulSoup

# 크롤링 웹 페이지 확인

In [2]:
url = 'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&sid1=001&sid2=140&oid=001&isYeonhapFlash=Y'

# html 헤더 설정
- html 헤더는 클라이언트와 서버거 통신할 때 함께 전달하는 부가 정보로 날짜, 인코딩 정보, 유저 정보 등 다양한 내용을 담고 있음
- user-agent에는 운영체제, 소프트웨어 버전, 소프트웨어 유형 등 여러 내용이 포함되어 있음
- 헤더 정보 일람 사이트
- https://www.useragentstring.com/pages/useragentstring.php

# 헤더 추가

In [3]:
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36"}

In [4]:
# 서버 응답 확인
import requests

response = requests.get(url, headers=headers)
response

<Response [200]>

# 뉴스 정보 크롤링

In [5]:
# BeautifulSoup 객체 생성
beautifulSoup = BeautifulSoup(response.content, 'html.parser')
beautifulSoup


<!DOCTYPE HTML>

<html lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta contents="always" name="referrer"/>
<meta content="600" http-equiv="refresh">
<meta content="width=1106" name="viewport">
<meta content="네이버 뉴스" property="og:title"/>
<meta content="website" property="og:type"/>
<meta content="https://news.naver.com/main/list.naver?mode=LPOD&amp;mid=sec&amp;sid1=001&amp;sid2=140&amp;oid=001&amp;isYeonhapFlash=Y" property="og:url"/>
<meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800x420_20221201.png" property="og:image">
<meta content="다양한 기사 정보를 제공합니다." property="og:description"/>
<meta content="네이버" property="og:article:author">
<meta content="summary" name="twitter:card"/>
<meta content="네이버 뉴스" name="twitter:title"/>
<meta content="네이버 뉴스" name="twitter:site"/>
<meta content="네이버 뉴스" name="twitter:creator"/>
<meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800x420_2

In [6]:
# 페이지 제목 크롤링
print(beautifulSoup.title)
print(beautifulSoup.title.string)
print(beautifulSoup.title.text)

<title>연합뉴스
			 속보 홈 : 네이버 뉴스	</title>
연합뉴스
			 속보 홈 : 네이버 뉴스	
연합뉴스
			 속보 홈 : 네이버 뉴스	


In [12]:
# 페이지 상단 텍스트 크롤링
print(beautifulSoup.find("dl", attrs={"class": "type04"}).get_text())




전공의 수천명 집단사직…정부는 의협 집행부 '면허정지' 맞불
세브란스·대전성모 등 무더기 사직…20일엔 근무중단 예고경찰청장 "구속수사 검토"…경실련 "'담합' 공정위 고발"수술 절반 줄어들며 환...
            연합뉴스2024.02.19


암수술 무기한 연기되고, 응급실은 '마비'…'의료대란' 시작됐다연합뉴스2024.02.19


전공의 집단사직 시작됐다…'수술대란'에 정부 "진료유지명령"연합뉴스2024.02.19


경찰청장 "의사 집단행동 강한 수사, 주동자는 구속수사 검토"연합뉴스2024.02.19




In [9]:
# 페이지 하단 텍스트 크롤링
print(beautifulSoup.find("ul", attrs={"class": "type02"}).get_text())



尹 "의료계, 국민 못 이겨…지난 정부처럼 지나가지 않겠다"
연합뉴스
2024.02.19. 오후 8:19


與 최재형·윤희숙 등 단수공천…김기현·이철규는 경선
연합뉴스
2024.02.19. 오후 8:13


김영주 국회부의장, 민주당 탈당 선언…"하위 20% 통보 모멸감"
연합뉴스
2024.02.19. 오후 6:56


한동훈-조국, '석사장교' 논쟁…"운동권 맞나" "어불성설"
연합뉴스
2024.02.19. 오후 4:44


이준석계-이낙연계 '총선지휘권' 충돌…개혁신당 내홍 확전기로
연합뉴스
2024.02.19. 오후 5:24


총선 50일 앞둔 여야, '실거주 의무 3년 유예' 합의
연합뉴스
2024.02.19. 오후 6:44


기상악화·광주공항 폭발물 소동에 제주공항 141편 결항
연합뉴스
2024.02.19. 오후 7:56


류현진, 12년 만의 한화 컴백 임박…모그룹도 "복귀 논의 중"
연합뉴스
2024.02.19. 오후 5:31


화요일 동해안·강원산지 대설…최대 10㎝ 이상 적설
연합뉴스
2024.02.19. 오후 5:30
