# BeautifulSoup - 정적 웹페이지 스크래핑

In [1]:
# 라이브러리 불러오기
import requests
from bs4 import BeautifulSoup 

In [2]:
requests.get("https://www.naver.com/")

<Response [200]>

In [3]:
# request.get 함수로 서버에 응답 요청 (존재하는 페이지)
url = "https://www.python.org/"
resp = requests.get(url)
print(resp)

<Response [200]>


In [4]:
# request.get 함수로 서버에 응답 요청 (존재하지 않는 페이지)
url2 = "https://www.python.org/1"
resp2 = requests.get(url2)
print(resp2)

<Response [404]>


## 뉴스 서비스에 접속

In [5]:
# 뉴스 사이트
url = "https://news.daum.net/"

# User-agent 정보
agent = 'Mozila/2.0'

# requests.get 함수로 서버에 요청
resp = requests.get(url, headers={'User-agent': agent})
print(resp)

<Response [200]>


In [6]:
# HTML 소스코드
resp.text

'\n<!DOCTYPE html>\n\n\n\n<html lang="ko" class="os_unknown none unknown version_0 ">\n<head>\n<meta charset="utf-8">\n<meta name="referrer" content="always" />\n\n<meta property="og:author" content="Daum 뉴스" />\n<meta property="og:site_name" content="다음뉴스" />\n<meta property="og:title" content="다음뉴스 | 홈"/>\n<meta property="og:image" content="https://t1.daumcdn.net/media/img-media/mobile/meta/news.png" />\n<meta property="og:description" content="다음뉴스" />\n<meta property="og:url" content="https://news.daum.net/" />\n<link rel="shortcut icon" href="https://m2.daumcdn.net/img-media/2010ci/Daum_favicon.ico">\n\n<title>다음뉴스 | 홈</title>\n\n<meta http-equiv="X-UA-Compatible" content="IE=edge">\n\n<link rel="stylesheet" type="text/css" href="//t1.daumcdn.net/media/kraken/news/c66925f/style.css.merged.css" />\n<link rel="stylesheet" type="text/css" href="//t1.daumcdn.net/media/kraken/news/c66925f/calendar.css.merged.css" />\n\n<!--[if lte IE 8]>\n<script src="https://m2.daumcdn.net/svc/origina

In [7]:
# HTML 소스코드 해석
soup = BeautifulSoup(resp.text, 'html.parser')
print(type(soup))

<class 'bs4.BeautifulSoup'>


In [8]:
# BeautifulSoup 객체 (HTML 소스코드 해석 결과를 저장하고 있음)
soup


<!DOCTYPE html>

<html class="os_unknown none unknown version_0" lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="always" name="referrer">
<meta content="Daum 뉴스" property="og:author"/>
<meta content="다음뉴스" property="og:site_name"/>
<meta content="다음뉴스 | 홈" property="og:title"/>
<meta content="https://t1.daumcdn.net/media/img-media/mobile/meta/news.png" property="og:image"/>
<meta content="다음뉴스" property="og:description"/>
<meta content="https://news.daum.net/" property="og:url"/>
<link href="https://m2.daumcdn.net/img-media/2010ci/Daum_favicon.ico" rel="shortcut icon"/>
<title>다음뉴스 | 홈</title>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<link href="//t1.daumcdn.net/media/kraken/news/c66925f/style.css.merged.css" rel="stylesheet" type="text/css">
<link href="//t1.daumcdn.net/media/kraken/news/c66925f/calendar.css.merged.css" rel="stylesheet" type="text/css"/>
<!--[if lte IE 8]>
<script src="https://m2.daumcdn.net/svc/original/U0301/cssjs/JSON-js/fc535e9cc8/json2.min

In [9]:
# head 태그 출력
print(soup.head)

<head>
<meta charset="utf-8"/>
<meta content="always" name="referrer">
<meta content="Daum 뉴스" property="og:author"/>
<meta content="다음뉴스" property="og:site_name"/>
<meta content="다음뉴스 | 홈" property="og:title"/>
<meta content="https://t1.daumcdn.net/media/img-media/mobile/meta/news.png" property="og:image"/>
<meta content="다음뉴스" property="og:description"/>
<meta content="https://news.daum.net/" property="og:url"/>
<link href="https://m2.daumcdn.net/img-media/2010ci/Daum_favicon.ico" rel="shortcut icon"/>
<title>다음뉴스 | 홈</title>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<link href="//t1.daumcdn.net/media/kraken/news/c66925f/style.css.merged.css" rel="stylesheet" type="text/css">
<link href="//t1.daumcdn.net/media/kraken/news/c66925f/calendar.css.merged.css" rel="stylesheet" type="text/css"/>
<!--[if lte IE 8]>
<script src="https://m2.daumcdn.net/svc/original/U0301/cssjs/JSON-js/fc535e9cc8/json2.min.js"></script>
<![endif]-->
<!--[if lt IE 9]>
<link rel="stylesheet" type="te

In [10]:
# body 태그 출력 
print(soup.body)

<body>
<div class="direct-link">
<!-- 웹접근성용 바로가기 링크 모음 -->
<a href="#mainContent">본문 바로가기</a>
<a href="#gnbContent">메뉴 바로가기</a>
</div>
<div class="container-doc">
<header class="doc-header">
<!-- head_top -->
<div class="head_top">
<h1 class="doc-title">
<a class="link_daum" data-tiara-layer="gnb default logo" href="https://www.daum.net/">
<img alt="Daum" class="logo_daum" height="18" src="//t1.daumcdn.net/media/common/newsview_2021/pc/rtn/logo_daum.png" width="44"/>
</a>
<a data-tiara-layer="GNB service news" href="https://news.daum.net/" id="kakaoServiceLogo">
<span class="ir_wa">뉴스</span>
</a>
</h1>
<strong class="screen_out">관련 서비스</strong>
<ul class="doc-relate" data-tiara-layer="GNB service">
<li><a class="link_services" data-tiara-layer="enter" href="https://entertain.daum.net">연예</a></li>
<li><a class="link_services" data-tiara-layer="sports" href="https://sports.daum.net">스포츠</a></li>
<li><a class="link_services" data-tiara-layer="weather" href="https://weather.daum.net">날씨</a

In [11]:
# title 태그 검색
print('title 태그 요소: ', soup.title)
print('title 태그 이름: ', soup.title.name)
print('title 태그 문자열: ', soup.title.text)

title 태그 요소:  <title>다음뉴스 | 홈</title>
title 태그 이름:  title
title 태그 문자열:  다음뉴스 | 홈


## find 메서드, find_all 메서드
- [Ctrl] + [Shift] + "i"
- 개발자 도구 열기

### ul 태그

In [12]:
# find - 가장 먼저 나타나는 태그를 찾습니다
soup.find(name='ul') # "doc-relate"

<ul class="doc-relate" data-tiara-layer="GNB service">
<li><a class="link_services" data-tiara-layer="enter" href="https://entertain.daum.net">연예</a></li>
<li><a class="link_services" data-tiara-layer="sports" href="https://sports.daum.net">스포츠</a></li>
<li><a class="link_services" data-tiara-layer="weather" href="https://weather.daum.net">날씨</a></li>
</ul>

In [13]:
# find_all - 모든 태그를 찾습니다
ul_data = soup.find_all(name='ul')
len(ul_data)

6

In [14]:
# 첫 번째 ul 태그를 출력
ul_data[0]

<ul class="doc-relate" data-tiara-layer="GNB service">
<li><a class="link_services" data-tiara-layer="enter" href="https://entertain.daum.net">연예</a></li>
<li><a class="link_services" data-tiara-layer="sports" href="https://sports.daum.net">스포츠</a></li>
<li><a class="link_services" data-tiara-layer="weather" href="https://weather.daum.net">날씨</a></li>
</ul>

### 태그 속성

In [15]:
# class 속성이 "list_newsissue"인 ul 태그를 모두 찾는다
newsissue = soup.find_all(name='ul', attrs={'class':'list_newsissue'})
len(newsissue)

1

In [16]:
print(type(newsissue))
print(type(newsissue[0]))

<class 'bs4.element.ResultSet'>
<class 'bs4.element.Tag'>


In [17]:
# 첫번째 태그 내용
newsissue[0]

<ul class="list_newsissue">
<li>
<div class="item_issue" data-tiara-layer="headline1">
<a class="wrap_thumb" data-tiara-custom="contentUniqueKey=hamny-20240828013836639&amp;clusterId=5969875,5590543,5000019,5889429,5555277,5968463,5969883,5913282,5977153,5969827,5971837,5150094&amp;clusterTitle=[섹션2024] 뉴스홈-주요뉴스,[언론사픽] 주요뉴스,경제,경제,가상화폐 이슈,[섹션2024] 국제 &gt; 최신뉴스,[섹션2024] 뉴스홈-최신뉴스,[종합순] 비복제기사(원천보도),경제 &gt; 금융 (전체뉴스-섹션개편용),경제 &gt; 금융 (주요뉴스-섹션개편용),경제 &gt; 가상자산 (주요뉴스-섹션개편용),섹션 실시간뉴스-경제&amp;keywordType=NONE,NONE,NONE,NONE,INTEREST,NONE,NONE,NONE,NONE,NONE,NONE,NONE" data-tiara-id="20240828013836639" data-tiara-layer="article_main" data-tiara-ordnum="1" data-tiara-type="harmony" href="https://v.daum.net/v/20240828013836639">
<img &quot;작년="" 1은="" 3분의="" alt="" class="thumb_g" src="https://img1.daumcdn.net/thumb/S192x120ht.u/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fnews%2F202408%2F28%2Fyonhap%2F20240828013836341jbpu.jpg&amp;scode=media2" 北소행…올해="" 가상화폐="" 늘것&quot;"="" 더="" 세계="" 탈취액=""/>
</a>
<div

## select 메서드

### ul 태그

In [18]:
soup.select("ul")

[<ul class="doc-relate" data-tiara-layer="GNB service">
 <li><a class="link_services" data-tiara-layer="enter" href="https://entertain.daum.net">연예</a></li>
 <li><a class="link_services" data-tiara-layer="sports" href="https://sports.daum.net">스포츠</a></li>
 <li><a class="link_services" data-tiara-layer="weather" href="https://weather.daum.net">날씨</a></li>
 </ul>,
 <ul class="gnb_comm" data-tiara-layer="GNB tab">
 <li class="on"><a class="link_gnb" data-tiara-layer="home" href="/"><span class="txt_gnb">홈</span></a></li>
 <li><a class="link_gnb" data-tiara-layer="society" href="/society"><span class="txt_gnb">사회</span></a></li>
 <li><a class="link_gnb" data-tiara-layer="politics" href="/politics"><span class="txt_gnb">정치</span></a></li>
 <li><a class="link_gnb" data-tiara-layer="economic" href="/economic"><span class="txt_gnb">경제</span></a></li>
 <li><a class="link_gnb" data-tiara-layer="foreign" href="/foreign"><span class="txt_gnb">국제</span></a></li>
 <li><a class="link_gnb" data-tiara

In [19]:
ul_list = soup.select('ul')
len(ul_list)

6

### 클래스 속성자

In [20]:
# class 속성값이 list_newsissue인 경우
class_list = soup.select('.list_newsissue') # ul.list_newsissue 같음
len(class_list)

1

In [21]:
# class_list[0]안에 들어 있는 li 태그들
li_list = soup.select('ul.list_newsissue > li') # 부모 태그가 ul이고 자식 태그가 li인 경우 전부 찾기
len(li_list)

20

### ID 속성자

In [22]:
# id="kakaoServiceLogo"

id_list = soup.select('#kakaoServiceLogo')
len(id_list)

1

In [23]:
id_list[0]

<a data-tiara-layer="GNB service news" href="https://news.daum.net/" id="kakaoServiceLogo">
<span class="ir_wa">뉴스</span>
</a>

## [실습] 
li_list에 들어 있는 20개의 뉴스 중에서 하나를 골라서, 뉴스 제목/뉴스 카테고리/언론사 이름/뉴스 링크를 정리합니다.

In [24]:
# 첫 번째 뉴스를 담고 있는 태그
li_list[0]

<li>
<div class="item_issue" data-tiara-layer="headline1">
<a class="wrap_thumb" data-tiara-custom="contentUniqueKey=hamny-20240828013836639&amp;clusterId=5969875,5590543,5000019,5889429,5555277,5968463,5969883,5913282,5977153,5969827,5971837,5150094&amp;clusterTitle=[섹션2024] 뉴스홈-주요뉴스,[언론사픽] 주요뉴스,경제,경제,가상화폐 이슈,[섹션2024] 국제 &gt; 최신뉴스,[섹션2024] 뉴스홈-최신뉴스,[종합순] 비복제기사(원천보도),경제 &gt; 금융 (전체뉴스-섹션개편용),경제 &gt; 금융 (주요뉴스-섹션개편용),경제 &gt; 가상자산 (주요뉴스-섹션개편용),섹션 실시간뉴스-경제&amp;keywordType=NONE,NONE,NONE,NONE,INTEREST,NONE,NONE,NONE,NONE,NONE,NONE,NONE" data-tiara-id="20240828013836639" data-tiara-layer="article_main" data-tiara-ordnum="1" data-tiara-type="harmony" href="https://v.daum.net/v/20240828013836639">
<img &quot;작년="" 1은="" 3분의="" alt="" class="thumb_g" src="https://img1.daumcdn.net/thumb/S192x120ht.u/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fnews%2F202408%2F28%2Fyonhap%2F20240828013836341jbpu.jpg&amp;scode=media2" 北소행…올해="" 가상화폐="" 늘것&quot;"="" 더="" 세계="" 탈취액=""/>
</a>
<div class="cont_thumb">
<span c

In [32]:
li_list[0].select("a.link_txt")

[<a class="link_txt" data-tiara-custom="contentUniqueKey=hamny-20240828013836639&amp;clusterId=5969875,5590543,5000019,5889429,5555277,5968463,5969883,5913282,5977153,5969827,5971837,5150094&amp;clusterTitle=[섹션2024] 뉴스홈-주요뉴스,[언론사픽] 주요뉴스,경제,경제,가상화폐 이슈,[섹션2024] 국제 &gt; 최신뉴스,[섹션2024] 뉴스홈-최신뉴스,[종합순] 비복제기사(원천보도),경제 &gt; 금융 (전체뉴스-섹션개편용),경제 &gt; 금융 (주요뉴스-섹션개편용),경제 &gt; 가상자산 (주요뉴스-섹션개편용),섹션 실시간뉴스-경제&amp;keywordType=NONE,NONE,NONE,NONE,INTEREST,NONE,NONE,NONE,NONE,NONE,NONE,NONE" data-tiara-id="20240828013836639" data-tiara-layer="article_main" data-tiara-ordnum="1" data-tiara-type="harmony" href="https://v.daum.net/v/20240828013836639">
                                     "작년 세계 가상화폐 탈취액 3분의 1은 北소행…올해 더 늘것"
                                 </a>]

In [33]:
li_list[0].select("a.link_txt")[0]

<a class="link_txt" data-tiara-custom="contentUniqueKey=hamny-20240828013836639&amp;clusterId=5969875,5590543,5000019,5889429,5555277,5968463,5969883,5913282,5977153,5969827,5971837,5150094&amp;clusterTitle=[섹션2024] 뉴스홈-주요뉴스,[언론사픽] 주요뉴스,경제,경제,가상화폐 이슈,[섹션2024] 국제 &gt; 최신뉴스,[섹션2024] 뉴스홈-최신뉴스,[종합순] 비복제기사(원천보도),경제 &gt; 금융 (전체뉴스-섹션개편용),경제 &gt; 금융 (주요뉴스-섹션개편용),경제 &gt; 가상자산 (주요뉴스-섹션개편용),섹션 실시간뉴스-경제&amp;keywordType=NONE,NONE,NONE,NONE,INTEREST,NONE,NONE,NONE,NONE,NONE,NONE,NONE" data-tiara-id="20240828013836639" data-tiara-layer="article_main" data-tiara-ordnum="1" data-tiara-type="harmony" href="https://v.daum.net/v/20240828013836639">
                                    "작년 세계 가상화폐 탈취액 3분의 1은 北소행…올해 더 늘것"
                                </a>

In [34]:
li_list[0].select("a.link_txt")[0].text

'\n                                    "작년 세계 가상화폐 탈취액 3분의 1은 北소행…올해 더 늘것"\n                                '

In [25]:
# 뉴스 제목 - select 
li_list[0].select("a.link_txt")[0].text.strip()

'"작년 세계 가상화폐 탈취액 3분의 1은 北소행…올해 더 늘것"'

In [26]:
# 뉴스 제목 - find 
li_list[0].find('a', attrs={'class':'link_txt'}).text.strip()

'"작년 세계 가상화폐 탈취액 3분의 1은 北소행…올해 더 늘것"'

In [35]:
# 뉴스 링크 - select
li_list[0].select("a.link_txt")[0]["href"]

'https://v.daum.net/v/20240828013836639'

In [36]:
# 뉴스 링크 - find
li_list[0].find('a', attrs={'class':'link_txt'})['href']

'https://v.daum.net/v/20240828013836639'

In [42]:
li_list[0].find_all('img', attrs={'class':'thumb_g'})

[<img &quot;작년="" 1은="" 3분의="" alt="" class="thumb_g" src="https://img1.daumcdn.net/thumb/S192x120ht.u/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fnews%2F202408%2F28%2Fyonhap%2F20240828013836341jbpu.jpg&amp;scode=media2" 北소행…올해="" 가상화폐="" 늘것&quot;"="" 더="" 세계="" 탈취액=""/>]

In [43]:
# 언론사 이름 
# [t['alt'] for t in li_list[0].find_all('img', attrs={'class':'thumb_g'}) if t['alt'] != ''][0]
# [t['alt'] for t in li_list[0].find_all('img', attrs={'class':'thumb_g'}) if len(t['alt']) > 0][0]


In [38]:
# 뉴스 카테고리 - select
li_list[0].select("span.txt_category")[0].text.strip()

'경제'

In [44]:
# 뉴스 카테고리 - find
li_list[0].find('span', attrs={'class':'txt_category'}).text.strip()

'경제'

## [실습] li_list에 들어 있는 20개의 뉴스를 반복문을 이용하여 하나의 데이터프레임으로 정리합니다.

In [45]:
# 데이터를 담을 딕셔너리 객체
data = {'title':[], 'agency':[], 'category':[], 'link':[]}

# 객 태그를 반복문으로 순회하면서 아이템별로 추출해서 딕서너리 객체의 리스트 원소에 추가 
for item in li_list:

    data['title'].append(item.find('a', attrs={'class':'link_txt'}).text.strip())
    data['link'].append(item.find('a', attrs={'class':'link_txt'})['href'])
    try:
        data['agency'].append([t['alt'] for t in item.find_all('img', attrs={'class':'thumb_g'}) if t['alt'] != ''][0])
    except:
        data['agency'].append(item.find('span', attrs={'class':'thumb_g'}).text.strip())
        
    data['category'].append(item.find('span', attrs={'class':'txt_category'}).text.strip())

# 추출된 딕셔너리 객체를 출력해서 확인 
data

AttributeError: 'NoneType' object has no attribute 'text'

In [46]:
for k in data.keys():
    print(len(data[k]))

1
0
0
1


In [47]:
import pandas as pd

df = pd.DataFrame(data)
df

ValueError: All arrays must be of the same length

In [None]:
# csv 파일로 저장
df.to_csv('news.csv', index=False)