# BeautifulSoup 라이브러리

In [1]:
import requests
from bs4 import BeautifulSoup 

In [2]:
# requests 설치 확인
print(requests.__version__)

2.28.1


## request.get 함수로 서버에 응답 요청

In [3]:
url = "https://www.python.org/"
resp = requests.get(url)
print(resp)

<Response [200]>


In [4]:
url2 = "https://www.python.org/1"
resp2 = requests.get(url2)
print(resp2)

<Response [404]>


# 로봇 배제 표준

In [5]:
urls = ["https://www.naver.com/", "https://www.python.org/"]
filename= "robots.txt"

for url in urls:
    file_path = url + filename
    print(file_path)
    resp = requests.get(file_path)
    print(resp.text)
    print("\n")

https://www.naver.com/robots.txt
User-agent: *
Disallow: /
Allow : /$ 



https://www.python.org/robots.txt
# Directions for robots.  See this URL:
# http://www.robotstxt.org/robotstxt.html
# for a description of the file format.

User-agent: HTTrack
User-agent: puf
User-agent: MSIECrawler
Disallow: /

# The Krugle web crawler (though based on Nutch) is OK.
User-agent: Krugle
Allow: /
Disallow: /~guido/orlijn/
Disallow: /webstats/

# No one should be crawling us with Nutch.
User-agent: Nutch
Disallow: /

# Hide old versions of the documentation and various large sets of files.
User-agent: *
Disallow: /~guido/orlijn/
Disallow: /webstats/





# 실시간 랭킹 뉴스 서비스에 접속

In [6]:
# 뉴스 사이트
url = "https://news.daum.net/"

# 에이전트 설정
agent = 'Mozila/2.0'

# requests.get
resp = requests.get(url, headers={'User-agent': agent})
print(resp)

<Response [200]>


In [7]:
soup = BeautifulSoup(resp.text)
print(type(soup))

<class 'bs4.BeautifulSoup'>


In [8]:
print(soup.head)

<head>
<meta charset="utf-8"/>
<meta content="always" name="referrer"/>
<meta content="Daum 뉴스" property="og:author"/>
<meta content="다음뉴스" property="og:site_name"/>
<meta content="홈" property="og:title"/>
<meta content="https://t1.daumcdn.net/media/img-media/mobile/meta/news.png" property="og:image"/>
<meta content="다음뉴스" property="og:description"/>
<meta content="https://news.daum.net/" property="og:url"/>
<link href="https://m2.daumcdn.net/img-media/2010ci/Daum_favicon.ico" rel="shortcut icon"/>
<title>홈 | 다음뉴스</title>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<link href="//t1.daumcdn.net/media/kraken/news/a2fba2b/style.css.merged.css" rel="stylesheet" type="text/css"/>
<link href="//t1.daumcdn.net/media/kraken/news/a2fba2b/calendar.css.merged.css" rel="stylesheet" type="text/css"/>
<!--[if lte IE 8]>
<script src="https://m2.daumcdn.net/svc/original/U0301/cssjs/JSON-js/fc535e9cc8/json2.min.js"></script>
<![endif]-->
<!--[if lt IE 9]>
<link rel="stylesheet" type="text/cs

In [11]:
# print(soup.body)

In [9]:
print('title 태그 요소: ', soup.title)
print('title 태그 이름: ', soup.title.name)
print('title 태그 문자열: ', soup.title.string)

title 태그 요소:  <title>홈 | 다음뉴스</title>
title 태그 이름:  title
title 태그 문자열:  홈 | 다음뉴스


In [10]:
soup.title.text

'홈 | 다음뉴스'

# find 메서드, find_all 메서드

In [None]:
# [Ctrl] + [Shift] + "i" 
# 개발자 도구 열기
# <ul class="list_newsissue">

### ul 태그 

In [11]:
# find - 가장 먼저 나타나는 태그를 찾는다 
soup.find(name='ul')

<ul class="doc-relate" data-tiara-layer="GNB service">
<li><a class="link_services" data-tiara-layer="enter" href="https://entertain.daum.net">연예</a></li>
<li><a class="link_services" data-tiara-layer="sports" href="https://sports.daum.net">스포츠</a></li>
</ul>

In [12]:
# find_all - 모든 태그를 찾는다 
ul_data = soup.find_all(name='ul')
len(ul_data)

6

In [13]:
ul_data[5]

<ul class="list_correct">
<li><a class="link_correct" data-tiara-layer="correct" href="/info/correct">언론사 고침기사<span class="ico_news ico_arr"> 바로가기</span></a></li>
<li><a class="link_correct" data-tiara-layer="revision" href="/info/revision">정정・반론・추후보도 기사<span class="ico_news ico_arr"> 바로가기</span></a></li>
<li><a class="link_correct" data-tiara-layer="unfair" href="/info/unfair">불공정 선거보도<span class="ico_news ico_arr"> 바로가기</span></a></li>
</ul>

### 태그 속성

In [14]:
# class 속성이 "list_newsissue"인 ul 태그를 모두 찾는다

newsissue = soup.find_all(name='ul', attrs={'class':'list_newsissue'})
len(newsissue)

1

In [15]:
print(type(newsissue))
print(type(newsissue[0]))

<class 'bs4.element.ResultSet'>
<class 'bs4.element.Tag'>


## [실습 1] 

newsissue 데이터에서 모든 li 태그를 찾습니다.

# select 메서드

### ul 태그

In [16]:
ul_list = soup.select('ul')
len(ul_list)

6

### 클래스 속성자

In [17]:
# class 속성값이 list_newsissue인 경우
class_list = soup.select('.list_newsissue')
len(class_list)

1

In [18]:
# class_list[0]

In [19]:
# class_list[0]안에 들어 있는 li 태그들
li_list = soup.select('.list_newsissue > li')
len(li_list)

20

### ID 속성자

In [20]:
# id="kakaoServiceLogo"

id_list = soup.select('#kakaoServiceLogo')
len(id_list)

1

In [21]:
id_list[0]

<a data-tiara-layer="GNB service news" href="https://news.daum.net/" id="kakaoServiceLogo">
<span class="ir_wa">뉴스</span>
</a>

## [실습2 ] 

li_list에 들어 있는 20개의 뉴스 중에서 하나를 골라서, 뉴스 제목과 언론사 이름을 정리합니다.

## [실습 3] 

li_list에 들어 있는 20개의 뉴스를 반복문을 이용하여 하나의 데이터프레임으로 정리합니다.