### 1. Requests

파이썬에서 Http 요청을 할 수 있는 라이브러리

[사용할 수 있는 메서드]

- .get
- .post
- .put
- .delete
- .head
- .options
- .trace

### 2. BeautifulSoup

가공되지 않는 데이터에서 원하는 문자를 뽑아오는데에 도움을 주는 라이브러리

- .find: 태그명, 속성정보로 매칭되는 하나의 결과만 가져옴
- .find_all: 태그명, 속성정보로 매칭되는 모든 결과를 리스트로 가져옴
- .text: 해당 태그의 텍스트를 가져옴
- .get: 해당 태그의 특정 속성 (attribute)의 값을 가져옴
- .select: CSS selector 를 통해 매칭되는 모든 결과를 리스트로 가져옴


In [1]:
import requests
from bs4 import BeautifulSoup as bs

In [2]:
# requests.get으로 서버에 데이터 요청해서 가져오기
# 결과가 깨끗하진 않음
res = requests.get('https://news.v.daum.net/v/20201017090029562')
print(res.content)

b'<!doctype html>\n<html lang="ko"> \n <head data-cloud-area="head"> \n  <meta charset="utf-8"> \n  <meta http-equiv="X-UA-Compatible" content="IE=edge"> \n  <style>\n             @import url(\'//t1.daumcdn.net/harmony_static/cloud/page/0c3961ace6f472d6e26855ad7974b4176e3f857f.css\');\n            @import url(\'//t1.daumcdn.net/harmony_static/cloud/2020/09/17/components.21fc0700278d03c33a95.css\')\n        </style> \n  <meta name="robots" content="noindex"> \n  <meta property="mccp:docId" content="AcOg582txF"> \n  <meta property="og:site_name" content="\xeb\x8b\xa4\xec\x9d\x8c \xeb\x89\xb4\xec\x8a\xa4" data-cloud="pc_html_head_meta"> \n  <meta property="og:title" content="\xed\x8e\x98\xeb\xa3\xa8\xec\x84\x9c \xea\xb8\xb8\xec\x9d\xb4 37m \xea\xb3\xa0\xec\x96\x91\xec\x9d\xb4 \xeb\xaa\xa8\xec\x96\x91 \xea\xb3\xa0\xeb\x8c\x80 \xec\xa7\x80\xec\x83\x81\xed\x99\x94 \xeb\xb0\x9c\xea\xb2\xac" data-cloud="pc_html_head_meta"> \n  <meta property="og:regDate" content="20201017090029" data-cloud="pc

In [3]:
# beautifulsoap 사용해서 깔끔하게 바꿔주자
soup = bs(res.content,'html.parser')
print(soup)

<!DOCTYPE html>

<html lang="ko">
<head data-cloud-area="head">
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<style>
             @import url('//t1.daumcdn.net/harmony_static/cloud/page/0c3961ace6f472d6e26855ad7974b4176e3f857f.css');
            @import url('//t1.daumcdn.net/harmony_static/cloud/2020/09/17/components.21fc0700278d03c33a95.css')
        </style>
<meta content="noindex" name="robots"/>
<meta content="AcOg582txF" property="mccp:docId"/>
<meta content="다음 뉴스" data-cloud="pc_html_head_meta" property="og:site_name"/>
<meta content="페루서 길이 37m 고양이 모양 고대 지상화 발견" data-cloud="pc_html_head_meta" property="og:title"/>
<meta content="20201017090029" data-cloud="pc_html_head_meta" property="og:regDate"/>
<meta content="(멕시코시티=연합뉴스) 고미혜 특파원 = 땅 위에 그려진 거대한 고대 그림들이 모여있는 페루 나스카에서 고양잇과 동물 모양의 그림이 새로 발견됐다. 페루 문화부는 지난 15일(현지시간) 보도자료를 내고 페루 남서부 나스카의 구릉 지역에서 유적 보수작업을 하던 중에 새 지상화를 발견했다고 밝혔다. 고양잇과 동물 형태의 이 지상화는 경사가 가파른 땅에 그려져" data-cloud="pc_html_head_meta" pro

### BeautifulSoap의 메서드 활용해서 원하는 데이터 뽑기 

In [5]:
# 태그명으로 원하는 데이터 가져오기
title=soup.find('title')
title

<title>페루서 길이 37m 고양이 모양 고대 지상화 발견</title>

In [6]:
# 해당 태그로 텍스트를 가져옴 (.text)
print(title.text)

페루서 길이 37m 고양이 모양 고대 지상화 발견


In [7]:
#태그명으로 매칭되는 모든 결과를 리스트로 가져오기
h2s=soup.find_all('h2')
h2s

[<h2 class="screen_out">검색</h2>,
 <h2 class="screen_out">뉴스 메인메뉴</h2>,
 <h2 class="screen_out" id="kakaoBody">국제</h2>,
 <h2 class="tit_direct">바로가기</h2>,
 <h2 class="screen_out">서비스 이용정보</h2>]

In [8]:
# 해당 태그의 특정 속성의 값을 가져옴 (.get)
for h2 in h2s:
    print(h2.get('class')) #class 정보 가져오기 

['screen_out']
['screen_out']
['screen_out']
['tit_direct']
['screen_out']


### 사이트 검사도구에서 copy selector 로 가져오기
- .Select: Css Selector 를 통해 매칭되는 모든 결과를 리스트로 가져옴

In [9]:
#select는 list로 가져옴
soup.select('#cSub > div > h3')

[<h3 class="tit_view" data-translation="true">페루서 길이 37m 고양이 모양 고대 지상화 발견</h3>]

In [10]:
#리스트 형태여서 text 바로 사용 안됨
soup.select('#cSub > div > h3').text

AttributeError: ResultSet object has no attribute 'text'. You're probably treating a list of elements like a single element. Did you call find_all() when you meant to call find()?

In [11]:
# 인덱싱하고 text 사용 가능
soup.select('#cSub > div > h3')[0].text

'페루서 길이 37m 고양이 모양 고대 지상화 발견'

## covid19 정보 크롤링 연습

In [18]:
# requests를 이용해 원하는 웹페이지의 소스코드를 불러옴
res = requests.get('https://news.google.com/covid19/map?hl=ko&mid=%2Fm%2F02j71&gl=KR&ceid=KR%3Ako')
# BeautifulSoup를 이용해 파싱
soup = bs(res.content,'html.parser')
print(soup)

<!DOCTYPE html>
<html dir="ltr" lang="ko"><head><base href="https://news.google.com/"/><meta content="origin" name="referrer"/><link href="https://news.google.com/covid19/map" rel="canonical"/><meta content="width=device-width,initial-scale=1,minimal-ui" name="viewport"/><meta content="AcBy5YFny2HQgVUCR18tO5YUTf6MpVlcJqGTd-a9-SI" name="google-site-verification"/><meta content="yes" name="mobile-web-app-capable"/><meta content="yes" name="apple-mobile-web-app-capable"/><meta content="뉴스" name="application-name"/><meta content="뉴스" name="apple-mobile-web-app-title"/><meta content="black" name="apple-mobile-web-app-status-bar-style"/><meta content="white" name="theme-color"/><meta content="no" name="msapplication-tap-highlight"/><link href="https://lh3.googleusercontent.com/-DR60l-K8vnyi99NZovm9HlXyZwQ85GMDxiwJWzoasZYCUrPuUM_P_4Rb7ei03j-0nRs0c4F=w16" rel="shortcut icon" sizes="16x16"/><link href="https://lh3.googleusercontent.com/-DR60l-K8vnyi99NZovm9HlXyZwQ85GMDxiwJWzoasZYCUrPuUM_P_4Rb7e

In [19]:
soup.title

<title>코로나바이러스(코로나19) - Google 뉴스</title>

In [20]:
soup.find_all('h3')

[<h3 class="wH7mg" jsaction="pSI0Dc:mMUZad;" jscontroller="C8xsFd">전 세계</h3>,
 <h3 class="wH7mg" id="data-table-label">확진자</h3>,
 <h3 class="wH7mg" style="margin-bottom:0">확진자 추세</h3>,
 <h3 class="wH7mg" style="margin-bottom:0">검사 수</h3>,
 <h3 class="wH7mg" style="margin-bottom:0">시간 경과에 따른 이동성 변화</h3>,
 <h3 class="wH7mg">데이터 정보</h3>,
 <h3 class="wH7mg">주요 뉴스</h3>]

In [22]:
soup.select('.pcAJd')

[<div class="pcAJd">전 세계</div>,
 <div class="pcAJd">미국</div>,
 <div class="pcAJd">인도</div>,
 <div class="pcAJd">브라질</div>,
 <div class="pcAJd">러시아</div>,
 <div class="pcAJd">아르헨티나</div>,
 <div class="pcAJd">콜롬비아</div>,
 <div class="pcAJd">스페인</div>,
 <div class="pcAJd">페루</div>,
 <div class="pcAJd">멕시코</div>,
 <div class="pcAJd">프랑스</div>,
 <div class="pcAJd">영국</div>,
 <div class="pcAJd">남아프리카 공화국</div>,
 <div class="pcAJd">이란</div>,
 <div class="pcAJd">칠레</div>,
 <div class="pcAJd">이라크</div>,
 <div class="pcAJd">이탈리아</div>,
 <div class="pcAJd">방글라데시</div>,
 <div class="pcAJd">독일</div>,
 <div class="pcAJd">인도네시아</div>,
 <div class="pcAJd">필리핀</div>,
 <div class="pcAJd">터키</div>,
 <div class="pcAJd">사우디아라비아</div>,
 <div class="pcAJd">파키스탄</div>,
 <div class="pcAJd">우크라이나</div>,
 <div class="pcAJd">이스라엘</div>,
 <div class="pcAJd">네덜란드</div>,
 <div class="pcAJd">벨기에</div>,
 <div class="pcAJd">캐나다</div>,
 <div class="pcAJd">루마니아</div>,
 <div class="pcAJd">폴란드</div>,
 <div class="pcAJd">체코

In [27]:
covid_list=soup.select("tr.sgXwHf.wdLSAe")

In [28]:
len(covid_list)

41

In [29]:
print(covid_list[0])

<tr class="sgXwHf wdLSAe ROuVee" data-id="/m/02j71" jsaction="click:KoQL8" jslog="110767; track:click"><th class="l3HOY" role="rowheader" scope="row"><div class="TWa0lb"><img alt="" class="oIC36d" loading="lazy" src="https://www.gstatic.com/images/icons/material/system_gm/1x/language_googblue_24dp.png"/><div class="pcAJd">전 세계</div></div></th><td class="l3HOY">39,899,915</td><td aria-label="데이터 없음" class="l3HOY"><span class="EtcnFb">데이터 없음</span></td><td class="l3HOY"><img alt="60일 동향 차트" aria-label="60일 동향 차트" class="nBjBX" loading="lazy" src="//www.gstatic.com/covid-trends/images/NC60/_m_02j71.svg"/></td><td class="l3HOY">5,131</td><td class="l3HOY">1,112,599</td></tr>


In [37]:
# 나라 이름
covid_list[0].select('.pcAJd')

[<div class="pcAJd">전 세계</div>]

In [45]:
# 이쁘게 출력
print(covid_list[0].prettify())

<tr class="sgXwHf wdLSAe ROuVee" data-id="/m/02j71" jsaction="click:KoQL8" jslog="110767; track:click">
 <th class="l3HOY" role="rowheader" scope="row">
  <div class="TWa0lb">
   <img alt="" class="oIC36d" loading="lazy" src="https://www.gstatic.com/images/icons/material/system_gm/1x/language_googblue_24dp.png"/>
   <div class="pcAJd">
    전 세계
   </div>
  </div>
 </th>
 <td class="l3HOY">
  39,899,915
 </td>
 <td aria-label="데이터 없음" class="l3HOY">
  <span class="EtcnFb">
   데이터 없음
  </span>
 </td>
 <td class="l3HOY">
  <img alt="60일 동향 차트" aria-label="60일 동향 차트" class="nBjBX" loading="lazy" src="//www.gstatic.com/covid-trends/images/NC60/_m_02j71.svg"/>
 </td>
 <td class="l3HOY">
  5,131
 </td>
 <td class="l3HOY">
  1,112,599
 </td>
</tr>



In [52]:
for td in covid_list[0].find_all('td'):
    print(td.text)

39,899,915
데이터 없음

5,131
1,112,599


-> 3번째는 그래프라서 text가 없음

In [65]:
# 한줄 출력
loc = covid_list[0].find('div').text
tds = covid_list[0].find_all('td')
total = tds[0].text
new = tds[1].text
confirmed_per_mil = tds[3].text
death = tds[4].text

print(f"|위치:{loc} | 총 확진자 수:{total} | 신규확진자: {new} | \
백만 명당 확진자 수: {confirmed_per_mil} | 사망: {death} |" )

|위치:전 세계 | 총 확진자 수:39,899,915 | 신규확진자: 데이터 없음 | 백만 명당 확진자 수: 5,131 | 사망: 1,112,599 |


In [56]:
tds

[<td class="l3HOY">39,899,915</td>,
 <td aria-label="데이터 없음" class="l3HOY"><span class="EtcnFb">데이터 없음</span></td>,
 <td class="l3HOY"><img alt="60일 동향 차트" aria-label="60일 동향 차트" class="nBjBX" loading="lazy" src="//www.gstatic.com/covid-trends/images/NC60/_m_02j71.svg"/></td>,
 <td class="l3HOY">5,131</td>,
 <td class="l3HOY">1,112,599</td>]

In [57]:
tds[0]

<td class="l3HOY">39,899,915</td>

In [73]:
# 전체 나라 정보 출력
for i in range(len(covid_list)):
    print(covid_list[i].find('div').text)

전 세계
미국
인도
브라질
러시아
아르헨티나
콜롬비아
스페인
페루
멕시코
프랑스
영국
남아프리카 공화국
이란
칠레
이라크
이탈리아
방글라데시
독일
인도네시아
필리핀
터키
사우디아라비아
파키스탄
우크라이나
이스라엘
네덜란드
벨기에
캐나다
루마니아
폴란드
체코
모로코
에콰도르
볼리비아
네팔
카타르
파나마
도미니카 공화국
쿠웨이트
아랍에미리트


In [74]:
# 필요한 정보를 출력하는 함수
def printInfo(index, loc, tds):
    total = tds[0].text
    new = tds[1].text
    confirmed_per_mil = tds[3].text
    death = tds[4].text
    
    print(f"[{index:>3}] 위치: {loc} 총 확진자 수: {total} | 신규확진자(1일*): {new} \
    | 백만 명당 확진자 수: {confirmed_per_mil} | 사망: {death} ")
    
# 전체 리스트에서 각 정보를 출력
for index, covid_info in enumerate(covid_list):
    loc = covid_info.find('div').text
    tds = covid_info.find_all('td')
    printInfo(index, loc, tds)


[  0] 위치: 전 세계 총 확진자 수: 39,899,915 | 신규확진자(1일*): 데이터 없음     | 백만 명당 확진자 수: 5,131 | 사망: 1,112,599 
[  1] 위치: 미국 총 확진자 수: 8,188,764 | 신규확진자(1일*): 52,774     | 백만 명당 확진자 수: 24,848 | 사망: 219,537 
[  2] 위치: 인도 총 확진자 수: 7,494,551 | 신규확진자(1일*): 0     | 백만 명당 확진자 수: 5,509 | 사망: 114,031 
[  3] 위치: 브라질 총 확진자 수: 5,224,362 | 신규확진자(1일*): 0     | 백만 명당 확진자 수: 24,721 | 사망: 153,675 
[  4] 위치: 러시아 총 확진자 수: 1,390,824 | 신규확진자(1일*): 14,804     | 백만 명당 확진자 수: 9,478 | 사망: 24,039 
[  5] 위치: 아르헨티나 총 확진자 수: 989,680 | 신규확진자(1일*): 10,561     | 백만 명당 확진자 수: 22,023 | 사망: 26,267 
[  6] 위치: 콜롬비아 총 확진자 수: 959,572 | 신규확진자(1일*): 7,201     | 백만 명당 확진자 수: 19,426 | 사망: 28,970 
[  7] 위치: 스페인 총 확진자 수: 936,560 | 신규확진자(1일*): 0     | 백만 명당 확진자 수: 19,884 | 사망: 33,775 
[  8] 위치: 페루 총 확진자 수: 865,549 | 신규확진자(1일*): 3,132     | 백만 명당 확진자 수: 26,938 | 사망: 33,702 
[  9] 위치: 멕시코 총 확진자 수: 851,227 | 신규확진자(1일*): 4,119     | 백만 명당 확진자 수: 6,725 | 사망: 86,167 
[ 10] 위치: 프랑스 총 확진자 수: 843,471 | 신규확진자(1일*): 0     | 백만 명당 확진자 수: 12,575 | 사망: 33,05