In [37]:
%autosave 60

Autosaving every 60 seconds


#### Beautiful Soup
  - HTML 문서를 파싱하여 분석하는 기능을 제공하는 모듈
  - 웹 크롤링에 가장 많이 사용

In [39]:
import requests
from bs4 import BeautifulSoup

In [27]:
html = """
<html>
    <head>
        <title>웹 페이지 제목</title>
    </head>
    <body>
        <h1 title='h1 title'>Testing...</h1>
        <p>HTML 테스트 페이지1</p>
        <p>HTML 테스트 페이지2</p>
        <p>HTML 테스트 페이지3</p>
        <div id='test_id' class='div_class' custom='good'>
            <p>테스트 문장1</p>
            <p>테스트 문장2</p>
            <p>테스트 문장3</p>
            <p>테스트 문장4</p>
        </div>
    </body>
</html>
"""

#### find 함수 
  - 특정 HTML 태그를 검색
  - 검색 조건에 맞는 가장 첫 번째 태그를 반환(1개만 반환)

In [17]:
soup = BeautifulSoup(html)
soup.find('p')

<p>HTML 테스트 페이지1</p>

In [18]:
soup.find('div', custom='good')

<div class="div_class" custom="good" id="test_id">
<p>테스트 문장1</p>
<p>테스트 문장2</p>
<p>테스트 문장3</p>
<p>테스트 문장4</p>
</div>

In [19]:
# class는 Python 키워드이므로 class_ 사용
soup.find('div', class_='div_class')

<div class="div_class" custom="good" id="test_id">
<p>테스트 문장1</p>
<p>테스트 문장2</p>
<p>테스트 문장3</p>
<p>테스트 문장4</p>
</div>

#### find_all 함수
  - find는 검색 결과 1개만 반환
  - find_all은 검색된 모든 태그를 `list` 형태로 반환

In [23]:
tag_list = soup.find_all('div', class_='div_class')
print(tag_list)

[<div class="div_class" custom="good" id="test_id">
<p>테스트 문장1</p>
<p>테스트 문장2</p>
<p>테스트 문장3</p>
<p>테스트 문장4</p>
</div>]


In [24]:
for tag in tag_list:
    print(tag)

<div class="div_class" custom="good" id="test_id">
<p>테스트 문장1</p>
<p>테스트 문장2</p>
<p>테스트 문장3</p>
<p>테스트 문장4</p>
</div>


#### get_text 함수
  - 태그 안의 값(Value) 추출에 사용
  - 부모 태그는 모든 자식 태그의 값을 추출

In [29]:
tag = soup.find('h1')
print(tag)
tag.get_text()

<h1 title="h1 title">Testing...<h2>
</h2></h1>


'Testing...\n'

#### 태그 속성(Attribute) 값 추출
  - 필요에 따라 태그의 속성 값을 추출해야 하는 경우도 있음
  - 검색한 결과 tag에 ['속성명']으로 접근하여 추출 가능
  - ex) tag.find('h1')['title']

In [34]:
tag = soup.find('h1')
# print(tag)
print(tag['title']) # h1 태그의 title 속성 값을 추출

h1 title


---

### id, class 속성을 이용한 데이터 추출
  - id, class 속성은 웹 크롤링에서 많이 사용되는 속성
  - 데이터 분석 전 `웹 개발자 도구`를 이용하여 elements 분석을 수행하는 것이 중요

In [63]:
url='https://news.v.daum.net/v/20190728165812603' # sample url

In [64]:
res = requests.get(url)
# res.text

In [65]:
soup = BeautifulSoup(res.text) 
title = soup.find('h3', class_='tit_view') # find() 함수를 이용하여 뉴스기사의 타이틀 추출
print(title)
print(title.get_text()) # 태그의 값(Value)만 추출

<h3 class="tit_view" data-translation="true">일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"</h3>
일론머스크 "테슬라에서 넷플릭스·유튜브 즐길 날 온다"


In [66]:
soup.find_all('span', class_='txt_info')[0]

<span class="txt_info">이민우</span>

In [67]:
# 또 다른 방식, 부모 태그를 먼저 찾는 방식 --> 1개의 부모 태그에 너무 많은 자식 태그가 있는 경우 사용
info_view = soup.find('span', class_='info_view')
info_view.find('span', class_='txt_info').get_text()



'이민우'

In [69]:
container = soup.find('div', id='harmonyContainer')
contents = ''
for p in container.find_all('p'):
    contents += p.get_text()

In [70]:
print(contents)

[아시아경제 이민우 기자] 일론 머스크 테슬라 최고경영자(CEO)가 자사 전기 자동차 모델에 넷플릭스와 유튜브 등 온라인동영상서비스(OTT)를 탑재할 것이라고 예고했다. 단순히 자율 주행 전기차가 단순히 주행을 위한 정보를 알려주는 것을 넘어 각종 영상 콘텐츠를 즐기는 공간으로도 확장하겠다는 전략으로 풀이된다.27일(현지시간) 더버지 등 주요 외신들에 따르면 머스크 CEO는 자신의 트위터를 통해 이 같은 계획을 밝혔다. 그는 "자동차가 정차했을 때 넷플릭스와 유튜브를 감상할 수 있는 기능이 조만간 추가될 것"이라며 "편안한 좌석과 서라운드 사운드 오디오를 통해 영화관과 같은 느낌을 받을 수 있을 것"이라고 강조했다.테슬라가 이처럼 콘텐츠 방면으로 확장하려 든 것은 이번이 처음이 아니다. 지난달 세계 최대 게임쇼 E3에서는 이미 운전자가 '폴아웃 쉘터'라는 게임을 할 수 있을 것이라고 발표한 바 있다. 이후에도 최근 게임업체 아타리사(社)의 자동차 경주 게임 ‘폴포지션’, 슈팅게임 ‘템페스트’, ‘미사일커맨드’ 등 고전 게임을 제공하기도 했다. 운전대로 게임을 조작하는 방식으로, 차가 주차돼 있을 경우에만 즐길 수 있다.이번 영상 콘텐츠는 주행 중에도 감상할 수 있도록 하는 방안을 고려하고 있다. 테슬라 측은 규제당국이 자율주행에 대해 완전히 승인하면 차량이 움직일 때에도 승객이 동영상을 즐길 수 있을 것이라고 설명했다.하지만 아직까지 자율주행차의 안전에 대한 우려는 완전히 걷혀지지 않은 상황이다. 지난 2017년 차량공유 서비스 우버의 자율주행 시범차량이 보행자와 충돌한 사고가 발생한 바 있다. 게다가 당시 시험 운전자는 디즈니의 동영상 스트리밍 서비스인 '훌루'를 이용하고 있던 것으로 밝혀졌다.이민우 기자 letzwin@asiae.co.kr
