> 참고자료: 머신러닝, 딥러닝 실전 개발 입문 by 쿠지라 히코우즈코에

# 데이터 수집
## 스크레이핑이란?
 - 웹 사이트에 있는 특정 정보를 추출하는 기술
 - 웹에 공개된 정보는 대부분 HTML 형식으로 되어 있고, 이를 가져와 데이터베이스에 저장하려면 데이터 가공이 필요함.
 - 웹 스크레이핑이란 웹에서 데이터를 추출하는 것뿐만 아니라 그러한 구조를 변형, 분석하는 것도 포함됨.

## 크롤링이란?
- 크롤링(Crawling)이란 프로그램이 웹 사이트를 정기적으로 돌며 정보를 추출하는 기술
- 크롤링을 수행하는 프로그램을 '크롤러(Crawler)' 또는 '스파이더(Spider)'라고 함.
- ex) 검색 엔진을 구현할 때 사용하는 크롤러는 웹 사이트의 링크를 타고 돌며 데이터를 저장함.

## 웹 스크래핑에 사용하는 라이브러리
- urllib:
    - 파이썬 내장 라이브러리
- BeautifulSoup:
    - HTML, XML을 파싱하고, 원하는 데이터 추출
- Requests:
    - urllib보다 간편하게 데이터를 다운로드 할 수 있음.
    - 세션을 이용한 로그인 기능이 있는 사이트에서 데이터 추출 시 편리함.
- Selenium:
    - 최근에는 많은 경우 자바스크립트를 사용하여 웹 사이트를 개발함.
    - Selenium을 이용하면 웹 브라우저를 조작해서 다양한 처리를 할 수 있고, 데이터를 추출할 수 있음.
- Scrapy:
    - 크롤링과 스크래핑을 전문적으로 해주는 프레임워크
    - Selenium과 함께 유연하게 사용할 수 있고, 스크래핑을 자주 사용하는 경우 활용함.


# 구글드라이브 마운트 및 환경설정

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
def line():
    print('-'*50)

In [4]:
import os

print(os.getcwd())
line()
path = '/content/drive/MyDrive/(0520_0715)데이터분석_야간반/강사용/'
os.chdir(path)
print(os.getcwd())

/content
--------------------------------------------------
/content/drive/MyDrive/(0520_0715)데이터분석_야간반/강사용


# urllib을 활용한 웹 스크래핑

## urllib.request를 이용한 다운로드

In [4]:
import urllib.request as req

url = 'http://uta.pw/shodou/img/28/214.png'
savename = 'test.png'

req.urlretrieve(url, savename)
print('saving completed')


saving completed


In [5]:
!ls

'1_(가이드코드포함)urllib_beautifulsoup_이용한_웹스크래핑.ipynb'	    streamlit
 1주차_파이썬기초							    test.png
'2_(가이드코드포함)requests와selenium을_이용한_로그인후_웹스크래핑.ipynb'   강의줌링크.txt
 __pycache__								    사전설문조사관련


## urllib.request를 이용한 데이터 메모리 로드

In [6]:
import urllib.request as req

url = 'http://uta.pw/shodou/img/28/214.png'
savename = 'test.png'

# 메모리 로딩
mem = req.urlopen(url).read()

# 파일 저장
with open(savename, mode='wb') as f:
    f.write(mem)
    print('save completed')


save completed


## 웹에서 데이터 추출하기

In [7]:
import urllib.request as req

# ftp 상의 리소스를 추출하려면 http를 ftp로 변경하면 됨.
url = 'http://api.aoikujira.com/ip/ini'
data = req.urlopen(url).read()
print(type(data))
line()

# 바이너리를 문자열로 변환하여 print 하기
text = data.decode('utf-8')
print(text)

<class 'bytes'>
--------------------------------------------------
<pre>[ip]
API_URI=http://api.aoikujira.com/ip/get.php
REMOTE_ADDR=34.23.103.120
REMOTE_HOST=120.103.23.34.bc.googleusercontent.com
REMOTE_PORT=60974
HTTP_HOST=api.aoikujira.com
HTTP_USER_AGENT=Python-urllib/3.10
HTTP_ACCEPT_LANGUAGE=
HTTP_ACCEPT_CHARSET=
SERVER_PORT=80
FORMAT=ini




## 매개변수를 추가해 요청을 전송하는 방법
- 지역 코드를 결합하여 url에 접속하면 해당 지역의 날씨 정보를 제공
- 기상청 RSS: http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp
- 참고 사이트: https://www.weather.go.kr/w/pop/rss-guide.do
- 매개변수 stnId: 기상 정보를 알고 싶은 지역 지정
- 지역 번호
    - code_dict = {'전국':108, '서울_경기':109, '강원':105, '충북':131, '충남':133, '전북':146, '전남':156, '경북':143, '경남':159, '제주':184}

In [9]:
%%writefile down_forecast.py

import urllib.request as req
import urllib.parse as parse
import sys

# 명령줄 매개변수 추출
if len(sys.argv) <= 1:
    print("USAGE: download-forecast-argv <Region Number>")
    sys.exit()
regionNumber = sys.argv[1]

# 매개변수를 URL 인코딩
API = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"
values = {
    'stnId': regionNumber
}

params = parse.urlencode(values)

url = API + "?" + params
# print("url=", url)

# 내용 다운로드
data = req.urlopen(url).read()
text = data.decode("utf-8")

print(text)

Writing down_forecast.py


In [11]:
!python down_forecast.py 109

<?xml version="1.0" encoding="utf-8" ?>
<rss version="2.0">
<channel>
<title>기상청 육상 중기예보</title>
<link>http://www.kma.go.kr/weather/forecast/mid-term_02.jsp</link>
<description>기상청 날씨 웹서비스</description>
<language>ko</language>
<generator>기상청</generator>
<pubDate>2024년 06월 05일 (수)요일 06:00</pubDate>
 <item>
<author>기상청</author>
<category>육상중기예보</category>
<title>서울,경기도 육상 중기예보 - 2024년 06월 05일 (수)요일 06:00 발표</title>
<link>http://www.kma.go.kr/weather/forecast/mid-term_02.jsp</link>
<guid>http://www.kma.go.kr/weather/forecast/mid-term_02.jsp</guid>
<description>
	<header>
		<title>서울,경기도 육상중기예보</title>
		<tm>202406050600</tm>
		<wf><![CDATA[○ (강수) 8일(토) 오후~9일(일) 오전에 비가 오겠습니다.<br />○ (기온) 아침 기온은 16~20도, 낮 기온은 23~30도로 평년(최저기온 16~19도, 최고기온 25~28도)과 비슷하거나 조금 높겠습니다.<br />○ (해상) 서해중부해상의 물결은 0.5~1.5m로 일겠습니다.<br />○ (주말 전망) 8일(토)은 흐리고 오후에 비가 내리겠고, 9일(일)은 오전 흐리고 비, 오후에 구름많겠습니다. 아침 기온은 16~18도, 낮 기온은 23~29도가 되겠습니다.<br /><br />* (강수 변동성) 8일(토)~10일(월)은 우리나라의 북쪽과 남쪽에서 접근하는 기압골 영향 정도에 

## 연습문제1
- 기상청 RSS 기능을 구현하는 코드를 새로 작성하되, 매개변수 입력 방식이 아닌, input() 함수를 이용하여 사용자로부터 바로 지역 코드를 입력하는 방식으로 변경하세요.
- 지역명을 잘못 입력하면 다시 입력하도록 설정하세요.(반복문과 조건문 사용)

# BeautifulSoup을 이용한 웹 스크래핑
- HTML과 XML을 분석하여 정보를 추출해 주는 라이브러리

In [None]:
# beautifulsoup 설치하기

# !pip install beautifulsoup4

## BeautifulSoup 기본 사용법

In [5]:
def line():
    print('-'*50)

### Tag로 요소 찾기

In [16]:
# Tag로 요소 찾기

from bs4 import BeautifulSoup

# html을 문자열로 변환
html = """
<html><body>
  <h1>스크레이핑이란?</h1>
  <p>웹 페이지를 분석하는 것</p>
  <p>원하는 부분을 추출하는 것</p>
</body></html>
"""

# HTML 분석
soup = BeautifulSoup(html, 'html.parser')
print('type: ', type(soup))
line()
print(soup)
line()


type:  <class 'bs4.BeautifulSoup'>
--------------------------------------------------

<html><body>
<h1>스크레이핑이란?</h1>
<p>웹 페이지를 분석하는 것</p>
<p>원하는 부분을 추출하는 것</p>
</body></html>

--------------------------------------------------


In [24]:
# 원하는 부분 추출
# "."을 이용하여 하부 태그를 찾아나감.
# "."은 하부 태그를 찾고, 형제 태그를 찾기 위해서는 next_sibling을 이용해야 함.

h1 = soup.html.body.h1
print("h1 = " + h1.string)

h1 = 스크레이핑이란?


In [21]:
# p 태그 찾기
# 형제 태그가 있지만, 가장 처음 태그만 찾음.

p1 = soup.html.body.p
print("p  = " + p1.string)

p  = 웹 페이지를 분석하는 것


In [22]:
# p 태그의 형제 태그 찾기
# p 태그 사이에 개행이 있음.

text = p1.next_sibling # 개행이 걸림
p2 = p1.next_sibling.next_sibling # p1의 형제 노드를 찾는데, 개행 다음을 찾기 위해 2번을 사용함.

# 출력하기
print("개행  = " + text.string)
print("p  = " + p2.string)

개행  = 

p  = 원하는 부분을 추출하는 것


In [23]:
soup.html.body.p.next_sibling.next_sibling

<p>원하는 부분을 추출하는 것</p>

### id로 요소 찾기
- find 함수와 id 키워드를 이용하여 데이터 추출

In [30]:
# id로 요소 찾기

from bs4 import BeautifulSoup

html = """
<html><body>
  <h1 id="title">스크레이핑이란?</h1>
  <p id="body">웹 페이지를 분석하는 것</p>
  <p>원하는 부분을 추출하는 것</p>
</body></html>
"""

soup = BeautifulSoup(html, 'html.parser')

# find() 메서드로 원하는 부분 추출하기
title = soup.find(id="title")
body = soup.find(id="body")

# 텍스트 부분 출력하기
print("#title=" + title.string)
print("#body=" + body.string)

#title=스크레이핑이란?
#body=웹 페이지를 분석하는 것


### 여러 개의 요소 추출하기
- DOM 요소의 속성 추출
    - DOM(Document Object Model)이란 XML 또는 HTML의 요소에 접근하는 구조를 말함.
    - DOM 요소의 속성이란, 태그 이름 뒤에 있는 각 요소의 속성을 의미함.

In [37]:
# find_all() 함수로 여러 개의 요소 추출하기

from bs4 import BeautifulSoup

html = """
<html><body>
  <ul>
    <li><a href="http://www.naver.com">naver</a></li>
    <li><a href="http://www.daum.net">daum</a></li>
  </ul>
</body></html>
"""

# HTML 분석
soup = BeautifulSoup(html, 'html.parser')

# find_all() 메서드로 추출
links = soup.find_all("a")
print('type: ', type(links))
line()
print(links)

type:  <class 'bs4.element.ResultSet'>
--------------------------------------------------
[<a href="http://www.naver.com">naver</a>, <a href="http://www.daum.net">daum</a>]


In [40]:
# 링크 목록 출력하기
# 태그 객체의 attrs[] 메서드를 활용하여 태그 속성을 추출함.
for a in links:
    # href = a.attrs['href']
    href = a['href']
    text = a.string
    print(text, ">", href)

naver > http://www.naver.com
daum > http://www.daum.net


## urlopen()과 BeautifulSoup 조합하기
- BeautifulSoup의 입력값으로 HTML 문자열을 지정할 수 있지만, open() 함수 또는 urllib.request.openurl() 함수의 리턴값을 지정해도 됨.

In [42]:
from bs4 import BeautifulSoup
import urllib.request as req

url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"

# urlopen()으로 데이터 가져오기
res = req.urlopen(url)
print(type(res))
line()

# BeautifulSoup으로 분석하기
soup = BeautifulSoup(res, "html.parser")

# 원하는 데이터 추출하기
title = soup.find("title").string
wf = soup.find("wf").string
print(title)
line()
print(wf)

<class 'http.client.HTTPResponse'>
--------------------------------------------------
기상청 육상 중기예보
--------------------------------------------------
○ (강수) 8일(토) 오전 제주도, 오후 전국 비, 9일(일) 전국 비 오다가 오전에 차차 그치겠으나, 강원도와 경북권은 오후까지 이어지겠습니다.<br />○ (기온) 이번 예보기간 아침 기온은 16~20도, 낮 기온은 23~31도로 평년(최저기온 16~19도, 최고기온 24~29도)과 비슷하겠습니다.<br />○ (주말전망) 8일(토)~9일(일)은 전국이 대체로 흐리고, 8일(토) 오전 제주도, 오후 전국 비, <br />              9일(일) 오전 전국 비 오다가 오전에 차차 그치겠으나, 강원도와 경북권은 오후까지 이어지겠습니다. 아침 기온은 16~20도, 낮 기온은 23~29도가 되겠습니다.<br />* (강수 변동성) 8일(토)~10일(월)은 우리나라의 북쪽과 남쪽에서 접근하는 기압골 영향 정도에 따라 강수 예보(강수 시점과 지역)가 변경될 가능성이 있겠고, <br />* (강하고 많은 비 가능성) 또한, 8일(토) 오후~9일(일) 오전 사이 충청권남부와 남부지방, 제주도를 중심으로 강하고 많은 비가 내릴 가능성이 있겠으니, <br />                                앞으로 발표되는 최신 예보를 참고하기 바랍니다.


## CSS 선택자 사용하기
- BeautifulSoup은 자바스크립트라이브러리인 jQuery처럼 CSS 선택자를 지정해서 원하는 요소를 추출하는 기능 제공
- 선택자 메서드
    - soup.select_one(선택자): CSS 선택자로 요소 하나를 추출함.
    - soup.select(선택자): CSS 선택자로 요소 여러 개를 리스트로 추출함.
- CSS 선택자 표기
    - #: id
    - .: class
    - 요소이름
    - >: 자식 태그
    - 위 선택자를 연결하여 문자열로 만들고, 이를 활용함.
- CSS 선택자 복사하기
    - 원하는 웹페이지에서 '검사'를 통해 DOM 요소를 확인할 수 있음.
    - 원하는 태그에서 우클릭 > Copy > Copy selector
    - 원하는 태그의 selector 주소를 복사하여 바로 활용하기

In [44]:
# CSS 선택자 사용 연습

from bs4 import BeautifulSoup

# 분석 대상 HTML
html = """
<html><body>
<div id="meigen">
    <h1>위키북스 도서</h1>
    <ul class="items">
        <li>유니티 게임 이펙트 입문</li>
        <li>스위프트로 시작하는 아이폰 앱 개발 교과서</li>
        <li>모던 웹사이트 디자인의 정석</li>
    </ul>
</div>
</body></html>
"""

# HTML 분석하기
soup = BeautifulSoup(html, 'html.parser')

# 필요한 부분을 CSS 쿼리로 추출하기
# 타이틀 부분 추출하기
h1 = soup.select_one("div#meigen > h1").string
print("h1 =", h1)
line()

# 목록 부분 추출하기1
li_list = soup.select("div#meigen > ul.items > li")
for li in li_list:
    print("li =", li.string)
line()

# 목록 부분 추출하기2 - 위 결과와 동일함. 자식 태그가 아닌 손자 태그를 써도 됨.
li_list = soup.select("div#meigen li")
for li in li_list:
    print("li =", li.string)

h1 = 위키북스 도서
--------------------------------------------------
li = 유니티 게임 이펙트 입문
li = 스위프트로 시작하는 아이폰 앱 개발 교과서
li = 모던 웹사이트 디자인의 정석
--------------------------------------------------
li = 유니티 게임 이펙트 입문
li = 스위프트로 시작하는 아이폰 앱 개발 교과서
li = 모던 웹사이트 디자인의 정석


In [71]:
# 네이버 스포츠 뉴스 첫번째 헤드라인 찾기

from bs4 import BeautifulSoup
import urllib.request as req

url = 'https://sports.news.naver.com/index'

resp = req.urlopen(url)
soup = BeautifulSoup(resp, 'html.parser')

css_ = '#content > div > div.today_section.type_no_da > ul > li:nth-child(1) > a > div.text_area > strong'
# css_ = 'strong.sa_text_strong'

heads = soup.select(css_)
for head in heads:
    print(head.string)


PSG, 음바페 폭탄 발언에 대폭발→"품격 떨어져, 출전 막은 적 없는데 사실처럼 말해"


### 연습문제2

- 문제1) 네이버 스포츠 뉴스 페이지에서 모든 헤드라인을 찾고, 헤드라인을 프린트 하세요.
    - url: https://sports.news.naver.com/index

- 문제2) 네이버 금융 원/달러 환율 정보 가져와서 프린트 하세요.
    - url: https://finance.naver.com/marketindex/

### 연습문제3
- 다음 HTML에서 "아보카도" 텍스트를 추출하기 위해 사용할 수 있는 모든 선택자를 찾고, 코드로 구현하세요.
- ```html
    <html>
        <body>
        <div id="main-goods" role="page">
        <h1>과일과 야채</h1>
        <ul id="fr-list">
            <li class="red green" data-lo="ko">사과</li>
            <li class="purple" data-lo="us">포도</li>
            <li class="yellow" data-lo="us">레몬</li>
            <li class="yellow" data-lo="ko">오렌지</li>
        </ul>
        <ul id="ve-list">
            <li class="white green" data-lo="ko">무</li>
            <li class="red green" data-lo="us">파프리카</li>
            <li class="black" data-lo="ko">가지</li>
            <li class="black" data-lo="us">아보카도</li>
            <li class="white" data-lo="cn">연근</li>
        </ul>
        </div>
        </body>
    </html>
```

## 동적 콘텐츠인 경우
- tag, css 등으로 요소를 찾기 어려운 경우 selenium을 사용해야 함.

In [81]:
# 위키문헌에서 윤동주 시인의 시 목록 가져오기
# 이 경우는 css selector를 잘 설정하였음에도 실패함.
# 동적 콘텐츠는 urllib으로는 한계가 있고, selenium을 사용해야 함.

from bs4 import BeautifulSoup
import urllib.request as req

url = 'https://ko.wikipedia.org/wiki/%EC%9C%A4%EB%8F%99%EC%A3%BC'
resp = req.urlopen(url)

soup = BeautifulSoup(resp, 'html.parser')

sel_address = '#mw-content-text > div.mw-content-ltr.mw-parser-output > ul:nth-child(58) > li'
# sel_address = '#mw-content-text > div.mw-content-ltr.mw-parser-output'
# sel_address = '#mw-content-text > div.mw-content-ltr.mw-parser-output .uid'
lists = soup.select_one(sel_address)
print(lists)


None


### Colab 환경에서 selenium 사용

In [86]:
# 환경 세팅

# 이 부분은 처음 한번만 실행하면 됨.
# 코드 수정 - "The reason is that the last Ubuntu update update supports chromium driver just via snap."
# 최근 우분투 업데이트에서 크롬 드라이버 설치를 snap을 이용해서만 하도록 바뀜
# 고로 snap 없이 설치하는 아래 우회 코드로 변경
# 출처 : https://colab.research.google.com/drive/1cbEvuZOhkouYLda3RqiwtbM-o9hxGLyC
# 출처2 : https://stackoverflow.com/questions/75155063/selenium-use-chrome-on-colab-got-unexpectedly-exited

%%shell
# Ubuntu no longer distributes chromium-browser outside of snap
#
# Proposed solution: https://askubuntu.com/questions/1204571/how-to-install-chromium-without-snap

# Add debian buster
cat > /etc/apt/sources.list.d/debian.list <<'EOF'
deb [arch=amd64 signed-by=/usr/share/keyrings/debian-buster.gpg] http://deb.debian.org/debian buster main
deb [arch=amd64 signed-by=/usr/share/keyrings/debian-buster-updates.gpg] http://deb.debian.org/debian buster-updates main
deb [arch=amd64 signed-by=/usr/share/keyrings/debian-security-buster.gpg] http://deb.debian.org/debian-security buster/updates main
EOF

# Add keys
apt-key adv --keyserver keyserver.ubuntu.com --recv-keys DCC9EFBF77E11517
apt-key adv --keyserver keyserver.ubuntu.com --recv-keys 648ACFD622F3D138
apt-key adv --keyserver keyserver.ubuntu.com --recv-keys 112695A0E562B32A

apt-key export 77E11517 | gpg --dearmour -o /usr/share/keyrings/debian-buster.gpg
apt-key export 22F3D138 | gpg --dearmour -o /usr/share/keyrings/debian-buster-updates.gpg
apt-key export E562B32A | gpg --dearmour -o /usr/share/keyrings/debian-security-buster.gpg

# Prefer debian repo for chromium* packages only
# Note the double-blank lines between entries
cat > /etc/apt/preferences.d/chromium.pref << 'EOF'
Package: *
Pin: release a=eoan
Pin-Priority: 500


Package: *
Pin: origin "deb.debian.org"
Pin-Priority: 300


Package: chromium*
Pin: origin "deb.debian.org"
Pin-Priority: 700
EOF

# Install chromium and chromium-driver
apt-get update
apt-get install chromium chromium-driver

# Install selenium
pip install selenium

Executing: /tmp/apt-key-gpghome.XriTWbY18K/gpg.1.sh --keyserver keyserver.ubuntu.com --recv-keys DCC9EFBF77E11517
gpg: key DCC9EFBF77E11517: "Debian Stable Release Key (10/buster) <debian-release@lists.debian.org>" not changed
gpg: Total number processed: 1
gpg:              unchanged: 1
Executing: /tmp/apt-key-gpghome.03d1zCncsG/gpg.1.sh --keyserver keyserver.ubuntu.com --recv-keys 648ACFD622F3D138
gpg: key DC30D7C23CBBABEE: "Debian Archive Automatic Signing Key (10/buster) <ftpmaster@debian.org>" not changed
gpg: Total number processed: 1
gpg:              unchanged: 1
Executing: /tmp/apt-key-gpghome.wvYFse8xSO/gpg.1.sh --keyserver keyserver.ubuntu.com --recv-keys 112695A0E562B32A
gpg: key 4DFAB270CAA96DFA: "Debian Security Archive Automatic Signing Key (10/buster) <ftpmaster@debian.org>" not changed
gpg: Total number processed: 1
gpg:              unchanged: 1
gpg: cannot open '/dev/tty': No such device or address
gpg: [stdout]: write error: Broken pipe
gpg: filter_flush failed on c



In [87]:
# selenium 동작 테스트

import selenium

selenium.__version__

# -*- coding: UTF-8 -*-
import time
from selenium import webdriver
from selenium.webdriver.common.by import By


#Colab에선 웹브라우저 창이 뜨지 않으므로 별도 설정한다.

options = webdriver.ChromeOptions()
options.add_argument('--headless')        # Head-less 설정
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')

driver = webdriver.Chrome(options=options)

#해당 url로 이동
url = "https://www.naver.com/"
driver.get(url)

# 페이지 소스 가져오기 & title 태그 웹 사이트 제목 가져오기
html = driver.page_source
print(html.split("<title>")[1].split("</title>")[0])

driver.quit()

NAVER


In [91]:
# selenium을 이용한 동적 콘텐츠 웹 스크래핑

import selenium
import time
from selenium import webdriver
from selenium.webdriver.common.by import By

#Colab에선 웹브라우저 창이 뜨지 않으므로 별도로 설정

options = webdriver.ChromeOptions()
options.add_argument('--headless')        # Head-less 설정
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')

driver = webdriver.Chrome(options=options)

# 웹 페이지 접속
url = 'https://ko.wikipedia.org/wiki/%EC%9C%A4%EB%8F%99%EC%A3%BC'
driver.get(url)

# 페이지가 완전히 로드될 때까지 기다림
time.sleep(3)

# 페이지의 HTML을 가져옴
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

# 특정 요소 선택 및 출력
elements = soup.select('#mw-content-text > div.mw-content-ltr.mw-parser-output > ul:nth-child(58) > li')
for element in elements:
    print(element.get_text(strip=True)) # 이건 하위 요소에의 text도 모조리 꺼냄.
    # print(element.string) # 해당 요소에의 text만 꺼냄. None이 나온 경우는 하위 요소에 a 태그가 존재함.

# 브라우저 종료
driver.quit()


《새 명동》
《서시(序詩)》
《또 다른 고향》
《별 헤는 밤》
《하늘과 바람과 별과 시》 — 그의 대부분의 작품은 이 유고시집에 실려 있다. 1948년의 초간본은 31편이 수록되었으나, 유족들이 보관하고 있던 시를 추가하여1976년3판에서는 모두 116편이 실리게 되었다.
《사진판 윤동주 자필 시고전집》
《별을 사랑하는 아이들아》
《쉽게 씌어진 시》


### Local 환경에서 selenium 사용

In [92]:
# # 환경 세팅
# # webdriver_manager는 webdriver의 설치와 업데이트를 자동으로 관리할 수 있게 해줌.

# !pip install selenium
# !pip install webdriver_manager

In [93]:
# # selenium을 이용한 동적 콘텐츠 웹 스크래핑

# from selenium import webdriver
# from selenium.webdriver.chrome.service import Service
# from selenium.webdriver.common.by import By
# from selenium.webdriver.support.ui import WebDriverWait
# from selenium.webdriver.support import expected_conditions as EC
# from webdriver_manager.chrome import ChromeDriverManager
# from bs4 import BeautifulSoup

# # WebDriver 설정
# service = Service(ChromeDriverManager().install())
# driver = webdriver.Chrome(service=service)

# # 웹 페이지 접속
# url = 'https://ko.wikipedia.org/wiki/%EC%9C%A4%EB%8F%99%EC%A3%BC'
# driver.get(url)

# # 페이지가 완전히 로드될 때까지 기다림
# WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CSS_SELECTOR, '#mw-content-text > div.mw-content-ltr.mw-parser-output > ul:nth-child(58) > li')))

# # 페이지의 HTML을 가져옴
# html = driver.page_source
# soup = BeautifulSoup(html, 'html.parser')

# # 특정 요소 선택 및 출력
# elements = soup.select('#mw-content-text > div.mw-content-ltr.mw-parser-output > ul:nth-child(58) > li')
# for element in elements:
#     print(element.get_text(strip=True))  # 이건 하위 요소에의 text도 모조리 꺼냄.
#     # print(element.string)  # 해당 요소에의 text만 꺼냄. None이 나온 경우는 하위 요소에 a 태그가 존재함.

# # 브라우저 종료
# driver.quit()


In [None]:
from bs4 import BeautifulSoup

fp = open("fruits-vegetables.html", encoding="utf-8")
soup = BeautifulSoup(fp, "html.parser")

# CSS 선택자로 추출하기
print(soup.select("li")[7].get_text())
print(soup.select_one("#ve-list > li:nth-of-type(4)").string)
print(soup.select("#ve-list > li[data-lo='us']")[1].string)
print(soup.select("#ve-list > li.black")[1].string)

# # find 메서드로 추출하기
cond = {"data-lo":"us", "class":"black"}
print(soup.find("li", cond).string)

# # find 메서드를 연속적으로 사용하기
print(soup.find(id="ve-list").find("li", cond).string)

아보카도
아보카도
아보카도
아보카도
아보카도
아보카도


## 정규표현식으로 요소 추출
- CSS 선택자가 아닌 BeautifulSoup의 기능

In [None]:
from bs4 import BeautifulSoup
import re

html = """
<ul>
  <li><a href="hoge.html">hoge</li>
  <li><a href="https://example.com/fuga">fuga*</li>
  <li><a href="https://example.com/foo">foo*</li>
  <li><a href="http://example.com/aaa">aaa</li>
</ul>
"""

soup = BeautifulSoup(html, "html.parser")

# 정규 표현식으로 href에서 https인 것 추출하기 --- (※2)
li = soup.find_all(href=re.compile(r"^https://"))
for e in li: print(e.attrs['href'])

https://example.com/fuga
https://example.com/foo


# 종합 연습문제1 - toscrape 사이트 웹 스크래이핑 하기

- url: 'http://quotes.toscrape.com/'
- urlopen() 함수를 이용하여 html 가져오기
- beautifulsoup으로 html 파싱하기
- head, body, span 태그 추출하기
- 태그에서 텍스트 추출하기
- div 태그 안에 정의된 특정 클래스를 이용하여 태그 추출하기
- 웹브라우저 개발자도구를 이용하여 selector 주소 복사하기
- span 태그 안에 있는 명언 텍스트 추출하기

# 종합 연습문제2 - 명언과 저자 추출 후 csv 파일에 저장하기
- 명언과 저자를 가져와 csv 파일로 저장
- csv 파일 이름 명시(quotes_authors.csv)
- 저장한 csv 파일 불러와서 dataframe으로 저장(컬럼명 이름은 quote, author) 후, 처음 5줄 출력

# 종합 연습문제3 - 여러 페이지 스크래핑 하기(pagination)
- url: http://quotes.toscrape.com/page/1/
- 위 url을 수정하여 5페이지의 걸쳐 모든 명언과 저자를 추출하기
- 'quotes_authors_pagination.csv'에 명언과 저자 저장하기

# 종합 연습문제4 - 명언 한국어로 번역하기
- googletrans 라이브러리 설치하기
    - 특정 버전을 설치해야 동작함.
    - !pip install googletrans==4.0.0-rc1
- 저장한 'quotes_authors_pagination.csv'를 불러오기
- google-translate 라이브러리를 이용하여 명언을 한국어로 번역하기
- 번역한 내용을 quote_kor 라는 새로운 컬럼에 추가하기
- 데이터프레임을 'quotes_authors_kor.csv' 파일로 저장하기