# 크롤링(Craling)과 스크래이핑(Scraping)

## 데이터 다운로드 -- 01
: 인터넷을 통해 지정된 파일을 바로 내 PC에 저장하기

In [1]:
# 모듈 불러오기
import urllib.request

In [2]:
# URL과 저장경로 지정하기 
url = "http://uta.pw/shodou/img/28/214.png"
savename = "../Data/test.png"

#download 하기
urllib.request.urlretrieve(url, savename) #url에서 savename이름으로 저장
print("저장되었습니다.")

저장되었습니다.


### 데이터 다운로드 하기 -- 02
: 인터넷에서 지정된 파일을 메모리에 올리고 저장하기

In [3]:
import urllib.request
# URL과 저장경로 지정하기 
url = "http://uta.pw/shodou/img/28/214.png" 
savename = "../Data/test.png"
# 이 사이에 원하는 행위 지정하면됨 
# 나중에는 주소만 가지고 리스트를 만들고>for문을 이용해 하나씩 크롤링 
#download 하기
mem = urllib.request.urlopen(url).read()
#파일로 저장하기
with open(savename, "wb") as f:
    f.write(mem)
print("저장되었습니다.")

저장되었습니다.


In [4]:
## Web에서 데이터 추출하기
import urllib.request

url = "http://api.aoikujira.com/ip/ini"
res = urllib.request.urlopen(url)
data = res.read()

text = data.decode('utf-8')
print(text)

[ip]
API_URI=http://api.aoikujira.com/ip/get.php
REMOTE_ADDR=218.48.215.228
REMOTE_HOST=218.48.215.228
REMOTE_PORT=41370
HTTP_HOST=api.aoikujira.com
HTTP_USER_AGENT=Python-urllib/3.8
HTTP_ACCEPT_LANGUAGE=
HTTP_ACCEPT_CHARSET=
SERVER_PORT=80
FORMAT=ini




# 매개 변수를 추가해 요청을 전송하는 방법

기상청 PSS -> http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp <br>
URL 뒤에 매개변수를 변경하여 지역별로 일기 정보를 가져올 수 있음.<br>
전국 : 108, 서울/경기도 : 109, 강원도 : 105, 제주특별자치도 : 184<br>
EX) 서울/경기도 날씨 정보 : http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=109

In [5]:
import urllib.request
import urllib.parse

API = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"

# 매개변수를 URL 인코딩
values = {'stnId':'109'}
params = urllib.parse.urlencode(values)

# 요청 전용 URL 생성
url = API + '?' + params
print('url=',url)

data = urllib.request.urlopen(url).read()
text = data.decode('utf-8')
print(text)

url= http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=109
<?xml version="1.0" encoding="utf-8" ?>
<rss version="2.0">
<channel>
<title>기상청 육상 중기예보</title>
<link>http://www.kma.go.kr/weather/forecast/mid-term_02.jsp</link>
<description>기상청 날씨 웹서비스</description>
<language>ko</language>
<generator>기상청</generator>
<pubDate>2020년 08월 18일 (화)요일 06:00</pubDate>
 <item>
<author>기상청</author>
<category>육상중기예보</category>
<title>서울,경기도 육상 중기예보 - 2020년 08월 18일 (화)요일 06:00 발표</title>
<link>http://www.kma.go.kr/weather/forecast/mid-term_02.jsp</link>
<guid>http://www.kma.go.kr/weather/forecast/mid-term_02.jsp</guid>
<description>
	<header>
		<title>서울,경기도 육상중기예보</title>
		<tm>202008180600</tm>
		<wf><![CDATA[○ (강수) 24일(월)~25일(화)은 비가 내리겠습니다.<br />○ (기온) 이번 예보기간의 낮 기온은 28~32도로 어제(17일, 30~33도)와 비슷하거나 조금 낮겠습니다. <br />○ (주말전망) 22일(토)은 대체로 흐리고, 23일(일)은 구름 많겠습니다.<br />              아침 기온은 22~24도, 낮 기온은 29~32도가 되겠습니다.<br />○ (해상) 서해중부해상의 물결은 0.5~2.0m로 일겠습니다.]]></wf>
	</header

---
## BeautifulSoup로 Scraping 하기
BeautifulSoup: 간단하게 HTML과 XML에서 정보를 추출<br>
BeautifulSoup 설치 : pip install beautifulsoup4

In [12]:
# 기본 사용법
from bs4 import BeautifulSoup

# HTML Sample
html = """
        <html>
            <header>
            </header>
            <body>
                <h1>Header</h1>
                <p> Line 1을 서술</p>
            </body>
        </html>
        """
# HTML을 분석
soup = BeautifulSoup(html, 'html.parser')

# 원하는 부분 추출하기
h1 = soup.html.body.h1
p1 = soup.html.body.p

# 출력
print(h1)
print(p1)

# text만 출력
print('h1=', h1.string.strip())
print('p1=', p1.string.strip())

<h1>Header</h1>
<p> Line 1을 서술</p>
h1= Header
p1= Line 1을 서술


In [14]:
# id로 요소를 추출하기

from bs4 import BeautifulSoup

# HTML Sample
html = """
        <html>
            <header>
            </header>
            <body>
                <h1 id="title">    Header   </h1>
                <p id="body">   Line 1을 서술   </p>
            </body>
        </html>
        """
# HTML을 분석
soup = BeautifulSoup(html, 'html.parser')

# 원하는 부분 추출하기
title = soup.find(id='title')
body = soup.find(id='body')

# 출력
print(title)
print(body)

# text만 출력
print('title=', title.string.strip())
print('body=', body.string.strip())

<h1 id="title">    Header   </h1>
<p id="body">   Line 1을 서술   </p>
title= Header
body= Line 1을 서술


In [19]:
# 여러개의 요소를 추출하기

from bs4 import BeautifulSoup

# HTML Sample
html = """
        <html>
            <header>
            </header>
            <body>
               <li><a href='http://www.naver.com'>naver</a></li>
               <li><a href='http://www.daum.com'>daum</a></li>
            </body>
        </html>
        """
# HTML을 분석
soup = BeautifulSoup(html, 'html.parser')

# 원하는 부분 추출하기
links = soup.find_all('a')

# 출력
print(links) # 리스트로 불러옴

# text만 출력
for link in links: # 리스트로 불러오기 때문에 출력은 하나씩 해줘야함
    href = link.attrs['href']
    text = link.string
    print(text, ">>>", href)

[<a href="http://www.naver.com">naver</a>, <a href="http://www.daum.com">daum</a>]
naver >>> http://www.naver.com
daum >>> http://www.daum.com


In [56]:
# 기상청 자료 활용하기
from bs4 import BeautifulSoup
import urllib.request as req

url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=109"

# data 가져오기
res = req.urlopen(url)

# BeautifulSoup으로 분석하기
soup = BeautifulSoup(res, 'html.parser')

# 원하는 데이터 출력하기
title =  soup.find_all('title')
wf = soup.find('wf')


#출력
print(title[2].string)
print(wf.string.replace('<br />',''))

서울,경기도 육상중기예보
○ (강수) 24일(월)~25일(화)은 비가 내리겠습니다.○ (기온) 이번 예보기간의 낮 기온은 28~32도로 어제(17일, 30~33도)와 비슷하거나 조금 낮겠습니다. ○ (주말전망) 22일(토)은 대체로 흐리고, 23일(일)은 구름 많겠습니다.              아침 기온은 22~24도, 낮 기온은 29~32도가 되겠습니다.○ (해상) 서해중부해상의 물결은 0.5~2.0m로 일겠습니다.


## CSS 선택자 사용하기
- soup.select_one() : css선택자로 요소 하나를 추출.
- soup.select() : css선택자로 요소 여러개를 추출.


In [68]:
# 여러개의 요소를 추출하기

from bs4 import BeautifulSoup
# css에서 id 값은 중복될 수 없음
# class 이름은 중복가능
# HTML Sample
html = """
        <html>
            <header>
            </header>
            <body>
               <div id = 'meigen'> 
                   <h1>위키 북스</h1>
                   <ul class = 'items'>
                       <li>유니티 게임 이펙트 입문서</li>
                       <li>스위프트로 시작하는 아이폰 앱 개발 교과서</li>
                       <li>모던 웹사이트 디자인의 정석</li>
                   </ul>
                </div>
            </body>
        </html>
        """
# HTML을 분석
soup = BeautifulSoup(html, 'html.parser')

# 필요한 부분 css로 추출하기

# 타이틀 부분 추출하기
h1 = soup.select_one("div#meigen > h1").string # id:#, class:., tag:tag명, > : 자손, ' ': 후손

# 출력
print(h1)

# 목록 출력하기
lis = soup.select("div#meigen > ul.items > li")
for no, li in enumerate(lis): # 리스트로 불러오기 때문에 출력은 하나씩 해줘야함
    print(no+1, ":", li.string)

위키 북스
1 : 유니티 게임 이펙트 입문서
2 : 스위프트로 시작하는 아이폰 앱 개발 교과서
3 : 모던 웹사이트 디자인의 정석


---
## 네이버 금융에서 환율 정보 추출하기
네이버 금융 시장 지표 페이지 : https://finance.naver.com/marketindex/

<span class="value">1,185.10</span>

#exchangeList > li.on > a.head.usd > div > span.value


In [74]:
# 미국 환율 가져오기
from bs4 import BeautifulSoup
import urllib.request as req

# HTML 가져오기
url = "https://finance.naver.com/marketindex/"
res = req.urlopen(url)

# HTML 분석하기
soup = BeautifulSoup(res, 'html.parser')

# 데이터 추출하기
price = soup.select_one("#exchangeList > li.on > a.head.usd > div > span.value").string
print("usd/krw :",price)

usd/krw : 1,185.10


In [37]:
# 미국, 일본, 유럽연합, 중국의 환율 가져오기
from bs4 import BeautifulSoup
import urllib.request as req

# HTML 가져오기
url = "https://finance.naver.com/marketindex/"
res = req.urlopen(url)

# HTML 분석하기
soup = BeautifulSoup(res, 'html.parser')

# 데이터 추출하기
#exchangeList > li.on > a.head.jpy > h3
prices = soup.select("#exchangeList > li > a.head > div > span.value")
nations = soup.select("#exchangeList > li > a.head > h3")
nationlist = zip(nations, prices)
for nation, price in nationlist:
    print(nation.string,':',price.string)


미국 USD : 1,184.90
일본 JPY(100엔) : 1,121.69
유럽연합 EUR : 1,409.08
중국 CNY : 171.12


In [80]:
## 윤동주 시인 작품 가져오기
from bs4 import BeautifulSoup
import urllib.request as req

# HTML 가져오기
url = "https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC"
res = req.urlopen(url)

# HTML 분석하기
soup = BeautifulSoup(res, 'html.parser')

#데이터 추출하기
foams = soup.select("#mw-content-text li a")
for foam in foams:
    if foam.string == '증보판':
        continue
    else:
        print(foam.string)

하늘과 바람과 별과 시
서시
자화상
소년
눈 오는 지도
돌아와 보는 밤
병원
새로운 길
간판 없는 거리
태초의 아침
또 태초의 아침
새벽이 올 때까지
무서운 시간
십자가
바람이 불어
슬픈 족속
눈감고 간다
또 다른 고향
길
별 헤는 밤
흰 그림자
사랑스런 추억
흐르는 거리
쉽게 씌어진 시
봄
참회록
간(肝)
위로
팔복
못자는밤
달같이
고추밭
아우의 인상화
사랑의 전당
이적
비오는 밤
산골물
유언
창
바다
비로봉
산협의 오후
명상
소낙비
한난계
풍경
달밤
장
밤
황혼이 바다가 되어
아침
빨래
꿈은 깨어지고
산림
이런날
산상
양지쪽
닭
가슴 1
가슴 2
비둘기
황혼
남쪽 하늘
창공
거리에서
삶과 죽음
초한대
산울림
해바라기 얼굴
귀뚜라미와 나와
애기의 새벽
햇빛·바람
반디불
둘 다
거짓부리
눈
참새
버선본
편지
봄
무얼 먹구 사나
굴뚝
햇비
빗자루
기왓장 내외
오줌싸개 지도
병아리
조개껍질
겨울
트루게네프의 언덕
달을 쏘다
별똥 떨어진 데
화원에 꽃이 핀다
종시


In [26]:
### 다음영화 연간 순위 가져오기

from bs4 import BeautifulSoup
import urllib.request as req

# HTML 가져오기
url = "https://movie.daum.net/boxoffice/yearly?year=2020"
res = req.urlopen(url)

# HTML 분석하기
soup = BeautifulSoup(res, 'html.parser')

#데이터 추출하기
movies = soup.select("strong > a.link_g")

for movie in movies:
    print(movie.string)
    print()


인기 영화

인기 영화인

남산의 부장들

반도

다만 악에서 구하소서

히트맨

백두산

#살아있다

강철비2: 정상회담

닥터 두리틀

정직한 후보

클로젯

해치지않아

천문: 하늘에 묻는다

오케이 마담

1917

결백

작은 아씨들

미드웨이

시동

지푸라기라도 잡고 싶은 짐승들

미스터 주: 사라진 VIP

인비저블맨

나쁜 녀석들: 포에버

침입자

스타워즈: 라이즈 오브 스카이워커

스파이 지니어스 

온워드: 단 하루의 기적

버즈 오브 프레이(할리 퀸의 황홀한 해방)

겨울왕국 2

위대한 쇼맨

기생충

신비아파트 극장판 하늘도깨비 대 요르문간드

프리즌 이스케이프

사라진 시간

밤쉘: 세상을 바꾼 폭탄선언

알라딘

포드 V 페라리

인셉션

트롤: 월드 투어

타오르는 여인의 초상

나이브스 아웃

라라랜드

다크 워터스 

애니멀 크래커

수퍼 소닉

조조 래빗

언더워터

저 산 너머

패왕별희 디 오리지널

21 브릿지: 테러 셧다운 

주디



In [90]:
### 다음영화 연간 순위 가져오기

from bs4 import BeautifulSoup
import urllib.request as req

# HTML 가져오기
url = "https://news.daum.net/digital"
res = req.urlopen(url)

# HTML 분석하기
soup = BeautifulSoup(res, 'html.parser')

#데이터 추출하기
#cSub > div > div.section_cate.section_issue > div.box_cate.box_issue > div:nth-child(4) > ul > li:nth-child(1) > a
newses = soup.select("div.box_cate.box_issue a.link_txt")

for news in newses:
    href = news.attrs['href']
    text = news.string
    print(href, ':', text)
    
        


https://v.daum.net/v/20200818153642626 : 커지는 '앱수수료' 갈등..애플, 에픽게임즈 개발자 계정도 해지
https://v.daum.net/v/20200818073725890 : 뇌관 터진 애플 '앱 통행세' 갈등..에픽게임즈에 개발자계정 차단 통보
https://v.daum.net/v/20200817070024010 : 5G 대세 '스트리밍 게임' 시동거는데.."아이폰은 안돼" 버티는 애플
https://v.daum.net/v/20200818150907360 : 미토콘드리아 공격하는 세균의 '면역 회피' 전략
https://v.daum.net/v/20200818150857340 : 지구 해양 절반 이상 기후변화 영향..수십년 안에 80%까지 ↑
https://v.daum.net/v/20200818150740283 : 최초 외계 성간천체 '오우무아무아'..수소 얼음 구성 가설 뒤집혔다
https://v.daum.net/v/20200818112623662 : 유엔유럽경제위원회, 자율주행 레벨 3 국제 규정 최초로 채택
https://v.daum.net/v/20200817160123257 : 자율차 임시운행 허가제 연내 개정..무인 셔틀·택배 등 다양성 반영
https://v.daum.net/v/20200814152515643 : 미 미시간주 '자율주행차 전용차로' 생긴다
