# 크롤링 
: 전세계를 돌면서 정보를 축적 (주기적으로 돌림)
# 스크래핑 
: 스크랩하는 것이라고 생각 (필요한 것만 따로 정리)

## 데이터 다운로드 하기
: 인터넷에서 지정된 파일을 내 PC에 저장하기

In [1]:
# 필요한 모듈 가져오기
# library
# 요청하는 것
import urllib.request

# URL(어디서 가져올거니)과 저장경로(어디에 저장할거니) 지정
url = "http://uta.pw/shodou/img/28/214.png"
savename = "./Data/test.png"

# 다운로드 하기 (이제 실행) : 이미지 뿐만 아니라 동영상도 이런식으로 가져올 수 있음
urllib.request.urlretrieve(url, savename)
print("저장되었습니다.")

저장되었습니다.


In [2]:
# 필요한 모듈 가져오기
# library
# 요청하는 것
import urllib.request

# URL(어디서 가져올거니)과 저장경로(어디에 저장할거니) 지정
url = "http://uta.pw/shodou/img/28/214.png"
savename = "./Data/test1.png"

# 다운로드 하기 (또 다른 ver.)
# 파일을 바로 다운로드 하지 않고 메모리로 가져와서 파일로 저장할 것임
mem = urllib.request.urlopen(url).read()

# 파일로 저장하기 (그림은 binary file : w가 아닌 wb로 작성)
with open(savename, "wb") as f:
    f.write(mem)
print("저장 되었습니다.")

저장 되었습니다.


# BeautifulSoup로 Scraping하기
: 홈페이지에 있는 내용들 가져와서 태그 형태로 검색하기 쉬워서 많이 사용   
: 간단하게 HTML과 XML에서 정보를 추출할 때 사용

In [3]:
# 아나콘다에 자동으로 설치되어있지 않기에 수동으로 설치해줘야 함
!pip install beautifulsoup4



In [4]:
# ! 쓰면 외장 명령어 사용 가능!
!ls

01.Preview.ipynb                    09.for문.ipynb
02.변수와 자료형.ipynb              10.함수.ipynb
03.리스트.ipynb                     11.시뮬레이션.ipynb
04.튜플.ipynb                       12.파일 입출력.ipynb
05.Dictionary.ipynb                 13.분석 모듈 Preview.ipynb
06.집합.ipynb                       14. 크롤링과 스크래핑.ipynb
07.if문.ipynb                       [34mData[m[m
08.while문.ipynb                    README.md


In [5]:
# 기본 사용법
from bs4 import BeautifulSoup

# HTML Sample (데이터를 가져왔다는 전제하에서 사용 : 이 부분은 연습해보는 것)
html1 = """
        <html>
            <body>
                <h1>Header</h1>
                <p> Line 1을 서술 </p>
            </body>
        </html>
"""

# HTML 분석 (soup 으로 html1 을 파싱하는 것)
# BeautifulSoup이 없으면 한 줄 한 줄 어제 배운 것처럼 한 줄씩 읽어와야 함
soup = BeautifulSoup(html1, 'html.parser')
print(soup)


<html>
<body>
<h1>Header</h1>
<p> Line 1을 서술 </p>
</body>
</html>



In [6]:
# 원하는 부분 추출하기
# 태그 이용해 Header라는 글자 가져오기
h1 = soup.html.body.h1
p1 = soup.html.body.p
print(h1)
print(p1)
print("---------")

# Text만 출력
# h1.string : h1중에 string값만 가져오겠다!
print("h1=", h1.string)
print("h1=", h1.text)
print("p1=", p1.string)
print("p1=", p1.text)

<h1>Header</h1>
<p> Line 1을 서술 </p>
---------
h1= Header
h1= Header
p1=  Line 1을 서술 
p1=  Line 1을 서술 


In [7]:
# id로 요소를 추출하기
from bs4 import BeautifulSoup

# HTML Sample
html2 = """
        <html>
            <body>
                <h1 id="title">Header</h1>
                <p id="body"> Line 1을 서술 </p>
            </body>
        </html>
"""

# HTML 분석
soup = BeautifulSoup(html2, 'html.parser')

# 원하는 부분 추출하기
# soup.find(id = 'title') : id가 title인 것을 찾아와리
title = soup.find(id = 'title')
body = soup.find(id = 'body')
print(title)
print(body)
print("---------")

# text만 출력
print("title =", title.string)
print("body =", body.string)

<h1 id="title">Header</h1>
<p id="body"> Line 1을 서술 </p>
---------
title = Header
body =  Line 1을 서술 


In [8]:
# 여러 개의 요소 추출하기
from bs4 import BeautifulSoup

# HTML Sample
html3 = """
        <html>
            <body>
                <ul>
                    <li><a href="http://www.naver.com">naver</a></li>
                    <li><a href="http://www.daum.net">daum</a></li>
                </ul>
            </body>
        </html>
"""

# HTML 분석
soup = BeautifulSoup(html3, 'html.parser')

# a태그에 있는 건 다 가져오겠다!
# find는 제일 처음에 있는 것만 가져옴!
soup.find('a')

<a href="http://www.naver.com">naver</a>

In [9]:
# find_all은 다 가져옴! -> list로 가져옴
soup.find_all('a')

[<a href="http://www.naver.com">naver</a>,
 <a href="http://www.daum.net">daum</a>]

In [15]:
links = soup.find_all('a')

# 링크 목록 출력
for link in links:
    # 태그 다 지우고 순수한 글자값만 가져옴
    print(link.string)

print("---------")

# 이름 필요 없고 링크만 필요한 경우
for link in links:
    # 아나콘다는 웹이기 때문에 클릭하면 바로 사이트로 이동함!
    print(link.attrs['href'])
    
print("---------")

# 정리
for link in links:
    href = link.attrs['href']
    text = link.string
    print(text, ">>>", href)

naver
daum
---------
http://www.naver.com
http://www.daum.net
---------
naver >>> http://www.naver.com
daum >>> http://www.daum.net


In [24]:
# 기상청 자료 활용하기 (최근 날씨 데이터 가져오기_
# xml도 BeautifulSoup을 통해 가능! 아래 사이트 xml임
# http://www.weather.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=109

from bs4 import BeautifulSoup
import urllib.request as req

url = "http://www.weather.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=109"

# 데이터 가져오기
res = req.urlopen(url)

# xml이지만 html.parser 사용 가능!
soup = BeautifulSoup(res, "html.parser")
# print(soup)

# <wf> : 요약정보 데이터 와 <title> 추출하기
# 바로 find 뒤에 string 해도 괜찮음!
title = soup.find('title').string
print(title)
wf = soup.find('wf').string
print(wf)
# bs4.element.CData : Character
type(wf)

기상청 육상 중기예보
○ (강수) 16일(금) 오후에는 소나기가 내리는 곳이 있겠고, 19일(월) 오후에는 비가 내리겠습니다.<br />○ (기온) 이번 예보기간 아침최저기온은 23~26도, 낮최고기온은 29~34도로 어제(12일, 아침최저기온 20~24도, 낮최고기온 30~33도)와 비슷하거나 조금 높겠습니다.<br />○ (해상) 서해중부해상의 물결은 0.5~2.0m로 일겠습니다.<br />○ (주말전망) 17일(토)~18일(일)은 구름많겠고, 아침 기온은 23~24도, 낮 기온은 29~33도가 되겠습니다<br /><br />* 이번 예보기간 동안 내륙에는 낮최고기온이 33도 내외, 아침최저기온이 25도 내외로 오르는 곳이 많아 매우 무덥겠으니, 건강관리에 각별히 유의하기 바랍니다.<br />* 또한, 북태평양고기압 위치에 따른 강수 변동성이 크겠으니, 앞으로 발표되는 기상정보를 참고하기 바랍니다.


bs4.element.CData

In [31]:
title = soup.find('title').string
wf = soup.find('wf').string

print(title)
print()

for i in wf.split('<br />'):
    print(i)

기상청 육상 중기예보

○ (강수) 16일(금) 오후에는 소나기가 내리는 곳이 있겠고, 19일(월) 오후에는 비가 내리겠습니다.
○ (기온) 이번 예보기간 아침최저기온은 23~26도, 낮최고기온은 29~34도로 어제(12일, 아침최저기온 20~24도, 낮최고기온 30~33도)와 비슷하거나 조금 높겠습니다.
○ (해상) 서해중부해상의 물결은 0.5~2.0m로 일겠습니다.
○ (주말전망) 17일(토)~18일(일)은 구름많겠고, 아침 기온은 23~24도, 낮 기온은 29~33도가 되겠습니다

* 이번 예보기간 동안 내륙에는 낮최고기온이 33도 내외, 아침최저기온이 25도 내외로 오르는 곳이 많아 매우 무덥겠으니, 건강관리에 각별히 유의하기 바랍니다.
* 또한, 북태평양고기압 위치에 따른 강수 변동성이 크겠으니, 앞으로 발표되는 기상정보를 참고하기 바랍니다.


In [32]:
type(wf.split('<br />'))

list