# 데이터 다운로드 하기
: 인터넷에서 지정된 파일을 내 PC에 저장하기

In [3]:
# library
import urllib.request

# URL과 저장 경로 지정
url = "http://uta.pw/shodou/img/28/214.png"
savename = "./Data/test.png"

# 다운로드 하기
urllib.request.urlretrieve(url, savename) # (주소, 저장경로)
print("저장 되었습니다!")

저장 되었습니다!


In [4]:
# library
import urllib.request

# URL과 저장 경로 지정
url = "http://uta.pw/shodou/img/28/214.png"
savename = "./Data/test1.png"

# 다운로드 하기
mem = urllib.request.urlopen(url).read()

# 파일로 저장하기
with open(savename, "wb") as f: # 이미지파일 wb, 텍스트파일 w
    f.write(mem)
print("저장되었습니다!")

저장되었습니다!


# BeautifulSoup로 Scraping하기
: 간단하게 HTML과 XML에서 정보를 추출

In [6]:
!pip install beautifulsoup4 # 모듈 설치



In [7]:
# 기본 사용법
from bs4 import BeautifulSoup

# HTML Sample
html = """
    <html>
        <body>
            <h1>Header</h1>
            <p> Line 1을 서술 </p>
        </body>
    </html>
"""

# HTML분석
soup = BeautifulSoup(html, 'html.parser')
print(soup)




<html>
<body>
<h1>Header</h1>
<p> Line 1을 서술 </p>
</body>
</html>



In [12]:
# 원하는 부분 추출하기
h1 = soup.html.body.h1
p1 = soup.html.body.p
print(h1)
print(p1)
print("-----------")

# Text만 출력
print("h1=", h1.string)
print("h1=", h1.text)
print("p1=", p1.string)
print("p1=", p1.text)

<h1>Header</h1>
<p> Line 1을 서술 </p>
-----------
h1= Header
h1= Header
p1=  Line 1을 서술 
p1=  Line 1을 서술 


In [14]:
# id로 요소를 추출하기

from bs4 import BeautifulSoup

# HTML Sample
html = """
    <html>
        <body>
            <h1 id="title"> Header </h1>
            <p id="body"> Line 1을 서술 </p>
        </body>
    </html>
"""

# HTML 분석
soup = BeautifulSoup(html, "html.parser")

# 원하는 부분 추출하기(find는 맨 처음 1개의 요소만 가져옴)
title = soup.find(id = "title")
body = soup.find(id = 'body')
print(title)
print(body)

# text만 출력
print("title = ", title.string)
print("body = ", body.string)

<h1 id="title"> Header </h1>
<p id="body"> Line 1을 서술 </p>
title =   Header 
body =   Line 1을 서술 


In [28]:
# 여러 개의 요소 추출하기
from bs4 import BeautifulSoup

# HTML Sample
html = """
    <html>
        <body>
            <ul>
                <li><a href="http://www.naver.com">naver</a></li>
                <li><a href="http://www.daum.net">daum</a></li>
            </ul>
        </body>
    </html>
"""

# HTML 분석
soup = BeautifulSoup(html, 'html.parser')

# 조건에 해당하는 걸 전부 가져오기(단순 text형태)
links = soup.find_all('a')
links

[<a href="http://www.naver.com">naver</a>,
 <a href="http://www.daum.net">daum</a>]

In [30]:
# 원하는 부분 전부 추출하기
for link in links:
    #print(link.string) # 내용 가져오기
    #print(link.attrs['href']) # 링크 가져오기(하이퍼링크 포함)
    
    href = link.attrs['href'] # 링크 가져오기(하이퍼링크 포함)
    text = link.string # 내용 가져오기
    print(text, ">>>>", href)

naver >>>> http://www.naver.com
daum >>>> http://www.daum.net


In [31]:
http://www.weather.go.kr/weather/forecast/mid-term-rss.jsp?stnld=109

SyntaxError: invalid syntax (<ipython-input-31-69b0aa81b11d>, line 1)

In [72]:
# 기상청 자료 활용하기
from bs4 import BeautifulSoup
import urllib.request as req

url = "http://www.weather.go.kr/weather/forecast/mid-term-rss.jsp?stnld=109"

# data 가져오기
res = req.urlopen(url)
soup = BeautifulSoup(res, "html.parser")
# print(soup) - 확인용

# 원하는 데이터 추출하기
title = soup.find('title').string
print(title) # 결과는 기상청 육상 중기예보
wf = soup.find('wf').string # wf 태그에 해당하는 내용을 string 자료형으로 가져오기
#print(wf) # 결과는 bs4.element.CData


# '<br />'을 제외한 리스트 만들기
listwf = wf.split('<br />')
listwf?
print('-'*20)
print(type(listwf))
print(listwf)
print('-'*20)
for i in listwf:
    print(i.strip())

기상청 육상 중기예보
--------------------
<class 'list'>
['○ (강수) 16일(금)~17일(토)에는 전국(수도권은 16일, 강원영동 제외)에 소나기가 오는 곳이 있겠습니다.', '          18일(일) 오전에 제주도에 비가 시작되어 18일(일) 오후에 충청권과 남부지방으로 확대되겠고, 19일(월) 오후에는 전국에 비가 오겠습니다.', '○ (기온) 이번 예보기간 아침 기온은 23~26도, 낮 기온은 29~34도로 어제(12일, 아침최저기온 23~26도, 낮최고기온 30~34도)와 비슷하겠습니다.', '○ (주말전망) 17일(토) 오후에 강원영서와 충청권, 남부지방, 제주도에 소나기가 오는 곳이 있겠습니다.', '              18일(일) 오전에 제주도에 비가 시작되어, 오후에는 충청권과 남부지방으로 확대되겠습니다. 아침 기온은 23~25도, 낮 기온은 29~33도가 되겠습니다.', ' * 이번 예보기간 동안 내륙을 중심으로 낮최고기온이 33도 이상, 아침최저기온이 25도 이상으로 올라 매우 무덥겠으니, 건강관리에 각별히 유의하기 바랍니다.', ' * 또한, 북태평양고기압 위치에 따라서 강수 변동성이 크겠으니, 앞으로 발표되는 기상정보를 참고하기 바랍니다.']
--------------------
○ (강수) 16일(금)~17일(토)에는 전국(수도권은 16일, 강원영동 제외)에 소나기가 오는 곳이 있겠습니다.
18일(일) 오전에 제주도에 비가 시작되어 18일(일) 오후에 충청권과 남부지방으로 확대되겠고, 19일(월) 오후에는 전국에 비가 오겠습니다.
○ (기온) 이번 예보기간 아침 기온은 23~26도, 낮 기온은 29~34도로 어제(12일, 아침최저기온 23~26도, 낮최고기온 30~34도)와 비슷하겠습니다.
○ (주말전망) 17일(토) 오후에 강원영서와 충청권, 남부지방, 제주도에 소나기가 오는 곳이 있겠습니다.
18일(일) 오전에 제주도에 비가 시작되어, 오후에는 충청권과 남부지방으로 확대되겠습니다. 아침 기온

In [77]:
# 데이터 정리하기
list_wfs = list(wf)
except_char = ['<','b','r','/','>']
result = ""

for lwf in list_wfs:
    #print(lwf)
    if lwf not in except_char:
        result += lwf
        
print('-' * 100)
print(result) # 자료형 str
print(type(result))
result.split('○') # 자료형 list

----------------------------------------------------------------------------------------------------
○ (강수) 16일(금)~17일(토)에는 전국(수도권은 16일, 강원영동 제외)에 소나기가 오는 곳이 있겠습니다.           18일(일) 오전에 제주도에 비가 시작되어 18일(일) 오후에 충청권과 남부지방으로 확대되겠고, 19일(월) 오후에는 전국에 비가 오겠습니다. ○ (기온) 이번 예보기간 아침 기온은 23~26도, 낮 기온은 29~34도로 어제(12일, 아침최저기온 23~26도, 낮최고기온 30~34도)와 비슷하겠습니다. ○ (주말전망) 17일(토) 오후에 강원영서와 충청권, 남부지방, 제주도에 소나기가 오는 곳이 있겠습니다.               18일(일) 오전에 제주도에 비가 시작되어, 오후에는 충청권과 남부지방으로 확대되겠습니다. 아침 기온은 23~25도, 낮 기온은 29~33도가 되겠습니다.  * 이번 예보기간 동안 내륙을 중심으로 낮최고기온이 33도 이상, 아침최저기온이 25도 이상으로 올라 매우 무덥겠으니, 건강관리에 각별히 유의하기 바랍니다.  * 또한, 북태평양고기압 위치에 따라서 강수 변동성이 크겠으니, 앞으로 발표되는 기상정보를 참고하기 바랍니다.
<class 'str'>


['',
 ' (강수) 16일(금)~17일(토)에는 전국(수도권은 16일, 강원영동 제외)에 소나기가 오는 곳이 있겠습니다.           18일(일) 오전에 제주도에 비가 시작되어 18일(일) 오후에 충청권과 남부지방으로 확대되겠고, 19일(월) 오후에는 전국에 비가 오겠습니다. ',
 ' (기온) 이번 예보기간 아침 기온은 23~26도, 낮 기온은 29~34도로 어제(12일, 아침최저기온 23~26도, 낮최고기온 30~34도)와 비슷하겠습니다. ',
 ' (주말전망) 17일(토) 오후에 강원영서와 충청권, 남부지방, 제주도에 소나기가 오는 곳이 있겠습니다.               18일(일) 오전에 제주도에 비가 시작되어, 오후에는 충청권과 남부지방으로 확대되겠습니다. 아침 기온은 23~25도, 낮 기온은 29~33도가 되겠습니다.  * 이번 예보기간 동안 내륙을 중심으로 낮최고기온이 33도 이상, 아침최저기온이 25도 이상으로 올라 매우 무덥겠으니, 건강관리에 각별히 유의하기 바랍니다.  * 또한, 북태평양고기압 위치에 따라서 강수 변동성이 크겠으니, 앞으로 발표되는 기상정보를 참고하기 바랍니다.']

# css 선택자 사용하기

soup.select_one() : css 선택자로 요소 하나를 추출.   
soup.select() : css 선택자로 요소 여러 개를 리스트로 추출.

In [79]:
from bs4 import BeautifulSoup

html = """
    <html>
        <body>
            <div id = 'meigen'>
                <h1>위키 북스</h1>
                <ul class="items">
                    <li>유니티 게임 이펙트 입문서</li>
                    <li>스위프트로 시작하는 아이폰 앱 개발 교과서</li>
                    <li>모던 웹사이트 디자인의 정석</li>
                </ul>
            </div>
        </body>
    </html>
"""

soup = BeautifulSoup(html, "html.parser")

# 필요한 부분 css로 추출하기
# 타이틀 부분 추출하기

# id = 'meigen'의 자손 h1을 찾기
h1 = soup.select_one("div#meigen > h1") 

# ---정의---
# id:#
# class:.
# > :자손
# "  " : 후손
print(h1)

<h1>위키 북스</h1>


In [85]:
# 목록 부분 추출하기
li_lists = soup.select("div#meigen > ul.items > li")
print(li_lists)

[<li>유니티 게임 이펙트 입문서</li>, <li>스위프트로 시작하는 아이폰 앱 개발 교과서</li>, <li>모던 웹사이트 디자인의 정석</li>]


In [83]:
# 목록 부분 텍스트만 추출하기
for li in li_lists:
    print(li.string)

유니티 게임 이펙트 입문서
스위프트로 시작하는 아이폰 앱 개발 교과서
모던 웹사이트 디자인의 정석


In [None]:
# 네이버 금융에서 환율 정보 추출하기
# https://finance.naver.com/marketindex/

# 개발자 도구 - Copy Selector
# #exchangeList > li.on > a.head.usd > div > span.value

In [94]:
# 미국 환율 가져오기
from bs4 import BeautifulSoup
import urllib.request as req

# HTML
url = "https://finance.naver.com/marketindex/"
res = req.urlopen(url)

# HTML 분석
soup = BeautifulSoup(res, "html.parser")

# 데이터 추출하기
price = soup.select_one("div.head_info > span.value").string
print("usd /krw : ", price)

usd /krw :  1,143.50


In [117]:
# 미국, 일본, 유럽연합, 중국의 환율
# HTML
url = "https://finance.naver.com/marketindex/"
res = req.urlopen(url)

# HTML 분석
soup = BeautifulSoup(res, "html.parser")

# 데이터 추출하기
price_list = soup.select("div.head_info > span.value")
print(price_list) # list 내역

[<span class="value">1,144.00</span>, <span class="value">1,036.42</span>, <span class="value">1,358.16</span>, <span class="value">176.85</span>, <span class="value">110.2700</span>, <span class="value">1.1867</span>, <span class="value">1.3894</span>, <span class="value">92.2500</span>, <span class="value">74.1</span>, <span class="value">1626.84</span>, <span class="value">1805.5</span>, <span class="value">66549.47</span>]


In [118]:
# 데이터를 text로 추출
for price in price_list:
    print(price.string)

1,144.00
1,036.42
1,358.16
176.85
110.2700
1.1867
1.3894
92.2500
74.1
1626.84
1805.5
66549.47


In [120]:
# 정리
print("미국 : ", price_list[0].string)
print("일본 : ", price_list[1].string)
print("유럽연합 : ", price_list[2].string)
print("중국 : ", price_list[3].string)

미국 :  1,144.00
일본 :  1,036.42
유럽연합 :  1,358.16
중국 :  176.85


In [234]:
from bs4 import BeautifulSoup
import urllib.request as req

# 윤동주 시안 작품 가져오기
url = "https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC"
res = req.urlopen(url)

# HTML 분석
soup = BeautifulSoup(res, "html.parser")

# 작품 가져오기
# 자료형 ResultSet
title1 = soup.select("#mw-content-text > div.mw-parser-output > ul li a[title]")
# '>'가 없으면 그 밑의 모든 요소들을 가지고 옴
print(type(title1))

# 자료형 List
title_list1 = list(title1)
print(type(title_list1))


for i in title1:
    if i.string not in '증보판':
        print(i.string)


<class 'bs4.element.ResultSet'>
<class 'list'>
하늘과 바람과 별과 시
서시
자화상
소년
눈 오는 지도
돌아와 보는 밤
병원
새로운 길
간판 없는 거리
태초의 아침
또 태초의 아침
새벽이 올 때까지
무서운 시간
십자가
바람이 불어
슬픈 족속
눈감고 간다
또 다른 고향
길
별 헤는 밤
흰 그림자
사랑스런 추억
흐르는 거리
쉽게 씌어진 시
봄
참회록
간(肝)
위로
팔복
못자는밤
달같이
고추밭
아우의 인상화
사랑의 전당
이적
비오는 밤
산골물
유언
창
바다
비로봉
산협의 오후
명상
소낙비
한난계
풍경
달밤
장
밤
황혼이 바다가 되어
아침
빨래
꿈은 깨어지고
산림
이런날
산상
양지쪽
닭
가슴 1
가슴 2
비둘기
황혼
남쪽 하늘
창공
거리에서
삶과 죽음
초한대
산울림
해바라기 얼굴
귀뚜라미와 나와
애기의 새벽
햇빛·바람
반디불
둘 다
거짓부리
눈
참새
버선본
편지
봄
무얼 먹구 사나
굴뚝
햇비
빗자루
기왓장 내외
오줌싸개 지도
병아리
조개껍질
겨울
트루게네프의 언덕
달을 쏘다
별똥 떨어진 데
화원에 꽃이 핀다
종시


In [203]:
from bs4 import BeautifulSoup
import urllib.request as req

# 윤동주 시안 작품 가져오기
# #mw-content-text > div.mw-parser-output > ul:nth-child(6) > li > a
url = "https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC"
res = req.urlopen(url)

# HTML 분석
soup = BeautifulSoup(res, "html.parser")

# 작품 가져오기
a_list = soup.select("#mw-content-text > div.mw-parser-output > ul > li a")

for a in a_list:
    if a.string == '증보판':
        continue # 다시 for a in a_list: 로 올라가서 실행
    print("-", a.string)

- 하늘과 바람과 별과 시
- 서시
- 자화상
- 소년
- 눈 오는 지도
- 돌아와 보는 밤
- 병원
- 새로운 길
- 간판 없는 거리
- 태초의 아침
- 또 태초의 아침
- 새벽이 올 때까지
- 무서운 시간
- 십자가
- 바람이 불어
- 슬픈 족속
- 눈감고 간다
- 또 다른 고향
- 길
- 별 헤는 밤
- 흰 그림자
- 사랑스런 추억
- 흐르는 거리
- 쉽게 씌어진 시
- 봄
- 참회록
- 간(肝)
- 위로
- 팔복
- 못자는밤
- 달같이
- 고추밭
- 아우의 인상화
- 사랑의 전당
- 이적
- 비오는 밤
- 산골물
- 유언
- 창
- 바다
- 비로봉
- 산협의 오후
- 명상
- 소낙비
- 한난계
- 풍경
- 달밤
- 장
- 밤
- 황혼이 바다가 되어
- 아침
- 빨래
- 꿈은 깨어지고
- 산림
- 이런날
- 산상
- 양지쪽
- 닭
- 가슴 1
- 가슴 2
- 비둘기
- 황혼
- 남쪽 하늘
- 창공
- 거리에서
- 삶과 죽음
- 초한대
- 산울림
- 해바라기 얼굴
- 귀뚜라미와 나와
- 애기의 새벽
- 햇빛·바람
- 반디불
- 둘 다
- 거짓부리
- 눈
- 참새
- 버선본
- 편지
- 봄
- 무얼 먹구 사나
- 굴뚝
- 햇비
- 빗자루
- 기왓장 내외
- 오줌싸개 지도
- 병아리
- 조개껍질
- 겨울
- 트루게네프의 언덕
- 달을 쏘다
- 별똥 떨어진 데
- 화원에 꽃이 핀다
- 종시


## 다음 영화 연간 순위 가져오기

In [240]:
from bs4 import BeautifulSoup
import urllib.request as req

url = "https://movie.daum.net/ranking/boxoffice/yearly"
res = req.urlopen(url)

# HTML 분석
soup = BeautifulSoup(res, "html.parser")

# 영화 가져오기
# #mainContent > div > div.box_boxoffice > ol > li:nth-child(1) > div > div.thumb_cont > strong > a

movie_list = soup.select("strong a")
#print(movie_list)

num = 1

for movie in movie_list:
    print(num, ":", movie.string)
    num+=1

1 : 남산의 부장들
2 : 다만 악에서 구하소서
3 : 반도
4 : 히트맨
5 : 테넷
6 : 백두산
7 : #살아있다
8 : 강철비2: 정상회담
9 : 담보
10 : 닥터 두리틀
11 : 삼진그룹 영어토익반
12 : 정직한 후보
13 : 도굴
14 : 클로젯
15 : 오케이 마담
16 : 해치지않아
17 : 천문: 하늘에 묻는다
18 : 결백
19 : 1917
20 : 작은 아씨들
21 : 미드웨이
22 : 시동
23 : 지푸라기라도 잡고 싶은 짐승들
24 : 미스터 주: 사라진 VIP
25 : 인비저블맨
26 : 나쁜 녀석들: 포에버
27 : 국제수사
28 : 침입자
29 : 스타워즈: 라이즈 오브 스카이워커
30 : 스파이 지니어스 
31 : 이웃사촌
32 : 온워드: 단 하루의 기적
33 : 소리도 없이
34 : 버즈 오브 프레이(할리 퀸의 황홀한 해방)
35 : 원더 우먼 1984
36 : 겨울왕국 2
37 : 오! 문희
38 : 그린랜드
39 : 위대한 쇼맨
40 : 런
41 : 뮬란
42 : 내가 죽던 날
43 : 기생충
44 : 신비아파트 극장판 하늘도깨비 대 요르문간드
45 : 프리즌 이스케이프
46 : 검객
47 : 조제
48 : 사라진 시간
49 : 밤쉘: 세상을 바꾼 폭탄선언
50 : 알라딘


## 많이 본 뉴스 가져오기




In [1]:
# 다음 IT News 많이 본 뉴스  "링크 : 제목" 리스트 가져오기
from bs4 import BeautifulSoup
import urllib.request as req
#https://news.daum.net/ranking/popular
url = "https://news.daum.net/ranking/popular"
# data 가져오기
res = req.urlopen(url)
soup = BeautifulSoup(res, "html.parser")
title = soup.select('#mArticle > div.rank_news > ul.list_news2  div.cont_thumb > strong > a')
titleText = []
j=0
for i in title:
    titleText.append(i.get_text())
    print(i['href'],":", titleText[j])
    j += 1

https://v.daum.net/v/20210714200610665 : [제보는 MBC] 약국 1시간 늦게 열었다 병원 원장에 무릎 꿇은 약사
https://v.daum.net/v/20210714193602153 : 최다확진 날 반성은커녕..서울시 부시장의 '대통령 탓'
https://v.daum.net/v/20210714171800838 : "일본 망할 거다" "오지 마라".. 도쿄 시민들 분노 [박철현의 도쿄스캔들]
https://v.daum.net/v/20210714175305101 : "국민의힘 지지잔데요"..전라고 학생, 대선배 최강욱에 당돌 질문
https://v.daum.net/v/20210714175504157 : 전국민에 준다는 재난지원금..나랏빚 내서 부자들에게 퍼줄 판
https://v.daum.net/v/20210714174210737 : 청년 月 10만원씩 3년 360만원 저금하고 1440만원 받는다
https://v.daum.net/v/20210714195004389 : "곧 2000명대" 우려 현실화?..수도권 새 감염원 속출
https://v.daum.net/v/20210714193640164 : 야산서 숨진 고교생 학교폭력 정황..가해 학생 입건
https://v.daum.net/v/20210714181318691 : '1615명 확진' 정부 예측보다 빠르다..의료계는 "1만명 각오해야"
https://v.daum.net/v/20210714194521313 : [사건팀장] "내가 노는 게 아니잖아요"..직업 두고 다투다 어머니 살해
https://v.daum.net/v/20210714195515459 : 50대 후반 예약 오늘 밤 재개..50대 초반은 연령별 분산
https://v.daum.net/v/20210714164607753 : 모기에 물리지 않는 옷 개발..굶주린 200마리 100% 차단
https://v.daum.net/v/20210714173520487 : 40대 이하 화이자 접종..'광클대란' 백신도 예약 5부제
