# 크롤링 
: 전세계를 돌면서 정보를 축적 (주기적으로 돌림)
# 스크래핑 
: 스크랩하는 것이라고 생각 (필요한 것만 따로 정리)

## 데이터 다운로드 하기
: 인터넷에서 지정된 파일을 내 PC에 저장하기

In [1]:
# 필요한 모듈 가져오기
# library
# 요청하는 것
import urllib.request

# URL(어디서 가져올거니)과 저장경로(어디에 저장할거니) 지정
url = "http://uta.pw/shodou/img/28/214.png"
savename = "./Data/test.png"

# 다운로드 하기 (이제 실행) : 이미지 뿐만 아니라 동영상도 이런식으로 가져올 수 있음
urllib.request.urlretrieve(url, savename)
print("저장되었습니다.")

저장되었습니다.


In [2]:
# 필요한 모듈 가져오기
# library
# 요청하는 것
import urllib.request

# URL(어디서 가져올거니)과 저장경로(어디에 저장할거니) 지정
url = "http://uta.pw/shodou/img/28/214.png"
savename = "./Data/test1.png"

# 다운로드 하기 (또 다른 ver.)
# 파일을 바로 다운로드 하지 않고 메모리로 가져와서 파일로 저장할 것임
mem = urllib.request.urlopen(url).read()

# 파일로 저장하기 (그림은 binary file : w가 아닌 wb로 작성)
with open(savename, "wb") as f:
    f.write(mem)
print("저장 되었습니다.")

저장 되었습니다.


# BeautifulSoup로 Scraping하기
: 홈페이지에 있는 내용들 가져와서 태그 형태로 검색하기 쉬워서 많이 사용   
: 간단하게 HTML과 XML에서 정보를 추출할 때 사용

In [3]:
# 아나콘다에 자동으로 설치되어있지 않기에 수동으로 설치해줘야 함
!pip install beautifulsoup4



In [4]:
# ! 쓰면 외장 명령어 사용 가능!
!ls

01.Preview.ipynb                    09.for문.ipynb
02.변수와 자료형.ipynb              10.함수.ipynb
03.리스트.ipynb                     11.시뮬레이션.ipynb
04.튜플.ipynb                       12.파일 입출력.ipynb
05.Dictionary.ipynb                 13.분석 모듈 Preview.ipynb
06.집합.ipynb                       14. 크롤링과 스크래핑.ipynb
07.if문.ipynb                       [34mData[m[m
08.while문.ipynb                    README.md


In [5]:
# 기본 사용법
from bs4 import BeautifulSoup

# HTML Sample (데이터를 가져왔다는 전제하에서 사용 : 이 부분은 연습해보는 것)
html1 = """
        <html>
            <body>
                <h1>Header</h1>
                <p> Line 1을 서술 </p>
            </body>
        </html>
"""

# HTML 분석 (soup 으로 html1 을 파싱하는 것)
# BeautifulSoup이 없으면 한 줄 한 줄 어제 배운 것처럼 한 줄씩 읽어와야 함
soup = BeautifulSoup(html1, 'html.parser')
print(soup)


<html>
<body>
<h1>Header</h1>
<p> Line 1을 서술 </p>
</body>
</html>



In [6]:
# 원하는 부분 추출하기
# 태그 이용해 Header라는 글자 가져오기
h1 = soup.html.body.h1
p1 = soup.html.body.p
print(h1)
print(p1)
print("---------")

# Text만 출력
# h1.string : h1중에 string값만 가져오겠다!
print("h1=", h1.string)
print("h1=", h1.text)
print("p1=", p1.string)
print("p1=", p1.text)

<h1>Header</h1>
<p> Line 1을 서술 </p>
---------
h1= Header
h1= Header
p1=  Line 1을 서술 
p1=  Line 1을 서술 


In [7]:
# id로 요소를 추출하기
from bs4 import BeautifulSoup

# HTML Sample
html2 = """
        <html>
            <body>
                <h1 id="title">Header</h1>
                <p id="body"> Line 1을 서술 </p>
            </body>
        </html>
"""

# HTML 분석
soup = BeautifulSoup(html2, 'html.parser')

# 원하는 부분 추출하기
# soup.find(id = 'title') : id가 title인 것을 찾아와리
title = soup.find(id = 'title')
body = soup.find(id = 'body')
print(title)
print(body)
print("---------")

# text만 출력
print("title =", title.string)
print("body =", body.string)

<h1 id="title">Header</h1>
<p id="body"> Line 1을 서술 </p>
---------
title = Header
body =  Line 1을 서술 


In [8]:
# 여러 개의 요소 추출하기
from bs4 import BeautifulSoup

# HTML Sample
html3 = """
        <html>
            <body>
                <ul>
                    <li><a href="http://www.naver.com">naver</a></li>
                    <li><a href="http://www.daum.net">daum</a></li>
                </ul>
            </body>
        </html>
"""

# HTML 분석
soup = BeautifulSoup(html3, 'html.parser')

# a태그에 있는 건 다 가져오겠다!
# find는 제일 처음에 있는 것만 가져옴!
soup.find('a')

<a href="http://www.naver.com">naver</a>

In [9]:
# find_all은 다 가져옴! -> list로 가져옴
soup.find_all('a')

[<a href="http://www.naver.com">naver</a>,
 <a href="http://www.daum.net">daum</a>]

In [15]:
links = soup.find_all('a')

# 링크 목록 출력
for link in links:
    # 태그 다 지우고 순수한 글자값만 가져옴
    print(link.string)

print("---------")

# 이름 필요 없고 링크만 필요한 경우
for link in links:
    # 아나콘다는 웹이기 때문에 클릭하면 바로 사이트로 이동함!
    print(link.attrs['href'])
    
print("---------")

# 정리
for link in links:
    href = link.attrs['href']
    text = link.string
    print(text, ">>>", href)

naver
daum
---------
http://www.naver.com
http://www.daum.net
---------
naver >>> http://www.naver.com
daum >>> http://www.daum.net


In [24]:
# 기상청 자료 활용하기 (최근 날씨 데이터 가져오기_
# xml도 BeautifulSoup을 통해 가능! 아래 사이트 xml임
# http://www.weather.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=109

from bs4 import BeautifulSoup
import urllib.request as req

url = "http://www.weather.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=109"

# 데이터 가져오기
res = req.urlopen(url)

# xml이지만 html.parser 사용 가능!
soup = BeautifulSoup(res, "html.parser")
# print(soup)

# <wf> : 요약정보 데이터 와 <title> 추출하기
# 바로 find 뒤에 string 해도 괜찮음!
title = soup.find('title').string
print(title)
wf = soup.find('wf').string
print(wf)
# bs4.element.CData : Character
type(wf)

기상청 육상 중기예보
○ (강수) 16일(금) 오후에는 소나기가 내리는 곳이 있겠고, 19일(월) 오후에는 비가 내리겠습니다.<br />○ (기온) 이번 예보기간 아침최저기온은 23~26도, 낮최고기온은 29~34도로 어제(12일, 아침최저기온 20~24도, 낮최고기온 30~33도)와 비슷하거나 조금 높겠습니다.<br />○ (해상) 서해중부해상의 물결은 0.5~2.0m로 일겠습니다.<br />○ (주말전망) 17일(토)~18일(일)은 구름많겠고, 아침 기온은 23~24도, 낮 기온은 29~33도가 되겠습니다<br /><br />* 이번 예보기간 동안 내륙에는 낮최고기온이 33도 내외, 아침최저기온이 25도 내외로 오르는 곳이 많아 매우 무덥겠으니, 건강관리에 각별히 유의하기 바랍니다.<br />* 또한, 북태평양고기압 위치에 따른 강수 변동성이 크겠으니, 앞으로 발표되는 기상정보를 참고하기 바랍니다.


bs4.element.CData

In [31]:
title = soup.find('title').string
wf = soup.find('wf').string

print(title)
print()

# 고객은 정리된 데이터를 원하기 때문에 꼭 정리시켜주기!
# split 쓰려면 string 값이 기본 전제여야 함!
for i in wf.split('<br />'):
    print(i)

기상청 육상 중기예보

○ (강수) 16일(금) 오후에는 소나기가 내리는 곳이 있겠고, 19일(월) 오후에는 비가 내리겠습니다.
○ (기온) 이번 예보기간 아침최저기온은 23~26도, 낮최고기온은 29~34도로 어제(12일, 아침최저기온 20~24도, 낮최고기온 30~33도)와 비슷하거나 조금 높겠습니다.
○ (해상) 서해중부해상의 물결은 0.5~2.0m로 일겠습니다.
○ (주말전망) 17일(토)~18일(일)은 구름많겠고, 아침 기온은 23~24도, 낮 기온은 29~33도가 되겠습니다

* 이번 예보기간 동안 내륙에는 낮최고기온이 33도 내외, 아침최저기온이 25도 내외로 오르는 곳이 많아 매우 무덥겠으니, 건강관리에 각별히 유의하기 바랍니다.
* 또한, 북태평양고기압 위치에 따른 강수 변동성이 크겠으니, 앞으로 발표되는 기상정보를 참고하기 바랍니다.


In [32]:
type(wf.split('<br />'))

list

In [37]:
wf.split('<br />')[1]

'○ (기온) 이번 예보기간 아침최저기온은 23~26도, 낮최고기온은 29~34도로 어제(12일, 아침최저기온 20~24도, 낮최고기온 30~33도)와 비슷하거나 조금 높겠습니다.'

In [45]:
# 데이터 정리하기 (선생님 ver.) : 여기서는 적합한 예시가 아니지만, 다른 곳에서 이런 방법 사용할 일이 있을 것!
title = soup.find('title').string
wf = soup.find('wf').string

list_wfs = list(wf)
except_char = ['<','b','r','/',">"]
result = ""

for lwf in list_wfs:
    # print(lwf)
    if lwf not in except_char:
        result += lwf
    
print('-'*100)
print(result)
print(type(result))
result.split('○')

----------------------------------------------------------------------------------------------------
○ (강수) 16일(금) 오후에는 소나기가 내리는 곳이 있겠고, 19일(월) 오후에는 비가 내리겠습니다. ○ (기온) 이번 예보기간 아침최저기온은 23~26도, 낮최고기온은 29~34도로 어제(12일, 아침최저기온 20~24도, 낮최고기온 30~33도)와 비슷하거나 조금 높겠습니다. ○ (해상) 서해중부해상의 물결은 0.5~2.0m로 일겠습니다. ○ (주말전망) 17일(토)~18일(일)은 구름많겠고, 아침 기온은 23~24도, 낮 기온은 29~33도가 되겠습니다  * 이번 예보기간 동안 내륙에는 낮최고기온이 33도 내외, 아침최저기온이 25도 내외로 오르는 곳이 많아 매우 무덥겠으니, 건강관리에 각별히 유의하기 바랍니다. * 또한, 북태평양고기압 위치에 따른 강수 변동성이 크겠으니, 앞으로 발표되는 기상정보를 참고하기 바랍니다.
<class 'str'>


['',
 ' (강수) 16일(금) 오후에는 소나기가 내리는 곳이 있겠고, 19일(월) 오후에는 비가 내리겠습니다. ',
 ' (기온) 이번 예보기간 아침최저기온은 23~26도, 낮최고기온은 29~34도로 어제(12일, 아침최저기온 20~24도, 낮최고기온 30~33도)와 비슷하거나 조금 높겠습니다. ',
 ' (해상) 서해중부해상의 물결은 0.5~2.0m로 일겠습니다. ',
 ' (주말전망) 17일(토)~18일(일)은 구름많겠고, 아침 기온은 23~24도, 낮 기온은 29~33도가 되겠습니다  * 이번 예보기간 동안 내륙에는 낮최고기온이 33도 내외, 아침최저기온이 25도 내외로 오르는 곳이 많아 매우 무덥겠으니, 건강관리에 각별히 유의하기 바랍니다. * 또한, 북태평양고기압 위치에 따른 강수 변동성이 크겠으니, 앞으로 발표되는 기상정보를 참고하기 바랍니다.']

# css 선택자 사용하기

soup.select_one() : css선택자로 요소 하나를 추출.
soup.select() : css선택자로 요소 여러 개를 리스트로 추출.

In [134]:
from bs4 import BeautifulSoup

html4 = """
        <html>
            <body>
                <div id = "meigen">
                    <h1>위키 북스</h1>
                    <ul class = "items">
                        <li>유니티 게임 이펙트 입문서</li>
                        <li>스위프트 시작하는 아이폰 앱 개발 교과서</li>
                        <li>모던 웹사이트 디자인의 정석</li>
                    </ul>
                </div>
            </body>
        </html>
"""

soup = BeautifulSoup(html4, "html.parser")

# soup.html.body.h1 로 쓸 수 있지만, 복잡한 사이트는 저 방법으로 불가하기 때문에 새로운 방법 제시!
# 필요한 부분 css로 추출하기
# 타이틀 부분 추출하기
# id는 #으로 시작
# 밑에 있는 클라스를 찾을 때는 .으로 시작
# > 의 의미는 내 밑에 바로 있는 자손 중에 h1
#  (space) 사용 시 내 밑에 있는 모든 것 찾음 (후손)
# div 입장에서는 h1과 ul은 자손이고 li는 후손
h1 = soup.select_one("div#meigen > h1").string
print(h1)

# 목록 부분 추출하기
# ul이 여러 개 있을 경우 ul.items 사용
li_lists = soup.select("div#meigen > ul.items > li")
li_lists_1 = soup.select("div#meigen li") # 사용 가능 (후손은 한 칸 띄고 사용 가능하기에!)
li_lists_2 = soup.select("div#meigen > li") # 사용 불가 (후손은 > 사용 안 함!)

print(li_lists)

for li in li_lists:
    print(li.string)

위키 북스
[<li>유니티 게임 이펙트 입문서</li>, <li>스위프트 시작하는 아이폰 앱 개발 교과서</li>, <li>모던 웹사이트 디자인의 정석</li>]
유니티 게임 이펙트 입문서
스위프트 시작하는 아이폰 앱 개발 교과서
모던 웹사이트 디자인의 정석


In [53]:
# 네이버 금융에서 환율 정보 추출하기
# https://finance.naver.com/marketindex/
# #exchangeList > li.on > a.head.usd > div > span.value

In [61]:
# 미국 환율 가져오기
from bs4 import BeautifulSoup
import urllib.request as req

# HTML
url = "https://finance.naver.com/marketindex/"
res = req.urlopen(url)

# HTML 분석
soup = BeautifulSoup(res, "html.parser")
# print(soup)

# 데이터 추출하기
# class니까 .
price = soup.select_one("span.value").string
print("usd /krw :", price)

# price = soup.select_one("span.value").string 이 데이터가 무지 많을 경우
# select_one 은 제일 위에 꺼 하나만 가져옴!
price = soup.select_one("div.head_info > span.value").string
print(price)

usd /krw : 1,143.50
1,143.50


In [75]:
# 미국, 일본, 유럽연합, 중국의 환율
# 미국 : #exchangeList > li.on > a.head.usd > div > span.value
# 일본 : #exchangeList > li.on > a.head.jpy > div > span.value
# 유럽연합 : #exchangeList > li.on > a.head.eur > div > span.value
# 중국 : #exchangeList > li.on > a.head.cny > div > span.value
from bs4 import BeautifulSoup
import urllib.request as req

# HTML
url = "https://finance.naver.com/marketindex/"
res = req.urlopen(url)

# HTML 분석
soup = BeautifulSoup(res, "html.parser")

# 데이터 추출하기
# pricelist = soup.select("div.head_info > span.value") 이것도 가능
pricelist = soup.select("span.value")

# for price in pricelist:
#     print(price.string)

usd_price = pricelist[0].string
jpy_price = pricelist[1].string
eur_price = pricelist[2].string
cny_price = pricelist[3].string
print('미국 :', usd_price)
print('일본 :', jpy_price)
print('유럽연합 :', eur_price)
print('중국 :', cny_price)

미국 : 1,144.10
일본 : 1,036.04
유럽연합 : 1,357.36
중국 : 176.83


In [123]:
# 윤동주 시인 작품 가져오기
# https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC
# %EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC 이거 한글임
# mw-content-text > div.mw-parser-output > ul:nth-child(6) > li > b > a
# mw-content-text > div.mw-parser-output > ul:nth-child(6) > li > ul > li:nth-child(1)
# mw-content-text > div.mw-parser-output > ul:nth-child(6) > li > ul > li:nth-child(19)
# mw-content-text > div.mw-parser-output > ul:nth-child(7) > li:nth-child(1) > a
# mw-content-text > div.mw-parser-output > ul:nth-child(9) > li:nth-child(22) > a
# mw-content-text > div.mw-parser-output > ul:nth-child(12) > li:nth-child(1) > a
# mw-content-text > div.mw-parser-output > ul:nth-child(12) > li:nth-child(5) > a
# mw-content-text > div.mw-parser-output > ul:nth-child(6) > li > b > a
# mw-content-text > div.mw-parser-output > ul:nth-child(6) > li > a
#mw-content-text > div.mw-parser-output > ul:nth-child(6) > li > ul > li:nth-child(1) > a
from bs4 import BeautifulSoup
import urllib.request as req

# HTML
url = "https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC"
res = req.urlopen(url)

# HTML 분석
soup = BeautifulSoup(res, "html.parser")
# print(soup)

# 데이터 추출하기
worklist1 = soup.select("div.mw-parser-output > ul > li > b > a")
worklist2 = soup.select("div.mw-parser-output > ul > li > ul > li > a")
worklist3 = soup.select("div.mw-parser-output > ul > li > a")

# print(work)

for work1 in worklist1:
    text1 = work1.string
    href = 'https://ko.wikisource.org/' + work1.attrs['href']
    print(text1, ">>>", href)
    
for work2 in worklist2:
    text2 = work2.string
    href = 'https://ko.wikisource.org/' + work2.attrs['href']
    print(text2, ">>>", href)
    
for work3 in worklist3:
    text3 = work3.string
    href = 'https://ko.wikisource.org/' + work3.attrs['href']
    print(text3, ">>>", href)

하늘과 바람과 별과 시 >>> https://ko.wikisource.org//wiki/%ED%95%98%EB%8A%98%EA%B3%BC_%EB%B0%94%EB%9E%8C%EA%B3%BC_%EB%B3%84%EA%B3%BC_%EC%8B%9C
쉽게 씌어진 시 >>> https://ko.wikisource.org//wiki/%EC%89%BD%EA%B2%8C_%EC%94%8C%EC%96%B4%EC%A7%84_%EC%8B%9C
서시 >>> https://ko.wikisource.org//wiki/%ED%95%98%EB%8A%98%EA%B3%BC_%EB%B0%94%EB%9E%8C%EA%B3%BC_%EB%B3%84%EA%B3%BC_%EC%8B%9C/%EC%84%9C%EC%8B%9C
자화상 >>> https://ko.wikisource.org//wiki/%ED%95%98%EB%8A%98%EA%B3%BC_%EB%B0%94%EB%9E%8C%EA%B3%BC_%EB%B3%84%EA%B3%BC_%EC%8B%9C/%EC%9E%90%ED%99%94%EC%83%81
소년 >>> https://ko.wikisource.org//wiki/%ED%95%98%EB%8A%98%EA%B3%BC_%EB%B0%94%EB%9E%8C%EA%B3%BC_%EB%B3%84%EA%B3%BC_%EC%8B%9C/%EC%86%8C%EB%85%84
눈 오는 지도 >>> https://ko.wikisource.org//wiki/%ED%95%98%EB%8A%98%EA%B3%BC_%EB%B0%94%EB%9E%8C%EA%B3%BC_%EB%B3%84%EA%B3%BC_%EC%8B%9C/%EB%88%88_%EC%98%A4%EB%8A%94_%EC%A7%80%EB%8F%84
돌아와 보는 밤 >>> https://ko.wikisource.org//wiki/%ED%95%98%EB%8A%98%EA%B3%BC_%EB%B0%94%EB%9E%8C%EA%B3%BC_%EB%B3%84%EA%B3%BC_%EC%8B%9C/%EB%8F%8C%EC%95%84

In [139]:
from bs4 import BeautifulSoup
import urllib.request as req

# HTML
url = "https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC"
res = req.urlopen(url)

# HTML 분석
soup = BeautifulSoup(res, "html.parser")
# print(soup)

# 데이터 추출하기
worklist1 = soup.select("div.mw-parser-output ul li b a")
worklist2 = soup.select("div.mw-parser-output ul li ul li a")
worklist3 = soup.select("div.mw-parser-output ul li a")

booklist = []

for i in range(0,len(worklist3)):
    link = 'https://ko.wikisource.org/' + worklist3[i].attrs['href']
    text = worklist3[i].text
    booklist.append((text, link))
    
for i in booklist:
    print(i[0], i[1])

하늘과 바람과 별과 시 https://ko.wikisource.org//wiki/%ED%95%98%EB%8A%98%EA%B3%BC_%EB%B0%94%EB%9E%8C%EA%B3%BC_%EB%B3%84%EA%B3%BC_%EC%8B%9C
증보판 https://ko.wikisource.org//wiki/%ED%95%98%EB%8A%98%EA%B3%BC_%EB%B0%94%EB%9E%8C%EA%B3%BC_%EB%B3%84%EA%B3%BC_%EC%8B%9C_(1955%EB%85%84)
서시 https://ko.wikisource.org//wiki/%ED%95%98%EB%8A%98%EA%B3%BC_%EB%B0%94%EB%9E%8C%EA%B3%BC_%EB%B3%84%EA%B3%BC_%EC%8B%9C/%EC%84%9C%EC%8B%9C
자화상 https://ko.wikisource.org//wiki/%ED%95%98%EB%8A%98%EA%B3%BC_%EB%B0%94%EB%9E%8C%EA%B3%BC_%EB%B3%84%EA%B3%BC_%EC%8B%9C/%EC%9E%90%ED%99%94%EC%83%81
소년 https://ko.wikisource.org//wiki/%ED%95%98%EB%8A%98%EA%B3%BC_%EB%B0%94%EB%9E%8C%EA%B3%BC_%EB%B3%84%EA%B3%BC_%EC%8B%9C/%EC%86%8C%EB%85%84
눈 오는 지도 https://ko.wikisource.org//wiki/%ED%95%98%EB%8A%98%EA%B3%BC_%EB%B0%94%EB%9E%8C%EA%B3%BC_%EB%B3%84%EA%B3%BC_%EC%8B%9C/%EB%88%88_%EC%98%A4%EB%8A%94_%EC%A7%80%EB%8F%84
돌아와 보는 밤 https://ko.wikisource.org//wiki/%ED%95%98%EB%8A%98%EA%B3%BC_%EB%B0%94%EB%9E%8C%EA%B3%BC_%EB%B3%84%EA%B3%BC_%EC%8B%9C/%EB%8F%

In [147]:
# mw-content-text > div.mw-parser-output > ul:nth-child(6) > li > b > a
from bs4 import BeautifulSoup
import urllib.request as req

url = "https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC"
res = req.urlopen(url)
soup = BeautifulSoup(res, "html.parser")

# bold 체를 빼버리면 마지막 a태그가 자식이 아니라 후손 태그가 되어버려서 한 칸 떨어뜨려놓아야함!
a_list = soup.select("#mw-content-text > div.mw-parser-output > ul > li a")
# print(a_list)

for a in a_list:
    if a.string == "증보판":
        continue
    print("-", a.string)

- 하늘과 바람과 별과 시
- 서시
- 자화상
- 소년
- 눈 오는 지도
- 돌아와 보는 밤
- 병원
- 새로운 길
- 간판 없는 거리
- 태초의 아침
- 또 태초의 아침
- 새벽이 올 때까지
- 무서운 시간
- 십자가
- 바람이 불어
- 슬픈 족속
- 눈감고 간다
- 또 다른 고향
- 길
- 별 헤는 밤
- 흰 그림자
- 사랑스런 추억
- 흐르는 거리
- 쉽게 씌어진 시
- 봄
- 참회록
- 간(肝)
- 위로
- 팔복
- 못자는밤
- 달같이
- 고추밭
- 아우의 인상화
- 사랑의 전당
- 이적
- 비오는 밤
- 산골물
- 유언
- 창
- 바다
- 비로봉
- 산협의 오후
- 명상
- 소낙비
- 한난계
- 풍경
- 달밤
- 장
- 밤
- 황혼이 바다가 되어
- 아침
- 빨래
- 꿈은 깨어지고
- 산림
- 이런날
- 산상
- 양지쪽
- 닭
- 가슴 1
- 가슴 2
- 비둘기
- 황혼
- 남쪽 하늘
- 창공
- 거리에서
- 삶과 죽음
- 초한대
- 산울림
- 해바라기 얼굴
- 귀뚜라미와 나와
- 애기의 새벽
- 햇빛·바람
- 반디불
- 둘 다
- 거짓부리
- 눈
- 참새
- 버선본
- 편지
- 봄
- 무얼 먹구 사나
- 굴뚝
- 햇비
- 빗자루
- 기왓장 내외
- 오줌싸개 지도
- 병아리
- 조개껍질
- 겨울
- 트루게네프의 언덕
- 달을 쏘다
- 별똥 떨어진 데
- 화원에 꽃이 핀다
- 종시


# 다음 영화 연간 순위 가져오기

In [167]:
# https://movie.daum.net/boxoffice/yearly?year=2021
#mainContent > div > div.box_boxoffice > ol > li:nth-child(1) > div > div.thumb_cont > strong > a
from bs4 import BeautifulSoup
import urllib.request as req

url = "https://movie.daum.net/boxoffice/yearly?year=2021"
res = req.urlopen(url)
soup = BeautifulSoup(res, "html.parser")

movie_list = soup.select("#mainContent > div > div.box_boxoffice > ol > li > div > div.thumb_cont > strong > a")
# print(movie_list)

for i in range(0,len(movie_list)):
    movie1 = movie_list[i].string
    print('%2d' %(i+1) , ':', movie1)

 1 : 남산의 부장들
 2 : 다만 악에서 구하소서
 3 : 반도
 4 : 히트맨
 5 : 테넷
 6 : 백두산
 7 : #살아있다
 8 : 강철비2: 정상회담
 9 : 담보
10 : 닥터 두리틀
11 : 삼진그룹 영어토익반
12 : 정직한 후보
13 : 도굴
14 : 클로젯
15 : 오케이 마담
16 : 해치지않아
17 : 천문: 하늘에 묻는다
18 : 결백
19 : 1917
20 : 작은 아씨들
21 : 미드웨이
22 : 시동
23 : 지푸라기라도 잡고 싶은 짐승들
24 : 미스터 주: 사라진 VIP
25 : 인비저블맨
26 : 나쁜 녀석들: 포에버
27 : 국제수사
28 : 침입자
29 : 스타워즈: 라이즈 오브 스카이워커
30 : 스파이 지니어스 
31 : 이웃사촌
32 : 온워드: 단 하루의 기적
33 : 소리도 없이
34 : 버즈 오브 프레이(할리 퀸의 황홀한 해방)
35 : 원더 우먼 1984
36 : 겨울왕국 2
37 : 오! 문희
38 : 그린랜드
39 : 위대한 쇼맨
40 : 런
41 : 뮬란
42 : 내가 죽던 날
43 : 기생충
44 : 신비아파트 극장판 하늘도깨비 대 요르문간드
45 : 프리즌 이스케이프
46 : 검객
47 : 조제
48 : 사라진 시간
49 : 밤쉘: 세상을 바꾼 폭탄선언
50 : 알라딘


In [174]:
j = 1
for i in movie_list:
    print('%2d'%j, ":", i.string)
    j += 1

 1 : 남산의 부장들
 2 : 다만 악에서 구하소서
 3 : 반도
 4 : 히트맨
 5 : 테넷
 6 : 백두산
 7 : #살아있다
 8 : 강철비2: 정상회담
 9 : 담보
10 : 닥터 두리틀
11 : 삼진그룹 영어토익반
12 : 정직한 후보
13 : 도굴
14 : 클로젯
15 : 오케이 마담
16 : 해치지않아
17 : 천문: 하늘에 묻는다
18 : 결백
19 : 1917
20 : 작은 아씨들
21 : 미드웨이
22 : 시동
23 : 지푸라기라도 잡고 싶은 짐승들
24 : 미스터 주: 사라진 VIP
25 : 인비저블맨
26 : 나쁜 녀석들: 포에버
27 : 국제수사
28 : 침입자
29 : 스타워즈: 라이즈 오브 스카이워커
30 : 스파이 지니어스 
31 : 이웃사촌
32 : 온워드: 단 하루의 기적
33 : 소리도 없이
34 : 버즈 오브 프레이(할리 퀸의 황홀한 해방)
35 : 원더 우먼 1984
36 : 겨울왕국 2
37 : 오! 문희
38 : 그린랜드
39 : 위대한 쇼맨
40 : 런
41 : 뮬란
42 : 내가 죽던 날
43 : 기생충
44 : 신비아파트 극장판 하늘도깨비 대 요르문간드
45 : 프리즌 이스케이프
46 : 검객
47 : 조제
48 : 사라진 시간
49 : 밤쉘: 세상을 바꾼 폭탄선언
50 : 알라딘


In [178]:
movie_list = soup.select("strong a")

for i in range(0,len(movie_list)):
    movie1 = movie_list[i].string
    print('%2d' %(i+1) , ':', movie1)

 1 : 남산의 부장들
 2 : 다만 악에서 구하소서
 3 : 반도
 4 : 히트맨
 5 : 테넷
 6 : 백두산
 7 : #살아있다
 8 : 강철비2: 정상회담
 9 : 담보
10 : 닥터 두리틀
11 : 삼진그룹 영어토익반
12 : 정직한 후보
13 : 도굴
14 : 클로젯
15 : 오케이 마담
16 : 해치지않아
17 : 천문: 하늘에 묻는다
18 : 결백
19 : 1917
20 : 작은 아씨들
21 : 미드웨이
22 : 시동
23 : 지푸라기라도 잡고 싶은 짐승들
24 : 미스터 주: 사라진 VIP
25 : 인비저블맨
26 : 나쁜 녀석들: 포에버
27 : 국제수사
28 : 침입자
29 : 스타워즈: 라이즈 오브 스카이워커
30 : 스파이 지니어스 
31 : 이웃사촌
32 : 온워드: 단 하루의 기적
33 : 소리도 없이
34 : 버즈 오브 프레이(할리 퀸의 황홀한 해방)
35 : 원더 우먼 1984
36 : 겨울왕국 2
37 : 오! 문희
38 : 그린랜드
39 : 위대한 쇼맨
40 : 런
41 : 뮬란
42 : 내가 죽던 날
43 : 기생충
44 : 신비아파트 극장판 하늘도깨비 대 요르문간드
45 : 프리즌 이스케이프
46 : 검객
47 : 조제
48 : 사라진 시간
49 : 밤쉘: 세상을 바꾼 폭탄선언
50 : 알라딘


# 다음 IT News 많이 본 뉴스

In [226]:
# https://media.daum.net/digital/
#mAside > div.aside_g.aside_ranking > ul > li.on > div > ol:nth-child(2) > li:nth-child(1) > strong > a
#mAside > div.aside_g.aside_ranking > ul > li.on > div > ol:nth-child(3) > li:nth-child(1) > strong > a
#mAside > div.aside_g.aside_ranking > ul > li.on > div > ol:nth-child(2) > li:nth-child(1) > strong > a
from bs4 import BeautifulSoup
import urllib.request as req

url = "https://media.daum.net/digital/"
res = req.urlopen(url)
soup = BeautifulSoup(res, "html.parser")

#news_list = soup.select("#mAside > div.aside_g.aside_ranking > ul > li.on > div > ol > li > strong > a")
#news_list = soup.select("div.aside_g.aside_ranking a.link_txt")
#news_list = soup.select("div.aside_g.aside_ranking strong a")
news_list = soup.select("div.aside_g.aside_ranking .on .tit_g a")

# print(news_list)

for news in news_list:
    text = news.string
    link = news.attrs['href']
    print(link, ':', text.strip())

https://v.daum.net/v/20210713140143407 : 이재명, 긴급 기자회견.."4차 팬데믹 못막으면 전면봉쇄 불가피"
https://v.daum.net/v/20210713144711324 : "일출 보려다 물어뜯길 뻔"..성산일출봉까지 점령한 야생들개
https://v.daum.net/v/20210713124446148 : "누나가 무슨 부모야" 친누나 30차례 찔러 살해한 남동생.. 무기징역 구형
https://v.daum.net/v/20210713132549158 : BJ철구, 7살딸과 '여캠BJ 새엄마 월드컵'..아동학대 논란
https://v.daum.net/v/20210713144622300 : "확진자인데 와서 미안" 농담에 카페 영업중단..업무방해 무죄
https://v.daum.net/v/20210713133842565 : 정은경 '靑 방역기획관에 밀렸나' 질문에 "소신껏 하고 있다" 일축
https://v.daum.net/v/20210713114057051 : "술집 못가니 호텔 가자" 60대 유명화가, 20대 성폭행 의혹
https://v.daum.net/v/20210713113441712 : 우리은행 본점서 코로나19 집단감염.."발설 시 엄벌"
https://v.daum.net/v/20210713113230612 : 홍남기, 전국민 지원금 합의에 "동의 안한다"..여당과 충돌
https://v.daum.net/v/20210713150601168 : "철학 붕괴" 윤희숙 연일 이준석 비판..하태경 "자해정치"
https://v.daum.net/v/20210713144944406 : 중등교원 양성 규모 축소..사범대 나와야 국영수 교사된다
https://v.daum.net/v/20210713135902248 : "이 시국에 떼창?" 팬들 반발에..백기 든 '미스터트롯' 공연
https://v.daum.net/v/20210713143600846 : 청와대 앞에 착륙한 미끼 전투기, 힘을 보여주고 싶었다
https://v.d