# Web Scraping

### 용어 
+ <b>Web Scraping (웹 스크래핑)</b>  
    정해진 형태의 웹 페이지에서 원하는 정보를 추출하는 작업  
<br>
+ <b>Web Crawling (웹 크롤링)</b>  
    + 자동화 봇(bot)인 웹 크롤러(web crawler)가 정해진 규칙에 따라 복수 개의 웹 페이지들을 수집하는 작업  
    예) 검색 엔진은 데이터의 최신 상태 유지를 위해 웹 크롤링을 함

## 실습 1 (영화랭킹)

In [66]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

url = 'https://movie.naver.com/movie/sdb/rank/rmovie.nhn' # 채우기

page = urlopen(url)
soup = BeautifulSoup(page, "html.parser")

result = soup.find_all("div", attrs={"class":"tit3"})

i = 1
for movie in result:
    print("%2d위" % i , end=' ')
    print(movie.get_text().strip())
    i += 1


 1위 미나리
 2위 극장판 귀멸의 칼날: 무한열차편
 3위 라야와 마지막 드래곤
 4위 미션 파서블
 5위 리스타트
 6위 반지의 제왕: 반지 원정대
 7위 소울
 8위 중경삼림
 9위 카오스 워킹
10위 아이 씨 유
11위 암모나이트
12위 웨이 다운
13위 포제서
14위 톰과 제리
15위 고질라 VS. 콩
16위 모리타니안
17위 더 레이서
18위 아수라도
19위 퍼펙트 케어
20위 허트 로커
21위 마리오네트
22위 아이
23위 파이터
24위 유어 아이즈 텔
25위 반지의 제왕: 왕의 귀환
26위 그녀가 사라졌다
27위 러빙 빈센트
28위 쁘떼뜨
29위 태극기 휘날리며
30위 낙원의 밤
31위 정말 먼 곳
32위 반지의 제왕: 두 개의 탑
33위 새해전야
34위 아홉수 로맨스
35위 스파이의 아내
36위 최면
37위 아무도 없는 곳
38위 어른들은 몰라요
39위 모탈 컴뱃
40위 빛과 철
41위 그린 북
42위 너의 얼굴은
43위 브레이브 언더 파이어
44위 극장판 바이올렛 에버가든
45위 승리호
46위 세자매
47위 검객
48위 서복
49위 라스트 레터
50위 원더 우먼 1984


## 웹 페이지 읽어오기
* ### urllib.request.open() 사용

In [17]:
from urllib.request import urlopen

url = 'http://movie.naver.com/movie/sdb/rank/rmovie.nhn'

page = urlopen(url)

print(page.read())

b'\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\t\r\n\t\r\n\t\r\n\t\r\n\t\r\n\r\n\t\r\n\t\r\n\r\n\r\n\t\r\n\t\r\n\t\r\n\t\r\n\t\r\n\t\r\n\t\r\n\t\r\n\t\r\n\t\r\n\t\r\n\t\r\n\r\n\t\r\n\t\r\n\t\r\n\t\r\n\t\r\n\r\n\t\r\n\t\r\n\t\r\n\r\n\t\r\n\t\r\n\t\r\n\r\n\r\n\t\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\t\r\n\t\t\t\t\r\n\t\t\t\r\n\t\t\t\r\n\t\t\t\r\n\t\t\r\n\t\r\n\t\r\n\t\r\n\t\r\n\t\t\r\n\t\r\n\r\n<!DOCTYPE html>\r\n<html lang="ko">\r\n<head>\r\n<meta http-equiv="Content-Type" content="text/html; charset=euc-kr">\r\n<meta http-equiv="X-UA-Compatible" content="IE=edge">\r\n\r\n\r\n\r\n\r\n\r\n\r\n<meta property="me2:image" content="http://imgmovie.naver.com/today/naverme/naverme_profile.jpg"/>\r\n<meta property="me2:post_tag" content="\xb3\xd7\xc0\xcc\xb9\xf6\xbf\xb5\xc8\xad "/>\r\n<meta property="me2:category1" content="\xb3\xd7\xc0\xcc\xb9\xf6\xbf\xb5\xc8\xad"/>\r\n<meta property="me2:category2" content=""/>\r\n\r\n\r\n\r\n\r\n\r\n\t\r\n\t\r\n\t\t<meta property="og:title"

## BeautifulSoup

+ 많이 쓰이는 파이썬용 파서로 html, xml을 파싱할 때 주로 사용 


+ <b> 파싱 (parsing)</b>  
    + 가공되지 않은 데이터에서 원하는 특정한 문자열을 추출하여 의미 있는 데이터로 만드는 과정  
    

+ <b> BeautifulSoup 모듈 설치</b>
    + pip install beautifulsoup4

In [None]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

url = 'http://movie.naver.com/movie/sdb/rank/rmovie.nhn'
page = urlopen(url)

soup = BeautifulSoup(page, "html.parser")
# html.parser  html로 읽어서 차곡차곡 필요한 정보를 정리한다.



## BeautifulSoup 사용법

* ### HTML 실습 (1)

In [21]:
page = '''
<html>
<head>
    <title>제목</title>
</head>
<body>
<h1>제목1</h1>
    <p>내용1</p>
<h1>제목2</h1>
    <p>내용2</p>
</body>
</html>
'''

soup = BeautifulSoup(page, "html.parser")
print(soup)


<html>
<head>
<title>제목</title>
</head>
<body>
<h1>제목1</h1>
<p>내용1</p>
<h1>제목2</h1>
<p>내용2</p>
</body>
</html>



In [22]:
type(soup)

bs4.BeautifulSoup

In [30]:
#soup.html.body
#soup.body
#soup.html.head.title
#soup.title
soup.h1

<h1>제목1</h1>

In [33]:
#soup.find("h1")
soup.find_all("h1")

[<h1>제목1</h1>, <h1>제목2</h1>]

In [34]:
title = soup.find("h1")
type(title)

bs4.element.Tag

In [35]:
title.get_text()

'제목1'

In [46]:
title_list = soup.find_all("h1")

for title in title_list:
    print(title.get_text())

제목1
제목2


* ### HTML 실습 (2)

In [47]:
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, "html.parser")

In [58]:
soup.find_all(["a","b"])

[<b>The Dormouse's story</b>,
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [57]:
#name_list = soup.find_all("a")
#name_list = soup.find_all("a", class_ = "sister") # 클래스는 class_로 표현하고 생략할수도 있음
#name_list = soup.find_all("a", "sister")
#name_list = soup.find_all("a", attrs={"class":"sister"})
name_list = soup.find_all("a", {"id" : {"link2","link3"}, "class":{"sister"}})

for name in name_list:
    print(name.get_text())

Lacie
Tillie


In [64]:
alist = soup.find_all("a", {"id" : {"link2","link3"}, "class":{"sister"}})
atag = alist[0]
#atag.attrs['href']
atag.get('href')
#print(atag)

'http://example.com/lacie'



## 파일 다운로드
* ### urllib.request.urlretrieve() 사용

In [148]:
from urllib.request import urlretrieve

img_url = "https://movie-phinf.pstatic.net/20210303_117/1614748615541W5Yoz_JPEG/movie_image.jpg?type=m203_290_2" 

urlretrieve(img_url, "movie.jpg")


('movie.jpg', <http.client.HTTPMessage at 0x7f4271549668>)

## 도전 과제
* 영화 랭킹 1위~5위 까지 5개의 이미지를 내 컴퓨터에 다운로드 받는 프로그램을 작성하라.  
(2초(?) 간격으로 다운로드 할 것) 
* 수동으로 url을 입력하는 것이 아니라, 추출해서 받도록 하자.

![movie_210316.png](attachment:movie_210316.png)

In [103]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

url = 'https://movie.naver.com/movie/sdb/rank/rmovie.nhn' # 채우기

page = urlopen(url)
soup = BeautifulSoup(page, "html.parser")

divList = soup.find_all("div", attrs={"class":"tit3"})

for div_tag in divList[:5]:
    print(div_tag.get_text().strip())

미나리
극장판 귀멸의 칼날: 무한열차편
라야와 마지막 드래곤
미션 파서블
리스타트


In [149]:
div_tag.attrs

{'class': ['tit3']}

In [157]:
div_tag.a.attrs['href']

'/movie/bi/mi/basic.nhn?code=182019'

In [21]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
from urllib.request import urlretrieve
from time import sleep

url = 'https://movie.naver.com/movie/sdb/rank/rmovie.nhn' # 채우기

page = urlopen(url)
soup = BeautifulSoup(page, "html.parser")

result = soup.find_all("div", attrs={"class":"tit3"})

i = 1
for movie in result[:5]:
    code = movie.find("a").get('href')[28:]
    imgSrc = 'https://movie.naver.com/movie/bi/mi/photoViewPopup.nhn?movieCode='+code
    new_soup = BeautifulSoup(urlopen(imgSrc), "html.parser")
    new_result = new_soup.find("img").get('src')
    urlretrieve(new_result, "movie%s.jpg" % i)
    i += 1
    sleep(2)