# Web Crawling

- 웹 스크래핑( Web Scraping ) : 웹 사이트 상에서 원하는 부분에 위치한 정보를 컴퓨터로 하여금 자동으로 추출하여 수집하는 기술
    - 웹 크롤러가 가져오는 하나의 페이지가 있을 때, 추출하길 원하는 항목의 위치를 정해서 데이터를 가져오는 것

- 웹 크롤링( Web Crawling ) : 자동화 봇( bot )인 웹 크롤러가 정해진 규칙에 따라 복수 개의 웹 페이지를 브라우징하는 행위
    - 링크를 따라 돌면서 원하는 페이지를 가져오는 과정

- 크롤링(crawling) : 
    1. Web상에 존재하는 Contents를 수집하는 작업 (프로그래밍으로 자동화 가능)
    2. HTML 페이지를 가져와서, HTML/CSS등을 파싱하고, 필요한 데이터만 추출하는 기법
    3. Open API(Rest API)를 제공하는 서비스에 Open API를 호출해서, 받은 데이터 중 필요한 데이터만 추출하는 기법
    4. Selenium등 브라우저를 프로그래밍으로 조작해서, 필요한 데이터만 추출하는 기법   

## 웹 브라우저로 웹 사이트 접속하기

In [98]:
import webbrowser

url = 'www.naver.com'
webbrowser.open(url)

True

In [99]:
import webbrowser

naver_search_url = "http://search.naver.com/search.naver?query="
search_word = '파이썬'
url = naver_search_url + search_word

webbrowser.open_new(url)

True

In [100]:
import webbrowser

google_url = "www.google.com/#q="
search_word = 'python'
url = google_url + search_word

webbrowser.open_new(url)

True

In [101]:
import webbrowser

urls = ['www.naver.com', 'www.daum.net', 'www.google.com']

for url in urls:
    webbrowser.open_new(url)

In [102]:
import webbrowser

google_url = "www.google.com/#q="
search_words = ['python web scraping', 'python webbrowser']

for search_word in search_words:
    webbrowser.open_new(google_url + search_word)

## urllib은 URL 작업을 위한 여러 모듈을 모은 패키지

- URL을 열고 읽기 위한 urllib.request   
    https://python.flowdas.com/howto/urllib2.html
        
- urllib.request에 의해 발생하는 예외를 포함하는 urllib.error
- URL 구문 분석을 위한 urllib.parse   
    https://docs.python.org/ko/3/library/urllib.html
- robots.txt 파일을 구문 분석하기 위한 urllib.robotparser

In [1]:
import urllib.request

In [5]:
a = urllib.request.urlopen( "https://www.naver.com" )
print( a.read() )

b'\n<!doctype html>                     <html lang="ko" data-dark="false"> <head> <meta charset="utf-8"> <title>NAVER</title> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=1190"> <meta name="apple-mobile-web-app-title" content="NAVER"/> <meta name="robots" content="index,nofollow"/> <meta name="description" content="\xeb\x84\xa4\xec\x9d\xb4\xeb\xb2\x84 \xeb\xa9\x94\xec\x9d\xb8\xec\x97\x90\xec\x84\x9c \xeb\x8b\xa4\xec\x96\x91\xed\x95\x9c \xec\xa0\x95\xeb\xb3\xb4\xec\x99\x80 \xec\x9c\xa0\xec\x9a\xa9\xed\x95\x9c \xec\xbb\xa8\xed\x85\x90\xec\xb8\xa0\xeb\xa5\xbc \xeb\xa7\x8c\xeb\x82\x98 \xeb\xb3\xb4\xec\x84\xb8\xec\x9a\x94"/> <meta property="og:title" content="\xeb\x84\xa4\xec\x9d\xb4\xeb\xb2\x84"> <meta property="og:url" content="https://www.naver.com/"> <meta property="og:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta property="og:description" content="\xeb\x84\xa4\xec\x9d\xb4\xeb\xb2\x84 

In [7]:
a = urllib.request.urlopen( "https://www.naver.com" )
print( a.read().decode( "utf-8" ) )


<!doctype html>                     <html lang="ko" data-dark="false"> <head> <meta charset="utf-8"> <title>NAVER</title> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=1190"> <meta name="apple-mobile-web-app-title" content="NAVER"/> <meta name="robots" content="index,nofollow"/> <meta name="description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta property="og:title" content="네이버"> <meta property="og:url" content="https://www.naver.com/"> <meta property="og:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta property="og:description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta name="twitter:card" content="summary"> <meta name="twitter:title" content=""> <meta name="twitter:url" content="https://www.naver.com/"> <meta name="twitter:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta name="twitter:description" content="네이버 메인에서 다

## requests 모듈 : HTTP 요청을 보내는 모듈

In [9]:
import requests

In [13]:
response = requests.get('https://news.naver.com')   
print( response.text )












	
	
		
	


<!DOCTYPE HTML>
<html lang="ko">
<head>
<meta charset="euc-kr">
<meta http-equiv="X-UA-Compatible" content="IE=edge">
<meta name="referrer" contents="always">
<meta http-equiv="refresh" content="600" />
<meta name="viewport" content="width=1106" />

    
    
    
    
    
    
    
    
    
    
    
    
    
    
    
    
    
    

<meta property="og:title"       content="네이버 뉴스">
<meta property="og:type"        content="website">
<meta property="og:url"         content="http://news.naver.com/main/home.nhn">
<meta property="og:image"       content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_200x200_20160804.png"/>
<meta property="og:description" content="정치, 경제, 사회, 생활/문화, 세계, IT/과학 등 언론사별, 분야별 뉴스 기사 제공">
<meta property="og:article:author"	content="네이버"/>

<meta name="twitter:card"		content="summary">
<meta name="twitter:title"		content="네이버 뉴스">
<meta name="twitter:site"       content="네이버 뉴스">
<meta name="

In [12]:
print( response.content )

b'\n\n\n\n\n\n\n\n\n\n\n\t\n\t\n\t\t\n\t\n\n\n<!DOCTYPE HTML>\n<html lang="ko">\n<head>\n<meta charset="euc-kr">\n<meta http-equiv="X-UA-Compatible" content="IE=edge">\n<meta name="referrer" contents="always">\n<meta http-equiv="refresh" content="600" />\n<meta name="viewport" content="width=1106" />\n\r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n\r\n<meta property="og:title"       content="\xb3\xd7\xc0\xcc\xb9\xf6 \xb4\xba\xbd\xba">\r\n<meta property="og:type"        content="website">\r\n<meta property="og:url"         content="http://news.naver.com/main/home.nhn">\r\n<meta property="og:image"       content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_200x200_20160804.png"/>\r\n<meta property="og:description" content="\xc1\xa4\xc4\xa1, \xb0\xe6\xc1\xa6, \xbb\xe7\xc8\xb8, \xbb\xfd\xc8\xb0/\xb9\xae\xc8\xad, \xbc\xbc\xb0\xe8, IT/\xb0\xfa\xc7\xd0 \xb5\xee \xbe\xf0\xb7\

## BeautifulSoup 라이브러리 : HTML의 태그를 파싱해서 필요한 데이터만 추출하는 함수를 제공하는 라이브러리

http://omz-software.com/pythonista/docs/ios/beautifulsoup_guide.html

In [103]:
from bs4 import BeautifulSoup

# 테스트용 html 코드
html = """<html><body><div><span>\
        <a href=http://www.naver.com>naver</a>\
        <a href=https://www.google.com>google</a>\
        <a href=http://www.daum.net/>daum</a>\
        </span></div></body></html>""" 

# BeautifulSoup를 이용해 HTML 소스를 파싱
soup = BeautifulSoup(html, 'lxml') 
soup

<html><body><div><span> <a href="http://www.naver.com">naver</a> <a href="https://www.google.com">google</a> <a href="http://www.daum.net/">daum</a> </span></div></body></html>

In [104]:
print( soup.prettify() )

<html>
 <body>
  <div>
   <span>
    <a href="http://www.naver.com">
     naver
    </a>
    <a href="https://www.google.com">
     google
    </a>
    <a href="http://www.daum.net/">
     daum
    </a>
   </span>
  </div>
 </body>
</html>


In [105]:
soup.find( 'a' )

<a href="http://www.naver.com">naver</a>

In [106]:
soup.find( 'a' ).get_text()

'naver'

In [107]:
soup.find_all( 'a' )

[<a href="http://www.naver.com">naver</a>,
 <a href="https://www.google.com">google</a>,
 <a href="http://www.daum.net/">daum</a>]

In [108]:
site_names = soup.find_all('a')
for site_name in site_names:
    print(site_name.get_text())

naver
google
daum


In [109]:
from bs4 import BeautifulSoup

# 테스트용 HTML 코드
html2 = """
<html>
 <head>
  <title>작품과 작가 모음</title>
 </head>
 <body>
  <h1>책 정보</h1>
  <p id="book_title">토지</p>
  <p id="author">박경리</p>
  
  <p id="book_title">태백산맥</p>
  <p id="author">조정래</p>

  <p id="book_title">감옥으로부터의 사색</p>
  <p id="author">신영복</p>
 </body>
</html>
""" 

soup2 = BeautifulSoup(html2, "lxml")

In [110]:
soup2.title

<title>작품과 작가 모음</title>

In [111]:
soup2.body

<body>
<h1>책 정보</h1>
<p id="book_title">토지</p>
<p id="author">박경리</p>
<p id="book_title">태백산맥</p>
<p id="author">조정래</p>
<p id="book_title">감옥으로부터의 사색</p>
<p id="author">신영복</p>
</body>

In [112]:
soup2.body.h1

<h1>책 정보</h1>

In [113]:
soup2.body.h1

<h1>책 정보</h1>

In [114]:
soup2.find('p', {"id":"book_title"})

<p id="book_title">토지</p>

In [115]:
soup2.find('p', {"id":"author"})

<p id="author">박경리</p>

In [116]:
soup2.find_all('p', {"id":"book_title"})

[<p id="book_title">토지</p>,
 <p id="book_title">태백산맥</p>,
 <p id="book_title">감옥으로부터의 사색</p>]

In [117]:
soup2.find_all('p', {"id":"author"})

[<p id="author">박경리</p>, <p id="author">조정래</p>, <p id="author">신영복</p>]

In [118]:
from bs4 import BeautifulSoup

soup2 = BeautifulSoup(html2, "lxml")

book_titles = soup2.find_all('p', {"id":"book_title"})
authors = soup2.find_all('p', {"id":"author"})

for book_title, author in zip(book_titles, authors):
    print(book_title.get_text() + '/' + author.get_text())

토지/박경리
태백산맥/조정래
감옥으로부터의 사색/신영복


In [119]:
soup2.select('body h1')

[<h1>책 정보</h1>]

In [125]:
soup2.select('body p')

[<p id="book_title">토지</p>,
 <p id="author">박경리</p>,
 <p id="book_title">태백산맥</p>,
 <p id="author">조정래</p>,
 <p id="book_title">감옥으로부터의 사색</p>,
 <p id="author">신영복</p>]

In [121]:
soup2.select('p')

[<p id="book_title">토지</p>,
 <p id="author">박경리</p>,
 <p id="book_title">태백산맥</p>,
 <p id="author">조정래</p>,
 <p id="book_title">감옥으로부터의 사색</p>,
 <p id="author">신영복</p>]

In [122]:
soup2.select('p#book_title')

[<p id="book_title">토지</p>,
 <p id="book_title">태백산맥</p>,
 <p id="book_title">감옥으로부터의 사색</p>]

In [123]:
soup2.select('p#author')

[<p id="author">박경리</p>, <p id="author">조정래</p>, <p id="author">신영복</p>]

In [126]:
%%writefile HTML_example_my_site.html 
<!doctype html>
<html>
  <head>
    <meta charset="utf-8">
    <title>사이트 모음</title>
  </head>
  <body>
    <p id="title"><b>자주 가는 사이트 모음</b></p>
    <p id="contents">이곳은 자주 가는 사이트를 모아둔 곳입니다.</p>
    <a href="http://www.naver.com" class="portal" id="naver">네이버</a> <br>
    <a href="https://www.google.com" class="search" id="google">구글</a> <br>
    <a href="http://www.daum.net" class="portal" id="daum">다음</a> <br>
    <a href="http://www.nl.go.kr" class="government" id="nl">국립중앙도서관</a>
  </body>
</html>

Writing HTML_example_my_site.html


In [127]:
f = open('HTML_example_my_site.html', encoding='utf-8')

html3 = f.read()
f.close()

soup3 = BeautifulSoup(html3, "lxml")

In [128]:
soup3.select('a')

[<a class="portal" href="http://www.naver.com" id="naver">네이버</a>,
 <a class="search" href="https://www.google.com" id="google">구글</a>,
 <a class="portal" href="http://www.daum.net" id="daum">다음</a>,
 <a class="government" href="http://www.nl.go.kr" id="nl">국립중앙도서관</a>]

In [129]:
soup3.select('a.portal')

[<a class="portal" href="http://www.naver.com" id="naver">네이버</a>,
 <a class="portal" href="http://www.daum.net" id="daum">다음</a>]

In [130]:
soup3.select( '#contents' )

[<p id="contents">이곳은 자주 가는 사이트를 모아둔 곳입니다.</p>]

In [131]:
soup3.select( '#nl' )

[<a class="government" href="http://www.nl.go.kr" id="nl">국립중앙도서관</a>]

In [142]:
soup3.select( '#nl' )[ 0 ].get_text()

'국립중앙도서관'

## 웹 스크래핑( Web Scraping )

### 나라별 웹 사이트 순위

https://www.alexa.com/topsites/countries/KR

In [144]:
import requests  
from bs4 import BeautifulSoup 

url = "https://www.alexa.com/topsites/countries/KR"

html_website_ranking = requests.get(url).text
soup_website_ranking = BeautifulSoup(html_website_ranking, "lxml")

# p 태그의 요소 안에서 a 태그의 요소를 찾음
website_ranking = soup_website_ranking.select('p a')

In [145]:
website_ranking[0:6]

[<a href="https://support.alexa.com/hc/en-us/articles/200444340" target="_blank">this explanation</a>,
 <a href="/siteinfo/google.com">Google.com</a>,
 <a href="/siteinfo/naver.com">Naver.com</a>,
 <a href="/siteinfo/youtube.com">Youtube.com</a>,
 <a href="/siteinfo/daum.net">Daum.net</a>,
 <a href="/siteinfo/tmall.com">Tmall.com</a>]

In [146]:
website_ranking[0].get_text()

'this explanation'

In [147]:
website_ranking_address = [website_ranking_element.get_text() for website_ranking_element in website_ranking]

In [148]:
website_ranking_address[0:6]

['this explanation',
 'Google.com',
 'Naver.com',
 'Youtube.com',
 'Daum.net',
 'Tmall.com']

In [149]:
import requests  
from bs4 import BeautifulSoup 

url = "https://www.alexa.com/topsites/countries/KR"

html_website_ranking = requests.get(url).text
soup_website_ranking = BeautifulSoup(html_website_ranking, "lxml")

# p 태그의 요소 안에서 a 태그의 요소를 찾음
website_ranking = soup_website_ranking.select('p a')
website_ranking_address = [website_ranking_element.get_text() for website_ranking_element in website_ranking]

print("[Top Sites in South Korea]")
for k in range(6):
    print("{0}: {1}".format(k+1, website_ranking_address[k]))

[Top Sites in South Korea]
1: this explanation
2: Google.com
3: Naver.com
4: Youtube.com
5: Daum.net
6: Tmall.com


In [150]:
import pandas as pd

website_ranking_dict = {'Website': website_ranking_address}
df = pd.DataFrame(website_ranking_dict, columns=['Website'], index=range(1,len(website_ranking_address)+1))
df[0:6]

Unnamed: 0,Website
1,this explanation
2,Google.com
3,Naver.com
4,Youtube.com
5,Daum.net
6,Tmall.com


### Naver 뮤직 주간 음악 순위

https://music.naver.com/listen/history/index.nhn?type=TOTAL_V2&year=2020&month=06&week=1

In [152]:
import requests
from bs4 import BeautifulSoup

url = "https://music.naver.com/listen/history/index.nhn?type=TOTAL_V2&year=2020&month=06&week=1"    
# url = "http://music.naver.com/listen/history/index.nhn?type=DOMESTIC&year=2017&month=12&week=1&page=2"
# url = "http://music.naver.com/listen/top100.nhn?domain=TOTAL&page=1"
    
html_music = requests.get(url).text
soup_music = BeautifulSoup(html_music, "lxml")

titles = soup_music.select('a._title span.ellipsis') 
artists = soup_music.select('td._artist a')

music_titles = [title.get_text() for title in titles]
music_artists = [artist.get_text().strip() for artist in artists]

for k in range(7):
    print("{0}: {1} / {2}".format(k+1, music_titles[k], music_artists[k]))

1: 아로하 / 조정석
2: 에잇(Prod.&Feat. SUGA of BTS) / 아이유(IU)
3: 사랑하게 될 줄 알았어 / 전미도
4: 살짝 설렜어 (Nonstop) / 오마이걸(OH MY GIRL)
5: 좋은 사람 있으면 소개시켜줘 / 조이 (JOY)
6: 화려하지 않은 고백 / 규현(KYUHYUN)
7: Dolphin / 오마이걸(OH MY GIRL)


## Selenium

- Selenium은 웹 브라우져를 컨트롤하여 웹 UI 를 Automation 하는 도구 중의 하나이다. 
- Selenium은 Selenium Server와 Selenium Client가 있는데, 로컬 컴퓨터의 웹 브라우져를 컨트롤하기 위해서는 Selenium Client 를 사용한다 .
- Selenium Client는 WebDriver라는 공통 인터페이스(Common interface)와 각 브라우져 타입별(IE, Chrome, FireFox 등)로 하나씩 있는 Browser Driver로 구성되어 있다.   

- Selenium을 설치하기 위해서는 먼저 아래와 같이 pip 을 사용하여 Selenium Client 모듈을 설치한다.

    pip install selenium   
    
    
- 다음으로 사용할 브라우저별 Selenium 드라이버를 설치한다. 드라이버가 설치된 후, 해당 드라이버의 경로를 실행 PATH에 넣어 준다. 아래는 대표적인 브라우저별 설치 링크이다. 특별한 이유가 없다면 Selenium이 가장 잘 동작하는 Firefox를 사용하는 것이 좋다.

    Firefox : https://github.com/mozilla/geckodriver/releases   
    Chrome : https://sites.google.com/a/chromium.org/chromedriver/downloads   
    Edge : https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/   
    
    
- Selenium을 사용하기 위해서는 먼저 selenium.webdriver 모듈을 import 한 후, webdriver.Firefox() 를 호출하여 브라우져를 실행시킨다. 만약 크롬을 사용할 경우 webdriver.Chrome()을 호출하고, Edge를 사용할 경우 webdriver.Edge()을 호출한다.

In [3]:
from selenium import webdriver
 
#browser = webdriver.Firefox()
browser = webdriver.Chrome()
 
browser.get( "http://python.org" ) 

- Selenium은 웹페이지 내의 특정 요소(들)을 찾는 많은 메서드들을 제공하고 있는데, 이들은 보통 한 요소를 리턴하는 find_element_*() 혹은 복수 요소를 리턴하는 find_elements_*() 메서드로 구분된다. 
- 자주 사용되는 몇가지 검색 메서드
    - 특정 태그 id 로 검색하는 find_element_by_id()
    - 특정 태그 name 속성으로 검색하는 find_element_by_name()
    - CSS 클래스명으로 검색하는 find_element_by_class_name()
    - CSS selector를 사용해 검색하는 find_element_by_css_selector() 
    - 예상되는 결과가 복수이면 find_element_* 대신 find_elements_* 를 사용한다.


- 검색 결과 리턴되는 객체는 FirefoxWebElement 와 같이 *WebElement 타입의 객체가 되는데, 리턴된 요소는 WebElement 타입 타입의 속성이나 메서드를 사용하여 데이타를 얻거나 특정 행위를 할 수 있다. 
    - 예를 들어, WebElement의 text는 요소 내의 문자열을 리턴
    - tag_name 은 해당 요소의 태크명 (예: a, span) 을 리턴
    - clear() 메서드를 호출하면 text 입력 영역을 초기화
    - click() 메서드를 호출하면 해당 요소를 클릭
    
- 검색시   
    find_element_by_id( ‘id명’ )   
    find_element_by_class_name(‘class명’)   
    find_element_by_xpath(‘xpath’)   
    find_element_by_tag_name(‘tag명’)
    
    
    - 해당 HTML의 id/class/xpath/tag를 찾아간다. 
    - beautiful-soup과 차이가 있다면 beautiful-soup은 find()메소드나 find_all()메소드를 호출할 경우 해당 태그 자체의 결과를 가지고 온다
    - xpath관련 : https://wkdtjsgur100.github.io/selenium-xpath/

In [5]:
import time

# python.org 웹사이트를 방문해서 상단 메인 메뉴 문자열을 출력하고, PyPI 메뉴를 클릭한 후 5초 후에 브라우저를 종료
browser = webdriver.Chrome()
browser.get("http://python.org")
 
menus = browser.find_elements_by_css_selector( '#top ul.menu li' )
 
pypi = None
for m in menus:
    if m.text == "PyPI":
        pypi = m
    print(m.text)
 
pypi.click()  # 클릭
 
time.sleep(5) # 5초 대기
browser.quit() # 브라우저 종료

Python
PSF
Docs
PyPI
Jobs
Community


In [9]:
# naver.com 웹사이트를 방문해서 상단 메인 메뉴 문자열을 출력하고, 지도 메뉴를 클릭한 후 5초 후에 브라우저를 종료
browser = webdriver.Chrome()
browser.get("https://www.naver.com")
 
menus = browser.find_elements_by_css_selector( '#NM_FAVORITE ul li' )
 
naver_map = None
for m in menus:
    if m.text == "지도":
        naver_map = m
    print(m.text)
 
naver_map.click()  # 클릭
 
time.sleep(5) # 5초 대기
browser.quit() # 브라우저 종료

메일
카페
블로그
지식iN
쇼핑
Pay
TV
사전
뉴스
증권
부동산
지도
영화
뮤직
책
웹툰


In [None]:
# naver.com 웹사이트를 방문해서 지도 메뉴를 클릭한 후 5초 후에 브라우저를 종료
browser = webdriver.Chrome()
browser.get("https://www.naver.com")
 
menus = browser.find_elements_by_css_selector( '#NM_FAVORITE > div.group_nav > ul.list_nav.NM_FAVORITE_LIST > li:nth-child(5) > a' )
 
naver_map = None
for m in menus:
    if m.text == "지도":
        naver_map = m
    print(m.text)
 
naver_map.click()  # 클릭
 
time.sleep(5) # 5초 대기
browser.quit() # 브라우저 종료

- 삭제 또는 엔터키를 입력하고 싶을때   
    WebElement.sendKeys(Keys.RETURN);
    
    
- input text 필드 지우고 싶을때   
    browser.find_element_by_name('searchFromDt').clear()
    
    
- select box option  수정하고 싶을때    
    b.find_element_by_xpath( "//select[@name='element_name']/option[text()='option_text']" ).click()
    
    from selenium.webdriver.support.ui import Select

    select = Select(driver.find_element_by_name('searchRtGubunCd'))

    or

    select.select_by_index(number)

    value 로도 가능하다!

In [14]:
# facebook login
from selenium.webdriver.common.keys import Keys

usr = ""        # id
pwd = ""        # password

browser = webdriver.Chrome()
browser.get( "http://www.facebook.org" )

assert "Facebook" in browser.title
elem = browser.find_element_by_id( "email" )
elem.send_keys( usr )
elem = browser.find_element_by_id( "pass" )
elem.send_keys( pwd )
elem.send_keys( Keys.RETURN )

In [20]:
# Naver 영화 페이지의 '1917'영화 댓글 Crawling
import requests
from bs4 import BeautifulSoup
from selenium import webdriver

import math
import time

In [21]:
# Chromedriver로 chrome browser 실행
path = 'D://Anaconda3//chromedriver'
browser = webdriver.Chrome( path )

# Naver 영화 페이지의 '1917'영화 페이지 이동
url = 'https://movie.naver.com/movie/bi/mi/basic.nhn?code=187321'
browser.get( url )

# 평점에 더보기 링크 클릭
view_more = browser.find_element_by_xpath( '//*[@id="content"]/div[1]/div[4]/div[5]/div[2]/div[1]/a' )
view_more.click()

browser.switch_to_frame( browser.find_element_by_id( 'pointAfterListIframe' ) )

  del sys.path[0]


In [22]:
# 전체 댓글수에 따른 페이지 계산
html0 = browser.page_source
html1 = BeautifulSoup( html0, 'lxml' )
html2 = html1.find( 'div', { 'class': 'score_total' } ).find( 'strong' ).findChildren( 'em' )[ 0 ].getText()
total_comment = int( html2.replace(',', '') )
total_page = total_comment / 10

print( total_comment )
print( total_page )
print( math.trunc( total_page ) )

5385
538.5
538


In [23]:
movie_comments = []

for page in range( 0, 2 ) : #math.trunc( total_page ) ): # 전체 페이지를 이동
    time.sleep( 1 ) #1초의 시간 delay
    html0 = browser.page_source #selenuim에서 현재 있는 browser의 페이지 소스 불러오기
    html1 = BeautifulSoup( html0, 'lxml') #bs4를 이용하여 html로 파싱하기
    html2 = html1.find( 'div', { 'class': 'ifr_area basic_ifr' } ) #댓글을 포함하고 있는 tag찾기
    review0 = html2.find( 'div', { 'class': 'score_result' } ).find_all( 'li' ) #각 댓글별로 list화
    
    for i in range( len( review0 ) ): #한페이지 내에서 모든 댓글을 수집하기 위한 반복문
        review = review0[ i ].find( 'div',{ 'class': 'score_reple' } ).find( 'span' ).text.strip() #댓글
        if review not in '관람객': # 불필요한 내용 삭제
            movie_comments.append( review + '\n' )
        
    #다음페이지로 넘어가기
    if page == 0:
        browser.find_elements_by_xpath('//*[@class = "paging"]/div/a')[10].click()
    else:
        browser.find_elements_by_xpath('//*[@class = "paging"]/div/a')[11].click()

In [24]:
print( movie_comments )

['충무로: 이거 어케하는거냐?\n', '촬영감독의 영혼까지 갈아넣은 마스터피스\n', '오스카 작품상 탔어도 할말 없었을것 같다.\n', '주인공을 카메라가 계속 따라가는데.. 세트장이 엄청 넓은거에 놀랐습니다. 직접 1차대전에 참전하는 느낌.. 이때당시 군인들 20년뒤 히틀러라는 극악의 악마로 자식들 다 전장에 몰리고 더 최악의 고통을 받을껀데 참.....\n', '닥터스트레인지의 판단력이 좋았다.\n', '솔직히 나는 기생충보다 이영화가 더 재미있었다.\n', '아카데미 작품상이야 작품전체를 보는거니 기생충이 받을수도 있다고 보는데 감독상은 1917 줬어도 할말 없음. 감독의 참신성이 빛을 발함. 결론적으로 아카데미 작품상과 감독상을 1917이 받았어도 아무 할말 없는 것이...\n', '솔직히 연출력만으로 최고의 영화다. 마치 우리가 투명인간이 되서 그들을 지켜보는 듯했다. 마지막장면은 영화 내내 쉴시간이 없었던것에 대한 피로감을 풀어줘서 기승전결도 완벽.\n', '스포일러가 포함된 감상평입니다. 감상평 보기\n', '진짜 원테이크 장면 너무 긴거 아님?? 촬영하기 진짜 힘들었을 듯...\n', '막판에 횡으로 수많은 병사가 신호와 함께 우르르 튀어나올때 주인공 혼자 종으로 막 달리는 장면 와 진짜ㅋㅋㅋㅋ대박 무조건 아이맥스로 보세요!\n', '솔직히 샘 멘데스 감독 좀 억울할듯기생충도 재밌게 봤지만, 이거 보고나서 좀 억울했겠다는 생각이 팍듬..\n', '스포일러가 포함된 감상평입니다. 감상평 보기\n']


In [None]:
# 파일 저장
with open( 'comment_1917.txt', 'w', encoding = 'utf-8' ) as f:
    for comment in movie_comments:
        f.write( comment + '\n' )

In [None]:
# 파일에서 읽기
movie_comments = []
with open( 'comment_1917.txt', 'r', encoding = 'utf-8' ) as f:
    lines = f.readlines()
    for line in lines:
        str = line.rstrip( '\n' )
        if str != '':
            movie_comments.append( str )
            
print( movie_comments )