# Web Crawling

- 웹 스크래핑( Web Scraping ) : 웹 사이트 상에서 원하는 부분에 위치한 정보를 컴퓨터로 하여금 자동으로 추출하여 수집하는 기술
    - 웹 크롤러가 가져오는 하나의 페이지가 있을 때, 추출하길 원하는 항목의 위치를 정해서 데이터를 가져오는 것

- 웹 크롤링( Web Crawling ) : 자동화 봇( bot )인 웹 크롤러가 정해진 규칙에 따라 복수 개의 웹 페이지를 브라우징하는 행위
    - 링크를 따라 돌면서 원하는 페이지를 가져오는 과정
    

- 크롤링(crawling) : 
    1. Web상에 존재하는 Contents를 수집하는 작업 (프로그래밍으로 자동화 가능)
    2. HTML 페이지를 가져와서, HTML/CSS등을 파싱하고, 필요한 데이터만 추출하는 기법
    3. Open API(Rest API)를 제공하는 서비스에 Open API를 호출해서, 받은 데이터 중 필요한 데이터만 추출하는 기법
    4. Selenium등 브라우저를 프로그래밍으로 조작해서, 필요한 데이터만 추출하는 기법   

## webbrowser 

- webbrowser 모듈은 웹 기반 문서를 사용자에게 표시할 수 있는 고수준 인테페이스 제공

In [1]:
import webbrowser

In [2]:
url = 'www.naver.com'

webbrowser.open( url )

True

In [4]:
naver_search_url = 'https://search.naver.com/search.naver?query='
search_word = '파이썬'
url = naver_search_url + search_word

webbrowser.open( url )

True

In [5]:
google_url = 'www.google.com/#q='
search_word = '파이썬'
url = google_url + search_word

webbrowser.open( url )

True

## urllib

- URL 작업을 위한 여러 모듈을 모은 패키지
- URL을 열고 / 읽기 위한 urllib.request
- URL 구문 분석을 위한 urllib.parse

In [3]:
import urllib.request

In [4]:
naver = urllib.request.urlopen( 'https://www.naver.com' )
naver.read()

b'\n<!doctype html>                     <html lang="ko" data-dark="false"> <head> <meta charset="utf-8"> <title>NAVER</title> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=1190"> <meta name="apple-mobile-web-app-title" content="NAVER"/> <meta name="robots" content="index,nofollow"/> <meta name="description" content="\xeb\x84\xa4\xec\x9d\xb4\xeb\xb2\x84 \xeb\xa9\x94\xec\x9d\xb8\xec\x97\x90\xec\x84\x9c \xeb\x8b\xa4\xec\x96\x91\xed\x95\x9c \xec\xa0\x95\xeb\xb3\xb4\xec\x99\x80 \xec\x9c\xa0\xec\x9a\xa9\xed\x95\x9c \xec\xbb\xa8\xed\x85\x90\xec\xb8\xa0\xeb\xa5\xbc \xeb\xa7\x8c\xeb\x82\x98 \xeb\xb3\xb4\xec\x84\xb8\xec\x9a\x94"/> <meta property="og:title" content="\xeb\x84\xa4\xec\x9d\xb4\xeb\xb2\x84"> <meta property="og:url" content="https://www.naver.com/"> <meta property="og:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta property="og:description" content="\xeb\x84\xa4\xec\x9d\xb4\xeb\xb2\x84 

In [5]:
naver = urllib.request.urlopen( 'https://www.naver.com' )
naver.read().decode( 'utf-8' )

'\n<!doctype html>                     <html lang="ko" data-dark="false"> <head> <meta charset="utf-8"> <title>NAVER</title> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=1190"> <meta name="apple-mobile-web-app-title" content="NAVER"/> <meta name="robots" content="index,nofollow"/> <meta name="description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta property="og:title" content="네이버"> <meta property="og:url" content="https://www.naver.com/"> <meta property="og:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta property="og:description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta name="twitter:card" content="summary"> <meta name="twitter:title" content=""> <meta name="twitter:url" content="https://www.naver.com/"> <meta name="twitter:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta name="twitter:description" content="네이버 메인에서

## requests

- HTTP 요청을 보내는 모듈

In [6]:
import requests

In [7]:
response = requests.get( 'https://www.naver.com' )
response.text

'\n<!doctype html>                     <html lang="ko" data-dark="false"> <head> <meta charset="utf-8"> <title>NAVER</title> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=1190"> <meta name="apple-mobile-web-app-title" content="NAVER"/> <meta name="robots" content="index,nofollow"/> <meta name="description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta property="og:title" content="네이버"> <meta property="og:url" content="https://www.naver.com/"> <meta property="og:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta property="og:description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta name="twitter:card" content="summary"> <meta name="twitter:title" content=""> <meta name="twitter:url" content="https://www.naver.com/"> <meta name="twitter:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta name="twitter:description" content="네이버 메인에서

In [8]:
response = requests.get( 'https://www.naver.com' )
response.status_code

200

In [9]:
response.content

b'\n<!doctype html>                     <html lang="ko" data-dark="false"> <head> <meta charset="utf-8"> <title>NAVER</title> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=1190"> <meta name="apple-mobile-web-app-title" content="NAVER"/> <meta name="robots" content="index,nofollow"/> <meta name="description" content="\xeb\x84\xa4\xec\x9d\xb4\xeb\xb2\x84 \xeb\xa9\x94\xec\x9d\xb8\xec\x97\x90\xec\x84\x9c \xeb\x8b\xa4\xec\x96\x91\xed\x95\x9c \xec\xa0\x95\xeb\xb3\xb4\xec\x99\x80 \xec\x9c\xa0\xec\x9a\xa9\xed\x95\x9c \xec\xbb\xa8\xed\x85\x90\xec\xb8\xa0\xeb\xa5\xbc \xeb\xa7\x8c\xeb\x82\x98 \xeb\xb3\xb4\xec\x84\xb8\xec\x9a\x94"/> <meta property="og:title" content="\xeb\x84\xa4\xec\x9d\xb4\xeb\xb2\x84"> <meta property="og:url" content="https://www.naver.com/"> <meta property="og:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta property="og:description" content="\xeb\x84\xa4\xec\x9d\xb4\xeb\xb2\x84 

## BeautifulSoup

- HTML 태그( tag )를 파싱( parsing )해서 필요한 데이터만 추출하는 함수를 제공하는 라이브러리

http://omz-software.com/pythonista/docs/ios/beautifulsoup_guide.html

In [10]:
from bs4 import BeautifulSoup

In [11]:
# test용 html 코드
html = '''
<html>
    <body>
        <div>
            <span>
                <a href=https://www.naver.com>naver</a>
                <a href=https://www.google.com>google</a>
                <a href=https://www.daum.net>daum</a>
            </span>
        </div>
    </body>
</html>
'''

In [12]:
# BeautifulSoup을 이용한 HTML 코드 파싱
soup = BeautifulSoup( html, 'lxml' )
soup

<html>
<body>
<div>
<span>
<a href="https://www.naver.com">naver</a>
<a href="https://www.google.com">google</a>
<a href="https://www.daum.net">daum</a>
</span>
</div>
</body>
</html>

In [13]:
soup.find( 'a' )

<a href="https://www.naver.com">naver</a>

In [14]:
soup.find( 'a' ).get_text()

'naver'

In [15]:
soup.find_all( 'a' )

[<a href="https://www.naver.com">naver</a>,
 <a href="https://www.google.com">google</a>,
 <a href="https://www.daum.net">daum</a>]

In [16]:
site_names = soup.find_all( 'a' )
for site_name in site_names:
    print( site_name.get_text() )

naver
google
daum


### Web Scraping 절차

1. 자료 추출을 원하는 Web site에 요청을 보내서 응답( HTML )을 받는다. - requests

2. 응답( HTML )받은 결과를 파싱( parsing )한다. - BeautifulSoup

3. 파싱된 결과에서 원하는 데이터가 존재하는 태그( tag )를 검색한다. 

4. 검색된 태그( tag )로 부터 데이터( data )를 추출한다.

In [17]:
html = '''
<html>
    <head>
        <title>작품과 작가 모음</title>
    </head>
    <body>
        <h1>책 정보</h1>
        <p id="book_title">토지</p>
        <p id="author">박경리</p>
        
        <p id="book_title">태백산맥</p>
        <p id="author">조정래</p>
        
        <p id="book_title">감옥으로부터의 사색</p>
        <p id="author">신영복</p>
    </body>
</html>
'''

In [18]:
soup2 = BeautifulSoup( html, 'lxml' )

In [19]:
soup2.title

<title>작품과 작가 모음</title>

In [20]:
soup2.body

<body>
<h1>책 정보</h1>
<p id="book_title">토지</p>
<p id="author">박경리</p>
<p id="book_title">태백산맥</p>
<p id="author">조정래</p>
<p id="book_title">감옥으로부터의 사색</p>
<p id="author">신영복</p>
</body>

In [21]:
soup2.body.h1

<h1>책 정보</h1>

In [22]:
soup2.find( 'p', { 'id': 'book_title' }) 

<p id="book_title">토지</p>

In [23]:
soup2.find( 'p', { 'id': 'author' } )

<p id="author">박경리</p>

In [24]:
soup2.find_all( 'p', { 'id': 'book_title' } )

[<p id="book_title">토지</p>,
 <p id="book_title">태백산맥</p>,
 <p id="book_title">감옥으로부터의 사색</p>]

In [25]:
soup2.find_all( 'p', { 'id': 'author' } )

[<p id="author">박경리</p>, <p id="author">조정래</p>, <p id="author">신영복</p>]

In [26]:
book_titles = soup2.find_all( 'p', { 'id': 'book_title' } )
authors = soup2.find_all( 'p', { 'id': 'author' } )

for book_title, author in zip( book_titles, authors ):
    print( book_title.get_text() + ' / ' + author.get_text() ) 

토지 / 박경리
태백산맥 / 조정래
감옥으로부터의 사색 / 신영복


### CSS style의 select() 메서드

In [27]:
soup2.select( 'body h1' )

[<h1>책 정보</h1>]

In [28]:
soup2.select( 'body p' )

[<p id="book_title">토지</p>,
 <p id="author">박경리</p>,
 <p id="book_title">태백산맥</p>,
 <p id="author">조정래</p>,
 <p id="book_title">감옥으로부터의 사색</p>,
 <p id="author">신영복</p>]

In [29]:
soup2.select( 'p' )

[<p id="book_title">토지</p>,
 <p id="author">박경리</p>,
 <p id="book_title">태백산맥</p>,
 <p id="author">조정래</p>,
 <p id="book_title">감옥으로부터의 사색</p>,
 <p id="author">신영복</p>]

In [30]:
soup2.select( 'p#book_title' )  # id에 대한 CSS style이 #, class는 .

[<p id="book_title">토지</p>,
 <p id="book_title">태백산맥</p>,
 <p id="book_title">감옥으로부터의 사색</p>]

In [31]:
soup2.select( 'p#author' )

[<p id="author">박경리</p>, <p id="author">조정래</p>, <p id="author">신영복</p>]

In [32]:
%%writefile HTML_Basic2.html
<!DOCTYPE html>
<html>
    <head>
        <meta charset="utf-8">
        <title>사이트 모음</title>
    </head>
    <body>
        <p id="title"><b>자주 가는 사이트 모음</b></p>
        <p id="contents">이곳은 자주 가는 사이트를 모아둔 곳입니다.</p>
        <a href="https://www.naver.com" class="portal">네이버</a><br>
        <a href="https://www.google.com" class="search">구글</a><br>
        <a href="https://www.daum.net" class="portal" id="daum">다음</a><br>
        <a href="http://www.nl.go.kr" class="goverment" id="nl">국립중앙도서관</a>
    </body>
</html>


Overwriting HTML_Basic2.html


In [33]:
with open( 'HTML_Basic2.html', encoding = 'utf-8' ) as f:
    html = f.read()

soup3 = BeautifulSoup( html, 'lxml' )

In [34]:
soup3.select( '.portal' )

[<a class="portal" href="https://www.naver.com">네이버</a>,
 <a class="portal" href="https://www.daum.net" id="daum">다음</a>]

In [35]:
soup3.select( '#contents' )

[<p id="contents">이곳은 자주 가는 사이트를 모아둔 곳입니다.</p>]

In [36]:
soup3.select( '#nl' )

[<a class="goverment" href="http://www.nl.go.kr" id="nl">국립중앙도서관</a>]

In [37]:
soup3.select( '#nl' )[ 0 ].get_text()

'국립중앙도서관'

## 웹 스크래핑( Web Scraping )

### 나라별 웹 사이트 순위

https://www.alexa.com/topsites/countries/KR

In [49]:
url = 'https://www.alexa.com/topsites/countries/KR'

html_website_ranking = requests.get( url ).text
soup_website_ranking = BeautifulSoup( html_website_ranking, 'lxml' )

In [50]:
html_website_ranking

'<!DOCTYPE html>\n<html lang="en">\n<head>\n  <meta name="referer" content="origin-when-cross-origin"/>\n  <!-- Google Tag Manager -->\n  <script>\n  dataLayer = window.dataLayer || [];\n  dataLayer.push({\n    "lifecycle_stage": "prospect",\n  \t"logged-in":  false,\n    "customer": {\n      \n      "status": "prospect",\n      "highest_subscription": false\n    }\n  });\n  </script>\n  <!-- Page hiding snippet  -->\n  \n  <style>.async-hide { opacity: 0 !important} </style>\n  <script>(function(a,s,y,n,c,h,i,d,e){s.className+=\' \'+y;h.start=1*new Date;\n  h.end=i=function(){s.className=s.className.replace(RegExp(\' ?\'+y),\'\')};\n  (a[n]=a[n]||[]).hide=h;setTimeout(function(){i();h.end=null},c);h.timeout=c;\n  })(window,document.documentElement,\'async-hide\',\'dataLayer\',4000,\n  {\'GTM-TKWQ4WC\':true});</script> \n  <!-- Modified Analytics tracking code with Optimize plugin -->\n      <script>\n      (function(i,s,o,g,r,a,m){i[\'GoogleAnalyticsObject\']=r;i[r]=i[r]||function(){\

In [51]:
soup_website_ranking

<!DOCTYPE html>
<html lang="en">
<head>
<meta content="origin-when-cross-origin" name="referer"/>
<!-- Google Tag Manager -->
<script>
  dataLayer = window.dataLayer || [];
  dataLayer.push({
    "lifecycle_stage": "prospect",
  	"logged-in":  false,
    "customer": {
      
      "status": "prospect",
      "highest_subscription": false
    }
  });
  </script>
<!-- Page hiding snippet  -->
<style>.async-hide { opacity: 0 !important} </style>
<script>(function(a,s,y,n,c,h,i,d,e){s.className+=' '+y;h.start=1*new Date;
  h.end=i=function(){s.className=s.className.replace(RegExp(' ?'+y),'')};
  (a[n]=a[n]||[]).hide=h;setTimeout(function(){i();h.end=null},c);h.timeout=c;
  })(window,document.documentElement,'async-hide','dataLayer',4000,
  {'GTM-TKWQ4WC':true});</script>
<!-- Modified Analytics tracking code with Optimize plugin -->
<script>
      (function(i,s,o,g,r,a,m){i['GoogleAnalyticsObject']=r;i[r]=i[r]||function(){
      (i[r].q=i[r].q||[]).push(arguments)},i[r].l=1*new Date();a=s.

In [41]:
website_ranking = soup_website_ranking.select( 'p a' )

In [42]:
website_ranking[ 0:10 ]

[<a href="https://support.alexa.com/hc/en-us/articles/200444340" target="_blank">this explanation</a>,
 <a href="/siteinfo/google.com">Google.com</a>,
 <a href="/siteinfo/naver.com">Naver.com</a>,
 <a href="/siteinfo/youtube.com">Youtube.com</a>,
 <a href="/siteinfo/daum.net">Daum.net</a>,
 <a href="/siteinfo/tmall.com">Tmall.com</a>,
 <a href="/siteinfo/tistory.com">Tistory.com</a>,
 <a href="/siteinfo/google.co.kr">Google.co.kr</a>,
 <a href="/siteinfo/sohu.com">Sohu.com</a>,
 <a href="/siteinfo/kakao.com">Kakao.com</a>]

In [43]:
website_ranking[ 1 ].get_text()

'Google.com'

In [48]:
website_ranking_address = [ website_ranking_element.get_text() for website_ranking_element in website_ranking[ 1: ] ]

 [ website_ranking_element.get_text() for website_ranking_element in website_ranking[ 1: ] ]

In [45]:
website_ranking_address[ 0:10 ]

['Google.com',
 'Naver.com',
 'Youtube.com',
 'Daum.net',
 'Tmall.com',
 'Tistory.com',
 'Google.co.kr',
 'Sohu.com',
 'Kakao.com',
 'Qq.com']

In [46]:
print( '[ Top Sites in South Korea ] ' )
for index in range( len( website_ranking_address ) ):
    print( '{} : {}'.format( index + 1, website_ranking_address[ index ] ) )

[ Top Sites in South Korea ] 
1 : Google.com
2 : Naver.com
3 : Youtube.com
4 : Daum.net
5 : Tmall.com
6 : Tistory.com
7 : Google.co.kr
8 : Sohu.com
9 : Kakao.com
10 : Qq.com
11 : Login.tmall.com
12 : Facebook.com
13 : Taobao.com
14 : Wikipedia.org
15 : Amazon.com
16 : Jd.com
17 : 360.cn
18 : Namu.wiki
19 : Netflix.com
20 : Coupang.com
21 : Baidu.com
22 : Pages.tmall.com
23 : Yahoo.com
24 : Microsoft.com
25 : Weibo.com
26 : Sina.com.cn
27 : Dcinside.com
28 : Twitch.tv
29 : Bing.com
30 : Apple.com
31 : Donga.com
32 : Stackoverflow.com
33 : Gmarket.co.kr
34 : Adobe.com
35 : Office.com
36 : 11st.co.kr
37 : Amazon.co.uk
38 : Ruliweb.com
39 : Ebay.com
40 : Nate.com
41 : Auction.co.kr
42 : Instagram.com
43 : Dropbox.com
44 : Spotify.com
45 : Nytimes.com
46 : Amazon.co.jp
47 : Bbc.com
48 : Msn.com
49 : Soundcloud.com
50 : Edunet.net


In [47]:
import pandas as pd

website_ranking_d = { 'WebSite': website_ranking_address }
df = pd.DataFrame( website_ranking_d, columns = [ 'WebSite' ],
                   index = range( 1, len( website_ranking_address ) + 1 ) )
df.head( 10 )

Unnamed: 0,WebSite
1,Google.com
2,Naver.com
3,Youtube.com
4,Daum.net
5,Tmall.com
6,Tistory.com
7,Google.co.kr
8,Sohu.com
9,Kakao.com
10,Qq.com


### Naver  뮤직 주간 음악 순위( 2020년 6월 1주차 )

https://music.naver.com/listen/history/index.nhn?type=TOTAL_V2&year=2020&month=06&week=1

In [69]:
url = 'https://music.naver.com/listen/history/index.nhn?type=TOTAL_V2&year=2020&month=06&week=1'

In [70]:
html_music = requests.get( url ).text
soup_music = BeautifulSoup( html_music, 'lxml' )

In [71]:
titles = soup_music.select( 'a._title span.ellipsis' )
artists = soup_music.select( 'td._artist a' )

In [76]:
music_titles = [ title.get_text().strip() for title in titles ]
music_artists = [ artist.get_text().strip() for artist in artists ]

In [79]:
for index in range( 10 ):
    print( '{}: {:<30s} / {:<10s}'.format( index + 1, music_titles[ index ],
                                           music_artists[ index ] ) )

1: 아로하                            / 조정석       
2: 에잇(Prod.&Feat. SUGA of BTS)    / 아이유(IU)   
3: 사랑하게 될 줄 알았어                   / 전미도       
4: 살짝 설렜어 (Nonstop)               / 오마이걸(OH MY GIRL)
5: 좋은 사람 있으면 소개시켜줘                / 조이 (JOY)  
6: 화려하지 않은 고백                     / 규현(KYUHYUN)
7: Dolphin                        / 오마이걸(OH MY GIRL)
8: MORE & MORE                    / TWICE(트와이스)
9: 그대 고운 내사랑                      / 어반자카파     
10: 나비와 고양이 (Feat. 백현 (BAEKHYUN))  / 볼빨간사춘기    


## Selenium

- Selenium은 웹 브라우저를 컨트롤하여 웹 UI를 Automation 하는 도구이다.
- Selenium은 Selenium Server와 Selenium Client가 있는데, 로컬 컴퓨터의 웹 브라우저를 컨트롤하기 위해서는 Selenium Client를 사용한다.
- Selenium Client는 WebDriver라는 공통 인터페이스( common interface )와 각 브라우저 타입별( IE, Chrome, FireFox등 )로 하나씩 있는 Browser Driver로 구성되어 있다.
- Selenium을 설치하기 위해서는 먼저 아래와 같이 pip를 사용하여 Selenium Client 모듈을 설치한다.


    anaconda : conda install selenium
    
    python : pip install selenium
    
- 사용할 브라우저별 Selenium driver를 설치한다. driver가 설치 된 후, 해당 드라이버의 경로를 실행 PATH에 등록한다.


    Firefox : https://github.com/mozilla/geckodriver/releases
    Chrome : https://sites.google.com/a/chromium.org/chromedriver/downloads

In [1]:
from selenium import webdriver

In [2]:
brower = webdriver.Chrome()
brower.get( 'http://python.org' )

- Selenium은 웹페이지 내의 특정 요소(들)을 찾는 많은 메서드들을 제공하고 있는데, 이들은 보통 한 요소를 리턴하는 find_element_*() 혹은 복수 요소를 리턴하는 find_elements_*() 메서드로 구분된다. 
- 자주 사용되는 몇가지 검색 메서드
    - 특정 태그 id 로 검색하는 find_element_by_id()
    - 특정 태그 name 속성으로 검색하는 find_element_by_name()
    - CSS 클래스명으로 검색하는 find_element_by_class_name()
    - CSS selector를 사용해 검색하는 find_element_by_css_selector() 
    - 예상되는 결과가 복수이면 find_element_* 대신 find_elements_* 를 사용한다.


- 검색 결과 리턴되는 객체는 FirefoxWebElement 와 같이 *WebElement 타입의 객체가 되는데, 리턴된 요소는 WebElement 타입 타입의 속성이나 메서드를 사용하여 데이타를 얻거나 특정 행위를 할 수 있다. 
    - 예를 들어, WebElement의 text는 요소 내의 문자열을 리턴
    - tag_name 은 해당 요소의 태크명 (예: a, span) 을 리턴
    - clear() 메서드를 호출하면 text 입력 영역을 초기화
    - click() 메서드를 호출하면 해당 요소를 클릭
    
- 검색시   
    find_element_by_id( ‘id명’ )
find_element_by_class_name(‘class명’)
find_element_by_xpath(‘xpath’)
find_element_by_tag_name(‘tag명’)
해당 HTML의 id/class/xpath/tag를 찾아간다.
beautiful-soup과 차이가 있다면 beautiful-soup은 find()메소드나 find_all()메소드를 호출할 경우 해당 태그 자체의 결과를 가지고 온다
xpath관련 : https://wkdtjsgur100.github.io/selenium-xpath/

In [5]:
import time

browser = webdriver.Chrome()
browser.get( 'http://python.org' )

menus = browser.find_elements_by_css_selector( '#top ul.menu li' )

pypi = None
for m in menus:
    if m.text == 'PyPI':
        pypi = m
    print( m.text )

time.sleep( 5 )
pypi.click()

Python
PSF
Docs
PyPI
Jobs
Community


In [8]:
browser = webdriver.Chrome()
browser.get( 'https://www.naver.com' )

menus = browser.find_elements_by_css_selector( '#NM_FAVORITE ul li' )
#'#NM_FAVORITE > div.group_nav > ul.list_nav.NM_FAVORITE_LIST > li:nth-child(5) > a'
naver_map = None
for m in menus:
    if m.text == '지도':
        naver_map = m
    print( m.text )

time.sleep( 5 )
naver_map.click()

메일
카페
블로그
지식iN
쇼핑
Pay
TV
사전
뉴스
증권
부동산
지도
영화
뮤직
책
웹툰


- 삭제 또는 엔터키를 입력하고 싶을때   
    WebElement.sendKeys(Keys.RETURN);
    
    
- input text 필드 지우고 싶을때   
    browser.find_element_by_name('searchFromDt').clear()
    
    
- select box option  수정하고 싶을때    
    b.find_element_by_xpath( "//select[@name='element_name']/option[text()='option_text']" ).click()
    
    from selenium.webdriver.support.ui import Select

    select = Select(driver.find_element_by_name('searchRtGubunCd'))

    or

    select.select_by_index(number)

    value 로도 가능

In [6]:
# facebook login
from selenium.webdriver.common.keys import Keys

usr = ""        # id
pwd = ""        # password

browser = webdriver.Chrome()
browser.get( "http://www.facebook.org" )

assert "Facebook" in browser.title
elem = browser.find_element_by_id( "email" )
elem.send_keys( usr )
elem = browser.find_element_by_id( "pass" )
elem.send_keys( pwd )
elem.send_keys( Keys.RETURN )

In [None]:
# Naver 영화 페이지의 '1917'영화 댓글 Crawling
import requests
from bs4 import BeautifulSoup
from selenium import webdriver

import math
import time

In [None]:
# Chromedriver로 chrome browser 실행
path = 'D://Python//Anaconda3//chromedriver'
browser = webdriver.Chrome( path )

# Naver 영화 페이지의 '1917'영화 페이지 이동
url = 'https://movie.naver.com/movie/bi/mi/basic.nhn?code=187321'
browser.get( url )

# 평점에 더보기 링크 클릭
view_more = browser.find_element_by_xpath( '//*[@id="content"]/div[1]/div[4]/div[5]/div[2]/div[1]/a' )
view_more.click()

browser.switch_to_frame( browser.find_element_by_id( 'pointAfterListIframe' ) )

In [None]:
# 전체 댓글수에 따른 페이지 계산
html0 = browser.page_source
html1 = BeautifulSoup( html0, 'lxml' )
html2 = html1.find( 'div', { 'class': 'score_total' } ).find( 'strong' ).findChildren( 'em' )[ 0 ].getText()
total_comment = int( html2.replace(',', '') )
total_page = total_comment / 10

print( total_comment )
print( total_page )
print( math.trunc( total_page ) )

In [None]:
movie_comments = []

for page in range( 0, 2 ) : #math.trunc( total_page ) ): # 전체 페이지를 이동
    time.sleep( 1 ) #1초의 시간 delay
    html0 = browser.page_source #selenuim에서 현재 있는 browser의 페이지 소스 불러오기
    html1 = BeautifulSoup( html0, 'lxml') #bs4를 이용하여 html로 파싱하기
    html2 = html1.find( 'div', { 'class': 'ifr_area basic_ifr' } ) #댓글을 포함하고 있는 tag찾기
    review0 = html2.find( 'div', { 'class': 'score_result' } ).find_all( 'li' ) #각 댓글별로 list화
    
    for i in range( len( review0 ) ): #한페이지 내에서 모든 댓글을 수집하기 위한 반복문
        review = review0[ i ].find( 'div',{ 'class': 'score_reple' } ).find( 'span' ).text.strip() #댓글
        if review not in '관람객': # 불필요한 내용 삭제
            movie_comments.append( review + '\n' )
        
    #다음페이지로 넘어가기
    if page == 0:
        browser.find_elements_by_xpath('//*[@class = "paging"]/div/a')[10].click()
    else:
        browser.find_elements_by_xpath('//*[@class = "paging"]/div/a')[11].click()

In [None]:
print( movie_comments )

In [None]:
# 파일 저장
with open( 'comment_1917.txt', 'w', encoding = 'utf-8' ) as f:
    for comment in movie_comments:
        f.write( comment + '\n' )

In [None]:
# 파일에서 읽기
movie_comments = []
with open( 'comment_1917.txt', 'r', encoding = 'utf-8' ) as f:
    lines = f.readlines()
    for line in lines:
        str = line.rstrip( '\n' )
        if str != '':
            movie_comments.append( str )
            
print( movie_comments )