In [1]:
# Web Scraping with Beautiful Soup

In [2]:
from bs4 import BeautifulSoup

In [3]:
html = "<html><head></head><body><h1>Home</h1><p>Wow!</p></body></html>"
    # html이 가장 바깥, 시작과 끝
    # head는 사용자에게 보여주지는 않지만 페이지를 구현하는데 필요한 정보
    # body는 사용자에게 보여주는 정보

soup = BeautifulSoup(html, "html.parser")
    # "html.parser"를 넣는 이유는 어떤 parser로 parsing할지를 지정하는 것.
soup.prettify()
print(soup.prettify())
    # prettify는 예쁘게 위아래로 나열하고, 필요한 곳은 들여쓰기하게 만드는 것.

<html>
 <head>
 </head>
 <body>
  <h1>
   Home
  </h1>
  <p>
   Wow!
  </p>
 </body>
</html>


In [4]:
# Rotten Tomatoes에서 scraping해오기

In [5]:
import urllib.request
from bs4 import BeautifulSoup

In [6]:
# Scraping Part
url = "https://www.rottentomatoes.com/"

html = urllib.request.urlopen(url)
    # html을 print하면 <http.client.HTTPResponse object at 0x0000016E85B27C18>이 나온다.
        # 이 형태로는 사용할 수 없고 read()해서 html코드 형태로 바꿔야 한다
source = html.read()
    # source를 바로 print하면 bytecode 형태로 나온다
html.close()

# Parsing Part
soup = BeautifulSoup(source, "html.parser")
    # html.parser를 이용하여 bytecode를 html code로 바꾼다
table = soup.find(id="Top-Box-Office")
    # find : soup이라는 html code에서 id가 Top-Box-Office인 것을 찾으라는 뜻.
print(table)

<table class="movie_list" id="Top-Box-Office">
<tr class="">
<td class="left_col">
<a href="/m/the_hitmans_bodyguard">
<span class="icon tiny rotten"></span>
<span class="tMeterScore">39%</span>
</a>
</td>
<td class="middle_col">
<a href="/m/the_hitmans_bodyguard">The Hitman's Bodyguard</a>
</td>
<td class="right_col right">
<a href="/m/the_hitmans_bodyguard">
                    $21.4M</a>
</td>
</tr><tr class="">
<td class="left_col">
<a href="/m/annabelle_creation">
<span class="icon tiny fresh"></span>
<span class="tMeterScore">67%</span>
</a>
</td>
<td class="middle_col">
<a href="/m/annabelle_creation">Annabelle: Creation</a>
</td>
<td class="right_col right">
<a href="/m/annabelle_creation">
                    $15.7M</a>
</td>
</tr><tr class="">
<td class="left_col">
<a href="/m/logan_lucky">
<span class="icon tiny certified_fresh"></span>
<span class="tMeterScore">94%</span>
</a>
</td>
<td class="middle_col">
<a href="/m/logan_lucky">Logan Lucky</a>
</td>
<td class="right_col 

In [7]:
# "Top-Box-Office"의 정보를 다시 한 단계 작게, (table row)로 분할한다.
    # tr은 수평 한 줄, td는 한 줄 안의 각 세로 줄의 정보

all_tr = table.find_all("tr")
    # find()를 하면 처음부터 검색을 하는데, 처음으로 발견하는 것을 반환하고 끝난다.
        # find_all()을 하면 처음부터 끝까지 검색하며 해당하는 값을 모두 list형태로 반환한다.
print(all_tr)

[<tr class="">
<td class="left_col">
<a href="/m/the_hitmans_bodyguard">
<span class="icon tiny rotten"></span>
<span class="tMeterScore">39%</span>
</a>
</td>
<td class="middle_col">
<a href="/m/the_hitmans_bodyguard">The Hitman's Bodyguard</a>
</td>
<td class="right_col right">
<a href="/m/the_hitmans_bodyguard">
                    $21.4M</a>
</td>
</tr>, <tr class="">
<td class="left_col">
<a href="/m/annabelle_creation">
<span class="icon tiny fresh"></span>
<span class="tMeterScore">67%</span>
</a>
</td>
<td class="middle_col">
<a href="/m/annabelle_creation">Annabelle: Creation</a>
</td>
<td class="right_col right">
<a href="/m/annabelle_creation">
                    $15.7M</a>
</td>
</tr>, <tr class="">
<td class="left_col">
<a href="/m/logan_lucky">
<span class="icon tiny certified_fresh"></span>
<span class="tMeterScore">94%</span>
</a>
</td>
<td class="middle_col">
<a href="/m/logan_lucky">Logan Lucky</a>
</td>
<td class="right_col right">
<a href="/m/logan_lucky">
        

In [12]:
# tr의 정보를 다시 한 단계 작게, td (table data)로 분할한다.
all_tr = table.find_all("tr")
for tr in all_tr:
    all_td = tr.find_all("td")
    score = all_td[0].find("span", attrs={"class":"tMeterScore"}).text.strip("%")
        # 특정 A : B 속성을 가진 span을 찾으라는 뜻
            # span이 두 개이기 때문에
        # ".text"를 해야지 span tag 안에 있는 text를 추출해낸다. 하지 않으면 span tag만 출력된다.
    movie_name = all_td[1].a.text
    amount = all_td[2].a.text.strip().strip("$")
        # movie_name & amount는 td 아래 정보가 하나 밖에 없기에
        # amount가 다른 줄에 찍히는 이유는 원문에서 값 앞에 공백을 놔뒀기 때문이다
            # 해결하기위해 strip()을 사용한다. 만약 () 안에 아무것도 없으면, 공백을 없애라는 뜻
                # strip() 쓰는 것이 replace()하는 것보다 간단하다.
                
    print("0." + score, movie_name, amount)
        # 원문에서 percentage로 나타나던 숫자에서, "%"을 strip하고 print하는 단계에서 앞에 "0."을 추가한다.

0.39 The Hitman's Bodyguard 21.4M
0.67 Annabelle: Creation 15.7M
0.94 Logan Lucky 7.7M
0.93 Dunkirk 6.7M
0.11 The Nut Job 2: Nutty by Nature 5.1M
0.8 The Emoji Movie 4.5M
0.92 Spider-Man: Homecoming 4.3M
0.88 Girls Trip 4M
0.16 The Dark Tower 3.8M
0.86 Wind River 3M


In [13]:
# Naver에서 eclipse를 블로그 검색하여, 첫 페이지의 제목이랑 링크를 scraping해오기
    # 어떻게 링크를 가져올지가 핵심

In [14]:
# My attempt to do this exercise
import urllib.request
from bs4 import BeautifulSoup

# Scraping Part
url = "https://search.naver.com/search.naver?where=post&query=eclipse"
html = urllib.request.urlopen(url)
source = html.read()
html.close()

# Parsing Part
soup = BeautifulSoup(source, "html.parser")
table = soup.find(id="elThumbnailResultArea")

all_dt = table.find_all("dt")
for dt in all_dt:
    all_td = dt.a
    link = all_td.find(attrs = {"class"})
    title = all_td.find(attrs = {"title"})
                
    print(link, title)


None None
None None
None None
None None
None None
None None
None None
None None
None None
None None


In [15]:
import urllib.request
from bs4 import BeautifulSoup


# Scraping Part
query = input("Enter the QUERY: ")
url = "https://search.naver.com/search.naver?where=post&query=%s" % query
html = urllib.request.urlopen(url)
source = html.read()
html.close()

# Parsing Part
    # 1. Conversion to html
soup = BeautifulSoup(source, "html.parser")
result_list = soup.find(id="elThumbnailResultArea")

    # 2. Actual analysis of the page
all_li = result_list.find_all("li")

for li in all_li:
    dt = li.find("dt")
    link = dt.a['href']
        # 위 두 줄을 압축하여 "dt = li.dt.a['href]"도 가능
    title = dt.a['title']
    
    print(link, "\n", title)


Enter the QUERY: eclipse
http://blog.naver.com/woozaaya?Redirect=Log&logNo=221079209124 
 미국에서 개기일식을 보다! Eclipse 2017
http://blog.naver.com/xcxvnnm34?Redirect=Log&logNo=221079948668 
 170822 엑소 A MESSAGE FROM EXO PLANET : TOTAL ECLIPSE 영상 (+해석)
http://blog.naver.com/puretearing?Redirect=Log&logNo=221079231032 
 미국 개기일식 (이클립스: Eclipse) 으로 축제처럼 맞이한 월요일에.
http://blog.naver.com/kzio1004?Redirect=Log&logNo=221078586248 
 Solar eclipse
http://blog.naver.com/chanelyun?Redirect=Log&logNo=221079340556 
 [아쉬탕가]re-start(Full Moon Day)"100년만의 Eclipse"
http://blog.naver.com/calloline_?Redirect=Log&logNo=221080209727 
 신혼일기 #08 - Solar Eclipse
http://blog.naver.com/jjhk282?Redirect=Log&logNo=221079593619 
 Total Solar eclipse in California
http://blog.naver.com/storylineco?Redirect=Log&logNo=221080732596 
 개기 일식: Total Solar Eclipse
http://blog.naver.com/ryanian?Redirect=Log&logNo=221080914726 
 [밴쿠버 일상] 일식(solar eclipse) 보셨나요???!!!
http://blog.naver.com/nyhotpoint?Redirect=Log&logNo=221079226835 
 

In [16]:
# These are enough to cover most actions the user may order with selenium

import os
    # os is the Windows OS itself, because things like "click()" use the hardware,
        # which is controlled by the os
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By

In [17]:
ff_driver = webdriver.Chrome()
    # ff_driver is just a variable's name, ff because the instructor is using Firefox's webdriver
ff_driver.get("https://www.google.co.kr/")

# Find by ID
query = ff_driver.find_element_by_id("lst-ib")
query.send_keys("linus torvalds nvidia")

# Find by Name
ff_driver.find_element_by_name("btnK").click()
    # id & name의 차이는 주민등록번호와 사람 이름의 차이
        # id는 항상 unique, name은 겹칠 수도 있고 아닐 수도 있고
ff_driver.implicitly_wait(10)
    # 컴퓨터 성능이나 인터넷 연결에 따라 로딩하는데 시간이 걸릴 수 있다.
        # 로딩을 하지 않았는데 실행하면 문제날 수 있으니까 implicitly_wait()을 넣는다
            # implicitly_wait()에는 몇 초를 기다릴지를 정해준다

In [19]:
# Find by XPATH
    # XPATH는 특정 tag pattern으로 찾는다

RESULTS_LOCATOR = "//div/h3/a"
    # 위에 검색한 페이지에서 불러왔다
        # F12해서 찾은 후, 그것을 우클릭하면 XPATH를 copy할 수 있다.
            # 해당 부분의 전체 XPATH : "//*[@id="rso"]/div[1]/div/div[1]/div/div/h3/a"
            # 앞은 중요하지 않고, 오히려 index값이 늘어나서 문제가 된다
                # 뒤에서부터 공통되는 부분만 필요 : "//div/h3/a"
WebDriverWait(ff_driver, 10).until(\
    EC.visibility_of_element_located((By.XPATH, RESULTS_LOCATOR)))
    # implicitly_wait은 특정 시간만 기다리는 것
        # WebDriverWait은 로딩이 다 끝날 때까지 기다리게 만든다
page1_results = ff_driver.find_elements(By.XPATH, RESULTS_LOCATOR)
    # find_elements_by_xpath == find_elements(By.XPATH)

for item in page1_results:
    print(item.text)

Linus Torvalds - Nvidia F_ck You! - YouTube
Linus Torvalds: Nvidia, Fuck You! - YouTube
Nvidia Responds to F-Bomb From Linus Torvalds | WIRED
Linus Torvalds Gives Nvidia the Finger. Literally | WIRED
linus torvalds nvidia 관련 이미지
It's Been Three Years Since Linus Torvalds' Huge NVIDIA Rant ...
Linus Torvalds says “f–k you” to NVIDIA | Ars Technica
Nvidia seeks peace with Linux, pledges help on open source driver ...
Torvalds gives Nvidia software thumbs up, not middle finger - CNET
Why did Linus Torvalds give a middle finger to Nvidia during a ... - Quora


In [20]:
# SQLite

import sqlite3

In [21]:
# python library's version
sqlite3.version

'2.6.0'

In [22]:
# sqlite3's version
sqlite3.sqlite_version

'3.14.2'