+++
title = "Crawling with Selenium"
id = "Dev"
+++

# Crawling with Selenium 
[Selenium](http://www.seleniumhq.org/)
-  가상의 브라우져를 열어서 작업하기 때문에, 웹상에서의 행동을 다양하게 할 수 있다. (원래는 웹을 테스트하기 위한 프레임 워크라고 한다.)
- Driver는 Chrome 이나 PhantomJS를 쓰는데, 개인적인 경험 상, PhantomJS가 훨씬 빠른 것 같다. 

**<ex>**

##### open browser
- 크롬 브라우져로 브라우져 오픈

In [2]:
driver =  webdriver.Chrome()

##### move web page
- url로 페이지 이동

In [13]:
driver.get("http://www.naver.com")

##### set window size
- 윈도우 사이즈 조절

In [14]:
driver.set_window_size(800, 600)

##### scroll move
- 브라우져의 스크롤 위치 이동

In [15]:
driver.execute_script("window.scrollTo(200, 300);")

##### save current window
- 메인 윈도우의 위치를 저장

In [16]:
main_window = driver.current_window_handle
main_window

'CDwindow-(CF4BF8B2794C9A65BA9E78EF29401630)'

##### open new window tab
- 자바스크립트를 이용하여 새로운 탭 오픈
- 새로운 탭을 열었지만 포커스는 처음 오픈한 페이지에 있습니다.

In [17]:
driver.execute_script("window.open('https://www.google.com');")

In [18]:
driver.get('http://daum.net/')

##### check windows

In [19]:
windows = driver.window_handles
windows

['CDwindow-(CF4BF8B2794C9A65BA9E78EF29401630)',
 'CDwindow-(F3F5477789D94F938A4413E46AD9480)']

##### change focus
- 새로 오픈한 페이지로 포커스를 변경

In [20]:
driver.switch_to_window(windows[1])

In [21]:
driver.get('http://facebook.com/')

- 앞에서 저장해 놓은 main_window 변수를 이용하여 메인페이지로 다시 포커스 변경

In [22]:
driver.switch_to_window(main_window)

##### page reload

In [23]:
driver.execute_script("location.reload();")

##### alert 다루기
- alert과 cofirm

In [28]:
# open alert
#driver.execute_script("alert('selenium test');")
driver.execute_script("confirm('confirm?');")

In [None]:
# focus alert
alert = driver.switch_to_alert()

In [None]:
# get alert text
alert.text

In [32]:
driver.find_element_by_css_selector( "#q" ).send_keys( "패스트캠퍼스" )

In [33]:
driver.find_element_by_css_selector(".ico_pctop.btn_search").click()
# driver.find_element_by_css_selector("#daumBtnSearch").click()

In [None]:
# close driver 
driver.close()

## close all driver

for window in driver.window_handles:
    driver.switch_to_window(window)
    driver.close()

-----------------

In [None]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

# 드라이버 생성
# chromedriver 설치된 경로를 정확히 기재해야 함
# driver = webdriver.Chrome('/usr/local/Cellar/chromedriver/chromedriver') # 맥 
driver = webdriver.PhantomJS('/usr/local/Cellar/phantomjs/2.1.1/bin/phantomjs') # 맥


# 크롤링할 사이트 호출
driver.get("http://www.python.org")

# Selenium은 웹테스트를 위한 프레임워크로 다음과 같은 방식으로 웹테스트를 자동으로 진행함 (참고)
assert "Python" in driver.title

# <input id="id-search-field" name="q" 검색창 name으로 검색하기
# 태그 name으로 특정한 태그를 찾을 수 있음
elem = driver.find_element_by_name("q")

# input 텍스트 초기화 
# elem.clear()

# 키 이벤트 전송가능함
# 태그가 input 태그이므로 입력창에 키이벤트가 전달되면, 입력값이 자동으로 작성됨
elem.send_keys("pycon")

# 태그가 input 태그이므로 엔터 입력시 form action이 진행됨
elem.send_keys(Keys.RETURN)

# Selenium은 웹테스트를 위한 프레임워크로 다음과 같은 방식으로 웹테스트를 자동으로 진행함 (참고)
assert "No results found." not in driver.page_source

# 명시적으로 일정시간을 기다릴 수 있음 (10초 기다림)
time.sleep(10)

# 스크린샷도 찍을 수 있습니다.
driver.set_window_size(1400, 1000)
elem.screenshot("pycon_event.png")
assert "No results found." not in driver.page_source

############################################
title = driver.find_element_by_tag_name('h3')
print (title.text)

# 모든 태그 검색
h3s = driver.find_elements_by_tag_name('h3')

for h3 in h3s:
    print (h3.text)
    
# or by css selector 
title = driver.find_element_by_css_selector("h3.tit_view")

# role attribute가 navigation인 div태그
nav = driver.find_element_by_css_selector("div[role='navigation']")


############################################
title_data = driver.find_element_by_css_selector('html head title')
print(title_data.get_attribute('text'))

title_data = driver.find_element_by_css_selector('html > title')
# head 태그 안에 있는 title 정보는 get_attribute('text') 메서드로 추출할 수 있습니다. 
print(title_data.get_attribute('text'))

contents = driver.find_element_by_css_selector("div#harmonyContainer")
# body 안에 있는 태그 요소는 .text 로 추출할 수 있습니다. (출력이 잘 안되면, 둘다 써보셔도 좋습니다.)
print(contents.text)

for p in contents.find_elements_by_tag_name('p'):
    print (p.text)

driver.quit()



#### Can handle time for loading or cheating to avoid being blocked 


In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC


driver = webdriver.PhantomJS('/usr/local/Cellar/phantomjs/2.1.1/bin/phantomjs')
driver.get('http://v.media.daum.net/v/20170202180355822')
try:
    # id가 cMain인 tag를 10초 내에 검색, 그렇지 않으면 timeoutexception 발생
    element = WebDriverWait(driver, 10).until(
        # By.ID 는 ID로 검색, By.CSS_SELECTOR 는 CSS Selector 로 검색
        EC.presence_of_element_located((By.ID, "cMain"))
    )
    print(element.text)

except TimeoutException:
    print("해당 페이지에 cMain 을 ID 로 가진 태그가 존재하지 않거나, 해당 페이지가 10초 안에 열리지 않았습니다.")
    
finally:
    driver.quit()

#### 웹사이트 자동 조작하는 방법

  - element 클릭: element.click()
  - element 더블 클릭: element.double_click()
  - element 키보드 입력 전송: element.send_keys()
  - element 로 마우스 이동: element.move_to_element()

In [None]:
from selenium import webdriver
from selenium.webdriver.remote.webelement import WebElement
from selenium.webdriver.common.keys import Keys
from selenium.webdriver import ActionChains

driver = webdriver.PhantomJS('/usr/local/Cellar/phantomjs/2.1.1/bin/phantomjs')
driver.get("http://pythonscraping.com/pages/files/form.html")

firstnameField = driver.find_element_by_name("firstname")
lastnameField = driver.find_element_by_name("lastname")
submitButton = driver.find_element_by_id("submit")

firstnameField.send_keys("Doky")
lastnameField.send_keys("Kim")
submitButton.click()

print(driver.find_element_by_tag_name("body").text)

driver.close()

- ActionChains(): 행동 여러 개를 체인 으로 묶어서 저장하고 원하는 만큼 실행
- perform() 메서드 실행시 전체 행동을 실행함

In [None]:
from selenium import webdriver
from selenium.webdriver.remote.webelement import WebElement
from selenium.webdriver.common.keys import Keys
from selenium.webdriver import ActionChains

driver = webdriver.PhantomJS('/usr/local/Cellar/phantomjs/2.1.1/bin/phantomjs')
driver.get("http://pythonscraping.com/pages/files/form.html")

firstnameField = driver.find_element_by_name("firstname")
lastnameField = driver.find_element_by_name("lastname")
submitButton = driver.find_element_by_id("submit")

actions = ActionChains(driver).click(firstnameField).send_keys("Doky").click(lastnameField).send_keys("Kim").send_keys(Keys.RETURN)
actions.perform()

print(driver.find_element_by_tag_name("body").text)

driver.close()

###### What I've done


In [None]:
from selenium import webdriver
import requests, json

url = "http://stats.nba.com/stats/leaguedashteamstats?Conference=&DateFrom=&DateTo=&Division=&GameScope=&GameSegment=&LastNGames=0&LeagueID=00&Location=&MeasureType=Base&Month=0&OpponentTeamID=0&Outcome=&PORound=0&PaceAdjust=N&PerMode=PerGame&Period=0&PlayerExperience=&PlayerPosition=&PlusMinus=N&Rank=N&Season=2017-18&SeasonSegment=&SeasonType=Regular+Season&ShotClockRange=&StarterBench=&TeamID=0&VsConference=&VsDivision="
driver = webdriver.Chrome()
driver.get(url)

response = driver.find_element_by_css_selector("pre").text
json_data = json.loads(response)

driver.close()

columns = json_data['resultSets'][0]['headers']
len(columns)

In [None]:
datas = json_data['resultSets'][0]['rowSet']
len(datas)

In [None]:
df = pd.DataFrame(datas, columns=columns)
df.sort_values("PTS", ascending=False).reset_index(drop=True)
df.tail()

In [None]:
columns_filter = ["TEAM_NAME", "GP", "W", "L", "W_PCT", "MIN", "FGM"]
columns_rename = {"TEAM_NAME":"TEAM", "W_PCT":"WIN%"}

df_filter = df.filter(items=columns_filter)
df_filter.tail()

In [None]:
df_rename = df_filter.rename(columns=columns_rename)
df_rename.tail()

In [None]:
import requests
from selenium import webdriver
import json

driver = webdriver.Chrome()

driver.get("http://stats.nba.com/stats/leaguedashteamstats?Conference=&DateFrom=&DateTo=&Division=&GameScope=&GameSegment=&LastNGames=0&LeagueID=00&Location=&MeasureType=Base&Month=0&OpponentTeamID=0&Outcome=&PORound=0&PaceAdjust=N&PerMode=PerGame&Period=0&PlayerExperience=&PlayerPosition=&PlusMinus=N&Rank=N&Season=2017-18&SeasonSegment=&SeasonType=Regular+Season&ShotClockRange=&StarterBench=&TeamID=0&VsConference=&VsDivision=")

pre = driver.find_element_by_css_selector("pre").text
data = json.loads(pre)


teams = data["resultSets"][0]["rowSet"]
print(len(teams))

columns = data["resultSets"][0]["headers"]
print(len(columns))

df = pd.DataFrame(columns=[columns] )

for idx in range(len(teams)):
    df.loc[len(df)] = teams[idx]
    
df = df.drop("TEAM_ID", axis=1)
df = df.drop("CFPARAMS", axis=1)
df= df.sort_values(by= "PTS_RANK").reset_index(drop = True)

driver.close()

df

In [None]:
### Selenium image screenshot

# Install Pillow 
# - 이미지를 컨트롤 하기위한 python 패키지인 Pillow를 설치합니다.
# - `pip3 install pillow`
# - http://pillow.readthedocs.io/en/3.1.x/reference/Image.html

import time
from selenium import webdriver
from PIL import Image as pil

# pil??

# 브라우져를 열고 youtube 페이지로 이동하여 브라우져 화면을 이미지로 저장합니다. 
driver =  webdriver.Chrome()
driver.get("https://www.youtube.com/watch?v=tXOJIBPwSyo&t=200s") # t=200s -> 200초부터 재생 가능 -> 이것을 이용해 영상이미지를 추출하는데 활용가능 
time.sleep(1)
driver.save_screenshot('screenshot.png')

##### show image

# 저장된 이미지파일의 사이즈와 이미지를 pillow를 이용하여 확인 합니다.
pil_im = pil.open('screenshot.png')
print(pil_im.size)
pil_im

##### change image size

# pillow를 이용하여 512*512 사이즈로 이미지의 크기를 변환합니다.
pil_im.thumbnail((512, 512))
pil_im.save("screenshot_thumnail.png")
pil.open('screenshot_thumnail.png')

##### select element image
# - 이미지의 특정 영역을 자를수 있습니다.
# - 모니터의 해상도에 따라서 위치를 계산하는 방법에 차이가 있을수 있습니다.

# 특정 selector의 element의 위치와 사이즈 데이터를 확인합니다.
element = driver.find_element_by_css_selector('#movie_player')
location = element.location
size = element.size
location, size

# 저장했던 원본이미지를 열어 top, bottom, right, left의 위치를 계산합니다.
pil_im = pil.open('screenshot.png')
left = location['x'] * 2
top = location['y'] * 2
right = left + size['width'] * 2
bottom = top + size['height'] * 2
area = (left, top, right, bottom)
area
# retina에서 해상도를 위해 모든 요소에 * 2를 한다. 

# pillow를 이용하여 계산된 위치로 이미지를 잘라줍니다.
pil_im = pil_im.crop(area) 

# 자른 이미지를 저장하고 저장된 이미지를 보여줍니다.
pil_im.save("screenshot_element.png")
driver.close()

pil.open('screenshot_element.png')


In [None]:
import time
from selenium import webdriver

driver =  webdriver.Chrome()

driver.get('https://cloud.google.com/vision/')

# ------------------------------------------------------
# - google vision api test 페이지에 이미지 업로드해서 결과 확인
# - 파일 업로드 영역이 iframe으로 되어 있어 iframe으로 포커스 이동

iframe = driver.find_element_by_css_selector("#vision_demo_section > iframe")
driver.switch_to_frame(iframe)

# switch back default content
driver.switch_to_default_content()

path = !pwd

file_path = path[0] + "/screenshot_element.png"
driver.find_element_by_css_selector("").send_keys(file_path)

driver.find_element_by_css_selector("#webDetection").click()
print(driver.find_elements_by_css_selector('.vs-web .name')[0].text)
driver.close()

 - Selenium으로 크롤링 할때는, 자주 element나 데이터가 불러왔는지 체크를 하는게 중요하다. 그냥 10초 기다리면 나오겠지하고 기다리기만 하면 혼난다.!
 

In [None]:
def check_element(driver, selector):
    try:
        driver.find_element_by_css_selector(selector)
        return True
    except:
        return False
    
driver =  webdriver.Chrome()
driver.get('https://cloud.google.com/vision/')

iframe = driver.find_element_by_css_selector("#vision_demo_section iframe")
driver.switch_to_frame(iframe)
file_path = path[0] + "/screenshot_element.png"
driver.find_element_by_css_selector("#input").send_keys(file_path)

selector = '.vs-web .name'
sec, limit_sec = 0, 10
while True:
    sec += 1
    print("{}sec".format(sec))
    time.sleep(1)
    
    # element 확인
    if check_element(driver, selector):
        driver.find_element_by_css_selector("#webDetection").click()
        result = driver.find_elements_by_css_selector(selector)[0].text
        print(result)
        driver.close()
        break;
        
    # limit_sec가 넘어가면 에러 처리
    if sec + 1 > limit_sec:
        print("error")
        driver.close()
        break;

In [None]:
# 댓글 크롤링 했던 것 

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException

driver =  webdriver.PhantomJS('/usr/local/Cellar/phantomjs/2.1.1/bin/phantomjs')
driver.get("http://v.media.daum.net/v/20170922175202762")
#print(driver.current_url)
try:
    elem = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.ID, 'alex-area'))
    )
        
finally:
    while True:
        try:
            elem = WebDriverWait(driver, 5).until(
               EC.presence_of_element_located((By.CSS_SELECTOR, '#alex-area > div > div > div > div.cmt_box > div.alex_more > a > span:nth-child(1)'))
            )            
            more_button = driver.find_element_by_css_selector('#alex-area > div > div > div > div.cmt_box > div.alex_more > a > span:nth-child(1)')
            
            action = webdriver.ActionChains(driver).move_to_element(more_button).click(more_button)
            action.perform()
        except:
            break
            
replies = driver.find_elements_by_class_name('desc_txt')

for i, reply in enumerate(replies):
        
    print('{}] {}'.format(i+1, reply.text),end='\n\n')
           

In [None]:
# Facebook에 로그인 하는 것 
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException 
from selenium.webdriver.common.keys import Keys
from selenium.webdriver import ActionChains
from selenium.webdriver.remote.webelement import WebElement
import webbrowser
# email과 password를 입력 받는다. 
Email = input("Email or Mobile number, please")
Password = input('password, please')

login_url = 'https://www.facebook.com/'
#driver =  webdriver.PhantomJS('/usr/local/Cellar/phantomjs/2.1.1/bin/phantomjs')
chromedriver = '/Users/MAC/Desktop/seleniumpratice/chromedriver' # 맥
driver = webdriver.Chrome(chromedriver)
driver.get(login_url)
# driver가 url 안의 html을 가지게 된다.
# 페이스북에서 로그인이 되어있다면, 로그인 form이 없으므로, try 문은 에러가 난다. 이때는
# 이미 로그인 되어있다고 메세지를 출력한다. 
try:
    element = WebDriverWait(driver, 5).until(
        EC.presence_of_element_located((By.ID, "login_form"))
    )
    # actionchains를 이용해 email, password각각에 값을 넣어주고 엔터를 눌러준다.
    email = driver.find_element_by_css_selector('#email')
    password = driver.find_element_by_css_selector('#pass')
    loginbutton = driver.find_element_by_xpath('//*[@id="u_0_9"]')

    action = webdriver.ActionChains(driver).click(email).send_keys(Email).click(password).send_keys(Password).send_keys(Keys.RETURN)

    action.perform()
    #혹시 입력한 email이나 password가 잘못되었으면, 로그인 창만 있는 페이지로 바뀐다.
    # 이때 password나 email이 잘못되었다고 신호를 준다. 
    try: 
        driver.find_element_by_id('email')
        print("you got wrong id or password") 
    except: 
        webbrowser.open(login_url)

except TimeoutException:
    print('You already logged in!')
    
finally:
    driver.quit()
    


##### Gmarket 베스트 셀러 데이터 스크래핑 
- 전체 200개중 상위 10개 출력
- pandas 데이터를 분석할수 있는 python 라이브러리
    - pip3 install pandas
    - 데이터 프레임 생성 : df = pd.DataFrame(columns=["A","B"])
    - 데이터 추가 : df.loc[len(df)] = [{"A":1,"B":2}, {"A":3,"B":4}]

In [1]:
from selenium import webdriver
import pandas as pd

In [2]:
def get_gmarket_bestsellers(number=10):
    
    def to_int(price):
        return int(price.replace(",","").replace("원",""))
    
    driver =  webdriver.Chrome()
    driver.get('http://corners.gmarket.co.kr/Bestsellers')

    bestlist_selector = driver.find_elements_by_css_selector("#gBestWrap .best-list")[1]
    items = bestlist_selector.find_elements_by_css_selector("li")[:number]
    
    df = pd.DataFrame(columns=["상품명","원가","판매가","이미지","상품링크"])
    
    for item in items:

        idx = item.find_element_by_css_selector("p").text # 순번
        img_link = item.find_element_by_css_selector("img").get_attribute("src") # 이미지 URL
        item_link = item.find_element_by_css_selector(".itemname").get_attribute("href") # 아이템 URL
        content = item.find_element_by_css_selector(".itemname").text # 아이템 텍스트
        o_price = item.find_element_by_css_selector(".item_price .o-price").text # 오리지날 가격
        s_price = item.find_element_by_css_selector(".item_price .s-price").text.split(" ")[0] # 판매 가격
        o_price = o_price if o_price else s_price # 원가 데이터가 없는경우 판매가를 대입
        
        data = {"상품명": content,
                "원가": to_int(o_price), 
                "판매가": to_int(s_price),
                "이미지": img_link, 
                "상품링크": item_link, }
        
        # Pandas 데이터 입력
        df.loc[len(df)] = data
        
    driver.close()
    return df

In [3]:
%%time
result = get_gmarket_bestsellers(200)
result.tail()

Unnamed: 0,상품명,원가,판매가,이미지,상품링크
195,[삼성전자][G]삼성 TDS신가열 RE-C21KB 21L 전자레인지,90400,85880,http://gdimg.gmarket.co.kr/836058599/still/300,http://item2.gmarket.co.kr/Item/DetailView/Ite...
196,[삼성전자]인증점P 17년신형 진공청소기 VC33M2110LP 당일출고,103000,87900,http://gdimg.gmarket.co.kr/916901271/still/300,http://item2.gmarket.co.kr/Item/DetailView/Ite...
197,비앤티박스 택배박스/착한가격/당일퀵배송/최고품질/,35000,31700,http://gdimg.gmarket.co.kr/293963256/still/300,http://item2.gmarket.co.kr/Item/DetailView/Ite...
198,MAANGE 프로페셔널 메이크업 브러쉬 22종 세트-2color,29900,12900,http://gdimg.gmarket.co.kr/1156619333/still/300,http://item2.gmarket.co.kr/Item/DetailView/Ite...
199,[소프시스]소프시스 철제5단서랍,36900,28900,http://gdimg.gmarket.co.kr/1207302715/still/300,http://item2.gmarket.co.kr/Item/DetailView/Ite...


In [4]:
# Pandas로 할인율 계산
result["할인율"] = 100 - (result["판매가"] / result["원가"]) * 100
result["할인율"] = result["할인율"].astype(dtype="float64")
result["할인율"] = round(result["할인율"], 2)
result = result.sort_values("할인율", ascending=False).reset_index().rename(columns={"index": "rank"})
result.head()

Unnamed: 0,rank,상품명,원가,판매가,이미지,상품링크,할인율
0,124,[다샵]벽걸이 스탠드 에어컨커버 제습기/선풍기커버,26900,6500,http://gdimg.gmarket.co.kr/509405582/still/300,http://item2.gmarket.co.kr/Item/DetailView/Ite...,75.84
1,0,리바이스키즈 여름티셔츠/반팔/반바지/연휴특가,35000,10500,http://gdimg.gmarket.co.kr/1139276022/still/300,http://item2.gmarket.co.kr/Item/DetailView/Ite...,70.0
2,19,[슈가든]봄신상 여성 구두 힐 로퍼 단화 운동화 슬립온 종합,33000,9900,http://image.gmarket.co.kr/challenge/neo_image...,http://item2.gmarket.co.kr/Item/DetailView/Ite...,70.0
3,126,[또래친구]2018/상하복/운동복/체육복/기능성/주니어세트,53000,15900,http://gdimg.gmarket.co.kr/706563579/still/300,http://item2.gmarket.co.kr/Item/DetailView/Ite...,70.0
4,113,(키즈꼬모) 봄 상하복 6900 / 아동복 / 등원복,23000,6900,http://gdimg.gmarket.co.kr/1232338881/still/300,http://item2.gmarket.co.kr/Item/DetailView/Ite...,70.0


In [5]:
# utf-8로 인코딩한 csv 파일로 저장
result.to_csv("gmarket.csv", encoding="utf-8")

##### Naver 메일 데이터 스크래핑
- 네이버 메일에 로그인한후 데이터 가져오기

In [6]:
from selenium import webdriver
import pickle
import time

In [13]:
# 패스워드 저장하기
# pw = ""
# file = open("pw.pickle", "wb")
# pickle.dump(pw, file)

In [8]:
main_url = "http://naver.com" 
mail_url = "http://mail.naver.com"

In [9]:
# 브라우져 오픈 및 메인 사이트 이동
driver = webdriver.Chrome()
driver.get(main_url)

In [14]:
# 아이디 패스워드 입력
pw = pickle.load(open("pw.pickle", "rb")) # pw 변수에 본인의 패스워드 입력
driver.find_element_by_css_selector( "#id" ).send_keys( "1221pdj" )
driver.find_element_by_css_selector( "#pw" ).send_keys( pw )

In [15]:
# 로그인 버튼 클릭
driver.find_element_by_css_selector("span.btn_login input[type=submit]").click()

In [16]:
# 메일 페이지로 이동
driver.get(mail_url)

In [17]:
# 메일 갯수
total_mail = driver.find_element_by_css_selector("#headTotalNum").text
total_mail = int(total_mail)
total_mail

30

In [18]:
# 안읽은 메일 갯수
not_read_mail = driver.find_element_by_css_selector("#headUnreadNum").text
not_read_mail = int(not_read_mail)
not_read_mail

25

In [19]:
# 메일 제목, 보낸사람 이름 가져오기
mails = driver.find_elements_by_css_selector(".mailList.sender_context > li")
print("전체 메일수 : ", len(mails))
df = pd.DataFrame(columns=["제목","보낸사람","메일링크"])
for idx, mail in enumerate(mails):
    title = mail.find_element_by_css_selector(".mail_title").text
    name = mail.find_element_by_css_selector(".name").text
    link = mail.find_element_by_css_selector(".subject > a").get_attribute("href")
    df.loc[len(df)] = { "제목":title, "보낸사람":name, "메일링크":link }    
df.tail()

전체 메일수 :  30


Unnamed: 0,제목,보낸사람,메일링크
25,SMTP Send File 테스트(제목),utmostar0201@gmai..,https://mail.naver.com/read/popup/?nMailId=11887
26,SMTP Send File 테스트(제목),radajin1224@gmail.c..,https://mail.naver.com/read/popup/?nMailId=11886
27,SMTP Send HTML 테스트(제목),radajin1224@gmail.c..,https://mail.naver.com/read/popup/?nMailId=11885
28,SMTP Send Text 테스트(제목),junkoo0101@gmail.co..,https://mail.naver.com/read/popup/?nMailId=11884
29,SMTP Send Text 테스트(제목),radajin1224@gmail.c..,https://mail.naver.com/read/popup/?nMailId=11883


In [21]:
# marked 메일
mails = driver.find_elements_by_css_selector(".mailList.sender_context > li.mark")
print("전체 메일수 : ", len(mails))
df = pd.DataFrame(columns=["제목","보낸사람","메일링크"])
for idx, mail in enumerate(mails):
    title = mail.find_element_by_css_selector(".mail_title").text
    name = mail.find_element_by_css_selector(".name").text
    link = mail.find_element_by_css_selector(".subject > a").get_attribute("href")
    df.loc[len(df)] = { "제목":title, "보낸사람":name, "메일링크":link }    
df.tail()

전체 메일수 :  3


Unnamed: 0,제목,보낸사람,메일링크
0,"종로구에 있는 사람들이 ""Watch Boston Dynamics’ SpotMini ...",트위터,https://mail.naver.com/read/popup/?nMailId=11911
1,"문성근 님이 트윗함: 너무 오래 걸렸다. '친일행위' 인촌 김성수, 56년만에 건국...",트위터,https://mail.naver.com/read/popup/?nMailId=11910
2,"종로구에 있는 사람들이 ""People who think about leaving r...",트위터,https://mail.naver.com/read/popup/?nMailId=11907


In [22]:
# 읽은 메일
mails = driver.find_elements_by_css_selector(".mailList.sender_context > li:not(.notRead)")
print("total mails: ", len(mails))
df = pd.DataFrame(columns=["제목","보낸사람","메일링크"])
for idx, mail in enumerate(mails):
    title = mail.find_element_by_css_selector(".mail_title").text
    name = mail.find_element_by_css_selector(".name").text
    link = mail.find_element_by_css_selector(".subject > a").get_attribute("href")
    df.loc[len(df)] = { "제목":title, "보낸사람":name, "메일링크":link }    
df.tail()

total mails:  5


Unnamed: 0,제목,보낸사람,메일링크
0,Google SMTP로 메일 보내기,radajin1224@gmail.c..,https://mail.naver.com/read/popup/?nMailId=11893
1,Google SMTP로 메일 보내기,radajin1224@gmail.c..,https://mail.naver.com/read/popup/?nMailId=11890
2,SMTP Send File 테스트(제목),radajin1224@gmail.c..,https://mail.naver.com/read/popup/?nMailId=11886
3,SMTP Send HTML 테스트(제목),radajin1224@gmail.c..,https://mail.naver.com/read/popup/?nMailId=11885
4,SMTP Send Text 테스트(제목),radajin1224@gmail.c..,https://mail.naver.com/read/popup/?nMailId=11883


In [23]:
# 로그아웃
logout_url = driver.find_element_by_css_selector(".gnb_btn_login").get_attribute("href")
driver.get(logout_url)

In [24]:
# 브라우져 닫기
driver.close()