### Selenium Scraping

##### Gmarket 베스트 셀러 데이터 스크래핑 
- 전체 200개중 상위 10개 출력
- pandas 데이터를 분석할수 있는 python 라이브러리
    - pip3 install pandas
    - 데이터 프레임 생성 : df = pd.DataFrame(columns=["A","B"])
    - 데이터 추가 : df.loc[len(df)] = [{"A":1,"B":2}, {"A":3,"B":4}]

In [1]:
from selenium import webdriver
import pandas as pd

In [4]:
def get_gmarket_bestsellers(number=10):
    
    def to_int(price):
        return int(price.replace(",","").replace("원",""))
    
    driver =  webdriver.Chrome("C:/Users/dohan/chromedriver.exe")
    driver.get('http://corners.gmarket.co.kr/Bestsellers')

    bestlist_selector = driver.find_elements_by_css_selector("#gBestWrap .best-list")[1]
    items = bestlist_selector.find_elements_by_css_selector("li")[:number]
    
    df = pd.DataFrame(columns=["상품명","원가","판매가","이미지","상품링크"])
    
    for item in items:

        idx = item.find_element_by_css_selector("p").text # 순번
        img_link = item.find_element_by_css_selector("img").get_attribute("src") # 이미지 URL
        item_link = item.find_element_by_css_selector(".itemname").get_attribute("href") # 아이템 URL
        content = item.find_element_by_css_selector(".itemname").text # 아이템 텍스트
        o_price = item.find_element_by_css_selector(".item_price .o-price").text # 오리지날 가격
        s_price = item.find_element_by_css_selector(".item_price .s-price").text.split(" ")[0] # 판매 가격
        o_price = o_price if o_price else s_price # 원가 데이터가 없는경우 판매가를 대입
        
        data = {"상품명": content,
                "원가": to_int(o_price), 
                "판매가": to_int(s_price),
                "이미지": img_link, 
                "상품링크": item_link, }
        
        # Pandas 데이터 입력
        df.loc[len(df)] = data
        
    driver.close()
    return df

In [7]:
%%time
result = get_gmarket_bestsellers(20)
result.tail()

Wall time: 15.5 s


In [8]:
# Pandas로 할인율 계산
result["할인율"] = 100 - (result["판매가"] / result["원가"]) * 100
result["할인율"] = result["할인율"].astype(dtype="float64")
result["할인율"] = round(result["할인율"], 2)
result = result.sort_values("할인율", ascending=False).reset_index().rename(columns={"index": "rank"})
result.head()

Unnamed: 0,rank,상품명,원가,판매가,이미지,상품링크,할인율
0,1,삠뽀요/봄신상 원피스9900원 베이비 우주복 돌복,33000,9900,http://gdimg.gmarket.co.kr/900637906/still/300,http://item2.gmarket.co.kr/Item/DetailView/Ite...,70.0
1,16,[디프니]20%쿠폰 디프니 봄신상~셔츠/블라우스/원피스,42900,12900,http://image.gmarket.co.kr/challenge/neo_image...,http://item2.gmarket.co.kr/Item/DetailView/Ite...,69.93
2,14,[디프니]20%쿠폰 디프니 봄신상~롱티셔츠/맨투맨,42900,12900,http://image.gmarket.co.kr/challenge/neo_image...,http://item2.gmarket.co.kr/Item/DetailView/Ite...,69.93
3,9,더다다/신상맨투맨/후드/빅사이즈/롱티/원피스/레깅스,32900,9900,http://image.gmarket.co.kr/challenge/neo_image...,http://item2.gmarket.co.kr/Item/DetailView/Ite...,69.91
4,7,[요즘에]20%쿠폰/신상특가/청바지/슬랙스/빅사이즈,33000,10000,http://gdimg.gmarket.co.kr/189842449/still/300,http://item2.gmarket.co.kr/Item/DetailView/Ite...,69.7


In [5]:
# utf-8로 인코딩한 csv 파일로 저장
result.to_csv("gmarket.csv", encoding="utf-8")

##### Naver 메일 데이터 스크래핑
- 네이버 메일에 로그인한후 데이터 가져오기

In [10]:
from selenium import webdriver
import pickle
import time

In [31]:
# 패스워드 저장하기
pw = "dhrnclfvkf@@"
file = open("pw.pickle", "wb")
pickle.dump(pw, file)

In [32]:
main_url = "http://naver.com"
mail_url = "http://mail.naver.com"

In [33]:
# 브라우져 오픈 및 메인 사이트 이동
driver = webdriver.Chrome("C:/Users/dohan/chromedriver.exe")
driver.get(main_url)

In [34]:
# 아이디 패스워드 입력
pw = pickle.load(open("pw.pickle", "rb")) # pw 변수에 본인의 패스워드 입력
driver.find_element_by_css_selector( "#id" ).send_keys( "dohang333" )
driver.find_element_by_css_selector( "#pw" ).send_keys(pw)

In [35]:
# 로그인 버튼 클릭
driver.find_element_by_css_selector("span.btn_login input[type=submit]").click()

In [37]:
# 메일 페이지로 이동
driver.get(mail_url)

In [38]:
# 메일 갯수
total_mail = driver.find_element_by_css_selector("#headTotalNum").text
total_mail = int(total_mail)
total_mail

239

In [39]:
# 안읽은 메일 갯수
not_read_mail = driver.find_element_by_css_selector("#headUnreadNum").text
not_read_mail = int(not_read_mail)
not_read_mail

0

In [40]:
# 메일 제목, 보낸사람 이름 가져오기
mails = driver.find_elements_by_css_selector(".mailList.sender_context > li")
print("전체 메일수 : ", len(mails))
df = pd.DataFrame(columns=["제목","보낸사람","메일링크"])
for idx, mail in enumerate(mails):
    title = mail.find_element_by_css_selector(".mail_title").text
    name = mail.find_element_by_css_selector(".name").text
    link = mail.find_element_by_css_selector(".subject > a").get_attribute("href")
    df.loc[len(df)] = { "제목":title, "보낸사람":name, "메일링크":link }    
df.tail()

전체 메일수 :  15


Unnamed: 0,제목,보낸사람,메일링크
10,(광고) 내 병원비 보장내용/보장금액 확인하기 : 메리츠화재 의료실비보험,my포텐,https://mail.naver.com/read/popup/?nMailId=12595
11,[my포텐 마케팅 및 제휴 (보험·상조) 경품 이벤트] 참여 경품을 드립니다. (경...,my포텐,https://mail.naver.com/read/popup/?nMailId=12594
12,[my포텐 마케팅 및 제휴 (보험·상조) 경품 이벤트] 참여해주셔서 감사합니다. (...,my포텐,https://mail.naver.com/read/popup/?nMailId=12593
13,Google SMTP로 메일 보내기,rnclfvkf@gmail.com,https://mail.naver.com/read/popup/?nMailId=12591
14,Send File 테스트,rnclfvkf@gmail.com,https://mail.naver.com/read/popup/?nMailId=12590


In [41]:
# marked 메일
mails = driver.find_elements_by_css_selector(".mailList.sender_context > li.mark")
print("전체 메일수 : ", len(mails))
df = pd.DataFrame(columns=["제목","보낸사람","메일링크"])
for idx, mail in enumerate(mails):
    title = mail.find_element_by_css_selector(".mail_title").text
    name = mail.find_element_by_css_selector(".name").text
    link = mail.find_element_by_css_selector(".subject > a").get_attribute("href")
    df.loc[len(df)] = { "제목":title, "보낸사람":name, "메일링크":link }    
df.tail()

전체 메일수 :  0


Unnamed: 0,제목,보낸사람,메일링크


In [45]:
# 읽은 메일
mails = driver.find_elements_by_css_selector(".mailList.sender_context > li:not(.notRead)")
print("total mails: ", len(mails))
df = pd.DataFrame(columns=["제목","보낸사람","메일링크"])
for idx, mail in enumerate(mails):
    title = mail.find_element_by_css_selector(".mail_title").text
    name = mail.find_element_by_css_selector(".name").text
    link = mail.find_element_by_css_selector(".subject > a").get_attribute("href")
    df.loc[len(df)] = { "제목":title, "보낸사람":name, "메일링크":link }    
df.head()

total mails:  15


Unnamed: 0,제목,보낸사람,메일링크
0,상명대학교 LINC+사업단 설문조사,김희재,https://mail.naver.com/read/popup/?nMailId=12659
1,[한국장학재단]소득산정완료안내문,한국장학재단,https://mail.naver.com/read/popup/?nMailId=12631
2,기업공동연구과제 일정,이광환,https://mail.naver.com/read/popup/?nMailId=12627
3,회원님을 위한 새로운 포지션들이 기다리고 있습니다 😀,원티드 채용소식,https://mail.naver.com/read/popup/?nMailId=12624
4,기업공동연구과제 모임 일정,이광환,https://mail.naver.com/read/popup/?nMailId=12620


In [46]:
# 로그아웃
logout_url = driver.find_element_by_css_selector(".gnb_btn_login").get_attribute("href")
driver.get(logout_url)

In [47]:
# 브라우져 닫기
driver.close()