In [1]:
from selenium import webdriver

### Selenium
- https://www.seleniumhq.org
- 기본 사용법
- 파일 업로드
    - google vision api 웹페이지에 이미지 파일을 업로드, 결과 데이터를 수집
- 웹데이터 스크래핑
    - gmarket 페이지 베스트셀러 200 상품 수집
    - 네이버 본인 계정의 메일 수집
- 자동화
    - 특정 워드프레스 사이트의 게시물에 댓글 자동으로 달기
- 이미지 스크린샷
    - youtube 영상 이미지를 크롤링
    - pillow : python에서 이미지 처리에 관련된 패키지

#### 셀레니움 기본 사용법

In [3]:
# 브라우져 열기
driver = webdriver.Chrome()

In [4]:
# 페이지 이동
driver.get("http://naver.com")

In [7]:
# 윈도우 사이즈 조절
driver.set_window_size(800, 600)

In [13]:
# 브라우져의 스크롤 조절
script = "window.scrollTo(200,30);"
driver.execute_script(script)

In [14]:
# 윈도우 객체 저장
main_window = driver.current_window_handle
main_window

'CDwindow-AE477A21B6C973D94760C102BF1AF951'

In [15]:
# 윈도우 탭 열기
script = "window.open('http://google.com');"
driver.execute_script(script)

In [17]:
driver.current_window_handle

'CDwindow-AE477A21B6C973D94760C102BF1AF951'

In [18]:
# 현재 열려있는 윈도우 객체 확인
windows = driver.window_handles
windows

['CDwindow-AE477A21B6C973D94760C102BF1AF951',
 'CDwindow-30A073E740A94FE8406BE0A49940A958']

In [19]:
# 현재 윈도우 핸들 변경
driver.switch_to_window(windows[1])

In [20]:
driver.current_window_handle

'CDwindow-30A073E740A94FE8406BE0A49940A958'

In [21]:
driver.switch_to_window(main_window)

In [23]:
# 페이지 새로고침
scirpt = "location.reload();"
driver.execute_script(scirpt)

In [24]:
# alert 메시지 처리
scirpt = "alert('selenium test');"
driver.execute_script(scirpt)

In [25]:
alert = driver.switch_to_alert()
alert.text

'selenium test'

In [26]:
alert.accept()

In [27]:
# confirm 메시지 처리
script = "confirm('dss8')"
driver.execute_script(script)

In [28]:
confirm = driver.switch_to_alert()
confirm.text

'dss8'

In [29]:
# confirm.accept() # 확인 버튼 클릭
confirm.dismiss() # 취소 버튼 클릭

In [30]:
# input 창에 문자열 입력하기
driver.find_element_by_css_selector("#query")\
.send_keys("패스트 캠퍼스")

In [31]:
# 클릭 이벤트 발생
driver.find_element_by_css_selector("#search_btn")\
.click()

In [32]:
# 창닫기
driver.close()

In [33]:
# 브라우져 닫기
driver.quit()

#### 파일 업로드
- google vision api 페이지에 이미지 파일을 업로드
- iframe으로 이동

In [34]:
# 구글 비전 api 페이지로 이동
url = "https://cloud.google.com/vision/"
driver = webdriver.Chrome()
driver.get(url)

In [37]:
# iframe으로 이동
iframe = driver.find_element_by_css_selector\
("#vision_demo_section > iframe")
driver.switch_to_frame(iframe)

In [36]:
# 메인 프레임으로 돌아가기
# driver.switch_to_default_content()

In [38]:
# 파일 업로드
# 파일 경로는 절대경로로 작성해주셔야 합니다.
file_path = "/Users/rada/Documents/fastcampus/dss8/04_web/test/dog.png"
driver.find_element_by_css_selector("#input")\
.send_keys(file_path)

In [39]:
# 웹 데이터 가져오기
driver.find_element_by_css_selector("#webDetection")\
.click()

In [43]:
web_results = driver.find_elements_by_css_selector\
("#card .container > .row")[:15]
for web_result in web_results:
    print(
    web_result.find_element_by_css_selector(".name")\
    .text,
    web_result.find_element_by_css_selector(".score")\
    .text
    )

French Bulldog 1.28974
Boston Terrier 1.27957
Bulldog 1.27812
Bull Terrier 1.0645
Soft-coated Wheaten Terrier 0.99607
Puppy 0.9774
Border Collie 0.78226
Terrier 0.6299
Pet 0.6124
Brindle 0.5512
Dog breed 0.4954
Veterinarian 0.4236
Breed 0.4157
Black Brindle 0.3985
Dog 0


In [45]:
# 텍스트 데이터 가져오기
driver.find_element_by_css_selector("#fullTextAnnotation")\
.click()

In [48]:
document_results = driver.find_elements_by_css_selector\
(".page > .container.style-scope.vs-document > fieldset")
len(document_results)

2

In [53]:
documents = []
for document_result in document_results:
    words = document_result.find_elements_by_css_selector\
    ('.container .word')
    sentencce_list = []
    for word in words:
        word = word.text.replace(" ","")
        sentencce_list.append(word)
    documents.append(" ".join(sentencce_list))
documents

['In the dog house', "' 인기를 잃다 , 면목을 잃다"]

In [54]:
driver.quit()

#### 스크래핑
- gmarket 베스트 셀러 데이터를 수집

In [55]:
url = "http://corners.gmarket.co.kr/Bestsellers"
driver = webdriver.Chrome()
driver.get(url)

In [61]:
items = driver.find_elements_by_css_selector(".best-list:nth-child(3) > ul > li")
len(items)

200

In [71]:
dict_list = []
for item in items:
    dict_list.append({
        "title": item.find_element_by_css_selector('.itemname').text,
        "s-price": item.find_element_by_css_selector('.s-price').text\
        .split(" ")[0].replace(",","")[:-1],
        "o-price": item.find_element_by_css_selector('.o-price').text\
        .split(" ")[0].replace(",","")[:-1],
        "link": item.find_element_by_css_selector('.itemname').get_attribute("href"),
    })
df = pd.DataFrame(dict_list)    
df

Unnamed: 0,link,o-price,s-price,title
0,http://item.gmarket.co.kr/Item?goodscode=13005...,20000,12900,[하림]하림 프로라인 치킨너겟 1kg 2봉+치킨너겟 100g(증정)
1,http://item.gmarket.co.kr/Item?goodscode=94765...,65900,19900,티셔츠5장9900 원피스/티셔츠/린넨팬츠 세트
2,http://item.gmarket.co.kr/Item?goodscode=14413...,100000,49900,[풍년]PN풍년 럭키 반값박스 (압력솥+프라이팬+냄비+사은품)
3,http://item.gmarket.co.kr/Item?goodscode=91202...,27100,16900,CJ 햇반210gx24개/오뚜기밥24개/컵밥10개/컵반
4,http://item.gmarket.co.kr/Item?goodscode=62724...,19500,5900,더다다/원피스형 롱티/신상/루즈/박시/빅사이즈
5,http://item.gmarket.co.kr/Item?goodscode=14298...,29000,14900,나이키 스우시 라운드 티셔츠
6,http://item.gmarket.co.kr/Item?goodscode=63617...,30000,12900,[동원샘물미네마인]동원 샘물 2Lx9병x3팩(총 27병) /생수
7,http://item.gmarket.co.kr/Item?goodscode=85712...,32900,9900,[영실업]포터리스쿨 도자기스튜디오 LOL서프라이즈 주얼젤리
8,http://item.gmarket.co.kr/Item?goodscode=86949...,29600,8900,유스타일팜 여름신상/빅사이즈/밴딩/데님/스커트
9,http://item.gmarket.co.kr/Item?goodscode=13529...,19200,5900,여름신상/롱티셔츠/반바지/원피스/블라우스/팬츠


In [74]:
is_nodata = df["o-price"] == ""
df["o-price"][is_nodata]

19     
24     
38     
56     
65     
84     
96     
98     
104    
122    
134    
144    
162    
168    
Name: o-price, dtype: object

In [75]:
df["s-price"][is_nodata]

19      7000
24     39800
38     11800
56     53000
65     39500
84      7900
96      7000
98     19800
104    20900
122     6900
134     6900
144    23220
162    24500
168    11900
Name: s-price, dtype: object

In [76]:
df["o-price"][is_nodata] = df["s-price"][is_nodata]

In [77]:
df

Unnamed: 0,link,o-price,s-price,title
0,http://item.gmarket.co.kr/Item?goodscode=13005...,20000,12900,[하림]하림 프로라인 치킨너겟 1kg 2봉+치킨너겟 100g(증정)
1,http://item.gmarket.co.kr/Item?goodscode=94765...,65900,19900,티셔츠5장9900 원피스/티셔츠/린넨팬츠 세트
2,http://item.gmarket.co.kr/Item?goodscode=14413...,100000,49900,[풍년]PN풍년 럭키 반값박스 (압력솥+프라이팬+냄비+사은품)
3,http://item.gmarket.co.kr/Item?goodscode=91202...,27100,16900,CJ 햇반210gx24개/오뚜기밥24개/컵밥10개/컵반
4,http://item.gmarket.co.kr/Item?goodscode=62724...,19500,5900,더다다/원피스형 롱티/신상/루즈/박시/빅사이즈
5,http://item.gmarket.co.kr/Item?goodscode=14298...,29000,14900,나이키 스우시 라운드 티셔츠
6,http://item.gmarket.co.kr/Item?goodscode=63617...,30000,12900,[동원샘물미네마인]동원 샘물 2Lx9병x3팩(총 27병) /생수
7,http://item.gmarket.co.kr/Item?goodscode=85712...,32900,9900,[영실업]포터리스쿨 도자기스튜디오 LOL서프라이즈 주얼젤리
8,http://item.gmarket.co.kr/Item?goodscode=86949...,29600,8900,유스타일팜 여름신상/빅사이즈/밴딩/데님/스커트
9,http://item.gmarket.co.kr/Item?goodscode=13529...,19200,5900,여름신상/롱티셔츠/반바지/원피스/블라우스/팬츠


In [86]:
# 할인율 컬럼 추가하기 (소수점 없이 (ex: 27%))
# object로 되어 있는 series를 int로 형변환하여 할인율을 구합니다.
df["discount_rate"] = round(1 - df["s-price"].astype("int") / df["o-price"].astype("int"), 2) * 100
# 소수점 (.0) 제거
df["discount_rate"] = df["discount_rate"].astype("int")
# % 추가
df["discount_rate"] = df["discount_rate"].astype("str")
df["discount_rate"] += "%"
df

Unnamed: 0,link,o-price,s-price,title,discount_rate
0,http://item.gmarket.co.kr/Item?goodscode=13005...,20000,12900,[하림]하림 프로라인 치킨너겟 1kg 2봉+치킨너겟 100g(증정),36%
1,http://item.gmarket.co.kr/Item?goodscode=94765...,65900,19900,티셔츠5장9900 원피스/티셔츠/린넨팬츠 세트,70%
2,http://item.gmarket.co.kr/Item?goodscode=14413...,100000,49900,[풍년]PN풍년 럭키 반값박스 (압력솥+프라이팬+냄비+사은품),50%
3,http://item.gmarket.co.kr/Item?goodscode=91202...,27100,16900,CJ 햇반210gx24개/오뚜기밥24개/컵밥10개/컵반,38%
4,http://item.gmarket.co.kr/Item?goodscode=62724...,19500,5900,더다다/원피스형 롱티/신상/루즈/박시/빅사이즈,70%
5,http://item.gmarket.co.kr/Item?goodscode=14298...,29000,14900,나이키 스우시 라운드 티셔츠,49%
6,http://item.gmarket.co.kr/Item?goodscode=63617...,30000,12900,[동원샘물미네마인]동원 샘물 2Lx9병x3팩(총 27병) /생수,56%
7,http://item.gmarket.co.kr/Item?goodscode=85712...,32900,9900,[영실업]포터리스쿨 도자기스튜디오 LOL서프라이즈 주얼젤리,70%
8,http://item.gmarket.co.kr/Item?goodscode=86949...,29600,8900,유스타일팜 여름신상/빅사이즈/밴딩/데님/스커트,70%
9,http://item.gmarket.co.kr/Item?goodscode=13529...,19200,5900,여름신상/롱티셔츠/반바지/원피스/블라우스/팬츠,69%


In [87]:
driver.quit()

#### 워드프레스 사이트에 댓글 쓰기
- 2개의 계정, 2개의 메시지를 2개의 게시글에 자동으로 작성
- https://radajin661456067.wordpress.com/

In [88]:
# 페이지 열기
url = "https://radajin661456067.wordpress.com/"
driver = webdriver.Chrome()
driver.get(url)

In [90]:
# 게시물 링크 가져오기
links = []
articles = driver.find_elements_by_css_selector("#main > article")
for article in articles:
    links.append(
        article.find_element_by_css_selector(".entry-title > a").get_attribute("href")
    )
links

['https://radajin661456067.wordpress.com/2018/06/21/%ed%85%8c%ec%8a%a4%ed%8a%b8/',
 'https://radajin661456067.wordpress.com/2018/06/21/%ec%b2%ab-%eb%b2%88%ec%a7%b8-%eb%b8%94%eb%a1%9c%ea%b7%b8-%ea%b8%80/']

In [91]:
# 링크로 이동
driver.get(links[0])

In [92]:
# 스크롤 내리기
script = "window.scrollTo(0, 10000)"
driver.execute_script(script)

In [93]:
# 댓글창 클릭
driver.find_element_by_css_selector("#comment-form-comment").click()

In [95]:
# 댓글 내용 작성
driver.find_element_by_css_selector("#comment").send_keys("데이터 사이언스 스쿨 8기")

In [96]:
# 스크롤 내리기
script = "window.scrollTo(0, 10000)"
driver.execute_script(script)

In [97]:
# 이메일과 이름 넣기
import time
time.sleep(3)
driver.find_element_by_css_selector("#email").clear()
driver.find_element_by_css_selector("#email").send_keys("1221pdj@naver.com")
time.sleep(1)
driver.find_element_by_css_selector("#author").clear()
driver.find_element_by_css_selector("#author").send_keys("park")

In [98]:
# 댓글 작성 버튼 클릭
driver.find_element_by_css_selector("#comment-submit").click()

In [100]:
driver.quit()

In [103]:
def write_comment(driver, link, msg, email, name):
    driver.get(link)
    script = "window.scrollTo(0, 10000)"
    driver.execute_script(script)
    time.sleep(3)
    driver.find_element_by_css_selector("#comment-form-comment").click()
    driver.find_element_by_css_selector("#comment").send_keys(msg)
    script = "window.scrollTo(0, 10000)"
    driver.execute_script(script)
    time.sleep(1)
    driver.find_element_by_css_selector("#email").clear()
    driver.find_element_by_css_selector("#email").send_keys("1221pdj@naver.com")
    time.sleep(1)
    driver.find_element_by_css_selector("#author").clear()
    driver.find_element_by_css_selector("#author").send_keys("park")
    script = "window.scrollTo(0, 10000)"
    driver.execute_script(script)
    time.sleep(1)
    driver.find_element_by_css_selector("#comment-submit").click()

In [106]:
links

['https://radajin661456067.wordpress.com/2018/06/21/%ed%85%8c%ec%8a%a4%ed%8a%b8/',
 'https://radajin661456067.wordpress.com/2018/06/21/%ec%b2%ab-%eb%b2%88%ec%a7%b8-%eb%b8%94%eb%a1%9c%ea%b7%b8-%ea%b8%80/']

In [105]:
driver = webdriver.Chrome()
write_comment(driver, links[0], "한국 축구 화이팅!", "1221pdj@naver.com", "park")
driver.quit()

In [104]:
driver.quit()

In [108]:
users = [
    {"email":"1221pdj@naver.com", "name":"park"},
    {"email":"pdj1224@daum.net", "name":"lee"},
]
msgs = ["한국축구 이대로 좋은가?", "멕시코전은 꼭 열심히 하길..."]

driver = webdriver.Chrome()

for user in users:
    for msg in msgs:
        for link in links:
            print(user["email"], msg, end=" - ")
            try:
                write_comment(driver, link, msg, user["email"], user["name"])
                print("성공")
            except:
                print("실패")
                
            time.sleep(1)

1221pdj@naver.com 한국축구 이대로 좋은가? - 성공
1221pdj@naver.com 한국축구 이대로 좋은가? - 성공
1221pdj@naver.com 멕시코전은 꼭 열심히 하길... - 성공
1221pdj@naver.com 멕시코전은 꼭 열심히 하길... - 성공
pdj1224@daum.net 한국축구 이대로 좋은가? - 성공
pdj1224@daum.net 한국축구 이대로 좋은가? - 성공
pdj1224@daum.net 멕시코전은 꼭 열심히 하길... - 성공
pdj1224@daum.net 멕시코전은 꼭 열심히 하길... - 성공


In [110]:
driver.quit()

#### 네이버 메일 크롤링
- 네이버 페이로 이동
- 아이디 패스워드로 로그인
- 전체 메일수, 안읽은 메일수
- 메일 제목과 요약을 데이터 프레임으로 만들기

In [111]:
main_url = "http://naver.com"
mail_url = "http://mail.naver.com"

In [112]:
# 네이버 페이지 이동
driver = webdriver.Chrome()
driver.get(main_url)

In [113]:
with open("pw.plk", "wb") as f:
    pickle.dump("1234", f)

In [115]:
pw = pickle.load(open("pw.plk", "rb"))
pw

'1234'

In [116]:
pw = pickle.load(open("../test/pw.plk", "rb"))

In [117]:
# 아이디 패스워드 입력
driver.find_element_by_css_selector("#id").send_keys("1221pdj")
driver.find_element_by_css_selector("#pw").send_keys(pw)

In [118]:
# 로그인 버튼 클릭
driver.find_element_by_css_selector("span.btn_login > input[type=submit]").click()

In [119]:
# 메일 페이지로 이동
driver.get(mail_url)

In [120]:
# 전체 메일 갯수 가져오기
total_mail_count = driver.find_element_by_css_selector("#headTotalNum").text
total_mail_count

'337'

In [121]:
# 안읽은 메일 갯수 가져오기
unread_mail_count = driver.find_element_by_css_selector("#headUnreadNum").text
unread_mail_count

'326'

In [126]:
# 메일 데이터 가져오기 - 제목, 보낸사람, 메일링크
mails = driver.find_elements_by_css_selector(".mailList > li")
df = pd.DataFrame(columns=["제목","보낸사람","메일링크"])
for mail in mails:
    title = mail.find_element_by_css_selector(".mail_title").text
    name = mail.find_element_by_css_selector(".name").text
    link = mail.find_element_by_css_selector(".subject > a").get_attribute("href")
    df.loc[len(df)] = {"제목":title, "보낸사람":name, "메일링크":link}
df

Unnamed: 0,제목,보낸사람,메일링크
0,"트위터에서 김용민, 고발뉴스 이상호 기자, Mnet님을 팔로우해보세요!",트위터,https://mail.naver.com/read/popup/?nMailId=12258
1,"난장이를위한변명 님이 트윗함: [단독] 재일교포 여배우 A씨 ""조재현에게 화장실에서...",트위터,https://mail.naver.com/read/popup/?nMailId=12257
2,"종로구에 있는 사람들이 ""인공지능, 사람과 토론하는 단계까지 발전했다""을(를) 공유...",트위터,https://mail.naver.com/read/popup/?nMailId=12256
3,"트위터에서 JTBC 뉴스, 뉴스타파(Newstapa)-KCIJ, 문성근님을 팔로우해...",트위터,https://mail.naver.com/read/popup/?nMailId=12255
4,"트위터에서 SNOWPEACH❄, 강풀, SMTOWN GLOBAL님을 팔로우해보세요!",트위터,https://mail.naver.com/read/popup/?nMailId=12254
5,"종로구에 있는 사람들이 ""신문배달 소년, 美 메이저 신문 오너 되다""을(를) 공유했...",트위터,https://mail.naver.com/read/popup/?nMailId=12253
6,(광고) 삼성 4K UHDTV 49만원,중고나라,https://mail.naver.com/read/popup/?nMailId=12252
7,hj 님이 트윗함: 강배전 베리스트롱은 (제 기준) 천상계의 맛입니다. 가면 절대 ...,트위터,https://mail.naver.com/read/popup/?nMailId=12251
8,"트위터에서 자까, EXO, 대한민국 청와대님을 팔로우해보세요!",트위터,https://mail.naver.com/read/popup/?nMailId=12250
9,(광고) 주식투자 VIP종목 선착순 무료 받기! (100명 한정),중고나라,https://mail.naver.com/read/popup/?nMailId=12249


In [127]:
driver.quit()

#### 이미지 스크린샷
- youtube 페이지를 이미지로 스크린샷을 만들고
- 영상 있는 부분의 위치를 파악
- 영상이 있는 부분을 pillow를 이용해서 자르기
- 영상을 저장해서 위에서 실습했던 google vision api에 넣어서 결과를 확인