# Crawling & Scraping

**Crawling : 웹 페이지의 하이퍼링크를 돌아다니며, 웹 페이지를 다운로드 하는 작업**

**Scraping : 다운로드한 웹 페이지에서 필요한 정보를 추출하는 작업**



1. Python에서 Crawling 

    - 언어적 특성 : 언어가 매우 쉬우며, 라이브러리를 활용할 수 있어, 바로 실무적인 사용이 가능하다. 
    - 라이브러리 활용도 : 객체지향적 특성을 가진 파이썬의 클래스를 이용해, 라이브러리의 기능을 극대화 하여 사용할 수 있다. (함수가 목록형이 아닌 독립적 객체로 사용이 가능한 형태) 
    - 스크레핑 후처리 편리성 : 수집한 데이터를 쉽게 정형데이터 형태로 변환이 가능하다. (Pandas / Numpy 라이브러리 활용) 
    

2. Crawling에 사용되는 주요 Library

    - Beautiful Soup : HTML & XML 문서 분석 라이브러리
    - Selenium : Application Testing 라이브러리 
    - Scrapy : API 및 클래스를 이용한 웹 데이터 수집 라이브러리 

# Selenium 

## MacOS Install

- 크롬 드라이버 다운로드
    - 크롬 브라우져를 사용하기 위해 크롬 드라이버를 다운로드 
    - 본인의 크롬 브라우져 버전에 맞는 드라이버를 다운로드
        - 크롬 브라우져의 설정 -> 도움말 -> Chrome 정보를 확인
    - https://sites.google.com/a/chromium.org/chromedriver/downloads

- 경로 변경
    - 크롬 드라이버를 글로벌하게 사용하기 위해서 경로를 변경해 줍니다. 
    - 경로를 수정하지 않으면 코드에서 크롬드라이버 경로를 항상 작성해 줘야 합니다.
    - `$ mv ~/Download/chromedriver /usr/local/bin`

- 셀레니움 파이썬 패키지 설치
    - `$ sudo pip install selenium`
    - `$ conda install -c conda-forge selenium`

## Windows Install


- 크롬 드라이버 다운로드
    - 크롬 브라우져를 사용하기 위해 크롬 드라이버를 다운로드
    - https://sites.google.com/a/chromium.org/chromedriver/downloads
    - https://chromedriver.storage.googleapis.com/index.html?path=2.42/


- 환경변수 추가
    - 내컴퓨터 오른쪽 클릭 -> 속성 -> 고급시스템설정 -> 환경변수 -> 시스템변수의 Path 더블클릭 -> chromedriver path를
추가
    - 예: C:₩Users₩(사용자계정이름)₩chromdriver 으로 추가
    - 환경변수 추가 후에도 드라이버가 실행되지 않는 경우에는 아래의 두가지 방법의 사용이 가능
        - 크롬 드라이버 파일을 동일한 디렉토리에 위치해서 실행
        - 크롬 드라이버를 호출하는 함수에 아규먼트로 크롬 드라이버의 파일경로를 추가
 
 
- 셀레니움 파이썬 패키지 설치
    - `$ conda install -c conda-forge selenium`
    또는
    - `$ pip install --user selenium`

**기본 사용법**

In [1]:
from selenium import webdriver

In [2]:
# 드라이버를 실행하여, 웹페이지 열기
driver = webdriver.Chrome('chromedriver')

In [3]:
# 드라이버 종료하여 웹페이지 끄기 
driver.quit()

## 예제1. 이마트 물품데이터 크롤링 

**웹사이트 접속**

In [4]:
driver = webdriver.Chrome('chromedriver')
driver.get('http://emart.ssg.com/')

In [5]:
driver.find_element_by_xpath('//*[@id="e_gnb"]/div/div[1]/div[2]/ul[1]/li[5]/a').click()

In [6]:
# (가로, 세로) - 800 * 600 픽셀의 사이즈로 오픈 
driver.set_window_size(800, 600)

In [7]:
# 전체화면으로 전환 하여 실행 
options = webdriver.chrome.options.Options()
options.add_argument('--start-fullscreen')

driver = webdriver.Chrome('chromedriver', chrome_options=options)
driver.get('http://emart.ssg.com/')

  """


In [8]:
# 좌측 메뉴에 과일 항목 추출하기 
driver.find_element_by_xpath('//*[@id="e_gnb"]/div/div[1]/div[2]/ul[1]/li[1]/a').click()

**데이터 추출해 변수로 선언하기**

In [10]:
# 데이터 추출하기 
product_name = driver.find_element_by_xpath('//*[@id="ty_thmb_view"]/ul/li[1]/div[2]/div[2]/div/a/em[1]')
product_price = driver.find_element_by_xpath('//*[@id="ty_thmb_view"]/ul/li[1]/div[2]/div[3]/div/em')

In [11]:
# 제품 이름 가져오기 
product_name.text

'[국내산] 대석자두 1kg/팩'

In [12]:
# 제품 가격 가져오기 
product_price.text

'8,980'

**반복적으로 구성되어 있는 여러 항목 추출 하기**

In [13]:
'//*[@id="ty_thmb_view"]/ul/li[1]/div[2]/div[2]/div/a/em[1]'
'//*[@id="ty_thmb_view"]/ul/li[3]/div[2]/div[2]/div/a/em[1]'

'//*[@id="ty_thmb_view"]/ul/li[3]/div[2]/div[2]/div/a/em[1]'

In [14]:
product_name_list = [ ]
for i in range(1,80+1):
    product_name = driver.find_element_by_xpath('//*[@id="ty_thmb_view"]/ul/li['+str(i)+']/div[2]/div[2]/div/a/em[1]')
    product_name_list.append(product_name.text)

In [15]:
product_name_list

['[국내산] 대석자두 1kg/팩',
 '[콜롬비아산] 바나밸리 프레쉬 바나나 1송이',
 '[국내산] 성주 REAL 참외 1.5kg/봉',
 '[필리핀산] Dole 스위티오바나나 1.3kg 내외',
 '[국내산] 당찬사과 4-7입/봉',
 '[국산의 힘] 무지개 방울토마토 900g/팩',
 '[국내산] 당도선별 하우스감귤 1.4kg/팩',
 '[국내산] 친환경 대추방울토마토 750g/팩',
 '[국내산] 무농약 토마토 1kg/봉',
 '[국내산] 대추방울토마토 1kg/팩',
 '[국내산] 완숙토마토 6~8입/팩',
 '[국내산] 친환경 방울토마토 기획 500g*2입/팩',
 '[국산의 힘] 생블루베리 300g/팩',
 '[국내산] 당도선별 멜론 1통 (1.5kg 이상)',
 '[국내산] 까망 애플수박 3kg미만',
 '[페루산] 아보카도 1개',
 '[미국산] 냉동 블루베리 1.5kg/봉',
 '[페루산] 냉동 애플망고 2.27kg',
 '[필리핀산] 델몬트 컷파인애플 540g/팩',
 '[국내산] 친환경 토마토 3kg/박스',
 '[국내산] 달짝이토마토 750g/팩',
 '[국내산] 천도복숭아 1.2kg/팩',
 '[에콰도르] 하루하나 바나나 6개/팩',
 '[국내산] 당도선별수박 10kg이상',
 '[국내산] 친환경 대추방울토마토 기획 2kg/박스',
 '[국내산] 허니토마토/팩',
 '[뉴질랜드산] 제스프리 썬골드키위 7~14입/팩',
 '[미국산] 냉동 블루베리 1.13kg/팩',
 '[필리핀산] Dole 바나나 1.3kg 내외',
 '[콜롬비아산] 유기농 바나나 1.2kg 내외',
 '[국내산] GAP 성주참외 3~8입/봉',
 '[칠레산] 적포도 900g/팩',
 '[국내산]냉동딸기1kg x 2봉',
 '[미국산] 레몬 1개',
 '[국내산] 샤인머스켓 500g/팩',
 '[미국산] 레몬 9~15입/봉',
 '[국내산] 당도 절단수박 1/2통',
 '[페루산] 냉동 딸기 300g',
 '캘리포니아 호두 900g',
 '[국내산] 전주 백도 복숭아 

**이미지 데이터 가져오기**

In [None]:
# 이미지 URL 가져오기 
img = driver.find_element_by_xpath('//*[@id="ty_thmb_view"]/ul/li[1]/div[1]/div[2]/a/img[1]')
img.get_attribute('src')

In [None]:
# 이미지 데이터를 현재 작업공간에 저장 
import urllib.request
img1 = img.get_attribute('src')
urllib.request.urlretrieve(img1, 'img001.png')

In [None]:
# For 문을 이용하여, 페이지 내 모든 이미지 저장 
for i in range(1,80+1):
    img = driver.find_element_by_xpath('//*[@id="ty_thmb_view"]/ul/li['+str(i)+']/div[1]/div[2]/a/img[1]')
    img1 = img.get_attribute('src')
    urllib.request.urlretrieve(img1, 'img00'+str(i)+'.png')

**데이터를 불러와 파일 형태로 저장하기**

In [None]:
product_name_list = [ ]
price_list = [ ]
img_list = [ ]
for i in range(1,80+1):
    product_name = driver.find_element_by_xpath('//*[@id="ty_thmb_view"]/ul/li['+str(i)+']/div[2]/div[2]/div/a/em[1]')
    price = driver.find_element_by_xpath('//*[@id="ty_thmb_view"]/ul/li['+str(i)+']/div[2]/div[3]/div/em')
    img = driver.find_element_by_xpath('//*[@id="ty_thmb_view"]/ul/li['+str(i)+']/div[1]/div[2]/a/img[1]')
    img_url = img.get_attribute('src')
    
    product_name_list.append(product_name.text)
    price_list.append(price.text)
    img_list.append(img_url)

In [None]:
product_name_list

In [None]:
import pandas as pd 

In [None]:
df1 = pd.DataFrame({'상품명':product_name_list, '상품금액':price_list, '이미지URL':img_list})
df1.shape
df1.head()

In [None]:
#파일 저장 (CSV)
df1.to_csv('data1.csv')
# 파일 저장 (Excel)
df1.to_excel('data1.xlsx')

In [None]:
# 한글 깨질 시 인코딩 하여 저장 
df1.to_csv('data1.csv',encoding='cp949')

## 예제2. 기업 평가데이터 크롤링 

In [3]:
from selenium import webdriver

In [4]:
# 페이지 접속 
driver = webdriver.Chrome('chromedriver')
driver.get('https://www.jobplanet.co.kr')

**페이지 작동 지연**

In [5]:
driver.implicitly_wait(10)

**특정 값 입력**

- 로그인이나 특정 키워드 검색, 댓글, 게시글 입력 등 여러가지 방안으로 활용 

In [9]:
# 로그인 페이지로 이동 
driver.find_element_by_xpath('/html/body/div[1]/div[1]/header/div/div[2]/a[1]/span').click()

ElementNotInteractableException: Message: element not interactable
  (Session info: chrome=84.0.4147.125)


In [10]:
# 아이디 입력하기 
driver.find_element_by_xpath('//*[@id="user_email"]').send_keys('52100108@dankook.ac.kr')

In [11]:
# 패스워드 입력하기 
driver.find_element_by_xpath('//*[@id="user_password"]').send_keys('kgkg3920691')

In [12]:
# 로그인 버튼 클릭 
driver.find_element_by_xpath('//*[@id="signInSignInCon"]/div[2]/div/section[2]/fieldset/button').click()

**기업 데이터 리뷰 수집**

 - Try / Except / Finally 구문을 이용한, 오류 발생 방지 및 자동 수집 실시 
 - 창을 띄워놓지 않고 크롤링 하기 

In [13]:
driver.get('https://www.jobplanet.co.kr/companies/61420/reviews/%EB%B0%B0%EB%8B%AC%EC%9D%98%EB%AF%BC%EC%A1%B1')

In [14]:
# 오픈되어 있는 창 제거 
driver.find_element_by_xpath('//*[@id="premiumReviewChart"]/div/div[3]/div[2]/div/div[1]/button').click()

In [15]:
# 수집 할 데이터 목록을 리스트로 생성 
comm_list = [] 
good_comm_list = [] 
bad_comm_list = [] 
category_list = []
employment_list = []
region_list = []
date_comm_list = []
hope_comm_list = []
grow_bin_list = []
recomm_list = []

In [16]:
# 모든 직군 선택 
driver.find_element_by_xpath('//*[@id="occupation_select"]/option[1]').click()

In [17]:
# 데이터 수집 
for j in range(0,47):
    for i in range(1,6):
        try:
            comm = driver.find_element_by_xpath('//*[@id="viewReviewsList"]/div/div/div/section['+ str(i) +']/div/div[2]/div/div[1]/h2').text
            good_comm = driver.find_element_by_xpath('//*[@id="viewReviewsList"]/div/div/div/section['+ str(i) +']/div/div[2]/div/dl/dd[1]').text
            bad_comm = driver.find_element_by_xpath('//*[@id="viewReviewsList"]/div/div/div/section['+ str(i) +']/div/div[2]/div/dl/dd[2]').text 
            category = driver.find_element_by_xpath('//*[@id="viewReviewsList"]/div/div/div/section['+ str(i) +']/div/div[1]/span[2]').text
            employment = driver.find_element_by_xpath('//*[@id="viewReviewsList"]/div/div/div/section['+ str(i) +']/div/div[1]/span[4]').text
            region = driver.find_element_by_xpath('//*[@id="viewReviewsList"]/div/div/div/section['+ str(i) +']/div/div[1]/span[6]').text
            date_comm = driver.find_element_by_xpath('//*[@id="viewReviewsList"]/div/div/div/section['+ str(i) +']/div/div[1]/span[8]').text
            hope_comm = driver.find_element_by_xpath('//*[@id="viewReviewsList"]/div/div/div/section['+ str(i) +']/div/div[2]/div/dl/dd[3]').text
            grow_bin = driver.find_element_by_xpath('//*[@id="viewReviewsList"]/div/div/div/section['+ str(i) +']/div/div[2]/div/p[1]/strong').text
            recomm = driver.find_element_by_xpath('//*[@id="viewReviewsList"]/div/div/div/section['+ str(i) +']/div/div[2]/div/p[2]/em').text

            comm_list.append(comm)
            good_comm_list.append(good_comm) 
            bad_comm_list.append(bad_comm)
            category_list.append(category)
            employment_list.append(employment)
            region_list.append(region)
            date_comm_list.append(date_comm)
            hope_comm_list.append(hope_comm)
            grow_bin_list.append(grow_bin)
            recomm_list.append(recomm)
        
        except Exception as e :
            print('Error',i)

        finally:
            pass 
        
    driver.find_element_by_xpath('//*[@id="viewReviewsList"]/div/div/div/div[2]/article/a[7]').click()

Error 2
Error 1
Error 2
Error 3
Error 1
Error 3
Error 4
Error 3
Error 5
Error 1
Error 4
Error 1
Error 3


KeyboardInterrupt: 

In [None]:
#브라우져 종료
driver.quit()

**수집한 데이터 저장**

In [None]:
import pandas as pd 

In [None]:
df1 = pd.DataFrame({'직종':category_list,'재직여부':employment_list, '지역':region_list,
              '작성시간':date_comm_list, '한줄평':comm_list, 
              '기업장점':good_comm_list, '기업단점':bad_comm_list,
             '바라는점':hope_comm_list, '기업성장여부':grow_bin_list,
             '기업추천여부':recomm_list})
print(df1.shape)
df1.head()

In [None]:
df1.to_csv('result.csv')

## 기타 Selenium 함수 

**Headless를 활용한 데이터 자동 수집**

- 브라우져를 화면에 띄우지 않고 메모리상에서만 올려서 크롤링하는 방법
- window가 지원되지 않는 환경에서 사용이 가능
- chrome version 60부터 지원

**크롬 버젼확인**

In [18]:
driver_version = webdriver.Chrome()
version = driver_version.capabilities["browserVersion"]
print(version)
driver_version.quit()

84.0.4147.125


In [19]:
options = webdriver.ChromeOptions()
options.add_argument('headless')

# driver 생성시 headless option 추가
driver = webdriver.Chrome(options=options)
driver.get("https://www.jobplanet.co.kr")
print(driver.title)

잡플래닛 - 함께 만드는 프리미엄 기업정보, 채용공고, 컴퍼니타임스 제공 | 잡플래닛


**Alert 창 제거**
- 크롤링이나 자동화를 하는 중간에 alert 메시지가 나오는 경우
- 자동화를 계속 진행 하기 위해 alert 메시지를 제거 

![img](https://lh3.googleusercontent.com/proxy/RuVdan7Zz1cx1-s5HyAulyhYcTmo5S0QYkVsNATtbNesb41Yf-vcE5jRWH5tqirvEiKypnzKmcJahIw7ecHCNoyQcLEs8GSgoUYEcJfiD20W9UfCcspH2QkobZ2_sPD92E00-5LZyyOUFJR8Wo_8Xr3YsAIaJCVqNt6YXAb65XGb766Zjb30G-yjON5ISt6cIV00bL4bjHByTFV5THFKmQPfaVJDXY5euC-5dOLLQhrj19WPnawRDmS5Uu7mg4DdiyI5dpVdreelQQE3gchmpf0157hgwA)

In [20]:
driver = webdriver.Chrome()
driver.get('https://www.data.go.kr/')

In [21]:
# 임의의 Alert 창 생성 
driver.execute_script("alert('selenium test');")

In [22]:
# alert 확인 버튼 누르기
driver.switch_to.alert.accept()

In [None]:
print('Done')