# Crawling & Scraping

**Crawling : 웹 페이지의 하이퍼링크를 돌아다니며, 웹 페이지를 다운로드 하는 작업**

**Scraping : 다운로드한 웹 페이지에서 필요한 정보를 추출하는 작업**



1. Python에서 Crawling 

    - 언어적 특성 : 언어가 매우 쉬우며, 라이브러리를 활용할 수 있어, 바로 실무적인 사용이 가능하다. 
    - 라이브러리 활용도 : 객체지향적 특성을 가진 파이썬의 클래스를 이용해, 라이브러리의 기능을 극대화 하여 사용할 수 있다. (함수가 목록형이 아닌 독립적 객체로 사용이 가능한 형태) 
    - 스크레핑 후처리 편리성 : 수집한 데이터를 쉽게 정형데이터 형태로 변환이 가능하다. (Pandas / Numpy 라이브러리 활용) 
    

2. Crawling에 사용되는 주요 Library

    - Beautiful Soup : HTML & XML 문서 분석 라이브러리
    - Selenium : Application Testing 라이브러리 
    - Scrapy : API 및 클래스를 이용한 웹 데이터 수집 라이브러리 

# Selenium 

## MacOS Install

- 크롬 드라이버 다운로드
    - 크롬 브라우져를 사용하기 위해 크롬 드라이버를 다운로드 
    - 본인의 크롬 브라우져 버전에 맞는 드라이버를 다운로드
        - 크롬 브라우져의 설정 -> 도움말 -> Chrome 정보를 확인
    - https://sites.google.com/a/chromium.org/chromedriver/downloads

- 경로 변경
    - 크롬 드라이버를 글로벌하게 사용하기 위해서 경로를 변경해 줍니다. 
    - 경로를 수정하지 않으면 코드에서 크롬드라이버 경로를 항상 작성해 줘야 합니다.
    - `$ mv ~/Download/chromedriver /usr/local/bin`

- 셀레니움 파이썬 패키지 설치
    - `$ sudo pip install selenium`
    - `$ conda install -c conda-forge selenium`

## Windows Install


- 크롬 드라이버 다운로드
    - 크롬 브라우져를 사용하기 위해 크롬 드라이버를 다운로드
    - https://sites.google.com/a/chromium.org/chromedriver/downloads
    - https://chromedriver.storage.googleapis.com/index.html?path=2.42/


- 환경변수 추가
    - 내컴퓨터 오른쪽 클릭 -> 속성 -> 고급시스템설정 -> 환경변수 -> 시스템변수의 Path 더블클릭 -> chromedriver path를
추가
    - 예: C:₩Users₩(사용자계정이름)₩chromdriver 으로 추가
    - 환경변수 추가 후에도 드라이버가 실행되지 않는 경우에는 아래의 두가지 방법의 사용이 가능
        - 크롬 드라이버 파일을 동일한 디렉토리에 위치해서 실행
        - 크롬 드라이버를 호출하는 함수에 아규먼트로 크롬 드라이버의 파일경로를 추가
 
 
- 셀레니움 파이썬 패키지 설치
    - `$ conda install -c conda-forge selenium`
    또는
    - `$ pip install --user selenium`

**기본 사용법**

In [1]:
from selenium import webdriver

In [2]:
# 드라이버를 실행하여, 웹페이지 열기
driver = webdriver.Chrome('chromedriver')

SessionNotCreatedException: Message: session not created: This version of ChromeDriver only supports Chrome version 83


In [None]:
# 드라이버 종료하여 웹페이지 끄기 
driver.quit()

## 예제1. 이마트 물품데이터 크롤링 

**웹사이트 접속**

In [4]:
driver = webdriver.Chrome('chromedriver')
driver.get('http://emart.ssg.com/')

In [5]:
driver.find_element_by_xpath('//*[@id="e_gnb"]/div/div[1]/div[2]/ul[1]/li[5]/a').click()

In [6]:
# (가로, 세로) - 800 * 600 픽셀의 사이즈로 오픈 
driver.set_window_size(800, 600)

In [7]:
# 전체화면으로 전환 하여 실행 
options = webdriver.chrome.options.Options()
options.add_argument('--start-fullscreen')

driver = webdriver.Chrome('chromedriver', chrome_options=options)
driver.get('http://emart.ssg.com/')

  """


In [8]:
# 좌측 메뉴에 과일 항목 추출하기 
driver.find_element_by_xpath('//*[@id="e_gnb"]/div/div[1]/div[2]/ul[1]/li[1]/a').click()

**데이터 추출해 변수로 선언하기**

In [9]:
# 데이터 추출하기 
product_name = driver.find_element_by_xpath('//*[@id="ty_thmb_view"]/ul/li[1]/div[2]/div[2]/div/a/em[1]')
product_price = driver.find_element_by_xpath('//*[@id="ty_thmb_view"]/ul/li[1]/div[2]/div[3]/div/em')

In [10]:
# 제품 이름 가져오기 
product_name.text

'[콜롬비아산] 바나밸리 프레쉬 바나나 1송이'

In [11]:
# 제품 가격 가져오기 
product_price.text

'2,980'

**반복적으로 구성되어 있는 여러 항목 추출 하기**

In [12]:
'//*[@id="ty_thmb_view"]/ul/li[1]/div[2]/div[2]/div/a/em[1]'
'//*[@id="ty_thmb_view"]/ul/li[3]/div[2]/div[2]/div/a/em[1]'

'//*[@id="ty_thmb_view"]/ul/li[3]/div[2]/div[2]/div/a/em[1]'

In [13]:
product_name_list = [ ]
for i in range(1,80+1):
    product_name = driver.find_element_by_xpath('//*[@id="ty_thmb_view"]/ul/li['+str(i)+']/div[2]/div[2]/div/a/em[1]')
    product_name_list.append(product_name.text)

In [14]:
product_name_list

['[콜롬비아산] 바나밸리 프레쉬 바나나 1송이',
 '[국내산] 초록사과 5~8입/봉',
 '[국내산] 당도선별 하우스감귤 1.4kg/팩',
 '[필리핀산] Dole 스위티오바나나 1.3kg 내외',
 '[국내산] 친환경 대추방울토마토 750g/팩',
 '[국내산] 무농약 토마토 1kg/봉',
 '[뉴질랜드산] 제스프리 썬골드키위 7~14입/팩',
 '[국내산] 990 세척사과/봉',
 '[국내산] 산(山) 수박 9kg미만',
 '[국산의 힘] 무지개 방울토마토 900g/팩',
 '[국내산] 당찬사과 4-7입/봉',
 '[국내산] 완숙토마토 6~8입/팩',
 '[국내산] 아삭 복숭아 7~12입/박스',
 '[미국산] 냉동 블루베리 1.5kg/봉',
 '[국내산] 친환경 방울토마토 기획 500g*2입/팩',
 '[국내산] 산(山) 수박 10kg이상',
 '[국내산] 하루과일 배 1입',
 '[국내산] 지리산 흥부골 포도 1.5kg/박스',
 '[필리핀산] 델몬트 컷파인애플 540g/팩',
 '[페루산] 냉동 애플 망고 300g',
 '[페루산] 냉동 애플망고 2.27kg',
 '[국내산] 친환경 토마토 3kg/박스',
 '[국내산] 천도복숭아 2kg/팩',
 '[국내산] 성주참외 3~8입/봉',
 '[미국산] 씨없는 청포도 900g/팩',
 '[국내산] 산(山) 수박 10kg미만',
 '[국내산] 거봉 2~4송이/박스',
 '[미국산] 문(Moon)체리 100g',
 '[콜롬비아산] 유기농 바나나 1.2kg 내외',
 '[국내산] 샤인머스켓 500g/팩',
 '[국내산] 무농약 블루베리 200g/팩',
 '저탄소 아삭 복숭아 5~7입/팩',
 '[국내산] 부드러운 복숭아 5~12입/박스',
 '[콜롬비아산] 하루하나 바나나 6개/팩',
 '[에콰도르산] 하루과일 바나나 2입/봉',
 '[페루산] 아보카도 4입/망',
 '[미국산] 냉동 블루베리 1.13kg/팩',
 '[국내산] 두번 엄선한 국산 냉동딸기1kg x 2봉',
 '[국내산] 프리미엄 탑감귤 1kg'

**이미지 데이터 가져오기**

In [15]:
# 이미지 URL 가져오기 
img = driver.find_element_by_xpath('//*[@id="ty_thmb_view"]/ul/li[1]/div[1]/div[2]/a/img[1]')
img.get_attribute('src')

'http://item.ssgcdn.com/53/94/67/item/1000048679453_i1_290.jpg'

In [16]:
# 이미지 데이터를 현재 작업공간에 저장 
import urllib.request
img1 = img.get_attribute('src')
urllib.request.urlretrieve(img1, 'image_data/img001.png')

('img001.png', <http.client.HTTPMessage at 0x260dc3af5c8>)

In [17]:
# For 문을 이용하여, 페이지 내 모든 이미지 저장 
for i in range(1,80+1):
    img = driver.find_element_by_xpath('//*[@id="ty_thmb_view"]/ul/li['+str(i)+']/div[1]/div[2]/a/img[1]')
    img1 = img.get_attribute('src')
    urllib.request.urlretrieve(img1, 'image_data/img00'+str(i)+'.png')

**데이터를 불러와 파일 형태로 저장하기**

In [18]:
product_name_list = [ ]
price_list = [ ]
img_list = [ ]
for i in range(1,80+1):
    product_name = driver.find_element_by_xpath('//*[@id="ty_thmb_view"]/ul/li['+str(i)+']/div[2]/div[2]/div/a/em[1]')
    price = driver.find_element_by_xpath('//*[@id="ty_thmb_view"]/ul/li['+str(i)+']/div[2]/div[3]/div/em')
    img = driver.find_element_by_xpath('//*[@id="ty_thmb_view"]/ul/li['+str(i)+']/div[1]/div[2]/a/img[1]')
    img_url = img.get_attribute('src')
    
    product_name_list.append(product_name.text)
    price_list.append(price.text)
    img_list.append(img_url)

In [19]:
product_name_list

['[콜롬비아산] 바나밸리 프레쉬 바나나 1송이',
 '[국내산] 초록사과 5~8입/봉',
 '[국내산] 당도선별 하우스감귤 1.4kg/팩',
 '[필리핀산] Dole 스위티오바나나 1.3kg 내외',
 '[국내산] 친환경 대추방울토마토 750g/팩',
 '[국내산] 무농약 토마토 1kg/봉',
 '[뉴질랜드산] 제스프리 썬골드키위 7~14입/팩',
 '[국내산] 990 세척사과/봉',
 '[국내산] 산(山) 수박 9kg미만',
 '[국산의 힘] 무지개 방울토마토 900g/팩',
 '[국내산] 당찬사과 4-7입/봉',
 '[국내산] 완숙토마토 6~8입/팩',
 '[국내산] 아삭 복숭아 7~12입/박스',
 '[미국산] 냉동 블루베리 1.5kg/봉',
 '[국내산] 친환경 방울토마토 기획 500g*2입/팩',
 '[국내산] 산(山) 수박 10kg이상',
 '[국내산] 하루과일 배 1입',
 '[국내산] 지리산 흥부골 포도 1.5kg/박스',
 '[필리핀산] 델몬트 컷파인애플 540g/팩',
 '[페루산] 냉동 애플 망고 300g',
 '[페루산] 냉동 애플망고 2.27kg',
 '[국내산] 친환경 토마토 3kg/박스',
 '[국내산] 천도복숭아 2kg/팩',
 '[국내산] 성주참외 3~8입/봉',
 '[미국산] 씨없는 청포도 900g/팩',
 '[국내산] 산(山) 수박 10kg미만',
 '[국내산] 거봉 2~4송이/박스',
 '[미국산] 문(Moon)체리 100g',
 '[콜롬비아산] 유기농 바나나 1.2kg 내외',
 '[국내산] 샤인머스켓 500g/팩',
 '[국내산] 무농약 블루베리 200g/팩',
 '저탄소 아삭 복숭아 5~7입/팩',
 '[국내산] 부드러운 복숭아 5~12입/박스',
 '[콜롬비아산] 하루하나 바나나 6개/팩',
 '[에콰도르산] 하루과일 바나나 2입/봉',
 '[페루산] 아보카도 4입/망',
 '[미국산] 냉동 블루베리 1.13kg/팩',
 '[국내산] 두번 엄선한 국산 냉동딸기1kg x 2봉',
 '[국내산] 프리미엄 탑감귤 1kg'

In [20]:
import pandas as pd 

In [21]:
df1 = pd.DataFrame({'상품명':product_name_list, '상품금액':price_list, '이미지URL':img_list})
df1.shape
df1.head()

Unnamed: 0,상품명,상품금액,이미지URL
0,[콜롬비아산] 바나밸리 프레쉬 바나나 1송이,2980,http://item.ssgcdn.com/53/94/67/item/100004867...
1,[국내산] 초록사과 5~8입/봉,7980,http://item.ssgcdn.com/66/65/00/item/000001000...
2,[국내산] 당도선별 하우스감귤 1.4kg/팩,13900,http://item.ssgcdn.com/92/65/45/item/000001045...
3,[필리핀산] Dole 스위티오바나나 1.3kg 내외,4980,http://item.ssgcdn.com/31/32/54/item/100003354...
4,[국내산] 친환경 대추방울토마토 750g/팩,5980,http://item.ssgcdn.com/09/60/56/item/100002656...


In [22]:
#파일 저장 (CSV)
df1.to_csv('data1.csv')
# 파일 저장 (Excel)
df1.to_excel('data1.xlsx')

In [23]:
# 한글 깨질 시 인코딩 하여 저장 
df1.to_csv('data1.csv',encoding='cp949')

In [24]:
driver.quit()

In [None]:
print('Done')