# WebCrawling
- 일부 프로그래머들은 웹크롤링으로 수입을 창출하고 있다. (https://kmong.com/)
- 특정 행동들을 세부적으로 하나씩 명령어의 형태로 만들어야 한다.
- 만일 명령을 하나라도 빼면 ERROR가 발생한다.
- 크롤링(데이터를 긁어 오는 것)은 불법이 아니나, 해당 가공을 거치지 않고 그대로 상업적으로 사용하는 것은 지적 재산권 침해이다.

## WebCrawling Module
![image.png](attachment:image.png)
1. Selenuim: 자동화 모듈
- 목적하는 웹사이트에 접속하는 것이다.
- 설치: cmd(관리자권한) -> pip install selenuim
- 본래 크롤링이 아닌 '자동화'를 위해 만들었다.
- 이를 이용하면 특정 행동을 컴퓨터가 자동으로 행하도록 만들 수 있다. (사람이 하는 일을 대신 함)
2. Beautiful Soup
- 특정 웹사이트에서 HTML(정보)을 가져오는 것이다.
- 설치: cmd(관리자권한) -> pip install bs4

### WebDriver 설치
1. Chrome 정보 들어가서 버전(앞 두자리 숫자) 확인
![image.png](attachment:image.png)
2. "Chromedriver" 검색 후 들어가기
3. 해당 버전의 driver download에 들어가기: https://chromedriver.chromium.org/downloads
![image-3.png](attachment:image-3.png)
4. win32.zip 파일 다운로드
![image-4.png](attachment:image-4.png)
5. diver 압축 해제 및 설치

예시) 학술연구정보서비스(http://www.riss.kr/index.do) 사이트에서 '코로나 검색하기'  
① Riss(학술연구정보서비스) 사이트에 접속한다.  
② 검색창을 클릭한다.  
③ '코로나'를 입력한다.  
④ 검색버튼을 클릭한다.  

In [1]:
# 1. Riss(학술연구정보서비스) 사이트에 접속한다.
# ① 필요한 모듈 불러오기
from selenium import webdriver
# ② 크롬 드라이버 설정
# 웹브라우저한테 시킬 모든 일은 diver를 통해서 시킨다. -> 경로 설정
chrome_path = 'E:\\py_temp\\WebCrawling\\chromedriver.exe'
driver = webdriver.Chrome(chrome_path) # 관리를 하게 될 브라우저
# ③ RISS사이트(http://www.riss.kr/index.do)에 접속한다.
url = 'http://www.riss.co.kr' # 주소 입력
driver.get(url) # (괄호)안의 주소를 이용할 것임을 선언
# ④ EXTRA: 웹페이지의 크기가 작을 시, click()이 작동하지 않기 때문에 웹페이지의 크기를 늘려야 한다.
driver.maximize_window() # 가급적 sleep 전에 실행
# 일부 사이트에서는 모바일 크기(작음)와 PC 크기(큼)의 경로가 다른 경우도 있기 때문
# ⑤ 웹사이트가 로딩되는 시간이 걸릴 수도 있기에 대기 시간을 설정한다.
import time
time.sleep(2) # 2초 동안 기다린다.
# 만일, 설정한 시간보다 더 로딩일 길어지면 ERROR가 발생한다.

# 2. 검색창을 클릭한다.
# ① 검색창 element를 지정한다.
search_bar = driver.find_element_by_id("query") 
# ② 검색창 클릭(click)한다.
search_bar.click()

# 3. '코로나'를 입력한다.
# 검색창에 '코로나'라고 입력(send_keys)한다.
search_bar.send_keys("코로나")

# 4. 검색버튼을 클릭한다. -> enter 친다.
search_bar.send_keys("\n")

  driver = webdriver.Chrome(chrome_path) # 관리를 하게 될 브라우저
  search_bar = driver.find_element_by_id("query")


In [None]:
①②③④⑤

## Selenium 활용법: 'element'와 'action'

### 요소(element) 지정하기
1. 요소를 직접 HTML코드에서 찾기
![image-2.png](attachment:image-2.png)
2. 위 코드 중에 가능한 것을 넣기
![image-4.png](attachment:image-4.png)  

*** 요소 종류:  
① X-PATH: x-path 안의 쌍따옴표가 있으면 홑따옴표로 바꾸어 주어야 한다. 예) //*[@id="query"] -> //*[@id='query']  
② SELECTOR(ID값): select 안의 샵(#)은 제거해야 한다. 예) #query -> query

In [1]:
from selenium import webdriver
chrome_path = 'E:\\py_temp\\WebCrawling\\chromedriver.exe'
driver = webdriver.Chrome(chrome_path)
url = 'http://www.riss.co.kr'
driver.get(url)
import time
time.sleep(3)
driver.find_element_by_id('query').send_keys('코로나') # 간략하게 element 지정과 검색어 입력을 동시에 할 수 있다.
driver.find_element_by_id('query').send_keys('\n')

  driver = webdriver.Chrome(chrome_path)
  driver.find_element_by_id('query').send_keys('코로나') # 간략하게 element 지정과 검색어 입력을 동시에 할 수 있다.
  driver.find_element_by_id('query').send_keys('\n')


실습) 네이버/구글/다음에서 사용자에게 입력받은 검색어로 검색하는 코드를 구현하라.

In [12]:
# 네이버
from selenium import webdriver
chrome_path = 'E:\\py_temp\\WebCrawling\\chromedriver.exe'
driver = webdriver.Chrome(chrome_path)
url = 'http://www.naver.com'
driver.get(url)
import time
time.sleep(3)
search_bar = driver.find_element_by_id("query")  
search_bar.click()
search_bar.send_keys("코로나")
search_bar.send_keys("\n")

  driver = webdriver.Chrome(chrome_path)
  search_bar = driver.find_element_by_id("query")


In [6]:
# 다음
from selenium import webdriver
chrome_path = 'E:\\py_temp\\WebCrawling\\chromedriver.exe'
driver = webdriver.Chrome(chrome_path)
url = 'https://www.daum.net/'
driver.get(url)
import time
time.sleep(3)
search_bar = driver.find_element_by_id("q") 
search_bar.click()
search_bar.send_keys("코로나")
search_bar.send_keys("\n")

  driver = webdriver.Chrome(chrome_path)
  search_bar = driver.find_element_by_id("q")


In [7]:
# 구글
from selenium import webdriver
chrome_path = 'E:\\py_temp\\WebCrawling\\chromedriver.exe'
driver = webdriver.Chrome(chrome_path)
url = 'https://www.google.co.kr'
driver.get(url)
import time
time.sleep(3)
search_bar = driver.find_element_by_xpath("/html/body/div[1]/div[3]/form/div[1]/div[1]/div[1]/div/div[2]/input") 
search_bar.click()
search_bar.send_keys("코로나")
search_bar.send_keys("\n")

  driver = webdriver.Chrome(chrome_path)
  search_bar = driver.find_element_by_xpath("/html/body/div[1]/div[3]/form/div[1]/div[1]/div[1]/div/div[2]/input")
