# 데이터수집

목표

* Dynamic/Static Page의 차이
* Selenium을 활용하여 동적 Web Page를 조작
* Selenium과 bs4를 활용하여 데이터를 수집

### 수집 데이터 형태

* 정형 – 일정한 규격에 맞춰서 구성된 데이터 (어떠한 역할을 알고 있는 데이터)
 * 관계형 데이터베이스 시스템의 테이블과 같이 고정된 컬럼에 저장되는 데이터 파일 등이 될 수 있다.
     즉, 구조화 된 데이터가 정형 데이터

* 반정형 – 일정한 규격으로 구성되어 있지 않지만 일정한 틀을 갖추기 위해서 태그나 인덱스형태로 구성된 데이터
 * 연산이 불가능한 데이터
     ex) XML. HTML, JSON 등

* 비정형 – 구조화 되지 않는 형태의 데이터 (정형과 반대로 어떠한 역할인지 알수 없는 데이터)
 * 형태가 없으며, 연산도 불가능한 데이터
     ex) SNS, 영상, 이미지, 음성, 텍스트 등


우리가 주로 수집할 데이터들은 반정형 혹은 비정형 데이터라고 보면 된다.


### 스크레이핑, 크롤링
- Scraping: 웹 사이트의 특정 정보를 추출하는 것. 웹 데이터의 구조 분석이 필요
- 로그인이 필요한 경우가 많다
- Crawling: 프로그램이 웹사이트를 정기적으로 돌며 정보를 추출하는 것 (이러한 프로그램을 크롤러, 스파이더라고 한다)



## 웹 크롤러 (Web Crawler)

* 인터넷에 있는 웹 페이지로 이동해서 데이터를 수집하는 프로그램
* 크롤러 = 스크래퍼, 봇, 지능 에이전트, 스파이더 등으로 불림


### Selenium 라이브러리

* 웹 페이지를 테스트(제어)하기 위한 자동 테스팅 모듈

+ [Selenium with Python](https://selenium-python.readthedocs.io/index.html)
+ [Selenium Documentation](https://www.selenium.dev/documentation/en/)


selenium 설치 & 크롬드라이버 설치

* 크롤러와 웹 브라우저를 연결시켜 주기 위한 웹 드라이버 설치

In [None]:
# 설치(20.08 코랩 기준)
!pip install Selenium
!apt-get update # to update ubuntu to correctly run apt install
!apt install chromium-chromedriver

In [None]:
# 한글 폰트 설치
!apt-get install -y fonts-nanum*

selenium 설정

In [None]:
from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless') #내부 창을 띄울 수 없으므로 설정
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')

# Chrome 드라이버 생성 후 Browser 객체 반환 
wd = webdriver.Chrome('chromedriver', chrome_options=chrome_options)

  import sys


selenium으로 크롬 브라우저 웹 사이트 접근

In [None]:
# 해당 URL로 브라우저 실행


In [None]:
# 검색한 사이트 이미지로 저장


원하는 태그 찾기

요소검사를 진행해서 id나 class 또는 태그명을 확인
* driver.find_element_by_css_selector (단수)
* driver.find_elements_by_css_selector (복수)

요소 접근 함수(Element Access Founction)

|단일 객체 반환 함수 <br>(find()과 같은 형태로 반환) | 리스트 반환 함수 <br>(find_all()과 같은 형태로 반환)|
|-|-|
|find_element_by_id<br>find_element_by_class_name<br>find_element_by_css_selector<br>find_element_tag_name<br>find_element_name<br>find_element_by_link | find_elements_by_id<br>find_elements_by_class_name<br>find_elements_by_css_selector<br>find_elements_tag_name<br>find_elements_name<br>find_elements_by_link|

In [None]:
import urllib
from urllib.request import urlopen
from urllib.parse import quote_plus
from bs4 import BeautifulSoup as bs
from selenium.webdriver.common.keys import Keys
import time

In [None]:
url = 'https://search.naver.com/search.naver?where=image&sm=tab_jum&query='


### 네이버 검색

In [None]:
from selenium import webdriver as wb
from selenium.webdriver.common.keys import Keys

In [None]:
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless') #내부 창을 띄울 수 없으므로 설정
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')

wd = wb.Chrome('chromedriver', chrome_options=chrome_options)

  


### 뉴스 제목, 내용가져오기

In [None]:
from selenium import webdriver as wb
from selenium.webdriver.common.keys import Keys
from bs4 import BeautifulSoup as bs
import time
import pandas as pd
import requests as req

In [None]:
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless') #내부 창을 띄울 수 없으므로 설정
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')

driver = wb.Chrome('chromedriver', chrome_options=chrome_options)

  


In [None]:
url = 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=105&oid=018&aid=0004171212'



### 네이버 실시간 검색어 가져오기

In [None]:
url = 'https://www.naver.com/'



### 구글에서 검색어 입력한 후 웹 페이지 결과 띄우기

웹 제어 함수 (Web Control Function)

1. 마우스 제어
 * 클릭 요소 : driver.find_element_by_css_selector().click()
 * submit 타입요소 : driver.find_element_by_css_selector().submit()

2. 키보드 제어
 * driver.find_element_by_css_selector().send_keys(text)
 * Ex1) input 태그에 ‘크롤링’을 입력할 때
   -> driver.find_element_by_css_selector().send_keys(“크롤링”)
 * Ex2) 키보드의 특수키 중 Enter를 입력할 경우
   -> driver.find_element_by_css_selector().send_keys(Keys.ENTER)


In [None]:
url = 'http://www.google.com'


### 한솥도시락의 이름,가격 정보 수집

In [None]:
from selenium import webdriver as wb
from bs4 import BeautifulSoup as bs
import time
import pandas as pd

In [None]:
url = 'https://www.hsd.co.kr/menu/menu_list'



lunchBox_info.csv로 저장

### 스타벅스 매장 지점명, 주소, 번호 정보 수집

In [None]:
from selenium import webdriver as wb
from bs4 import BeautifulSoup as bs
import time
import pandas as pd

In [None]:
url = 'http://www.istarbucks.co.kr/store/store_map.do'


#### 스타벅스 모든 음료 정보 가져오기

In [None]:
url = 'http://www.istarbucks.co.kr/menu/index.do'


### 웹 페이지 스크롤링

* Keys.PAGE_DOWN 활용

In [None]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from bs4 import BeautifulSoup as bs
import pandas as pd
import time

In [None]:
url = 'https://www.google.com/search?source=hp&ei=-QZ1W6XKH4ui8AWe6oOgAQ&q=%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0&oq=%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0&gs_l=psy-ab.3..0l10.3446.6828.0.6945.11.9.0.1.1.0.178.797.1j5.6.0....0...1c.1j4.64.psy-ab..6.5.589...0i131k1j0i10k1.0.onTVEC6H7No'


### 유튜브 정보 수집

* 영상제목 / 영상주소 / 조회수 

In [None]:
url_main = 'https://www.youtube.com'
url_sub = '/results?search_query='
query = '머신러닝'
