# 데이터수집

목표

* Dynamic/Static Page의 차이
* Selenium을 활용하여 동적 Web Page를 조작
* Selenium과 bs4를 활용하여 데이터를 수집

### 수집 데이터 형태

* 정형 – 일정한 규격에 맞춰서 구성된 데이터 (어떠한 역할을 알고 있는 데이터)
 * 관계형 데이터베이스 시스템의 테이블과 같이 고정된 컬럼에 저장되는 데이터 파일 등이 될 수 있다.
     즉, 구조화 된 데이터가 정형 데이터

* 반정형 – 일정한 규격으로 구성되어 있지 않지만 일정한 틀을 갖추기 위해서 태그나 인덱스형태로 구성된 데이터
 * 연산이 불가능한 데이터
     ex) XML. HTML, JSON 등

* 비정형 – 구조화 되지 않는 형태의 데이터 (정형과 반대로 어떠한 역할인지 알수 없는 데이터)
 * 형태가 없으며, 연산도 불가능한 데이터
     ex) SNS, 영상, 이미지, 음성, 텍스트 등


우리가 주로 수집할 데이터들은 반정형 혹은 비정형 데이터라고 보면 된다.


### 스크레이핑, 크롤링
- Scraping: 웹 사이트의 특정 정보를 추출하는 것. 웹 데이터의 구조 분석이 필요
- 로그인이 필요한 경우가 많다
- Crawling: 프로그램이 웹사이트를 정기적으로 돌며 정보를 추출하는 것 (이러한 프로그램을 크롤러, 스파이더라고 한다)



## 웹 크롤러 (Web Crawler)

* 인터넷에 있는 웹 페이지로 이동해서 데이터를 수집하는 프로그램
* 크롤러 = 스크래퍼, 봇, 지능 에이전트, 스파이더 등으로 불림


### Selenium 라이브러리

* 웹 페이지를 테스트(제어)하기 위한 자동 테스팅 모듈

+ [Selenium with Python](https://selenium-python.readthedocs.io/index.html)
+ [Selenium Documentation](https://www.selenium.dev/documentation/en/)


selenium 설치 & 크롬드라이버 설치

* 크롤러와 웹 브라우저를 연결시켜 주기 위한 웹 드라이버 설치

In [1]:
# 설치(20.08 코랩 기준)
!pip install Selenium
!apt-get update # to update ubuntu to correctly run apt install
!apt install chromium-chromedriver

Get:1 https://cloud.r-project.org/bin/linux/ubuntu bionic-cran40/ InRelease [3,626 B]
Ign:2 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64  InRelease
Hit:3 http://ppa.launchpad.net/c2d4u.team/c2d4u4.0+/ubuntu bionic InRelease
Hit:4 http://archive.ubuntu.com/ubuntu bionic InRelease
Get:5 http://security.ubuntu.com/ubuntu bionic-security InRelease [88.7 kB]
Ign:6 https://developer.download.nvidia.com/compute/machine-learning/repos/ubuntu1804/x86_64  InRelease
Hit:7 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64  Release
Hit:8 https://developer.download.nvidia.com/compute/machine-learning/repos/ubuntu1804/x86_64  Release
Get:9 http://archive.ubuntu.com/ubuntu bionic-updates InRelease [88.7 kB]
Hit:10 http://ppa.launchpad.net/cran/libgit2/ubuntu bionic InRelease
Hit:11 http://ppa.launchpad.net/deadsnakes/ppa/ubuntu bionic InRelease
Get:12 http://archive.ubuntu.com/ubuntu bionic-backports InRelease [74.6 kB]
Hit:13 http://ppa.launchpad

In [2]:
# 한글 폰트 설치
!apt-get install -y fonts-nanum*

Reading package lists... Done
Building dependency tree       
Reading state information... Done
Note, selecting 'fonts-nanum-eco' for glob 'fonts-nanum*'
Note, selecting 'fonts-nanum' for glob 'fonts-nanum*'
Note, selecting 'fonts-nanum-gothic-light' for glob 'fonts-nanum*'
Note, selecting 'fonts-nanum-coding' for glob 'fonts-nanum*'
Note, selecting 'fonts-nanum-extra' for glob 'fonts-nanum*'
fonts-nanum is already the newest version (20170925-1).
fonts-nanum-coding is already the newest version (2.5-1).
fonts-nanum-eco is already the newest version (1.000-6).
fonts-nanum-extra is already the newest version (20170925-1).
0 upgraded, 0 newly installed, 0 to remove and 51 not upgraded.


selenium 설정

In [4]:
from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless') #내부 창을 띄울 수 없으므로 설정
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')

# Chrome 드라이버 생성 후 Browser 객체 반환 
# 주피터 노트북으로 할 때는 기본 디폴트로 사용해도 됨
wd = webdriver.Chrome('chromedriver', chrome_options=chrome_options)

  # Remove the CWD from sys.path while we load stuff.


selenium으로 크롬 브라우저 웹 사이트 접근

In [4]:
# 해당 URL로 브라우저 실행
wd.get("http://naver.com")

In [5]:
# 검색한 사이트 이미지로 저장
wd.save_screenshot("website.png")
wd.quit()  # 브라우저 종료

원하는 태그 찾기

요소검사를 진행해서 id나 class 또는 태그명을 확인
* driver.find_element_by_css_selector (단수)
* driver.find_elements_by_css_selector (복수)

요소 접근 함수(Element Access Founction)

|단일 객체 반환 함수 <br>(find()과 같은 형태로 반환) | 리스트 반환 함수 <br>(find_all()과 같은 형태로 반환)|
|-|-|
|find_element_by_id<br>find_element_by_class_name<br>find_element_by_css_selector<br>find_element_tag_name<br>find_element_name<br>find_element_by_link | find_elements_by_id<br>find_elements_by_class_name<br>find_elements_by_css_selector<br>find_elements_tag_name<br>find_elements_name<br>find_elements_by_link|

In [9]:
import urllib
from urllib.request import urlopen
from urllib.parse import quote_plus
from bs4 import BeautifulSoup as bs
from selenium.webdriver.common.keys import Keys
import time

In [10]:
url = 'https://search.naver.com/search.naver?where=image&sm=tab_jum&query='
kword = input('검색어를 입력하세요: ')
# quote_plus 웹주소를 검색할 수 있는 형식으로 바꿔줌
base_url = url + quote_plus(kword)
base_url

검색어를 입력하세요: 고양이


'https://search.naver.com/search.naver?where=image&sm=tab_jum&query=%EA%B3%A0%EC%96%91%EC%9D%B4'

In [14]:
wd = webdriver.Chrome('chromedriver', chrome_options=chrome_options)
wd.get(base_url)
wd.save_screenshot("naver_search1.png") # 검색 직후 정보가 없음

  """Entry point for launching an IPython kernel.


True

In [15]:
wd.save_screenshot("naver_search1.png") # 검색 후 검색정보 존재

True

In [16]:
!mkdir ./crawling

In [26]:
body = wd.find_element_by_css_selector('body')

for i in range(20):
  body.send_keys(Keys.PAGE_DOWN)
  time.sleep(1)

In [None]:
imgs = wd.find_elements_by_css_selector('img')

for idx, img in enumerate(imgs):
  # print(idx, img.get_attribute('src'))
  imgUrl = img.get_attribute('src')
  imgPath = ('./crawling/' + kword + str(idx) + '.jpg')
  urllib.request.urlretrieve(imgUrl,imgPath)

### 네이버 검색

In [None]:
from selenium import webdriver as wb
from selenium.webdriver.common.keys import Keys

In [5]:
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless') #내부 창을 띄울 수 없으므로 설정
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')

driver = webdriver.Chrome('chromedriver', chrome_options=chrome_options)

  


In [33]:
# wd.implicitly_wait(5) 최대지연 5초

# 해당 URL을 브라우저로 실행
url = 'https://www.naver.com'
# 사이트를 가져왔다기 보다는 사이트를 접속했다
driver.get(url)

In [35]:
driver.save_screenshot('naver_search01.png')

input_search = driver.find_element_by_id('query')
input_search.send_keys('서울날씨')

In [37]:
#키 입력 
driver.save_screenshot('naver_search02.png')

input_search.send_keys(Keys.ENTER)

In [39]:
driver.save_screenshot('naver_search03.png')

driver.back()

In [38]:
driver.save_screenshot('naver_search04.png')

True

In [40]:
btn_search = driver.find_element_by_id('search_btn')
btn_search.click()

In [41]:
driver.save_screenshot('naver_search05.png')

True

### 뉴스 제목, 내용가져오기

In [42]:
from selenium import webdriver as wb
from selenium.webdriver.common.keys import Keys
from bs4 import BeautifulSoup as bs
import time
import pandas as pd
import requests as req

In [44]:
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless') #내부 창을 띄울 수 없으므로 설정
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')

driver = wb.Chrome('chromedriver', chrome_options=chrome_options)

  


In [46]:
url = 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=105&oid=018&aid=0004171212'

driver.get(url)
driver.save_screenshot("naver_news01.png")

#driver.page_source : 웹 페이지의 데이터(==res.text)
soup = bs(driver.page_source,'html.parser')

In [70]:
# 뉴스의 제목, 내용 수집 후 출력
title = soup.select("#articleTitle")[0].string
contents = soup.find('div', id='articleBodyContents').text
print('제목 : ',title)
print('내용 : ',contents.strip())

제목 :  109만원 갤노트9 싸게 사는 방법은?…3가지 유의점
내용 :  // flash 오류를 우회하기 위한 함수 추가
function _flash_removeCallback() {}

갤노트9, 128GB 기준 109만 4500원, 512GB 기준 135만 3천원지원금보다 25%  요금할인이 혜택 크다최신폰 자주 바꾼다면 중고폰 보상이나 렌탈 유리통신사 직영 온라인점에서 예약 구매하면 추가혜택[이데일리 김현아 기자] 삼성 갤럭시노트9 주요 사양배터리와 블루투스를 품어 활동성이 커진 ‘S펜’, 스마트폰을 데스크탑 PC처럼 사용할 수 있는 진화된 ‘삼성 덱스(DeX)’ 등 신기능으로 무장한 갤럭시노트9이 13일(오늘)부터 20일까지 예약판매를 시작했다.S펜으로 즐겨 사용하는 앱을 실행하고, 사진을 찍고, 음악, 동영상, 갤러리 등을 원격 제어할 수 있게 된 것이다. ‘덱스’역시 갤노트9과 TV나 모니터를 HDMI 어댑터로 연결하기만 하면 별도 액세서리 없이 바로 스마트폰에서 즐기던 애플리케이션, 게임을 큰화면으로 즐길 수 있게 됐다.하지만 갤럭시노트9 출고가는 부담스럽다. 128GB 기준 109만 4500원, 512GB 기준 135만 3000원이다. 좀 저렴하게 살 수 있는 방법은 없을까.◇지원금보다 25%  요금할인이 혜택 크다다른 프리미엄폰들과 마찬가지로 25% 요금할인(선택약정할인)으로 사는게 단말기 지원금을 받는 것보다 훨씬 유리하다.통신3사가 13일 공개한 공시지원금에 따르면 4만원대 요금제에서 공시지원금은 최대 10만5000원(LG유플러스)인데 25% 요금할인시에는 27만6552원의 할인(24개월 기준)을 받는 식이다.고동진 삼성전자 IM부문장(사장)이 9일(현지시간) 미국 뉴욕 브루클린 바클레이스 센터에서 열린 삼성 갤럭시 언팩 2018에서 발표하고 있다. 삼성전자 제공◇최신폰 자주 바꾼다면 중고폰 보상이나 렌탈 유리다만, 최신폰으로 1~2년 사이에 바꾸는 사람이라면 중고폰 보상프로그램이나 렌탈 프로그램을 고려해볼만 하다. 매월 2900원~330

### 구글에서 검색어 입력한 후 웹 페이지 결과 띄우기

웹 제어 함수 (Web Control Function)

1. 마우스 제어
 * 클릭 요소 : driver.find_element_by_css_selector().click()
 * submit 타입요소 : driver.find_element_by_css_selector().submit()

2. 키보드 제어
 * driver.find_element_by_css_selector().send_keys(text)
 * Ex1) input 태그에 ‘크롤링’을 입력할 때
   -> driver.find_element_by_css_selector().send_keys(“크롤링”)
 * Ex2) 키보드의 특수키 중 Enter를 입력할 경우
   -> driver.find_element_by_css_selector().send_keys(Keys.ENTER)


In [77]:
url = 'http://www.google.com'

driver.get(url)

driver.save_screenshot("google_search01.png")

True

In [78]:
input_text  = driver.find_element_by_tag_name('input')
input_text.send_keys('크롤링')
driver.save_screenshot('google_search02.png')

input_text.send_keys(Keys.ENTER)
driver.save_screenshot('google_search03.png')

True

### 한솥도시락의 이름,가격 정보 수집

In [6]:
from selenium import webdriver as wb
from bs4 import BeautifulSoup as bs
import time
import pandas as pd

In [7]:
url = 'https://www.hsd.co.kr/menu/menu_list'

driver.get(url)
driver.save_screenshot("hsd01.png")

True

In [93]:
for index in range(3):
  print(f'{index+2:02}')

02
03
04


In [8]:
btn_more = driver.find_element_by_class_name('c_05')
for index in range(3):
  btn_more.click()
  driver.save_screenshot(f'hsd{index+2:02}.png')
  time.sleep(2)

In [12]:
soup = bs(driver.page_source,'html.parser')

In [None]:
# 도시락 이름, 가격 정보
num = []
names = []
prices = []
for i in range(len(soup.find_all('h4','h fz_03'))):
  num.append(i+1)
  names.append(soup.find_all('h4','h fz_03')[i].string)
  prices.append(soup.find_all('div','item-price')[i].text.split(' ')[2])  #prices.append(soup.select('#menuList_242 > div > div.item-text > div > strong')) #css 문이기 때문에 select로도 가능함 도시락 이름, 가격 정보



In [50]:
hsd_dic={'num':num,'name':names,'price':prices}
df = pd.DataFrame(hsd_dic)
df.set_index('num',inplace=True)
df.head()

Unnamed: 0_level_0,name,price
num,Unnamed: 1_level_1,Unnamed: 2_level_1
1,"매화(치킨, 연어구이)","10,000원"
2,매화 (순살 고등어 간장구이),"10,000원"
3,진달래,"7,000원"
4,개나리(순살 고등어 간장구이),"8,000원"
5,돈까스도련님고기고기,"5,600원"


In [None]:
# 셀레니움 방법
ns = driver.find_elements_by_tag_name('h4')
ps = driver.find_elements_by_tag_name('strong')
for n, p in zip(ns, ps):
  print(n.text, p.text)

lunchBox_info.csv로 저장하시오.

In [None]:
df.to_csv('lunchbox_info.csv', encoding='utf-8')

### 스타벅스 매장 지점명, 주소, 번호 정보 수집

In [None]:
from selenium import webdriver as wb
from bs4 import BeautifulSoup as bs
import time
import pandas as pd

In [None]:
url = 'http://www.istarbucks.co.kr/store/store_map.do'


In [None]:
#지역검색 버튼 클릭


#### 스타벅스 모든 음료 정보 가져오기

In [None]:
url = 'http://www.istarbucks.co.kr/menu/index.do'



In [None]:
#자세히 보기 클릭


In [None]:
#영양정보 보기 클릭


In [None]:
#BeautifulSoup으로 웹 페이지 해석


In [None]:
#항목타이틀, 모든 음료정보 수집


### 웹 페이지 스크롤링

* Keys.PAGE_DOWN 활용

In [None]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from bs4 import BeautifulSoup as bs
import pandas as pd
import time

In [None]:
url = 'https://www.google.com/search?source=hp&ei=-QZ1W6XKH4ui8AWe6oOgAQ&q=%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0&oq=%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0&gs_l=psy-ab.3..0l10.3446.6828.0.6945.11.9.0.1.1.0.178.797.1j5.6.0....0...1c.1j4.64.psy-ab..6.5.589...0i131k1j0i10k1.0.onTVEC6H7No'


In [None]:
#웹 페이지를 3번 스크롤링
#<body>태그 검색


### 유튜브 정보 수집

* 영상제목 / 영상주소 / 조회수 

In [None]:
url_main = 'https://www.youtube.com'
url_sub = '/results?search_query='
query = '빅데이터'


In [None]:
#현재 페이지에서 5번 스크롤링


In [None]:
#영상제목 / 영상주소 / 조회수 
