# 데이터수집

목표

* Dynamic/Static Page의 차이
* Selenium을 활용하여 동적 Web Page를 조작
* Selenium과 bs4를 활용하여 데이터를 수집

### 수집 데이터 형태

* 정형 – 일정한 규격에 맞춰서 구성된 데이터 (어떠한 역할을 알고 있는 데이터)
 * 관계형 데이터베이스 시스템의 테이블과 같이 고정된 컬럼에 저장되는 데이터 파일 등이 될 수 있다.
     즉, 구조화 된 데이터가 정형 데이터

* 반정형 – 일정한 규격으로 구성되어 있지 않지만 일정한 틀을 갖추기 위해서 태그나 인덱스형태로 구성된 데이터
 * 연산이 불가능한 데이터
     ex) XML. HTML, JSON 등

* 비정형 – 구조화 되지 않는 형태의 데이터 (정형과 반대로 어떠한 역할인지 알수 없는 데이터)
 * 형태가 없으며, 연산도 불가능한 데이터
     ex) SNS, 영상, 이미지, 음성, 텍스트 등


우리가 주로 수집할 데이터들은 반정형 혹은 비정형 데이터라고 보면 된다.


### 스크레이핑, 크롤링
- Scraping: 웹 사이트의 특정 정보를 추출하는 것. 웹 데이터의 구조 분석이 필요
- 로그인이 필요한 경우가 많다
- Crawling: 프로그램이 웹사이트를 정기적으로 돌며 정보를 추출하는 것 (이러한 프로그램을 크롤러, 스파이더라고 한다)



## 웹 크롤러 (Web Crawler)

* 인터넷에 있는 웹 페이지로 이동해서 데이터를 수집하는 프로그램
* 크롤러 = 스크래퍼, 봇, 지능 에이전트, 스파이더 등으로 불림


### Selenium 라이브러리

* 웹 페이지를 테스트(제어)하기 위한 자동 테스팅 모듈

+ [Selenium with Python](https://selenium-python.readthedocs.io/index.html)
+ [Selenium Documentation](https://www.selenium.dev/documentation/en/)


selenium 설치 & 크롬드라이버 설치

* 크롤러와 웹 브라우저를 연결시켜 주기 위한 웹 드라이버 설치

In [7]:
# 설치(20.08 코랩 기준)
!pip install Selenium
!apt-get update # to update ubuntu to correctly run apt install
!apt install chromium-chromedriver

Hit:1 https://cloud.r-project.org/bin/linux/ubuntu bionic-cran40/ InRelease
Ign:2 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64  InRelease
Ign:3 https://developer.download.nvidia.com/compute/machine-learning/repos/ubuntu1804/x86_64  InRelease
Hit:4 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64  Release
Hit:5 https://developer.download.nvidia.com/compute/machine-learning/repos/ubuntu1804/x86_64  Release
Hit:6 http://ppa.launchpad.net/c2d4u.team/c2d4u4.0+/ubuntu bionic InRelease
Hit:7 http://security.ubuntu.com/ubuntu bionic-security InRelease
Hit:8 http://archive.ubuntu.com/ubuntu bionic InRelease
Hit:10 http://archive.ubuntu.com/ubuntu bionic-updates InRelease
Hit:11 http://ppa.launchpad.net/cran/libgit2/ubuntu bionic InRelease
Hit:13 http://archive.ubuntu.com/ubuntu bionic-backports InRelease
Hit:14 http://ppa.launchpad.net/deadsnakes/ppa/ubuntu bionic InRelease
Hit:15 http://ppa.launchpad.net/graphics-drivers/ppa/ubuntu bionic

In [8]:
# 한글 폰트 설치
!apt-get install -y fonts-nanum*

Reading package lists... Done
Building dependency tree       
Reading state information... Done
Note, selecting 'fonts-nanum-eco' for glob 'fonts-nanum*'
Note, selecting 'fonts-nanum' for glob 'fonts-nanum*'
Note, selecting 'fonts-nanum-gothic-light' for glob 'fonts-nanum*'
Note, selecting 'fonts-nanum-coding' for glob 'fonts-nanum*'
Note, selecting 'fonts-nanum-extra' for glob 'fonts-nanum*'
fonts-nanum is already the newest version (20170925-1).
fonts-nanum-coding is already the newest version (2.5-1).
fonts-nanum-eco is already the newest version (1.000-6).
fonts-nanum-extra is already the newest version (20170925-1).
0 upgraded, 0 newly installed, 0 to remove and 92 not upgraded.


selenium 설정

In [9]:
from selenium import webdriver

chrome_options = webdriver.ChromeOptions() #크롬 웹 드라이버를 사용하기 
chrome_options.add_argument('--headless') #내부 창을 띄울 수 없으므로 설정
chrome_options.add_argument('--no-sandbox') #샌드박스 옵션 no
chrome_options.add_argument('--disable-dev-shm-usage') 

# Chrome 드라이버 생성 후 Browser 객체 반환 
wd = webdriver.Chrome('chromedriver', chrome_options=chrome_options)

  if __name__ == '__main__':


selenium으로 크롬 브라우저 웹 사이트 접근

In [10]:
# 해당 URL로 브라우저 실행
wd.get("https://www.naver.com/")

In [11]:
# 검색한 사이트 이미지로 저장
wd.save_screenshot('website.png')
#wd.quit() 웹 사이트 종료

True

원하는 태그 찾기

요소검사를 진행해서 id나 class 또는 태그명을 확인
* driver.find_element_by_css_selector (단수) 한개만 찾기
* driver.find_elements_by_css_selector (복수) 여러개 찾기

요소 접근 함수(Element Access Founction)

|단일 객체 반환 함수 <br>(find()과 같은 형태로 반환) | 리스트 반환 함수 <br>(find_all()과 같은 형태로 반환)|
|-|-|
|find_element_by_id<br>find_element_by_class_name<br>find_element_by_css_selector<br>find_element_tag_name<br>find_element_name<br>find_element_by_link | find_elements_by_id<br>find_elements_by_class_name<br>find_elements_by_css_selector<br>find_elements_tag_name<br>find_elements_name<br>find_elements_by_link|

In [12]:
import urllib
from urllib.request import urlopen
from urllib.parse import quote_plus
from bs4 import BeautifulSoup as bs
from selenium.webdriver.common.keys import Keys
import time #브라우저의 대기시간을 사용하기 위해 

In [13]:
url = 'https://search.naver.com/search.naver?where=image&sm=tab_jum&query='
kword = input() #검색어 입력 
url  = url+quote_plus(kword) #url 갱신quote_plus(쿼리문) 
url

AI


'https://search.naver.com/search.naver?where=image&sm=tab_jum&query=AI'

In [14]:
wd.get(url)

In [15]:
wd.save_screenshot('website2.png')

True

In [16]:
#페이지 스크롤 기능 추가 
body = wd.find_element_by_css_selector('body')
print(body)

for i in range(5):
  body.send_keys(Keys.PAGE_DOWN)
  time.sleep(1)
  wd.save_screenshot(f'website_{i}.png')


<selenium.webdriver.remote.webelement.WebElement (session="f2c36766b42982faea2dbc668aa2feb0", element="c7693320-5332-48c5-91aa-0b72e444f050")>


In [17]:
imgs = wd.find_elements_by_css_selector('img') #이미지 태그 가져오기

for idx,img in enumerate(imgs): #img 태그에 src 부분에 있다.
    imgUrl = img.get_attribute('src')
    imgName = './crawling/' + kword + str(idx) + '.jpg'
    try: 
      urllib.request.urlretrieve(imgUrl,imgName) #가지고 올수 없는 데이터 
    except:
      print('error:',imgName,imgUrl)

error: ./crawling/AI0.jpg https://ssl.pstatic.net/sstatic/search/nlogo/20210915144013.png
error: ./crawling/AI1.jpg data:image/gif;base64,R0lGODlhAQABAAD/ACwAAAAAAQABAAACADs%3D
error: ./crawling/AI2.jpg data:image/gif;base64,R0lGODlhAQABAAD/ACwAAAAAAQABAAACADs%3D
error: ./crawling/AI3.jpg https://ssl.pstatic.net/static/common/gnb/banner/promo_npay_200108.png
error: ./crawling/AI4.jpg https://search.pstatic.net/common/?src=http%3A%2F%2Fimgnews.naver.net%2Fimage%2F5351%2F2021%2F07%2F21%2F0000084479_001_20210721104216642.jpg&type=a340
error: ./crawling/AI5.jpg https://search.pstatic.net/common/?src=http%3A%2F%2Fblogfiles.naver.net%2FMjAyMDEyMTdfMjQz%2FMDAxNjA4MTgxNjM0OTgw.4J2EGIMU2cb4oediLgDAjkRgXcVbU-TihI4CYIpekcgg.8jaX1lijvR9yXgmDM3iCCIQPkLq2zhnhZbbPHnQIQJkg.JPEG.impactvision%2Fscai01.jpg&type=ofullfill340_600
error: ./crawling/AI6.jpg https://search.pstatic.net/common/?src=http%3A%2F%2Fblogfiles.naver.net%2FMjAyMTA4MTJfMjQ4%2FMDAxNjI4NzM4MzU4NTY0.7GiqpAMii4wy36MVGrJbU4LMR3ogfo7jSZrRFae

In [18]:
#크롤링 폴더 만들기 
!mkdir ./crawling


### 네이버 검색

In [19]:
from selenium import webdriver as wb
from selenium.webdriver.common.keys import Keys

In [20]:
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless') #내부 창을 띄울 수 없으므로 설정
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')

driver = wb.Chrome('chromedriver', chrome_options=chrome_options)

  


In [21]:
url = 'https://www.naver.com'
driver.get(url)

In [22]:
#현재 화면 캡쳐 
driver.save_screenshot('naver_search01.png')

#검색창 태그 검색 
input_search = driver.find_element_by_id('query')

#검색창에 검색어를 입력 
input_search.send_keys('광주날씨') #검색 한것만 보여줌

In [23]:
#enter 추가 
input_search.send_keys(Keys.ENTER) #입력하고 엔터를 칠수 있음

In [24]:
driver.save_screenshot('naver_search02.png')

True

In [25]:
#뒤로 가기
driver.back() #뒤로가기 
time.sleep(0.3)
driver.save_screenshot('naver_search03.png')

True

In [26]:
#마우스로 버튼을 클릭 했을때 검색 버튼 태그 클릭 
btn_search = driver.find_element_by_id('search_btn')

#검색 버튼 클릭 
btn_search.click()

time.sleep(0.3)

driver.save_screenshot('naver_search04.png')

True

### 뉴스 제목, 내용가져오기

In [27]:
from selenium import webdriver as wb
from selenium.webdriver.common.keys import Keys
from bs4 import BeautifulSoup as bs
import time
import pandas as pd
import requests as req

In [28]:
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless') #내부 창을 띄울 수 없으므로 설정
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')

driver = wb.Chrome('chromedriver', chrome_options=chrome_options)

  


In [29]:
url = 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=105&oid=018&aid=0004171212'

driver.get(url)



### 구글에서 검색어 입력한 후 웹 페이지 결과 띄우기

웹 제어 함수 (Web Control Function)

1. 마우스 제어
 * 클릭 요소 : driver.find_element_by_css_selector().click()
 * submit 타입요소 : driver.find_element_by_css_selector().submit()

2. 키보드 제어
 * driver.find_element_by_css_selector().send_keys(text)
 * Ex1) input 태그에 ‘크롤링’을 입력할 때
   -> driver.find_element_by_css_selector().send_keys(“크롤링”)
 * Ex2) 키보드의 특수키 중 Enter를 입력할 경우
   -> driver.find_element_by_css_selector().send_keys(Keys.ENTER)


In [30]:
url = 'http://www.google.com'
driver.get(url)
time.sleep(0.2)
driver.save_screenshot('google_search1.png')

True

In [31]:
input_text = driver.find_element_by_tag_name('input') #하나 의 태그 
input_text.send_keys('별은')
time.sleep(2)
driver.save_screenshot('google_search2.png')

#input_search.send_keys(Keys.ENTER)
time.sleep(0.1)
driver.save_screenshot('google_search3.png')




True

### 한솥도시락의 이름,가격 정보 수집

In [32]:
from selenium import webdriver as wb
from bs4 import BeautifulSoup as bs
import time
import pandas as pd

In [33]:
url = 'https://www.hsd.co.kr/menu/menu_list'

driver.get(url)
time.sleep(1) #사이트 펼치는 속도가  DB 에서 가져오기 떄문에 속도가 느리다 
driver.save_screenshot('hsd01.png')


True

In [34]:
#한솥 메뉴 가져오기 
num = []
names = []
prices = []
soup  = bs(driver.page_source,'html.parser') 
name = soup.findAll('h4',class_ = 'h fz_03') #이름과 속성을 둘다 가져올수 있음
price = soup.select('div.item-price > strong')

for i in range(len(name)):
  num.append(i+1)
  names.append(name[i].text)
  prices.append(price[i].text)

num,names,prices



([1,
  2,
  3,
  4,
  5,
  6,
  7,
  8,
  9,
  10,
  11,
  12,
  13,
  14,
  15,
  16,
  17,
  18,
  19,
  20,
  21,
  22,
  23,
  24,
  25,
  26,
  27,
  28,
  29,
  30,
  31,
  32,
  33,
  34,
  35,
  36,
  37,
  38,
  39,
  40,
  41,
  42,
  43,
  44,
  45,
  46,
  47,
  48,
  49,
  50,
  51,
  52,
  53,
  54,
  55,
  56,
  57,
  58,
  59,
  60,
  61,
  62,
  63,
  64,
  65],
 ['김.떡.후.세트A(치킨마요김밥) with 양념치킨소스',
  '김.떡.후.세트A(치킨마요김밥) with 케이준소스',
  '김.떡.후.세트B(참치마요김밥) with 양념치킨소스',
  '김.떡.후.세트B(참치마요김밥) with 케이준소스',
  '김.떡.후.세트C(소불고기마요김밥) with 양념치킨소스',
  '김.떡.후.세트C(소불고기마요김밥) with 케이준소스',
  '후라이드 순살(중)',
  '후라이드 순살(소)_양념치킨소스',
  '후라이드 순살(소)_케이준소스',
  '매화(치킨, 연어구이)',
  '매화(순살 고등어 간장구이)',
  '진달래',
  '개나리(순살 고등어 간장구이)',
  '치킨스테이크 스페셜',
  '돈까스도련님고기고기',
  '탕수육도련님고기고기',
  '새치 고기고기',
  '돈치 고기고기',
  '고기고기',
  '숯불직화구이',
  '소불고기',
  '메가치킨제육',
  '칠리 찹쌀탕수육도련님',
  '동백',
  '치킨제육',
  '돈까스도련님',
  '제육볶음',
  '돈치스팸 도시락',
  '고추장숯불삼겹정식',
  '숯불삼겹정식',
  '제육 김치찌개 정식',
  '돈치스팸 김치찌개 정식',
  '빅치킨마요 김치찌개 정식',
  '치킨마요

In [35]:
lunch_box = {'num':num , 'name':name,'price':prices}
df = pd.DataFrame(lunch_box)
df.set_index('num',inplace = True)
df

Unnamed: 0_level_0,name,price
num,Unnamed: 1_level_1,Unnamed: 2_level_1
1,[김.떡.후.세트A(치킨마요김밥) with 양념치킨소스],9500
2,[김.떡.후.세트A(치킨마요김밥) with 케이준소스],9500
3,[김.떡.후.세트B(참치마요김밥) with 양념치킨소스],9500
4,[김.떡.후.세트B(참치마요김밥) with 케이준소스],9500
5,[김.떡.후.세트C(소불고기마요김밥) with 양념치킨소스],9500
...,...,...
61,[소불고기 감초고추장 비빔밥],4800
62,[시골제육 두부강된장 비빔밥],4800
63,[참치야채 감초고추장],3200
64,[열무 두부강된장 비빔밥],4300


lunchBox_info.csv로 저장

In [36]:
df.to_csv('lunchbox_info.csv',encoding='utf-8')

### 스타벅스 매장 지점명, 주소, 번호 정보 수집

In [37]:
from selenium import webdriver as wb
from bs4 import BeautifulSoup as bs
import time
import pandas as pd

In [38]:
url = 'http://www.istarbucks.co.kr/store/store_map.do'
driver.get(url)
time.sleep(0.5)
driver.save_screenshot('star1.png')


True

In [41]:
#지역검색 
#btn_search = driver.find_element_by_class_name('loca_search')
#btn_search.click()
#time.sleep(0.2)
#driver.save_screenshot('star2.png')

In [44]:
#광주 정보
#container > div > form > fieldset > div > section > article.find_store_cont > article > article:nth-child(4) > div.loca_step1 > div.loca_step1_cont > ul > li:nth-child(3) > a
"""li = driver.find_element_by_css_selector('ul.sido_arae_box>li+li+li')
li.click()
time.sleep(0.5)
driver.save_screenshot('star3.png')"""

"li = driver.find_element_by_css_selector('ul.sido_arae_box>li+li+li')\nli.click()\ntime.sleep(0.5)\ndriver.save_screenshot('star3.png')"

In [45]:
#광주 전체 누르기 
##mCSB_2_container > ul
"""url = 'http://www.istarbucks.co.kr/menu/index.do'
all_btn = driver.find_element_by_class_name('set_gugun_cd_btn')
all_btn.click()
time.sleep(0.5)
driver.save_screenshot('star4.png')"""

"url = 'http://www.istarbucks.co.kr/menu/index.do'\nall_btn = driver.find_element_by_class_name('set_gugun_cd_btn')\nall_btn.click()\ntime.sleep(0.5)\ndriver.save_screenshot('star4.png')"

In [46]:
soup  = bs(driver.page_source,'html.parser')

name_list = []
addr_list = []
tel_list = []

name = soup.select('#mCSB_3_container > ul > li > strong')
addr = soup.select('#mCSB_3_container > ul > li > p')

print(name)
print(addr)

for i in range(len(name)):
  name_list.append(name[i].text)
  addr_list.append(addr[i].text[:-9])
  tel_list.append(addr[i].text[-9:])


dict = {'name':name_list,'addr':addr_list,'tel':tel_list}
df = pd.DataFrame(dict)
print(df)
display(df)

[]
[]
Empty DataFrame
Columns: [name, addr, tel]
Index: []


Unnamed: 0,name,addr,tel


#### 스타벅스 모든 음료 정보 가져오기

In [47]:
url = 'https://www.starbucks.co.kr/menu/drink_list.do'
driver.get(url)
time.sleep(0.5)



In [48]:
soup = bs(driver.page_source,'html.parser')
menu_list = []
kcal_list = []
sugar_list = []
protein_list = []
na_list = []
fat_list = []
caff_list = []

menu = soup.select('#container > div.content > div.product_result_wrap.product_result_wrap01 > div > dl > dd > div > p')
menu_info = soup.select('#container > div.content > div.product_result_wrap.product_result_wrap01 > div > dl > dd > div > ul > li > dl > dd')


count = 0


for i in range(1,len(menu)):
  menu_list.append(menu[i])
  kcal_list.append(menu_info[count])
  count+=1
  sugar_list.append(menu_info[count])
  count+=1
  protein_list.append(menu_info[count])
  count+=1
  na_list.append(menu_info[count])
  count+=1
  fat_list.append(menu_info[count])
  count+=1
  caff_list.append(menu_info[count])
  count+=1


    
  


dict = {'menu':menu_list,
        'kcal':kcal_list,
        'sugar':sugar_list,
        'protein':protein_list,
        'Na':na_list,
        'fat':fat_list,
        'caff':caff_list
      }

df = pd.DataFrame(dict)
display(df.head())



Unnamed: 0,menu,kcal,sugar,protein,Na,fat,caff
0,[시그니처 더 블랙 콜드 브루],[25],[0],[0],[50],[0],[680]
1,[나이트로 바닐라 크림],[75],[10],[1],[20],[2],[245]
2,[나이트로 콜드 브루],[5],[0],[0],[5],[0],[245]
3,[돌체 콜드 브루],[265],[29],[8],[115],[9],[150]
4,[바닐라 크림 콜드 브루],[125],[11],[3],[58],[6],[150]


### 웹 페이지 스크롤링

* Keys.PAGE_DOWN 활용

In [49]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from bs4 import BeautifulSoup as bs
import pandas as pd
import time

In [50]:
url = 'https://www.google.com/search?source=hp&ei=-QZ1W6XKH4ui8AWe6oOgAQ&q=%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0&oq=%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0&gs_l=psy-ab.3..0l10.3446.6828.0.6945.11.9.0.1.1.0.178.797.1j5.6.0....0...1c.1j4.64.psy-ab..6.5.589...0i131k1j0i10k1.0.onTVEC6H7No'


### 유튜브 정보 수집

* 영상제목 / 영상주소 / 조회수 

In [58]:
url_main = 'https://www.youtube.com'
url_sub = '/results?search_query='
query = '머신러닝'


In [61]:
url = 'https://www.youtube.com/playlist?list=PLVPcL0FVGV17GE8XGrRSLEOlJ8MAJkXZE'
driver.get(url)



In [62]:
soup = bs(driver.page_source,'html.parser')

#time = soup.find('id')


In [63]:
time = soup.findAll(class_ = 'style-scope ytd-thumbnail-overlay-time-status-renderer')

time_min_list = []
time_second_list = []
totalclock = ''
totalmin = 0
totalsecond = 0
print(name)
for i in range(len(time)):
  if i%2 !=0:
    time_min_list.append(int(time[i].text[-5:-4]))
    time_second_list.append(int(time[i].text[-3:-1]))


for m,s in zip(time_min_list,time_second_list):
  totalmin+=m
  totalsecond+=s


hour = str(totalmin // 60)
min = str(totalmin%60 + totalsecond//60)
second = str(totalsecond%60)

totalclock = hour + ":" + min +":"+second

print(totalclock)




[<title>🌟별사장님 노래 🌟 - YouTube</title>]
0:45:51


##유튜브 총 조회수 구하기

In [None]:
url = 'https://www.youtube.com/c/%EB%B3%84%EC%9D%80ByeolEun/videos'

driver.get(url)


In [None]:
soup = bs(driver.page_source,'html.parser')
views_count = soup.select('#metadata-line > span')
views_count_list = []
char = ".K"
for i in range(len(views_count)):
  if i%2 ==0:
    views_count_list.append(views_count[i].text[0:3])
print(views_count_list)

for i in range(len(views_count_list)):
  for x in range(len(char)):
    if '.' in views_count_list[i]:
      views_count_list[i] = views_count_list[i].replace(char[x],"") + "00"
    if 'K' in views_count_list[i]:
      views_count_list[i] = views_count_list[i].replace(char[x],"") 

'''
for i in views_count_list:
  if len(i) < 4:
    i = i +'000'
  i = int(i)

print(views_count_list)
'''


##재생목록 총 시간 구하기 

> 들여쓴 블록



In [None]:
time = soup.findAll(class_ = 'style-scope ytd-thumbnail-overlay-time-status-renderer')
time_min_list = []
time_second_list = []
totalclock = ''
totalmin = 0
totalsecond = 0

for i in range(len(time)):
  if i%2 !=0:
    time_min_list.append(int(time[i].text[-5:-4]))
    time_second_list.append(int(time[i].text[-3:-1]))

print(time)
for m,s in zip(time_min_list,time_second_list):
  totalmin+=m
  totalsecond+=s


hour = str(totalmin // 60)
min = str(totalmin%60 + totalsecond//60)
second = str(totalsecond%60)

totalclock = hour + ":" + min +":"+second

print(totalclock)
