# 드라이브 연동 및 기본 셋팅
```
오늘 수행할 실습은 이미지 자료 획득을 위한 브라우저 크롤링(crawling) 방법을 알아볼 예정입니다.
Custom model을 만들기 위해서는 모델이 학습할 데이터를 확보하는 부분이 대부분이라고 말할 정도로 데이터로 시작해서 데이터로 끝나는 경우가 많이 있습니다.  
이미지 한두장이면 몰라도, 몇 백장, 몇 천장 되는 이미지를 손으로 다운받고 있기란 엄두가 안나기 때문에, 데이터를 손쉽게 모을 수 있는 API들을 사용해봅시다.
```

In [2]:
from google.colab import drive
drive.mount('/content/gdrive')

Drive already mounted at /content/gdrive; to attempt to forcibly remount, call drive.mount("/content/gdrive", force_remount=True).


# Selenium 사용하기
```
Selenium이란 브라우저를 제어 가능한 웹 관련 프레임워크이며, 자바스크립트와 같은 동적 웹사이트의 데이터들에서 크롤링을 수월하게 할 수 있도록 도와주는 도구입니다.  
본 실습에서는 Chrome 브라우저의 형태를 따라 크롤링을 할 예정이기 때문에 Chromium-browser 웹 드라이버를 추가로 설치해줍니다.
Local 환경에서 실행하는 것과 조금 차이가 있으므로 Colab에서 실행 시 다음 코드를 따라주세요.
``` 

In [3]:
!apt-get update
!apt install chromium-chromedriver
!cp /usr/lib/chromium-browser/chromedriver /usr/bin
!pip install selenium

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time
import urllib.request

0% [Working]            Get:1 http://security.ubuntu.com/ubuntu bionic-security InRelease [88.7 kB]
Get:2 https://cloud.r-project.org/bin/linux/ubuntu bionic-cran40/ InRelease [3,626 B]
Ign:3 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64  InRelease
Hit:4 http://archive.ubuntu.com/ubuntu bionic InRelease
Get:5 http://ppa.launchpad.net/c2d4u.team/c2d4u4.0+/ubuntu bionic InRelease [15.9 kB]
Ign:6 https://developer.download.nvidia.com/compute/machine-learning/repos/ubuntu1804/x86_64  InRelease
Get:7 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64  Release [697 B]
Hit:8 https://developer.download.nvidia.com/compute/machine-learning/repos/ubuntu1804/x86_64  Release
Get:9 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64  Release.gpg [836 B]
Get:10 http://archive.ubuntu.com/ubuntu bionic-updates InRelease [88.7 kB]
Get:11 https://cloud.r-project.org/bin/linux/ubuntu bionic-cran40/ Packages [61.8 kB]
Hit:12 htt

네이버에 마스크 검색 후 크롤링

In [7]:

chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')

# 부여한 옵션들을 api에 적용해줍니다.
my_driver = webdriver.Chrome('chromedriver', chrome_options=chrome_options)


my_driver.get("https://search.naver.com/search.naver?sm=tab_hty.top&where=image&query=%EB%A7%88%EC%8A%A4%ED%81%AC") #// naver의 경우 html 태그 등을 수정하여 사용합니다.

 
 # 명령어 중단을 막기 위한 1초 대기 코드
SCROLL_PAUSE_TIME = 1
 

 ## 스크롤 내리는 기능
for _ in range(10000):
    my_driver.execute_script("window.scrollBy(0,30000)") 
    ##

images = my_driver.find_elements_by_css_selector("div> div > div > div.thumb > a > img")
count = 1
for image in images:
    try: 
        image.click()
        time.sleep(2)
        imgUrl = my_driver.find_element_by_css_selector('div.image_area._queryImage > div.image._imageBox > img').get_attribute("src")
        urllib.request.urlretrieve(imgUrl, "/content/gdrive/MyDrive/Colab Notebooks/컴퓨터비전/crawling_naver/" + str(count) + ".jpg")
        count = count + 1
        print(count,"번째",image)
        
          
    except:
        pass
 
my_driver.close()

  


2 번째 <selenium.webdriver.remote.webelement.WebElement (session="3d34e8e4d0c94b071c92a8d42c9464ca", element="7a162ef3-4beb-4ee2-a862-33399d53d72f")>
3 번째 <selenium.webdriver.remote.webelement.WebElement (session="3d34e8e4d0c94b071c92a8d42c9464ca", element="1fe11f2b-ecc3-4243-9b48-6770c11562e4")>
4 번째 <selenium.webdriver.remote.webelement.WebElement (session="3d34e8e4d0c94b071c92a8d42c9464ca", element="c2534f6f-91ba-4328-8469-0f22285a0972")>
5 번째 <selenium.webdriver.remote.webelement.WebElement (session="3d34e8e4d0c94b071c92a8d42c9464ca", element="99a28642-0b7d-4805-b5b3-fc5080f758a5")>
6 번째 <selenium.webdriver.remote.webelement.WebElement (session="3d34e8e4d0c94b071c92a8d42c9464ca", element="aab788f2-0dd0-4308-9f65-62c311eb7044")>
7 번째 <selenium.webdriver.remote.webelement.WebElement (session="3d34e8e4d0c94b071c92a8d42c9464ca", element="252f2b38-53dd-4342-b563-3f22e02d5136")>
8 번째 <selenium.webdriver.remote.webelement.WebElement (session="3d34e8e4d0c94b071c92a8d42c9464ca", element="33e5

마스크 쓰지않은 얼굴을 수집하기 위한 크롤링(네이버)

In [8]:
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')

# 부여한 옵션들을 api에 적용해줍니다.
my_driver = webdriver.Chrome('chromedriver', chrome_options=chrome_options)


my_driver.get("https://search.naver.com/search.naver?sm=tab_hty.top&where=image&query=%EC%96%BC%EA%B5%B4") #// naver의 경우 html 태그 등을 수정하여 사용합니다.

 
 # 명령어 중단을 막기 위한 1초 대기 코드
SCROLL_PAUSE_TIME = 1
 

 ## 스크롤 내리는 기능
for _ in range(20000):
    my_driver.execute_script("window.scrollBy(0,30000)") 
    ##

images = my_driver.find_elements_by_css_selector("div> div > div > div.thumb > a > img")
count = 1
for image in images:
    try: 
        image.click()
        time.sleep(2)
        imgUrl = my_driver.find_element_by_css_selector('div.image_area._queryImage > div.image._imageBox > img').get_attribute("src")
        urllib.request.urlretrieve(imgUrl, "/content/gdrive/MyDrive/Colab Notebooks/컴퓨터비전/crawling_naver_face/" + str(count) + ".jpg")
        count = count + 1
        print(count,"번째",image)
        
          
    except:
        pass
 
my_driver.close()

  import sys


2 번째 <selenium.webdriver.remote.webelement.WebElement (session="98b67f78db0a83a403d2f13860cf872d", element="1321e831-1034-467e-adc1-7a628b8b688b")>
3 번째 <selenium.webdriver.remote.webelement.WebElement (session="98b67f78db0a83a403d2f13860cf872d", element="1d8a8fa8-0374-4c80-9701-d0971ac8d93a")>
4 번째 <selenium.webdriver.remote.webelement.WebElement (session="98b67f78db0a83a403d2f13860cf872d", element="4ee608dc-5695-42f0-acb7-473906854562")>
5 번째 <selenium.webdriver.remote.webelement.WebElement (session="98b67f78db0a83a403d2f13860cf872d", element="065db943-f683-4fba-9a51-a230b8d87d09")>
6 번째 <selenium.webdriver.remote.webelement.WebElement (session="98b67f78db0a83a403d2f13860cf872d", element="9058d5f5-6c6b-4b06-aab8-63b8d2821f64")>
7 번째 <selenium.webdriver.remote.webelement.WebElement (session="98b67f78db0a83a403d2f13860cf872d", element="c25cd392-506b-4965-b053-3855e9b72375")>
8 번째 <selenium.webdriver.remote.webelement.WebElement (session="98b67f78db0a83a403d2f13860cf872d", element="aeac

테스트 데이터를 수집하기 위해 구글에서 마스크 검색

In [12]:

chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')

# 부여한 옵션들을 api에 적용해줍니다.
my_driver = webdriver.Chrome('chromedriver', chrome_options=chrome_options)

# 크롤링 할 사이트를 호출하는 코드
my_driver.get("https://www.google.co.kr/imghp?hl=ko&ogbl") 
# my_driver.get("https://www.naver.com") // naver의 경우 html 태그 등을 수정하여 사용합니다.

# 이미지 입력 태그 창을 찾아 검색어를 입력하고, 검색을 수행하는 부분
element = my_driver.find_element_by_name("q")
element.send_keys("person wearing mask")
element.send_keys(Keys.RETURN)
 
 # 명령어 중단을 막기 위한 1초 대기 코드
SCROLL_PAUSE_TIME = 1
 
 # 브라우저의 스크롤을 내리는 기능
last_height = my_driver.execute_script("return document.body.scrollHeight")
 
while True:
    my_driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

    time.sleep(SCROLL_PAUSE_TIME)
 
    new_height = my_driver.execute_script("return document.body.scrollHeight")
    if new_height == last_height:
        try:
            my_driver.find_element_by_css_selector(".mye4qd").click()
        except:
            break
    last_height = new_height
 
images = my_driver.find_elements_by_css_selector(".rg_i.Q4LuWd")
count = 1
for image in images:
    try: 
        image.click()
        time.sleep(2)
        imgUrl = my_driver.find_element_by_xpath('/html/body/div[2]/c-wiz/div[3]/div[2]/div[3]/div/div/div[3]/div[2]/c-wiz/div/div[1]/div[1]/div/div[2]/a/img').get_attribute("src")
        urllib.request.urlretrieve(imgUrl, "/content/gdrive/MyDrive/Colab Notebooks/컴퓨터비전/컴비_기말/with_mask/" + str(count)+"_google_mask" + ".jpg")
        count = count + 1
        print("count:",count,image)
        if count == 500:
           break;
          
    except:
        pass
 
driver.close()

  


count: 2 <selenium.webdriver.remote.webelement.WebElement (session="f570b6a723bf53babbf2db993c58f01c", element="e3334c94-6c74-4e70-8afa-00833fc0ec95")>
count: 3 <selenium.webdriver.remote.webelement.WebElement (session="f570b6a723bf53babbf2db993c58f01c", element="a112dec5-8b29-46b0-8a3a-2cd50424c47c")>
count: 4 <selenium.webdriver.remote.webelement.WebElement (session="f570b6a723bf53babbf2db993c58f01c", element="bd5b9c16-beab-433f-984e-7c40e5f3f3c2")>
count: 5 <selenium.webdriver.remote.webelement.WebElement (session="f570b6a723bf53babbf2db993c58f01c", element="444e9dd8-12a3-4efe-99cb-27cb2d922ee2")>
count: 6 <selenium.webdriver.remote.webelement.WebElement (session="f570b6a723bf53babbf2db993c58f01c", element="975da23f-f552-4129-8f89-e708e86b597d")>
count: 7 <selenium.webdriver.remote.webelement.WebElement (session="f570b6a723bf53babbf2db993c58f01c", element="f0c61f5d-e24b-4e05-821b-e4d2735df245")>
count: 8 <selenium.webdriver.remote.webelement.WebElement (session="f570b6a723bf53babbf2

NameError: ignored

https://www.google.co.kr/search?q=person+face&tbm=isch&hl=ko&chips=q:person+face,online_chips:images:gBRNoffd-RY%3D&sa=X&ved=2ahUKEwip_ZTWm5bxAhUFD6YKHfBhBicQ4lYoBHoECAEQIQ&biw=941&bih=853 해당 링크로 바로 크롤링하는 코드 (x send key) , 구글에서 persion face 크롤링

In [10]:

chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')

# 부여한 옵션들을 api에 적용해줍니다.
my_driver = webdriver.Chrome('chromedriver', chrome_options=chrome_options)

# 크롤링 할 사이트를 호출하는 코드
my_driver.get("https://www.google.co.kr/search?q=person+face&tbm=isch&hl=ko&chips=q:person+face,online_chips:images:gBRNoffd-RY%3D&sa=X&ved=2ahUKEwip_ZTWm5bxAhUFD6YKHfBhBicQ4lYoBHoECAEQIQ&biw=941&bih=853") 
# my_driver.get("https://www.naver.com") // naver의 경우 html 태그 등을 수정하여 사용합니다.

# 이미지 입력 태그 창을 찾아 검색어를 입력하고, 검색을 수행하는 부분
#element = my_driver.find_element_by_name("q")
#element.send_keys("person wearing mask")
#element.send_keys(Keys.RETURN)                                              
 
 # 명령어 중단을 막기 위한 1초 대기 코드
SCROLL_PAUSE_TIME = 1
 
 # 브라우저의 스크롤을 내리는 기능
last_height = my_driver.execute_script("return document.body.scrollHeight")
 
while True:
    my_driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

    time.sleep(SCROLL_PAUSE_TIME)
 
    new_height = my_driver.execute_script("return document.body.scrollHeight")
    if new_height == last_height:
        try:
            my_driver.find_element_by_css_selector(".mye4qd").click()
        except:
            break
    last_height = new_height
 
images = my_driver.find_elements_by_css_selector(".rg_i.Q4LuWd")
count = 1
for image in images:
    try: 
        image.click()
        time.sleep(2)
        imgUrl = my_driver.find_element_by_xpath('/html/body/div[2]/c-wiz/div[3]/div[2]/div[3]/div/div/div[3]/div[2]/c-wiz/div/div[1]/div[1]/div/div[2]/a/img').get_attribute("src")
        urllib.request.urlretrieve(imgUrl, "/content/gdrive/MyDrive/Colab Notebooks/컴퓨터비전/컴비_기말/just_face/" + str(count) +"_google"+ ".jpg")
        count = count + 1
        print("count:",count,image)
        if count == 500:
           break;
          
    except:
        pass
 
driver.close()

  


KeyboardInterrupt: ignored