## 네이버에서 이미지 데이터 크롤링하기

In [11]:
from selenium import webdriver as wb
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from tqdm import tqdm
import pandas as pd
import time
# os: 팦일 및 폴더 시스템 관리 라이브러리
import os
# urlretrieve: url 경로를 통해 데이터를 파일로 다운로드 시켜주는 함수
from urllib.request import urlretrieve

### 수집된 이미지가 저장될 폴더 설정
- 폴더가 없으면 생성되도록 지정

In [14]:
# 자주 사용하는 리눅스 명령
# cd: 경로변경
# ls: 파일명 확인
# rm: 지우기
# mkdir: 폴더 생성

# path.isdir: 해당 경로에 지정한 명칭의 폴더가 있는지 확인하는 함수(isdir은 리눅스 명령의 ls와 동일)
if not os.path.isdir("dowloaded image"): # dowloaded image라는 폴더가 없다면
    os.mkdir('downloaded image') # dowloaded image 폴더를 만들어라.
    print('make folder')
else:
    print('already made')

FileExistsError: [WinError 183] 파일이 이미 있으므로 만들 수 없습니다: 'downloaded image'

In [18]:
driver = wb.Chrome()
driver.maximize_window()
time.sleep(2)

# url이 너무 길어지면 '\'로 개행할 수 있음.
driver.get('https://search.naver.com/search.naver?ssc=tab.image.all&where=image&\
sm=tab_jum&query=%EB%B9%A4%EC%AE%B8%ED%86%A0%EB%81%BC')

### 각 이미지에 접근하기

In [25]:
imgs = driver.find_elements(By.CSS_SELECTOR ,'._fe_image_tab_content_thumbnail_image')
len(imgs)

128

- 웹 상의 이미지는 img태그 안에 src 속성에 서버에서 관리하는 원본 이미지의 주소가 있음!

In [34]:
imgs[4].get_attribute('src')

'https://search.pstatic.net/common/?src=http%3A%2F%2Fblogfiles.naver.net%2FMjAyNTAyMDNfMTg2%2FMDAxNzM4NTE3MTM0Mjk3.PTPX-K71ZgLmUzJRllnRmP3KiUTZ6Uc92oxvVAK_8wEg.rcMOjpWW8rJODlZerQgoSOf7Rqq73AG3Htk__bxviz4g.JPEG%2F1738517134502.jpg&type=a340'

In [40]:
imgs_src = []
for i in range(len(imgs)):
    imgs_src.append(imgs[i].get_attribute('src'))

imgs_src

['https://search.pstatic.net/sunny/?src=https%3A%2F%2Fimage.aladin.co.kr%2Fproduct%2F35301%2F80%2Fcover500%2Fk122035973_1.jpg&type=a340',
 'https://search.pstatic.net/common/?src=http%3A%2F%2Fblogfiles.naver.net%2FMjAyMzA5MTJfMjM0%2FMDAxNjk0NDU1MTc3MTAz.i_Q5kHJlY_wA9RAWaAXSs1yvdiIvAeAKPAA1XoaJnAkg.f0fTD7hRa6yRKu9JiZVuSLa4M1YdFFkdLq2OF4FAqUsg.JPEG.nhj98%2FIMG_8055.JPG&type=a340',
 'https://search.pstatic.net/common/?src=http%3A%2F%2Fblogfiles.naver.net%2FMjAyNDA0MTVfMjc2%2FMDAxNzEzMTc2NzU5NDUy.k0UN1r7PTz-lkbz0pDhM3vnez-q6ubJBT0O_v4ff23gg.oRQ4nX3Ti5efJXw3j9S-vTo5F2CizsLnBXbUTtk0vfAg.JPEG%2FIMG_9527.JPG&type=a340',
 'https://search.pstatic.net/common/?src=https%3A%2F%2Fshopping-phinf.pstatic.net%2Fmain_8784738%2F87847389124.jpg&type=f372_372',
 'https://search.pstatic.net/common/?src=http%3A%2F%2Fblogfiles.naver.net%2FMjAyNTAyMDNfMTg2%2FMDAxNzM4NTE3MTM0Mjk3.PTPX-K71ZgLmUzJRllnRmP3KiUTZ6Uc92oxvVAK_8wEg.rcMOjpWW8rJODlZerQgoSOf7Rqq73AG3Htk__bxviz4g.JPEG%2F1738517134502.jpg&type=a340',
 'http

### 각 이미지의 원천 주소를 통해 파일로 다운로드 받기

In [43]:
for cnt, i in tqdm(enumerate(imgs_src)): # i는 src
    # urlretrieve(url, 다운로드받을 경로 및 파일명 + 확장자명)
    urlretrieve(i, 'downloaded image/' + str(cnt+1) + '.jpg')
    time_sleep(1)

128it [00:01, 78.20it/s] 


- 만든 경로에 이미지 파일이 들어갔지만 그 중 꺠지거나 이미지를 불러올 수 없는 경우가 있음.
- 수집된 HTML요소 중 뒤쪽 요소들은 이미지 src 값을 전부 출력시키지 않을 수 있으며 이는 이미지 용량 및 네트워크 속도 문제 때문일 수 있음.
- 충분한 시간 텀을 줘서 이미지가 로드 되는 것을 기다린 후 크롤링해야하며 그럼에도 불구하고 수집이 불가한 이미지들은 관리자가 막아둔 것일 수 있음.

### 전체 코드를 한 셀에!

In [49]:
driver = wb.Chrome()
driver.maximize_window()
time.sleep(2)

driver.get('https://search.naver.com/search.naver?ssc=tab.image.all&where=image&\
sm=tab_jum&query=%EB%B9%A4%EC%AE%B8%ED%86%A0%EB%81%BC')
time.sleep(2)



imgs_src = []

try:
    # 1. 시간 텀을 줘서 스크롤 내리기를 반복
    # _ 는 변수를 쓰지 않겠다는 뜻
    for _ in tqdm(range(4)):
        body = driver.find_element(By.TAG_NAME,'body')
        body.send_keys(Keys.END)
        time.sleep(2)

    imgs = driver.find_elements(By.CSS_SELECTOR ,'._fe_image_tab_content_thumbnail_image')

        
    # 2. 수집된 요소의 src값을 추출하여 빈 리스트에 저장
    for i in tqdm(range(len(imgs))):
        imgs_src.append(imgs[i].get_attribute('src'))
    
    for cnt, i in tqdm(enumerate(imgs_src)): # i는 src
        # urlretrieve(url, 다운로드받을 경로 및 파일명 + 확장자명)
        urlretrieve(i, 'downloaded image/' + str(cnt+1) + '.jpg')
        time.sleep(1)
    print('successfully done:)')
except:
    print('unexpected error occurred:(')

100%|████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:08<00:00,  2.08s/it]
100%|███████████████████████████████████████████████████████████████████████████████| 416/416 [00:01<00:00, 255.18it/s]
416it [07:17,  1.05s/it]

successfully done:)





### 결론
- 대체적으로 크롤링 및 파일 다운로드가 잘 진행되나, 네이버의 경우 데이터에 대한 보안이나 접근제한이 꽤 높기도 하고 네트워크 속도의 문제로 스크롤 된 수 모든 src 값을 다 출력하지 않는 경우도 있어서 모든 파일이 다 완벽하게 저장되지 않을 수 있음

### 그 외 데이터가 전부 수집되지 않는 여러가지 이유
1. 웹 페이지 자체의 실시간 변동이 심한 경우
- 빈번한 업데이트, 업로드, 삭제 등으로 수집하려는 대상이 동작 중 변경될 수 있음.
2. 웹 페이지 별로 구조가 상이한 경우
- 반응형 웹과 같이 상황에 따라 구조가 변하는 경우 요소가 있다가 없어지거나 하는 현상이 발생할 수 있음.
3. 크롤링 코드 동작시 충분한 시간 텀을 주지 않는 경우
- 웹 페이지의 이미지가 다 로딩되기 전에 코드가 동작되면 인식 못함.
- 스크롤 수 img태그는 HTML에 있지만 실제 이미지 주소는 아직 브라우저에 로딩되지 않았을 수 있음.
4. 수집하려는 데이터가 웹에 부족한 경우
- 특정 희귀 검색어의 경우 웹에 업로드된 이미지가 적어서 수집이 많이 안 됨.

