### 네이버 이미지 데이터 수집
- 특정 이미지를 수집한 후 폴더에 저장
- 특정 키워드에 맞는 폴더를 생성하여 이미지를 저장

1. 모듈 불러오기

In [19]:
import time

# 파일 시스템을 다루는 도구(폴더/파일 생성, 삭제, 존재여부 등...)
import os


from selenium import webdriver as wb
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys


# 이미지 주소를 요청 -> 로컬 PC에 이미지 파일로 저장하는 도구
from urllib.request import urlretrieve

In [5]:
# 이미지 주소를 이용해서 파일로 저장하기

imgSrc = 'https://search.pstatic.net/common/?src=http%3A%2F%2Fblogfiles.naver.net%2FMjAyMzAyMDJfMjQy%2FMDAxNjc1MzE4MjE5NTgw.loZs0RoKyvnKc5gDunxg59rxFJbc4HIVv3Zy6VyeHTUg.DFgd6IcBTmi9kjt2OPwmIPOkyQt48t-GeuUEx27ic6Ug.JPEG.djarkdnjs%2FIMG_1022.JPG&type=a340'
urlretrieve(imgSrc, "test.png")

('test.jpg', <http.client.HTTPMessage at 0x29a167f1d10>)

In [6]:
# 폴더를 생성하는 법
os.mkdir('강아지')

In [9]:
# 폴더 존재 여부를 판단하기
# True : 이미 생성된 폴더
# False : 없는 폴더
os.path.isdir('강아지')

True

2. url로 Driver 연결

In [29]:
url = "https://search.naver.com/search.naver?where=image&sm=tab_jum&query=%EA%B0%95%EC%95%84%EC%A7%80"
driver = wb.Chrome()
driver.get(url)

In [30]:
# 1. 이미지 요소의 src속성값을 접근
imgList = driver.find_elements(By.CSS_SELECTOR, 'img._image._listImage')


48

In [35]:
# 페이지 스크롤 내리기 전 이미지 리스트 수 조사 -> 48건
len(imgList)

481

In [17]:
# 원하는 태그 안에 속성 뽑아오기
imgList[0].get_attribute('src')

'https://search.pstatic.net/common/?src=http%3A%2F%2Fblogfiles.naver.net%2FMjAyMzAxMjlfMjY1%2FMDAxNjc0OTgyMTA5Njg1.bdz36OWs1JdnEG2coiEC1nNN8c_Fw92L1grUa8lbncAg.U2sebGzfyVsMJvzWpulYVQbPuS1NeMG94bF69W1MQjEg.JPEG.lbhcook%2FKakaoTalk_20230119_201408151_01.jpg&type=a340'

In [31]:
# 많은 이미지 확보를 위한 페이지 스크롤 내리기!
# Keys.END : 웹 페이지 마지막 위치로 이동하게 되며
# -> 데이터를 가져오는 시간을 고려해야 한다.
for i in range(5):
    driver.find_element(By.CSS_SELECTOR,'body').send_keys(Keys.END)
    time.sleep(1.5)

In [32]:
# css 선택자 : img._image._listImage
# img 태그의 클래스 이름이 _image와 _listImage로 되어있어 두개다 사용하려면 ._image._listImage로 사용한다.
imgList = driver.find_elements(By.CSS_SELECTOR, 'img._image._listImage')

In [34]:
# 이후 이미지 리스트 길이 조사 : 481건(검색 키워드에 따라 다를수 있음)
# 스크롤을 내리면 브라우저 화면에 나타나는 이미지가 많아지므로 이미지 파일의 값들을 저장한 리스트가 길어진다.
len(imgList)

481

#### 코드 통합

In [61]:
# 1. 웹 페이지 스크롤 내리기
# url = "https://search.naver.com/search.naver?where=image&sm=tab_jum&query={%EA%B0%95%EC%95%84%EC%A7%80}"
# keyword = "고양이"
keyword = input("수집할 데이터를 입력해주세요. ")
url = f"https://search.naver.com/search.naver?where=image&sm=tab_jum&query={keyword}"
driver = wb.Chrome()
driver.get(url)

# 브라우저가 실행되는 시간
time.sleep(5)

for i in range(5):
    driver.find_element(By.CSS_SELECTOR,'body').send_keys(Keys.END)
    time.sleep(1.5)
    
# 2. 이미지 요소 접근하기
imgList = driver.find_elements(By.CSS_SELECTOR, 'img._image._listImage')

# 3. 이미지 요소가 가진 src속성값 접근하기
srcList = []
for i in range(len(imgList)):
    # 'h'로 시작하는 값만 리스트에 저장
    # 'http의 image 선택자를 가져와야함으로 'h'로 시작되는 값만 저장한다.
    if(imgList[i].get_attribute('src')[0]=='h'):
        srcList.append(imgList[i].get_attribute('src'))

# 3_2. 이미지를 저장할 폴더 생성하기

# keyword의 폴더가 있는지 판단하고 없으면 폴더 생성해주기!
if os.path.isdir(keyword)==True:
    print("이미 폴더가 있습니다.")
else:
    os.mkdir(keyword)
    print(f"{keyword} 폴더를 생성하였습니다.")
        
# 4. 이미지 주소로 파일 저장하기
for i in range(len(srcList)):
    urlretrieve(srcList[i], f'{keyword}/{keyword}{i+1}.jpg')
    # time.sleep(1)
print("이미지 수집이 완료되었습니다.")

돈까스 폴더를 생성하였습니다.
