# request 패키지

In [None]:
!pip install requests

In [None]:
import requests

URL = 'https://www.naver.com'
response = requests.get(URL) # get 방식으로 요청
print(response.status_code)

print(response.text)

URL = 'https://search.naver.com/search.naver'
query = {'query':'python'}
response = requests.get(URL, params=query)
print(response.status_code)
print(response.text)

# user_agent 값 설정

In [None]:
- 로봇이 아님을 나타내기 위해서  user-agent라는 값을 header에 넣어서 보냄
- 직접적인 URL주소로 요청 시 웹 사이트에서 웹 크롤링을 통해 접근한 것으로 감지하고 접속을 차단하게 됨
- user_agent 헤더값을 포함하여 요청하면 브라우저를 통해 요청하는 것으로 인식되어 해결
- 웹 브라우저 실행 -> F12 개발자 모드 진입 -> console에 navigator.userAgent 입력

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36 Edg/122.0.0.0

In [None]:
import requests

URL = 'http://www.google.com/search'
params = {'q':'python'}
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36 Edg/122.0.0.0'}

response = requests.get(URL, params = params)
response.raise_for_status() #응답코드가 200이 아니면 오류내고 멈춤
result = response.text
with open('mygoogle.html','w', encoding='utf-8') as f:
    f.write(result)
print('저장완료!')

## [실습] 네이버 데이터랩에서 실시간 인기 검색어 추출

In [None]:
import requests 

response = requests.get('https://datalab.naver.com')
html_text = response.text

temp = html_text.split('<em class="num">1</em>')[1] #()안의 값 밑 전체의 내용이 나오게 됨. 
temp = temp.split('<span class="title">')[1]
temp = temp.split('</span>')[0]
print(temp)

# BeautifulSoup 패키지

## Parser별 출력 결과 비교

In [None]:
!pip install html5lib
#!pip install lxml

In [None]:
from bs4 import BeautifulSoup

soup = BeautifulSoup ('<a></p>', 'html.parser')
print('html.parser')
print(soup)
print('-'*40)

soup = BeautifulSoup ('<a> </p>', 'lxml')
print('lxml')
print(soup)
print('-'*40)

soup = BeautifulSoup ('<a> </p>', 'xml')
print('xml')
print(soup)
print('-'*40)

soup = BeautifulSoup ('<a> </p>', 'html5lib')
print('html5lib')
print(soup)
print('-'*40)

## 기본 사용법

In [None]:
import requests
from bs4 import BeautifulSoup

URL = 'https://ko.wikipedia.org/wiki/%EC%9B%B9_%ED%81%AC%EB%A1%A4%EB%9F%AC'
response = requests.get(URL)

# soup 객체 생성
soup = BeautifulSoup(response.text, 'lxml')

# 태그를 이용한 접근
print(soup.title)
print(soup.footer.ul.li.text)

# 태그와 속성을 이용한 접근
print(soup.a) #soup 객체에서 첫 번째로 만나는 a 태그 출력
#print(soup.a['id']) #만약 속성이 존재하지 않으면 에러 발생
print(soup.a['href'])

#find() 함수를 이용한 태그 내의 다양한 속성을 이용한 접근
print(soup.find('a', attrs={'title':'구글봇'})) # a 태그 중 title 속성의 값이 '구글봇'인 데이터 검색

##자식 태그들을 반복 가능한 객체로 반환

In [None]:
html = '''
<html>
    <head>
        <title> Web Scrapping </title>
    </head>
    <body>
        <p class="a" align = "center">text1</p>
        <p class="b" align = "center">text2</p>
        <p class="c" align = "center">text3</p>
        <div>
            <img src="\source" width="300" height="200">
        </div>   
    </body>
</html>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
contents = soup.find('body')
#print(contents)
for child in contents.children:
    print(child)

## 자신을 포함한 부모 태그까지 출력

In [None]:
html = '''
<html>
    <head>
        <title> Web Scrapping </title>
    </head>
    <body>
        <p class="a" align = "center">text1</p>
        <p class="b" align = "center">text2</p>
        <p class="c" align = "center">text3</p>
        <div>
            <img src="\source" width="300" height="200">
        </div>   
    </body>
</html>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
contents = soup.find('body')
img_tag = contents.find('img')
print(img_tag)
print('/n')
print(img_tag.parent)

## 특정 부모 태그까지 검색해서 올라가는 법 (바로 위말고 그이상까지)

In [None]:
html = '''
<html>
    <head>
        <title> Web Scrapping </title>
    </head>
    <body>
        <p class="a" align = "center">text1</p>
        <p class="b" align = "center">text2</p>
        <p class="c" align = "center">text3</p>
        <div>
            <img src="\source" width="300" height="200">
        </div>   
    </body>
</html>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
contents = soup.find('body')
img_tag = contents.find('img')
print(img_tag.find_parent('body')) #  지정된 부모 태그까지 올라감

## 형제 태그 검색

In [None]:
html = '''
<html>
    <head>
        <title> Web Scrapping </title>
    </head>
    <body>
        <p class="a" align = "center">text1</p>
        <p class="b" align = "center">text2</p>
        <p class="c" align = "center">text3</p>
        <div>
            <img src="\source" width="300" height="200">
        </div>   
    </body>
</html>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
p_tag = soup.find('p', attrs={'class':'b'})
print(p_tag)
print('바로 다음 형제태그')
print(p_tag.find_next_sibling())
print('모든 다음 형제태그')
print(p_tag.find_next_siblings())
print('바로 이전 형제태그')
print(p_tag.find_previous_sibling())
print('모든 이전 형제태그')
print(p_tag.find_previous_siblings())

## 검색:find()

In [None]:
import requests
from bs4 import BeautifulSoup

response = requests.get('https://www.naver.com')
soup = BeautifulSoup(response.text,'lxml')
print(soup.find('title'))
print(soup.find('a'))
print(soup.find(id='search')) #id속성의 값이 search인 정보를 가져옴 soup.find(attrs={'id'='search'})와 동일

## 검색:find_all()

In [None]:
a_tags = soup.find_all('a', limit=2)
print(len(a_tags))
print(a_tags)

In [None]:
[실습] 네이버 뉴스 페이지에서 언론사 목록 가져오기

In [26]:
import requests
from bs4 import BeautifulSoup

res = requests.get('https://news.naver.com')
soup = BeautifulSoup(res.text, 'lxml')
result = soup.find_all('h4', attrs={'class':'channel'})
#print(result[0].get_text())
#print(list(result[0].children))
press_list = [ list(tag.children)[0] for tag in result]
print(press_list[:10])

파이낸셜뉴스04월 01일 17:25
['파이낸셜뉴스', <span class="datetime">04월 01일 17:25</span>]
['파이낸셜뉴스', '신동아', '시사IN', '오마이뉴스', '디지털타임스', '경기일보', '코리아중앙데일리', 'SBS Biz', '미디어오늘', '동아사이언스']


In [None]:
res = requests.get('https://news.naver.com')
soup = BeautifulSoup(res.text, 'lxml')
result = soup.find_all('div', attrs={'class':'cjs_age_name'})
press_list = [tag.text for tag in result]
print(press_list[:10])

## 검색: select_one(), select()

In [None]:
import requests
from bs4 import BeautifulSoup

res = requests.get('http://www.tradecampus.com')
soup = BeautifulSoup(res.text, 'html.parser')
print(soup.select_one('div > a'))
result = soup.select('div a')
print(len(result))

In [None]:
print(soup.select_one('body > div > div.wrapper.main_page > div.renew_main > div.col-12 > div > div.renew_main_notice > div > div > h3')) # 개발자모드 selector copy하면 나오는 것

In [None]:
# notice = soup.select('body > div > div.wrapper.main_page > div.renew_main > div.col-12 > div > div.renew_main_notice > div > ul > li:nth-child(2) > p > a')
notice = soup.select('body > div > div.wrapper.main_page > div.renew_main > div.col-12 > div > div.renew_main_notice > div > ul > li > p > a') -> 다 가져오고 싶을때 목록 li 만
print(notice[0].txt)

## 텍스트 가져오기: text, get_text()
-  검색결과에서 태그를 제외한 텍스트만 추출

In [None]:
# 고객센터 영역 텍스트 가져오기
tag = soup.find('div', attrs = {'class': 'serviceInfo'})
print(tag.get_text())

In [None]:
tag = soup.find('img', attrs={'class':'mobile_icon black'})
print(tag['src'])
print(tag.get('src'))

## 텍스트 가져오기: string
- 검색결과에서 **태그 안에 또 다른 태그가 없는 경우 **해당 내용을 추출

In [None]:
tag = soup.find('div', attrs = {'class': 'serviceInfo'})
tag = tag.find('span')
print(tag.string)

In [None]:
[실습] 네이버 웹툰 제목 가져오기

In [None]:
!pip install selenium

In [None]:
!pip install webdriver_manager

In [None]:
import requests
import time
from bs4 import BeautifulSoup
from selenium.webdriver.chrome.service import Service
from selenium.webdriver import Chrome, ChromeOptions
from webdriver_manager.chrome import ChromeDriverManager

driver = Chrome(service=Service(ChromeDriverManager().install()),options=ChromeOptions())

URL = 'https://comic.naver.com/webtoon'
driver.get(URL)
time.sleep(4) # 동적으로 생성되는 페이지의 내용이 완성될 때까지 대기
soup = BeautifulSoup(driver.page_source,'lxml')

# 요일별 전체 웹툰 CSS 선택자
temp = soup.select_one('#container > div.component_wrap.type2 > div.WeekdayMainView__daily_all_wrap--UvRFc')


# 요일별 div 태그 검색
temp = temp.find_all('ul', attrs = {'class':'WeekdayMainView__daily_list--R52q0'})
week = ['월','화','수','목','금','토','일']
for i, w in enumerate(temp):
    print(f'==== {week[i]} 요 웹튼 ====')
    webtoon_list = w.find_all('li', attrs = {'class':'DailyListItem__item--LP6_T'})
    for webtoon in webtoon_list:
        print(webtoon.find('span', attrs={'class':'text'}).text)
    print()

In [None]:
[실습] 메가박스 영화정보 사이트에서 영화 포스터 다운로드 하기

In [20]:
# 사전 테스트 : 박스 오피스 1위 영화 포스터 이미지 가져오기
from bs4 import BeautifulSoup
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import ChromiumOptions
from webdriver_manager.chrome import ChromeDriverManager

driver = Chrome(service=Service(ChromeDriverManager().install()),options=ChromeOptions())
URL = 'https://megabox.co.kr/movie'
driver.get(URL)
soup = BeautifulSoup(driver.page_source,'lxml')
poster_img = soup.select('#movieList > li:nth-child(1) > div.movie-list-info > img')
print(len((poster_img)))
poster_img_src = poster_img[0].get('src')

import requests
res = requests.get(poster_img_src)
with open('poster.jpg','wb') as f:
    f.write(res.content)
print('End')

1
End


[문제] 메가박스 영화 사이트에 첫 페이지에 있는 모든 영화 포스트 이미지 수집하기
- 메가박스 영화 사이트 첫 페이지에 있는 20개의 영화 포스트 이미지 수집
- 현재 작업 디렉토리 밑에 'poster_img' 폴더가 없는 경우 폴더를 생성한다. (os 패키지 이용)
- 저장되는 각 포스터 이미지의 파일이름은 영화제목으로 한다.

In [None]:
#모범답안
from bs4 import BeautifulSoup
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import ChromiumOptions
from webdriver_manager.chrome import ChromeDriverManager
import os
if not os.path.exists('poster_img'):
    os.makedirs('poster_img')

driver = Chrome(service = Service(ChromeDriverManager().install()), options=ChromeOptions())


URL = 'https://www.megabox.co.kr/movie'
driver.get(URL)
soup = BeautifulSoup(driver.page_source, 'lxml')

movie_posters = soup.select('#movieList > li > div.movie-list-info > img')
for i, poster in enumerate(movie_posters, start=1):
    movie_title = poster.get('alt').strip().replace(':', '_') # 영화 제목 추출
    poster_img_src = poster.get('src') # 영화 포스터 이미지 URL 추출
    res = requests.get(poster_img_src) # 영화 포스터 이미지 다운로드 및 저장
    with open(f'poster_img/{movie_title}.jpg', 'wb') as f:
        f.write(res.content)
    print(f"{i}. '{movie_title}'의 포스터 이미지를 저장했습니다.")

# 작업 완료 후 브라우저 닫기
driver.quit()
print('모든 포스터 이미지 수집 및 저장이 완료되었습니다.')
from webdriver_manager.chrome import ChromeDriverManager

driver = Chrome(service = Service(ChromeDriverManager().install()), options=ChromeOptions())
URL = 'https://www.megabox.co.kr/movie'
driver.get(URL)
soup = BeautifulSoup(driver.page_source, 'lxml')

# 포스터 이미지를 가지고 있는 모든 img 태그를 검색
poster_imgs= soup.find_all('img',attrs={'class':'poster lozad'})
# print(len(poster_imgs))

#이미지를 저장할 폴더 생성
import options
img_dir = "./poster_img/"
if not os.path.exists('img_dir'):
    os.makedirs('img_dir')
    print('폴더 생성 완료')
else:
    print('폴더가 존재함')

for i, poster in enumerate(poster_imgs,1): 
    title = poster.get('alt')
    img_url = poster.get('src')
    
    print(i,':',img_url)
    img_res = requests.get(img_url)

    if ":"in title:
        title = title.replace(':',' ')

    with open(img_dir+f'[{i}].{title}.jpg','wb') as f:
        f.write(img_res.content)

[실습] 네이버 뉴스 사이트에서 경제 관련 언론사별 랭킹뉴스 추출하기
URL = 'https://news.naver.com/'

In [None]:
import requests
from bs4 import BeautifulSoup
URL = 'https://news.naver.com/main/ranking/popularDay.naver'
res = requests.get(URL)
soup = BeautifulSoup(res.text, 'html.parser')
news_list = soup.find_all('div', attrs={'class': 'rankingnews_box'})
print('등록 언론사 개수: ',len(news_list))

for news in news_list:
    press_title = news.find('strong').text
    if '경제' in press_title:
        print('언론사: ', press_title)
        press_news = news.find_all('div', attrs={'class':'list_content'})
        for i, ranking_news in enumerate(press_news,1):
            print(f'{i}:{ranking_news.find("a").get_text()}')

# Selenium 패키지

## find_element() 함수

In [14]:
from selenium.webdriver import Chrome
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By

# Chrome 웹 드라이버 동적 다운로드 및 설정
driver = Chrome(service=Service(ChromeDriverManager().install()))

# 다음 웹 페이지에 접속
driver.get('https://www.daum.net')

# 링크 텍스트가 '카페'인 요소를 찾기
ele = driver.find_element(By.LINK_TEXT, '카페')

# 요소의 타입과 텍스트 내용 출력
print(type(ele))
print(ele.text)

<class 'selenium.webdriver.remote.webelement.WebElement'>
카페


## 이벤트 제어하기

### click()

In [19]:
from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from webdriver_manager.chrome import ChromeDriverManager

driver = Chrome(service=Service(ChromeDriverManager().install()), options=Options())

# 네이버 웹 페이지로 이동
driver.get('https://www.naver.com')

# CSS 선택자를 사용하여 요소 찾기
ele = driver.find_element(By.CSS_SELECTOR, 'div.shortcut_area > ul > li:nth-child(5) > a')

# 요소 클릭
ele.click()

### send_keys()

In [21]:
from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.keys import Keys

driver = Chrome(service=Service(ChromeDriverManager().install()), options=Options())
driver.get('https://www.naver.com')

ele = driver.find_element(By.ID, 'query')
ele.send_keys('python')
ele.send_keys(Keys.ENTER)

In [None]:
[실습] 네이버 로그인하기

In [40]:
from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.keys import Keys

driver = Chrome(service=Service(ChromeDriverManager().install()), options=Options())
driver.get('https://www.naver.com')
ele = driver.find_element(By.CLASS_NAME, 'MyView-module__link_login___HpHMW')
ele.click()

my_id = 'abcdef'
my_pw = 'abcdef9978'

ele = driver.find_element(By.ID,'id')
ele.send_keys(my_id)

ele = driver.find_element(By.ID, 'pw')
ele.send_keys(my_pw)

time.sleep(3)
driver.execute_script(f"document.getElementById('id').value = '{my_id}'")
driver.execute_script(f"document.getElementById('pw').value = '{my_pw}'")

#로그인 유지 체크박스 클릭 
driver.execute_script("document.getElementById('keep').checked = true")

ele = driver.find_element(By.CLASS_NAME, 'btn_login')
ele.click()

## 웹 브라우저 자동 스크롤

### 구글에서 이미지 검색 후 검색 결과 6번 스크롤 하기

In [48]:
from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from webdriver_manager.chrome import ChromeDriverManager
import time

#페이지가 로드될때까지 기다리는 시간
SCROLL_PAUSE_TIME = 3

driver = Chrome(service=Service(ChromeDriverManager().install(), options = ChromeOptions()))
driver.get('https://www.google.co.kr')
ele = driver.find_element(By.CLASS_NAME,'gLFyf')
ele.send_keys('python')
ele.submit()

ele = driver.find_element(By.LINK_TEXT,'이미지').click()

#페이지가 로드될때까지 기다림
time.sleep(SCROLL_PAUSE_TIME)
last_height = driver.execute_script('return document.body.scrollHeight')

print('last height: ', last_height)
for i in range(6):
    #윈도우의 스크롤 바를 0에서 가장 및 까지 이동
    driver.execute_script('window.scrollTo(0, document.body.scrollHeight)')
    time.sleep (SCROLL_PAUSE_TIME)
    #새로운 검색결과 로딩후 변경된 스크롤 바의 높이
    new_height = driver.execute_script('return document.body.scrollHeight')
    print('new height: ',new_height)
# 더 이상 스크롤 될 페이지가 없을 경우 scrollHeight 값의 변화가 없음

last height:  7126
new height:  13915
new height:  20611
new height:  27059
new height:  30401
new height:  30401
new height:  30401


# 구글에서 이미지 검색 후 검색 결과 무한 스크롤 하기

In [52]:
from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from webdriver_manager.chrome import ChromeDriverManager
import time

# 페이지가 로드될 때까지 기다리는 시간
SCROLL_PAUSE_TIME = 3

# 변수 이름을 수정하여 올바른 드라이버를 생성합니다.
driver = Chrome(service=Service(ChromeDriverManager().install()), options=ChromeOptions())
driver.get('https://www.google.co.kr')
ele = driver.find_element(By.NAME, 'q')  # 검색어 입력란의 name 속성은 'q'입니다.
ele.send_keys('python')
ele.submit()

# 이미지 링크를 클릭합니다.
driver.find_element(By.LINK_TEXT, '이미지').click()

# 페이지가 로드될 때까지 기다립니다.
time.sleep(SCROLL_PAUSE_TIME)
last_height = driver.execute_script('return document.body.scrollHeight')

scroll_cnt = 0

while True:
    driver.execute_script('window.scrollTo(0, document.body.scrollHeight)')
    scroll_cnt += 1
    time.sleep(SCROLL_PAUSE_TIME)
   
    new_height = driver.execute_script('return document.body.scrollHeight')
    print(f'last height: {last_height}, new height:{new_height}, scroll count: {scroll_cnt}')
    if last_height != new_height: 
        last_height = new_height
    else: # 더이상 new height 값이 변동이 없다면
        break  # 들여쓰기 오류 수정

last height: 7126, new height:13915, scroll count: 1
last height: 13915, new height:20611, scroll count: 2
last height: 20611, new height:26966, scroll count: 3
last height: 26966, new height:30401, scroll count: 4
last height: 30401, new height:30401, scroll count: 5


### 구글에서 이미지 검색 후 썸네일 이미지 클릭하고 원본 이미지 주소 수정하기

In [None]:
from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys 
from webdriver_manager.chrome import ChromeDriverManager
import time 

SCROLL_PAUSE_TIME = 2   #페이지가 로드될 때까지 기다리는 시간
IMAGE_EXTRACT_NUM = 20 #이미지 추출 개수
SEARCH_KEYWORD = '보더콜리'


#############  웹 드라이버 실행 및 구글 접속  #######################
driver = Chrome(service=Service(ChromeDriverManager().install()),options=ChromeOptions())
driver.get('https://www.google.com')


#############  검색  #######################
ele=driver.find_element(by=By.CLASS_NAME,value='gLFyf')
ele.send_keys(SEARCH_KEYWORD)
ele.submit()

#############  이미지 검색 결과 페이지 이동  #######################
driver.find_element(By.LINK_TEXT,'이미지').click()

#페이지가 로드될 때까지 기다림
time.sleep(SCROLL_PAUSE_TIME)

#############  이미지 검색결과 페이지 스크롤  #######################
#최초 스크롤 바의 높이 값 읽기
last_height = driver.execute_script('return document.body.scrollHeight')

#스크롤 횟수
scroll_cnt=0

while True:
    #윈도우의 스크롤 바를 0에서부터 가장 밑(scrollHeight)까지 이동
    driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')
    scroll_cnt += 1
    time.sleep(SCROLL_PAUSE_TIME)
    #스크롤 바 이동으로 새로운 검색 결과가 로딩 후 변경된 새로운 스크롤 바의 높이값 읽
    new_height = driver.execute_script('return document.body.scrollHeight')
    print(f'last height: {last_height}, new height: {new_height}, scroll count: {scroll_cnt}')
    if last_height != new_height: #계속해서 new_height값이 변경 되면
        last_height = new_height
    else:   #더 이상 new_height 값의 변동이 없다면
        break 

#############  이미지 선택 및 해당 이미지 src 추출abs  #######################
# imgs = driver.find_elements(By.CLASS_NAME, 'YQ4gaf')
# print(len(imgs))
imgs = driver.find_elements(By.CSS_SELECTOR, '#rso > div > div > div.wH6SXe.u32vCb > div > div > div > div.czzyk.XOEbc > h3 > a')
print(len(imgs))

img_src_list = []
img_cnt = 0
for img in imgs:
    try:
        img_cnt += 1
        img.click()
        img_src=driver.find_element(By.XPATH,'//*[@id="Sva75c"]/div[2]/div[2]/div[2]/div[2]/c-wiz/div/div/div/div/div[3]/div[1]/a/img[1]').get_attribute('src')
        #해당 태그의 경로를 나타내는xpath 표시법
        print(f'[{img_cnt}.{img_src}]')
        img_src_list.append(img_src)
        if img_cnt == IMAGE_EXTRACT_NUM:
            break
    except:
        img_cnt -= 1

### 구글에서 이미지 검색 후 파일로 저장하기

In [1]:
from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys 
from webdriver_manager.chrome import ChromeDriverManager
import time 

SCROLL_PAUSE_TIME = 2   #페이지가 로드될 때까지 기다리는 시간
IMAGE_EXTRACT_NUM = 20 #이미지 추출 개수
SEARCH_KEYWORD = '보더콜리'


#############  웹 드라이버 실행 및 구글 접속  #######################
driver = Chrome(service=Service(ChromeDriverManager().install()),options=ChromeOptions())
driver.get('https://www.google.com')


#############  검색  #######################
ele=driver.find_element(by=By.CLASS_NAME,value='gLFyf')
ele.send_keys(SEARCH_KEYWORD)
ele.submit()

#############  이미지 검색 결과 페이지 이동  #######################
driver.find_element(By.LINK_TEXT,'이미지').click()

#페이지가 로드될 때까지 기다림
time.sleep(SCROLL_PAUSE_TIME)

#############  이미지 검색결과 페이지 스크롤  #######################
#최초 스크롤 바의 높이 값 읽기
last_height = driver.execute_script('return document.body.scrollHeight')

#스크롤 횟수
scroll_cnt=0

while True:
    #윈도우의 스크롤 바를 0에서부터 가장 밑(scrollHeight)까지 이동
    driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')
    scroll_cnt += 1
    time.sleep(SCROLL_PAUSE_TIME)
    #스크롤 바 이동으로 새로운 검색 결과가 로딩 후 변경된 새로운 스크롤 바의 높이값 읽
    new_height = driver.execute_script('return document.body.scrollHeight')
    print(f'last height: {last_height}, new height: {new_height}, scroll count: {scroll_cnt}')
    if last_height != new_height: #계속해서 new_height값이 변경 되면
        last_height = new_height
    else:   #더 이상 new_height 값의 변동이 없다면
        break 

#############  이미지 선택 및 해당 이미지 src 추출abs  #######################
# imgs = driver.find_elements(By.CLASS_NAME, 'YQ4gaf')
# print(len(imgs))
imgs = driver.find_elements(By.CSS_SELECTOR, '#rso > div > div > div.wH6SXe.u32vCb > div > div > div > div.czzyk.XOEbc > h3 > a')
print(len(imgs))

img_src_list = []
img_cnt = 0
for img in imgs:
    try:
        img_cnt += 1
        img.click()
        img_src=driver.find_element(By.XPATH,'//*[@id="Sva75c"]/div[2]/div[2]/div[2]/div[2]/c-wiz/div/div/div/div/div[3]/div[1]/a/img[1]').get_attribute('src')
        #해당 태그의 경로를 나타내는xpath 표시법
        print(f'[{img_cnt}.{img_src}]')
        img_src_list.append(img_src)
        if img_cnt == IMAGE_EXTRACT_NUM:
            break
    except:
        img_cnt -= 1
import os
import requests

ts=time.localtime()
path = 'c:/Temp/'
now = '{}.{}.{}.{}.{}.{}'.format(ts.tm_year, ts.tm_mon, ts.tm_mday, ts.tm_hour, ts.tm_min, ts.tm_sec)
dir = SEARCH_KEYWORD + '/' + now + '/'
os.chdir(path)
if not os.path.exists(dir):
    os.mkdir(dir)
file_no = 1
os.chdir(path + dir)
for url in img_src_list:
    extension = url.split('.')[-1]
    ext = ''
    if extension in ['jpg', 'JPG', 'JPEG', 'jpeg', 'png', 'PNG', 'gif', 'GIF']:
        ext = '.' + extension
    else:
        ext = '.jpg'
    file_name = str(file_no) + '-' + SEARCH_KEYWORD + ext
    file_no += 1
    res = requests.get(url)
    with open(file_name, 'wb') as f:
        f.write(res.content)
driver.close()

last height: 6134, new height: 6134, scroll count: 1
100
[1.https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcRsIYC2tX7-thWnRsLLQdhMAQvzJZegPIfysbLXpD0tiA&s]
[2.https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcRsIYC2tX7-thWnRsLLQdhMAQvzJZegPIfysbLXpD0tiA&s]
[3.https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcRsIYC2tX7-thWnRsLLQdhMAQvzJZegPIfysbLXpD0tiA&s]
[4.https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcRsIYC2tX7-thWnRsLLQdhMAQvzJZegPIfysbLXpD0tiA&s]
[5.https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcRsIYC2tX7-thWnRsLLQdhMAQvzJZegPIfysbLXpD0tiA&s]
[6.https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcRsIYC2tX7-thWnRsLLQdhMAQvzJZegPIfysbLXpD0tiA&s]
[7.https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcR6HpYO647wK-Qp8vNieYQ2dRyc2AA779huXpN_IwOnrQ&s]
[8.https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcTh-VwcRLO2qz6b1M1BFAOKqx9gM5pi8OcQ5oxXFVY85Q&s]
[9.https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcShmjTP1k_rGXzB3rmXEptxG9XnQyJbRGEulysW19GsXg&s