# request 패키지

In [1]:
!pip install requests



In [2]:
import requests

URL = 'https://www.naver.com'    # http 's' = 보안 프로토콜
response = requests.get(URL)     # get 방식으로 요청
print(response.status_code)

200


In [None]:
URL = 'https://search.naver.com/search.naver'
query = {'query':'python'}
response = requests.get(URL, params=query)
print(response.status_code)
print(response.text)

# user-agent 값 설정

- 로봇이 아님을 나타내기 위해서 user-agent라는 값을 header에 넣어서 보냄
- 직접적인 URL 주소로 요청 시, 웹 사이츠에서 웹  크롤링을 통해 접근한 것을 감지하고 접속을 차단하게 됨
- user-agent 헤어값을 표함하여 요청하면 브라우저를 통해 요청하는 것으로 인식되어 해결
- 웹 브라우저 실행 => F12 개발자 모드 진입 => Console에 nevigator.userAgent, 입력):

In [5]:
import requests
URL = 'http://www.google.com/search'
params = {'q':'%%python'}
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36'}

response = requests.get(URL, params = params)  #, headers = headers)
response.raise_for_status()  # 응답코드가 200이 아니면 오류 내고 멈춤

result = response.text
with open('mygoogle.html','w', encoding='utf-8') as f:
    f.write(result)
print('저장완료!')

저장완료!


## [실습] 네이버 데이터랩에서 실시간 인기 검색어 추출

In [6]:
import requests

response = requests.get('https://datalab.naver.com')
html_text = response.text

temp = html_text.split('<em class="num">1</em>')[1]
temp = temp.split('<span class="title">')[1]
temp = temp.split('</span>')[0]
print(temp)

트위드자켓


# BeautifulSoup 패키지

## Parser별 출력 결과 비교a

In [7]:
# !pip install html5lib
!pip install lxml



In [5]:
from bs4 import BeautifulSoup

soup = BeautifulSoup('<a></p>,','html.parser')
print('html.parser')
print(soup)
print('-'*40)

soup = BeautifulSoup('<a></p>,','lxml')
print('lxml')
print(soup)
print('-'*40)

soup = BeautifulSoup('<a></p>,','xml')
print('xml')
print(soup)
print('-'*40)

soup = BeautifulSoup('<a></p>,','html5lib')
print('html5lib')
print(soup)
print('-'*40)

html.parser
<a>,</a>
----------------------------------------
lxml
<html><body><a>,</a></body></html>
----------------------------------------
xml
<?xml version="1.0" encoding="utf-8"?>
<a/>
----------------------------------------
html5lib
<html><head></head><body><a><p></p>,</a></body></html>
----------------------------------------


## 기본 사용법

In [6]:
import requests
from bs4 import BeautifulSoup

URL = 'https://ko.wikipedia.org/wiki/%EC%9B%B9_%ED%81%AC%EB%A1%A4%EB%9F%AC'
response = requests.get(URL)

# soup 객체 생성
soup = BeautifulSoup(response.text, 'lxml')

# 태그를 이용한 접근
print(soup.title)
print(soup.footer.ul.li.text)

# 태그와 속성을 이용한 접근
print(soup.a) # soup 객체에서 첫 번째로 만나는 a 태그 출력
# print(soup.a['id'])  # 만약 속성이 존재하지 않으면 에러 발생
print(soup.a['href'])   # 특정 태그 속성값

# find() 함수를 이용한 태그 내의 다양한 속성을 이용한 접근
print(soup.find('a', attrs = {'title':'구글봇'})) # a 태그 중 title 속성의 값이 '구글봇'인 데이터 검색

<title>웹 크롤러 - 위키백과, 우리 모두의 백과사전</title>
 이 문서는 2023년 4월 30일 (일) 18:34에 마지막으로 편집되었습니다.
<a class="mw-jump-link" href="#bodyContent">본문으로 이동</a>
#bodyContent
<a href="/wiki/%EA%B5%AC%EA%B8%80%EB%B4%87" title="구글봇">구글봇</a>


## 자식 노드들을 반복 가능한 객체로 반환

In [10]:
html = '''
<html>
    <head>
        <tilte>Web Scrapping</title>
    </head>
    <body>
        <p class="a" align="center">text1</p>
        <p class="b" align="center">text2</p>
        <p class="c" align="center">text3</p>
        <div>
            <img src="/source" width="300" height="200">
        </div>
    </body>
</html>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
contents = soup.find('body')
# print(contents)
for child in contents.children:
    print(child)



<p align="center" class="a">text1</p>


<p align="center" class="b">text2</p>


<p align="center" class="c">text3</p>


<div>
<img height="200" src="/source" width="300"/>
</div>




## 자신을 포함한 부모 노드까지 출력

In [11]:
html = '''
<html>
    <head>
        <tilte>Web Scrapping</title>
    </head>
    <body>
        <p class="a" align="center">text1</p>
        <p class="b" align="center">text2</p>
        <p class="c" align="center">text3</p>
        <div>
            <img src="/source" width="300" height="200">
        </div>
    </body>
</html>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
contents = soup.find('body')
img_tag = contents.find('img')
print(img_tag)
print()
print(img_tag.parent)

<img height="200" src="/source" width="300"/>

<div>
<img height="200" src="/source" width="300"/>
</div>


## 특정 부모 노드까지 검색해서 올라감

In [12]:
html = '''
<html>
    <head>
        <tilte>Web Scrapping</title>
    </head>
    <body>
        <p class="a" align="center">text1</p>
        <p class="b" align="center">text2</p>
        <p class="c" align="center">text3</p>
        <div>
            <img src="/source" width="300" height="200">
        </div>
    </body>
</html>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
contents = soup.find('body')

img_tag = contents.find('img')
print(img_tag.find_parent('body'))

<body>
<p align="center" class="a">text1</p>
<p align="center" class="b">text2</p>
<p align="center" class="c">text3</p>
<div>
<img height="200" src="/source" width="300"/>
</div>
</body>


## 형제 노드 검색

In [29]:
html = '''
<html>
    <head>
        <tilte>Web Scrapping</title>
    </head>
    <body>
        <p class="a" align="center">text1</p>
        <p class="b" align="center">text2</p>
        <p class="c" align="center">text3</p>
        <div>
            <img src="/source" width="300" height="200">
        </div>
    </body>
</html>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
p_tag = soup.find('p', attrs={'class':'b'})
print(p_tag)
print('-- 바로 다음 형제 노드 --')
print(p_tag.find_next_sibling())
print('-- 모든 다음 형제 노드 --')
print(p_tag.find_next_siblings())                    # 뒤에 s가 붙는 것들은 결과값 리스트로 가져옴
print('-- 바로 이전 형제 노드 --')
print(p_tag.find_previous_sibling())
print('-- 모든 이전 형제 노드 --')
print(p_tag.find_previous_siblings())

<p align="center" class="b">text2</p>
-- 바로 다음 형제 노드 --
<p align="center" class="c">text3</p>
-- 모든 다음 형제 노드 --
[<p align="center" class="c">text3</p>, <div>
<img height="200" src="/source" width="300"/>
</div>]
-- 바로 이전 형제 노드 --
<p align="center" class="a">text1</p>
-- 모든 이전 형제 노드 --
[<p align="center" class="a">text1</p>]


## 검색: find()

In [None]:
import requests
from bs4 import BeautifulSoup

response = requests.get('http://www.naver.com')
soup = BeautifulSoup(response.text, 'lxml')
print(soup.find('title'))
print(soup.find('a'))
print(soup.find(id='search')) # id속성의 값이 'search'인 정보 가져옴, soup.find(attrs={'id':'search'}) 동일

## 검색: find_all()

In [15]:
a_tags = soup.find_all('a', limit=2)
print(len(a_tags))
print(a_tags)

2
[<a href="#topAsideButton"><span>상단영역 바로가기</span></a>, <a href="#shortcutArea"><span>서비스 메뉴 바로가기</span></a>]


[실습] 네이버 뉴스 페이지에서 언론사 목록 가져오기

In [16]:
import requests
from bs4 import BeautifulSoup

res = requests.get('http://news.naver.com')
soup = BeautifulSoup(res.text, 'lxml')
result = soup.find_all('h4', attrs={'class':'channel'})
# print(len(result))
# print(result[0])
# print(list(result[0].children))
press_list = [list(tag.children)[0] for tag in result]
print(press_list[:10])

['시사IN', '한겨레', '서울신문', '오마이뉴스', '비즈워치', '한국일보', '동아사이언스', '뉴시스', '아시아경제', 'JTBC']


In [17]:
res = requests.get('https://news.naver.com')
soup = BeautifulSoup(res.text, 'lxml')
result = soup.find_all('div', attrs = {'class':'cjs_age_name'})
press_list = [tag.text for tag in result]
print(press_list[:10])

['노컷뉴스', '오마이뉴스', '디지털타임스', '데일리안', '더팩트', '디지털데일리', '아이뉴스24', '머니S', '블로터', '프레시안']


## 검색: select_one(), select()

In [18]:
import requests
from bs4 import BeautifulSoup

res = requests.get('http://www.tradecampus.com')
soup = BeautifulSoup(res.text, 'html.parser')

print(soup.select_one('div > a'))
result = soup.select('div a')
print(len(result))

<a class="show" href="/page/KITA_MAIN">KITA 무역아카데미</a>
220


In [19]:
print(soup.select_one('body > div > div.wrapper.main_page > div.renew_main > div.col-12 > div > div.renew_main_notice > div > div > h3'))

<h3 class="tit">공지사항</h3>


In [20]:
# tradecampus.com 메인 페이지 공지사항 2번째 항목 선택
# nth-child(#)을 지우면 해당 요소(element)의 모든 요소를 가져온다.
notice = soup.select('body > div > div.wrapper.main_page > div.renew_main > div.col-12 > div > div.renew_main_notice > div > ul > li:nth-child(2) > p > a')
print(notice[0].text)

제31기 수출입기업 영업이익의 보전을 위한 원스톱 환리스크관리 개강(3/21)


## 텍스트 가져오기: text, get_text()
- 검색 결과에서 태그를 제외한 텍스트만 추출

In [21]:
# 고객센터 영역 텍스트 가져오기
tag = soup.find('div', attrs={'class':'serviceInfo'})
# print(tag)
print(tag.get_text())           # = tag.text


고객센터


오프라인 교육, e러닝
02-6000-5378/5379




운영시간
평일 09:00~18:00 (주말/공휴일 : 휴무)





In [22]:
# 풋터에 있는 kita 로고 이미지 추출
tag = soup.find('img', attrs = {'class':'mobile_icon black'})
print(tag['src'])
print(tag.get('src'))

/weven_template_repository/theme/KITAAC/1/resource/img/ico_sns_facebook.png
/weven_template_repository/theme/KITAAC/1/resource/img/ico_sns_facebook.png


## 텍스트 가져오기: string
- 검색 결과에서 **태그 안에 또 다른 태그가 없는 경우** 해당 내용을 추출

In [23]:
tag = soup.find('div', attrs={'class':'serviceInfo'})
tag = tag.find('span')
print(tag.string)

오프라인 교육, e러닝


[실습] 네이버 웹툰 제목 가져오기

In [24]:
!pip install selenium

Collecting selenium
  Downloading selenium-4.19.0-py3-none-any.whl.metadata (6.9 kB)
Collecting trio~=0.17 (from selenium)
  Downloading trio-0.25.0-py3-none-any.whl.metadata (8.7 kB)
Collecting trio-websocket~=0.9 (from selenium)
  Downloading trio_websocket-0.11.1-py3-none-any.whl.metadata (4.7 kB)
Collecting attrs>=23.2.0 (from trio~=0.17->selenium)
  Downloading attrs-23.2.0-py3-none-any.whl.metadata (9.5 kB)
Collecting outcome (from trio~=0.17->selenium)
  Downloading outcome-1.3.0.post0-py2.py3-none-any.whl.metadata (2.6 kB)
Collecting wsproto>=0.14 (from trio-websocket~=0.9->selenium)
  Downloading wsproto-1.2.0-py3-none-any.whl.metadata (5.6 kB)
Collecting h11<1,>=0.9.0 (from wsproto>=0.14->trio-websocket~=0.9->selenium)
  Downloading h11-0.14.0-py3-none-any.whl.metadata (8.2 kB)
Downloading selenium-4.19.0-py3-none-any.whl (10.5 MB)
   ---------------------------------------- 0.0/10.5 MB ? eta -:--:--
   -- ------------------------------------- 0.6/10.5 MB 13.5 MB/s eta 0:00:0

In [25]:
!pip install webdriver_manager

Collecting webdriver_manager
  Downloading webdriver_manager-4.0.1-py2.py3-none-any.whl.metadata (12 kB)
Downloading webdriver_manager-4.0.1-py2.py3-none-any.whl (27 kB)
Installing collected packages: webdriver_manager
Successfully installed webdriver_manager-4.0.1


In [None]:
import requests
import time
from bs4 import BeautifulSoup
from selenium.webdriver.chrome.service import Service
from selenium.webdriver import Chrome, ChromeOptions
from webdriver_manager.chrome import ChromeDriverManager

driver = Chrome(service=Service(ChromeDriverManager().install()), options=ChromeOptions())

URL = 'https://comic.naver.com/webtoon'
driver.get(URL)
time.sleep(4)  # 동적으로 생성되는 페이지의 내용이 완성될 때까지 대기
soup = BeautifulSoup(driver.page_source, 'lxml')

# 요일별 전체 웹툰 CSS 선택자
temp = soup.select_one('#container > div.component_wrap.type2 > div.WeekdayMainView__daily_all_wrap--UvRFc')
# print(temp)
# 요일별 ul 태그 검색
temp = temp.find_all('ul', attrs={'class':'WeekdayMainView__daily_list--R52q0'})
week = ['월','화','수','목','금','토','일']
for i, w in enumerate(temp):
    print(f'----- {week[i]}요 웹툰-----')
    webtoon_list = w.find_all('li',attrs = {'class':'DailyListItem__item--LP6_T'})
    for webtoon in webtoon_list:
        print(webtoon.find('span', attrs = {'class':'text'}).text)
    print()

[실습] 메가박스 영화정보 사이트에서 영화 포스터 다운로드 하기

In [None]:
# 사전 테스트: 박스 오피스 1위 영화 포스터 이미지 가져오기
from bs4 import BeautifulSoup
from selenium.webdriver.chrome.service import Service
from selenium.webdriver import ChromeOptions, Chrome
from webdriver_manager.chrome import ChromeDriverManager

driver = Chrome(service = Service(ChromeDriverManager().install()), options=ChromeOptions())
URL = 'https://www.megabox.co.kr/movie'
driver.get(URL)
soup = BeautifulSoup(driver.page_source, 'lxml')
poster_img = soup.select('#movieList > li > div.movie-list-info > img')
print(len(poster_img))
poster_img_src = poster_img[0].get('src')

import requests
res = requests.get(poster_img_src)
with open('poster.jpg','wb') as f:
    f.write(res.content)
print('End')

[문제] 메가박스 영화 사이트에서 첫 페이지에 있는 모든 영화 포스트 이미지 수집하기
- 메가박스 영화 사이트 첫 페이지에 있는 20개의 영화 포스트 이미지 수집
- 현재 작업 디렉토리 밑에 'poster_img' 폴더가 없는 경우 폴더를 생성한다. (os 패키지 이용)
- 저장되는 각 포스터 이미지의 파일 이름은 영화 제목으로 한다.

In [None]:
from bs4 import BeautifulSoup
from selenium.webdriver.chrome.service import Service
from selenium.webdriver import ChromeOptions, Chrome
from webdriver_manager.chrome import ChromeDriverManager

driver = Chrome(service = Service(ChromeDriverManager().install()), options=ChromeOptions())
URL = 'https://www.megabox.co.kr/movie'
driver.get(URL)
soup = BeautifulSoup(driver.page_source, 'lxml')

# 포스터 이미지를 가지고 있는 모든 img 태그를 검색
poster_imgs = soup.find_all('img', attrs = {'class':'poster lozad'})

# 이미지를 저장할 폴더 생성
import os
img_dir = './poster_img/'
if not os.path.exists(img_dir):
    os.mkdir(img_dir)
    print('폴더 생성 완료')
else:
    print('폴더가 존재함')

for i, poster in enumerate(poster_imgs, 1):
    title = poster.get('alt')
    img_url = poster.get('src')

    print(i, ':', img_url)
    img_res = requests.get(img_url)          # 이미지 재요청 => html이 아닌 이미지 (binary data) 

    if ':' in title:
        title = title.replace(':','')

    with open(img_dir+f'[{i}].{title}.jpg', 'wb') as f:
        f.write(img_res.content)               # binary data이기 때문에 content로 가져옴

[실습] 네이버 뉴스 사이트에서 경제 관련 언론사별 랭킹뉴스 추출하기
- 언론사 이름에 '경제' 단어가 포함된 언론사의 랭킹 뉴스만 추출하여 출력한다.

In [None]:
import requests
from bs4 import BeautifulSoup

URL = 'https://news.naver.com/main/ranking/popularDay.naver'
res = requests.get(URL)
soup = BeautifulSoup(res.text, 'html.parser')

news_list = soup.find_all('div', attrs = {'class':'rankingnews_box'})
print('등록 언론사 개수: ', len(news_list))

for news in news_list:
    press_title = news.find('strong').text
    if '경제' in press_title:
        print('언론사:', press_title)
        press_news = news.find_all('div', attrs = {'class':'list_content'})
        for i, ranking_news in enumerate(press_news, 1):
            print(f'{i}: {ranking_news.find("a").get_text()}')
        print()

# Selenium 패키지

## find_element() 함수

In [None]:
from selenium.webdriver import Chrome, ChromeOptions
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By

# 웹드라이버 동적 다운로드 방식
driver = Chrome(service=Service(ChromeDriverManager().install()), options=ChromeOptions())

# [참고] 로컬 컴퓨터에 설치되어 있는 웹 드라이버 실행 방식
# s = Service('d:\DEV\chromedriver\chromedriver.exe')
# driver = Chrome(service=s)

driver.get('https://www.daum.net')
ele = driver.find_element(by=By.LINK_TEXT, value='카페')
print(type(ele))
print(ele.text)

## 이벤트 제어하기

### click()

In [None]:
from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from webdriver_manager.chrome import ChromeDriverManager

driver = Chrome(service=Service(ChromeDriverManager().install()), options=ChromeOptions())

driver.get('https://www.naver.com')
ele = driver.find_element(by=By.CSS_SELECTOR, value='#shortcutArea > ul > li:nth-child(5) > a')
ele.click()

### send_keys()

In [None]:
from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.keys import Keys  # 특수키 사용을 위한 클래스

driver = Chrome(service=Service(ChromeDriverManager().install()), options=ChromeOptions())

driver.get('https://www.naver.com')
ele = driver.find_element(by=By.ID, value='query')
ele.send_keys('python')
ele.send_keys(Keys.ENTER)

[실습] 네이버 로그인 하기

In [None]:
from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.keys import Keys  # 특수키 사용을 위한 클래스

driver = Chrome(service=Service(ChromeDriverManager().install()), options=ChromeOptions())

driver.get('https://www.naver.com')
ele = driver.find_element(by=By.CLASS_NAME, value='MyView-module__link_login___HpHMW')
ele.click()
my_id = 'trigger1227'
my_pw = 'triggeris307651'

# 로봇에 의해 클릭되지 못하도록 막았기 때문에 스크립트로 처리해야 함
# ele = driver.find_element(by=By.ID, value = 'id')
# ele.send_keys(my_id)
# ele = driver.find_element(by=By.ID, value = 'pw')
# ele.send_keys(my_pw)

driver.execute_script(f"document.getElementById('id').value = '{my_id}'")
driver.execute_script(f"document.getElementById('pw').value = '{my_pw}'")
# 로그인 상태 유지 체크박스 클릭
driver.execute_script(f'document.getElementById("keep").value = "on"')

ele = driver.find_element(by=By.CLASS_NAME, value = 'btn_login')
ele.click()

## 웹 브라우저 자동 스크롤

### 구글에서 이미지 검색 후 검색 결과 6번 스크롤 하기

In [None]:
from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys 
from webdriver_manager.chrome import ChromeDriverManager
import time 

#페이지가 로드될 때까지 기다리는 시간
SCROLL_PAUSE_TIME = 2 

driver = Chrome(service=Service(ChromeDriverManager().install()),options=ChromeOptions())
driver.get('https://www.google.com')
ele=driver.find_element(by=By.CLASS_NAME,value='gLFyf')
ele.send_keys('python')
ele.submit()

driver.find_element(By.LINK_TEXT,'이미지').click()

#페이지가 로드될 때까지 기다림
time.sleep(SCROLL_PAUSE_TIME)
#최초 스크롤 바의 높이 값 읽기
last_height = driver.execute_script('return document.body.scrollHeight')
print('last height:', last_height)
for i in range(6):
    #윈도우의 스크롤 바를 0에서부터 가장 밑(scrollHeight)까지 이동
    driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')
    time.sleep(SCROLL_PAUSE_TIME)
    #스크롤 바 이동으로 새로운 검색 결과가 로딩 후 변경된 새로운 스크롤 바의 높이값 읽
    new_height = driver.execute_script('return document.body.scrollHeight')
    print('new height:', new_height)
    print('-'*30)

#더 이상 스크롤 될 페이지가 없을 경우 scrollHeight 값의 변화가 없다.

### 구글에서 이미지 검색 후 검색 결과 무한 스크롤 하기

In [None]:
from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys 
from webdriver_manager.chrome import ChromeDriverManager
import time 

#페이지가 로드될 때까지 기다리는 시간
SCROLL_PAUSE_TIME = 2 

driver = Chrome(service=Service(ChromeDriverManager().install()),options=ChromeOptions())
driver.get('https://www.google.com')
ele=driver.find_element(by=By.CLASS_NAME,value='gLFyf')
ele.send_keys('python')
ele.submit()

driver.find_element(By.LINK_TEXT,'이미지').click()

#페이지가 로드될 때까지 기다림
time.sleep(SCROLL_PAUSE_TIME)
#최초 스크롤 바의 높이 값 읽기
last_height = driver.execute_script('return document.body.scrollHeight')

# 스크롤 횟수
scroll_cnt = 0

while True:
    #윈도우의 스크롤 바를 0에서부터 가장 밑(scrollHeight)까지 이동
    driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')
    scroll_cnt += 1
    time.sleep(SCROLL_PAUSE_TIME)
    #스크롤 바 이동으로 새로운 검색 결과가 로딩 후 변경된 새로운 스크롤 바의 높이값 읽
    new_height = driver.execute_script('return document.body.scrollHeight')
    print(f'last height: {last_height}, new height: {new_height}, scroll count: {scroll_cnt}')
    if last_height != new_height:  # 계속해서 new height 값이 변경되면
        last_height = new_height
    else:  # 더이상 new_height 값의 변동이 없다면...
        break

### 구글에서 이미지 검색 후 썸네일 이미지 클릭하고 원본 이미지 주소 수집하기

In [None]:
from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys 
from webdriver_manager.chrome import ChromeDriverManager
import time 

SCROLL_PAUSE_TIME = 2   #페이지가 로드될 때까지 기다리는 시간
IMAGE_EXTRACT_NUM = 20  # 이미지 추출 개수
SEARCH_KEYWORD = 'python'


######## 웹 드라이버 실행 및 구글 접속 #########
driver = Chrome(service=Service(ChromeDriverManager().install()),options=ChromeOptions())
driver.get('https://www.google.com')

######## 검색 #########
ele=driver.find_element(by=By.CLASS_NAME,value='gLFyf')
ele.send_keys(SEARCH_KEYWORD)
ele.submit()

######## 이미지 검색 결과 페이지 이동 #########
driver.find_element(By.LINK_TEXT,'이미지').click()

#페이지가 로드될 때까지 기다림
time.sleep(SCROLL_PAUSE_TIME)

######## 이미지 검색 결과 페이지 스크롤 #########
#최초 스크롤 바의 높이 값 읽기
last_height = driver.execute_script('return document.body.scrollHeight')

# 스크롤 횟수
scroll_cnt = 0

while True:
    #윈도우의 스크롤 바를 0에서부터 가장 밑(scrollHeight)까지 이동
    driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')
    scroll_cnt += 1
    time.sleep(SCROLL_PAUSE_TIME)
    #스크롤 바 이동으로 새로운 검색 결과가 로딩 후 변경된 새로운 스크롤 바의 높이값 읽
    new_height = driver.execute_script('return document.body.scrollHeight')
    print(f'last height: {last_height}, new height: {new_height}, scroll count: {scroll_cnt}')2
    if last_height != new_height:  # 계속해서 new height 값이 변경되면
        last_height = new_height
    else:  # 더이상 new_height 값의 변동이 없다면...
        break

######## 이미지 선택 및 해당 이미지 src 추출 #########
imgs = driver.find_elements(By.CSS_SELECTOR, value = '#rso > div > div > div.wH6SXe.u32vCb > div > div > div > div.czzyk.XOEbc > h3 > a')
print(len(imgs))
img_src_list = []
img_cnt = 0
for img in imgs:
    try:
        img.click()
        img_cnt += 1
        img_src = driver.find_element(By.XPATH, value = '//*[@id="Sva75c"]/div[2]/div[2]/div[2]/div[2]/c-wiz/div/div/div/div/div[3]/div[1]/a/img[1]').get_attribute('src')
        print(f'[{img_cnt}].{img_src}')
        img_src_list.append(img_src)
        if img_cnt == IMAGE_EXTRACT_NUM: break
    except: 
        img_cnt -= 1

### 구글에서 이미지 검색 후 파일로 저장하기

In [66]:
#임시

from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys 
from webdriver_manager.chrome import ChromeDriverManager
import time 

SCROLL_PAUSE_TIME = 2   #페이지가 로드될 때까지 기다리는 시간
IMAGE_EXTRACT_NUM = 20 #이미지 추출 개수
SEARCH_KEYWORD = 'python'


#############  웹 드라이버 실행 및 구글 접속  #######################
driver = Chrome(service=Service(ChromeDriverManager().install()),options=ChromeOptions())
driver.get('https://www.google.com')


#############  검색  #######################
ele=driver.find_element(by=By.CLASS_NAME,value='gLFyf')
ele.send_keys(SEARCH_KEYWORD)
ele.submit()

#############  이미지 검색 결과 페이지 이동  #######################
driver.find_element(By.LINK_TEXT,'이미지').click()

#페이지가 로드될 때까지 기다림
time.sleep(SCROLL_PAUSE_TIME)

#############  이미지 검색결과 페이지 스크롤  #######################
#최초 스크롤 바의 높이 값 읽기
last_height = driver.execute_script('return document.body.scrollHeight')

#스크롤 횟수
scroll_cnt=0

while True:
    #윈도우의 스크롤 바를 0에서부터 가장 밑(scrollHeight)까지 이동
    driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')
    scroll_cnt += 1
    time.sleep(SCROLL_PAUSE_TIME)
    #스크롤 바 이동으로 새로운 검색 결과가 로딩 후 변경된 새로운 스크롤 바의 높이값 읽
    new_height = driver.execute_script('return document.body.scrollHeight')
    print(f'last height: {last_height}, new height: {new_height}, scroll count: {scroll_cnt}')
    if last_height != new_height: #계속해서 new_height값이 변경 되면
        last_height = new_height
    else:   #더 이상 new_height 값의 변동이 없다면
        break 

#############  이미지 선택 및 해당 이미지 src 추출abs  #######################
# imgs = driver.find_elements(By.CLASS_NAME, 'YQ4gaf')
# print(len(imgs))
imgs = driver.find_elements(By.CSS_SELECTOR, '#rso > div > div > div.wH6SXe.u32vCb > div > div > div > div.czzyk.XOEbc > h3 > a')
print(len(imgs))

img_src_list = []
img_cnt = 0
for img in imgs:
    try:
        img_cnt += 1
        img.click()
        time.sleep(2)
        img_src=driver.find_element(By.CSS_SELECTOR,'#Sva75c > div.A8mJGd.NDuZHe.OGftbe-N7Eqid-H9tDt > div.LrPjRb > div.AQyBn > div.tvh9oe.BIB1wf > c-wiz > div > div > div > div > div.v6bUne > div.p7sI2.PUxBg > a > img.sFlh5c.pT0Scc.iPVvYb').get_attribute('src')
        #해당 태그의 경로를 나타내는xpath 표시법
        print(f'[{img_cnt}.{img_src}]')
        img_src_list.append(img_src)
        if img_cnt == IMAGE_EXTRACT_NUM:
            break
    except:
        img_cnt -= 1

#############  검색 이미지 파일로 저장  #######################
import os
import requests

ts=time.localtime()
path = 'c:/Temp/'
now = '{}.{}.{}.{}.{}.{}'.format(ts.tm_year, ts.tm_mon, ts.tm_mday, ts.tm_hour, ts.tm_min, ts.tm_sec)

dir=SEARCH_KEYWORD+'/'+now+'/'
os.chdir(path)#현재의 작업 디렉토리를 바꾸는 것
if not os.path.exists(dir):
    os.makedirs(dir)

file_no = 1
os.chdir(path+dir)
for url in img_src_list:
    extension = url.split('.')[-1] #원본 이미지에서 가져온 확장자
    ext = '' #최종적으로 사용할 이미지의 확장자
    if extension in ['jpg','JPG','jpeg','JPEG','png','PNG','gif','GIF']:
        ext = '.'+extension
    else:
        ext ='.jpg'

    file_name = str(file_no)+'-'+SEARCH_KEYWORD+ext
    file_no += 1
    res = requests.get(url)
    with open(file_name, 'wb') as f:
        f.write(res.content)
driver.close()

last height: 6971, new height: 13915, scroll count: 1
last height: 13915, new height: 20766, scroll count: 2
last height: 20766, new height: 27307, scroll count: 3
last height: 27307, new height: 29905, scroll count: 4
last height: 29905, new height: 29905, scroll count: 5
437
[1.https://upload.wikimedia.org/wikipedia/commons/thumb/c/c3/Python-logo-notext.svg/800px-Python-logo-notext.svg.png]
[2.https://velog.velcdn.com/images/deep-of-machine/post/3f778fa2-2b43-42b3-9233-091424be7d73/image.png]
[3.https://i.namu.wiki/i/mxMv5lNX8m8lUwu7yTjN6eNZh8JVuI6a_chEyMRc4V9oECkhVIl7OiPiGIOllv14uDVNuwRPVco8abCPe5xOiQ.svg]
[4.https://images.velog.io/images/pm1100tm/post/30e9dc94-96d0-41b3-9f2f-d814e839a796/python.jpg]
[5.https://i.namu.wiki/i/pHxeJONxIv51qQsN2ac5nX3shPEmiSlKtGVATZXUE22NHGyw9v7_Aqto6aSoCU9ODz3RKtTKCEP0E0OI7TlxMQ.webp]
[6.https://www.askedtech.com/api/kords/admin/product/image.jpg?type=org&id=20688]
[7.https://upload.wikimedia.org/wikipedia/commons/thumb/0/0a/Python.svg/640px-Python.s

## select 태그 선택

In [70]:
from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys 
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.support.ui import Select  # select form 제어 클래스

URL = 'https://www.selenium.dev/selenium/web/formPage.html'
driver = Chrome(service=Service(ChromeDriverManager().install()),options=ChromeOptions())
driver.get(URL)

ele = driver.find_element(By.NAME, 'selectomatic')
select = Select(ele)

# 인덱스를 기준으로 선택하기
# select.select_by_index(2)

# 보여지는 선택값 텍스트로 선택하기
# select.select_by_visible_text('Four')

# option 요소의 값으로 선택하기
# select.select_by_value('four')

# select 태그에 onchange 속성이 있어서 Select 클래스를 사용할 수 없을 때 (위의 3개 작동 X)
driver.find_element(By.CSS_SELECTOR, 'option[value="four"]').click()

[실습과제] yes24에서 파이썬 도서 검색하기
- yes24 사이트에서 파이썬 도서 검색 -> 검색 결과를 120개 선택
- 검색 결과에서 도서 평점이 9.6 이상인 도서 제목과 가격, 평점 출력

In [8]:
from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys 
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.support.ui import Select  # select form 제어 클래스
import time

URL = 'https://www.yes24.com'
driver = Chrome(service=Service(ChromeDriverManager().install()),options=ChromeOptions())
driver.get(URL)

ele = driver.find_element(by=By.ID, value='query')
ele.send_keys('파이썬')
ele.send_keys(Keys.ENTER)

driver.find_element(By.CSS_SELECTOR, '#stat_gb > option[value="120"]').click()

In [20]:
# 데이터 가져오기

from bs4 import BeautifulSoup

soup = BeautifulSoup(driver.page_source, 'lxml')
book_list = soup.find('ul', attrs = {'id':'yesSchList'})
books = book_list.find_all('li')
count = 0
print('검색 도서 권수: ', len(books))
for book in books:
    rating = book.find('span', attrs = {'class':'rating_grade'})
    if not rating: continue  # 평점이 없는 도서일 경우, 이하 내용 실행 skip
    rating = float(rating.find('em').get_text())
    if rating >= 9.6:
        count += 1
        title = book.find('a', attrs = {'class':'gd_name'}).get_text()
        price = book.find('strong', attrs = {'class':'txt_num'}).get_text()
        print(f'{count:03d} | {title} | {price} | {rating}')

검색 도서 권수:  524
001 | Do it! 점프 투 파이썬 | 19,800원 | 9.8
002 | 실무로 통하는 인과추론 with 파이썬 | 34,200원 | 9.8
003 | 혼자 공부하는 머신러닝+딥러닝 | 23,400원 | 9.6
004 | 챗GPT API를 활용한 챗봇 만들기 | 28,800원 | 10.0
005 | 코딩 자율학습 나도코딩의 파이썬 입문 | 21,600원 | 9.8
006 | Hey, 파이썬! 생성형 AI 활용 앱 만들어 줘 | 35,100원 | 9.8
007 | 챗GPT로 만드는 주식 & 암호화폐 자동매매 시스템 | 18,000원 | 9.8
008 | 혼자 공부하는 데이터 분석 with 파이썬 | 23,400원 | 9.7
009 | 마이크로 파이썬을 활용해 사물인터넷(IoT) 프로젝트 만들기 with ESP32 | 20,700원 | 10.0
010 | 새내기 파이썬 | 30,000원 | 10.0
011 | ChatGPT 소스를 얹는 파이썬 레시피 | 28,800원 | 10.0
012 | 으뜸 파이썬 | 32,000원 | 9.6
013 | 코딩 입문자를 위한 문제해결 기반 파이썬 4.0 | 27,000원 | 10.0
014 | 파이썬으로 쉽게 배우는 자료구조 | 29,000원 | 10.0
015 | 시간순삭 파이썬 | 22,500원 | 10.0
016 | 데이터 과학을 위한 기초수학 with 파이썬 | 23,400원 | 10.0
017 | Do it! 점프 투 파이썬 | 15,000원 | 9.8
018 | 데이터 과학을 위한 파이썬 프로그래밍 | 30,000원 | 10.0
019 | 자료구조와 알고리즘 with 파이썬 | 21,600원 | 9.8
020 | 코딩 테스트 합격자 되기 - 파이썬 편 | 36,000원 | 9.9
021 | 파이썬을 이용한 퀀트 투자 포트폴리오 만들기 | 27,000원 | 10.0
022 | 데이터 과학 기반의 파이썬 빅데이터 분석 | 28,000원 | 10.0
023 | Do it! 쉽게 배우는 파이썬

[실습] 메가박스 영화 감상평 및 평점 수집

In [41]:
from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys 
from webdriver_manager.chrome import ChromeDriverManager
from bs4 import BeautifulSoup
import time

PAUSE_TIME = 3

URL = 'https://www.megabox.co.kr/movie'
driver = Chrome(service=Service(ChromeDriverManager().install()),options=ChromeOptions())
driver.get(URL)

movie = driver.find_element(By.CSS_SELECTOR, '#movieList > li:nth-child(4) > div.movie-list-info > div.movie-score > a').send_keys(Keys.ENTER)
time.sleep(PAUSE_TIME)
driver.find_element(By.LINK_TEXT, '실관람평').click()

In [42]:
# 페이지 번호 클릭 테스트
# 마지막 페이지 이동
driver.find_element(By.CSS_SELECTOR, '#contentData > div > div.movie-idv-story > nav > a.control.last').click()
time.sleep(PAUSE_TIME)
total_page_num = int(driver.find_element(By.CSS_SELECTOR, '#contentData > div > div.movie-idv-story > nav > strong').text)
print('전체 페이지 수: ', total_page_num)
# 첫 페이지 이동
driver.find_element(By.CSS_SELECTOR, '#contentData > div > div.movie-idv-story > nav > a.control.first').click()
time.sleep(PAUSE_TIME)

ratings = []
comments = []

THE_LAST_PAGE = 20
next_a_tag = 2  # 다음 클릭이 이루어질 a 태그 순서 (첫 페이지는 a 태그 아닌 strong 태그라서, 첫 클릭이 이뤄질 태그 순서는 2부터 시작)

for i in range(1, total_page_num+1):
    if i > THE_LAST_PAGE: break
    print(f'{i}페이지 평점 및 리뷰 정보 수집')
    bs = BeautifulSoup(driver.page_source, 'lxml')
    result = bs.find_all('li', attrs = {'class':'type01 oneContentTag'})
    for c in result:
        rating = int(c.find('div', attrs = {'class':'story-point'}).text)
        comment = c.find('div', attrs = {'class':'story-txt'}).text.strip()
        ratings.append(rating)
        comments.append(comment)

    if not i%10:  # 10번째 페이지 평점 정보 수집이 끝나면...
        driver.find_element(By.CSS_SELECTOR, '#contentData > div > div.movie-idv-story > nav > a.control.next').click()  # 다음 10페이지 보기
        time.sleep(PAUSE_TIME)
        next_a_tag = 4  # 다음 10페이지에서 그 다음 클릭이 이뤄질 a 태그의 순서는 4가 됨 (다음 클릭할 페이지 링크 앞에 <, <<, 첫페이지가 있기 때문)
        continue
        
    # 다음 페이지 번호 클릭
    driver.find_element(By.CSS_SELECTOR, f'#contentData > div > div.movie-idv-story > nav > a:nth-child({next_a_tag})').click()
    next_a_tag += 1
    time.sleep(PAUSE_TIME)

driver.close()

전체 페이지 수:  2555
1페이지 평점 및 리뷰 정보 수집
2페이지 평점 및 리뷰 정보 수집
3페이지 평점 및 리뷰 정보 수집
4페이지 평점 및 리뷰 정보 수집
5페이지 평점 및 리뷰 정보 수집
6페이지 평점 및 리뷰 정보 수집
7페이지 평점 및 리뷰 정보 수집
8페이지 평점 및 리뷰 정보 수집
9페이지 평점 및 리뷰 정보 수집
10페이지 평점 및 리뷰 정보 수집
11페이지 평점 및 리뷰 정보 수집
12페이지 평점 및 리뷰 정보 수집
13페이지 평점 및 리뷰 정보 수집
14페이지 평점 및 리뷰 정보 수집
15페이지 평점 및 리뷰 정보 수집
16페이지 평점 및 리뷰 정보 수집
17페이지 평점 및 리뷰 정보 수집
18페이지 평점 및 리뷰 정보 수집
19페이지 평점 및 리뷰 정보 수집
20페이지 평점 및 리뷰 정보 수집


In [44]:
print(f'관람객 평점:{sum(ratings)/len(ratings):.1f}점')

import csv
import os

with open('ratings.csv', 'w') as f:
    writer = csv.writer(f)
    for rating in ratings:
        writer.writerow([rating])   # 행단위로 평점 입력 (행단위 = 리스트 형태 필요)
print('평점 저장 완료')

with open('comments.txt', 'w', encoding='utf-8') as f:
    for comment in comments:
        f.write(comment+'\n')
print('감상평 저장 완료')

관람객 평점:9.2점
평점 저장 완료
감상평 저장 완료
