# requests 패키지

In [None]:
#!pip install requests

In [3]:
import requests

URL = 'https://www.naver.com'
response = requests.get(URL) # get 방식으로 요청
print(response.status_code)

200


In [None]:
print(response.text)

In [None]:
URL = 'https://search.naver.com/search.naver'
query = {'query':'python'}
response = requests.get(URL, params=query)
print(response.status_code)
print(response.text)

# user-agent 값 설정

- 로봇이 아님을 나타내기 위해서 user-agent라는 값을 header에 넣어서 보냄
- 직접적인 URL 주소로 요청 시 웹 사이트에서 웹 크롤링을 통해 접근한 것을 감지하고 접속을 차단하게 됨
- user-agent 헤더값을 포함하여 요청하면 브라우저를 통해 요청하는 것으로 인식되어 해결
- 웹 브라우저 실행 -> F12 개발자 모드 진입 -> Console에 navigator.userAgent 입력

In [7]:
import requests

URL ='http://www.google.com/search'
params = {'q':'python'}
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36 Edg/122.0.0.0'}

response = requests.get(URL, params=params)# headers=headers)
response.raise_for_status() #응답 코드가 200이 아니면 오류내고 멈춤

result = response.text
with open('mygoogle.html','w', encoding ='utf-8') as f:
    f.write(result)
print('저장완료!')

저장완료!


## [실습] 네이버 데이터랩에서 실시간 인기 검색어 추출

In [11]:
import requests

response = requests.get('https://datalab.naver.com')
html_text = response.text

temp = html_text.split('<em class="num">1</em>')[1]
temp = temp.split('<span class="title">')[1]
temp = temp.split('</span>')[0]
print(temp)

트위드자켓


# BeautifulSoup 패키지

## Parser별 출력 결과 비교

In [13]:
# !pip install html5lib
# !pip install lxml



In [1]:
from bs4 import BeautifulSoup
soup = BeautifulSoup('<a></p>','html.parser')
print('html.parser')
print(soup)
print('-'*49)

soup = BeautifulSoup('<a></p>','lxml')
print('lxml')
print(soup)
print('-'*49)

soup = BeautifulSoup('<a></p>','xml')
print('xml')
print(soup)
print('-'*49)

soup = BeautifulSoup('<a></p>','html5lib')
print('html5lib')
print(soup)

html.parser
<a></a>
-------------------------------------------------
lxml
<html><body><a></a></body></html>
-------------------------------------------------
xml
<?xml version="1.0" encoding="utf-8"?>
<a/>
-------------------------------------------------
html5lib
<html><head></head><body><a><p></p></a></body></html>


## 기본 사용법

In [9]:
import requests
from bs4 import BeautifulSoup

URL = 'https://ko.wikipedia.org/wiki/%EC%9B%B9_%ED%81%AC%EB%A1%A4%EB%9F%AC'
response = requests.get(URL)

# soup 객체 생성
soup = BeautifulSoup(response.text, 'lxml')

# 태그를 이용한 접근
print(soup.title)
print(soup.footer.ul.li.text)

# 태그와 속성을 이용한 접근
print(soup.a) # soup 객체에서 첫 번째로 만나는 a 태그 출력
# print(soup.a['id']) # 만약 속성이 존재하지 않으면 에러 발생
print(soup.a['href'])

# find() 함수를 이용한 태그 내의 다양한 속성을 이용한 접근
print(soup.find('a', attrs={'title':'구글봇'})) # a 태그 중 title 속성의 값이 '구글봇'인 데이터 검색

<title>웹 크롤러 - 위키백과, 우리 모두의 백과사전</title>
 이 문서는 2023년 4월 30일 (일) 18:34에 마지막으로 편집되었습니다.
<a class="mw-jump-link" href="#bodyContent">본문으로 이동</a>
#bodyContent
<a href="/wiki/%EA%B5%AC%EA%B8%80%EB%B4%87" title="구글봇">구글봇</a>


## 자식 노드들을 반복 가능한 객체로 반환

In [3]:
html = '''
<html>
    <head>
        <title>Web Scrapping</title>
    </head>
    <body>
        <p class="a" align="center">text1</p>
        <p class="b" align="center">text2</p>
        <p class="c" align="center">text3</p>
        <div>
            <img src="/source" width = "300" height = "200">
        </div>
    </body>
</html>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
contents = soup.find('body')
# print(contents)
for child in contents.children:
    print(child)



<p align="center" class="a">text1</p>


<p align="center" class="b">text2</p>


<p align="center" class="c">text3</p>


<div>
<img height="200" src="/source" width="300"/>
</div>




## 자신을 포함한 부모 노드까지 출력

In [6]:
html = '''
<html>
    <head>
        <title>Web Scrapping</title>
    </head>
    <body>
        <p class="a" align="center">text1</p>
        <p class="b" align="center">text2</p>
        <p class="c" align="center">text3</p>
        <div>
            <img src="/source" width = "300" height = "200">
        </div>
    </body>
</html>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
contents = soup.find('body')
img_tag = contents.find('img')
print(img_tag)
print()
print(img_tag.parent)

<img height="200" src="/source" width="300"/>

<div>
<img height="200" src="/source" width="300"/>
</div>


## 특정 부모 노드까지 검색해서 올라감

In [8]:
html = '''
<html>
    <head>
        <title>Web Scrapping</title>
    </head>
    <body>
        <p class="a" align="center">text1</p>
        <p class="b" align="center">text2</p>
        <p class="c" align="center">text3</p>
        <div>
            <img src="/source" width = "300" height = "200">
        </div>
    </body>
</html>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
contents = soup.find('body')
img_tag = contents.find('img')
print(img_tag.find_parent('body'))

<body>
<p align="center" class="a">text1</p>
<p align="center" class="b">text2</p>
<p align="center" class="c">text3</p>
<div>
<img height="200" src="/source" width="300"/>
</div>
</body>


## 형제 노드 검색

In [14]:
html = '''
<html>
    <head>
        <title>Web Scrapping</title>
    </head>
    <body>
        <p class="a" align="center">text1</p>
        <p class="b" align="center">text2</p>
        <p class="c" align="center">text3</p>
        <div>
            <img src="/source" width = "300" height = "200">
        </div>
    </body>
</html>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
p_tag = soup.find('p', attrs={'class':'b'})
print(p_tag)
print('--바로 다음 형제 노드--')
print(p_tag.find_next_sibling())
print('--모든 다음 형제 노드--')
print(p_tag.find_next_siblings())
print('--바로 이전 형제 노드--')
print(p_tag.find_previous_sibling())
print('--모든 이전 형제 노드--')
print(p_tag.find_previous_siblings())

<p align="center" class="b">text2</p>
--바로 다음 형제 노드--
<p align="center" class="c">text3</p>
--모든 다음 형제 노드--
[<p align="center" class="c">text3</p>, <div>
<img height="200" src="/source" width="300"/>
</div>]
--바로 이전 형제 노드--
<p align="center" class="a">text1</p>
--모든 이전 형제 노드--
[<p align="center" class="a">text1</p>]


## 검색: find()

In [None]:
import requests
from bs4 import BeautifulSoup

response = requests.get('https://naver.com')
soup = BeautifulSoup(response.text, 'lxml')
print(soup.find('title'))
print(soup.find('a'))
print(soup.find(id='search')) # id 속성의 값이 'search'인 정보를 가져옴, soup.find(attrs={'id':'search'}) 동일

## 검색: find_all()

In [20]:
a_tags = soup.find_all('a', limit = 2)
print(len(a_tags))
print(a_tags)

2
[<a href="#topAsideButton"><span>상단영역 바로가기</span></a>, <a href="#shortcutArea"><span>서비스 메뉴 바로가기</span></a>]


[실습] 네이버 뉴스 페이지에서 언론사 목록 가져오기

In [38]:
import requests
from bs4 import BeautifulSoup

res = requests.get('https://news.naver.com')
soup = BeautifulSoup(res.text, 'lxml')
result = soup.find_all('h4', attrs={'class':'channel'})
# print(len(result))
# print(result[0])
# print(list(result[0].children))

press_list = [list(tag.children)[0] for tag in result]
print(press_list[:10])

['디지털데일리', '한경비즈니스', '농민신문', '전자신문', 'MBC', '시사IN', '블로터', 'YTN', '헬스조선', '아시아경제']


In [8]:
print(list(result[0])[0])

채널A


In [30]:
res = requests.get('https://news.naver.com')
soup = BeautifulSoup(res.text, 'lxml')
result = soup.find_all('div', attrs={'class':'cjs_age_name'})
press_list = [tag.text for tag in result] #tag.text 또는 tag.get_text()
print(press_list[:10])

['신동아', '주간조선', '월간산', '한경비즈니스', '시사IN', '매경이코노미', '주간동아', '주간경향', '시사저널', '이코노미스트']


## 검색: select_one(), select()

In [41]:
import requests
from bs4 import BeautifulSoup

res = requests.get('http://www.tradecampus.com')
soup = BeautifulSoup(res.text, 'html.parser')

print(soup.select_one('div > a'))
result = soup.select('div > a')
print(len(result))

<a class="show" href="/page/KITA_MAIN">KITA 무역아카데미</a>
23


In [17]:
print(soup.select_one('body > div > div.wrapper.main_page > div.renew_main > div.col-12 > div > div.renew_main_notice > div > div > h3'))

<h3 class="tit">공지사항</h3>


In [26]:
# tradecampus.com 메인 페이지 공지사항 2번째 항목 선택
# :nth-child(#)을 지우면 해당 요소(element)의 모든 요소를 가져온다
notice = soup.select('body > div > div.wrapper.main_page > div.renew_main > div.col-12 > div > div.renew_main_notice > div > ul > li:nth-child(2) > p > a')
print(notice[0].text)

제31기 수출입기업 영업이익의 보전을 위한 원스톱 환리스크관리 개강(3/21)


## 텍스트 가져오기: text, get_text()
- 검색 결과에서 태그를 제외한 텍스트만 추출

In [46]:
# 고객센터 영역 텍스트 가져오기
tag = soup.find('div', attrs = {'class':'serviceInfo'})
# print(tag)
print(tag.get_text())


고객센터


오프라인 교육, e러닝
02-6000-5378/5379




운영시간
평일 09:00~18:00 (주말/공휴일 : 휴무)





In [49]:
# 풋터에 있는 kita 로고 이미지 추출
tag = soup.find('img', attrs={'class':'mobile_icon black'})
print(tag['src'])
print(tag.get('src'))

/weven_template_repository/theme/KITAAC/1/resource/img/ico_sns_facebook.png
/weven_template_repository/theme/KITAAC/1/resource/img/ico_sns_facebook.png


## 텍스트 가져오기: string
- 검색 결과에서 **태그 안에 또 다른 태그가 없는 경우** 해당 내용을 추출

In [42]:
tag = soup.find('div', attrs={'class':'serviceInfo'})
tag = tag.find('span')
print(tag.string)

오프라인 교육, e러닝


[실습] 네이버 웹툰 제목 가져오기

In [None]:
!pip install selenium

In [None]:
!pip install webdriver_manager

In [59]:
import requests
from bs4 import BeautifulSoup

URL = 'https://comic.naver.com/webtoon'
res = requests.get(URL)
soup = BeautifulSoup(res.text, 'lxml')
# webtoon_titles = soup.find_all('span', attrs ={'class':'ContentTitle__title--e3qXt'})
# print(len(webtoon_titles))
# webtoon_titles = soup.select_one('#container > div.component_wrap.type2 > div.WeekdayMainView__daily_all_wrap--UvRFc > div.WeekdayMainView__daily_all_item--DnTAH.WeekdayMainView__is_active--NSACG > ul > li:nth-child(1) > div > a > span > span')
# print(webtoon_titles) # 이렇게 하면 안됨

0
None


In [None]:
import requests
import time
from bs4 import BeautifulSoup
from selenium.webdriver.chrome.service import Service
from selenium.webdriver import Chrome, ChromeOptions
from  webdriver_manager.chrome import ChromeDriverManager

driver = Chrome(service=Service(ChromeDriverManager().install()), options=ChromeOptions())

URL = 'https://comic.naver.com/webtoon'
driver.get(URL)
time.sleep(4) # 동적으로 생성되는 페이지의 내용이 완성될 때까지 대기
soup = BeautifulSoup(driver.page_source, 'lxml')

# 요일별 전체 웹툰 CSS 선택자
temp = soup.select_one('#container > div.component_wrap.type2 > div.WeekdayMainView__daily_all_wrap--UvRFc')
#container > div.component_wrap.type2 > div.WeekdayMainView__daily_all_wrap--UvRFc

# 요일별 div 태그 검색
temp = temp.find_all('ul', attrs={'class':'WeekdayMainView__daily_list--R52q0'})
week = ['월','화','수','목','금','토','일']
for i,w in enumerate(temp):
    print(f'===== {week[i]}요 웹툰 =====')
    webtoon_list = w.find_all('li', attrs = {'class':'DailyListItem__item--LP6_T'}) #li는 각 웹툰 하나하나
    for webtoon in webtoon_list:
        print(webtoon.find('span', attrs={'class':'text'}).text)
    print()

[실습] 메가박스 영화정보 사이트에서 영화 포스터 다운로드 하기

In [16]:
# 사전 테스트: 박스 오피스 1위 영화 포스터 이미지 가져오기
from bs4 import BeautifulSoup
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import ChromiumOptions
from webdriver_manager.chrome import ChromeDriverManager

driver = Chrome(service=Service(ChromeDriverManager().install()), options=ChromeOptions())
URL = 'https://www.megabox.co.kr/movie'
driver.get(URL)
soup = BeautifulSoup(driver.page_source, 'lxml')
poster_img = soup.select('#movieList > li > div.movie-list-info > img')
print(len(poster_img))
poster_img_src = poster_img[0].get('src')

import requests
res = requests.get(poster_img_src)
with open('poster.jpg', 'wb') as f:
    f.write(res.content)
print('End')

20
End


[문제] 메가박스 영화 사이트에서 첫 페이지에 있는 모든 영화 포스트 이미지 수집하기
- 메가박스 영화 사이트 첫 페이지에 있는 20개의 영화 포스트 이미지 수집
- 현재 작업 디렉토리 밑에 'poster_img' 폴더가 없는 경우 폴더를 생성한다. (os 패키지 적용)
- 저장되는 각 포스터 이미지의 파일 이름은 영화 제목으로 한다.

In [31]:
from bs4 import BeautifulSoup
from selenium.webdriver.chrome.service import Service
from selenium.webdriver import ChromeOptions, Chrome
from webdriver_manager.chrome import ChromeDriverManager

driver = Chrome(service=Service(ChromeDriverManager().install()), options=ChromeOptions())
URL = 'https://www.megabox.co.kr/movie'
driver.get(URL)
soup = BeautifulSoup(driver.page_source, 'lxml')

# 포스터 이미지를 가지고 있는 모든 img 태그를 검색
poster_imgs = soup.find_all('img', attrs = {'class':'poster lozad'})
# print(len(poster_imgs))

# 이미지를 저장할 폴더 생성 
import os
img_dir = './poster_img/'
if not os.path.exists(img_dir):
    os.mkdir(img_dir)
    print('폴더 생성 완료')
else:
    print('폴더가 존재함')

for i,poster in enumerate(poster_imgs, 1):
    title = poster.get('alt') # poster['alt']
    img_url = poster.get('src') # poster['src']

    print(i, ':', img_url)
    img_res = requests.get(img_url)

    if ':' in title:
        title = title.replace(':',' ')

    with open(img_dir+f'[{i}].{title}.jpg', 'wb') as f:
        f.write(img_res.content) # 바이너리 데이터의 콘텐츠 값

폴더가 존재함
1 : https://img.megabox.co.kr/SharedImg/2024/03/08/cXQEF1oKHFLu6EvP16zSZGjHUJoYSAT2_420.jpg
2 : https://img.megabox.co.kr/SharedImg/2024/03/15/rfWfBieOgyEguDNCjgvzkiT6fqJRwu7l_420.jpg
3 : https://img.megabox.co.kr/SharedImg/2024/03/28/daNUgWGbgmQ7hIRsIlJ85DXUHpWhyj40_420.jpg
4 : https://img.megabox.co.kr/SharedImg/2024/03/19/TEKBnolSgyXtoyDRLXMPQToR717LUcfL_420.jpg
5 : https://img.megabox.co.kr/SharedImg/2024/02/22/s7Ica1Ow0MEP0U7l57tOjO1DXexU2N9E_420.jpg
6 : https://img.megabox.co.kr/SharedImg/2024/03/22/ntJBTMX63n5aD3HogAOMD6DtBfGiLT5a_420.jpg
7 : https://img.megabox.co.kr/SharedImg/2024/03/29/4LUZ72p3FhEUqR3OgDEk841Ut55WmJJj_420.jpg
8 : https://img.megabox.co.kr/SharedImg/2024/03/15/hmfQLwxxlkFILBcgZQjXZYRqI6KofQGk_420.jpg
9 : https://img.megabox.co.kr/SharedImg/2024/03/11/7QVpllXiIeNhPFD1fa8UV2bQ6o7lv71a_420.jpg
10 : https://img.megabox.co.kr/SharedImg/2024/03/19/n4B15lKM6DohSjd2ub3bByvQfNeqwdGD_420.jpg
11 : https://img.megabox.co.kr/SharedImg/2024/03/20/tUnvSS6SSta7pqQYrcu

[실습] 네이버 뉴스 사이트에서 경제 관련 언론사별 랭킹뉴스 추출하기
- 언론사 이름에 '경제' 단어가 포함된 언론사의 랭킹 뉴스만 추출하여 출력

In [46]:
import requests
from bs4 import BeautifulSoup

res = requests.get('https://news.naver.com/main/ranking/popularDay.naver')
soup = BeautifulSoup(res.text, 'html.parser')

news_list = soup.find_all('div', attrs = {'class':'rankingnews_box'})
print('등록 언론사 개수: ', len(news_list))

for news in news_list:
    press_title = news.find('strong').text # strong 태그 하나밖에 없음
    if '경제' in press_title:
        print('언론사:', press_title)
        press_news = news.find_all('div', attrs = {'class':'list_content'})
        for i, ranking_news in enumerate(press_news, 1):
            # print(f'{i}:{ranking_news.get_text()}')
            print(f'{i}:{ranking_news.find("a").get_text()}')
        print()

등록 언론사 개수:  82
언론사: 한국경제
1:'침착맨' 이말년, 53억 빌딩 사들이더니 결국…위기의 MCN
2:"23만원까지 나왔다" 환호…신고가 행진에 '20만닉스' 성큼
3:"90분간 뺨 맞아" 학폭 의혹 '여배우' 송하윤…"일면식도 없다" [전문]
4:"5조 또 쏜다" 반도체에 미친 日…한국선 꿈도 못 꿀 일 [김일규의 재팬워치]
5:남자랑 통화했다고 여동생 살해…지켜본 아빠, 촬영한 오빠

언론사: 아시아경제
1:방송 중 느닷없이 재생된 영상…당황한 아나운서 "실수로 재생됐다" 사과
2:치료·수술할 때만 입국해 건보 혜택 '쏙'…내일부터 못한다
3:혀도 발음도 꼬였던 앵커, 진짜 낮술했었네…방송국, 징계예정
4:"쓰레기" "후진 놈"…거칠어지는 한동훈의 입, 왜?
5:"차량 등록 안해준다"며 아파트 정문 막은 입주민 논란

언론사: 매일경제
1:“나가, 내집이야”…남편 말에 싸우고 나온 황정음, 이태원서 한 일
2:300만원 넘는 침대 척척 팔더니…사상 처음 1등 올라선 ‘이 회사’
3:강 건너면 강남인데 밤에 돌아다니기 무섭다는 이 동네…양꼬치 거리·대학생·새 아파트 표심 제각각 [민심로드2024, 광진을]
4:“90분간 따귀 맞아” 송하윤, 학폭 의혹에 “일면식도 없다”
5:‘연두색 번호판’에 벌벌 떨었나…럭셔리카 올해초 판매량 급감

언론사: 한국경제TV
1:"삼성전자, 엔비디아 HBM 납품 논란 불필요"
2:자고나면 신고가..."수익난 투자자 비중 89%"
3:'여행 못 가겠네'…1박당 추가 세금 붙는다
4:'더 2024 K9' 출시…"고급화에 중점"
5:잘 나가고 있었는데…바이오 개미들 '비명'

언론사: 헤럴드경제
1:"90분간 뺨 때리고, 강제전학" 학폭 의혹 여배우 누구?
2:“애플워치보다 예쁜가?” 이게 겨우 8만원…삼성 역대급 시계 등장
3:4년간 ‘이것’ 즐겨 마셨더니…‘체중 감량’에 효과 있더라!
4:[영상]아파트서 자다 강풍에 밖으로 날아가…3명 중국 일가족 숨져
5:9층서 물린 삼전개미 탈출, 이번엔 ‘가능 vs 불가능’…파

# Selenium 패키지

## find_element() 함수

In [52]:
from selenium.webdriver import Chrome, ChromeOptions
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By

# 웹 드라이버 동적 다운로드 방식
driver = Chrome(service = Service(ChromeDriverManager().install()), options = ChromeOptions())

# [참고] 로컬 컴퓨터에 설치되어 있는 웹 드라이버 실행 방식
# s = Service('d:\DEV\chromedriver\chromedriver.exe')
# driver = Chrome(service=s)

driver.get('https://www.daum.net')
ele = driver.find_element(by=By.LINK_TEXT, value='카페')
print(ele)
print(ele.text)

<selenium.webdriver.remote.webelement.WebElement (session="26fa9700db1a98bcb632cad772e791b8", element="f.4C9E78F35E2C89169A1DADA529B46DB1.d.2B18D557C92D61E4C696310E9A2A9B08.e.61")>
카페


## 이벤트 제어하기

### click()

In [2]:
from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from webdriver_manager.chrome import ChromeDriverManager

driver = Chrome(service=Service(ChromeDriverManager().install()), options=ChromeOptions())

driver.get('https://www.naver.com')
import time
time.sleep(4)
ele = driver.find_element(by=By.CSS_SELECTOR, value='#shortcutArea > ul > li:nth-child(5) > a')
ele.click()

### send_keys()

In [4]:
from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.keys import Keys # 특수키 사용을 위한 클래스

driver = Chrome(service=Service(ChromeDriverManager().install()), options=ChromeOptions())

driver.get('https://www.naver.com')
ele = driver.find_element(by=By.ID, value='query')
ele.send_keys('python')
ele.send_keys(Keys.ENTER)

[실습] 네이버 로그인하기

In [14]:
from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.keys import Keys # 특수키 사용을 위한 클래스

driver = Chrome(service=Service(ChromeDriverManager().install()), options=ChromeOptions())

driver.get('https://www.naver.com')
# ele = driver.find_element(by=By.CSS_SELECTOR, value='#account > div > a')
# ele.click()
ele = driver.find_element(by=By.CLASS_NAME, value='MyView-module__link_login___HpHMW')
ele.click()
import time
time.sleep(4)
my_id = 'cupshop'
my_pw = 'QLCsksmsduwk10'

# 로봇에 의해 클릭되지 못하도록 막았기 때문에 스크립트로 처리해야 함
# ele = driver.find_element(by=By.ID, value='id')
# ele.send_keys(my_id)

# ele = driver.find_element(by=By.ID, value='pw')
# ele.send_keys(my_pw)

driver.execute_script(f"document.getElementById('id').value='{my_id}'") # DOM 객체가 document에 들어감. getElementById -> id 값으로 element 찾음
driver.execute_script(f"document.getElementById('pw').value='{my_pw}'")
time.sleep(3)
#로그인 상태 유지 체크박스 클릭
driver.execute_script(f"document.getElementById('keep').value='on'")
time.sleep(3)
ele = driver.find_element(by=By.CLASS_NAME, value='btn_login')
ele.click()

SyntaxError: invalid syntax. Perhaps you forgot a comma? (3183199756.py, line 30)

## 웹 브라우저 자동 스크롤

### 구글에서 이미지 검색 후 검색 결과 6번 스크롤 하기

In [4]:
from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from webdriver_manager.chrome import ChromeDriverManager
import time
# 페이지가 로드될 때까지 기다리는 시간
SCROLL_PAUSE_TIME = 2

driver = Chrome(service=Service(ChromeDriverManager().install()), options=ChromeOptions())
driver.get('https://www.google.com')
ele = driver.find_element(by=By.CLASS_NAME, value='gLFyf')
ele.send_keys('python')
ele.submit() #입력 폼을 서버로 전송할 때 

driver.find_element(By.LINK_TEXT, '이미지').click()

# 페이지가 로드될 때까지 기다림
time.sleep(SCROLL_PAUSE_TIME)
# 최초 스크롤 바의 높이값 읽기
last_height = driver.execute_script('return document.body.scrollHeight')
print('last height: ', last_height)
for i in range(6):
    # 윈도우의 스크롤 바를 0에서부터 가장 밑(scrollHeight)까지 이동
    driver.execute_script('window.scrollTo(0, document.body.scrollHeight)')
    time.sleep(SCROLL_PAUSE_TIME)
    # 스크롤 바 이동으로 새로운 검색 결과가 로딩 후 변경된 새로운 스크롤 바의 높이값 읽기
    new_height = driver.execute_script('return document.body.scrollHeight')
    print('new_height: ', new_height)
    print('-'*30)
# 더 이상 스크롤 될 페이지가 없을 경우 scrollHeight 값의 변화가 없다.

last height:  7126
new_height:  13915
------------------------------
new_height:  20611
------------------------------
new_height:  27059
------------------------------
new_height:  30401
------------------------------
new_height:  30401
------------------------------
new_height:  30401
------------------------------


### 구글에서 이미지 검색 후 검색 결과 무한 스크롤하기

In [5]:
from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from webdriver_manager.chrome import ChromeDriverManager
import time
# 페이지가 로드될 때까지 기다리는 시간
SCROLL_PAUSE_TIME = 2

driver = Chrome(service=Service(ChromeDriverManager().install()), options=ChromeOptions())
driver.get('https://www.google.com')
ele = driver.find_element(by=By.CLASS_NAME, value='gLFyf')
ele.send_keys('python')
ele.submit() #입력 폼을 서버로 전송할 때 

driver.find_element(By.LINK_TEXT, '이미지').click()

# 페이지가 로드될 때까지 기다림
time.sleep(SCROLL_PAUSE_TIME)
# 최초 스크롤 바의 높이값 읽기
last_height = driver.execute_script('return document.body.scrollHeight')

#스크롤 횟수
scroll_cnt = 0

while True:
    # 윈도우의 스크롤 바를 0에서부터 가장 밑(scrollHeight)까지 이동
    driver.execute_script('window.scrollTo(0, document.body.scrollHeight)')
    scroll_cnt += 1
    time.sleep(SCROLL_PAUSE_TIME)
    # 스크롤 바 이동으로 새로운 검색 결과가 로딩 후 변경된 새로운 스크롤 바의 높이값 읽기
    new_height = driver.execute_script('return document.body.scrollHeight')
    print(f'last height : {last_height}, new_height : {new_height}, scroll count : {scroll_cnt}')
    if last_height != new_height: # 계속해서 new_height 값이 변경되면
        last_height = new_height
    else: # 더 이상 new_height 값의 변동이 없다면
        break

last height : 6971, new_height : 13915, scroll count : 1
last height : 13915, new_height : 20611, scroll count : 2
last height : 20611, new_height : 27059, scroll count : 3
last height : 27059, new_height : 30153, scroll count : 4
last height : 30153, new_height : 30153, scroll count : 5


### 구글에서 이미지 검색 후 썸네일 이미지 클릭하고 원본 이미지 주소 수집하기

In [13]:
from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from webdriver_manager.chrome import ChromeDriverManager
import time

SCROLL_PAUSE_TIME = 2# 페이지가 로드될 때까지 기다리는 시간
IMAGE_EXTRACT_NUM = 20 # 이미지 추출 개수
SEARCH_KEYWORD = 'python' 

######## 웹 드라이버 실행 및 구글 접속 #######
driver = Chrome(service=Service(ChromeDriverManager().install()), options=ChromeOptions())
driver.get('https://www.google.com')

######## 검색 #######
ele = driver.find_element(by=By.CLASS_NAME, value='gLFyf')
ele.send_keys(SEARCH_KEYWORD)
ele.submit() #입력 폼을 서버로 전송할 때 

######## 이미지 검색결과 페이지 이동 #######
driver.find_element(By.LINK_TEXT, '이미지').click()

# 페이지가 로드될 때까지 기다림
time.sleep(SCROLL_PAUSE_TIME)

######## 이미지 검색결과 페이지 스크롤 #######
# 최초 스크롤 바의 높이값 읽기
last_height = driver.execute_script('return document.body.scrollHeight')

#스크롤 횟수
scroll_cnt = 0

while True:
    # 윈도우의 스크롤 바를 0에서부터 가장 밑(scrollHeight)까지 이동
    driver.execute_script('window.scrollTo(0, document.body.scrollHeight)')
    scroll_cnt += 1
    time.sleep(SCROLL_PAUSE_TIME)
    # 스크롤 바 이동으로 새로운 검색 결과가 로딩 후 변경된 새로운 스크롤 바의 높이값 읽기
    new_height = driver.execute_script('return document.body.scrollHeight')
    print(f'last height : {last_height}, new_height : {new_height}, scroll count : {scroll_cnt}')
    if last_height != new_height: # 계속해서 new_height 값이 변경되면
        last_height = new_height
    else: # 더 이상 new_height 값의 변동이 없다면
        break

######## 이미지 선택 및 해당 이미지의 src 추출 #######
imgs = driver.find_elements(By.CSS_SELECTOR,'#rso > div > div > div.wH6SXe.u32vCb > div > div > div > div.czzyk.XOEbc > h3 > a')
print(len(imgs))
img_src_list = []
img_cnt = 0

for img in imgs:
    try:
        img_cnt += 1
        img.click()
        img_src = driver.find_element(By.XPATH, '//*[@id="Sva75c"]/div[2]/div[2]/div[2]/div[2]/c-wiz/div/div/div/div/div[3]/div[1]/a/img[1]').get_attribute('src')
        print(f'[{img_cnt}].{img_src}')
        img_src_list.append(img_src)
        if img_cnt == IMAGE_EXTRACT_NUM: break
    except: # 에러가 발생했을 때 pass 해서 에러난 부분만 건너뛰고 실행
        img_cnt -= 1

last height : 7126, new_height : 13915, scroll count : 1
last height : 13915, new_height : 20611, scroll count : 2
last height : 20611, new_height : 26966, scroll count : 3
last height : 26966, new_height : 30401, scroll count : 4
last height : 30401, new_height : 30401, scroll count : 5
449
[1].https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcTyQlAY-m5UXpwyX4z78Vpi4WFnNiU7e311PwoZU3kyXQ&s
[2].https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcTyQlAY-m5UXpwyX4z78Vpi4WFnNiU7e311PwoZU3kyXQ&s
[3].https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcTAu8ccQozYR93JU28Z_TQ0shBqt5JoyBB4FAgCGk3R&s
[4].https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcSMApZtXyv635ASXMhrib42OHQ3p27UsYlCTYDgWkSeOA&s
[5].https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcRFGXUdp0yroYt0J4ofF12BifaTS9epNkff2LnYW5MZ&s
[6].https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcTPYzrvt2jYgJdaImwVVwi5mr6vlB0vY7sqe__MSkX7Bg&s
[7].https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcT2DP-JJG1obIchPRU6acWjA

### 구글에서 이미지 검색 후 파일로 저장하기

In [18]:
from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from webdriver_manager.chrome import ChromeDriverManager
import time

SCROLL_PAUSE_TIME = 2# 페이지가 로드될 때까지 기다리는 시간
IMAGE_EXTRACT_NUM = 20 # 이미지 추출 개수
SEARCH_KEYWORD = 'python' 

######## 웹 드라이버 실행 및 구글 접속 #######
driver = Chrome(service=Service(ChromeDriverManager().install()), options=ChromeOptions())
driver.get('https://www.google.com')

######## 검색 #######
ele = driver.find_element(by=By.CLASS_NAME, value='gLFyf')
ele.send_keys(SEARCH_KEYWORD)
ele.submit() #입력 폼을 서버로 전송할 때 

######## 이미지 검색결과 페이지 이동 #######
driver.find_element(By.LINK_TEXT, '이미지').click()

# 페이지가 로드될 때까지 기다림
time.sleep(SCROLL_PAUSE_TIME)

######## 이미지 검색결과 페이지 스크롤 #######
# 최초 스크롤 바의 높이값 읽기
last_height = driver.execute_script('return document.body.scrollHeight')

#스크롤 횟수
scroll_cnt = 0

while True:
    # 윈도우의 스크롤 바를 0에서부터 가장 밑(scrollHeight)까지 이동
    driver.execute_script('window.scrollTo(0, document.body.scrollHeight)')
    scroll_cnt += 1
    time.sleep(SCROLL_PAUSE_TIME)
    # 스크롤 바 이동으로 새로운 검색 결과가 로딩 후 변경된 새로운 스크롤 바의 높이값 읽기
    new_height = driver.execute_script('return document.body.scrollHeight')
    print(f'last height : {last_height}, new_height : {new_height}, scroll count : {scroll_cnt}')
    if last_height != new_height: # 계속해서 new_height 값이 변경되면
        last_height = new_height
    else: # 더 이상 new_height 값의 변동이 없다면
        break

######## 이미지 선택 및 해당 이미지의 src 추출 #######
imgs = driver.find_elements(By.CSS_SELECTOR,'#rso > div > div > div.wH6SXe.u32vCb > div > div > div > div.czzyk.XOEbc > h3 > a')
print(len(imgs))
img_src_list = []
img_cnt = 0

for img in imgs:
    try:
        img_cnt += 1
        img.click()
        time.sleep(2)
        img_src = driver.find_element(By.CSS_SELECTOR, '#Sva75c > div.A8mJGd.NDuZHe.OGftbe-N7Eqid-H9tDt > div.LrPjRb > div.AQyBn > div.tvh9oe.BIB1wf > c-wiz > div > div > div > div > div.v6bUne > div.p7sI2.PUxBg > a > img.sFlh5c.pT0Scc.iPVvYb').get_attribute('src')
        print(f'[{img_cnt}].{img_src}')
        img_src_list.append(img_src)
        if img_cnt == IMAGE_EXTRACT_NUM: break
    except: # 에러가 발생했을 때 pass 해서 에러난 부분만 건너뛰고 실행
        img_cnt -= 1

######## 검색 이미지 파일로 저장 #######
import os
import requests

ts = time.localtime()
path = 'c:/Temp/'
now = '{}.{}.{}.{}.{}.{}'.format(ts.tm_year, ts.tm_mon,ts.tm_mday, ts.tm_hour, ts.tm_min, ts.tm_sec)
dir = SEARCH_KEYWORD + '/' + now+'/'
os.chdir(path)
if not os.path.exists(dir):
    os.makedirs(dir) # makedirs -> 폴더 2개 만들 때 사용 (SEARCH_KEYWORD 폴더, NOW 폴더)
file_no = 1
os.chdir(path+dir)
for url in img_src_list:
    extension = url.split('.') # 원본 이미지에서 가져온 확장자
    ext = '' # 최종적으로 사용할 이미지의 확장자
    if extension in ['jpg','JPG','jpeg','JPEG','png','PNG','gif','GIF']:
        ext = '.'+ extension
    else:
        ext = '.jpg'

    file_name = str(file_no) + '-' + SEARCH_KEYWORD + ext
    file_no += 1
    res = requests.get(url)
    with open(file_name, 'wb') as f:
        f.write(res.content)
driver.close()

last height : 7126, new_height : 13915, scroll count : 1
last height : 13915, new_height : 20363, scroll count : 2
last height : 20363, new_height : 26966, scroll count : 3
last height : 26966, new_height : 29657, scroll count : 4
last height : 29657, new_height : 29657, scroll count : 5
438
[1].https://upload.wikimedia.org/wikipedia/commons/thumb/c/c3/Python-logo-notext.svg/800px-Python-logo-notext.svg.png
[2].https://velog.velcdn.com/images/deep-of-machine/post/3f778fa2-2b43-42b3-9233-091424be7d73/image.png
[3].https://i.namu.wiki/i/mxMv5lNX8m8lUwu7yTjN6eNZh8JVuI6a_chEyMRc4V9oECkhVIl7OiPiGIOllv14uDVNuwRPVco8abCPe5xOiQ.svg
[4].https://images.velog.io/images/pm1100tm/post/30e9dc94-96d0-41b3-9f2f-d814e839a796/python.jpg
[5].https://i.namu.wiki/i/pHxeJONxIv51qQsN2ac5nX3shPEmiSlKtGVATZXUE22NHGyw9v7_Aqto6aSoCU9ODz3RKtTKCEP0E0OI7TlxMQ.webp
[6].https://www.askedtech.com/api/kords/admin/product/image.jpg?type=org&id=20688
[7].https://blog.kakaocdn.net/dn/cgkUIV/btqRqcabOMh/iSwGFjqyYk5pidLEb8K

## select 태그 선택

In [24]:
from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.support.ui import Select # select form 제어 클래스

URL = 'https://www.selenium.dev/selenium/web/formPage.html'
driver = Chrome(service=Service(ChromeDriverManager().install()), options=ChromeOptions())
driver.get(URL)

ele = driver.find_element(By.NAME, 'selectomatic')
select = Select(ele)

# 인덱스 기준으로 선택하기
# select.select_by_index(2)

# 보여지는 선택값 텍스트로 선택하기
# select.select_by_visible_text('Four')

# option 요소의 값으로 선택하기
# select.select_by_value('four')

# select 태그에 onchange 속성이 있어서 Select 클래스를 사용할 수 없을 때
driver.find_element(By.CSS_SELECTOR, 'option[value="four"]').click()

[실습과제] yes24에서 파이썬 도서 검색하기
- yes24 사이트에서 파이썬 도서 검색 -> 검색 결과를 120개 선택
- 검색 결과에서 도서 평점이 9.6 이상인 도서 제목과 가격, 평점 출력한다.

In [14]:
# 1단계 : Selenium
from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.support.ui import Select

URL = 'https://www.yes24.com/Main/default.aspx'
driver = Chrome(service=Service(ChromeDriverManager().install()), options=ChromeOptions())
driver.get(URL)

ele = driver.find_element(By.ID, 'query')
ele.send_keys('파이썬')
ele.send_keys(Keys.ENTER)
import time
time.sleep(2)

# 검색 결과를 120개 선택 
driver.find_element(By.CSS_SELECTOR, '#stat_gb > option[value="120"]').click()

In [28]:
# 2단계 : 데이터 가져오기 (BeautifulSoup)
from bs4 import BeautifulSoup

soup = BeautifulSoup(driver.page_source, 'lxml') # page_source -> 현재 웹드라이브의 html을 가져옴
book_list = soup.find('ul', attrs = {'id':'yesSchList'})
books = book_list.find_all('li') # 속성 조합 안 넣는 이유 : 저 ul 아래 있는 li 라서

print('검색 도서 권수 : ', len(books)) 
count = 0

for book in books:
    # price의 em 태그의 클래스 yes_b 가 rating이랑 겹쳐서 상위 태그인 span을 가져옴 (price가 먼저 나오기 때문에 find를 쓰려면 여기다가 써야 함) 
    rating = book.find('span', attrs = {'class':'rating_grade'})
    if not rating: continue # 평점이 없는 도서일 경우 이하 내용 실행 skip
    # span 태그 밑에 2개의 하위 태그가 있어서 특정한 태그인 'em'을 find 해줌 
    rating = float(rating.find('em').get_text())
    
    if rating >= 9.6:
        count += 1 
        title = book.find('a', attrs = {'class':'gd_name'}).get_text()
        price = book.find('em', attrs = {'class':'yes_b'}).get_text() # '(strong', attrs = {'class':'txt_num'})
    print(f'{count :03d} | {title} | {price} 원 | {rating}') #03d 세자리의 정수 자리 유지 (앞에 빈 부분은 0으로 메움)

검색 도서 권수 :  524
001 | Do it! 점프 투 파이썬 | 19,800 원 | 9.8
001 | Do it! 점프 투 파이썬 | 19,800 원 | 4.0
001 | Do it! 점프 투 파이썬 | 19,800 원 | 9.3
002 | 실무로 통하는 인과추론 with 파이썬 | 34,200 원 | 9.8
002 | 실무로 통하는 인과추론 with 파이썬 | 34,200 원 | 9.4
003 | 혼자 공부하는 머신러닝+딥러닝 | 23,400 원 | 9.6
004 | 챗GPT API를 활용한 챗봇 만들기 | 28,800 원 | 10.0
005 | 코딩 자율학습 나도코딩의 파이썬 입문 | 21,600 원 | 9.8
006 | Hey, 파이썬! 생성형 AI 활용 앱 만들어 줘 | 35,100 원 | 9.8
006 | Hey, 파이썬! 생성형 AI 활용 앱 만들어 줘 | 35,100 원 | 9.5
006 | Hey, 파이썬! 생성형 AI 활용 앱 만들어 줘 | 35,100 원 | 9.0
006 | Hey, 파이썬! 생성형 AI 활용 앱 만들어 줘 | 35,100 원 | 8.0
007 | 챗GPT로 만드는 주식 & 암호화폐 자동매매 시스템 | 18,000 원 | 9.8
008 | 혼자 공부하는 데이터 분석 with 파이썬 | 23,400 원 | 9.7
009 | 마이크로 파이썬을 활용해 사물인터넷(IoT) 프로젝트 만들기 with ESP32 | 20,700 원 | 10.0
010 | 새내기 파이썬 | 30,000 원 | 10.0
010 | 새내기 파이썬 | 30,000 원 | 8.5
011 | ChatGPT 소스를 얹는 파이썬 레시피 | 28,800 원 | 10.0
012 | 으뜸 파이썬 | 32,000 원 | 9.6
013 | 코딩 입문자를 위한 문제해결 기반 파이썬 4.0 | 27,000 원 | 10.0
013 | 코딩 입문자를 위한 문제해결 기반 파이썬 4.0 | 27,000 원 | 9.1
014 | 파이썬으로 쉽게 배우는 자료구조 | 29,000 원 

[실습] 메가박스 영화 감상평 및 평점 수집

In [47]:
from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.support.ui import Select
from bs4 import BeautifulSoup
import time

PAUSE_TIME = 3

URL = 'https://www.megabox.co.kr/movie'
driver = Chrome(service=Service(ChromeDriverManager().install()), options=ChromeOptions())
driver.get(URL)

movie = driver.find_element(By.CSS_SELECTOR, '#movieList > li:nth-child(4) > div.movie-list-info > div.movie-score > a').send_keys(Keys.ENTER) #.click() 안 먹히면 .send_keys(Keys.ENTER)
time.sleep(PAUSE_TIME)
driver.find_element(By.LINK_TEXT, '실관람평').click()

In [48]:
# 마지막 페이지 이동 
driver.find_element(By.CSS_SELECTOR, '#contentData > div > div.movie-idv-story > nav > a.control.last').click()
time.sleep(PAUSE_TIME)
total_page_num = int(driver.find_element(By.CSS_SELECTOR, '#contentData > div > div.movie-idv-story > nav > strong').text)
print('전체 페이지 수 : ', total_page_num)

# 첫 페이지 이동
driver.find_element(By.CSS_SELECTOR, '#contentData > div > div.movie-idv-story > nav > a.control.first').click()
time.sleep(PAUSE_TIME)

ratings = [] 
comments = []

THE_LAST_PAGE = 20
next_a_tag = 2 # 다음 클릭이 이루어질 a 태그의 순서 (첫 페이지는 a 태그가 아닌 strong 태그이기 때문에 첫 클릭이 이뤄질 태그 순서는 2부터 시작)

for i in range(1, total_page_num+1):
    if i > THE_LAST_PAGE: break
    print(f'{i}페이지 평점 및 리뷰 정보 수집')
    bs = BeautifulSoup(driver.page_source, 'lxml')
    result = bs.find_all('li', attrs = {'class':'type01 oneContentTag'})
    for c in result:
        rating = int(c.find('div', attrs = {'class':'story-point'}).text)
        comment = c.find('div', attrs = {'class':'story-txt'}).text.strip()
        ratings.append(rating)
        comments.append(comment)

    if not i % 10: # 10번째 페이지 평점 정보 수집이 끝나면...
        driver.find_element(By.CSS_SELECTOR, '#contentData > div > div.movie-idv-story > nav > a.control.next').click() # 다음 10페이지 보기 클릭
        time.sleep(PAUSE_TIME)
        next_a_tag = 4 # 다음 10페이지에서 그 다음 클릭이 이뤄질 a 태그의 순서는 4가 됨(다음 클릭할 페이지 링크 앞에 <, <<, 첫페이지 가 있어서..)
        continue
        
    # 다음 페이지 번호 클릭
    driver.find_element(By.CSS_SELECTOR, f'#contentData > div > div.movie-idv-story > nav > a:nth-child({next_a_tag})').click()
    next_a_tag += 1
    time.sleep(PAUSE_TIME)

driver.close()

전체 페이지 수 :  2555
1페이지 평점 및 리뷰 정보 수집
2페이지 평점 및 리뷰 정보 수집
3페이지 평점 및 리뷰 정보 수집
4페이지 평점 및 리뷰 정보 수집
5페이지 평점 및 리뷰 정보 수집
6페이지 평점 및 리뷰 정보 수집
7페이지 평점 및 리뷰 정보 수집
8페이지 평점 및 리뷰 정보 수집
9페이지 평점 및 리뷰 정보 수집
10페이지 평점 및 리뷰 정보 수집
11페이지 평점 및 리뷰 정보 수집
12페이지 평점 및 리뷰 정보 수집
13페이지 평점 및 리뷰 정보 수집
14페이지 평점 및 리뷰 정보 수집
15페이지 평점 및 리뷰 정보 수집
16페이지 평점 및 리뷰 정보 수집
17페이지 평점 및 리뷰 정보 수집
18페이지 평점 및 리뷰 정보 수집
19페이지 평점 및 리뷰 정보 수집
20페이지 평점 및 리뷰 정보 수집


In [50]:
print(f'관람객 평점 : {sum(ratings)/len(ratings):.1f}점')

import csv

with open('ratings.csv', 'w') as f:
    writer = csv.writer(f)
    for rating in ratings:
        writer.writerow([rating]) # 한 행에 써야 할 데이터는 꼭 리스트의 형태로
print('평점 저장 완료')

with open('comment.txt', 'w', encoding = 'utf-8') as f:
    for comment in comments:
        f.write(comment+'\n')
print('감상평 저장 완료')

관람객 평점 : 9.2점
평점 저장 완료
감상평 저장 완료
