# request 패키지

In [None]:
!pip install requests

In [None]:
import requests

URL = 'https://www.naver.com'
response = requests.get(URL) # get 방식으로 요청
print(response.status_code)

print(response.text)

URL = 'https://search.naver.com/search.naver'
query = {'query':'python'}
response = requests.get(URL, params=query)
print(response.status_code)
print(response.text)

# user_agent 값 설정

In [None]:
- 로봇이 아님을 나타내기 위해서  user-agent라는 값을 header에 넣어서 보냄
- 직접적인 URL주소로 요청 시 웹 사이트에서 웹 크롤링을 통해 접근한 것으로 감지하고 접속을 차단하게 됨
- user_agent 헤더값을 포함하여 요청하면 브라우저를 통해 요청하는 것으로 인식되어 해결
- 웹 브라우저 실행 -> F12 개발자 모드 진입 -> console에 navigator.userAgent 입력

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36 Edg/122.0.0.0

In [None]:
import requests

URL = 'http://www.google.com/search'
params = {'q':'python'}
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36 Edg/122.0.0.0'}

response = requests.get(URL, params = params)
response.raise_for_status() #응답코드가 200이 아니면 오류내고 멈춤
result = response.text
with open('mygoogle.html','w', encoding='utf-8') as f:
    f.write(result)
print('저장완료!')

## [실습] 네이버 데이터랩에서 실시간 인기 검색어 추출

In [None]:
import requests 

response = requests.get('https://datalab.naver.com')
html_text = response.text

temp = html_text.split('<em class="num">1</em>')[1] #()안의 값 밑 전체의 내용이 나오게 됨. 
temp = temp.split('<span class="title">')[1]
temp = temp.split('</span>')[0]
print(temp)

# BeautifulSoup 패키지

## Parser별 출력 결과 비교

In [None]:
!pip install html5lib
#!pip install lxml

In [None]:
from bs4 import BeautifulSoup

soup = BeautifulSoup ('<a></p>', 'html.parser')
print('html.parser')
print(soup)
print('-'*40)

soup = BeautifulSoup ('<a> </p>', 'lxml')
print('lxml')
print(soup)
print('-'*40)

soup = BeautifulSoup ('<a> </p>', 'xml')
print('xml')
print(soup)
print('-'*40)

soup = BeautifulSoup ('<a> </p>', 'html5lib')
print('html5lib')
print(soup)
print('-'*40)

## 기본 사용법

In [None]:
import requests
from bs4 import BeautifulSoup

URL = 'https://ko.wikipedia.org/wiki/%EC%9B%B9_%ED%81%AC%EB%A1%A4%EB%9F%AC'
response = requests.get(URL)

# soup 객체 생성
soup = BeautifulSoup(response.text, 'lxml')

# 태그를 이용한 접근
print(soup.title)
print(soup.footer.ul.li.text)

# 태그와 속성을 이용한 접근
print(soup.a) #soup 객체에서 첫 번째로 만나는 a 태그 출력
#print(soup.a['id']) #만약 속성이 존재하지 않으면 에러 발생
print(soup.a['href'])

#find() 함수를 이용한 태그 내의 다양한 속성을 이용한 접근
print(soup.find('a', attrs={'title':'구글봇'})) # a 태그 중 title 속성의 값이 '구글봇'인 데이터 검색

##자식 태그들을 반복 가능한 객체로 반환

In [None]:
html = '''
<html>
    <head>
        <title> Web Scrapping </title>
    </head>
    <body>
        <p class="a" align = "center">text1</p>
        <p class="b" align = "center">text2</p>
        <p class="c" align = "center">text3</p>
        <div>
            <img src="\source" width="300" height="200">
        </div>   
    </body>
</html>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
contents = soup.find('body')
#print(contents)
for child in contents.children:
    print(child)

## 자신을 포함한 부모 태그까지 출력

In [None]:
html = '''
<html>
    <head>
        <title> Web Scrapping </title>
    </head>
    <body>
        <p class="a" align = "center">text1</p>
        <p class="b" align = "center">text2</p>
        <p class="c" align = "center">text3</p>
        <div>
            <img src="\source" width="300" height="200">
        </div>   
    </body>
</html>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
contents = soup.find('body')
img_tag = contents.find('img')
print(img_tag)
print('/n')
print(img_tag.parent)

## 특정 부모 태그까지 검색해서 올라가는 법 (바로 위말고 그이상까지)

In [None]:
html = '''
<html>
    <head>
        <title> Web Scrapping </title>
    </head>
    <body>
        <p class="a" align = "center">text1</p>
        <p class="b" align = "center">text2</p>
        <p class="c" align = "center">text3</p>
        <div>
            <img src="\source" width="300" height="200">
        </div>   
    </body>
</html>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
contents = soup.find('body')
img_tag = contents.find('img')
print(img_tag.find_parent('body')) #  지정된 부모 태그까지 올라감

## 형제 태그 검색

In [None]:
html = '''
<html>
    <head>
        <title> Web Scrapping </title>
    </head>
    <body>
        <p class="a" align = "center">text1</p>
        <p class="b" align = "center">text2</p>
        <p class="c" align = "center">text3</p>
        <div>
            <img src="\source" width="300" height="200">
        </div>   
    </body>
</html>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
p_tag = soup.find('p', attrs={'class':'b'})
print(p_tag)
print('바로 다음 형제태그')
print(p_tag.find_next_sibling())
print('모든 다음 형제태그')
print(p_tag.find_next_siblings())
print('바로 이전 형제태그')
print(p_tag.find_previous_sibling())
print('모든 이전 형제태그')
print(p_tag.find_previous_siblings())

## 검색:find()

In [None]:
import requests
from bs4 import BeautifulSoup

response = requests.get('https://www.naver.com')
soup = BeautifulSoup(response.text,'lxml')
print(soup.find('title'))
print(soup.find('a'))
print(soup.find(id='search')) #id속성의 값이 search인 정보를 가져옴 soup.find(attrs={'id'='search'})와 동일

## 검색:find_all()

In [None]:
a_tags = soup.find_all('a', limit=2)
print(len(a_tags))
print(a_tags)

In [None]:
[실습] 네이버 뉴스 페이지에서 언론사 목록 가져오기

In [26]:
import requests
from bs4 import BeautifulSoup

res = requests.get('https://news.naver.com')
soup = BeautifulSoup(res.text, 'lxml')
result = soup.find_all('h4', attrs={'class':'channel'})
#print(result[0].get_text())
#print(list(result[0].children))
press_list = [ list(tag.children)[0] for tag in result]
print(press_list[:10])

파이낸셜뉴스04월 01일 17:25
['파이낸셜뉴스', <span class="datetime">04월 01일 17:25</span>]
['파이낸셜뉴스', '신동아', '시사IN', '오마이뉴스', '디지털타임스', '경기일보', '코리아중앙데일리', 'SBS Biz', '미디어오늘', '동아사이언스']


In [None]:
res = requests.get('https://news.naver.com')
soup = BeautifulSoup(res.text, 'lxml')
result = soup.find_all('div', attrs={'class':'cjs_age_name'})
press_list = [tag.text for tag in result]
print(press_list[:10])

## 검색: select_one(), select()

In [None]:
import requests
from bs4 import BeautifulSoup

res = requests.get('http://www.tradecampus.com')
soup = BeautifulSoup(res.text, 'html.parser')
print(soup.select_one('div > a'))
result = soup.select('div a')
print(len(result))

In [None]:
print(soup.select_one('body > div > div.wrapper.main_page > div.renew_main > div.col-12 > div > div.renew_main_notice > div > div > h3')) # 개발자모드 selector copy하면 나오는 것

In [None]:
# notice = soup.select('body > div > div.wrapper.main_page > div.renew_main > div.col-12 > div > div.renew_main_notice > div > ul > li:nth-child(2) > p > a')
notice = soup.select('body > div > div.wrapper.main_page > div.renew_main > div.col-12 > div > div.renew_main_notice > div > ul > li > p > a') -> 다 가져오고 싶을때 목록 li 만
print(notice[0].txt)

## 텍스트 가져오기: text, get_text()
-  검색결과에서 태그를 제외한 텍스트만 추출

In [None]:
# 고객센터 영역 텍스트 가져오기
tag = soup.find('div', attrs = {'class': 'serviceInfo'})
print(tag.get_text())

In [None]:
tag = soup.find('img', attrs={'class':'mobile_icon black'})
print(tag['src'])
print(tag.get('src'))

## 텍스트 가져오기: string
- 검색결과에서 **태그 안에 또 다른 태그가 없는 경우 **해당 내용을 추출

In [None]:
tag = soup.find('div', attrs = {'class': 'serviceInfo'})
tag = tag.find('span')
print(tag.string)

In [None]:
[실습] 네이버 웹툰 제목 가져오기

In [None]:
!pip install selenium

In [None]:
!pip install webdriver_manager

In [None]:
import requests
import time
from bs4 import BeautifulSoup
from selenium.webdriver.chrome.service import Service
from selenium.webdriver import Chrome, ChromeOptions
from webdriver_manager.chrome import ChromeDriverManager

driver = Chrome(service=Service(ChromeDriverManager().install()),options=ChromeOptions())

URL = 'https://comic.naver.com/webtoon'
driver.get(URL)
time.sleep(4) # 동적으로 생성되는 페이지의 내용이 완성될 때까지 대기
soup = BeautifulSoup(driver.page_source,'lxml')

# 요일별 전체 웹툰 CSS 선택자
temp = soup.select_one('#container > div.component_wrap.type2 > div.WeekdayMainView__daily_all_wrap--UvRFc')


# 요일별 div 태그 검색
temp = temp.find_all('ul', attrs = {'class':'WeekdayMainView__daily_list--R52q0'})
week = ['월','화','수','목','금','토','일']
for i, w in enumerate(temp):
    print(f'==== {week[i]} 요 웹튼 ====')
    webtoon_list = w.find_all('li', attrs = {'class':'DailyListItem__item--LP6_T'})
    for webtoon in webtoon_list:
        print(webtoon.find('span', attrs={'class':'text'}).text)
    print()

In [None]:
[실습] 메가박스 영화정보 사이트에서 영화 포스터 다운로드 하기

In [20]:
# 사전 테스트 : 박스 오피스 1위 영화 포스터 이미지 가져오기
from bs4 import BeautifulSoup
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import ChromiumOptions
from webdriver_manager.chrome import ChromeDriverManager

driver = Chrome(service=Service(ChromeDriverManager().install()),options=ChromeOptions())
URL = 'https://megabox.co.kr/movie'
driver.get(URL)
soup = BeautifulSoup(driver.page_source,'lxml')
poster_img = soup.select('#movieList > li:nth-child(1) > div.movie-list-info > img')
print(len((poster_img)))
poster_img_src = poster_img[0].get('src')

import requests
res = requests.get(poster_img_src)
with open('poster.jpg','wb') as f:
    f.write(res.content)
print('End')

1
End


[문제] 메가박스 영화 사이트에 첫 페이지에 있는 모든 영화 포스트 이미지 수집하기
- 메가박스 영화 사이트 첫 페이지에 있는 20개의 영화 포스트 이미지 수집
- 현재 작업 디렉토리 밑에 'poster_img' 폴더가 없는 경우 폴더를 생성한다. (os 패키지 이용)
- 저장되는 각 포스터 이미지의 파일이름은 영화제목으로 한다.

In [None]:
#모범답안
from bs4 import BeautifulSoup
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import ChromiumOptions
from webdriver_manager.chrome import ChromeDriverManager
import os
if not os.path.exists('poster_img'):
    os.makedirs('poster_img')

driver = Chrome(service = Service(ChromeDriverManager().install()), options=ChromeOptions())


URL = 'https://www.megabox.co.kr/movie'
driver.get(URL)
soup = BeautifulSoup(driver.page_source, 'lxml')

movie_posters = soup.select('#movieList > li > div.movie-list-info > img')
for i, poster in enumerate(movie_posters, start=1):
    movie_title = poster.get('alt').strip().replace(':', '_') # 영화 제목 추출
    poster_img_src = poster.get('src') # 영화 포스터 이미지 URL 추출
    res = requests.get(poster_img_src) # 영화 포스터 이미지 다운로드 및 저장
    with open(f'poster_img/{movie_title}.jpg', 'wb') as f:
        f.write(res.content)
    print(f"{i}. '{movie_title}'의 포스터 이미지를 저장했습니다.")

# 작업 완료 후 브라우저 닫기
driver.quit()
print('모든 포스터 이미지 수집 및 저장이 완료되었습니다.')
from webdriver_manager.chrome import ChromeDriverManager

driver = Chrome(service = Service(ChromeDriverManager().install()), options=ChromeOptions())
URL = 'https://www.megabox.co.kr/movie'
driver.get(URL)
soup = BeautifulSoup(driver.page_source, 'lxml')

# 포스터 이미지를 가지고 있는 모든 img 태그를 검색
poster_imgs= soup.find_all('img',attrs={'class':'poster lozad'})
# print(len(poster_imgs))

#이미지를 저장할 폴더 생성
import options
img_dir = "./poster_img/"
if not os.path.exists('img_dir'):
    os.makedirs('img_dir')
    print('폴더 생성 완료')
else:
    print('폴더가 존재함')

for i, poster in enumerate(poster_imgs,1): 
    title = poster.get('alt')
    img_url = poster.get('src')
    
    print(i,':',img_url)
    img_res = requests.get(img_url)

    if ":"in title:
        title = title.replace(':',' ')

    with open(img_dir+f'[{i}].{title}.jpg','wb') as f:
        f.write(img_res.content)

1. '쿵푸팬더4'의 포스터 이미지를 저장했습니다.
2. '비키퍼'의 포스터 이미지를 저장했습니다.
3. '댓글부대'의 포스터 이미지를 저장했습니다.
4. '마더스'의 포스터 이미지를 저장했습니다.
5. '파묘'의 포스터 이미지를 저장했습니다.
6. '오멘_ 저주의 시작'의 포스터 이미지를 저장했습니다.
7. '바람의 세월'의 포스터 이미지를 저장했습니다.
8. '기동전사 건담 SEED FREEDOM'의 포스터 이미지를 저장했습니다.
9. '씬'의 포스터 이미지를 저장했습니다.
10. '고질라 X 콩_ 뉴 엠파이어'의 포스터 이미지를 저장했습니다.
11. '패왕별희 디 오리지널'의 포스터 이미지를 저장했습니다.
12. '듄_ 파트2'의 포스터 이미지를 저장했습니다.
13. '1980'의 포스터 이미지를 저장했습니다.
14. '뒤주'의 포스터 이미지를 저장했습니다.
15. '극장판 스파이 패밀리 코드 _ 화이트'의 포스터 이미지를 저장했습니다.
16. '목스박'의 포스터 이미지를 저장했습니다.
17. '영웅본색'의 포스터 이미지를 저장했습니다.
18. '남은 인생 10년'의 포스터 이미지를 저장했습니다.
19. '로봇 드림'의 포스터 이미지를 저장했습니다.
20. '청춘 스케치'의 포스터 이미지를 저장했습니다.
모든 포스터 이미지 수집 및 저장이 완료되었습니다.
