# requests 패키지

In [None]:
#!pip install requests

In [3]:
import requests

URL = 'https://www.naver.com'
response = requests.get(URL) # get 방식으로 요청
print(response.status_code)

200


In [None]:
print(response.text)

In [None]:
URL = 'https://search.naver.com/search.naver'
query = {'query':'python'}
response = requests.get(URL, params=query)
print(response.status_code)
print(response.text)

# user-agent 값 설정

- 로봇이 아님을 나타내기 위해서 user-agent라는 값을 header에 넣어서 보냄
- 직접적인 URL 주소로 요청 시 웹 사이트에서 웹 크롤링을 통해 접근한 것을 감지하고 접속을 차단하게 됨
- user-agent 헤더값을 포함하여 요청하면 브라우저를 통해 요청하는 것으로 인식되어 해결
- 웹 브라우저 실행 -> F12 개발자 모드 진입 -> Console에 navigator.userAgent 입력

In [7]:
import requests

URL ='http://www.google.com/search'
params = {'q':'python'}
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36 Edg/122.0.0.0'}

response = requests.get(URL, params=params)# headers=headers)
response.raise_for_status() #응답 코드가 200이 아니면 오류내고 멈춤

result = response.text
with open('mygoogle.html','w', encoding ='utf-8') as f:
    f.write(result)
print('저장완료!')

저장완료!


## [실습] 네이버 데이터랩에서 실시간 인기 검색어 추출

In [11]:
import requests

response = requests.get('https://datalab.naver.com')
html_text = response.text

temp = html_text.split('<em class="num">1</em>')[1]
temp = temp.split('<span class="title">')[1]
temp = temp.split('</span>')[0]
print(temp)

트위드자켓


# BeautifulSoup 패키지

## Parser별 출력 결과 비교

In [13]:
# !pip install html5lib
# !pip install lxml



In [1]:
from bs4 import BeautifulSoup
soup = BeautifulSoup('<a></p>','html.parser')
print('html.parser')
print(soup)
print('-'*49)

soup = BeautifulSoup('<a></p>','lxml')
print('lxml')
print(soup)
print('-'*49)

soup = BeautifulSoup('<a></p>','xml')
print('xml')
print(soup)
print('-'*49)

soup = BeautifulSoup('<a></p>','html5lib')
print('html5lib')
print(soup)

html.parser
<a></a>
-------------------------------------------------
lxml
<html><body><a></a></body></html>
-------------------------------------------------
xml
<?xml version="1.0" encoding="utf-8"?>
<a/>
-------------------------------------------------
html5lib
<html><head></head><body><a><p></p></a></body></html>


## 기본 사용법

In [9]:
import requests
from bs4 import BeautifulSoup

URL = 'https://ko.wikipedia.org/wiki/%EC%9B%B9_%ED%81%AC%EB%A1%A4%EB%9F%AC'
response = requests.get(URL)

# soup 객체 생성
soup = BeautifulSoup(response.text, 'lxml')

# 태그를 이용한 접근
print(soup.title)
print(soup.footer.ul.li.text)

# 태그와 속성을 이용한 접근
print(soup.a) # soup 객체에서 첫 번째로 만나는 a 태그 출력
# print(soup.a['id']) # 만약 속성이 존재하지 않으면 에러 발생
print(soup.a['href'])

# find() 함수를 이용한 태그 내의 다양한 속성을 이용한 접근
print(soup.find('a', attrs={'title':'구글봇'})) # a 태그 중 title 속성의 값이 '구글봇'인 데이터 검색

<title>웹 크롤러 - 위키백과, 우리 모두의 백과사전</title>
 이 문서는 2023년 4월 30일 (일) 18:34에 마지막으로 편집되었습니다.
<a class="mw-jump-link" href="#bodyContent">본문으로 이동</a>
#bodyContent
<a href="/wiki/%EA%B5%AC%EA%B8%80%EB%B4%87" title="구글봇">구글봇</a>


## 자식 노드들을 반복 가능한 객체로 반환

In [3]:
html = '''
<html>
    <head>
        <title>Web Scrapping</title>
    </head>
    <body>
        <p class="a" align="center">text1</p>
        <p class="b" align="center">text2</p>
        <p class="c" align="center">text3</p>
        <div>
            <img src="/source" width = "300" height = "200">
        </div>
    </body>
</html>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
contents = soup.find('body')
# print(contents)
for child in contents.children:
    print(child)



<p align="center" class="a">text1</p>


<p align="center" class="b">text2</p>


<p align="center" class="c">text3</p>


<div>
<img height="200" src="/source" width="300"/>
</div>




## 자신을 포함한 부모 노드까지 출력

In [6]:
html = '''
<html>
    <head>
        <title>Web Scrapping</title>
    </head>
    <body>
        <p class="a" align="center">text1</p>
        <p class="b" align="center">text2</p>
        <p class="c" align="center">text3</p>
        <div>
            <img src="/source" width = "300" height = "200">
        </div>
    </body>
</html>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
contents = soup.find('body')
img_tag = contents.find('img')
print(img_tag)
print()
print(img_tag.parent)

<img height="200" src="/source" width="300"/>

<div>
<img height="200" src="/source" width="300"/>
</div>


## 특정 부모 노드까지 검색해서 올라감

In [8]:
html = '''
<html>
    <head>
        <title>Web Scrapping</title>
    </head>
    <body>
        <p class="a" align="center">text1</p>
        <p class="b" align="center">text2</p>
        <p class="c" align="center">text3</p>
        <div>
            <img src="/source" width = "300" height = "200">
        </div>
    </body>
</html>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
contents = soup.find('body')
img_tag = contents.find('img')
print(img_tag.find_parent('body'))

<body>
<p align="center" class="a">text1</p>
<p align="center" class="b">text2</p>
<p align="center" class="c">text3</p>
<div>
<img height="200" src="/source" width="300"/>
</div>
</body>


## 형제 노드 검색

In [14]:
html = '''
<html>
    <head>
        <title>Web Scrapping</title>
    </head>
    <body>
        <p class="a" align="center">text1</p>
        <p class="b" align="center">text2</p>
        <p class="c" align="center">text3</p>
        <div>
            <img src="/source" width = "300" height = "200">
        </div>
    </body>
</html>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
p_tag = soup.find('p', attrs={'class':'b'})
print(p_tag)
print('--바로 다음 형제 노드--')
print(p_tag.find_next_sibling())
print('--모든 다음 형제 노드--')
print(p_tag.find_next_siblings())
print('--바로 이전 형제 노드--')
print(p_tag.find_previous_sibling())
print('--모든 이전 형제 노드--')
print(p_tag.find_previous_siblings())

<p align="center" class="b">text2</p>
--바로 다음 형제 노드--
<p align="center" class="c">text3</p>
--모든 다음 형제 노드--
[<p align="center" class="c">text3</p>, <div>
<img height="200" src="/source" width="300"/>
</div>]
--바로 이전 형제 노드--
<p align="center" class="a">text1</p>
--모든 이전 형제 노드--
[<p align="center" class="a">text1</p>]


## 검색: find()

In [None]:
import requests
from bs4 import BeautifulSoup

response = requests.get('https://naver.com')
soup = BeautifulSoup(response.text, 'lxml')
print(soup.find('title'))
print(soup.find('a'))
print(soup.find(id='search')) # id 속성의 값이 'search'인 정보를 가져옴, soup.find(attrs={'id':'search'}) 동일

## 검색: find_all()

In [20]:
a_tags = soup.find_all('a', limit = 2)
print(len(a_tags))
print(a_tags)

2
[<a href="#topAsideButton"><span>상단영역 바로가기</span></a>, <a href="#shortcutArea"><span>서비스 메뉴 바로가기</span></a>]


[실습] 네이버 뉴스 페이지에서 언론사 목록 가져오기

In [29]:
import requests
from bs4 import BeautifulSoup

res = requests.get('https://news.naver.com')
soup = BeautifulSoup(res.text, 'lxml')
result = soup.find_all('h4', attrs={'class':'channel'})
# print(len(result))
# print(result[0])
# print(list(result[0].children))
press_list = [list(tag.children)[0] for tag in result]
print(press_list[:10])

['월간산', 'MBC', '헬스조선', '한겨레', '뉴스1', '기자협회보', '블로터', 'SBS Biz', '여성신문', '헤럴드경제']


In [30]:
res = requests.get('https://news.naver.com')
soup = BeautifulSoup(res.text, 'lxml')
result = soup.find_all('div', attrs={'class':'cjs_age_name'})
press_list = [tag.text for tag in result] #tag.text 또는 tag.get_text()
print(press_list[:10])

['신동아', '주간조선', '월간산', '한경비즈니스', '시사IN', '매경이코노미', '주간동아', '주간경향', '시사저널', '이코노미스트']


## 검색: select_one(), select()

In [36]:
import requests
from bs4 import BeautifulSoup

res = requests.get('http://www.tradecampus.com')
soup = BeautifulSoup(res.text, 'html.parser')

print(soup.select_one('div > a'))
result = soup.select('div > a')
print(len(result))

<a class="show" href="/page/KITA_MAIN">KITA 무역아카데미</a>
23


In [37]:
print(soup.select_one('body > div > div.wrapper.main_page > div.renew_main > div.col-12 > div > div.renew_main_notice > div > div > h3'))

<h3 class="tit">공지사항</h3>


In [44]:
# tradecampus.com 메인 페이지 공지사항 2번째 항목 선택
# :nth-child(#)을 지우면 해당 요소(element)의 모든 요소를 가져온다
notice = soup.select('body > div > div.wrapper.main_page > div.renew_main > div.col-12 > div > div.renew_main_notice > div > ul > li:nth-child(2) > p > a')
print(notice[0].text)

2024년 무역아카데미 주요강좌 안내


## 텍스트 가져오기: text, get_text()
- 검색 결과에서 태그를 제외한 텍스트만 추출

In [46]:
# 고객센터 영역 텍스트 가져오기
tag = soup.find('div', attrs = {'class':'serviceInfo'})
# print(tag)
print(tag.get_text())


고객센터


오프라인 교육, e러닝
02-6000-5378/5379




운영시간
평일 09:00~18:00 (주말/공휴일 : 휴무)





In [49]:
# 풋터에 있는 kita 로고 이미지 추출
tag = soup.find('img', attrs={'class':'mobile_icon black'})
print(tag['src'])
print(tag.get('src'))

/weven_template_repository/theme/KITAAC/1/resource/img/ico_sns_facebook.png
/weven_template_repository/theme/KITAAC/1/resource/img/ico_sns_facebook.png


## 텍스트 가져오기: string
- 검색 결과에서 **태그 안에 또 다른 태그가 없는 경우** 해당 내용을 추출

In [56]:
tag = soup.find('div', attrs={'class':'serviceInfo'})
tag = tag.find('span')
print(tag.string)

오프라인 교육, e러닝


[실습] 네이버 웹툰 제목 가져오기

In [None]:
!pip install selenium

In [None]:
!pip install webdriver_manager

In [59]:
import requests
from bs4 import BeautifulSoup

URL = 'https://comic.naver.com/webtoon'
res = requests.get(URL)
soup = BeautifulSoup(res.text, 'lxml')
# webtoon_titles = soup.find_all('span', attrs ={'class':'ContentTitle__title--e3qXt'})
# print(len(webtoon_titles))
# webtoon_titles = soup.select_one('#container > div.component_wrap.type2 > div.WeekdayMainView__daily_all_wrap--UvRFc > div.WeekdayMainView__daily_all_item--DnTAH.WeekdayMainView__is_active--NSACG > ul > li:nth-child(1) > div > a > span > span')
# print(webtoon_titles) # 이렇게 하면 안됨

0
None


In [None]:
import requests
import time
from bs4 import BeautifulSoup
from selenium.webdriver.chrome.service import Service
from selenium.webdriver import Chrome, ChromeOptions
from  webdriver_manager.chrome import ChromeDriverManager

driver = Chrome(service=Service(ChromeDriverManager().install()), options=ChromeOptions())

URL = 'https://comic.naver.com/webtoon'
driver.get(URL)
time.sleep(4) # 동적으로 생성되는 페이지의 내용이 완성될 때까지 대기
soup = BeautifulSoup(driver.page_source, 'lxml')

# 요일별 전체 웹툰 CSS 선택자
temp = soup.select_one('#container > div.component_wrap.type2 > div.WeekdayMainView__daily_all_wrap--UvRFc')
# 요일별 div 태그 검색
temp = temp.find_all('ul', attrs={'class':'WeekdayMainView__daily_list--R52q0'})
week = ['월','화','수','목','금','토','일']
for i,w in enumerate(temp):
    print(f'===== {week[i]}요 웹툰 =====')
    webtoon_list = w.find_all('li', attrs = {'class':'DailyListItem__item--LP6_T'}) #li는 각 웹툰 하나하나
    for webtoon in webtoon_list:
        print(webtoon.find('span', attrs={'class':'text'}).text)
    print()

[실습] 메가박스 영화정보 사이트에서 영화 포스터 다운로드 하기

In [16]:
# 사전 테스트: 박스 오피스 1위 영화 포스터 이미지 가져오기
from bs4 import BeautifulSoup
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import ChromiumOptions
from webdriver_manager.chrome import ChromeDriverManager

driver = Chrome(service=Service(ChromeDriverManager().install()), options=ChromeOptions())
URL = 'https://www.megabox.co.kr/movie'
driver.get(URL)
soup = BeautifulSoup(driver.page_source, 'lxml')
poster_img = soup.select('#movieList > li > div.movie-list-info > img')
print(len(poster_img))
poster_img_src = poster_img[0].get('src')

import requests
res = requests.get(poster_img_src)
with open('poster.jpg', 'wb') as f:
    f.write(res.content)
print('End')

20
End


[문제] 메가박스 영화 사이트에서 첫 페이지에 있는 모든 영화 포스트 이미지 수집하기
- 메가박스 영화 사이트 첫 페이지에 있는 20개의 영화 포스트 이미지 수집
- 현재 작업 디렉토리 밑에 'poster_img' 폴더가 없는 경우 폴더를 생성한다. (os 패키지 적용)
- 저장되는 각 포스터 이미지의 파일 이름은 영화 제목으로 한다.

In [31]:
from bs4 import BeautifulSoup
from selenium.webdriver.chrome.service import Service
from selenium.webdriver import ChromeOptions, Chrome
from webdriver_manager.chrome import ChromeDriverManager

driver = Chrome(service=Service(ChromeDriverManager().install()), options=ChromeOptions())
URL = 'https://www.megabox.co.kr/movie'
driver.get(URL)
soup = BeautifulSoup(driver.page_source, 'lxml')

# 포스터 이미지를 가지고 있는 모든 img 태그를 검색
poster_imgs = soup.find_all('img', attrs = {'class':'poster lozad'})
# print(len(poster_imgs))

# 이미지를 저장할 폴더 생성 
import os
img_dir = './poster_img/'
if not os.path.exists(img_dir):
    os.mkdir(img_dir)
    print('폴더 생성 완료')
else:
    print('폴더가 존재함')

for i,poster in enumerate(poster_imgs, 1):
    title = poster.get('alt')
    img_url = poster.get('src')

    print(i, ':', img_url)
    img_res = requests.get(img_url)

    if ':' in title:
        title = title.replace(':',' ')

    with open(img_dir+f'[{i}].{title}.jpg', 'wb') as f:
        f.write(img_res.content) # 바이너리 데이터의 콘텐츠 값

폴더가 존재함
1 : https://img.megabox.co.kr/SharedImg/2024/03/08/cXQEF1oKHFLu6EvP16zSZGjHUJoYSAT2_420.jpg
2 : https://img.megabox.co.kr/SharedImg/2024/03/15/rfWfBieOgyEguDNCjgvzkiT6fqJRwu7l_420.jpg
3 : https://img.megabox.co.kr/SharedImg/2024/03/28/daNUgWGbgmQ7hIRsIlJ85DXUHpWhyj40_420.jpg
4 : https://img.megabox.co.kr/SharedImg/2024/03/19/TEKBnolSgyXtoyDRLXMPQToR717LUcfL_420.jpg
5 : https://img.megabox.co.kr/SharedImg/2024/02/22/s7Ica1Ow0MEP0U7l57tOjO1DXexU2N9E_420.jpg
6 : https://img.megabox.co.kr/SharedImg/2024/03/22/ntJBTMX63n5aD3HogAOMD6DtBfGiLT5a_420.jpg
7 : https://img.megabox.co.kr/SharedImg/2024/03/29/4LUZ72p3FhEUqR3OgDEk841Ut55WmJJj_420.jpg
8 : https://img.megabox.co.kr/SharedImg/2024/03/15/hmfQLwxxlkFILBcgZQjXZYRqI6KofQGk_420.jpg
9 : https://img.megabox.co.kr/SharedImg/2024/03/11/7QVpllXiIeNhPFD1fa8UV2bQ6o7lv71a_420.jpg
10 : https://img.megabox.co.kr/SharedImg/2024/03/19/n4B15lKM6DohSjd2ub3bByvQfNeqwdGD_420.jpg
11 : https://img.megabox.co.kr/SharedImg/2024/03/20/tUnvSS6SSta7pqQYrcu