# request 패키지

## 요청의 종류 
1. GET ( 정보를 가져오기 위해 요청 )
2. POST ( 새로운 정보를 보내기 위해 요청 )
3. PUT ( 수정할 정보를 보내기 위해 요청 )
4. DELETE ( 정보를 삭제하기 위해 요청 )

In [2]:
import requests

In [3]:
reprsponse = requests.get("https://www.naver.com")  # get 방식으로 요청
print(response.status_code)   # 200 : 성공적으로 처리

200


In [None]:
print(response.text)   # 네이버의 홈페이지에 대한 html 텍스트 추출

In [None]:
URL = "https://search.naver.com/search.naver"
query = {'query':'python'} 

response = requests.get(URL, params=query)  # 해당 url의 파라미터 문자열 정보 입력, query string으로 보내짐
print(response.status_code)
print(response.text)

## 로봇이 아님을 나타내기 위해 user-agent라는 값을 헤더에 넣어서 보내기
- 직접적인 URL 주소로 요청시 웹 사이트에서 웹 크롤링을 통해서 접근한 것을 감지하고 접속을 차단하게 되는 경우 존재
- user-agent 헤더 값을 포함하여 요청하면 웹 브라우저를 통해 요청하는 것으로 인식하게 되어 문제 해결 가능
- user agent값 확인하는 법: 웹 브라우저 실행 -> F12를 눌러 개발자 모드 -> Console -> 프롬프트에 'navigator.userAgent'입력
- "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36"

In [14]:
import requests

URL = "http://www.google.com/search"
params = {'q':'python'}

# 로봇이 아님을 나타내기 위해 user-agent라는 값을 header에 넣어서 전송
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36'}

# user-agent 값을 통해 브라우저의 종류와 버전 정보 등을 전달하기 때문에 웹 프로그램은 브라우저별로 최적화된 콘텐츠를 제공
# header 정보를 전달했을때와 안했을 때의 차이
response = requests.get(URL, params=params)#, headers=headers)
response.raise_for_status()    # 200이 아니면 오류를 내고 중지, 밑 문장 실행x


html = response.text
with open('search_result2.html', 'w', encoding='utf-8') as f:
    f.write(html)
print('저장완료')

저장완료


[실습] 네이버 실시간 인기 검색어 추출

In [3]:
import requests

response = requests.get('https://datalab.naver.com')
html = response.text

In [5]:
temp = html.split('<em class="num">1</em>')[1]
temp = temp.split('<span class="title">')[1]
temp = temp.split('</span>')[0]
print(temp)

경량패딩


# BeautifulSoup 패키지

## parser별 출력 결과 비교

In [None]:
pip list

In [6]:
from bs4 import BeautifulSoup

soup =  BeautifulSoup('<a></p>', 'html.parser')
print('html.parser')
print(soup)
print('-'*40)

soup =  BeautifulSoup('<a></p>', 'lxml')
print('lxml')
print(soup)
print('-'*40)

soup =  BeautifulSoup('<a></p>', 'xml')   # xml문서를 파싱하는데 특화
print('xml')
print(soup)
print('-'*40)

soup =  BeautifulSoup('<a></p>', 'html5lib')
print('html5lib')
print(soup)
print('-'*40)

html.parser
<a></a>
----------------------------------------
lxml
<html><body><a></a></body></html>
----------------------------------------
xml
<?xml version="1.0" encoding="utf-8"?>
<a/>
----------------------------------------
html5lib
<html><head></head><body><a><p></p></a></body></html>
----------------------------------------


## 기본 사용법

In [23]:
import requests
from bs4 import BeautifulSoup

url = 'https://ko.wikipedia.org/wiki/%EC%9B%B9_%ED%81%AC%EB%A1%A4%EB%9F%AC'
res = requests.get(url)

# soup 객체 생성
soup = BeautifulSoup(res.text, 'lxml')

# 태그를 이용한 접근
print(soup.title.text)   # title 태그 접근, .text: 태그를 제외한 컨텐츠만 출력, .name: 태그의 이름만 출력
print(soup.footer.ul.li.text)
print(soup.footer.ul.li.find_next_sibling().text)

# 태그와 속성을 이용한 접근
print(soup.a) # a 태그 접근, soup 객체에서 첫번째로 만나는 a element 를 출력
print(soup.a['href'])  # a 태그의 href 속성값 출력
# print(soup.a['id'])  # 속성이 존재하지 않을 경우 에러 발생

# find()함수를 이용한 태그 내의 다양한 속성을 이용한 접근
print(soup.find('a', attrs={'title':'구글봇'}))   # a 태그의 title 속성 중 값이 구글봇인 것 출력

웹 크롤러 - 위키백과, 우리 모두의 백과사전
 이 문서는 2023년 4월 30일 (일) 18:34에 마지막으로 편집되었습니다.
모든 문서는 크리에이티브 커먼즈 저작자표시-동일조건변경허락 4.0에 따라 사용할 수 있으며, 추가적인 조건이 적용될 수 있습니다. 자세한 내용은 이용 약관을 참고하십시오.Wikipedia®는 미국 및 다른 국가에 등록되어 있는 Wikimedia Foundation, Inc. 소유의 등록 상표입니다.
<a class="mw-jump-link" href="#bodyContent">본문으로 이동</a>
#bodyContent
<a href="/wiki/%EA%B5%AC%EA%B8%80%EB%B4%87" title="구글봇">구글봇</a>


## 자식 노드(태그)들을 반복 가능한 객체로 반환

In [16]:
html = """
<html>
    <head>
        <title>crawl</title>
    </head>
    <body>
        <p class='a' align='center'>text1</p>
        <p class='b' align='center'>text2</p>
        <p class='c' align='center'>text3</p>
        <div>
            <img src='/source' width='300' height='200'>
        </div>
    </body>
</html>
"""

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html.parser')
contents = soup.find('body')
# print(contents)
for child in contents.children:   #  contents의 자식태그들 가져오기
    print(child)



<p align="center" class="a">text1</p>


<p align="center" class="b">text2</p>


<p align="center" class="c">text3</p>


<div>
<img height="200" src="/source" width="300"/>
</div>




## 자신을 포함한 부모 태그까지 출력

In [18]:
html = """
<html>
    <head>
        <title>crawl</title>
    </head>
    <body>
        <p class='a' align='center'>text1</p>
        <p class='b' align='center'>text2</p>
        <p class='c' align='center'>text3</p>
        <div>
            <img src='/source' width='300' height='200'>
        </div>
    </body>
</html>
"""

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html.parser')
contents = soup.find('body')
img_tag = contents.find('img')
print(img_tag)
print()
print(img_tag.parent)  # 자신을 포함한 부모 태그까지 출력

<img height="200" src="/source" width="300"/>

<div>
<img height="200" src="/source" width="300"/>
</div>


## 특정 부모 태그까지 검색해서 올라가기

In [19]:
html = """
<html>
    <head>
        <title>crawl</title>
    </head>
    <body>
        <p class='a' align='center'>text1</p>
        <p class='b' align='center'>text2</p>
        <p class='c' align='center'>text3</p>
        <div>
            <img src='/source' width='300' height='200'>
        </div>
    </body>
</html>
"""

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html.parser')
contents = soup.find('body')
img_tag = contents.find('img')
print(img_tag)
print()
print(img_tag.find_parent('body'))  # 역으로 img 태그에서 body태그까지 거슬러 올라감

<img height="200" src="/source" width="300"/>

<body>
<p align="center" class="a">text1</p>
<p align="center" class="b">text2</p>
<p align="center" class="c">text3</p>
<div>
<img height="200" src="/source" width="300"/>
</div>
</body>


## 형제 태그 검색
- find_next_sibling(): 바로 다음 형제 태그를 검색
- find_next_siblings(): 모든 다음 형제 태그를 검색
- find_previous_sibling(): 바로 이전 형제 태그를 검색
- find_previous_siblings(): 모든 이전 형제 태그를 검색

In [22]:
html = """
<html>
    <head>
        <title>crawl</title>
    </head>
    <body>
        <p class='a' align='center'>text1</p>
        <p class='b' align='center'>text2</p>
        <p class='c' align='center'>text3</p>
        <div>
            <img src='/source' width='300' height='200'>
        </div>
    </body>
</html>
"""

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html.parser')

p_tag = soup.find('p', attrs={'class':'b'})
print(p_tag)
print()
print(p_tag.find_next_sibling())
print(p_tag.find_next_siblings())  # 결과를 리스트로 반환


<p align="center" class="b">text2</p>

<p align="center" class="c">text3</p>
[<p align="center" class="c">text3</p>, <div>
<img height="200" src="/source" width="300"/>
</div>]


In [26]:
html = """
<html>
    <head>
        <title>crawl</title>
    </head>
    <body>
        <p class='a' align='center'>text1</p>
        <p class='b' align='center'>text2</p>
        <p class='c' align='center'>text3</p>
        <div>
            <img src='/source' width='300' height='200'>
        </div>
    </body>
</html>
"""

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html.parser')

result = soup.find('body')
print(result.text)   # 검색결과의 하부 태그에 있는 모든 텍스트만 검색 결과로 가져옴
print(result.string) # 하부 태그가 없는 경우에만 문자열을 가져옴
p_tag = result.find('p')
print(p_tag.string)


text1
text2
text3




None
text1


## 검색: find_all()

In [27]:
import requests
from bs4 import BeautifulSoup

res = requests.get('https://www.naver.com')
soup = BeautifulSoup(res.text, 'lxml')

In [28]:
print(soup.find_all('a', limit=2))

[<a href="#topAsideButton"><span>상단영역 바로가기</span></a>, <a href="#shortcutArea"><span>서비스 메뉴 바로가기</span></a>]


In [31]:
result = soup.find_all('span', attrs={'class':'blind'})
print(len(result))
print(result)

3
[<span class="blind">검색</span>, <span class="blind">입력도구</span>, <span class="blind">자동완성/최근검색어펼치기</span>]


[실습] 네이버 뉴스 페이지에 언론사 목록 가져오기

In [26]:
import requests
from bs4 import BeautifulSoup

import re

res = requests.get('https://news.naver.com')
soup = BeautifulSoup(res.text, 'lxml')

result = soup.find_all('h4', attrs={'class':"channel"})
#print(result[0])
#print(list(result[0].children)[0])

news_list = [list(tag.children)[0] for tag in result]
print(news_list[:10])

['아이뉴스24', '블로터', '대전일보', '서울경제', '대구MBC', '미디어오늘', '데일리안', '디지털데일리', '프레시안', '디지털타임스']


## 검색: select_one(), select()

In [29]:
import requests
from bs4 import BeautifulSoup

res = requests.get('http://tradecampus.com')
soup = BeautifulSoup(res.text, 'html.parser')

print(soup.select_one('body > div > div.wrapper.main_page > div.renew_main > div.col-12 > div > div.renew_main_notice > div > div > h3'))   # copy select, 원하는 태그 가져옴

<h3 class="tit">공지사항</h3>


In [31]:
# tradecampus.com 메인 페이지에 공지사항 2번째 내용 가져오기

notice = soup.select('body > div > div.wrapper.main_page > div.renew_main > div.col-12 > div > div.renew_main_notice > div > ul > li:nth-child(2)')   # 2 번째 자식요소에 해당하는 li 요소
#print(notice)
print(notice[0].text)


오프라인/Live

제1기 전자상거래(B2C)수출실무 첫걸음 개강안내(10/27)
2023-10-24




In [34]:
# :nth-child(n) 삭제시 모슨 요소 가져옴
notice = soup.select('body > div > div.wrapper.main_page > div.renew_main > div.col-12 > div > div.renew_main_notice > div > ul > li')
print(len(notice))
for n in notice:
    print(n.text)
    print('-'*50)

3

e러닝

[GTEP] '24년~'26년 신규 사업단(대학) 모집 안내 (~11/24)
2023-10-27


--------------------------------------------------

오프라인/Live

제1기 전자상거래(B2C)수출실무 첫걸음 개강안내(10/27)
2023-10-24


--------------------------------------------------

자격시험

(11월 25일 시행) 제56회 국제무역사 1급 자격시험 접수안내(10/30(월)~11/12(일), 예스24티켓에서 신청)
2023-10-23


--------------------------------------------------


In [36]:
# 고객센터 영역 텍스트 가져오기
text = soup.find('div', attrs={'class':'serviceInfo'})
#print(text)
print(text.get_text())


고객센터


오프라인 교육
02-6000-5378/5379


e러닝
02-6000-6251


운영시간
평일 09:00~18:00 (주말/공휴일 : 휴무)





In [39]:
ele = soup.find('span', attrs={'class':'img'})
#print(ele)
ele = ele.find('img').get('src')
print(ele)

/weven_template_repository/theme/KITAAC/1/resource/img/img_main_cate01.png


In [None]:
pip install selenium

In [None]:
pip install webdriver_manager

In [None]:
pip list

[실습] 네이버 웹툰 제목 가져오기

In [None]:
import requests
from bs4 import BeautifulSoup
import time
from selenium.webdriver.chrome.service import Service
from selenium.webdriver import Chrome, ChromeOptions
from webdriver_manager.chrome import ChromeDriverManager

# 크롬객체 생성 [서비스 속성 = (서비스객체 생성-> 크롬 드라이버매니저 설치), 옵션 속성 = 크롬옵션 객체 생성]
driver = Chrome(service=Service(ChromeDriverManager().install()),options=ChromeOptions()) 
url='https://comic.naver.com/webtoon'
driver.get(url)

time.sleep(5)  # 동적으로 생성되는 페이지의 내용이 완성될 때까지 대기

soup = BeautifulSoup(driver.page_source, 'lxml')

# 요일별 전체 웹툰의 css selector임
temp = soup.select_one('#container > div.component_wrap.type2 > div.WeekdayMainView__daily_all_wrap--UvRFc')
#print(temp) # 홈페이지가 동적으로 작동함;; 크롤링 방지를 위해 막아놓음, BS 만으로 크롤링 불가

# 요일별 div 태그 (find_all() 함수로 동일 클래스 선택자를 사용하는 모든 태그 검색)
temp = temp.find_all('div',attrs={'class':'WeekdayMainView__daily_all_item--DnTAH'})
#print(len(temp)) #7

week=['월','화','수','목','금','토','일']

for i,w in enumerate(temp):
    print(f'========== {week[i]}요일 웹툰 ========== ')
    week_list = w.select('ul>li') #요일 웹툰 li리스트 : 상위태그가 ul인 모든 li 리스트 가져옴
    for li_tag in week_list:
        print(li_tag.find('span',attrs={'class':'text'}).text) #.string도 가능, li태그의 제목 위치 찾아서 출력

[실습] 다음 영화 사이트에서 영화 포스터 다운로드 하기

In [11]:
# 사전 테스트

import requests
from bs4 import BeautifulSoup

res = requests.get('https://movie.daum.net/ranking/reservation')
res.raise_for_status()  # 응답없을 경우 예외 발생 후 중지시킴

soup = BeautifulSoup(res.text, 'lxml')
poster_img = soup.find_all('img', attrs={'class':'img_thumb'})
# print(len(poster_img))
img_src = poster_img[0].get('src')
res = requests.get(img_src)        # src  속성을 통해 얻은 url을 가져오기
with open('poster.jpg', 'wb') as f: 
    f.write(res.content)   # content: 텍스트가 아닌 바이너리 데이터 가져오기, 가져온 url을 이미지로 저장

In [15]:
import requests
import os
from bs4 import BeautifulSoup

res = requests.get('https://movie.daum.net/ranking/reservation')
res.raise_for_status()

soup = BeautifulSoup(res.text, 'lxml')
poster_img = soup.find_all('img', attrs={'class':'img_thumb'})   # img 태그에 있는 class속성의 img_thumb값을 가진 태그 값 가져오기

# 이미지를 저장할 폴더 생성(폴더가 있으면 안만들고, 없으면 만든다)
img_dir = './poster_img/'

if not os.path.exists(img_dir):    # 폴더가 존재하는지 여부
    os.makedirs(img_dir)      # 폴더 생성
    print('폴더 생성 완료')
else:
    print('폴더가 존재함')

for i, movie in enumerate(poster_img, 1):   # 인덱스가 1부터 시작하도록 지정
    title = movie.get('alt')     # 영화제목; alt속성에 있음
    img_url = movie.get('src')   # 이미지의 url; src속성에 있음 =

    print(i, ':', img_url)
    img_res = requests.get(img_url)  # 이미지의 url 가져오기

    if ':' in title:              # 영화 제목의 ':' 처리
        title  = title.replace(':', ' ')
        
    with open(img_dir+f'm{i:02d}_{title}.jpg', 'wb') as f:
        f.write(img_res.content)

print('포스터 저장 완료')

폴더가 존재함
1 : https://img1.daumcdn.net/thumb/C408x596/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2F814364da4037f74217243eeee6b4648d7dc2fc79
2 : https://img1.daumcdn.net/thumb/C408x596/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Fd4c29f7ca7d107dd1c84841e999aba7952e1922d
3 : https://img1.daumcdn.net/thumb/C408x596/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2F3024cd158a242c789367a861db53c9f4470a14d9
4 : https://img1.daumcdn.net/thumb/C408x596/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Fc96eeca7ae58927348a05c4104ba3fc64ff1b03d
5 : https://img1.daumcdn.net/thumb/C408x596/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Fa92b521216c7cf6d9d714d798d47bfbb46e5d806
6 : https://img1.daumcdn.net/thumb/C408x596/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Fb1c637d374c7f62cde230dcaa8121822f76a3c75
7 : https://img1.daumcdn.net/thumb/C408x596/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Fe6e4aa9fa401a9b50a740e2d663cd3680f404cd8
8 : https://img1.daumcdn.net/thumb/C408x596/?fname=https%3A%2F%2Ft1.daumcdn

[실습] 네이버 뉴스에서 경제 관련 언론사별 랭킹뉴스 추출하기
<pre>
    - 네이버 뉴스 랭킹 페이지에서 언론사의 이름에 '경제'단어가 포함된 언론사의 기사 제목을 추출
</pre>

In [54]:
import requests
from bs4 import BeautifulSoup

headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36'}

res = requests.get('https://news.naver.com/main/ranking/popularDay.naver', headers=headers)
res.raise_for_status()

soup = BeautifulSoup(res.text, 'lxml')

# 전체 페이지에서 한 언론사에 해당하는 가장 큰 태그
my_news = soup.find_all('div', attrs={'class':'rankingnews_box'})
print('등록 언론사 개수: ', len(news_name))  

# 언론사 별로 순회
for n in my_news:
    press_name = n.find('strong').text  # 언론사 이름 찾기, 언론사별로는 하나니까 find()
    if '경제' in press_name:   # '경제' 가 들어가 있는지 여부
        print('언론사:',press_name)
        news_title = n.find_all('div', attrs={'class':'list_content'}) # 기사 제목을 포함한 태그가 들어가있는 태그
        for i, rankingnews in enumerate(news_title, 1):
            news_ranking_title = rankingnews.find('a').text   # 기사 제목 포함한 태그
            print(f'{i}: {news_ranking_title}')
        print('-'*50)

# 크롤링하는 웹페이지의 태그가 어떻게 구성되어있는지, 상위 하위는 어떤 것인지 파악하여 웹 크롤링 필요 

등록 언론사 개수:  82
언론사: 서울경제
1: “별풍선 24억이면 결혼한다”더니…아프리카TV 인기 어마어마하네
2: "전청조에게 가스라이팅 당했다? 남현희 말 백 번 의심스러워” 이수정 주장
3: 여고생 집까지 가서 술 먹이고 성폭행한 30대…기간제 교사였다
4: '전청조 패러디' 또 등장…“전충주, I am 충주예요” 어떻게 보십니까
5: “오빠, 나 10대인데 모텔서 보자”더니…'참교육' 나온 유튜버였다
--------------------------------------------------
언론사: 한국경제
1: "땅만 보고 다녀야겠어요"…여의도 직장인 덮친 '공포' [돈앤톡]
2: "삼성 때문에 다 망한다" 맹렬한 반대…54년 만에 '대반전' [김익환의 컴퍼니워치]
3: [단독] 연예인·오너들도 당했다…1000억 폰지사기범 구속
4: "왕복 20만원이면 차라리 해외 가죠"…제주 골프장 '위기'
5: "무조건 오를 줄 알았는데…" 수백억 베팅한 개미들 '비명'
--------------------------------------------------
언론사: 매일경제
1: “한국서 살고 싶어요”…현금 10억씩 들고 몰려오는 중국인들
2: “아이 보는데 남편 폭행당했다”…가해자 아들은 ‘네 아빠 발렸다’ 조롱
3: “도와달라”는 인요한에... 이준석 “그렇게 하셔봤자 아무도 신경 안써”
4: “비트코인, 2년 내 2억 간다”…4배 이상 오른다고 전망한 美 번스타인
5: “오은영이 멘탈 코치” 전청조, 1인당 3억 제안했다
--------------------------------------------------
언론사: 아시아경제
1: "전청조, 샤넬 매장서 남현희를 공주 대접" 목격담 화제
2: "도망가면 어쩌려고" 韓부동산 산 중국인, 4명 중 1명은 국내은행서 돈 빌려
3: '오늘 아침' 리포터 김태민, 뇌출혈로 45세 사망
4: "알바 월급도 부담"…나홀로 사장님 437만명, 15년 만에 최대
5: 5대 은행 연봉 '1억원 훌쩍'…퇴직금은 '최