# request 패키지

In [4]:
import requests
# 파이썬의 기본 모듈이므로 별도로 설치하지 않아도 됨

# import란?
# 외부의 모듈을 가져와 사용할 때는 import 명령어를 사용한다
# 모듈에 포함된 함수 호출시 함수명 앞에 모듈명을 붙인다
# 만약 특정 함수나 클래스만 import하고자 할 때는 from을 사용한한다

# get 방식으로 요청
# response = requests.get(url, params, **kwargs)
response = requests.get('http://www.naver.com')
# response는 임의의 변수일 뿐
# request 패키지 중 get이라는 함수를 사용한 것
print(response.status_code) #200
# 응답에 대한 코드 확인 : 200 : 정상 접속

200


In [8]:
# print(response.text)
# 원하는 데이터 추출시 슬라이스를 활용할 수 있지만, beautifulsoup 활용을 추천.

- 특정 URL에 접속하여 결과물을 파일로 저장

In [6]:
# https://www.google.com/search?q=python

URL = 'https://www.google.com/search'
param = {'q':'python'}

response = requests.get(URL, param)
response.raise_for_status() # 200이 아니면 오류를 내고 프로그램 실행을 종료

print('상태코드: ', response.status_code)
result = response.text
# .text는 서버의 html 문서를 출력하는 것
# .content는 이미지 수집

# with절을 활용하여 파일을 열었다면, 별도의 close 할 필요 없음.
# 파일객체 = open(파일이름, 파일열기모드)
with open('mygoogle.html', 'w', encoding='utf-8') as f:
    f.write(result)

print('저장 완료!')
# 구글은 디자인 요소와 관련된 style sheet를 별도의 파일로 만들고 링크만 걸어두었기 때문에, 결과가 조금은 다르게 나오는 것

상태코드:  200
저장 완료!


## 로봇이 아님을 나타내기 위해서 user-agent라는 값을 header에 넣어서 보내기
- user-agent 헤더 값을 포함하여 요청하면, 브라우저를 통해 요청하는 것으로 인식되어 봇의 접근 차단을 피할 수 있다.
- 브라우저 별 user-agent 값 얻기
    - F12를 눌러 개발자 모드로 진입 -> console -> navigator.userAgent 입력 -> user-agent 값 확인

In [11]:
URL = 'https://www.google.com/search'
param = {'q':'python'}

# 로봇이 아님을 나타내기 위해서 user-agent라는 값을 header에 넣어서 보냄
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Whale/3.18.154.13 Safari/537.36'}

response = requests.get(URL, param, headers=headers)
# URL과 param은 위치인수
# header는 키워드 매개변수
result = response.text
# print(result)

## [실습] 네이버 실시간 인기 검색어 추출

In [19]:
import requests

URL = 'https://datalab.naver.com'
# https : s는 secure : 보안 프로토콜을 의미한다.
response = requests.get(URL)
html_text = response.text
# print(html_text)

In [21]:
# '잠옷'이라는 키워드 추출하기

# F12 후 select an element로 잠옷 부분 클릭하여 태그 위치로 이동
# 상위태그인 em태그를 오른쪽 마우스 클릭 후 copy element
# 해당태그인 span태그를 오른쪽 마우스 클릭 후 copy element

temp = html_text.split('<em class="num">1</em>')[1]
# 구분자를 기준으로 앞뒤로 두 개의 덩어리로 나뉘어질 것
temp = temp.split('<span class="title">')[1]
temp = temp.split('</span>')[0]
print(temp)

잠옷


In [None]:
# 데이터 찾기
find (tag='p' attr='class' value='red')
find (tag='p' attr='id' value='red')