## requests 모듈
- python사용자들을 위해 만들어진 간단한 Python용 HTTP 라이브러리
- html 페이지를 가져오는 기능

In [1]:
import requests
url = "https://example.com/"
r = requests.get(url)
print("status.code:", r.status_code) # 200이면 정상

status.code: 200


In [2]:
r.request #내가 보낸 request객체 접근 가능

<PreparedRequest [GET]>

In [3]:
r.status_code #응답 코드 200이면 정상

200

In [4]:
r.raise_for_status() #200 OK 아닌 경우 에러

In [5]:
r.encoding

'UTF-8'

In [6]:
r.request.headers # 응답 헤더

{'User-Agent': 'python-requests/2.31.0', 'Accept-Encoding': 'gzip, deflate, br', 'Accept': '*/*', 'Connection': 'keep-alive'}

In [7]:
r.text # 응답 데이터

'<!doctype html>\n<html>\n<head>\n    <title>Example Domain</title>\n\n    <meta charset="utf-8" />\n    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />\n    <meta name="viewport" content="width=device-width, initial-scale=1" />\n    <style type="text/css">\n    body {\n        background-color: #f0f0f2;\n        margin: 0;\n        padding: 0;\n        font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;\n        \n    }\n    div {\n        width: 600px;\n        margin: 5em auto;\n        padding: 2em;\n        background-color: #fdfdff;\n        border-radius: 0.5em;\n        box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02);\n    }\n    a:link, a:visited {\n        color: #38488f;\n        text-decoration: none;\n    }\n    @media (max-width: 700px) {\n        div {\n            margin: 0 auto;\n            width: auto;\n        }\n    }\n    </style>    \n</head>\n\n<body>\n<div>\n    <

In [8]:
r.content # 응답 데이터

b'<!doctype html>\n<html>\n<head>\n    <title>Example Domain</title>\n\n    <meta charset="utf-8" />\n    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />\n    <meta name="viewport" content="width=device-width, initial-scale=1" />\n    <style type="text/css">\n    body {\n        background-color: #f0f0f2;\n        margin: 0;\n        padding: 0;\n        font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;\n        \n    }\n    div {\n        width: 600px;\n        margin: 5em auto;\n        padding: 2em;\n        background-color: #fdfdff;\n        border-radius: 0.5em;\n        box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02);\n    }\n    a:link, a:visited {\n        color: #38488f;\n        text-decoration: none;\n    }\n    @media (max-width: 700px) {\n        div {\n            margin: 0 auto;\n            width: auto;\n        }\n    }\n    </style>    \n</head>\n\n<body>\n<div>\n    

In [9]:
import requests
res = requests.get("http://google.com")
res.raise_for_status() # 응답코드 200(정상)이 아니면 예외처리 및 프로그램 종료
print(len(res.text))
with open("google.html", "w", encoding="utf8") as f:
    f.write(res.text)

19244


In [10]:
import requests
res = requests.get("http://google.com")
res.raise_for_status() # 응답코드 200(정상)이 아니면 예외처리 및 프로그램 종료
print(len(res.text))

if res.status_code == requests.codes.ok:
    print("정상입니다")
else:
    print("문제가 생겼습니다. [에러코드 ", res.status_code, "]")
    
with open("google.html", "w", encoding="utf8") as f:
    f.write(res.text)

19267
정상입니다


In [20]:
import requests
import json

# 서울 행정구역 json raw파일(githubcontent)
r = requests.get('https://raw.githubusercontent.com/southkorea/seoul-maps/master/kostat/2013/json/seoul_municipalities_geo_simple.json')
c = r.text   # c = r.content
seoul_geo = json.loads(c)

In [21]:
seoul_geo

{'type': 'FeatureCollection',
 'features': [{'type': 'Feature',
   'properties': {'code': '11250',
    'name': '강동구',
    'name_eng': 'Gangdong-gu',
    'base_year': '2013'},
   'geometry': {'type': 'Polygon',
    'coordinates': [[[127.11519584981606, 37.557533180704915],
      [127.11879551821994, 37.557222485451305],
      [127.12146867175024, 37.55986003393365],
      [127.12435254630417, 37.56144246249796],
      [127.13593925898998, 37.56564793048277],
      [127.14930548011061, 37.56892250303897],
      [127.15511020940411, 37.57093642128295],
      [127.16683184366129, 37.57672487388627],
      [127.17038810813094, 37.576465605301046],
      [127.17607118428914, 37.57678573961056],
      [127.17905504160184, 37.57791388161732],
      [127.17747787800164, 37.57448983055031],
      [127.1781775408844, 37.571481967974336],
      [127.17995281860672, 37.569309661290504],
      [127.18122821955262, 37.56636089217979],
      [127.18169407550688, 37.56286338914073],
      [127.18408792

## BeautifulSoup & lxml  : 함께 사용함
1. BeautifulSoup :  스크래핑을 하기위해 사용하는 패키지 
    - response.text를 통해 가져온 HTML 문서를 탐색해서 원하는 부분을 뽑아내는 역할을 하는 라이브러리
2.  Lxml : 구문을 분석하기 위한 parser 
    - response.text로 가져온 HTML문서는 lxml을 통하여 의미있는 HTML문서로 변환함
- ▶ response.text로 가져온 String은 lxml이라는 모듈의 해석에 의하여 의미있는 HTML 문서로 변환되고, 이렇게 변환된 HTML문서는 BeautifulSoup에 의해서 원하는 부분을 탐색할 수 있게 된다.◀

In [None]:
# !pip install beautifulsoup4  
# !pip install lxml 

In [111]:
!pip install beautifulsoup4  



In [112]:
!pip install lxml 



In [22]:
import requests
from bs4 import BeautifulSoup
url = "https://comic.naver.com/webtoon"
response = requests.get(url)
response.raise_for_status()
# response.text를 통해 가져온 HTML 문서를 lxml 파서를 통해서 BeautifulSoup 객체로 만듦
# soup은 해당 url의 모든 HTML 정보를 가지고 있게 된다
soup = BeautifulSoup(response.text, "lxml")

In [115]:
soup

<!DOCTYPE html>
<html lang="ko">
<head>
<title>네이버 웹툰</title>
<link href="https://ssl.pstatic.net/static/m/comic/im/favicon/1804/webtoon_favicon_32x32.ico" rel="shortcut icon" type="image/x-icon"/>
<meta charset="utf-8"/>
<meta content="ie=edge" http-equiv="x-ua-compatible"/>
<meta content="article" property="og:type"/>
<meta content="네이버 웹툰" property="og:article:author"/>
<meta content="https://comic.naver.com" property="og:article:author:url"/>
<meta content="네이버 웹툰" property="og:title"/>
<meta content="https://ssl.pstatic.net/static/comic/images/og_tag_v2.png" property="og:image"/>
<meta content="매일매일 새로운 재미, 네이버 웹툰." property="og:description"/>
<script>
		if (/MSIE \d|Trident.*rv:/.test(navigator.userAgent)) {
			window.location = 'microsoft-edge:' + window.location;
			setTimeout(function () {
				window.location = 'https://go.microsoft.com/fwlink/?linkid=2135547';
			}, 1);
		}
	</script>
<script async="" src="https://ssl.pstatic.net/tveta/libs/glad/prod/gfp-core.js"></script>
<s

In [23]:
# 네이버 웹툰 웹사이트의 제목 추출
soup.title

<title>네이버 웹툰</title>

### get_text()
- get_text는 해당 element에 있는 모든 text를 추출한다.
- 모든 text를 추출해 하나의 String으로 만든다.
- get_text()는 하위 태그의 모든 텍스트를 추출한다.

### string
- string은 해당하는 태그에 string이 있으면 그것만 가져온다.
- 줄바꿈, 공백 등은 제거된 string만 추출한다.
- string은 정확한 위치에서 가져오고, 만약 자식 태그가 둘 이상이라면 무엇을 가져와야 할지 모르기에 None을 반환한다.
- 하지만 자식태그가 하나이고, 그 자식 태그에 .string 값이 있으면 해당하는 자식의 string을 추출한다.


In [24]:
soup.title.get_text()  # 텍스트 정보만 뽑기

'네이버 웹툰'

In [25]:
soup.title.text # 텍스트 정보만 뽑기

'네이버 웹툰'

In [26]:
soup.title.string

'네이버 웹툰'

In [27]:
soup.find('meta') #맨 처음으로 나오는 meta 태그를 가지는 element를 반환

<meta charset="utf-8"/>

In [28]:
print(soup.meta.attrs) # meta element의 특성, 속성을 알 수 있다. 딕셔너리 구조로 반환

{'charset': 'utf-8'}


In [29]:
print(soup.meta["charset"])
print(soup.meta.attrs["charset"])

utf-8
utf-8


In [30]:
# attrs에서 "content" 값이 "매일매일 새로운 재미, 네이버 웹툰."을 가지는 meta태그의 element를 가져올 수 있다.
soup.find('meta', attrs={"content": "매일매일 새로운 재미, 네이버 웹툰."})

<meta content="매일매일 새로운 재미, 네이버 웹툰." property="og:description"/>

In [31]:
soup.find_all("meta")

[<meta charset="utf-8"/>,
 <meta content="ie=edge" http-equiv="x-ua-compatible"/>,
 <meta content="article" property="og:type"/>,
 <meta content="네이버 웹툰" property="og:article:author"/>,
 <meta content="https://comic.naver.com" property="og:article:author:url"/>,
 <meta content="네이버 웹툰" property="og:title"/>,
 <meta content="https://ssl.pstatic.net/static/comic/images/og_tag_v2.png" property="og:image"/>,
 <meta content="매일매일 새로운 재미, 네이버 웹툰." property="og:description"/>]

In [32]:
import requests
from bs4 import BeautifulSoup
url = "https://comic.naver.com/webtoon"
response = requests.get(url)
response.raise_for_status()
# response.text를 통해 가져온 HTML 문서를 lxml 파서를 통해서 BeautifulSoup 객체로 만듦
# soup은 해당 url의 모든 HTML 정보를 가지고 있게 된다
soup = BeautifulSoup(response.text, 'html.parser')
soup


<!DOCTYPE html>

<html lang="ko">
<head>
<title>네이버 웹툰</title>
<link href="https://ssl.pstatic.net/static/m/comic/im/favicon/1804/webtoon_favicon_32x32.ico" rel="shortcut icon" type="image/x-icon"/>
<meta charset="utf-8"/>
<meta content="ie=edge" http-equiv="x-ua-compatible"/>
<meta content="article" property="og:type"/>
<meta content="네이버 웹툰" property="og:article:author"/>
<meta content="https://comic.naver.com" property="og:article:author:url"/>
<meta content="네이버 웹툰" property="og:title"/>
<meta content="https://ssl.pstatic.net/static/comic/images/og_tag_v2.png" property="og:image"/>
<meta content="매일매일 새로운 재미, 네이버 웹툰." property="og:description"/>
<script>
		if (/MSIE \d|Trident.*rv:/.test(navigator.userAgent)) {
			window.location = 'microsoft-edge:' + window.location;
			setTimeout(function () {
				window.location = 'https://go.microsoft.com/fwlink/?linkid=2135547';
			}, 1);
		}
	</script>
<script async="" src="https://ssl.pstatic.net/tveta/libs/glad/prod/gfp-core.js"></script>
