# requests 모듈

### requests : 웹 서버 요청을 쉽게 할 수 있게 만든 모듈

> 파이썬 코어에 urllib 모듈이 있지만 이보다 쉽게 사용 할 수 있도록 배포된 모듈

In [1]:
# 모듈 import
# pip install requests
import requests

In [2]:
# 접속할 페이지의 주소
url = "https://finance.naver.com/sise/sise_index.nhn?code=KOSPI"

In [3]:
# IHQ
# https://finance.naver.com/item/frgn.nhn?code=003560

In [4]:
# 요청(GET 방식 요청)
response = requests.get(url)
response

<Response [200]>

In [5]:
# 요청(POST 방식 요청)
response = requests.post(url)
response

<Response [200]>

In [6]:
# 응답 코드 가져오기
response = requests.get(url)
print(f'get : {response.status_code}')
response = requests.post(url)
print(f'post : {response.status_code}')

get : 200
post : 200


In [7]:
## 문자열 포멧
#input1 = input('이름 입력 : ')
#input2 = input('나이 입력 : ')
#
#print('이름은 ' + input1 + '이고 나이는 ' + input2 + '살 입니다')
#print(f'이름은 {input1}이고 나이는 {input2}살 입니다')

In [8]:
response = requests.get(url)
response.headers

{'Date': 'Tue, 19 Mar 2019 01:13:53 GMT', 'Cache-Control': 'no-cache', 'Expires': 'Thu, 01 Jan 1970 00:00:00 GMT', 'Set-Cookie': 'JSESSIONID=29E853FE161C93F6E6AEBA508F3D466C; Path=/; HttpOnly', 'Content-Language': 'ko', 'Vary': 'Accept-Encoding,User-Agent', 'Content-Encoding': 'gzip', 'Referrer-Policy': 'unsafe-url', 'Transfer-Encoding': 'chunked', 'Content-Type': 'text/html;charset=EUC-KR', 'X-XSS-Protection': '1; mode=block', 'Strict-Transport-Security': 'max-age=31536000; includeSubDomains', 'Server': 'nfront'}

In [9]:
response.headers['Date']

'Tue, 19 Mar 2019 01:13:53 GMT'

# BS4 모듈(BeautifulSoup 4)

xml이나 html 문서를 분석해서 원하는 데이터를 쉽게 가져올 수 있도록 제작된 모듈

In [10]:
# !pip install beautifulsoup4
# !pip install lxml
import bs4

In [11]:
# 객체 생성 방법
html = ''
soup = bs4.BeautifulSoup(html, 'lxml')
soup



In [12]:
html = '<p>test</p>'
soup = bs4.BeautifulSoup(html, 'lxml')
soup

<html><body><p>test</p></body></html>

In [13]:
# 걍 soup.prettify() 쓰면 안되고 print로 묶어야 되더라..
# 코드 정렬 안된 더러운 사이트에서 사용하기 좋을듯
print(soup.prettify())

<html>
 <body>
  <p>
   test
  </p>
 </body>
</html>


In [14]:
# '''작은 따옴표 3개 쓰는 것은 문자열에서 작은 따옴표 큰 따옴표 두개 같이 표현하려고 씀
# 문자가 개행됬을 때도 오류를 방지함
html = '''
<p>
    test
</p>
'''
soup = bs4.BeautifulSoup(html, 'lxml')
print(soup)
print('@@@@@@@@@@@@@@@@@@@@@@@@@')
print(soup.p)
print('@@@@@@@@@@@@@@@@@@@@@@@@@')
print(soup.p.string)
print('@@@@@@@@@@@@@@@@@@@@@@@@@')
print(soup.p.text)

<html><body><p>
    test
</p>
</body></html>
@@@@@@@@@@@@@@@@@@@@@@@@@
<p>
    test
</p>
@@@@@@@@@@@@@@@@@@@@@@@@@

    test

@@@@@@@@@@@@@@@@@@@@@@@@@

    test



### select

html에서 사용하는 selector 문법을 이용해 태그를 지칭하는 함수

* 태그이름 ; "태그이름"
* class 속성 : ".class속성"
* id 속성 : "#id속성"

In [31]:
html = '''
<p class='a1'>p 태그 1</p>
<p class='a1'id='id1'>p 태그 2</p>
<p class='a2'id='id2'>p 태그 3</p>
<p class='a3'id='id3'>p 태그 4</p>
'''
soup = bs4.BeautifulSoup(html, 'lxml')

In [26]:
# p 태그들을 가져온다
p_list1 = soup.find_all('p')
p_list2 = soup.select('p')
p_list3 = soup.select('#i1')
p_list4 = soup.select('#i1')

print(p_list1)
print(p_list2)
print(p_list3)
print(p_list4)

[<p class="a1">p 태그 1</p>, <p class="a1" id="i1">p 태그 2</p>, <p class="a2" id="i2">p 태그 3</p>, <p class="a3" id="i3">p 태그 4</p>]
[]
[<p class="a1" id="i1">p 태그 2</p>]


In [35]:
# class 속성
a1_class1 = soup.find_all(class_='a1')
a2_class1 = soup.find(class_='a2')
print(a1_class1)
print(a2_class1)

a1_class2 = soup.select('.a1')
a2_class2 = soup.select('.a2')
print(a1_class2)
print(a2_class2)

[<p class="a1">p 태그 1</p>, <p class="a1" id="id1">p 태그 2</p>]
<p class="a2" id="id2" name="name1">p 태그 3</p>
[<p class="a1">p 태그 1</p>, <p class="a1" id="id1">p 태그 2</p>]
[<p class="a2" id="id2" name="name1">p 태그 3</p>]


In [34]:
# id 속성
test1_id1 = soup.find(id='id1')
test1_id2 = soup.select('#id2')

print(test1_id1)
print(test1_id2)

<p class="a1" id="id1">p 태그 2</p>
[<p class="a2" id="id2" name="name1">p 태그 3</p>]


In [42]:
html = '''
<div>
    <div id='test1'>
        <p>test1</p>
    </div>
    <div id='test2'>
        <p>test2</p>
    </div>
</div>
'''
soup = bs4.BeautifulSoup(html, 'lxml')

In [45]:
# id가 test1, test2인 태그를 가져온다
test1_tag = soup.find(id='test1')
test2_tag = soup.find(id='test2')

# 각 태그 내부의 p 태그를 가져온다
p_tag1 = test1_tag.find('p')
p_tag2 = test2_tag.find('p')

print(p_tag1)
print(p_tag2)

<p>test1</p>
<p>test2</p>


In [46]:
p_tag1 = soup.select('#test1 > p')[0].text
p_tag2 = soup.select('#test2 > p')[0].text

print(p_tag1)
print(p_tag2)

test1
test2
