<a href="https://colab.research.google.com/github/Zamoca42/TIL/blob/main/Python/Static_Page_Crawling.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 정적 크롤링

## Requests 라이브러리

- https://requests.readthedocs.io/en/latest/

## Requests 주요함수

- get()
- post()
- put()
- delete()

- text
- json()

In [None]:
import requests as req

In [None]:
res = req.get("https://www.naver.com/")
res

<Response [200]>

In [None]:
print(res.text)

```
GET / HTTP/1.1  
Host: www.naver.com  
```

## GET 접속해보기

In [None]:
res = req.get("https://api.ipify.org/")
print(res.status_code)
print(res.text)

In [None]:
res.request.method

'GET'

In [None]:
res.request.headers

{'User-Agent': 'python-requests/2.25.1', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

In [None]:
res = req.get("https://api.ipify.org/", headers={"fast": "campus"})
res.request.headers

{'User-Agent': 'python-requests/2.25.1', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive', 'fast': 'campus'}

In [None]:
res.elapsed

datetime.timedelta(seconds=3, microseconds=171207)

In [None]:
res.raw

<urllib3.response.HTTPResponse at 0x7f8a0b3285b0>

## 만들어볼 프로젝트 : 환율 계산기

### 프로젝트 진행하며 배울 내용

- requests 활용한 기초적인 파싱
- find(), split()등을 활용한 기초적인 문자열 파싱
- 정규식(regex)을 활용한 패턴 검색
- 쿼리스트링에 대한 이해
- beautifulsoup을 활용한 편리한 html 파싱
- css selector를 활용한 손쉬운 파싱

### 문자열 조작 파싱

- HTML 문서를 일반 문자열로 취급하여 원하는 문자열의 위치 등을 이용해 원하는 데이터를 추출하는 방법

- `find()`
  - 문자열의 위치와 길이를 기반으로 작업

- `split()`
  - 문자열을 배열로 쪼개내어 작업

In [None]:
s = 'apple'

print(s.find('e'))

4


In [None]:
arr = s.split('p')
arr

['a', '', 'le']

In [None]:
# 달러환율 가져오기

import requests as req

res = req.get('https://finance.naver.com/marketindex/?tabSel=exchange#tab_section')

html = res.text

pos = html.find('미국 USD')
pos

1076

In [None]:
# 예외

pos = html.find('Zamoca')
pos

-1

In [None]:
s = html.split('<span class="value">')[1].split('</span>')[0]
s

'1,247.00'

### 정규식(Regular Expression)

- ( \) : 캡쳐
- [ \] : 이중 아무거나
- \. : 아무거나
- \* : 0개 이상
- \+ : 1개이상
- \? : 없을 수도 (가장 좁은 범위)
- \\ : 위 특수 기호 무효화

In [None]:
import re

s = 'hi'
print(re.match(r'hi', s))

None


In [None]:
print(re.match(r'hey', s))

None


In [None]:
print(re.match(r'.', s))

<re.Match object; span=(0, 1), match='h'>


In [None]:
print(re.match(r'hi1*', s))

<re.Match object; span=(0, 2), match='hi'>


In [None]:
print(re.match(r'hi1+', 'hi'))

None


In [None]:
s = 'color'
print(re.match(r'colou?r',s))

<re.Match object; span=(0, 5), match='color'>


In [None]:
# A B C F

s = '이 영화는 C등급 입니다'

print(re.match(r'이 영화는 [ABCF]등급 입니다',s))

<re.Match object; span=(0, 13), match='이 영화는 C등급 입니다'>


In [None]:
# 캡쳐

s = '이 영화는 C등급 입니다'

print(re.findall(r'이 (..)는 (.)등급 입니다',s))

[('영화', 'C')]


### 정규식 함수

- match()
- search()
- findall()

In [None]:
# 정규표현식으로 환율 가져오기

import requests as req
import re

url = 'https://finance.naver.com/marketindex/?tabSel=exchange#tab_section'
res = req.get(url)
body = res.text

# 정규식 미리 준비
r = re.compile(r"미국 USD.*?value\">(.*?)</", re.DOTALL)

# 달러 환율 찾기

captures = r.findall(body)
print(captures)

['1,250.00']


In [None]:
# 정규식 미리 준비
r = re.compile(r"h_lst.*?blind\">(.*?)</span>.*?value\">(.*?)</", re.DOTALL)

# 여러나라 환율 찾기

captures = r.findall(body)
print(captures)

[('미국 USD', '1,250.00'), ('일본 JPY(100엔)', '944.93'), ('유럽연합 EUR', '1,339.75'), ('중국 CNY', '184.01'), ('달러/일본 엔', '131.8800'), ('유로/달러', '1.0728'), ('영국 파운드/달러', '1.2188'), ('달러인덱스', '102.7400'), ('WTI', '74.63'), ('휘발유', '1562.26'), ('국제 금', '1877.8'), ('국내 금', '75212.8')]


In [None]:
print("-"*6)
print("환율 계산기")
print("-"*6)
print("")

for c in captures:
  print(c[0] + " : " + c[1])

------
환율 계산기
------

미국 USD : 1,250.00
일본 JPY(100엔) : 944.93
유럽연합 EUR : 1,339.75
중국 CNY : 184.01
달러/일본 엔 : 131.8800
유로/달러 : 1.0728
영국 파운드/달러 : 1.2188
달러인덱스 : 102.7400
WTI : 74.63
휘발유 : 1562.26
국제 금 : 1877.8
국내 금 : 75212.8
