<a href="https://colab.research.google.com/github/Zamoca42/TIL/blob/main/Python/Static_Page_Crawling.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 정적 크롤링

## Requests 라이브러리

- https://requests.readthedocs.io/en/latest/

### Requests 주요함수

- get()
- post()
- put()
- delete()

- text
- json()

In [None]:
import requests as req

In [None]:
res = req.get("https://www.naver.com/")
res

<Response [200]>

In [None]:
print(res.text)

```
GET / HTTP/1.1  
Host: www.naver.com  
```

## GET 접속해보기

In [None]:
res = req.get("https://api.ipify.org/")
print(res.status_code)
print(res.text)

In [None]:
res.request.method

'GET'

In [None]:
res.request.headers

{'User-Agent': 'python-requests/2.25.1', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

In [None]:
res = req.get("https://api.ipify.org/", headers={"fast": "campus"})
res.request.headers

{'User-Agent': 'python-requests/2.25.1', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive', 'fast': 'campus'}

In [None]:
res.elapsed

datetime.timedelta(seconds=3, microseconds=171207)

In [None]:
res.raw

<urllib3.response.HTTPResponse at 0x7f8a0b3285b0>

## 만들어볼 프로젝트 : 환율 계산기

### 프로젝트 진행하며 배울 내용

- requests 활용한 기초적인 파싱
- find(), split()등을 활용한 기초적인 문자열 파싱
- 정규식(regex)을 활용한 패턴 검색
- 쿼리스트링에 대한 이해
- beautifulsoup을 활용한 편리한 html 파싱
- css selector를 활용한 손쉬운 파싱

### 문자열 조작 파싱

- HTML 문서를 일반 문자열로 취급하여 원하는 문자열의 위치 등을 이용해 원하는 데이터를 추출하는 방법

- `find()`
  - 문자열의 위치와 길이를 기반으로 작업

- `split()`
  - 문자열을 배열로 쪼개내어 작업

In [None]:
s = 'apple'

print(s.find('e'))

4


In [None]:
arr = s.split('p')
arr

['a', '', 'le']

In [None]:
# 달러환율 가져오기

import requests as req

res = req.get('https://finance.naver.com/marketindex/?tabSel=exchange#tab_section')

html = res.text

pos = html.find('미국 USD')
pos

1076

In [None]:
# 예외

pos = html.find('Zamoca')
pos

-1

In [None]:
s = html.split('<span class="value">')[1].split('</span>')[0]
s

'1,247.00'

### 정규식(Regular Expression)

- ( \) : 캡쳐
- [ \] : 이중 아무거나
- \. : 아무거나
- \* : 0개 이상
- \+ : 1개이상
- \? : 없을 수도 (가장 좁은 범위)
- \\ : 위 특수 기호 무효화

In [None]:
import re

s = 'hi'
print(re.match(r'hi', s))

None


In [None]:
print(re.match(r'hey', s))

None


In [None]:
print(re.match(r'.', s))

<re.Match object; span=(0, 1), match='h'>


In [None]:
print(re.match(r'hi1*', s))

<re.Match object; span=(0, 2), match='hi'>


In [None]:
print(re.match(r'hi1+', 'hi'))

None


In [None]:
s = 'color'
print(re.match(r'colou?r',s))

<re.Match object; span=(0, 5), match='color'>


In [None]:
# A B C F

s = '이 영화는 C등급 입니다'

print(re.match(r'이 영화는 [ABCF]등급 입니다',s))

<re.Match object; span=(0, 13), match='이 영화는 C등급 입니다'>


In [None]:
# 캡쳐

s = '이 영화는 C등급 입니다'

print(re.findall(r'이 (..)는 (.)등급 입니다',s))

[('영화', 'C')]


### 정규식 함수

- match()
- search()
- findall()

In [None]:
# 정규표현식으로 환율 가져오기

import requests as req
import re

url = 'https://finance.naver.com/marketindex/?tabSel=exchange#tab_section'
res = req.get(url)
body = res.text

# 정규식 미리 준비
r = re.compile(r"미국 USD.*?value\">(.*?)</", re.DOTALL)

# 달러 환율 찾기

captures = r.findall(body)
print(captures)

['1,250.00']


In [None]:
# 정규식 미리 준비
r = re.compile(r"h_lst.*?blind\">(.*?)</span>.*?value\">(.*?)</", re.DOTALL)

# 여러나라 환율 찾기

captures = r.findall(body)
print(captures)

[('미국 USD', '1,250.00'), ('일본 JPY(100엔)', '944.93'), ('유럽연합 EUR', '1,339.75'), ('중국 CNY', '184.01'), ('달러/일본 엔', '131.8800'), ('유로/달러', '1.0728'), ('영국 파운드/달러', '1.2188'), ('달러인덱스', '102.7400'), ('WTI', '74.63'), ('휘발유', '1562.26'), ('국제 금', '1877.8'), ('국내 금', '75212.8')]


In [None]:
print("-"*6)
print("환율 계산기")
print("-"*6)
print("")

for c in captures:
  print(c[0] + " : " + c[1])

------
환율 계산기
------

미국 USD : 1,250.00
일본 JPY(100엔) : 944.93
유럽연합 EUR : 1,339.75
중국 CNY : 184.01
달러/일본 엔 : 131.8800
유로/달러 : 1.0728
영국 파운드/달러 : 1.2188
달러인덱스 : 102.7400
WTI : 74.63
휘발유 : 1562.26
국제 금 : 1877.8
국내 금 : 75212.8


## 쿼리스트링

### 쿼리스트링(query string)?

- 웹 요청시에 보내는 추가 인자 값

### 예시1 - 네이버 환율

- marketindexCd 값에 통화 코드를 넣는다

  <img width="716" alt="스크린샷 2023-01-11 오후 11 39 15" src="https://user-images.githubusercontent.com/96982072/211835177-91438aa0-efb4-4819-b9b0-f89dfd2e1c85.png">




### 예시2 - 스카이스캐너

- 인원수, 날짜, 목적지 등 다양한 정보를 넣는다

  <img width="523" alt="스크린샷 2023-01-11 오후 11 39 30" src="https://user-images.githubusercontent.com/96982072/211835155-b2851dba-5f70-4c79-9a71-c40270f55e1c.png">

### 쿼리스트링 형식


- ? 로 url 과 구분된다
  ```
  url?querystring
  ```

- 값이름=값 
  ```
  adults=2
  children=0
  ```

- & 로 값들이 구분된다 
  ```
  adults=2&children=0
  ```

- 배열은...

  ```
  arr[]=1 
  arr[]=2 
  arr[]=3
  -> arr[1,2,3]
  ```

### 예시 3 - 네이버 검색

- query에 검색어가 들어간다

  <img width="548" alt="스크린샷 2023-01-11 오후 11 44 24" src="https://user-images.githubusercontent.com/96982072/211835690-1acfc990-52f8-4ba5-874f-47e3b8b7c900.png">


- 주소창에서는 감자로 보이지만
주소를 실제로 복사해오면
```
https://search.naver.com/ search.naver?where=nexearch&sm=top_hty&fbm=1&i e=utf8&query=%EA%B0%90%EC%9E%90
```
```
query=%EA%B0%90%EC%9E%90
query=감자
```

 - 감자 = %EA%B0%90%EC%9E%90

- javascript 의 `urlencode()`, `urldecode()`

  <img width="368" alt="스크린샷 2023-01-11 오후 11 47 07" src="https://user-images.githubusercontent.com/96982072/211836222-0a25cf19-b283-4925-b57e-f135819c54a7.png">

## beautifulsoup

### beautifulsoup?
  - requests 
    - http 통신을 편하게
  - beautifulsoup
    - html 통신을 편하게
    

### beautifulsoup 주요 기능

- html 문자열 파싱
- html 노드 인식 및 편리한 기능들
- parent, children, contents, descendants, sibling 
- string, strings, stripped_strings, get_text()
- prettify
- html attribute



In [8]:
from bs4 import BeautifulSoup as BS
import requests as req

url = 'https://naver.com'
res = req.get(url)
# print(res.text)
soup = BS(res.text, "html.parser")

print(soup.title)

<title>NAVER</title>


In [9]:
print(soup.title.string)

NAVER


In [17]:
# beautifulsoup로 환율 가져오기

# url = 'https://finance.naver.com/marketindex/?tabSel=exchange#tab_section'
url = 'https://finance.naver.com/marketindex/exchangeList.naver'

res = req.get(url)
# print(res.text)
soup = BS(res.text, "html.parser")

tds = soup.find_all('td')
for td in tds:
    if len(td.find_all("a")) == 0:
      continue
    print(td.get_text(strip=True))

미국 USD
유럽연합 EUR
일본 JPY (100엔)
중국 CNY
홍콩 HKD
대만 TWD
영국 GBP
오만 OMR
캐나다 CAD
스위스 CHF
스웨덴 SEK
호주 AUD
뉴질랜드 NZD
체코 CZK
칠레 CLP
튀르키예 TRY
몽골 MNT
이스라엘 ILS
덴마크 DKK
노르웨이 NOK
사우디아라비아 SAR
쿠웨이트 KWD
바레인 BHD
아랍에미리트 AED
요르단 JOD
이집트 EGP
태국 THB
싱가포르 SGD
말레이시아 MYR
인도네시아 IDR 100
카타르 QAR
카자흐스탄 KZT
브루나이 BND
인도 INR
파키스탄 PKR
방글라데시 BDT
필리핀 PHP
멕시코 MXN
브라질 BRL
베트남 VND 100
남아프리카 공화국 ZAR
러시아 RUB
헝가리 HUF
폴란드 PLN
스리랑카 LKR
알제리 DZD
케냐 KES
콜롬비아 COP
탄자니아 TZS
네팔 NPR
루마니아 RON
리비아 LYD
마카오 MOP
미얀마 MMK
에티오피아 ETB
우즈베키스탄 UZS
캄보디아 KHR
피지 FJD


In [19]:
for td in tds:
    if len(td.find_all("a")) == 0:
      continue
    #print(td.string)
    for s in td.stripped_strings:
      print(s)

미국 USD
유럽연합 EUR
일본 JPY (100엔)
중국 CNY
홍콩 HKD
대만 TWD
영국 GBP
오만 OMR
캐나다 CAD
스위스 CHF
스웨덴 SEK
호주 AUD
뉴질랜드 NZD
체코 CZK
칠레 CLP
튀르키예 TRY
몽골 MNT
이스라엘 ILS
덴마크 DKK
노르웨이 NOK
사우디아라비아 SAR
쿠웨이트 KWD
바레인 BHD
아랍에미리트 AED
요르단 JOD
이집트 EGP
태국 THB
싱가포르 SGD
말레이시아 MYR
인도네시아 IDR 100
카타르 QAR
카자흐스탄 KZT
브루나이 BND
인도 INR
파키스탄 PKR
방글라데시 BDT
필리핀 PHP
멕시코 MXN
브라질 BRL
베트남 VND 100
남아프리카 공화국 ZAR
러시아 RUB
헝가리 HUF
폴란드 PLN
스리랑카 LKR
알제리 DZD
케냐 KES
콜롬비아 COP
탄자니아 TZS
네팔 NPR
루마니아 RON
리비아 LYD
마카오 MOP
미얀마 MMK
에티오피아 ETB
우즈베키스탄 UZS
캄보디아 KHR
피지 FJD


In [20]:
names = []
for td in tds:
    if len(td.find_all("a")) == 0:
      continue
    names.append(td.get_text(strip=True))

prices = []
for td in tds:
  if "class" in td.attrs:
    if "sale" in td.attrs["class"]:
      prices.append(td.get_text(strip=True))

print(names)
print(prices)

['미국 USD', '유럽연합 EUR', '일본 JPY (100엔)', '중국 CNY', '홍콩 HKD', '대만 TWD', '영국 GBP', '오만 OMR', '캐나다 CAD', '스위스 CHF', '스웨덴 SEK', '호주 AUD', '뉴질랜드 NZD', '체코 CZK', '칠레 CLP', '튀르키예 TRY', '몽골 MNT', '이스라엘 ILS', '덴마크 DKK', '노르웨이 NOK', '사우디아라비아 SAR', '쿠웨이트 KWD', '바레인 BHD', '아랍에미리트 AED', '요르단 JOD', '이집트 EGP', '태국 THB', '싱가포르 SGD', '말레이시아 MYR', '인도네시아 IDR 100', '카타르 QAR', '카자흐스탄 KZT', '브루나이 BND', '인도 INR', '파키스탄 PKR', '방글라데시 BDT', '필리핀 PHP', '멕시코 MXN', '브라질 BRL', '베트남 VND 100', '남아프리카 공화국 ZAR', '러시아 RUB', '헝가리 HUF', '폴란드 PLN', '스리랑카 LKR', '알제리 DZD', '케냐 KES', '콜롬비아 COP', '탄자니아 TZS', '네팔 NPR', '루마니아 RON', '리비아 LYD', '마카오 MOP', '미얀마 MMK', '에티오피아 ETB', '우즈베키스탄 UZS', '캄보디아 KHR', '피지 FJD']
['1,250.00', '1,343.63', '942.65', '184.31', '159.99', '41.04', '1,513.69', '3,250.98', '931.24', '1,345.61', '119.22', '862.00', '794.50', '55.91', '1.51', '66.58', '0.36', '362.50', '180.66', '125.23', '332.80', '4,085.50', '3,316.00', '340.32', '1,760.81', '40.00', '37.41', '938.40', '285.98', '8.09', '342.60', '2.70'

## CSS

### css?

- html이 구조를 잡은 곳에 스타일링 하는 것

- 스타일링에 스타일 이름을 붙여(class) 구조에 스타일 이름을 넣음

- 스타일 이름이 없는 구조에도 스타일링을 함(css selector)

- 구조는 스타일 이름으로 특정 지어질 수 있음

In [21]:
names = []
for td in soup.select('td.tit'):
  names.append(td.get_text(strip=True))

prices = []
for td in soup.select('td.sale'):
  prices.append(td.get_text(strip=True))

print(names)
print(prices)

['미국 USD', '유럽연합 EUR', '일본 JPY (100엔)', '중국 CNY', '홍콩 HKD', '대만 TWD', '영국 GBP', '오만 OMR', '캐나다 CAD', '스위스 CHF', '스웨덴 SEK', '호주 AUD', '뉴질랜드 NZD', '체코 CZK', '칠레 CLP', '튀르키예 TRY', '몽골 MNT', '이스라엘 ILS', '덴마크 DKK', '노르웨이 NOK', '사우디아라비아 SAR', '쿠웨이트 KWD', '바레인 BHD', '아랍에미리트 AED', '요르단 JOD', '이집트 EGP', '태국 THB', '싱가포르 SGD', '말레이시아 MYR', '인도네시아 IDR 100', '카타르 QAR', '카자흐스탄 KZT', '브루나이 BND', '인도 INR', '파키스탄 PKR', '방글라데시 BDT', '필리핀 PHP', '멕시코 MXN', '브라질 BRL', '베트남 VND 100', '남아프리카 공화국 ZAR', '러시아 RUB', '헝가리 HUF', '폴란드 PLN', '스리랑카 LKR', '알제리 DZD', '케냐 KES', '콜롬비아 COP', '탄자니아 TZS', '네팔 NPR', '루마니아 RON', '리비아 LYD', '마카오 MOP', '미얀마 MMK', '에티오피아 ETB', '우즈베키스탄 UZS', '캄보디아 KHR', '피지 FJD']
['1,250.00', '1,343.63', '942.65', '184.31', '159.99', '41.04', '1,513.69', '3,250.98', '931.24', '1,345.61', '119.22', '862.00', '794.50', '55.91', '1.51', '66.58', '0.36', '362.50', '180.66', '125.23', '332.80', '4,085.50', '3,316.00', '340.32', '1,760.81', '40.00', '37.41', '938.40', '285.98', '8.09', '342.60', '2.70'