### 크롤링 정책
- robots.txt : 크롤링 정책을 설명한 페이지
- 과도한 크롤링으로 서비스에 영향을 주었을때 법적 문제가 있을 수 있다.
- 사람인, 잡코리아 : 2008 > 2018년
- api 사용 > robots.txt > 서비스에 피해가 가지 않는 선에서 수집
- 서비스 피해
    - 지적재산권
    - 서비스 과부하
    - 데이터 사용표준

### API 서비스를 이용한 데이터 수집
- naver api(application programing interface)
#### [절차]
- application 등록 : app key
- document 확인 : url
- request(url, app_key, data) > response(json(str))
- json(str) > list, dict

In [9]:
import json
import requests
import pandas as pd

In [10]:
#### papago : 번역 api

In [34]:
# 1. application 등록 : app key

In [35]:
APP_KEY = "1740f890a7465f3bd420204545716b02"

In [36]:
# 2. document 확인 : url
# POST : url, params, headers

In [37]:
url = "https://dapi.kakao.com/v2/translation/translate"
params = {"query":"파이썬 웹크롤링 수업 입니다.", "src_lang":"kr", "target_lang":"en"}
headers = {"Authorization": f"KakaoAK {APP_KEY}"}

In [38]:
# 3. request(url, app_key, data) > response(json(str))

In [39]:
response = requests.post(url, params, headers=headers)
response

<Response [200]>

In [40]:
response.text

'{"translated_text":[["Python Webcrolling class."]]}'

In [41]:
# 4. json(str) > list, dict

In [42]:
en_txt = response.json()["translated_text"][0][0]
en_txt

'Python Webcrolling class.'

In [43]:
# 5. function

In [51]:
def translate(text, src="kr", target="en"):
    APP_KEY = "1740f890a7465f3bd420204545716b02"
    
    url = "https://dapi.kakao.com/v2/translation/translate"
    params = {"query":text, "src_lang":"kr", "target_lang":"en"}
    headers = {"Authorization": f"KakaoAK {APP_KEY}"}
    response = requests.post(url, params, headers=headers)
    return response.json()["translated_text"][0][0]

In [52]:
text = "파이썬 프로그래밍은 재미있습니다"
en_text = translate(text)
en_text

'Python programming is fun'

In [53]:
df = pd.DataFrame(
    [{"id":1, "title":"파이썬은 재미있습니다."},
    {"id":2, "title":"웹크롤링은 재미있습니다."}]
)
df

Unnamed: 0,id,title
0,1,파이썬은 재미있습니다.
1,2,웹크롤링은 재미있습니다.


In [54]:
df["en_title"] = df["title"].apply(translate)
df

Unnamed: 0,id,title,en_title
0,1,파이썬은 재미있습니다.,Python is fun.
1,2,웹크롤링은 재미있습니다.,Web crawling is fun.
