### 크롤링 정책
- robots.txt : 크롤링 정책을 설명한 페이지
- 과도한 크롤링으로 서비스에 영향을 주었을때 법적 문제가 있을수 있다.
- api 사용 > robots.txt 정책에 맞게 > 서비스에 피해가 가지 않는선에서 수집
-서비스 피해
    - 지적재산권
    - 서비스 과부하
    - 데이터 사용표준

### API 서비스를 이용한 데이터 수집
- naver api (application programming interface)
- application 등록 : app_key (request token)
- document 확인 : url
- request(url,app_key, data) > response(json(str))
- json(str) > list, dict 로 parsing

In [2]:
import requests
import json
import pandas as pd

#### kakao 번역 api

In [None]:
# 1. application 등록 : app_key (request token)

In [4]:
APP_KEY = "" # API key

In [None]:
# 2. document 확인 : url
# post : url, params, headers 

In [5]:
url = "https://dapi.kakao.com/v2/translation/translate"
params = {"query" : "파이썬 웹 크롤링 수업입니다." ,
         "src_lang": "kr", "target_lang": "en"} #원하는 데이터 전송 (문자열을 api 써서 번역)
headers = {"Authorization": f"KakaoAK {APP_KEY}"}

In [None]:
# 3. request(url,app_key, data) > response(json(str))

In [7]:
response = requests.post(url, params, headers = headers)

<Response [200]>

In [8]:
response.text

'{"translated_text":[["Python Web crawling class."]]}'

In [None]:
# 4. json(str) > list, dict 로 parsing

In [10]:
en_text = response.json()["translated_text"][0][0] #json 으로 파싱
en_text

'Python Web crawling class.'

In [None]:
# 5. function

In [13]:
def translate(text, src="kr", target ="en"):
    APP_KEY = "" # API key
    
    url = "https://dapi.kakao.com/v2/translation/translate"
    params = {"query" : text ,
         "src_lang": src, "target_lang": target} #원하는 데이터 전송 (문자열을 api 써서 번역)
    headers = {"Authorization": f"KakaoAK {APP_KEY}"}
    
    response = requests.post(url, params, headers = headers)
    return response.json()["translated_text"][0][0] #json 으로 파싱

In [14]:
text = "파이썬 프로그래밍은 재미있습니다."
en_text = translate(text)
en_text

'Python programming is fun.'

In [15]:
df = pd.DataFrame(
    [{'id':1, "title": "파이썬은 재미있습니다."},
     {'id':2, "title": "웹크롤링은 재미있습니다."}]
)
df

Unnamed: 0,id,title
0,1,파이썬은 재미있습니다.
1,2,웹크롤링은 재미있습니다.


In [16]:
df["en_title"] = df["title"].apply(translate)
df

Unnamed: 0,id,title,en_title
0,1,파이썬은 재미있습니다.,Python is fun.
1,2,웹크롤링은 재미있습니다.,Web crawling is fun.
