## 크롤링 정책

- robots.txt : 크롤링 정책을 설명한 페이지
- 과도한 크롤링으로 서비스에 영향을 주었을 때 법적 문제가 있을 수 있다.

### API 서비스를 이용한 데이터 수집

- naver api(application programing interface)
1. application 등록 : app key 받기
2. document 확인 후 url을 찾기
3. request(url, app_key, data) -> response(json(str))
4. json(str) -> list, dict

In [2]:
import requests
import pandas as pd
import json

<b> papago 번역 api사용해볼예정</b>  
-> 네이버 api에 문제가 생겨서 kakao로 변경

### 1. application 등록 : app key 받기

In [11]:
# kakao rest api
APP_KEY = "bb1f4215b30f0ec62a3961b78ffb62f9"

### 2. document 확인 후 url을 찾기

In [12]:
url = "https://dapi.kakao.com/v2/translation/translate"
params = {
    "query" : "파이썬 웹크롤링 수업입니다.",
    "src_lang" : "kr",
    "target_lang" : "en",
}
headers = {
    "Authorization" : f"KakaoAK {APP_KEY}"
}

### 3. request(url, app_key, data) -> response(json(str))

In [13]:
response = requests.get(url = url, params= params, headers= headers)
response.text

'{"translated_text":[["Python Webcrolling."]]}'

### 4. json(str) -> list, dict

In [14]:
en_text = response.json()["translated_text"][0][0]
en_text

'Python Webcrolling.'

### 5. 함수 만들기

In [15]:
def translate(text, src="kr", target="en"):
    APP_KEY = "bb1f4215b30f0ec62a3961b78ffb62f9"
    url = "https://dapi.kakao.com/v2/translation/translate"
    params = {
        "query" : text,
        "src_lang" : src,
        "target_lang" : target,
    }
    headers = {
        "Authorization" : f"KakaoAK {APP_KEY}"
    }
    response = requests.get(url = url, params= params, headers= headers)

    return response.json()["translated_text"][0][0]

In [16]:
text = "파이썬 프로그래밍은 재미있습니다."
en_text = translate(text)
en_text

'Python programming is fun.'

In [17]:
df = pd.DataFrame([
    {"id" : 1, "title" : "파이썬은 재미있습니다."},
    {"id" : 2, "title" : "웹 크롤링은 재미있습니다."},
])
df

Unnamed: 0,id,title
0,1,파이썬은 재미있습니다.
1,2,웹 크롤링은 재미있습니다.


In [18]:
df["en_title"] = df["title"].apply(translate)
df

Unnamed: 0,id,title,en_title
0,1,파이썬은 재미있습니다.,Python is fun.
1,2,웹 크롤링은 재미있습니다.,Web crawling is fun.
