### API
- application programing interface
- api를 사용해서 데이터를 수집하는것은 서비스에 데이터를 제공하는 공식적인 방법으로 데이터 수집
- naver api : papago api : 번역서비스

In [18]:
import pandas as pd
import requests, json

In [19]:
# 1. APP 등록 > app_key 수집 > app_key(request_token)
# https://developers.naver.com

In [20]:
CLIENT_ID, CLIENT_SECRET = "", ""

In [21]:
# 2. Naver API Document 확인 > URL 수집
# Naver Document의 파파고를 확인해보니 레퍼런스에 내용이 있음

In [22]:
url = 'https://openapi.naver.com/v1/papago/n2mt'
txt = "파이썬은 재미있습니다."
params = {
    'source':'ko',
    'target':'en',
    'text':txt
}
headers = {
    "Content-Type": "application/json",
    "X-Naver-Client-Id": CLIENT_ID,
    "X-Naver-Client-Secret" : CLIENT_SECRET
}

In [23]:
# 3. request(url, app_key) > response(json포멧 데이터로 받음) json(str)

In [24]:
# 인터넷 트래픽에서는 영문, 숫자, 특수문자만 사용 가능 >> 따라서
# json.dumps() : 한글과 같은 문자를 (영문, 숫자, 특수문자로) 인코딩 해주는 역할 >> 한글이 포함될때 반드시 변환해줘야함

In [25]:
response = requests.post(url, json.dumps(params), headers = headers)
response

<Response [200]>

In [26]:
response.text

'{"message":{"result":{"srcLangType":"ko","tarLangType":"en","translatedText":"Python is fun.","engineType":"N2MT","pivot":null,"dict":null,"tarDict":null},"@type":"response","@service":"naverservice.nmt.proxy","@version":"1.0.0"}}'

In [27]:
# 4. json(str) > list, dict > DataFrame(데이터가 여러개가 아니니 이번에는 str로 받아오기)

In [28]:
txt_en = response.json()['message']['result']['translatedText']
txt_en

'Python is fun.'

In [29]:
# 5. 함수로 작성해보기

In [37]:
def translate(txt):
    CLIENT_ID, CLIENT_SECRET = "", ""
    url = 'https://openapi.naver.com/v1/papago/n2mt'
    params = {'source':'ko','target':'en','text':txt}
    headers = {
    "Content-Type": "application/json",
    "X-Naver-Client-Id": CLIENT_ID,
    "X-Naver-Client-Secret" : CLIENT_SECRET    
}
    response = requests.post(url, json.dumps(params), headers = headers)
    txt_en = response.json()['message']['result']['translatedText']
    
    return txt_en

In [38]:
txt = "웹크롤링은 매우 재밌습니다."
txt_en = translate(txt)
txt_en

'Web crawling is very fun.'

In [39]:
# 6. 한글 excel 파일을 > 영문 excel 파일로 변경

In [40]:
%ls

 C 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: 7C6C-FC35

 C:\Users\User\Desktop\웹 크롤링\Code 디렉터리

2022-08-03  오후 04:47    <DIR>          .
2022-08-03  오후 04:47    <DIR>          ..
2022-08-03  오후 03:41    <DIR>          .ipynb_checkpoints
2022-08-03  오후 03:40            42,080 01_requests_json.ipynb
2022-08-03  오후 04:44             6,121 02_requests_api.ipynb
2022-08-03  오후 04:47            10,060 covid.xlsx
               3개 파일              58,261 바이트
               3개 디렉터리  117,714,239,488 바이트 남음


In [41]:
#엑셀파일 불러오기
covid = pd.read_excel("covid.xlsx")
covid.tail(2)

Unnamed: 0,category,link,title,content
4,104,https://news.naver.com/main/read.nhn?mode=LSD&...,"""코로나 확진자 '0명'인 날은 절대 오지 않는다"" 美전문가","""주기적 발병…미국서 항상 어느 정도의 확산 있을 것""""팬데믹 초기와는 다를 것…백..."
5,104,https://news.naver.com/main/read.nhn?mode=LSD&...,올림픽 다가오는데 도쿄 코로나 확산 빨라져...일주일새 25％↑,올림픽 개막이 다가오는 가운데 개최지 일본 도쿄에서 코로나19 확산 속도가 빨라...


In [42]:
covid = covid[["category", "title"]]
covid

Unnamed: 0,category,title
0,101,"SK바이오사이언스, 코로나19 백신 임상 3상 시험계획 제출"
1,102,고양시 노래연습장 코로나19 누적확진 41명
2,103,"코로나19 신규 감염, 28일 오후 9시까지 542명"
3,103,프로야구 수도권 구단서 코로나19 확진자 발생
4,104,"""코로나 확진자 '0명'인 날은 절대 오지 않는다"" 美전문가"
5,104,올림픽 다가오는데 도쿄 코로나 확산 빨라져...일주일새 25％↑


In [43]:
covid_en = covid['title'].apply(translate)
covid_en

0    SK Bioscience Submits Phase III Clinical Trial...
1    41 cumulative COVID-19 confirmed patients at G...
2    New COVID-19 infections, 542 people by 9 p.m. ...
3    Covid-19 confirmed cases in professional baseb...
4    "The day when there are zero confirmed cases o...
5    As the Olympics are approaching, the spread of...
Name: title, dtype: object

In [44]:
covid["title_en"] = covid_en
covid

Unnamed: 0,category,title,title_en
0,101,"SK바이오사이언스, 코로나19 백신 임상 3상 시험계획 제출",SK Bioscience Submits Phase III Clinical Trial...
1,102,고양시 노래연습장 코로나19 누적확진 41명,41 cumulative COVID-19 confirmed patients at G...
2,103,"코로나19 신규 감염, 28일 오후 9시까지 542명","New COVID-19 infections, 542 people by 9 p.m. ..."
3,103,프로야구 수도권 구단서 코로나19 확진자 발생,Covid-19 confirmed cases in professional baseb...
4,104,"""코로나 확진자 '0명'인 날은 절대 오지 않는다"" 美전문가","""The day when there are zero confirmed cases o..."
5,104,올림픽 다가오는데 도쿄 코로나 확산 빨라져...일주일새 25％↑,"As the Olympics are approaching, the spread of..."


In [45]:
#파일 저장
# utf-8-sig : excel에서 사용하는 인코딩 방식과 호환되는 utf-8 인코딩 방식
covid.to_excel("covid_en.xlsx", index = False, encoding="utf-8-sig")

In [46]:
%ls # 앞에 % 붙이는거는 jupyter notebook에 있는 special command 기술입니다

 C 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: 7C6C-FC35

 C:\Users\User\Desktop\웹 크롤링\Code 디렉터리

2022-08-03  오후 04:52    <DIR>          .
2022-08-03  오후 04:52    <DIR>          ..
2022-08-03  오후 03:41    <DIR>          .ipynb_checkpoints
2022-08-03  오후 03:40            42,080 01_requests_json.ipynb
2022-08-03  오후 04:50            13,990 02_requests_api.ipynb
2022-08-03  오후 04:47            10,060 covid.xlsx
2022-08-03  오후 04:52             6,132 covid_en.xlsx
               4개 파일              72,262 바이트
               3개 디렉터리  117,716,316,160 바이트 남음


### 실습 과제
### https://finance.daum.net/exchanges 사이트에서 데이터 수집하기
### headers : referer, user-agent 설정