### API
- application programing interface
- api를 사용해서 데이터를 수집하는것은 서비스에 데이터를 제공하는 공식적인 방법으로 데이터 수집
- naver api : papago api : 번역 서비스

In [6]:
import pandas as pd
import requests, json

In [1]:
# 1. APP 등록 > app_key(request_token)
# https://developers.naver.com

In [26]:
CLIENT_ID, CLIENT_SECRET = "-", "-"

In [27]:
# 2. Naver API Document 확인 > URL(params, headers)

In [28]:
txt = "파이썬은 재미있습니다."
url = "https://openapi.naver.com/v1/papago/n2mt"
params = {"source": "ko", "target": "en", "text": txt}
headers = {
    "Content-Type": "application/json",
    "X-Naver-Client-Id": CLIENT_ID,
    "X-Naver-Client-Secret": CLIENT_SECRET,
}

In [29]:
# 3. request(url, app_key) > response(json) : JSON(str)

In [30]:
# json.dumps()
# 인터넷 트래픽에서는 영문, 숫자, 특수문자만 사용가능
# 한글과 같은 문자를 인코딩(영문,숫자,특수문자)

In [31]:
params, json.dumps(params)

({'source': 'ko', 'target': 'en', 'text': '파이썬은 재미있습니다.'},
 '{"source": "ko", "target": "en", "text": "\\ud30c\\uc774\\uc36c\\uc740 \\uc7ac\\ubbf8\\uc788\\uc2b5\\ub2c8\\ub2e4."}')

In [32]:
response = requests.post(url, json.dumps(params), headers=headers)
response

<Response [200]>

In [33]:
response.text

'{"message":{"result":{"srcLangType":"ko","tarLangType":"en","translatedText":"Python is fun.","engineType":"N2MT","pivot":null,"dict":null,"tarDict":null},"@type":"response","@service":"naverservice.nmt.proxy","@version":"1.0.0"}}'

In [34]:
# 4. JSON(str) > list, dict > str

In [35]:
txt_en = response.json()["message"]["result"]["translatedText"]
txt_en

'Python is fun.'

In [36]:
# 5. 함수로 작성

In [37]:
def translate(txt):
    CLIENT_ID, CLIENT_SECRET = "-", "-"
    url = "https://openapi.naver.com/v1/papago/n2mt"
    params = {"source": "ko", "target": "en", "text": txt}
    headers = {
        "Content-Type": "application/json",
        "X-Naver-Client-Id": CLIENT_ID,
        "X-Naver-Client-Secret": CLIENT_SECRET,
    }
    response = requests.post(url, json.dumps(params), headers=headers)
    return response.json()["message"]["result"]["translatedText"]

In [38]:
txt = "웹크롤링은 재미있습니다."
txt_en = translate(txt)
txt_en

'Web crawling is fun.'

In [39]:
# 6. 한글 excel 파일을 영문 excel 파일로 변경

In [40]:
%ls

 C 드라이브의 볼륨: 로컬 디스크
 볼륨 일련 번호: 8A64-4954

 C:\Users\User\Desktop\python_crawling\day1\code 디렉터리

2022-08-03  오후 04:47    <DIR>          .
2022-08-03  오후 04:47    <DIR>          ..
2022-08-03  오후 03:41    <DIR>          .ipynb_checkpoints
2022-08-03  오후 03:40            32,787 01_requests_json.ipynb
2022-08-03  오후 04:44             8,109 02_requests_api.ipynb
2022-08-03  오후 04:47            10,060 covid.xlsx
               3개 파일              50,956 바이트
               3개 디렉터리  378,883,235,840 바이트 남음


In [42]:
covid = pd.read_excel("covid.xlsx")[["category", "title"]]
covid.tail(2)

Unnamed: 0,category,title
4,104,"""코로나 확진자 '0명'인 날은 절대 오지 않는다"" 美전문가"
5,104,올림픽 다가오는데 도쿄 코로나 확산 빨라져...일주일새 25％↑


In [43]:
covid["title"]

0      SK바이오사이언스, 코로나19 백신 임상 3상 시험계획 제출
1               고양시 노래연습장 코로나19 누적확진 41명
2          코로나19 신규 감염, 28일 오후 9시까지 542명
3              프로야구 수도권 구단서 코로나19 확진자 발생
4      "코로나 확진자 '0명'인 날은 절대 오지 않는다" 美전문가
5    올림픽 다가오는데 도쿄 코로나 확산 빨라져...일주일새 25％↑
Name: title, dtype: object

In [50]:
%%time
covid_en = covid["title"].apply(translate)

Wall time: 424 ms


In [45]:
covid_en

0    SK Bioscience Submits Phase III Clinical Trial...
1    41 cumulative COVID-19 confirmed patients at G...
2    New COVID-19 infections, 542 people by 9 p.m. ...
3    Covid-19 confirmed cases in professional baseb...
4    "The day when there are zero confirmed cases o...
5    As the Olympics are approaching, the spread of...
Name: title, dtype: object

In [46]:
covid["title_en"] = covid_en
covid

Unnamed: 0,category,title,title_en
0,101,"SK바이오사이언스, 코로나19 백신 임상 3상 시험계획 제출",SK Bioscience Submits Phase III Clinical Trial...
1,102,고양시 노래연습장 코로나19 누적확진 41명,41 cumulative COVID-19 confirmed patients at G...
2,103,"코로나19 신규 감염, 28일 오후 9시까지 542명","New COVID-19 infections, 542 people by 9 p.m. ..."
3,103,프로야구 수도권 구단서 코로나19 확진자 발생,Covid-19 confirmed cases in professional baseb...
4,104,"""코로나 확진자 '0명'인 날은 절대 오지 않는다"" 美전문가","""The day when there are zero confirmed cases o..."
5,104,올림픽 다가오는데 도쿄 코로나 확산 빨라져...일주일새 25％↑,"As the Olympics are approaching, the spread of..."


In [51]:
# utf-8-sig : excel 에서 사용하는 인코딩 방식과 호환이 되는 utf-8 인코딩 방식
covid.to_excel("covid_en.xlsx", index=False, encoding="utf-8-sig")

In [48]:
%ls

 C 드라이브의 볼륨: 로컬 디스크
 볼륨 일련 번호: 8A64-4954

 C:\Users\User\Desktop\python_crawling\day1\code 디렉터리

2022-08-03  오후 04:52    <DIR>          .
2022-08-03  오후 04:52    <DIR>          ..
2022-08-03  오후 03:41    <DIR>          .ipynb_checkpoints
2022-08-03  오후 03:40            32,787 01_requests_json.ipynb
2022-08-03  오후 04:50            12,253 02_requests_api.ipynb
2022-08-03  오후 04:47            10,060 covid.xlsx
2022-08-03  오후 04:52             6,132 covid_en.xlsx
               4개 파일              61,232 바이트
               3개 디렉터리  378,880,700,416 바이트 남음


In [54]:
# 함수 : Scope
# 변수를 선언할때 함수 밖에서 선언하는것과 함수 안에서 선언하는 변수의 메모리 저장공간이 다릅니다.
# 전역(global)영역 : 함수 밖의 영역
# 지역(local)영역 : 함수 안의 영역
# global : 지역영역에서 전역영역에 있는 변수를 가져올때 사용하는 명령어

In [55]:
data = 10

def change():
    global data # 전역영역에 있는 data를 지역영역으로 가져옴
    data = 20
    
change()
print(data)

20


In [56]:
# 실습 과제
# https://finance.daum.net/exchanges
# headers : referer, user-agent 설정