### API
- Application Programming Interface
- **api를 사용**해서 데이터를 수집하는 것은 서비스에 데이터를 제공하는 **공식적인 방법**으로 데이터 수집하는 것이다.
- naver api: papago api 번역 서비스

In [1]:
# 1. APP 등록 > app_key(requests token) 수집
# 2. Naver API Document 확인 > URL 확인
# 3. request(url, app_key) > response(json) : JSON(str)
# 4. JSON(str) > list or dict > DataFrame

In [2]:
import requests, json
import pandas as pd

* 1. APP 등록 > app_key(requests token) 수집

In [3]:
# https://developers.naver.com

In [4]:
CLIENT_ID, CLIENT_SECRET = "CLIENT_ID", "CLIENT_SECRET"

* 2. Naver API Document 확인 > URL 확인 (params, headers)

In [5]:
txt = "파이썬은 재미있습니다."
url = "https://openapi.naver.com/v1/papago/n2mt"
params = { 'source': 'ko', 'target': 'en', 'text': txt}
headers = {
    'Content-Type': 'application/json',
    'X-Naver-Client-Id': CLIENT_ID,
    'X-Naver-Client-Secret': CLIENT_SECRET
}

* 3. request(url, app_key) > response(json) : JSON(str)

In [6]:
# json.dumps(): 
# 인터넷 트래픽에서는 영문, 숫자, 특수문자만 사용 가능한데,
# 이걸 쓰면 한글과 같은 문자를 인코딩해준다.(영문, 숫자, 특수문자)
params, json.dumps(params)

({'source': 'ko', 'target': 'en', 'text': '파이썬은 재미있습니다.'},
 '{"source": "ko", "target": "en", "text": "\\ud30c\\uc774\\uc36c\\uc740 \\uc7ac\\ubbf8\\uc788\\uc2b5\\ub2c8\\ub2e4."}')

In [7]:
# 여기서는 post 방식이기 때문에 .post()를 쓴다
response = requests.post(url, json.dumps(params), headers=headers)
response

<Response [200]>

In [8]:
response.text

'{"message":{"result":{"srcLangType":"ko","tarLangType":"en","translatedText":"Python is fun.","engineType":"N2MT","pivot":null,"dict":null,"tarDict":null},"@type":"response","@service":"naverservice.nmt.proxy","@version":"1.0.0"}}'

* 4. JSON(str) > list or dict > DataFrame

In [10]:
text_en = response.json()['message']['result']['translatedText']
text_en

'Python is fun.'

In [11]:
# 5. 함수로 작성 

In [14]:
def translate(txt):
    CLIENT_ID, CLIENT_SECRET = "CLIENT_ID", "CLIENT_SECRET"
    url = "https://openapi.naver.com/v1/papago/n2mt"
    params = { 'source': 'ko', 'target': 'en', 'text': txt}
    headers = {
        'Content-Type': 'application/json',
        'X-Naver-Client-Id': CLIENT_ID,
        'X-Naver-Client-Secret': CLIENT_SECRET
    }
    response = requests.post(url, json.dumps(params), headers=headers)
    txt_en = response.json()['message']['result']['translatedText']
    return txt_en

In [15]:
txt = "웹크롤링은 재미있습니다"
txt_en = translate(txt)
txt_en

'Web crawling is fun'

In [16]:
# 6. 한글 excel 파일을 영문 excel 파일로 변경

In [21]:
covid = pd.read_excel('covid.xlsx')[['category', 'title']]
covid.tail(2)

Unnamed: 0,category,title
4,104,"""코로나 확진자 '0명'인 날은 절대 오지 않는다"" 美전문가"
5,104,올림픽 다가오는데 도쿄 코로나 확산 빨라져...일주일새 25％↑


In [25]:
covid['title']

0      SK바이오사이언스, 코로나19 백신 임상 3상 시험계획 제출
1               고양시 노래연습장 코로나19 누적확진 41명
2          코로나19 신규 감염, 28일 오후 9시까지 542명
3              프로야구 수도권 구단서 코로나19 확진자 발생
4      "코로나 확진자 '0명'인 날은 절대 오지 않는다" 美전문가
5    올림픽 다가오는데 도쿄 코로나 확산 빨라져...일주일새 25％↑
Name: title, dtype: object

In [24]:
covid_en = covid['title'].apply(translate)
covid_en

0    SK Bioscience Submits Phase III Clinical Trial...
1    41 cumulative COVID-19 confirmed patients at G...
2    New COVID-19 infections, 542 people by 9 p.m. ...
3    Covid-19 confirmed cases in professional baseb...
4    "The day when there are zero confirmed cases o...
5    As the Olympics are approaching, the spread of...
Name: title, dtype: object

In [27]:
covid['title_en'] = covid_en
covid

Unnamed: 0,category,title,title_en
0,101,"SK바이오사이언스, 코로나19 백신 임상 3상 시험계획 제출",SK Bioscience Submits Phase III Clinical Trial...
1,102,고양시 노래연습장 코로나19 누적확진 41명,41 cumulative COVID-19 confirmed patients at G...
2,103,"코로나19 신규 감염, 28일 오후 9시까지 542명","New COVID-19 infections, 542 people by 9 p.m. ..."
3,103,프로야구 수도권 구단서 코로나19 확진자 발생,Covid-19 confirmed cases in professional baseb...
4,104,"""코로나 확진자 '0명'인 날은 절대 오지 않는다"" 美전문가","""The day when there are zero confirmed cases o..."
5,104,올림픽 다가오는데 도쿄 코로나 확산 빨라져...일주일새 25％↑,"As the Olympics are approaching, the spread of..."


In [28]:
# covid.to_excel('covid_en.xlsx', index=False, encoding='utf-8-sig') # 저장 완!

In [None]:
# utf-8-sig: excel에서 사용하는 인코딩 방식과 호환이 되는 utf-8 인코딩 방식 

In [None]:
# 함수: Scope

In [32]:
data = 10

def change():
    data = 20
    
change()
print(data) # 20이 나올 줄 알았는데..! 10이 나온다!

10


변수를 선언할 때, **함수 밖**에서 선언하는지 **함수 안**에서 선언하는지에 따라 메모리 저장 공간이 다르다.  
전역(global) 영역: **함수 밖**의 영역  
지역(local) 영역: **함수 안**의 영역  
global: 지역 영역에서 전역 영역에 있는 변수를 가져올 때 사용하는 명령어

In [33]:
data = 10

def change():
    global data # 전역 영역에 있는 데이터를 지역 영역으로 가져옴
    data = 20
    
change()
print(data)

20
