### api를 이용한 데이터 수집 방법을 배워보자.

### API
- application programming interface
- api를 사용해서 데이터를 수집하는 것은 서비스에 데이터를 제공하는 공식적인 방법으로 데이터를 수집
- naver api : papago api(네이버 제공 번역 서비스) 사용해보자.

In [6]:
import pandas as pd
import requests, json

In [11]:
# 1. APP 등록 => app_key(request_token) 수집
# https://developers.naver.com
# 들어가서 애플리케이션등록(API 이용 신청) => 애플리케이션 이름, 사용 API 작성
# 비로그인 오픈 API 서비스 환경에서 WEB 설정, url은 아무거나 => 등록하기
# 그렇게 등록을 하면 내 애플리케이션가면 목록에 뜸, 거기서 ID랑 key 값 가져오기

In [14]:
CLIENT_ID, CLIENT_SECRET = "e2VwU8fHEnT1GOf8qvN5", "4wT5vV8fws"

In [15]:
# 2. Naver API Document 확인 => URL 알아낼 수 있다. (URL 알아내는 과정이 브라우저를 사용하는 앞의 과정과 다름)
#Documents => API 레퍼런스에서 URL, 프로토콜, get/post, 파라미터, 언어코드, 구현예제 등등을 확인할 수 있다.
"""
curl "https://openapi.naver.com/v1/papago/n2mt" \
    -H "Content-Type: application/x-www-form-urlencoded; charset=UTF-8" \
    -H "X-Naver-Client-Id: {애플리케이션 등록 시 발급받은 클라이언트 아이디 값}" \
    -H "X-Naver-Client-Secret: {애플리케이션 등록 시 발급받은 클라이언트 시크릿 값}" \
    -d "source=ko&target=en&text=만나서 반갑습니다." -v
    
-H는 헤더
-d는 데이터
"""

'\ncurl "https://openapi.naver.com/v1/papago/n2mt"     -H "Content-Type: application/x-www-form-urlencoded; charset=UTF-8"     -H "X-Naver-Client-Id: {애플리케이션 등록 시 발급받은 클라이언트 아이디 값}"     -H "X-Naver-Client-Secret: {애플리케이션 등록 시 발급받은 클라이언트 시크릿 값}"     -d "source=ko&target=en&text=만나서 반갑습니다." -v\n    \n-H는 헤더\n-d는 데이터\n'

In [16]:
txt = "파이썬은 재미있습니다."
url = "https://openapi.naver.com/v1/papago/n2mt"
params = {
    "source": "ko", #언어코드 한국어
    "target": "en",
    "text": txt
}

#application key 값은 헤더 영역에 추가
headers= {
    "Content-Type": "application/json",
    "X-Naver-Client-Id": CLIENT_ID,
    "X-Naver-Client-Secret": CLIENT_SECRET,
}

In [9]:
# 3. request(url, app_key) => response(json) : JSON(str)
# app_key가 없으면 패스워드가 없는것 -> 거절됨

In [None]:
#json.dumps() : 인터넷 트래픽에서는 영문, 숫자, 특수문자만 사용 가능
#근데 json.dumps()는 한글과 같은 문자를 인코딩(영문, 숫자, 특수문자로 변환)
# params를 그대로 사용하면 "파이썬은 재미있습니다" 얘가 에러남.
# 그렇기 때문에 한글을 영문, 숫자, 특수문자로 변환해주어야 한다.
# 그 변환해주는 게 json.dumps() 임
# 한글이 없으면 이렇게 안해줘도 됨

In [17]:
response = requests.post(url, json.dumps(params), headers=headers)
response

<Response [200]>

In [18]:
response.text

'{"message":{"result":{"srcLangType":"ko","tarLangType":"en","translatedText":"Python is fun.","engineType":"N2MT","pivot":null,"dict":null,"tarDict":null},"@type":"response","@service":"naverservice.nmt.proxy","@version":"1.0.0"}}'

In [10]:
# 4. JSON(str) => list, dict => DataFrame

In [19]:
response.json()

{'message': {'result': {'srcLangType': 'ko',
   'tarLangType': 'en',
   'translatedText': 'Python is fun.',
   'engineType': 'N2MT',
   'pivot': None,
   'dict': None,
   'tarDict': None},
  '@type': 'response',
  '@service': 'naverservice.nmt.proxy',
  '@version': '1.0.0'}}

In [20]:
text_en = response.json()["message"]["result"]["translatedText"]
text_en

'Python is fun.'

In [21]:
# 5. 함수로 작성

In [22]:
def translate(txt) :
    url = "https://openapi.naver.com/v1/papago/n2mt"
    params = {
        "source": "ko",
        "target": "en",
        "text": txt
    }
    headers= {
        "Content-Type": "application/json",
        "X-Naver-Client-Id" : CLIENT_ID,
        "X-Naver-Client-SECRET": CLIENT_SECRET
    }
    response = requests.post(url, json.dumps(params), headers = headers)
    txt_en = response.json()["message"]["result"]["translatedText"]
    
    return txt_en

In [24]:
translate("웹크롤링은 재밌습니당.")

'Web crawling is fun.'

In [26]:
%ls #현재 내가 작성하고 있는 주피터 노트북 디렉토리의 파일 리스트를 출력함

 C 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: 7C6C-FC35

 C:\Users\User\AIVLESCHOOLPythonClass\python_crawling\Code 디렉터리

2022-08-03  오후 04:46    <DIR>          .
2022-08-03  오후 04:46    <DIR>          ..
2022-08-03  오후 03:40    <DIR>          .ipynb_checkpoints
2022-08-03  오후 03:40            93,268 01_requests_json.ipynb
2022-08-03  오후 04:44            10,670 02_requests_api.ipynb
2022-08-03  오후 04:46            10,060 covid.xlsx
               3개 파일             113,998 바이트
               3개 디렉터리  105,063,350,272 바이트 남음


In [25]:
#엑셀파일에 있는걸 번역해보기

In [28]:
covid = pd.read_excel("covid.xlsx")[["category", "title"]]
covid.tail(2)

Unnamed: 0,category,title
4,104,"""코로나 확진자 '0명'인 날은 절대 오지 않는다"" 美전문가"
5,104,올림픽 다가오는데 도쿄 코로나 확산 빨라져...일주일새 25％↑


In [29]:
covid_en = covid['title'].apply(translate)

In [30]:
covid_en

0    SK Bioscience Submits Phase III Clinical Trial...
1    41 cumulative COVID-19 confirmed patients at G...
2    New COVID-19 infections, 542 people by 9 p.m. ...
3    Covid-19 confirmed cases in professional baseb...
4    "The day when there are zero confirmed cases o...
5    As the Olympics are approaching, the spread of...
Name: title, dtype: object

In [31]:
covid['title_en'] = covid_en
covid

Unnamed: 0,category,title,title_en
0,101,"SK바이오사이언스, 코로나19 백신 임상 3상 시험계획 제출",SK Bioscience Submits Phase III Clinical Trial...
1,102,고양시 노래연습장 코로나19 누적확진 41명,41 cumulative COVID-19 confirmed patients at G...
2,103,"코로나19 신규 감염, 28일 오후 9시까지 542명","New COVID-19 infections, 542 people by 9 p.m. ..."
3,103,프로야구 수도권 구단서 코로나19 확진자 발생,Covid-19 confirmed cases in professional baseb...
4,104,"""코로나 확진자 '0명'인 날은 절대 오지 않는다"" 美전문가","""The day when there are zero confirmed cases o..."
5,104,올림픽 다가오는데 도쿄 코로나 확산 빨라져...일주일새 25％↑,"As the Olympics are approaching, the spread of..."


In [32]:
covid.to_excel("covid_en.xlsx", index=False, encoding="utf-8-sig") #파일저장
#인덱스 열 없이 저장
#'utf-8-sig'에서 'sig'는 'signature'의 약칭입니다. 
#'utf-8-sig'를 사용하면 스트링 즉, 문자열로 처리하는게 아니라 Byte Order Mark(BOM)으로 취급합니다.

### utf-8-sig 설명
- 엑셀에서 사용하는 인코딩 방식과 호환이 되는 utf-8 인코딩 방식
- 인코딩 처리 안하면 깨져서 나옴.
- 인코딩이란?
    - human이 사용하는 언어를 'A', 컴퓨터가 사용하는 언어는 0과 1로만 구성
    - 이 A를 컴퓨터한테 0101..로 변환해서 전송해야 함
    - A를 0001(예시)로 변환하는 것을 encoding
    - 0001을 A로 변환하는 것이 decoding
    - encoding: 문자->이진수, decoding: 이진수->문자
    - encoding과 decoding은 여러 종류가 있음.
        - a -> 1번방식 인코딩 -> 0001
        - a -> 2번방식 인코딩 -> 1000
        - 만약 1번방식으로 인코딩한 0001을 2번방식으로 디코딩하면 깨져버림.
        - 1번방식으로 인코딩했으면 1번방식으로 인코딩해야 원래 문자로 복원됨.
- python에서는 (dataframe)에서는 utf-8 인코딩 방식 사용
- 엑셀에서는 ISO...방식 사용
- 그래서 df에서 저장한 a를 엑셀에서 열면 깨지는 것.
- 이걸 방지하는 것이 'utf-8-sig' 이다. => 이거 사용하면 엑셀에서 ISO...로 디코딩

### 인코딩 방식 3가지
- ASCII : 영문, 숫자, 특수문자 표현 (4byte)
- euckr : + 한글 (8byte)
- utf-8 : + 모든 나라 언어 (16byte)
    - 한글자 쓸 때 utf-8이 가장 많이 차지
    - 근데 요즘엔 하드웨어가 많이 저렴해졌기 때문에 무조건 utf-8을 쓰는 추세.

In [33]:
%ls
# %는 special command

 C 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: 7C6C-FC35

 C:\Users\User\AIVLESCHOOLPythonClass\python_crawling\Code 디렉터리

2022-08-03  오후 04:52    <DIR>          .
2022-08-03  오후 04:52    <DIR>          ..
2022-08-03  오후 03:40    <DIR>          .ipynb_checkpoints
2022-08-03  오후 03:40            93,268 01_requests_json.ipynb
2022-08-03  오후 04:52            18,156 02_requests_api.ipynb
2022-08-03  오후 04:46            10,060 covid.xlsx
2022-08-03  오후 04:51             6,132 covid_en.xlsx
               4개 파일             127,616 바이트
               3개 디렉터리  105,060,478,976 바이트 남음


In [34]:
%%time #아래 코드를 돌렸을 때 얼마나 시간이 나오는지 출력
covid_en = covid["title"].apply(translate)

Wall time: 690 ms


In [35]:
# 함수: Scope 

In [None]:
# 변수를 선언할 때 함수 밖에서 선언하는 것과 함수 안에서 선언하는 변수의 메모리 저장공간이 다르다.
# 전역(global)영역 : 함수 밖의 영역
# 지역(local)영역 : 함수 안의 영역

# global 명령어 : 지역 영역에서 전역 영역에 있는 변수를 가져올 때 사용하는 명령어

In [36]:
data = 10 #RAM 안의 글로벌 영역에 생성

def change() :
    data=20 #새로운 변수를 RAM안의 로컬 영역에 생성

change()
print(data) #예상: 20, 결과: 10 (얘는 글로벌을 가져옴)

# 왜 이런 결과가 나오지?
# global, local을 고려하지 않았기 때문에

10


In [37]:
data = 10

def change() :
    global data #전역영역에 있는 data를 지역영역으로 가져옴
    data = 20
    
change()
print(data)

20
