In [None]:
# 크롤링 정책 /robots.txt :웹페이지의 크롤링 정책을 설명하는 페이지
# 크롤링법 X: 과도한 크롤링으로 서비스에 영향을 주었을 경우 업무방해 혐의로 고소당할 수 있음
# 법적문제 : 지적 재산권, 서비스 과부하, 데이터 사용 표준
# API 업체에서 데이터를 가져갈 수 있도록 하는 서비스, 인터페이스

### Naver Rest API
- 파파고 번역 api
- 통합검색어 트렌드 api

In [38]:
import pandas as pd
import requests, json

#### 0. request token 얻기
- `https://developers.naver.com`
- 1. Request Token 얻기 : 애플리케이션등록 -> app_key 획득
- 2. app_key를 이용해서 데이터 가져오기

In [6]:
Client_ID = 'kwg8ilQWId3XcSJeR3ry'
Client_PW = 'UwurxzkmvI'

#### 1. 파파고 번역 api
- `https://developers.naver.com/docs/papago/`
- 사용법
    - `https://developers.naver.com/docs/papago/papago-nmt-api-reference.md`

In [7]:
# 1. API문서 : URL 
ko_txt = '좋은 하루 되세요. 데이터 통신과 네트워킹.'
url = 'https://openapi.naver.com/v1/papago/n2mt'
headers = {
    'Content-Type': 'application/json',
    'charset':'UTF-8',
    'X-Naver-Client-Id': Client_ID,
    'X-Naver-Client-Secret': Client_PW
}
params = {
    'source':'ko',
    'target':'en',
    'text':ko_txt
}


In [10]:
# 2. request(URL,key,ko_txt) > response : json(str) #(xml)
# json.dumps(params) = 한국어를 json으로 전송하기 위한 메서드
response = requests.post(url,json.dumps(params),headers=headers)
response

<Response [200]>

In [23]:
en_txt = response.json()['message']['result']['translatedText']
en_txt

'Have a nice day. Data communication and networking.'

2. 함수화

In [24]:
# make fucntion for codes
def translate(txt='',source='ko',target='en'):
    ''' this function is translate txt
    params :
        txt : str : 안녕하세요.
        source : str : ko, en, jp , ..
        # input message Language
        target : str : ko, en, jp , ..
        # output message target Language
    return :
        type : str : Hello.
    '''
    
    Client_ID = 'kwg8ilQWId3XcSJeR3ry'
    Client_PW = 'UwurxzkmvI'
    url = 'https://openapi.naver.com/v1/papago/n2mt'
    headers = {
        'Content-Type': 'application/json',
        #'charset':'UTF-8',
        'X-Naver-Client-Id': Client_ID,
        'X-Naver-Client-Secret': Client_PW
    }
    params = {
        'source':source,
        'target':target,
        'text':txt
    }
    
    response = requests.post(url,json.dumps(params),headers=headers)
    return response.json()['message']['result']['translatedText']

In [25]:
translate('데이터 사이언스는 재밌습니다. 야옹. 응애.')

'Data Science is fun. Meow. Crying.'

In [26]:
df = pd.DataFrame({
    'id' : list('AB'),
    'title' : ['인공지능 스쿨 화이팅','데이터 크롤링'],
})
df

Unnamed: 0,id,title
0,A,인공지능 스쿨 화이팅
1,B,데이터 크롤링


In [32]:
df['en_title'] = df['title'].apply(translate)
df

Unnamed: 0,id,title,en_title
0,A,인공지능 스쿨 화이팅,"AI school, fighting!"
1,B,데이터 크롤링,Crawling data


In [34]:
df.to_excel('en_title.xlsx', index=False, encoding='utf-8-sig')

In [36]:
df2 = pd.read_excel('en_title.xlsx')
df2

Unnamed: 0,id,title,en_title
0,A,인공지능 스쿨 화이팅,"AI school, fighting!"
1,B,데이터 크롤링,Crawling data


#### 2. 통합검색어 트렌드 api
- 서비스 : `https://datalab.naver.com/keyword/trendSearch.naver`
- 내 애플리케이션 > dss 애플리케이션 > API 설정 > 데이터랩(검색어 트렌드) 추가
- 사용법 : `https://developers.naver.com/docs/serviceapi/datalab/search/search.md#통합-검색어-트렌드`

In [None]:
# %reset %whos

In [40]:
CLIENT_ID, CLIENT_PW = 'kwg8ilQWId3XcSJeR3ry', 'UwurxzkmvI'

In [55]:
url = 'https://openapi.naver.com/v1/datalab/search'

params = {
        'startDate': "2017-01-01",
        'endDate': '2017-04-30',
        "timeUnit": 'month',
        'keywordGroups':[
        {'groupName':'트위터', 'keywords':['트위터','트윗']},
        {'groupName':'페이스북', 'keywords':['페이스북','페북']},
        {'groupName':'인스타그램', 'keywords':['인스타그램','인스타']},
        ],
}

headers = {
    "Content-Type":"application/json",
    "X-Naver-Client-Id":CLIENT_ID,
    "X-Naver-Client-Secret":CLIENT_PW,
}
response = requests.post(url,json.dumps(params),headers=headers)
response.json()

{'startDate': '2017-01-01',
 'endDate': '2017-04-30',
 'timeUnit': 'month',
 'results': [{'title': '트위터',
   'keywords': ['트위터', '트윗'],
   'data': [{'period': '2017-01-01', 'ratio': 8.96532},
    {'period': '2017-02-01', 'ratio': 8.32483},
    {'period': '2017-03-01', 'ratio': 7.42935},
    {'period': '2017-04-01', 'ratio': 7.68059}]},
  {'title': '페이스북',
   'keywords': ['페이스북', '페북'],
   'data': [{'period': '2017-01-01', 'ratio': 91.79404},
    {'period': '2017-02-01', 'ratio': 84.70619},
    {'period': '2017-03-01', 'ratio': 93.33664},
    {'period': '2017-04-01', 'ratio': 100}]},
  {'title': '인스타그램',
   'keywords': ['인스타그램', '인스타'],
   'data': [{'period': '2017-01-01', 'ratio': 12.06913},
    {'period': '2017-02-01', 'ratio': 11.74219},
    {'period': '2017-03-01', 'ratio': 12.66479},
    {'period': '2017-04-01', 'ratio': 13.60009}]}]}

Unnamed: 0,title,keywords,data
0,트위터,"[트위터, 트윗]","[{'period': '2017-01-01', 'ratio': 8.96532}, {..."
1,페이스북,"[페이스북, 페북]","[{'period': '2017-01-01', 'ratio': 91.79404}, ..."
2,인스타그램,"[인스타그램, 인스타]","[{'period': '2017-01-01', 'ratio': 12.06913}, ..."


In [73]:
result_df = pd.concat(df,ignore_index=True)
result_df.tail(2)

TypeError: first argument must be an iterable of pandas objects, you passed an object of type "DataFrame"

In [67]:
result_df=pd.DataFrame(df['data'])

KeyError: 'data'

In [66]:
result_df['data']

0    [{'period': '2017-01-01', 'ratio': 8.96532}, {...
1    [{'period': '2017-01-01', 'ratio': 91.79404}, ...
2    [{'period': '2017-01-01', 'ratio': 12.06913}, ...
Name: data, dtype: object

In [None]:
# column : twitter, facebook, instagram
# index : period
# value : ratio

In [74]:
import matplotlib.pyplot as plt
pivot_df = result_df.pivot('period', 'title', 'ratio')
pivot_df.plot(figsize=(20,5))
plt.show()

KeyError: 'period'

In [None]:
%config
InlineBackend.figure_formats={'png','retina'}