### API 
- 애플리케이션 프로그래밍 인터페이스
- 본질에서 다른 어러 애플리케이션 사이에 간편한 인터페이스를 제공
- 서로 정보를 공유해야하는 소트프웨어 사이에서 국제어 구실을 하도록 디자인된 것
- 요청을 보낼 때는 HTTP를 통해 요청하며 이 데이터를 XML이나 JSON 형식으로 제공

#### API를 사용하는 것은 웹 스크래핑이 아니다
- 둘 다 HTTP 요청 보내기를 사용해 정보 얻기를 추구한다.
- 예 : 웹 스크레이퍼에서 얻은 정보와 API에서 얻은 정보를 결합해 더 유용한 것으로 바꿀 수 있다.

## 4.1 API는 어떻게 동작하는가

- [구글 개발자 섹션](https://console.developers.google.com) : 언어 번역과 분석, 지오로케에션 등 수십 가지 API가 있다
- 예 : http://freegeoip.net/json/50.78.253.58

- API는 HTTP를 통해 동작
    - HTTP : 웹사이트에서 데이터를 가져오고, 파일을 내려받고, 기타 인터넷에서 하는 거의 모든 일과 똑같은 프로토콜
- API는 완전히 정형회된 문법을 사용한다, HTML이 아니라 JSON이나 XML로 데이터를 보낸다

## 4.2 공통 표기법

- API는 규격화된 정보를 제공
- 정보를 생성하는 방법 역시 표준화
- 처음 사용하는 API는 문서를 읽을 것

### 4.2.1 메서드

#### HTTP를 통해 웹 서버에 정보를 요청하는 방법
- GET
    - 브라우저의 주소표시줄을 통해 웹사이트에 방문할 때 사용
    - 웹 서버에 정보를 요청할 때 사용
- POST
    - form 을 작성하거나 서버에 있는 스트립트에 저보를 보낼때 사용
    - 웹사이트에 로그인할 때
    - API에 POST 요청을 하는 것은 DB에 저장하라고 요청
- PUT
    - 객체나 정보를 업데이트할 때 사용
    - 예 : 새 사용자를 등록할 땐 POST, 사용자의 이메일 주소를 업데이트 할 때는 PUT
- DELETE
    - 어떤 객체를 삭제할 때 사용

### 4.2.2 인증

- API 인증은 토큰을 사용

In [None]:
# 예시
token = "[your api key]"
webRequest = urllib.request.Request("http://myapi.com", headers={"token":token})
html = urlopen(webRequest)

## 4.3 응답

- 가장 널리 쓰이는 응답 타입 : XML, JSON

### 4.3.1 API 호출

- 가상의 API에 ID가 1234인 유저가 2014년 8월 한달 동안 작성한 글
    - http://socialmediasite.com/users/1234/posts?from=08012014&to=08312014


- 버전 4, JSON 형식
    - http://socialmediasite.com/api/v4/json/users/1234/posts?from=08012014&to=08312014


- 버전과 형식을 매개변수로
    - http://socialmediasite.com/users/1234/posts?format=json&from=08012014&to=08312014

## 4.4 에코 네스트

- 에코 네스트는 웹 스크레이퍼 기반으로 움직이는 회사
- 인공지능으로 블로그와 뉴스에서 스크랩한 정보를 음악가, 음악, 앨범으로 분류


- 에코 네스트의 API : http://static.echonest.com/enspex/

### 예시는 책 확인

## 4.5 트위터

### 4.5.1 시작하기

- 트위터 개발자 사이트 : https://apps.twitter.com/app/new


1. 트위터 계정 만들기
2. 트위터 개발자 사이트에 '애플리케이션' 등록

### 4.5.2 몇 가지 예제

- twitter
    - http://mike.verdone.ca/twitter/#downloads
    - pip로 설치

### 예시는 책 확인

## 4.6 구글 API

- 구글 API 레퍼런스 페이지
    - 제품 페이지 : https://developers.google.com/products/
    - API 콘솔 : https://code.google.com/apis/console/
    - 사용 제한과 요금 페이지 : https://developers.google.com/places/webservice/usage

### 4.6.1 시작하기

- 개발자 콘솔 : https://developers.google.com/project

### 예시는 책 확인

## 4.7 JSON 파싱

In [1]:
import json
from urllib.request import urlopen

def getCountry(ipAddress):
    response = urlopen("http://freegeoip.net/json/" + ipAddress).read().decode('utf-8')
    responseJson = json.loads(response)
    
    return responseJson.get("country_code")

print(getCountry("50.78.253.58"))

US


In [2]:
import json

jsonString = '{"arrayOfNums":[{"number":0},{"number":1},{"number":2}],"arrayOfFruits":[{"fruit":"apple"},{"fruit":"banana"},{"fruit":"pear"}]}'
jsonObj = json.loads(jsonString)

print(jsonObj.get("arrayOfNums"))
print(jsonObj.get("arrayOfNums")[1])
print(jsonObj.get("arrayOfNums")[1].get("number")+jsonObj.get("arrayOfNums")[2].get("number"))
print(jsonObj.get("arrayOfFruits")[2].get("fruit"))

[{'number': 0}, {'number': 1}, {'number': 2}]
{'number': 1}
3
pear


## 4.8 모든 것을 하나로

- 세계 어느 지역에서 위키백과에 가장 이바지했는가

In [4]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import datetime
import random
import re

random.seed(datetime.datetime.now())

def getLinks(articleUrl):
    html = urlopen("http://en.wikipedia.org"+articleUrl)
    bsObj = BeautifulSoup(html, "html.parser")
    
    return bsObj.find("div", {"id":"bodyContent"}).findAll("a", href=re.compile("^(/wiki/)((?!:).)*$"))

def getHistoryIPs(pageUrl):
    # 개정 내역 페이지 URL은 다음과 같은 형식
    # http://en.wikipedia.org/w/index.php?title=Title_in_URL&action=history
    
    pageUrl = pageUrl.replace("/wiki/", "")
    historyUrl = "http://en.wikipedia.org/w/index.php?title=" + pageUrl + "&action=history"
    
    print("history url is : "+ historyUrl)
    
    html = urlopen(historyUrl)
    bsObj = BeautifulSoup(html, "html.parser")
    
    # 사용자 명 대신 IP주소가 담긴, 클래스가 mw-anonuserlink인 링크만 찾는다
    ipAddresses = bsObj.findAll("a", {"class":"mw-anonuserlink"})
    addressList = set()
    
    for ipAddress in ipAddresses:
        addressList.add(ipAddress.get_text())
        
    return addressList

links = getLinks("/wiki/Python_(programming_language)")

while(len(links) > 0):
    for link in links:
        print("--------------------")
        
        historyIPs = getHistoryIPs(link.attrs["href"])
        
        for historyIP in historyIPs:
            print(historyIP)
            
        newLink = links[random.randint(0, len(links) - 1)].attrs["href"]
        links = getLinks(newLink)

--------------------
history url is : http://en.wikipedia.org/w/index.php?title=Programming_paradigm&action=history
31.203.136.191
37.238.238.36
116.58.205.165
43.252.233.5
213.207.90.158
223.104.186.241
110.55.67.15
2605:a601:e0c:6300:996d:68c0:fb03:af2c
92.115.222.143
168.216.130.133
193.80.242.220
202.53.87.74
213.108.115.55
223.230.96.108
113.162.8.249
39.36.182.41
213.55.95.160
--------------------
history url is : http://en.wikipedia.org/w/index.php?title=Multi-paradigm_programming_language&action=history
75.139.254.117
--------------------
history url is : http://en.wikipedia.org/w/index.php?title=Object-oriented_programming&action=history
170.142.177.246
117.239.185.50
157.49.2.147
202.61.38.91
106.209.255.255
193.179.215.98
49.207.187.219
2405:204:5425:ed32:3cd8:3312:d43c:f531
122.181.5.162
24.93.131.140
103.226.0.98
31.147.214.131
2405:204:5527:a805:79d4:3265:6655:bea2
103.252.25.104
195.195.15.165
1.22.150.73
2405:204:570e:28ae:1616:fca5:fd8e:7ecb
--------------------
histor

--------------------
history url is : http://en.wikipedia.org/w/index.php?title=Numba&action=history
67.58.77.166
70.184.214.35
130.79.4.11
2601:647:4d01:938b:c5c2:d19b:a5a:a89c
2003:7a:8509:d00:5cf8:7af2:e3d7:9aee
47.62.73.51
--------------------
history url is : http://en.wikipedia.org/w/index.php?title=PyPy&action=history
4.34.86.243
65.121.188.148
155.4.14.14
128.187.80.2
112.166.75.192
2604:2000:c516:1a00:7cb0:2b8b:6aa9:489e
118.185.60.226
49.50.199.103
154.121.251.112
70.184.214.35
--------------------
history url is : http://en.wikipedia.org/w/index.php?title=Stackless_Python&action=history
129.10.116.181
73.222.188.140
137.48.251.105
137.119.92.151
77.56.53.183
207.198.105.24
86.190.223.79
173.196.139.154
212.185.168.66
50.53.15.51
81.231.245.214
95.79.208.212
85.118.231.227
70.184.214.35
82.18.255.4
--------------------
history url is : http://en.wikipedia.org/w/index.php?title=Dialect_(computing)&action=history
71.12.189.127
99.63.60.16
200.126.223.126
124.124.52.164
189.82.1

--------------------
history url is : http://en.wikipedia.org/w/index.php?title=Swift_(programming_language)&action=history
38.140.48.58
2001:5b0:4ec5:7a8:85b6:ffc9:cde4:badc
2a03:1b20:2:f702::8de
73.121.9.203
129.42.208.182
2620:0:102f:1:87c:daa8:7294:fc93
193.171.152.104
2602:306:3ba5:1400:35b5:3a62:e6f4:9707
2a03:1b20:1:f410:7366::6de
2407:7000:9001:a865:c97d:fd1a:c9df:e502
2a03:1b20:1:f410::10de
112.200.224.200
66.90.216.56
209.6.209.51
49.207.2.56
193.171.152.103
80.77.249.225
--------------------
history url is : http://en.wikipedia.org/w/index.php?title=Measuring_programming_language_popularity&action=history
193.96.224.5
67.198.37.17
86.82.19.63
2a03:2267::b955:1558:4771:36c1
198.169.189.232
62.245.155.147
198.223.224.25
128.70.197.164
82.156.103.208
75.138.89.68
--------------------
history url is : http://en.wikipedia.org/w/index.php?title=High-level_programming_language&action=history
115.87.132.46
2001:16a2:458c:e00:bc78:d74d:6e27:e4ff
2405:204:a381:8259:5107:6540:5439:7062

ValueError: empty range for randrange() (0,0, 0)

In [17]:
import json
from urllib.request import HTTPError

def getCountry(ipAddress):
    try:
        response = urlopen("http://freegeoip.net/json/" + ipAddress).read().decode('utf-8')
    except HTTPError:
        return None
    
    responseJson = json.loads(response)
    
    return responseJson["country_code"]
    
links = getLinks("/wiki/Python_(programming_language)")


while(len(links) > 0):
    for link in links:
        print("-------------------") 
        historyIPs = getHistoryIPs(link.attrs["href"])
        for historyIP in historyIPs:
            country = getCountry(historyIP)
            if country is not None:
                print(historyIP+" is from "+country)

    newLink = links[random.randint(0, len(links)-1)].attrs["href"]
    links = getLinks(newLink)

-------------------
history url is : http://en.wikipedia.org/w/index.php?title=Programming_paradigm&action=history
31.203.136.191 is from KW
37.238.238.36 is from IQ
116.58.205.165 is from BD
43.252.233.5 is from MY


URLError: <urlopen error [WinError 10060] 연결된 구성원으로부터 응답이 없어 연결하지 못했거나, 호스트로부터 응답이 없어 연결이 끊어졌습니다>

#### cf. set
- 순서가 없다
- 같은 항목이 중복되지 않는다