# Background

Sebagai data scientist, tugas utama kita akan selalu bergelut dengan data. Namun, selama ini, apakah kita sadar darimana data kita berasal? bagaimana data kita dikumpulkan? dsb dsb? Untuk menjadi seorang data scientist yang baik, saya rasa pengetahuan dan pengalaman dalam mengumpulkan data cukup penting. Apakah anda pernah kesulitan dalam mencari data? apakah anda pernah kesulitan dalam melakukan pelabelan data? apakah kalian percaya bahwa data seharusnya gratis dan mudah untuk diakses. It's Data for Democracy!

Untuk membuat data dapat diakses oleh semua orang, pihak penyedia jasa juga harus memberikan batasan guna mengurangi penggunaan berlebihan dan penyalahgunaan data oleh pihak-pihak yang tidak bertanggungjawab. Untuk menanggulangi permasalahn ini, kita bisa memanfaatkan teknologi API (Application Program Interface). Dengan API, kita dapat mengatur bagaimana data kita dapat diakses secara umum.

Dalam Capstone kali ini, kita akan mencoba membuat API menggunakan python + flask agar data kita dapat diakses secara umum. Secara konsep, kita akan membangun aplikasi python menggunakan flask yang dapat mengatur, membaca, dan mengirimkan response terhadap request user.


**Data yang digunakan:** 
- books_c.csv

**Environtments:**
- python 
- pandas
- flask 
- gunicorn


**Goals**
1. Berhasil membuat Flask APP yang berfungsi sebagai API yang memberikan data dalam format JSON
2. Berhasil membuat minimal 2 endpoint statis (atau lebih) dan 1 endpoint dinamis(atau lebih) menggunakan routing
3. Berhasil melakukan deployment Flask APP ke Heroku

*Notes: menggunakan endpoints yang sudah dicontohkan tidak akan dihitung sebagai endpoint hasil kerja capstone*

# Membangun API Python dalam 6 menit 
*Disclaimer: Course ini adalah course singkat untuk memperkenalkan student kedalam dunia **backend**. Akan ada sangat banyak kekurangan dari konsep API yang ada saat ini. Untuk kemudahan, kita hanya akan membahas konsep dasar dari API dan mewujudkannya dalam bentuk Flask App

Kita akan mencoba membangun Flask App sebagai API, oleh karena itu jika belum memiliki library `Flask`, silakan install menggunakan `pip install flask`. Berikut adalah beberapa library yang akan kita butuhkan. Cobalah import library tersebut sebelum menginstallnya. 

In [1]:
# !pip install flask
# !pip install pandas
# !pip install requests
# !pip install gunicorn

In [1]:
import flask

In [2]:
import pandas 

In [3]:
import requests

In [4]:
import gunicorn

Membuat aplikasi Flask sesederhana menulis code dalam 7 baris !
cobalah buat file `app.py` yang berisi script berikut :

```python
from flask import Flask, request 
app = Flask(__name__) 

@app.route('/home')
def home():
    return 'Hello World'

if __name__ == '__main__':
    app.run(debug=True, port=5000)
```

Setelah membuat file `app.py` berisikan script diatas, cobalah jalankan file tersebut melalui terminal dengan masuk ke direktori yang sama dengan file tersebut, dan jalankan sintaks `python app.py`. Setelah menjalankan sintaks tersebut, maka aplikasi kita akan berjalan dengan alamat `localhost` dengan port `5000`, atau dapat kalian akses melalui browser dengan alamat `localhost:5000`. 

pada baris ke-4, terdapat sintaks `@app.route('/home')`, yang berarti bahwa fungsi atau method dibawahnya (fungsi `home`) akan dijalankan ketika user mengakses rute atau alaman `/home`. Sekarang, cobalah akses `localhost:5000/home`, maka kalian akan mendapatkan tulisan 'Hello World'

Pada baris terakhir, `debug=True` akan menampilkan semua log aktivitas dari app kita dalam terminal/comman prompt/shell dimana app kita dijalankan. 

Dari contoh script diatas, kita dapat katakan bahwa rute atau `route` adalah endpoints, atau tempat dimana sistem dan user saling bersentuhan. Dalam kasus diatas, untuk mendapatkan 'Hello World', maka kita harus mengakses endpoint `/home`. Sekali lagi, **representasi endpoint adalah route**.

## Query Arguments

Setelah mengetahui kerangka utama dalam membuat aplikasi Flask, cukup penting untuk mengetahui Query Arguments. Ketika kita melakukan pencarian pada mesin pencari seperti google.com, jika kita perhatikan pada alamat (url) yang diberikan, terdapat query arguments yang diberikan setelah `google.com/` yang diawali dengan `?`. 

Format query pada url pada umumnya adalah `example.com?arg1=value1&arg2=value2`, dimana query akan diawali dengan `?`, dihubungkan dengan `&`, dan setiap query adalah pasangan `key` dan `value`

```python
from flask import Flask, request 
app = Flask(__name__) 

@app.route('/query')
def query_example():
    key1 = 'name'
    key2 = 'age'
    name = request.args[key1] # Jika key tidak disertakan dalam URL, maka akan terjadi server error
    age = request.args.get(key2) # Jika key tidak disertakan dalam URL, maka age akan bernilai None
    return(f"Hello, {name}, you are {age} years old")

if __name__ == '__main__':
    app.run(debug=True, port=5000) 
```

Silakan update file `app.py` dengan script diatas, lalu akses `localhost:5000/query?name=Budi Setiawan`. Perhatikan error yang ditampilkan. Sekarang, cobalah akses  `localhost:5000/query?name=Budi Setiawan&age=32`. Lalu bandingkan ketika kita mengakses  `localhost:5000/query?age=32`. Dari contoh diatas, terdapat dua cara untuk mendapatkan arguments dari url yang dikirim oleh user. Pertama adalah dengan menggunakan `request.args[key]`. Namun cara ini cukup beresiko mengingat jika key tidak tersedia dalam url, maka akan terjadi server error. Cara pertama ini jarang digunakan kecuali jika kita memang mewajibkan adanya argumen tertentu. Cara yang kedua adalah `request.args.get(key)`. Cara kedua ini lebih sering digunakan karena secara otomatis akan memberikan nilai None jika key tidak terdapat dalam url.

Dalam API, penggunaan query arguments dapat sangat membantu terutama dalam endpoint dinamis. Kita akan pelajari bagaimana query arguments akan sangat membantu kita dalam menyederhanakan pembuatan API server kita. 

## API Methods

Senada dengan konsep **CRUD** (**C**reate, **R**read, **U**pdate, **D**elete) dalam database, dalam API konsep tersebut diadopsi menjadi 
- POST(CREATE), 
- GET(READ), 
- PUT(UPDATE), 
- DELETE

Secara konsep, method POST, GET, PUT, dan DELETE dibuat untuk mengatur API agar dapat lebih terstruktur. Meskipun pada prakteknya, endpoint yang kita definisikan menggunakan method "POST" tidaklah harus untuk membuat data. Artinya, tidak ada aturan yang mengharuskan kita untuk menuliskan jenis method dalam setiap endpoints kita (default endpoints menggunakan method GET). Namun, untuk tujuan kerapihan dan mengikuti kaidah yang benar, kita akan coba mendefinisikan endpoints kita dengan method tertentu, dan melihat manfaat dari penggunaan jenis method dalam setiap endpoint. 



Berikut adalah contoh sederhana mengenai method POST dan GET
```python 
from flask import Flask, request 
app = Flask(__name__)

@app.route('/coba', methods=['GET', 'POST'])
def terserah():
    if request.method == 'GET':
        return "Ini adalah Hasil method GET"
    else:
        return "Ini adalah hasil method POST"


if __name__ == '__main__':
    app.run(debug=True, port=5000) 
```

Dan berikut adalah contoh yang lebih rumit
```python
from flask import Flask, request 
app = Flask(__name__)

@app.route('/form', methods=['GET', 'POST']) #allow both GET and POST requests
def form():
    if request.method == 'POST':  # Hanya akan tampil setelah melakukan POST (submit) form
        key1 = 'name'
        key2 = 'age'
        name = request.form.get(key1)
        age = request.form[key2]
        
        return (f'''<h1>Your Name  is: {name}</h1>
                   <h1>Your Age is: {age}</h1>
                ''')
   
    
    return '''<form method="POST">
                  Name: <input type="text" name="name"><br>
                  Age: <input type="text" name="age"><br>
                  <input type="submit" value="Submit"><br>
              </form>'''

if __name__ == '__main__':
    app.run(debug=True, port=5000) 
```

Silakan update file `app.py` kalian dengan sintaks diatas, lalu akses `localhost:5000/form`, aka akan muncul form sederhana dengan tombol "submit". Mengapa form tampil terlebih dahulu? karena dalam url `localhost:5000/form`, kita tidak mendefinisikan method kita sebagai POST atau GET. Maka, secara default request kita akan dianggap sebagai GET. Apakah kita bisa menentukan method kita dalam url? Kami sarankan untuk tidak mencobanya. 

Dalam sintaks diatas, kita mendefinisikan rute atau endpoint `/form` sebagai GET atau POST. Hal ini berarti endpoint tersebut dapat menerima request GET atau POST. 

Setelah kita mengisi form dan menekan tombol "submit", maka kita akan melakukan request POST dengan mengirimkan data-data berupa nama dan umur kepada server kita. Oleh sebab itu, server kita akan menjalankan perintah yang berada dalam kondisi `if request.method == 'POST':`

Cobalah untuk mengganti `if request.method == 'POST':` menjadi `if request.method == 'GET':`, maka kalian akan melihat perbedannya. 

Jika kalian penasaran, cobalah ubah `@app.route('/form', methods=['GET', 'POST'])` menjadi `@app.route('/form', methods=['POST'])`


## JSON Data Type

JSON adalah standar tipe data dalam pengiriman data dengan protokol HTTP. Pada dasarnya, JSON (JavaScript Object Name) sangat mirip, atau bisa dibilang identik dengan tipe data `dictionary` dalam python. Dictionary terdiri dari pasangan `key`:`value`. Berikut adalah contoh bentuk dan akses data dictionary. 

In [None]:
books = {'author': 'Anthony',
         'num_of_page': 123,
         'year' : 2019
        }
print(f"Pengaran buku: {books['author']}, dengan halaman {books['num_of_page']}, diterbitkan pada {books['year']}")

Kita akan mencoba mengirimkan data JSON menggunakan method POST ke endpoint kita. Dikarenakan browser biasa tidak bisa menangani hal tersebut, kita bisa gunakan [postman](https://www.getpostman.com/) atau jupyter notebook untuk membantu.
Silakan update file `app.py` dengan script berikut: 

```python
from flask import Flask, request 
app = Flask(__name__) 

@app.route('/json', methods=['POST']) 
def json_exmp():
    
    req = request.get_json(force=True) # melakukan parsing data json, menyimpannya sebagai dictionary
    
    name = req['name']
    age = req['age']
    address = req['address']
    
    return (f'''Hello {name}, your age is {age}, and your address in {address}
            ''')

if __name__ == '__main__':
    app.run(debug=True, port=5000) #run app in debug mode on port 5000
```

Setelah server tersebut diupdate, kita akan coba melakukan request menggunakan library requests pada python

In [13]:
import requests

# url = 'http://localhost:5000/json'
url = 'http://127.0.0.1:5001/json'
data = {"name" : "Andi", 
        "age" : 10,
        "address" : "Jakarta"
       }
r = requests.post(url,json=data) # pastikan gunakan requests.pos, bukan requests.get
print(r)

<Response [200]>


Response 200 berarti API kita berhasil mengirimkan atau melakukan request yang kita kirim. Untuk mempelajari jenis-jenis repsonse yang dikirimkan melalui HTTP, silakan merujuk ke [sumber ini](https://restfulapi.net/http-status-codes/). Objek yang kita kirimkan berupa `requests.models.Response`. Untuk mendapatkan isi dari respon tersebut, kita dapat gunakan `.text` atau `.content`

In [14]:
print(type(r))

<class 'requests.models.Response'>


In [15]:
print(r.content)
print(r.text)

b'\n            Hello Andi, your age is 10 and your address is Jakarta\n            '

            Hello Andi, your age is 10 and your address is Jakarta
            


## Data Fetching

Kembali ke tujuan utama, kita akan mencoba membuat API yang mampu mengirimkan data dalam bentuk DataFrame (dalam format JSON). Dalam hal ini, kita akan coba menggunakan data `books_c.csv` yang terdapat dalam folder `data_input`. Dalam contoh kali ini, kita akan mengaplikasikan dynamic routing. Konsepnya adalah kita tidak secara eksplisit membuat route atau endpoint, melainkan menyimpannya dalam variabel. Hal ini akan sangat berguna jika data yang ingin kita berikan sangat beragam dan bergantung pada keinginan user.

Untuk melakukan dynamic routing, cukup simpan variabel kedalam tanda `< >`, lalu masukkan variabel tersebut sebagai parameter fungsi di endpoint yang bersangkutan. 

```python 
from flask import Flask, request 
import pandas as pd 
app = Flask(__name__) 

# mendapatkan keseluruhan data dari <data_name>
@app.route('/data/get/<data_name>', methods=['GET']) 
def get_data(data_name): 
    data = pd.read_csv('data/' + str(data_name))
    return (data.to_json())
    

# mendapatkan data dengan filter nilai <value> pada kolom <column>
@app.route('/data/get/equal/<data_name>/<column>/<value>', methods=['GET']) 
def get_data_equal(data_name, column, value): 
    data = pd.read_csv('data/' + str(data_name))
    mask = data[column] == value
    data = data[mask]
    return (data.to_json())

if __name__ == '__main__':
    app.run(debug=True, port=5000) 
```

Untuk meminta data menggunakan API yang telah ada, silakan jalankan cells berikut

In [16]:
import requests
import pandas as pd

In [17]:
pd.read_csv('data/books_c.csv').head()

Unnamed: 0,bookID,title,authors,average_rating,isbn,isbn13,language_code,# num_pages,ratings_count,text_reviews_count
0,1,Harry Potter and the Half-Blood Prince (Harry ...,J.K. Rowling,4.56,0439785960,9780439785969,eng,652,1944099,26249
1,2,Harry Potter and the Order of the Phoenix (Har...,J.K. Rowling,4.49,0439358078,9780439358071,eng,870,1996446,27613
2,3,Harry Potter and the Sorcerer's Stone (Harry P...,J.K. Rowling,4.47,0439554934,9780439554930,eng,320,5629932,70390
3,4,Harry Potter and the Chamber of Secrets (Harry...,J.K. Rowling,4.41,0439554896,9780439554893,eng,352,6267,272
4,5,Harry Potter and the Prisoner of Azkaban (Harr...,J.K. Rowling,4.55,043965548X,9780439655484,eng,435,2149872,33964


In [18]:
# url1 = 'http://localhost:5000/data/get/books_c.csv'
url1 = 'http://localhost:5001/data/get/books_c.csv'
r = requests.get(url1)
r_pd = pd.DataFrame(r.json())

In [19]:
r_pd.head()

Unnamed: 0,bookID,title,authors,average_rating,isbn,isbn13,language_code,# num_pages,ratings_count,text_reviews_count
0,1,Harry Potter and the Half-Blood Prince (Harry ...,J.K. Rowling,4.56,0439785960,9780439785969,eng,652,1944099,26249
1,2,Harry Potter and the Order of the Phoenix (Har...,J.K. Rowling,4.49,0439358078,9780439358071,eng,870,1996446,27613
2,3,Harry Potter and the Sorcerer's Stone (Harry P...,J.K. Rowling,4.47,0439554934,9780439554930,eng,320,5629932,70390
3,4,Harry Potter and the Chamber of Secrets (Harry...,J.K. Rowling,4.41,0439554896,9780439554893,eng,352,6267,272
4,5,Harry Potter and the Prisoner of Azkaban (Harr...,J.K. Rowling,4.55,043965548X,9780439655484,eng,435,2149872,33964


In [27]:
# url2 = 'http://localhost:5000/data/get/equal/books_c.csv/isbn/0439785960'
url2 = 'http://localhost:5001/data/get/equal/books_c.csv/isbn/0439785960'
r = requests.get(url2)
r_pd = pd.DataFrame(r.json())
r_pd.head()

Unnamed: 0,bookID,title,authors,average_rating,isbn,isbn13,language_code,# num_pages,ratings_count,text_reviews_count
0,1,Harry Potter and the Half-Blood Prince (Harry ...,J.K. Rowling,4.56,439785960,9780439785969,eng,652,1944099,26249


In [24]:
r_pd.axes[1]

Index(['bookID', 'title', 'authors', 'average_rating', 'isbn', 'isbn13',
       'language_code', '# num_pages', 'ratings_count', 'text_reviews_count'],
      dtype='object')

In [21]:
# url3 = 'http://localhost:5000/data/get/equal/books_c.csv/authors/J.K. Rowling'
url3 = 'http://localhost:5001/data/get/equal/books_c.csv/authors/J.K. Rowling'
r = requests.get(url3)
r_pd = pd.DataFrame(r.json())
r_pd.tail()

Unnamed: 0,bookID,title,authors,average_rating,isbn,isbn13,language_code,# num_pages,ratings_count,text_reviews_count
12257,41912,Harry Potter ve Felsefe Taşı,J.K. Rowling,4.47,3570211010,9783570211014,tur,353,12,0
12660,43504,Harry Potter and the Philosopher's Stone (Harr...,J.K. Rowling,4.47,158234681X,9781582346816,gla,250,11,0
12663,43509,Harry Potter and the Goblet of Fire (Harry Pot...,J.K. Rowling,4.55,074754624X,9780747546245,eng,636,18097,860
13634,47523,Harry Potter Boxed Set (Harry Potter #1-4),J.K. Rowling,4.67,0439434866,9780439434867,eng,1820,534,6
13637,47532,Harry Potter y el prisionero de Azkaban (Harry...,J.K. Rowling,4.55,8478886559,9788478886555,spa,359,5582,469


In [54]:
dt = pd.DataFrame({'Message' : ['File Not Recognize']})
dt 

Unnamed: 0,Message
0,File Not Recognize


Dari contoh diatas, kita sudah dapat melakukan fetching data menggunakan API dan seberapa bermanfaatnya melakukan dynamic routing. Kedepannya, diharapkan pengetahuan ini dapat dikembangkan dengan melakukan fetching data dari database. 

In [57]:
urlbooks = 'http://localhost:5001/data/get/books_c.csv'
r = requests.get(urlbooks)
books = pd.DataFrame(r.json())
books.tail(2)

Unnamed: 0,bookID,title,authors,average_rating,isbn,isbn13,language_code,# num_pages,ratings_count,text_reviews_count
13712,47708,The Faeries' Oracle,Brian Froud-Jessica Macbeth,4.43,743201116,9780743201117,eng,224,1550,38
13713,47709,The World of The Dark Crystal,Brian Froud,4.29,1862056242,9781862056244,eng,132,3572,33


In [58]:
# dynamics Endpoint (top 5 dengan rating count tertinggi)
books.sort_values(by=['ratings_count'], ascending=False).head()

Unnamed: 0,bookID,title,authors,average_rating,isbn,isbn13,language_code,# num_pages,ratings_count,text_reviews_count
2,3,Harry Potter and the Sorcerer's Stone (Harry P...,J.K. Rowling,4.47,439554934,9780439554930,eng,320,5629932,70390
12243,41865,Twilight (Twilight #1),Stephenie Meyer,3.59,316015849,9780316015844,eng,498,4367341,93619
2000,5907,The Hobbit or There and Back Again,J.R.R. Tolkien,4.26,618260307,9780618260300,eng,366,2364968,31664
1717,5107,The Catcher in the Rye,J.D. Salinger,3.8,316769177,9780316769174,eng,277,2318478,42016
340,960,Angels & Demons (Robert Langdon #1),Dan Brown,3.88,1416524797,9781416524793,eng,736,2279854,20851


In [59]:
# dynamics Endpoint (top 5 dengan jumlah halaman terbanyak)
books.sort_values(by=['# num_pages'], ascending=False).head()

Unnamed: 0,bookID,title,authors,average_rating,isbn,isbn13,language_code,# num_pages,ratings_count,text_reviews_count
7821,24520,The Complete Aubrey/Maturin Novels (5 Volumes),Patrick O'Brian,4.7,039306011X,9780393060119,eng,6576,1287,82
8179,25587,The Second World War,Winston S. Churchill-John Keegan,4.44,039541685X,9780395416853,eng,4736,1437,94
6264,18796,In Search of Lost Time (6 Volumes),Marcel Proust-C.K. Scott Moncrieff-Andreas May...,4.34,0812969642,9780812969641,eng,4211,7255,333
13583,47174,The Norton Anthology of English Literature Vo...,M.H. Abrams-Stephen Greenblatt-James Noggle-Ja...,4.21,0393928330,9780393928334,eng,3956,44,0
12939,44613,Remembrance of Things Past (Boxed Set),Marcel Proust-C.K. Scott Moncrieff-Frederick A...,4.34,0701125594,9780701125592,eng,3400,6,1


In [74]:
# dynamics fetch data versi query
#  untuk model form endpoint : http://127.0.0.1:5001/question/form/

#  questopt=1 : Top 5 Books berdasarkan Ratings count tertinggi
#  questopt=2 : Top 5 Books berdasarkan halaman terbanyak

urlask = 'http://127.0.0.1:5001/question/query?questopt=2'
hasil = requests.get(urlask)
dt = pd.DataFrame(hasil.json())
dt.head()


Unnamed: 0,bookID,title,authors,average_rating,isbn,isbn13,language_code,# num_pages,ratings_count,text_reviews_count
7821,24520,The Complete Aubrey/Maturin Novels (5 Volumes),Patrick O'Brian,4.7,039306011X,9780393060119,eng,6576,1287,82
8179,25587,The Second World War,Winston S. Churchill-John Keegan,4.44,039541685X,9780395416853,eng,4736,1437,94
6264,18796,In Search of Lost Time (6 Volumes),Marcel Proust-C.K. Scott Moncrieff-Andreas May...,4.34,0812969642,9780812969641,eng,4211,7255,333
13583,47174,The Norton Anthology of English Literature Vo...,M.H. Abrams-Stephen Greenblatt-James Noggle-Ja...,4.21,0393928330,9780393928334,eng,3956,44,0
12939,44613,Remembrance of Things Past (Boxed Set),Marcel Proust-C.K. Scott Moncrieff-Frederick A...,4.34,0701125594,9780701125592,eng,3400,6,1


In [103]:
# Static endpoint 
# 1. Get Authors

urlask = 'http://127.0.0.1:5001/get/author'
hasil = requests.get(urlask)
dt = pd.DataFrame(hasil.json())
dt.head()

Unnamed: 0,0
0,J.K. Rowling
1,W. Frederick Zimmerman
10,James Hamilton-Paterson
100,George Eliot-Edmund White
1000,Sandra Boynton


In [149]:
# Static endpoint 
# 2. Get List Books English version

urlask = 'http://127.0.0.1:5001/get/englishversion'
hasil = requests.get(urlask)
dt = pd.DataFrame(hasil.json())
dt.head()

Unnamed: 0,Total English Version,ListBook
0,10594,"{'bookID': {'0': 1, '1': 2, '2': 3, '3': 4, '4..."


In [148]:
# Static endpoint 
# 2. Get List Books English version
books = pd.read_csv('data/books_c.csv')
data = books[books.language_code == 'eng']
total = data.bookID.count()
total
dt = pd.DataFrame({"total" : [total],
                  "ListBook" : [data]})
dt.head()

Unnamed: 0,total,ListBook
0,10594,bookID ...


In [165]:
books2 = books.copy()
# books2[['authors', 'language_code']] = books2[['authors', 'language_code']].astype('category')
books2.dtypes

bookID                  int64
title                  object
authors                object
average_rating        float64
isbn                   object
isbn13                  int64
language_code          object
# num_pages             int64
ratings_count           int64
text_reviews_count      int64
dtype: object

In [197]:
# EDA Groupby()
data1 = books2[['authors','# num_pages']]
data1.groupby(['authors']).mean().sort_values(by='# num_pages', ascending=False).reset_index().head()

Unnamed: 0,authors,# num_pages
0,Winston S. Churchill-John Keegan,4736.0
1,Marcel Proust-C.K. Scott Moncrieff-Andreas May...,4211.0
2,M.H. Abrams-Stephen Greenblatt-James Noggle-Ja...,3956.0
3,Marcel Proust-C.K. Scott Moncrieff-Frederick A...,3400.0
4,M.H. Abrams-Stephen Greenblatt,3072.0


In [180]:
# books2.groupby(['authors']).count()
books2.describe()

Unnamed: 0,bookID,average_rating,isbn13,# num_pages,ratings_count,text_reviews_count
count,13714.0,13714.0,13714.0,13714.0,13714.0,13714.0
mean,22159.859195,3.93062,9764017000000.0,342.402727,17765.4,533.632128
std,13700.926816,0.357893,398767900000.0,252.650165,112957.2,2529.006691
min,1.0,0.0,8987060000.0,0.0,0.0,0.0
25%,10619.25,3.77,9780345000000.0,196.0,83.0,7.0
50%,21321.5,3.96,9780613000000.0,301.0,630.5,40.0
75%,33311.75,4.13,9780940000000.0,421.0,4742.25,222.0
max,47709.0,5.0,9790008000000.0,6576.0,5629932.0,93619.0


In [204]:
import sqlite3
conn = sqlite3.connect('data/chinook.db')

In [205]:
df = pd.read_sql_query('''
                        SELECT * FROM customers
                    ''', conn)
df.head(2)

Unnamed: 0,CustomerId,FirstName,LastName,Company,Address,City,State,Country,PostalCode,Phone,Fax,Email,SupportRepId
0,1,Luís,Gonçalves,Embraer - Empresa Brasileira de Aeronáutica S.A.,"Av. Brigadeiro Faria Lima, 2170",São José dos Campos,SP,Brazil,12227-000,+55 (12) 3923-5555,+55 (12) 3923-5566,luisg@embraer.com.br,3
1,2,Leonie,Köhler,,Theodor-Heuss-Straße 34,Stuttgart,,Germany,70174,+49 0711 2842222,,leonekohler@surfeu.de,5


In [255]:
# EDA datetime + Joining > 4 table
dtDate = pd.read_sql_query('''
                        SELECT i.*, c.Country,
                            ii.TrackId, ii.UnitPrice, ii.Quantity, ii.UnitPrice * ii.Quantity as TotalPriceDtl,
                            t.Name TrackName, t.Composer, g.Name Genre, ar.Name artis
                        FROM invoices i
                        LEFT JOIN invoice_items ii ON i.invoiceId = ii.invoiceId
                        LEFT JOIN customers c ON c.CustomerId = i.CustomerId
                        LEFT JOIN Tracks t ON t.TrackId = ii.TrackId
                        LEFT JOIN Genres g ON g.GenreId = t.GenreId
                        LEFT JOIN Albums al ON al.AlbumId = t.AlbumId
                        LEFT JOIN Artists ar ON ar.ArtistId = al.ArtistId
                        ''', conn,
                          parse_dates='InvoiceDate')
dtDate['InvoiceWD'] = dtDate['InvoiceDate'].dt.day_name()
dtDate.head(2)

Unnamed: 0,InvoiceId,CustomerId,InvoiceDate,BillingAddress,BillingCity,BillingState,BillingCountry,BillingPostalCode,Total,Country,TrackId,UnitPrice,Quantity,TotalPriceDtl,TrackName,Composer,Genre,artis,InvoiceWD
0,1,2,2009-01-01,Theodor-Heuss-Straße 34,Stuttgart,,Germany,70174,1.98,Germany,2,0.99,1,0.99,Balls to the Wall,,Rock,Accept,Thursday
1,1,2,2009-01-01,Theodor-Heuss-Straße 34,Stuttgart,,Germany,70174,1.98,Germany,4,0.99,1,0.99,Restless and Wild,"F. Baltes, R.A. Smith-Diesel, S. Kaufman, U. D...",Rock,Accept,Thursday


In [241]:
dtDate.InvoiceDate.min()

Timestamp('2009-01-01 00:00:00')

In [299]:
# EDA datetime operations
# url = 'http://127.0.0.1:5001/get/data/table/Customers'
# url = 'http://127.0.0.1:5001/data/join/date'
url = 'http://127.0.0.1:5001/eda/catfreq'
h = requests.get(url)
# df = pd.DataFrame(h.json())
# df.head(2)

pd.DataFrame(h.json()).head(2)

Unnamed: 0,InvoiceId,CustomerId,InvoiceDate,BillingAddress,BillingCity,BillingState,BillingCountry,BillingPostalCode,Total,Country,TrackId,UnitPrice,Quantity,TotalPriceDtl,TrackName,Composer,Genre,artis,InvoiceWD
0,1,2,1230768000000,Theodor-Heuss-Straße 34,Stuttgart,,Germany,70174,1.98,Germany,2,0.99,1,0.99,Balls to the Wall,,Rock,Accept,Thursday
1,1,2,1230768000000,Theodor-Heuss-Straße 34,Stuttgart,,Germany,70174,1.98,Germany,4,0.99,1,0.99,Restless and Wild,"F. Baltes, R.A. Smith-Diesel, S. Kaufman, U. D...",Rock,Accept,Thursday


In [249]:
# Genre paling sering muncul di hari senin di German
dtGenre = pd.read_sql_query('''
                        SELECT g.Name Genre, c.Country,
                            CASE CAST(strftime('%w', i.InvoiceDate) AS integer)
                              when 0 then 'Sunday'
                              when 1 then 'Monday'
                              when 2 then 'Tuesday'
                              when 3 then 'Wednesday'
                              when 4 then 'Thursday'
                              when 5 then 'Friday'
                              else 'Saturday'
                            END as InvoiceWD,
                            SUM(ii.Quantity) TotalQty
                        FROM invoices i
                        LEFT JOIN invoice_items ii ON i.invoiceId = ii.invoiceId
                        LEFT JOIN customers c ON c.CustomerId = i.CustomerId
                        LEFT JOIN Tracks t ON t.TrackId = ii.TrackId
                        LEFT JOIN Genres g ON g.GenreId = t.GenreId
                        LEFT JOIN Albums al ON al.AlbumId = t.AlbumId
                        LEFT JOIN Artists ar ON ar.ArtistId = al.ArtistId
                        WHERE c.Country = 'Germany' AND CAST(strftime('%w', i.InvoiceDate) AS integer) = 1
                        GROUP BY g.Name, c.Country,
                            CASE CAST(strftime('%w', i.InvoiceDate) AS integer)
                              when 0 then 'Sunday'
                              when 1 then 'Monday'
                              when 2 then 'Tuesday'
                              when 3 then 'Wednesday'
                              when 4 then 'Thursday'
                              when 5 then 'Friday'
                              else 'Saturday'
                            END 
                        ORDER BY TotalQty DESC
                        ''', conn)
dtGenre.head()

Unnamed: 0,Genre,Country,InvoiceWD,TotalQty
0,Rock,Germany,Monday,29
1,Metal,Germany,Monday,13
2,Latin,Germany,Monday,7
3,Soundtrack,Germany,Monday,4
4,Alternative & Punk,Germany,Monday,3


In [288]:
# EDA categorical n Frequency
dtx = dtDate[(dtDate.Country == 'Germany') & (dtDate.InvoiceWD == 'Monday')].\
            groupby(['Country', 'InvoiceWD', 'Genre']).sum().\
            sort_values(by='Quantity', ascending=False).reset_index()
dtx[['Country', 'InvoiceWD', 'Genre', 'Quantity']].head()

Unnamed: 0,Country,InvoiceWD,Genre,Quantity
0,Germany,Monday,Rock,29
1,Germany,Monday,Metal,13
2,Germany,Monday,Latin,7
3,Germany,Monday,Soundtrack,4
4,Germany,Monday,Alternative & Punk,3


## Deploying Flask APP 

Sekarang, setelah Flask App kita sudah berhasil dijalankan, kita akan coba deploy app tersebut **(beserta environmentnya)** ke app hosting/web hosting/cloud. Untuk saat ini, kita akan menggunakan [heroku](https://www.heroku.com/) karena **gratis**. Untuk melakukan deployment, silakan registrasi akun baru. 

Langkah ini dapat kalian ikuti pada [sumber ini](https://stackabuse.com/deploying-a-flask-application-to-heroku/)

### Get the requirements

Silakan buat environment baru, lalu hanya install `pandas`, `flask`, dan `gunicorn`. Setelah libary tersebut berhasil diinstal, jalankan `pip freeze > requirements.txt` untuk mengeksport semua library kedalam file `requirements.txt`. Perlu diingat bahwa Heroku hanya bisa mengenali libary yang kita pakai jika kita menuliskannya kedalam requirements.txt

### Create Heroku App
Untuk membuat heroku app, cukup klik new->app pada dashboard heroku. Perlu diingat bahwa nama app di heroku haruslah unik. 

### Deployment

Setelah kita membuat dan menamai app kita di heroku, kita harus mengupload file app kita dari lokal. Untuk melakukan hal ini, kita akan menggunakan git. Cara termudah adalah dengan membuat repository baru di github, lalu sambungkan aplikasi heroku degan repository github tersebut. 
![](res/deploy-1.PNG)

Nyalakan `Automatic Deploy` jika ingin melakukan deployment ulang setiap terjadi perubahan pada repositoy secara otomatis (kurang disarankan). Setelah repository terhubung, klik tombol deploy branch yang berada di bagian bawah app heroku (jika tidak ada branch pada repository github, secara default branch master yang akan dipilih). 

![](res/deploy-2.PNG)

# Test Your API Endpoints

Setelah deployment app kita behasil, kita bisa mencoba mengaksesnya melalui browser, atau jupyter notebook(lebih disarankan). Mari coba beberapa endpoints yang telah kita coba lakukan di lokal. 

Untuk catatan, tidak perlu menuliskan port pada url heroku, karena kita sudah mengaturnya pada file `Procfile`

In [35]:
import requests
import pandas as pd 

In [33]:
# deploy to heroku capstone-api (https://capsapi.herokuapp.com)
heroku_url = 'https://capsapi.herokuapp.com/data/get/books_c.csv'
r = requests.get(heroku_url)
r_pd = pd.DataFrame(r.json())
r_pd

Unnamed: 0,bookID,title,authors,average_rating,isbn,isbn13,language_code,# num_pages,ratings_count,text_reviews_count
0,1,Harry Potter and the Half-Blood Prince (Harry ...,J.K. Rowling,4.56,0439785960,9780439785969,eng,652,1944099,26249
1,2,Harry Potter and the Order of the Phoenix (Har...,J.K. Rowling,4.49,0439358078,9780439358071,eng,870,1996446,27613
2,3,Harry Potter and the Sorcerer's Stone (Harry P...,J.K. Rowling,4.47,0439554934,9780439554930,eng,320,5629932,70390
3,4,Harry Potter and the Chamber of Secrets (Harry...,J.K. Rowling,4.41,0439554896,9780439554893,eng,352,6267,272
4,5,Harry Potter and the Prisoner of Azkaban (Harr...,J.K. Rowling,4.55,043965548X,9780439655484,eng,435,2149872,33964
...,...,...,...,...,...,...,...,...,...,...
13709,47699,M Is for Magic,Neil Gaiman-Teddy Kristiansen,3.82,0061186422,9780061186424,eng,260,11317,1060
13710,47700,Black Orchid,Neil Gaiman-Dave McKean,3.72,0930289552,9780930289553,eng,160,8710,361
13711,47701,InterWorld (InterWorld #1),Neil Gaiman-Michael Reaves,3.53,0061238961,9780061238963,en-US,239,14334,1485
13712,47708,The Faeries' Oracle,Brian Froud-Jessica Macbeth,4.43,0743201116,9780743201117,eng,224,1550,38


In [36]:
urldata = 'https://capsapi.herokuapp.com/data/get/pulsar_stars.csv'
hasil = requests.get(urldata)
r_df = pd.DataFrame(hasil.json())
r_df.head()

Unnamed: 0,Mean of the integrated profile,Standard deviation of the integrated profile,Excess kurtosis of the integrated profile,Skewness of the integrated profile,Mean of the DM-SNR curve,Standard deviation of the DM-SNR curve,Excess kurtosis of the DM-SNR curve,Skewness of the DM-SNR curve,target_class
0,140.5625,55.683782,-0.234571,-0.699648,3.199833,19.110426,7.975532,74.242225,0
1,102.507812,58.88243,0.465318,-0.515088,1.677258,14.860146,10.576487,127.39358,0
2,103.015625,39.341649,0.323328,1.051164,3.121237,21.744669,7.735822,63.171909,0
3,136.75,57.178449,-0.068415,-0.636238,3.642977,20.95928,6.896499,53.593661,0
4,88.726562,40.672225,0.600866,1.123492,1.17893,11.46872,14.269573,252.567306,0


In [4]:
import requests
import pandas as pd 
heroku_url = 'https://algo-capstone.herokuapp.com/data/get/books_c.csv'
r = requests.get(heroku_url)
r_pd = pd.DataFrame(r.json())
r_pd

Unnamed: 0,bookID,title,authors,average_rating,isbn,isbn13,language_code,# num_pages,ratings_count,text_reviews_count
0,1,Harry Potter and the Half-Blood Prince (Harry ...,J.K. Rowling,4.56,0439785960,9780439785969,eng,652,1944099,26249
1,2,Harry Potter and the Order of the Phoenix (Har...,J.K. Rowling,4.49,0439358078,9780439358071,eng,870,1996446,27613
2,3,Harry Potter and the Sorcerer's Stone (Harry P...,J.K. Rowling,4.47,0439554934,9780439554930,eng,320,5629932,70390
3,4,Harry Potter and the Chamber of Secrets (Harry...,J.K. Rowling,4.41,0439554896,9780439554893,eng,352,6267,272
4,5,Harry Potter and the Prisoner of Azkaban (Harr...,J.K. Rowling,4.55,043965548X,9780439655484,eng,435,2149872,33964
...,...,...,...,...,...,...,...,...,...,...
13709,47699,M Is for Magic,Neil Gaiman-Teddy Kristiansen,3.82,0061186422,9780061186424,eng,260,11317,1060
13710,47700,Black Orchid,Neil Gaiman-Dave McKean,3.72,0930289552,9780930289553,eng,160,8710,361
13711,47701,InterWorld (InterWorld #1),Neil Gaiman-Michael Reaves,3.53,0061238961,9780061238963,en-US,239,14334,1485
13712,47708,The Faeries' Oracle,Brian Froud-Jessica Macbeth,4.43,0743201116,9780743201117,eng,224,1550,38


In [150]:
# dynamics fetch data versi query
#  untuk model form endpoint : https://capsapi.herokuapp.com/question/form/

#  questopt=1 : Top 5 Books berdasarkan Ratings count tertinggi
#  questopt=2 : Top 5 Books berdasarkan halaman terbanyak

urlask = 'https://capsapi.herokuapp.com/question/query?questopt=2'
hasil = requests.get(urlask)
dt = pd.DataFrame(hasil.json())
dt.head()

Unnamed: 0,bookID,title,authors,average_rating,isbn,isbn13,language_code,# num_pages,ratings_count,text_reviews_count
7821,24520,The Complete Aubrey/Maturin Novels (5 Volumes),Patrick O'Brian,4.7,039306011X,9780393060119,eng,6576,1287,82
8179,25587,The Second World War,Winston S. Churchill-John Keegan,4.44,039541685X,9780395416853,eng,4736,1437,94
6264,18796,In Search of Lost Time (6 Volumes),Marcel Proust-C.K. Scott Moncrieff-Andreas May...,4.34,0812969642,9780812969641,eng,4211,7255,333
13583,47174,The Norton Anthology of English Literature Vo...,M.H. Abrams-Stephen Greenblatt-James Noggle-Ja...,4.21,0393928330,9780393928334,eng,3956,44,0
12939,44613,Remembrance of Things Past (Boxed Set),Marcel Proust-C.K. Scott Moncrieff-Frederick A...,4.34,0701125594,9780701125592,eng,3400,6,1


In [151]:
# Static endpoint 
# 1. Get Authors

urlask = 'https://capsapi.herokuapp.com/get/author'
hasil = requests.get(urlask)
dt = pd.DataFrame(hasil.json())
dt.head()

Unnamed: 0,0
0,J.K. Rowling
1,W. Frederick Zimmerman
10,James Hamilton-Paterson
100,George Eliot-Edmund White
1000,Sandra Boynton


In [152]:
# Static endpoint 
# 2. Get List Books English version

urlask = 'https://capsapi.herokuapp.com/get/englishversion'
hasil = requests.get(urlask)
dt = pd.DataFrame(hasil.json())
dt.head()

Unnamed: 0,Total English Version,ListBook
0,10594,"{'bookID': {'0': 1, '1': 2, '2': 3, '3': 4, '4..."


# Document your API

Hal terpenting dalam pembuatan API adalah dokumentasi. Aplikasi yang bagus harus memiliki dokumentasi untuk user yang belum tahu cara menggunakannya. Hal ini juga memudahkan tim kami untuk melakukan penilaian. Oleh karena itu, buatlah dokumentasi API sederhana dengan format : 
- Deskripsi API 
- Endpoints
___
```
Deskripsi: (Contoh Dokumentasi)
API ini dinominasikan sebagai capstone project yang berguna untuk mengirimkan data kepada user. Proses wrangling dilakukan sesuai endpoint-endpoint yang dimaksud. Base url dari aplikasi ini adalah https://algo-capstone.herokuapp.com

Endpoints: 
    1. / , method = GET
    Merupakan endpoint home, dan akan mengembalikan nilai berupa string selamat datang
    
    2. /data/get/<data_name> , method = GET
    Mengembalikan data <data_name> dalam bentuk JSON. Beberapa data yang tersedia adalah : 
        - books_c.csv
        - pulsar_stars.csv (tidak digunakan, hanya contoh saja)
        
    3. /data/get/equal/<data_name>/<column>/<value>
    Mengembalikan <data_name> yang telah di filter dimana nilai pada <column> = <value>

```
___

# Tips 

Jika dirasa ada kesulitan untuk menentukan informasi apa yang akan dikirimkan dalam sebuah endpoint (membuat endpoint), cobalah beralih ke sudut pandang user. Sebagai user, informasi apa yang ingin kita dapatkan dari data tersebut? Akan ada sangat banyak kemungkinan yang bisa diambil. Kalian bisa melakukannya! 

Happy Coding !
~ Team Algoritma