# Pengenalan Data Source dan SQL
Database merupakan salah satu datasource yang paling sering digunakan. Database biasanya terdiri dari lebih dari satu tabel. Bagaimana cara mengolah tabel tabel tersebut? Bagaimana cara membuat simple Database? Mari kita bahas lebih lanjut


## Menghubungkan GDrive dengan Colab
Kita perlu menghubungkan GDrive folder tempat kita menyimpan dan mengakses data/file dengan Colab



In [None]:
# Mengakses google drive ke dalam google colaboratory
from google.colab import drive
drive.mount('/content/gdrive')
import os

Mounted at /content/gdrive


In [None]:
# Inisiasi directory tempat data akan dibaca dan disimpan
path = "gdrive/MyDrive/Summer Class/Meet 4/" #silahkan masukkan path sesuai dengan letak data di drive masing-masing

In [None]:
# Cek isi direktori
os.listdir(path)

['weather_stations.db',
 'rexon_metals.db',
 'narasio_class.db',
 '[REVIEW] Meeting 4 Data Source and SQL.ipynb',
 'Copy of percobaan_weather_stations.db']

## Membuat Database Baru
Terdapat beberapa tipe database. 
1. **Centralized Database** yang membutuhkan server sebagai pusat kontrol data, contohnya seperti MySQL, PostgreSQL, Oracle, dsb. 
2. **Light-weight Darabase** lebih cenderung lebih ringan dan simple. Database ini cocok untuk digunakan dalam belajar, contohnya SQLite dan Miscrosoft Access.

Mari belajar bagaimana membuat database dengan menggunakan SQLite3 pada python

In [None]:
# Import SQLite library dan library yang terkait dengan pengolahan data.
import sqlite3
import pandas as pd

Kita tidak perlu menginstall SQLite3 Library karena SQLite3 Library merupakan standard library untuk Python versi diatas Python 2.5


Untuk membuat database baru, pertama-tama kita perlu membuat koneksi object dengan menggunakan sintaks **connect()**

In [None]:
# Kemudian membuat connection object yang akan menghubungkan kita dengan database
conn = sqlite3.connect('narasio_class.db')

In [None]:
# Setelah memiliki koneksi, kemudian membuat cursor object dengan conn.cursor()
# agar bisa memanggil execute() untuk mengeksekusi perintah-perintah sql
cur = conn.cursor()

## Membuat Tabel di dalam Database yang baru
Database narasio_class.db sudah terbentuk dan tersimpan pada drive yang sudah kita atur. Tetapi database tersebut masih kosong. Kita perlu membuat tabel untuk mengisi database yang kosong tadi

In [None]:
# Kemudian kita membuat tabel untuk mengisi database narasio_class.db yang masih kosong
cur.execute('''CREATE TABLE classes (
              id INT, 
              name TEXT, 
              quota REAL, 
              price REAL
            )''')

<sqlite3.Cursor at 0x7f629fece650>

In [None]:
# Contoh lain untuk tabel kedua
cur.execute('''CREATE TABLE exams (
              id INT, 
              student_name TEXT, 
              score REAL, 
              indeks TEXT
              )''')

<sqlite3.Cursor at 0x7f629fece650>

In [None]:
# Mengecek tabel yang sudah kita buat sesuai apa belum
cur.execute("SELECT name FROM sqlite_master WHERE type='table';")
print(cur.fetchall())

[('classes',), ('exams',)]


In [None]:
# Langkah selanjutnya yaitu menambahkan value pada tabel yang telah kita definisikan. 
# Value dapat dimasukkan dengan menggunakan SQL statement INSERT INTO.
cur.execute("INSERT INTO classes VALUES (1,'Basic_analytics',100,500000)")
cur.execute("INSERT INTO exams VALUES (1,'Fitria',88,'A')")

# Kemudian jangan lupa untuk menyimpan semua perubahan dengan melakukan commit() agar semua perubahan tidak hilang ketika kita tutup
conn.commit()

In [None]:
# mengecek value pada tabel classes dengan tampilan berupa dataframe
pd.read_sql_query('SELECT * FROM classes', conn)

Unnamed: 0,id,name,quota,price
0,1,Basic_analytics,100.0,500000.0


In [None]:
# mengecek value pada tabel exams
pd.read_sql_query('SELECT * FROM exams', conn)

Unnamed: 0,id,student_name,score,indeks
0,1,Fitria,88.0,A


Langkah untuk membuat tabel dapat diulangi kembali hingga semua tabel terinput dengan sempurna

In [None]:
# Menyimpan file .db ke dalam folder GDrive direktori
sqlite3.connect(path + 'narasio_class.db')

<sqlite3.Connection at 0x7f629ff62e30>

In [None]:
# Kemudian kita dapat menutup connection ke database apabila database telah selesai terisi.
conn.close()

## Membuka Database
Kita juga dapat membuka file database yang kita miliki. Langkah untuk membuka database dengan menggunakan Python programming hampir sama dengan membuat database baru, sebagai berikut :

In [None]:
# untuk mengecek ada file apa saja didalam Gdrive folder direktori yang digunakan
os.listdir(path)

['[REVIEW] Meeting 4 Data Source and SQL.ipynb',
 'weather_stations.db',
 'rexon_metals.db',
 'narasio_class.db']

In [None]:
# Import sqlite3 library apabila belum diimport diawal project
# Kemudian kembali membuat connection ke database yang udah ada
conn_1 = sqlite3.connect(path + 'rexon_metals.db')

# Membuat cursor object untuk memanggil SQL statement
c_1 = conn_1.cursor()

In [None]:
# Kali ini kita akan mengecek terdapat tabel apa saja di rexon_metals.db
c_1.execute("SELECT name FROM sqlite_master WHERE type='table'")
print(c_1.fetchall())

[('PRODUCT',), ('sqlite_sequence',), ('CUSTOMER',), ('CUSTOMER_ORDER',), ('stocks',)]


Dari hasil tersebut dapat kita ketahui bahwa kita memiliki 4 tabel pada database rexon_metals, yaitu tabel product, tabel customer, tabel customer order dan tabel stock

In [None]:
# Menampilkan table dalam bentuk dataframe
sqlite_sequence_table = pd.read_sql_query('SELECT * FROM sqlite_sequence', conn_1)
sqlite_sequence_table

Unnamed: 0,name,seq
0,PRODUCT,9
1,CUSTOMER,5
2,CUSTOMER_ORDER,5


In [None]:
# Setelah kita mengetahui tabel mana yang bisa diakses dan terdapat berapa value pada tabel tersebut,
# kemudian kita dapat memulai simple query dan menyimpan hasil tabel dalam bentuk dataframe
product_table = pd.read_sql_query('SELECT * FROM PRODUCT', conn_1)
product_table

Unnamed: 0,PRODUCT_ID,DESCRIPTION,PRICE
0,1,Copper,7.51
1,2,Aluminum,2.58
2,3,Silver,15.0
3,4,Steel,12.31
4,5,Bronze,4.0
5,6,Duralumin,7.6
6,7,Solder,14.16
7,8,Stellite,13.31
8,9,Brass,4.75


In [None]:
# kalau kita tidak menyimpan dalam dataframe akan terlihat seperti berikut
c_1.execute("SELECT * FROM PRODUCT")

# Menampilkan dalam bentuk list
print(c_1.fetchall())

[(1, 'Copper', 7.51), (2, 'Aluminum', 2.58), (3, 'Silver', 15), (4, 'Steel', 12.31), (5, 'Bronze', 4), (6, 'Duralumin', 7.6), (7, 'Solder', 14.16), (8, 'Stellite', 13.31), (9, 'Brass', 4.75)]


In [None]:
# Kemudian kita dapat menyimpan tabel tabel tadi dalam bentuk dataframe untuk memudahkan dalam menganalisa
customer_table = pd.read_sql_query('SELECT * FROM CUSTOMER', conn_1)
customer_table

Unnamed: 0,CUSTOMER_ID,NAME,REGION,STREET_ADDRESS,CITY,STATE,ZIP
0,1,LITE Industrial,Southwest,729 Ravine Way,Irving,TX,75014
1,2,Rex Tooling Inc,Southwest,6129 Collie Blvd,Dallas,TX,75201
2,3,Re-Barre Construction,Southwest,9043 Windy Dr,Irving,TX,75032
3,4,Prairie Construction,Southwest,264 Long Rd,Moore,OK,62104
4,5,Marsh Lane Metal Works,Southeast,9143 Marsh Ln,Avondale,LA,79782


In [None]:
customer_order_table = pd.read_sql_query('SELECT * FROM CUSTOMER_ORDER', conn_1)
customer_order_table

Unnamed: 0,ORDER_ID,ORDER_DATE,SHIP_DATE,CUSTOMER_ID,PRODUCT_ID,ORDER_QTY,SHIPPED
0,1,2015-05-15,2015-05-18,1,1,450,False
1,2,2015-05-18,2015-05-21,3,2,600,False
2,3,2015-05-20,2015-05-23,3,5,300,False
3,4,2015-05-18,2015-05-22,5,4,375,False
4,5,2015-05-17,2015-05-20,3,2,500,False


## Let's write simple query
Setelah membuat database, menambahkan tabel pada database, dan kemudian membuka database yang sudah kita simpan dalam drive, kita perlu mengetahui apa sih query itu? Sederhananya query terdiri dari 2 syntax yang harus dipenuhi, yaitu **SELECT [nama kolom]** dan **FROM [nama tabel]**. SELECT untuk memilih kolom mana yang akan diambil dan FROM untuk menunjukkan tabel yang akan digunakan. Kita juga dapat mengambil semua kolom sekaligus dengan menggunakan SELECT * FROM [nama tabel]. Selain itu, adapula syntax **LIMIT** yang berfungsi membatasi jumlah baris data yang akan ditampilkan.


In [None]:
# Oke kita bikin query yang sederhana dulu. QUery dibawah ini akan menunjukkan semua value yang ada pada tabel CUSTOMER
pd.read_sql_query('''SELECT * 
                     FROM CUSTOMER''',
                  conn_1)

Unnamed: 0,CUSTOMER_ID,NAME,REGION,STREET_ADDRESS,CITY,STATE,ZIP
0,1,LITE Industrial,Southwest,729 Ravine Way,Irving,TX,75014
1,2,Rex Tooling Inc,Southwest,6129 Collie Blvd,Dallas,TX,75201
2,3,Re-Barre Construction,Southwest,9043 Windy Dr,Irving,TX,75032
3,4,Prairie Construction,Southwest,264 Long Rd,Moore,OK,62104
4,5,Marsh Lane Metal Works,Southeast,9143 Marsh Ln,Avondale,LA,79782


In [None]:
# Untuk mengambil ID tiap customer dan nama kota dari tiap customer
pd.read_sql_query('''SELECT 
                        CUSTOMER_ID, 
                        CITY 
                     FROM CUSTOMER''',
                  conn_1)

Unnamed: 0,CUSTOMER_ID,CITY
0,1,Irving
1,2,Dallas
2,3,Irving
3,4,Moore
4,5,Avondale


In [None]:
# Untuk mengambil 3 row teratas
pd.read_sql_query('''SELECT 
                        CUSTOMER_ID, 
                        CITY 
                     FROM CUSTOMER 
                     LIMIT 3''', 
                  conn_1)

Unnamed: 0,CUSTOMER_ID,CITY
0,1,Irving
1,2,Dallas
2,3,Irving
