# Pengenalan Data Source dan SQL
Database merupakan salah satu datasource yang paling sering digunakan. Database biasanya terdiri dari lebih dari satu tabel. Bagaimana cara mengolah tabel tabel tersebut? Bagaimana cara membuat simple Database? Mari kita bahas lebih lanjut


# Menghubungkan GDrive dengan Colab
Kita perlu menghubungkan GDrive folder tempat kita menyimpan dan mengakses data/file dengan Colab



In [None]:
# Mengakses google drive ke dalam google colaboratory
from google.colab import drive
drive.mount('/content/gdrive')
import os

Mounted at /content/gdrive


In [None]:
# Inisiasi directory tempat data akan dibaca dan disimpan
path = "gdrive/MyDrive/SQL1/" #silahkan masukkan path sesuai dengan letak data di drive masing-masing

In [None]:
# Cek isi direktori
os.listdir(path)

['rexon_metals.db',
 'weather_stations.db',
 'percobaan_weather_stations.db',
 'retail_online_shop.db']

# Membuat Database Baru
Terdapat beberapa tipe database. 
1. **Centralized Database** yang membutuhkan server sebagai pusat kontrol data, contohnya seperti MySQL, PostgreSQL, Oracle, dsb. 
2. **Light-weight Darabase** lebih cenderung lebih ringan dan simple. Database ini cocok untuk digunakan dalam belajar, contohnya SQLite dan Miscrosoft Access.

Mari belajar bagaimana membuat database dengan menggunakan SQLite3 pada python

In [None]:
# Import SQLite library dan library yang terkait dengan pengolahan data.
import sqlite3
import pandas as pd

Kita tidak perlu menginstall SQLite3 Library karena SQLite3 Library merupakan standard library untuk Python versi diatas Python 2.5


Untuk membuat database baru, pertama-tama kita perlu membuat koneksi object dengan menggunakan sintaks **connect()**

In [None]:
# Kemudian membuat connection object yang akan menghubungkan kita dengan database
# Apabila database belum ada di Gdrive kita, langkah ini dapat digunakan untuk menyimpan file .db baru ke dalam folder GDrive direktori
conn = sqlite3.connect(path + 'narasio_class.db')

In [None]:
# Setelah memiliki koneksi, kemudian membuat cursor object dengan conn.cursor()
# agar bisa memanggil execute() untuk mengeksekusi perintah-perintah sql
cur = conn.cursor()

# Membuat Tabel di dalam Database yang baru
Database narasio_class.db sudah terbentuk dan tersimpan pada drive yang sudah kita atur. Tetapi database tersebut masih kosong. Kita perlu membuat tabel untuk mengisi database yang kosong tadi

In [None]:
# Kemudian kita membuat tabel untuk mengisi database narasio_class.db yang masih kosong
cur.execute('''CREATE TABLE classes (
              id INT, 
              name TEXT, 
              quota REAL, 
              price REAL
            )''')

<sqlite3.Cursor at 0x223d45d9880>

In [None]:
# Contoh lain untuk tabel kedua
cur.execute('''CREATE TABLE exams (
              id INT, 
              student_name TEXT, 
              score REAL, 
              indeks TEXT
              )''')

<sqlite3.Cursor at 0x223d45d9880>

In [None]:
# Mengecek tabel yang sudah kita buat sesuai apa belum
cur.execute("SELECT name FROM sqlite_master WHERE type='table';")jk
print(cur.fetchall())

[('classes',), ('exams',)]


In [None]:
# Langkah selanjutnya yaitu menambahkan value pada tabel yang telah kita definisikan. 
# Value dapat dimasukkan dengan menggunakan SQL statement INSERT INTO.
cur.execute("INSERT INTO classes VALUES (1,'Basic_analytics',100,500000)")
cur.execute("INSERT INTO exams VALUES (1,'Ucup',88,'A')")

# Kemudian jangan lupa untuk menyimpan semua perubahan dengan melakukan commit() agar semua perubahan tidak hilang ketika kita tutup
conn.commit()

In [None]:
# mengecek value pada tabel classes dengan tampilan berupa dataframe
pd.read_sql_query('SELECT * FROM classes', conn)

Unnamed: 0,id,name,quota,price
0,1,Basic_analytics,100.0,500000.0


In [None]:
# mengecek value pada tabel exams
pd.read_sql_query('SELECT * FROM exams', conn)

Unnamed: 0,id,student_name,score,indeks
0,1,Ucup,88.0,A


Langkah untuk membuat tabel dapat diulangi kembali hingga semua tabel terinput dengan sempurna

In [None]:
# Kemudian kita dapat menutup connection ke database apabila database telah selesai terisi.
conn.close()

# Membuka Database
Kita juga dapat membuka file database yang kita miliki. Langkah untuk membuka database dengan menggunakan Python programming sama dengan membuat database baru, sebagai berikut :

In [None]:
# untuk mengecek ada file apa saja didalam Gdrive folder direktori yang digunakan
os.listdir(path)

['rexon_metals.db',
 'weather_stations.db',
 'percobaan_weather_stations.db',
 'retail_online_shop.db',
 'narasio_class.db']

In [None]:
# Import sqlite3 library apabila belum diimport diawal project
# Kemudian kembali membuat connection ke database yang udah ada
conn_1 = sqlite3.connect(path + 'rexon_metals.db')

# Membuat cursor object untuk memanggil SQL statement
c_1 = conn_1.cursor()

In [None]:
# Kali ini kita akan mengecek terdapat tabel apa saja di rexon_metals.db
c_1.execute("SELECT name FROM sqlite_master WHERE type='table'")
print(c_1.fetchall())

[('PRODUCT',), ('sqlite_sequence',), ('CUSTOMER',), ('CUSTOMER_ORDER',), ('stocks',)]


Dari hasil tersebut dapat kita ketahui bahwa kita memiliki 4 tabel pada database rexon_metals, yaitu tabel product, tabel customer, tabel customer order dan tabel stock

In [None]:
# Menampilkan table dalam bentuk dataframe
sqlite_sequence_table = pd.read_sql_query('SELECT * FROM sqlite_sequence', conn_1)
sqlite_sequence_table

Unnamed: 0,name,seq
0,PRODUCT,9
1,CUSTOMER,5
2,CUSTOMER_ORDER,5


In [None]:
sqlite_sequence_table

Unnamed: 0,name,seq
0,PRODUCT,9
1,CUSTOMER,5
2,CUSTOMER_ORDER,5


# Let's write simple query
Setelah membuat database, menambahkan tabel pada database, dan kemudian membuka database yang sudah kita simpan dalam drive, kita perlu mengetahui apa sih query itu? Sederhananya query terdiri dari 2 syntax yang harus dipenuhi, yaitu **SELECT [nama kolom]** dan **FROM [nama tabel]**. SELECT untuk memilih kolom mana yang akan diambil dan FROM untuk menunjukkan tabel yang akan digunakan. Kita juga dapat mengambil semua kolom sekaligus dengan menggunakan SELECT * FROM [nama tabel]. Selain itu, adapula syntax **LIMIT** yang berfungsi membatasi jumlah baris data yang akan ditampilkan.


In [None]:
# Setelah kita mengetahui tabel mana yang bisa diakses dan terdapat berapa value pada tabel tersebut,
# kemudian kita dapat memulai simple query dan menyimpan hasil tabel dalam bentuk dataframe
product_table = pd.read_sql_query('''SELECT * 
                                      FROM PRODUCT
                                      limit 5''', conn_1)
product_table

Unnamed: 0,PRODUCT_ID,DESCRIPTION,PRICE
0,1,Copper,7.51
1,2,Aluminum,2.58
2,3,Silver,15.0
3,4,Steel,12.31
4,5,Bronze,4.0


In [None]:
# kalau kita tidak menyimpan dalam dataframe akan terlihat seperti berikut
c_1.execute("SELECT * FROM PRODUCT")

# Menampilkan dalam bentuk list
print(c_1.fetchall())

[(1, 'Copper', 7.51), (2, 'Aluminum', 2.58), (3, 'Silver', 15), (4, 'Steel', 12.31), (5, 'Bronze', 4), (6, 'Duralumin', 7.6), (7, 'Solder', 14.16), (8, 'Stellite', 13.31), (9, 'Brass', 4.75)]


In [None]:
# QUery dibawah ini akan menunjukkan semua value yang ada pada tabel CUSTOMER
customer_table = pd.read_sql_query('SELECT * FROM CUSTOMER', conn_1)
customer_table

Unnamed: 0,CUSTOMER_ID,NAME,REGION,STREET_ADDRESS,CITY,STATE,ZIP
0,1,LITE Industrial,Southwest,729 Ravine Way,Irving,TX,75014
1,2,Rex Tooling Inc,Southwest,6129 Collie Blvd,Dallas,TX,75201
2,3,Re-Barre Construction,Southwest,9043 Windy Dr,Irving,TX,75032
3,4,Prairie Construction,Southwest,264 Long Rd,Moore,OK,62104
4,5,Marsh Lane Metal Works,Southeast,9143 Marsh Ln,Avondale,LA,79782


In [None]:
# Untuk mengambil ID tiap customer dan nama kota dari tiap customer
pd.read_sql_query('''SELECT 
                        CUSTOMER_ID, 
                        CITY 
                     FROM CUSTOMER''',
                  conn_1)

Unnamed: 0,CUSTOMER_ID,CITY
0,1,Irving
1,2,Dallas
2,3,Irving
3,4,Moore
4,5,Avondale


In [None]:
# Untuk mengambil 3 row teratas
pd.read_sql_query('''SELECT 
                        CUSTOMER_ID, 
                        CITY 
                     FROM CUSTOMER 
                     LIMIT 3''', 
                  conn_1)

Unnamed: 0,CUSTOMER_ID,CITY
0,1,Irving
1,2,Dallas
2,3,Irving


In [None]:
# QUery dibawah ini akan menunjukkan semua value yang ada pada tabel CUSTOMER_ORDER
customer_order_table = pd.read_sql_query('SELECT * FROM CUSTOMER_ORDER', conn_1)
customer_order_table

Unnamed: 0,ORDER_ID,ORDER_DATE,SHIP_DATE,CUSTOMER_ID,PRODUCT_ID,ORDER_QTY,SHIPPED
0,1,2015-05-15,2015-05-18,1,1,450,False
1,2,2015-05-18,2015-05-21,3,2,600,False
2,3,2015-05-20,2015-05-23,3,5,300,False
3,4,2015-05-18,2015-05-22,5,4,375,False
4,5,2015-05-17,2015-05-20,3,2,500,False


# Basic Query Data

## DISTINCT clause
DISITINCT digunakan untuk mengatasi duplicates pada data

In [None]:
# Data sebelum diperlakukan distinct
pd.read_sql_query("""
                  SELECT 
                      CUSTOMER_ID 
                  FROM CUSTOMER_ORDER
                  """, conn_1)

Unnamed: 0,CUSTOMER_ID
0,1
1,3
2,3
3,5
4,3


In [None]:
# Data setelah diperlakukan distinct
pd.read_sql_query("""
                    SELECT 
                        DISTINCT CUSTOMER_ID 
                    FROM CUSTOMER_ORDER
                  """, conn_1)
#customer dengan ID 1,3,5 pernah melakukan pesanan/transaksi

Unnamed: 0,CUSTOMER_ID
0,1
1,3
2,5


## WHERE clause
WHERE clause digunakan untuk filtering data sesuai dengan syarat/kondisi yang diinginkan


In [None]:
# Data order oleh customer dengan ID = 3
pd.read_sql_query("""
                    SELECT * 
                    FROM CUSTOMER_ORDER 
                    WHERE CUSTOMER_ID = 3
                  """, conn_1)

Unnamed: 0,ORDER_ID,ORDER_DATE,SHIP_DATE,CUSTOMER_ID,PRODUCT_ID,ORDER_QTY,SHIPPED
0,2,2015-05-18,2015-05-21,3,2,600,False
1,3,2015-05-20,2015-05-23,3,5,300,False
2,5,2015-05-17,2015-05-20,3,2,500,False


## Combining WHERE and AND
AND pada WHERE clause digunakan ketika kita memiliki filter lebih dari satu syarat/kondisi yang mana kondisi-kondisi tersebut harus terpenuhi




In [None]:
# Data customer yang memiliki ID = 3 DAN membeli product ID = 5
pd.read_sql_query("""
                    SELECT * 
                    FROM CUSTOMER_ORDER 
                    WHERE CUSTOMER_ID = 3 
                    AND PRODUCT_ID = 5
                    """, conn_1)

Unnamed: 0,ORDER_ID,ORDER_DATE,SHIP_DATE,CUSTOMER_ID,PRODUCT_ID,ORDER_QTY,SHIPPED
0,3,2015-05-20,2015-05-23,3,5,300,False


In [None]:
# Data customer yang melakukan pembelian di tanggal 20 Mei 20215 dan pengiriman atas pembelian terjadi di tanggal 23 Mei 2025
pd.read_sql_query("""
                    SELECT * 
                    FROM CUSTOMER_ORDER 
                    WHERE ORDER_DATE = "2015-05-20" 
                    AND SHIP_DATE = "2015-05-23"
                    """, conn_1)

Unnamed: 0,ORDER_ID,ORDER_DATE,SHIP_DATE,CUSTOMER_ID,PRODUCT_ID,ORDER_QTY,SHIPPED
0,3,2015-05-20,2015-05-23,3,5,300,False


## Combining WHERE and OR
OR pada WHERE clause digunakan ketika kita memiliki filter lebih dari satu syarat/kondisi yang mana salah satu kondisi tersebut terpenuhi


In [None]:
# Data customer yang memiliki ID = 3 dengan semua produk ID atau data semua customer yang membeli product ID = 4
pd.read_sql_query("""
                    SELECT * 
                    FROM CUSTOMER_ORDER 
                    WHERE CUSTOMER_ID = 3 
                    OR PRODUCT_ID = 4
                    """, conn_1)

Unnamed: 0,ORDER_ID,ORDER_DATE,SHIP_DATE,CUSTOMER_ID,PRODUCT_ID,ORDER_QTY,SHIPPED
0,2,2015-05-18,2015-05-21,3,2,600,False
1,3,2015-05-20,2015-05-23,3,5,300,False
2,4,2015-05-18,2015-05-22,5,4,375,False
3,5,2015-05-17,2015-05-20,3,2,500,False


## Combining WHERE and IN
IN pada WHERE clause digunakan apabila satu jenis syarat yang kita inginkan memiliki beberapa macam

In [None]:
# Data customer yang memiliki ID 1 dan 5
pd.read_sql_query("""
                    SELECT * 
                    FROM CUSTOMER_ORDER 
                    WHERE CUSTOMER_ID IN (1,5)
                  """, conn_1)

Unnamed: 0,ORDER_ID,ORDER_DATE,SHIP_DATE,CUSTOMER_ID,PRODUCT_ID,ORDER_QTY,SHIPPED
0,1,2015-05-15,2015-05-18,1,1,450,False
1,4,2015-05-18,2015-05-22,5,4,375,False


## GROUP BY Clause and Grouping with aggregate functions
Aggregasi lebih sering digunakan untuk menghitung seperti berapa jumlah order, berapa nilai max dari suatu value, dll.
Dalam SQL sendiri fungsi agregasi ada berbagai macam, seperti COUNT(), COUNT(distinct()), SUM(), MIN(), MAX(), dll. COUNT() digunakan untuk menghitung banyaknya suatu kategori, SUM() digunakan untuk menjumlahkan nilai-nilai di kolom tertentu, MAX() untuk mencari nilai maksimum, MIN() untuk mencari nilai minimum, dan AVG() digunakan untuk menghitung rata-rata suatu kumpulan nilai.
<br>
<br>
GROUP BY clause merupakan statement yang akan mengelompokkan nilai menjadi summary. Biasanya GROUP BY digunakan untuk mengagregasi (count,max,min, dll) nilai berdasarkan kolom tertentu.

In [None]:
# Data jumlah order tiap customer 
pd.read_sql_query("""
                    SELECT 
                        CUSTOMER_ID, 
                        COUNT(ORDER_ID) AS cnt_order  
                    FROM CUSTOMER_ORDER 
                    GROUP BY CUSTOMER_ID
                  """, conn_1) #AS digunakan sebagai alias untuk rename nama kolom yang dihasilkan

Unnamed: 0,CUSTOMER_ID,cnt_order
0,1,1
1,3,3
2,5,1


## Multiple dimension GROUP BY clause
Multiple dimension GROUP BY hampir sama dengan GROUP BY itu sendiri tetapi memiliki lebih dari satu kelompok

In [None]:
# Data jumlah order tiap customer ID dan product ID
pd.read_sql_query("""
                    SELECT 
                        CUSTOMER_ID, 
                        PRODUCT_ID, 
                        COUNT(ORDER_ID) 
                    FROM CUSTOMER_ORDER 
                    GROUP BY 1,2
                  """, conn_1) #GROUP BY 1,2 berarti GROUP BY berdasarkan kolom ke-1 (CUSTOMER_ID) dan kolom ke-2 (PRODUCT_ID)

Unnamed: 0,CUSTOMER_ID,PRODUCT_ID,COUNT(ORDER_ID)
0,1,1,1
1,3,2,2
2,3,5,1
3,5,4,1


## HAVING clause

Having digunakan untuk memfilter data. Terus apa bedanya dengan WHERE? Jika WHERE untuk melakukan filter sebelum dilakukan grouping sehingga kita tidak bisa memfilter langsung data setelah di agregat. Berbeda dengan penggunaan having. Having digunakan setelah grouping, sehingga kita dapat memfilter data dengan kondisi tertentu pada aggregate result

In [None]:
# Data list customer yang memiliki jumlah order lebih dari satu
pd.read_sql_query("""
                    SELECT 
                        CUSTOMER_ID, 
                        COUNT(ORDER_ID) AS cnt_order 
                    FROM CUSTOMER_ORDER 
                    GROUP BY CUSTOMER_ID 
                    HAVING COUNT(ORDER_ID) > 1
                  """, conn_1)

Unnamed: 0,CUSTOMER_ID,cnt_order
0,3,3


## ORDER BY clause
ORDER BY digunakan untuk mengurutkan value. Sama halnya seperti sort by pada excel

In [None]:
# Data urutan customer ID yang memiliki jumlah order terbanyak sampai yang paling sedikit
pd.read_sql_query("""
                    SELECT 
                        CUSTOMER_ID, 
                        COUNT(ORDER_ID) AS cnt_order 
                    FROM CUSTOMER_ORDER 
                    GROUP BY CUSTOMER_ID 
                    ORDER BY cnt_order DESC
                  """, conn_1)

Unnamed: 0,CUSTOMER_ID,cnt_order
0,3,3
1,5,1
2,1,1
