**LearnPy: PSQL Query**

- Author : Team Algoritma
- Developed by Algoritma's product division and instructors team
___

# SQL and Data Source
Halo future *Data Analyst*, ini adalah bagian terakhir dari Learning Python for Data Analytics. Pada bagian ini kita akan mempelajari bagaimana mengolah data dari sebuah database dan sumber data lainnya. Di sesi sebelumnya, Anda telah berhasil membaca, mengeksplorasi, mengagregasi dan memvisualisasikan data yang berasal dari file `'.csv`. Lalu bagaimana jika source data kita berasal dari sebuah database? Python memberikan dukungan penuh koneksi terhadap beberapa DBMS (Database Management System) seperti MySQL, Oracle, PostgreSQL, MongoDB, dan sejenisnya. 

Berikut ini beberapa contoh koneksi database yang didukung oleh Python pada beberapa DBMS :

<details><summary>Koneksi ke MySQL</summary>

Salah satu cara untuk terhubung dengan MySQL adalah dengan menggunakan library `pymsql`. Anda dapat menginstallnya menggunakan `pip install pymysql`
    
```python
import pymysql
conn = pymysql.connect(
    host=host,
    port=port,
    user=user,
    password=password,
    db=database)
```
</details>

<details><summary>Koneksi ke PostgreSQL</summary>
    
Mirip dengan MySQL, kita membutuhkan library untuk dapat terhubung dengan PostgreSQL server. Kita dapat menggunakan `psycopg2`. Anda dapat mencobanya dengan melakukan instalasi library dengan menggunakan `pip install psycopg2` atau `pip install psycopg2-binary`
    
```python
import psycopg2
conn = psycopg2.connect(
    host=host,
    port="5432",
    user="postgres",
    password="admin",
    database="database")
```
</details>

<details><summary>Koneksi ke Microsoft SQLServer</summary>

Salah satu cara untuk dapat terhubung dengan MSSQLS adalah dengan menggunakan library `pyodbc`. Anda dapat menggunakan `pip install pyodbc` untuk melakukan installasi librarynya.  Namun terdapat beberapa dependensi yang Anda perlu sediakan terlebih dahulu. Jika instalasi yang dilakukan gagal, silahkan kunjungi website berikut untuk mendapatkan bantuan: [windows](https://docs.microsoft.com/en-us/sql/connect/odbc/microsoft-odbc-driver-for-sql-server?view=sql-server-ver15), [linux](https://docs.microsoft.com/en-us/sql/connect/odbc/linux-mac/installing-the-microsoft-odbc-driver-for-sql-server?view=sql-server-ver15), atau [mac](https://gist.github.com/Bouke/10454272) dan [mac2](https://docs.microsoft.com/en-us/sql/connect/odbc/linux-mac/install-microsoft-odbc-driver-sql-server-macos?view=sql-server-2017).

```python
import pyodbc 
conn = pyodbc.connect(
    'Driver={ODBC Driver 17 for SQL Server};'
    'Server=host;'
    'PORT=1433;'
    'UID=user;'
    'PWD=password;'
    'Database=database;')
```
</details>


Pada notebook latihan kali ini kita menggunakan SQLite database dari Northwind database. Berikut schema dari database Northwind:
<img src="assets/Northwind_ERD.png">

## Koneksi Database
Pertama, kita harus membuat koneksi ke database yang akan digunakan. Koneksi ini ibarat kunci untuk membuka pintu agar kita dapat mengakses databasenya. Seperti yang telah dibahas sebelumnya  python mendukung penuh koneksi dengan beberapa DBMS, Anda dapat melihat langsung bagaimana membuat sebuah koneksi ke database untuk masing-masing DBMS yang Anda gunakan pada official document yang disediakan oleh python. Pada latihan ini kita menggunakan database `Northwind` yang merupakan SQLite database. Oleh karena itu, koneksinyapun harus menggunakan library yang sesuai. Library yang kita gunakan adalah `sqlite3` dimana library ini biasanya akan otomatis ter-install ketika Anda membuat environment baru. 

In [1]:
import pandas as pd
import sqlite3

conn = sqlite3.connect("data_input/Northwind_large.sqlite")


Secara umum pada suatu database, ketika kita ingin melakukan *fetching* atau mengambilan data kita membutuhkan objek *cursor* untuk dapat mengeksekusi query yang kita gunakan. Untuk membuat objek *cursor* kita dapat menggunakan method `cursor()`.

In [2]:
cursor = conn.cursor()

Jika kita print isi dari objek *cursor* yang sudah kita buat adalah sebagai berikut. Fungsi dari objek *cursor* adalah sebagai **penunjuk** pada table yang kita tunjuk nantinya saat melakukan *fetching*.

In [3]:
print(cursor)

<sqlite3.Cursor object at 0x7f8638e7a420>


Untuk dapat mendapatkan hasil *fetching* dari query yang kita gunakan, kita harus melakukan eksekusi terlebih dahulu dengan menggunakan `.execute()` pada objek *cursor* dan query yang sudah kita buat. Lalu kita bisa menggunakan metode *fetching* sebagai berikut :

- `.fetchone()` : untuk mendapatkan satu row data pada tabel
- `.fetchmany()` : untuk mendapatkan sebanyak n row data yang diinginkan pada tabel
- `.fetchall()` : untuk mendapatkan semua row data pada tabel

Metode *fetching* ini sangat berguna bagi beberapa orang yang memiliki bandwith memori yang kecil pada laptop yang dimilikinya.

In [4]:
query = "SELECT * FROM Employee"
cursor.execute(query)
cursor.fetchone()

(1,
 'Davolio',
 'Nancy',
 'Sales Representative',
 'Ms.',
 '1980-12-08',
 '2024-05-01',
 '507 - 20th Ave. E. Apt. 2A',
 'Seattle',
 'North America',
 '98122',
 'USA',
 '(206) 555-9857',
 '5467',
 None,
 "Education includes a BA in psychology from Colorado State University in 1970.  She also completed 'The Art of the Cold Call.'  Nancy is a member of Toastmasters International.",
 2,
 'http://accweb/emmployees/davolio.bmp')

In [5]:
cursor.fetchmany(6)

[(2,
  'Fuller',
  'Andrew',
  'Vice President, Sales',
  'Dr.',
  '1984-02-19',
  '2024-08-14',
  '908 W. Capital Way',
  'Tacoma',
  'North America',
  '98401',
  'USA',
  '(206) 555-9482',
  '3457',
  None,
  'Andrew received his BTS commercial in 1974 and a Ph.D. in international marketing from the University of Dallas in 1981.  He is fluent in French and Italian and reads German.  He joined the company as a sales representative, was promoted to sales manager in January 1992 and to vice president of sales in March 1993.  Andrew is a member of the Sales Management Roundtable, the Seattle Chamber of Commerce, and the Pacific Rim Importers Association.',
  None,
  'http://accweb/emmployees/fuller.bmp'),
 (3,
  'Leverling',
  'Janet',
  'Sales Representative',
  'Ms.',
  '1995-08-30',
  '2024-04-01',
  '722 Moss Bay Blvd.',
  'Kirkland',
  'North America',
  '98033',
  'USA',
  '(206) 555-3412',
  '3355',
  None,
  'Janet has a BS degree in chemistry from Boston College (1984).  She ha

In [6]:
cursor.fetchall()

[(8, 'Seafood', 'Seaweed and fish')]

Nah kita sudah mengetahui cara kerja *fetching* database menggunakan Python. Selanjutnya kita akan mengenal bagaimana cara kita melakuan *fetching* data dan menyajikannya dalam bentuk dataframe dengan bantuan library `pandas`. 

Sebelumnya kita sudah membuat koneksi ke database, kita dapat melihat skema tabelnya. Cara paling mudah yang dapat dilakukan adalah seperti kode di bawah ini. Akan tetapi lebih disarankan untuk melihat skema visualnya agar dapat terbantu dengan mudah melihat relasi antar tabelnya. 

In [6]:
pd.read_sql_query("SELECT name FROM sqlite_master WHERE type = 'table' AND name NOT LIKE 'sqlite_%';",conn)

Unnamed: 0,name
0,Employee
1,Category
2,Customer
3,Shipper
4,Supplier
5,Order
6,Product
7,OrderDetail
8,CustomerCustomerDemo
9,CustomerDemographic


## Simple Query

Database Northwind merupakan database milik suatu perusahaan fiktif yang bernama Northwind Traders. Perusahaan ini bergerak dalam bidang eksport import makanan. Dalam database ini terdapat tabel-tabel seperti layaknya dalam suatu perusahaan eksport import seperti tabel Customers, Orders, Suppliers dan lain sebagainya. 

Sama seperti SQL pada umumnya, di python kita juga bisa melakukan *fetching* data menggunakan query/perintah. Barisan query tersebut ditulis dalam sebuah method dari pandas yaitu `read_sql_query()`. Anda dapat menuliskan query apapun sesuai dengan flavor/tipe dari DBMS yang Anda gunakan. Misal kita akan melihat semua record dari tabel Employee, maka Anda dapat menuliskan querynya sebagai berikut:

In [7]:
employee = pd.read_sql_query("SELECT * FROM Employee", conn)
employee.head()

Unnamed: 0,Id,LastName,FirstName,Title,TitleOfCourtesy,BirthDate,HireDate,Address,City,Region,PostalCode,Country,HomePhone,Extension,Photo,Notes,ReportsTo,PhotoPath
0,1,Davolio,Nancy,Sales Representative,Ms.,1980-12-08,2024-05-01,507 - 20th Ave. E. Apt. 2A,Seattle,North America,98122,USA,(206) 555-9857,5467,,Education includes a BA in psychology from Col...,2.0,http://accweb/emmployees/davolio.bmp
1,2,Fuller,Andrew,"Vice President, Sales",Dr.,1984-02-19,2024-08-14,908 W. Capital Way,Tacoma,North America,98401,USA,(206) 555-9482,3457,,Andrew received his BTS commercial in 1974 and...,,http://accweb/emmployees/fuller.bmp
2,3,Leverling,Janet,Sales Representative,Ms.,1995-08-30,2024-04-01,722 Moss Bay Blvd.,Kirkland,North America,98033,USA,(206) 555-3412,3355,,Janet has a BS degree in chemistry from Boston...,2.0,http://accweb/emmployees/leverling.bmp
3,4,Peacock,Margaret,Sales Representative,Mrs.,1969-09-19,2025-05-03,4110 Old Redmond Rd.,Redmond,North America,98052,USA,(206) 555-8122,5176,,Margaret holds a BA in English literature from...,2.0,http://accweb/emmployees/peacock.bmp
4,5,Buchanan,Steven,Sales Manager,Mr.,1987-03-04,2025-10-17,14 Garrett Hill,London,British Isles,SW1 8JR,UK,(71) 555-4848,3453,,Steven Buchanan graduated from St. Andrews Uni...,2.0,http://accweb/emmployees/buchanan.bmp


Pada contoh di atas, kita menggunakan perintah `SELECT` untuk menampilkan record dari sebuah tabel. `SELECT *` artinya Anda akan mengambil seluruh record dan kolom yang ada di tabel tersebut. Bagaimana jika kita hanya ingin mengambil nama employee dan titlenya saja? Perhatikan contoh berikut:

In [8]:
pd.read_sql_query("SELECT FirstName, LastName, Title FROM Employee", conn)

Unnamed: 0,FirstName,LastName,Title
0,Nancy,Davolio,Sales Representative
1,Andrew,Fuller,"Vice President, Sales"
2,Janet,Leverling,Sales Representative
3,Margaret,Peacock,Sales Representative
4,Steven,Buchanan,Sales Manager
5,Michael,Suyama,Sales Representative
6,Robert,King,Sales Representative
7,Laura,Callahan,Inside Sales Coordinator
8,Anne,Dodsworth,Sales Representative


Bagaimana, cukup mudah bukan melakukan query menggunakan python? Perlu diperhatikan bahwa penulisan query pada SQL **tidak** case-sensitive sehingga Anda bebas menuliskan querynya menggunakan huruf besar/kecil. Untuk Anda yang mungkin belum terlalu familiar dengan syntax pada SQL dapat mempelajari kembali query umum yang sering digunakan pada SQL.

### Knowledge Check
Pada bagian sebelumnya Anda telah mempelajari bagaimana menuliskan simple query untuk melihat record dari sebuah tabel. Anda hanya perlu menuliskan format berikut untuk memanggil record sesuai dengan query yang Anda tuliskan:

```python
pd.read_sql_query("SELECT ____ FROM _____", conn)
```

Dengan perintah yang sama, bagaimana cara Anda untuk menampilkan 10 Supplier pertama yang ada pada record database Northwind?

<!-- Reference answer :

```python
# cara 1
pd.read_sql_query("SELECT * FROM Supplier LIMIT 10", conn)

# cara 2
pd.read_sql_query("SELECT * FROM Supplier", conn).head(10)
```

Anda bisa menggunakan fungsi `LIMIT` untuk membatasi berapa banyak record yang akan dimunculkan, atau Anda juga bisa melakukan chaining method `head()` dan menampilkan 10 record pertama.
-->

In [23]:
## Code here


## Where Statements
Pada bagian pertama pada course python for data analytics, Anda telah mempelajari penggunaan conditional statements untuk memfilter data sesuai dengan kondisi yang dilampirkan. Misalkan Pada data retail, Anda hanya akan mengambil Customer yang berasal dari kota New York. Untuk mendapatkan data-data cumstomer yang berasal dari kota New York maka setidaknya kode yang Anda tulis adalah sebagai berikut:
```
[retail[retail["customer_city"] == "New York"]
```
Ketika Anda bekerja dengan SQL terdapat 2 cara untuk melakukan filtering pada data:
1. Anda dapat mengambil seluruh record kemudian melakukan filtering menggunakan conditional subseting pada pandas, atau
2. Anda dapat melakukan filtering langsung pada query dengan menggunakan perintah `WHERE`

Kali ini kita akan mencoba menggunakan `WHERE STATEMENTS` untuk melakukan filtering data. Contoh di bawah ini menjukkan bagaimana Anda menuliskan query untuk memfilter Employee yang memiliki title "Sales Representative".

In [9]:
pd.read_sql_query("select * from employee", conn)

Unnamed: 0,Id,LastName,FirstName,Title,TitleOfCourtesy,BirthDate,HireDate,Address,City,Region,PostalCode,Country,HomePhone,Extension,Photo,Notes,ReportsTo,PhotoPath
0,1,Davolio,Nancy,Sales Representative,Ms.,1980-12-08,2024-05-01,507 - 20th Ave. E. Apt. 2A,Seattle,North America,98122,USA,(206) 555-9857,5467,,Education includes a BA in psychology from Col...,2.0,http://accweb/emmployees/davolio.bmp
1,2,Fuller,Andrew,"Vice President, Sales",Dr.,1984-02-19,2024-08-14,908 W. Capital Way,Tacoma,North America,98401,USA,(206) 555-9482,3457,,Andrew received his BTS commercial in 1974 and...,,http://accweb/emmployees/fuller.bmp
2,3,Leverling,Janet,Sales Representative,Ms.,1995-08-30,2024-04-01,722 Moss Bay Blvd.,Kirkland,North America,98033,USA,(206) 555-3412,3355,,Janet has a BS degree in chemistry from Boston...,2.0,http://accweb/emmployees/leverling.bmp
3,4,Peacock,Margaret,Sales Representative,Mrs.,1969-09-19,2025-05-03,4110 Old Redmond Rd.,Redmond,North America,98052,USA,(206) 555-8122,5176,,Margaret holds a BA in English literature from...,2.0,http://accweb/emmployees/peacock.bmp
4,5,Buchanan,Steven,Sales Manager,Mr.,1987-03-04,2025-10-17,14 Garrett Hill,London,British Isles,SW1 8JR,UK,(71) 555-4848,3453,,Steven Buchanan graduated from St. Andrews Uni...,2.0,http://accweb/emmployees/buchanan.bmp
5,6,Suyama,Michael,Sales Representative,Mr.,1995-07-02,2025-10-17,Coventry House Miner Rd.,London,British Isles,EC2 7JR,UK,(71) 555-7773,428,,Michael is a graduate of Sussex University (MA...,5.0,http://accweb/emmployees/davolio.bmp
6,7,King,Robert,Sales Representative,Mr.,1992-05-29,2026-01-02,Edgeham Hollow Winchester Way,London,British Isles,RG1 9SP,UK,(71) 555-5598,465,,Robert King served in the Peace Corps and trav...,5.0,http://accweb/emmployees/davolio.bmp
7,8,Callahan,Laura,Inside Sales Coordinator,Ms.,1990-01-09,2026-03-05,4726 - 11th Ave. N.E.,Seattle,North America,98105,USA,(206) 555-1189,2344,,Laura received a BA in psychology from the Uni...,2.0,http://accweb/emmployees/davolio.bmp
8,9,Dodsworth,Anne,Sales Representative,Ms.,1998-01-27,2026-11-15,7 Houndstooth Rd.,London,British Isles,WG2 7LT,UK,(71) 555-4444,452,,Anne has a BA degree in English from St. Lawre...,5.0,http://accweb/emmployees/davolio.bmp


In [10]:
sales_rep = pd.read_sql_query("select firstname, lastname, title\
                                from Employee\
                                where title='Sales Representative'", conn)
sales_rep

Unnamed: 0,FirstName,LastName,Title
0,Nancy,Davolio,Sales Representative
1,Janet,Leverling,Sales Representative
2,Margaret,Peacock,Sales Representative
3,Michael,Suyama,Sales Representative
4,Robert,King,Sales Representative
5,Anne,Dodsworth,Sales Representative


Dari contoh di atas, kita tahu bahwa ada 6 Employee dengan title "Sales Representative". Anda juka dapat mengkombinasikan `WHERE STATEMENT` dengan perintah `AND`, `OR`, dan `NOT`. Misalnya jika kita ingin mengambil pegawai yang memiliki title "Sales Representative" dan bekerja di wilayah "North America", maka query yang dapat Anda tulis adalah sebagai berikut:

In [11]:
pd.read_sql_query("select firstname, lastname, title, region\
                                from Employee\
                                where title='Sales Representative' AND region='North America'", conn)


Unnamed: 0,FirstName,LastName,Title,Region
0,Nancy,Davolio,Sales Representative,North America
1,Janet,Leverling,Sales Representative,North America
2,Margaret,Peacock,Sales Representative,North America


## SQL Join
Join statement digunakan untuk mengkombinasikan record antar tabel (bisa 2 atau lebih tabel). Gambar di bawah ini menunjukkan jenis-jenis `JOIN` yang terdapat pada query SQL:

<img src="assets/sqljoin.png" width=700>
<br>
Perhatikan kembali skema database Northwind. Pada database tersebut, kita memiliki tabel Product dan Supplier. Bagaimana caranya untuk menampilkan Nama produk beserta perusahaan yang mensuplai produk tersebut? Untuk menjawabnya kita membutuhkan nama produk dari tabel produk dan nama supplier dari tabel Supplier. Kita dapat menggunakan `LEFT JOIN` untuk mengkombinasikan record antara 2 tabel tersebut. Berikut contoh penulisan querynya:

In [19]:
product_name = pd.read_sql_query("select ProductName, CompanyName \
                    from Product \
                    left join Supplier \
                    on Product.SupplierID=Supplier.Id",conn)
product_name.head(10)

Unnamed: 0,ProductName,CompanyName
0,Chai,Exotic Liquids
1,Chang,Exotic Liquids
2,Aniseed Syrup,Exotic Liquids
3,Chef Anton's Cajun Seasoning,New Orleans Cajun Delights
4,Chef Anton's Gumbo Mix,New Orleans Cajun Delights
5,Grandma's Boysenberry Spread,Grandma Kelly's Homestead
6,Uncle Bob's Organic Dried Pears,Grandma Kelly's Homestead
7,Northwoods Cranberry Sauce,Grandma Kelly's Homestead
8,Mishi Kobe Niku,Tokyo Traders
9,Ikura,Tokyo Traders


Bagaimana, cukup mudah bukan? Sampai disini Anda telah mempelajari bagaimana membuat sebuah koneksi ke database untuk melakukan akses langsung dan fetching data dari database, Anda telah mempelajari juga simple query yang dapat dilakukan untuk mengambil record data. Anda juga telah mempelajari penggunaan WHERE dan JOIN statement yang bisa dikombinasikan untuk mengambil/menampilkan record sesuai dengan query yang Anda tulis. 

# Task 1

Katakanlah, Anda adalah seorang supervisor pergudangan barang. Anda sedang diminta untuk melakukan pengecekan barang yang masih terdapat dalam gudang sehingga nantinya ketika ada barang yang stoknya sudah mulai menipis, Anda bisa langsung menghubungi Suppliers untuk mengirimkan barang. Oleh karena itu, Anda membutuhkan beberapa informasi pada database yang Anda miliki yaitu table `Product`, `Category`, dan `Supplier`.

Untuk dapat menjalankan tugas Anda, buatlah sebuah `DataFrame` yang berisi informasi seluruh kolom pada table `Product`, dan beberapa informasi tambahan yaitu :

- `CategoryName` dan `Description` pada table `Category`
- `CompanyName`, `ContactName`, dan `Phone` pada table `Supplier`

Simpanlah dataframe tersebut kedalam object `product` dan selesaikanlah beberapa task berikut ini.

<!-- 

```python
product = pd.read_sql_query("SELECT p.*, c.CategoryName, c.Description, s.CompanyName, s.ContactName, s.Phone FROM Product AS p \
                    LEFT JOIN Category AS c ON p.CategoryId = c.Id \
                    LEFT JOIN Supplier AS s ON p.SupplierId = s.Id", conn)
```
--> 

1. Berdasarkan seluruh produk yang ada, terdapat berapa jenis kategori produk digudang? Manakah kategori produk yang paling banyak tersimpan di gudang?

- [ ] 8, Beverage
- [ ] 8, Confection
- [ ] 8, Seafood

<!-- Reference Answer 

```python
product['CategoryName'].value_counts().sort_values(ascending=False)
```
Jadi banyak jenis kategori barang adalah 8 dan barang yang paling banyak tersimpan digudang adalah COnfection
-->

In [9]:
# your code


2. Jika dilihat dari ketersediaan stok barang, manakah barang yang akan segera habis? Katakanlah barang yang akan segera habis adalah barang yang memiliki stok kurang dari 10

- [ ] Mascarpone Fabioli, Longlife Tofu, Rogede sild
- [ ] Rogede sild, Gravad lax, Longlife Tofu
- [ ] Longlife Tofu, Maxilaku, Aniseed Syrup

<!-- Reference answer

```python
sisa = pd.crosstab(index=product['ProductName'],
           columns='SisaStok',
           values=product['UnitsInStock'],
           aggfunc='sum').sort_values(by = 'SisaStok', ascending=True)
sisa[sisa['SisaStok'] < 10]
```

Jadi barang yang akan habis adalah Mascarpone Fabioli, Longlife Tofu, Rogede sild.

-->



In [None]:
# your code


3. Berdasarkan barang yang akan segera habis tersebut, siapakah yang dapat kita hubungi untuk menyediakan stok barang tersebut kembali (berdasarkan company name)?

> Hint : Lakukanlah left join dari tabel `product` dengan tabel `supplier` untuk mendapatkan company name supplier

- [ ] Formaggi Fortini s.r.l., Lyngbysild, Tokyo Traders
- [ ] Svensk Sjöföda AB, Lyngbysild, Tokyo Traders
- [ ] Exotic Liquids, Karkki Oy, Tokyo Traders

<!-- Reference answer

```python
df2 = pd.read_sql_query("select * from product left join supplier on product.supplierid = supplier.id", conn)

df2[df2['ProductName'].isin(['Mascarpone Fabioli', 'Longlife Tofu', 'Rogede sild'])]['CompanyName']
```

Jadi perusahaan yang bisa kita hubungi adalah Formaggi Fortini s.r.l., Lyngbysild, Tokyo Traders.

-->

In [None]:
# your code
