# Quiz: SQL Query

Kuis ini merupakan bagian dari proses penilaian *Algoritma Academy*. Selamat Anda sudah menyelesaikan materi *SQL Query Course*! Kami akan melakukan penilaian berupa kuis untuk menguji materi yang sudah dipelajari. Pengerjaan Kuis diharapkan dapat dilakukan di dalam kelas, silakan hubungi tim pengajar kami jika Anda melewatkan kesempatan untuk mengambilnya di kelas.

## Skema Database

Pada kuis ini, database yang digunakan adalah `chinook.db` yang terdapat pada folder `data_input`.

Database `chinook.db` terdiri dari 11 tabel yang berisi sampel data dari toko media digital:

- Data terkait media seperti pada tabel `tracks`, `albums`, `artists`, `genres`, `media_types`, `playlists`, `playlist_track` merupakan data asli dari *library Apple iTunes*.
- Informasi mengenai `customers` dan `employees` dibuat menggunakan nama dan alamat fiktif yang dapat ditemukan di *Google Maps*, dan data lain yang diformat dengan baik (telepon, fax, email, dll).
- Informasi penjualan `invoices` dan `invoice_items` dihasilkan secara otomatis menggunakan data acak untuk periode tahun 2009-2013.

In [None]:
import sqlite3
import pandas as pd

conn = sqlite3.connect("data_input/chinook.db")

![](assets/chinookschema2.png)

## Data Invoice Pelanggan

Kita ingin mengembangkan laporan visualisasi penjualan sederhana dari top 5 pasar utama (kolom `Country` di tabel `customers`) yang diurutkan berdasarkan total penjualan (kolom `Total` di tabel`invoices`). 

Kita juga ingin mengidentifikasi top 5 customer berdasarkan namanya (`FirstName`, `LastName`) pada laporan yang dihasilkan.

Terakhir, kita ingin laporan tersebut menyertakan analisis harian (dalam seminggu) tentang kinerja penjualan, dan untuk itu kita akan membutuhkan kolom `InvoiceDate`. 

### SQL Query

Pertama-tama mari kita coba untuk membuat dataframe menggunakan method `read_sql_query()`, anda ingin mengetahui total pembelian yang dilakukan oleh masing-masing pelanggan. Untuk mengetahui nama pelanggan, Anda perlu menggabungkan nama depan (`FirstName`) dan nama belakang (`LastName`) pelanggan dan simpanlah kedalam kolom baru dengan nama `CustomerName`. Buatlah tabel agregasi yang menunjukkan **jumlah** total penjualan (`Total`) pada masing-masing pelanggan dan urutkanlah untuk mendapatkan informasi total pembelian terbesar hingga terkecil.

```
customer_total = pd.read_sql_query(
    '''
    SELECT SUM(___.____) as Total, 
    customers.___ || ' ' || customers.___ AS CustomerName  
    FROM customers
    LEFT JOIN ___
    ON customers.___ = ___.___
    GROUP BY ____
    ORDER BY ___ DESC
    LIMIT ___ 
    ''' ,conn)
```


1. Manakah di antara pelanggan berikut yang termasuk dalam 5 besar pelanggan yang diurutkan berdasarkan total pembeliannya (`Total`)?
    - [ ] Victor Stevens
    - [ ] Hugh O'Reilly
    - [ ] Puja Srivastava
    - [ ] Astrid Gruber

In [None]:
## Your code here



Anda ingin mengetahui pendapatan bruto yang diperoleh oleh masing-masing negara. Lakukanlah fecthing data dari database untuk mendapatkan **jumlah** dari pendapatan bruto (`Total`) yang diperoleh oleh masing-masing negara dan urutkanlah agar mendapatkan informasi negara yang memiliki pendapatan paling besar hingga paling kecil.

```
country_total = pd.read_sql_query(
    '''
    SELECT SUM(____.____) as Total, customers._____  
    FROM customers
    LEFT JOIN _____
    ON customers.____ = ____.____
    GROUP BY ____
    ORDER BY ____ DESC
    ''' ,conn)
```

2. Manakah di antara negara berikut yang termasuk dalam 5 negara dengan pendapatan bruto paling besar yang diurutkan berdasarkan kolom `Total`?
    - [ ] United Kingdom
    - [ ] Germany
    - [ ] Portugal
    - [ ] India

In [None]:
## Your code here



## Top 5 Negara 

Berdasarkan informasi yang sudah Anda dapatkan mengenai 5 negara dengan pendapatan tertinggi, Anda ingin melakukan analisa lebih lanjut beberapa informasi lain yang bisa dijadikan sebagai *insight*. Gunakan kerangka kode di bawah ini sebagai referensi untuk membuat sebuah dataframe yang berisi catatan pelanggan-pelanggan yang berasal dari 5 negara dengan total pendapatan teratas. 

```
top5data = pd.read_sql_query(
    '''
    SELECT ___.Total, ___.InvoiceDate, customers.country, 
    customers.____ || ' ' || customers.____ as CustomerName
    FROM customers
    LEFT JOIN ____
    ON customers.____ = ____.____
    WHERE ____.____ IN ('___' , '___', '___', '___','___')
    ''' ,conn,parse_dates='InvoiceDate')
```

> **Petunjuk** : Pada method `read_sql_query`, Anda dapat menggunakan argumen `parse_dates='InvoiceDate'` agar kolom tertentu dikonversikan sebagai tanggal, sehingga Anda tidak perlu lagi melakukan konversi `to_datetime ()`

In [None]:
## Your code here



Menggunakan dataframe `top5data` diatas, lakukan analisa deskriptif untuk menjawab pertanyaan dibawah ini.

3. Berapa banyak transaksi penjualan (baris) yang berasal dari 5 negara teratas?
    - [ ] 7
    - [ ] 245
    - [ ] 412
    - [ ] 1715

In [None]:
## Your code here



### Menggabungkan SQL Query dengan Manipulasi Data Pandas

Dengan menggunakan Pandas, kita dapat melakukan teknik-teknik data manipulasi seperti ekstraksi informasi dari tipe data datetime pada dataframe hasil fechting dari database. Contohnya, anda tertarik untuk mengetahui lebih lanjut penjualan yang dilakuan pada top 5 negara khususnya Perancis (**France**). Negara Perancis (**France**) melakukan penjualan setiap harinya, lakukan agregasi data untuk mendapatkan **jumlah** pendapatan masing-masing harinya.

Kita dapat menggunakan kolom `InvoiceDate` dari dataframe `top5data` untuk membuat kolom baru `InvoiceDOW` untuk menampilkan nama-nama hari pada suatu transaksi

> **Petunjuk** : `pandas` memiliki method bawaan untuk mengekstrak nama hari dalam seminggu. Kita telah mempelajarinya di materi ke-2 dari spesialisasi ini (**Working with Datetime**). Contoh penggunaannya adalah:
>
> `data['InvoiceDOW'] = data['InvoiceDate'].dt.day_name()`


In [None]:
## Your code here



Selain Perancis, Anda juga tertarik untuk menganalisa pendapatan harian yang diperoleh dari top 5 negara dengan pendapatan tertinggi. Menggunakan dataframe `top5data`, lakukanlah agregasi untuk mengetahui **jumlah** penjualan masing-masing hari dari keseluruhan negara tersebut.


4. Berdasarkan agregasi data yang Anda lakukan diatas, jawablah 2 pertanyaan berikut: Berapa jumlah penjualan (`Total`) yang kita hasilkan dari total(`sum`) pasar Perancis (**France**) pada hari Selasa? Berapa total penjualan yang kita hasilkan dari semua gabungan 5 pasar teratas pada hari Jumat?
    - [ ] 160.41 / 173.31  
    - [ ] 160.41 / 326.77
    - [ ] 1.98 / 173.31
    - [ ] 1.98 / 326.77

In [None]:
## Your code here



Hasil analisa jumlah pendapatan harian masing-masing negara diatas akan dibuat sebuah visualisasi sebagai bahan untuk reporting Anda. Simpanlah agregasi data tersebut kedalam sebuah variabel. Apabila Anda menggunakan parameter `margin` dalam membuat agregasi data, hapuslah terlebih dahulu agar memudahkan visualisasi. Buatlah visualisasi dengan metode `.plot()` dengan mengatur parameter `kind` untuk membuat salah satu jenis plot berikut:` line`, `bar`,` scatter` & `box`.

5. Berdasarkan analisa diatas, manakah jenis plot yang **PALING TIDAK SESUAI** digunakan?
    - [ ] `line`
    - [ ] `bar`
    - [ ] `scatter`
    - [ ] `box`

In [None]:
## Your code here



Misalkan kita ingin membandingkan genre musik terlaris di 5 negara teratas. Mari kita coba dengan mengisi terlebih dahulu kode yang rumpang (______) di bawah ini:
```
genre = pd.read_sql_query(
    '''
    SELECT 
    BillingCountry AS Country, ______.Name AS Genre 
    FROM ______ 
    LEFT JOIN invoice_items ON invoices.______ = invoice_items.______
    LEFT JOIN tracks ON invoice_items.______ = ______.______ 
    LEFT JOIN ______ ON tracks.______ = genres.______
    WHERE BillingCountry IN ('USA', 'Canada', 'France', 'Brazil', 'Germany')
    ''',conn)
```


In [None]:
## Your code here


Setelah Anda menyelesaikan query untuk dataframe `genre` di atas, salin dan jalankan kode di bawah ini untuk membuat diagram batang yang membandingkan genre lagu terlaris per negara.
```
genre.\
groupby(['Country','Genre']).size().reset_index(name = 'Total Bought').\
sort_values(['Country','Total Bought'], ascending=False).\
groupby('Country').head(5).\
pivot(index = 'Country', columns = 'Genre').plot(kind='bar',stacked=True).\
legend(bbox_to_anchor=(1, 1), loc=2) 
```
6. Genre apa yang **TIDAK** termasuk dalam genre terlaris di Jerman (Germany)?
   - [ ] Blues
   - [ ] Jazz
   - [ ] Alternative & Punk
   - [ ] Latin

In [None]:
## Your code here
