### Assigment Description

Pada tugas kali ini, kita akan melihat bagaimana cara untuk menggunakan query dengan gaya SQL pada Python dengan memanfaatkan beberapa library yang digunakan untuk melakukan beberapa *workflow* dibawah ini:

Adapun workflow untuk tugas ini adalah sebagai berikut:
1. Pembuatan inisial script yang kemudian akan memanfaatkan memori sementara untuk menyimpan hasil *data seeding* yang ada.
2. Hasil penyimpanan kemudian di write ke dalam data berbentuk csv.
3. Melakukan *data querying* dengan gaya sql dari data csv.

### Import Libraries

In [1]:
!pip install duckdb

import pandas as pd
import duckdb
import sqlite3
import csv



### Sqlite3 and CSV




`Sqlite3` digunakan untuk dapat melakukan pembuatan database sementara pada memori untuk kemudian kita manfaatkan untuk melakukan pembuatan tabel seperti *database* pada umumnya. Setelah pembuatan tabel dilakukan module `csv` akan dimanfaatkan untuk dapat melakukan penulisan data yang sudah ada dalam memori menjadi suatu data csv untuk dapat kemudian kita operasikan seperti layaknya *dataframe* pada umumnya.

### Duckdb

`DuckDB` adalah library eksternal yang digunakan untuk SQL pada Python, namun tidak secara spesifik terintegrasi dengan Pandas. `DuckDB` adalah suatu alat atau *tools* untuk mengelola sistem *database* yang dilakukan secara *in-memory* yang dirancang untuk mengeksekusi kueri SQL secara efisien untuk keperluan analitik. `DuckDB` menyediakan interface untuk bahasa pemrograman Python untuk dapat mengeksekusi kueri SQL dengan skrip Python atau dalam suatu notebook.

untuk dokumentasi yang lebih lengkap dapat dilihat [disini](https://duckdb.org/docs/api/python/overview.html) (Duckdb Python API)

#### Usage Example

In [2]:
# Sample DataFrame (also can be read from csv formatted data)
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [25, 30, 35, 40],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']
}

# Pay attention to the name of the dataframe defined here because that also will be used in the query.
df = pd.DataFrame(data)
df

Unnamed: 0,Name,Age,City
0,Alice,25,New York
1,Bob,30,Los Angeles
2,Charlie,35,Chicago
3,David,40,Houston


In [3]:
# Query definition
example_query = """
SELECT * FROM df
WHERE Age > 30
"""

# Dataframe result
example_result = duckdb.query(example_query).df()
example_result

Unnamed: 0,Name,Age,City
0,Charlie,35,Chicago
1,David,40,Houston


In [4]:
# example_result is already a ready to used pandas dataframe
type(example_result)

### Workflow 1: Initial Script Table Creation Query Question

#### Query 1:
Buatlah query untuk membuat table `Customers` dengan spesifikasi sebagai berikut:

> 1. `CustomerID` berupa suatu integer.
>
> 2. `FirstName` berupa suatu string dengan panjang karakter maksimal 50.
>
> 3. `LastName` berupa suatu string dengan panjang karakter maksimal 50.
>
> 4. `Email` berupa suatu string dengan panjang karakter maksimal 100.
>
> 5. `Phone` berupa suatu string dengan panjang karakter maksimal 15.
>
>**Primary Key**: `CustomerID`



In [5]:
# Answer:
customers_table_creation_query = """
CREATE TABLE Customers (
    CustomerID INT NOT NULL,
    FirstName VARCHAR(50),
    LastName VARCHAR(50),
    Email VARCHAR(100),
    Phone VARCHAR(15),
    PRIMARY KEY (CustomerID)
);
"""

#### Query 2:
Buatlah query untuk membuat table `Products` dengan spesifikasi sebagai berikut:

> 1. `ProductID` berupa suatu integer.
>
> 2. `ProductName` berupa suatu string dengan panjang karakter maksimal 50.
>
> 3. `Price` berupa suatu string dengan panjang karakter maksimal 25.
>
>**Primary Key**: `ProductID`


In [6]:
# Answers
products_table_creation_query = """
CREATE TABLE Products (
  ProductID INT NOT NULL,
  ProductName VARCHAR(50),
  Price VARCHAR(25),
  PRIMARY KEY (ProductID)
);
"""

#### Query 3:
Buatlah query untuk membuat table `Orders` dengan spesifikasi sebagai berikut:
> 1. `OrderID` berupa suatu integer
>
> 2. `CustomerID` berupa suatu integer.
>
> 3. `ProductID` berupa suatu integer.
>
> 4. `Quantity` berupa suatu integer.
>
> 5. `OrderDate` berupa suatu timestamp.
>
>**Primary Key**: `OrderID`
>
>**Foreign Key**:
> * `CustomerID` menuju `CustomerID` yang ada pada table `Customers`.
> * `ProductID` menuju `ProductID` yang ada pada table `Products`

In [7]:
# Answers

orders_table_creation_query = """
CREATE TABLE Orders (
  OrderID INT NOT NULL,
  CustomerID INT,
  ProductID INT,
  Quantity INT,
  OrderDate TIMESTAMP,
  PRIMARY KEY (OrderID),
  FOREIGN KEY (CustomerID) REFERENCES Customers(CustomerID),
  FOREIGN KEY (ProductID) REFERENCES Products(ProductID)
);
"""

#### Data Seeding

Secara umum, data seeding adalah proses pengisian data awal ke dalam suatu basis data (database) agar aplikasi atau sistem yang menggunakan basis data tersebut dapat berfungsi dengan baik saat pertama kali dijalankan. Tujuan dari data seeding adalah untuk menyediakan data dasar yang diperlukan untuk menjalankan aplikasi atau sistem secara minimal, sehingga pengguna dapat langsung memulai penggunaan aplikasi tanpa perlu menambahkan data secara manual.

Pada tugas kali ini, data seeding digunakan untuk mengisi *database* secara spesifik pada tiap tabel yang telah dibuat sebelumnya.

In [8]:
# Connect to an in-memory SQLite database
conn = sqlite3.connect(':memory:')
cursor = conn.cursor()

# Define SQL statements
sql_commands = f"""
{customers_table_creation_query}
{products_table_creation_query}
{orders_table_creation_query}

INSERT INTO Products (ProductID, ProductName, Price) VALUES
('P131', 'Wireless Keyboard', 'Rp55.000,00'),
('P132', 'Noise-Canceling Headphones', 'Rp120.000,00'),
('P133', 'Smart Home Camera', 'Rp180.000,00'),
('P134', 'Wireless Charging Stand', 'Rp65.000,00'),
('P135', 'Portable SSD', 'Rp220.000,00'),
('P136', 'Smart Doorbell', 'Rp150.000,00'),
('P137', 'Ergonomic Chair', 'Rp400.000,00'),
('P138', 'LED Desk Lamp', 'Rp40.000,00'),
('P139', 'Coffee Grinder', 'Rp90.000,00'),
('P140', 'Bluetooth Speaker Set', 'Rp130.000,00'),
('P141', 'External DVD Drive', 'Rp75.000,00'),
('P142', 'Fitness Smartwatch', 'Rp180.000,00'),
('P143', 'Desktop Printer', 'Rp300.000,00'),
('P144', 'Gaming Mouse', 'Rp70.000,00'),
('P145', 'Cordless Vacuum Cleaner', 'Rp250.000,00'),
('P146', 'Wireless Earbuds', 'Rp50.000,00'),
('P147', 'Mesh Office Chair', 'Rp450.000,00'),
('P148', 'Smart Scale', 'Rp60.000,00'),
('P149', 'Portable Projector', 'Rp320.000,00'),
('P150', 'Wireless Gaming Controller', 'Rp100.000,00'),
('P151', 'Bluetooth Keyboard', 'Rp55.000,00'),
('P152', 'External Blu-ray Drive', 'Rp90.000,00'),
('P153', 'Smart Mirror', 'Rp280.000,00'),
('P154', 'Office Desk Organizer', 'Rp25.000,00'),
('P155', 'USB Desk Fan', 'Rp35.000,00'),
('P156', 'Smart Light Bulbs', 'Rp85.000,00'),
('P157', 'Portable Air Cooler', 'Rp120.000,00'),
('P158', 'Gaming Headset', 'Rp110.000,00'),
('P159', 'Wireless Mouse Pad Charger', 'Rp45.000,00'),
('P160', 'Smart WiFi Plug', 'Rp30.000,00');

INSERT INTO Customers (CustomerID, FirstName, LastName, Email, Phone) VALUES
(1, 'John', 'Smith', 'john.smith@email.com', '123-456-7890'),
(2, 'Emily', 'Johnson', 'emily.j@email.com', '987-654-3210'),
(3, 'Mike', 'Davis', 'mike.d@email.com', '555-123-4567'),
(4, 'Sarah', 'Wilson', 'sarah.w@email.com', '333-555-7777'),
(5, 'David', 'Lee', 'david.lee@email.com', '777-888-9999'),
(6, 'Lisa', 'Anderson', 'lisa.anderson@email.com', '444-666-1111'),
(7, 'Brian', 'Taylor', 'brian.taylor@email.com', '222-333-4444'),
(8, 'Emma', 'White', 'emma.white@email.com', '888-999-0000'),
(9, 'Jason', 'Miller', 'jason.miller@email.com', '555-444-3333'),
(10, 'Olivia', 'Brown', 'olivia.brown@email.com', '111-222-3333'),
(11, 'Daniel', 'Martinez', 'daniel.martinez@email.com', '555-123-4567'),
(12, 'Jessica', 'Turner', 'jessica.turner@email.com', '777-888-9999'),
(13, 'Matthew', 'Harris', 'matthew.harris@email.com', '444-666-1111'),
(14, 'Sophia', 'Clark', 'sophia.clark@email.com', '222-333-4444'),
(15, 'Ethan', 'Garcia', 'ethan.garcia@email.com', '888-999-0000'),
(16, 'Isabella', 'Allen', 'isabella.allen@email.com', '555-444-3333'),
(17, 'Noah', 'Taylor', 'noah.taylor@email.com', '111-222-3333'),
(18, 'Mia', 'King', 'mia.king@email.com', '555-123-4567'),
(19, 'Aiden', 'Turner', 'aiden.turner@email.com', '777-888-9999'),
(20, 'Zoey', 'Hill', 'zoey.hill@email.com', '444-666-1111'),
(21, 'Elijah', 'Butler', 'elijah.butler@email.com', '222-333-4444'),
(22, 'Ava', 'Powell', 'ava.powell@email.com', '888-999-0000'),
(23, 'Jackson', 'Murphy', 'jackson.murphy@email.com', '555-444-3333'),
(24, 'Scarlett', 'Brooks', 'scarlett.brooks@email.com', '111-222-3333'),
(25, 'Logan', 'Hughes', 'logan.hughes@email.com', '555-123-4567'),
(26, 'Sophie', 'Baker', 'sophie.baker@email.com', '555-123-7890'),
(27, 'Nathan', 'Young', 'nathan.y@email.com', '987-654-3210'),
(28, 'Emily', 'Wilson', 'emily.w@email.com', '555-123-4567');

INSERT INTO Orders (OrderID, CustomerID, ProductID, Quantity, OrderDate) VALUES
(621, 11, 'P131', 2, '2024-05-06 09:30:00'),
(622, 12, 'P132', 1, '2024-05-06 12:45:00'),
(623, 13, 'P133', 3, '2024-05-07 14:15:00'),
(624, 14, 'P134', 1, '2024-05-07 17:30:00'),
(625, 15, 'P135', 2, '2024-05-08 10:30:00'),
(626, 16, 'P136', 1, '2024-05-08 13:45:00'),
(627, 17, 'P137', 4, '2024-05-09 15:30:00'),
(628, 18, 'P138', 2, '2024-05-09 18:00:00'),
(629, 19, 'P139', 1, '2024-05-10 11:15:00'),
(630, 20, 'P140', 3, '2024-05-10 14:45:00'),
(631, 11, 'P141', 2, '2024-05-21 10:30:00'),
(632, 12, 'P142', 1, '2024-05-21 12:45:00'),
(633, 13, 'P143', 3, '2024-05-22 14:15:00'),
(634, 14, 'P144', 1, '2024-05-22 17:30:00'),
(635, 15, 'P145', 2, '2024-05-23 10:30:00'),
(636, 16, 'P146', 1, '2024-05-23 13:45:00'),
(637, 17, 'P147', 4, '2024-05-24 15:30:00'),
(638, 18, 'P148', 2, '2024-05-24 18:00:00'),
(639, 19, 'P149', 1, '2024-05-25 11:15:00'),
(640, 20, 'P150', 3, '2024-05-25 14:45:00'),
(661, 11, 'P131', 2, '2024-06-06 09:30:00'),
(662, 12, 'P132', 1, '2024-06-06 12:45:00'),
(663, 13, 'P133', 3, '2024-06-07 14:15:00'),
(664, 14, 'P134', 1, '2024-06-07 17:30:00'),
(665, 15, 'P135', 2, '2024-06-08 10:30:00'),
(666, 16, 'P136', 1, '2024-06-08 13:45:00'),
(667, 17, 'P137', 4, '2024-06-09 15:30:00'),
(668, 18, 'P138', 2, '2024-06-09 18:00:00'),
(669, 19, 'P139', 1, '2024-06-10 11:15:00'),
(670, 20, 'P140', 3, '2024-06-10 14:45:00'),
(671, 26, 'P131', 2, '2024-06-11 09:30:00'),
(672, 27, 'P132', 1, '2024-06-11 12:45:00'),
(673, 1, 'P150', 2, '2024-07-23 10:30:00'),
(674, 4, 'P146', 1, '2024-07-23 13:45:00'),
(675, 5, 'P148', 4, '2024-07-24 15:30:00'),
(676, 12, 'P154', 2, '2024-07-24 18:00:00'),
(677, 6, 'P157', 1, '2024-07-25 11:15:00'),
(678, 20, 'P150', 3, '2024-07-25 14:45:00'),
(679, 11, 'P144', 2, '2024-07-06 09:30:00'),
(680, 7, 'P135', 1, '2024-07-06 12:45:00'),
(681, 8, 'P153', 3, '2024-07-07 14:15:00'),
(682, 14, 'P158', 1, '2024-07-07 17:30:00'),
(683, 15, 'P160', 2, '2024-08-08 10:30:00'),
(684, 16, 'P146', 1, '2024-08-08 13:45:00'),
(685, 17, 'P145', 4, '2024-08-09 15:31:00'),
(686, 18, 'P141', 2, '2024-08-09 18:04:00'),
(687, 2, 'P135', 1, '2024-08-10 11:17:00'),
(688, 6, 'P142', 3, '2024-08-10 14:23:00'),
(689, 26, 'P156', 2, '2024-08-11 09:11:00'),
(690, 14, 'P147', 1, '2024-08-11 12:23:00'),
(691, 12, 'P139', 3, '2024-08-12 14:45:00');
"""

# Execute SQL commands
cursor.executescript(sql_commands)

<sqlite3.Cursor at 0x7fa140921e40>

### Workflow 2: Write Database Data to CSV Format

In [9]:
# Fetch data from Customers table
cursor.execute("SELECT * FROM Customers")
customers_data = cursor.fetchall()

# Fetch data from Products table
cursor.execute("SELECT * FROM Products")
products_data = cursor.fetchall()

# Fetch data from Orders table
cursor.execute("SELECT * FROM Orders")
orders_data = cursor.fetchall()

# Write Customers data to CSV
with open('Customers.csv', 'w', newline='') as csvfile:
    csv_writer = csv.writer(csvfile, delimiter=',')
    csv_writer.writerow(['CustomerID', 'FirstName', 'LastName', 'Email', 'Phone'])
    csv_writer.writerows(customers_data)

# Write Products data to CSV
with open('Products.csv', 'w', newline='') as csvfile:
    csv_writer = csv.writer(csvfile, delimiter=',')
    csv_writer.writerow(['ProductID', 'ProductName', 'Price'])
    csv_writer.writerows(products_data)

# Write Orders data to CSV
with open('Orders.csv', 'w', newline='') as csvfile:
    csv_writer = csv.writer(csvfile, delimiter=',')
    csv_writer.writerow(['OrderID', 'CustomerID', 'ProductID', 'Quantity', 'OrderDate'])
    csv_writer.writerows(orders_data)

# Close connection
conn.close()

print("CSV files created successfully.")

CSV files created successfully.


In [10]:
# Read the Customers.csv and show the first 5 rows.

customers = pd.read_csv("Customers.csv")

customers.head()

Unnamed: 0,CustomerID,FirstName,LastName,Email,Phone
0,1,John,Smith,john.smith@email.com,123-456-7890
1,2,Emily,Johnson,emily.j@email.com,987-654-3210
2,3,Mike,Davis,mike.d@email.com,555-123-4567
3,4,Sarah,Wilson,sarah.w@email.com,333-555-7777
4,5,David,Lee,david.lee@email.com,777-888-9999


In [11]:
# Read the Orders.csv and show the first 5 rows.

orders = pd.read_csv("Orders.csv")

orders.head()

Unnamed: 0,OrderID,CustomerID,ProductID,Quantity,OrderDate
0,621,11,P131,2,2024-05-06 09:30:00
1,622,12,P132,1,2024-05-06 12:45:00
2,623,13,P133,3,2024-05-07 14:15:00
3,624,14,P134,1,2024-05-07 17:30:00
4,625,15,P135,2,2024-05-08 10:30:00


In [12]:
# Read the Products.csv and show the first 5 rows.

products = pd.read_csv("Products.csv")

products.head()

Unnamed: 0,ProductID,ProductName,Price
0,P131,Wireless Keyboard,"Rp55.000,00"
1,P132,Noise-Canceling Headphones,"Rp120.000,00"
2,P133,Smart Home Camera,"Rp180.000,00"
3,P134,Wireless Charging Stand,"Rp65.000,00"
4,P135,Portable SSD,"Rp220.000,00"


### Workflow 3: Data Querying on Answering Research Questions

#### Research Question 1:

>Tampilkan 5 produk terbanyak berdasarkan total penjualan diurutkan berdasarkan total penjualan dari terbesar hingga terkecil
>
>Skema yang diharapkan:
* **id_produk**
* **total_harga**

In [13]:
query_q1 = """
SELECT products.ProductID as id_produk, CAST(REPLACE(REPLACE(SUBSTRING(products.Price, 3), '.', ''), ',', '.') AS DECIMAL(10,2))*SUM(orders.Quantity) as total_harga FROM products, orders
WHERE products.ProductID = orders.ProductID
GROUP BY id_produk, products.Price
ORDER BY total_harga DESC
LIMIT 5;
"""

result_q1 = duckdb.query(query_q1).df()
result_q1

Unnamed: 0,id_produk,total_harga
0,P137,3200000.0
1,P147,2250000.0
2,P145,1500000.0
3,P135,1320000.0
4,P133,1080000.0


#### Research Question 2:

>Berapa rata-rata jumlah pembelian produk secara umum setiap bulannya?
>
>Skema yang diharapkan:
* **bulan**
* **rata_rata_pemesanan**

In [14]:
query_q2 = """
SELECT month(CAST(OrderDate AS TIMESTAMP)) as bulan, AVG(Quantity) as rata_rata_pemesanan FROM orders
GROUP BY month(CAST(OrderDate AS TIMESTAMP));
"""

result_q2 = duckdb.query(query_q2).df()
result_q2

Unnamed: 0,bulan,rata_rata_pemesanan
0,5,2.0
1,6,1.916667
2,7,2.0
3,8,2.111111


#### Research Question 3:

Tampilkan 10 pengguna yang memiliki total pesanan terbanyak diurutkan dari total pesanan terbanyak hingga yang paling sedikit.

Skema yang diharapkan:
* **id_pelanggan**
* **nama_pelanggan**: nama lengkap pelanggan (nama awal dan nama akhir).
* **total_pesanan**: total pesanan pelanggan dari keseluruhan data pesanan.

In [15]:
# ASUMSI: total_pesanan adalah berapa banyak orang tersebut memesan dan bukan berapa banyak produk yang dipesan.

query_q3 = """
SELECT customers.CustomerID as id_pelanggan, CONCAT(customers.FirstName, ' ', customers.LastName) as nama_pelanggan, COUNT(orders.Quantity) as total_pesanan from customers, orders
WHERE orders.CustomerID = customers.CustomerID
GROUP BY id_pelanggan, nama_pelanggan
ORDER BY total_pesanan DESC
LIMIT 10;
"""

result_q3 = duckdb.query(query_q3).df()
result_q3

Unnamed: 0,id_pelanggan,nama_pelanggan,total_pesanan
0,12,Jessica Turner,5
1,14,Sophia Clark,5
2,18,Mia King,4
3,11,Daniel Martinez,4
4,15,Ethan Garcia,4
5,16,Isabella Allen,4
6,17,Noah Taylor,4
7,20,Zoey Hill,4
8,13,Matthew Harris,3
9,19,Aiden Turner,3


# Theoritical Questions

1. Menurut Anda, mengapa konsep *data warehousing* sangat diperlukan dalam pengolahan data yang ada pada perusahaan modern? (5)

>Jawaban:

> Menurut saya, data warehousing diperlukan pada perusahaan modern karena memberikan keuntungan dalam manajemen dan analisis data. Berdasarkan penjelasan di modul, data disusun untuk mendukung analisis OLAP (Online Analytical Processing). Dengan keberadaan fact table dan dimension table, data yang dimiliki oleh perusahaan bersifat terstruktur. Hal ini dapat membantu perusahaan dalam melakukan analisis yang lebih mendalam terhadap tren, pola, dan perilaku bisnis. Alhasil karakteristik memungkinkan pengambilan keputusan yang lebih baik dan strategi bisnis yang lebih terinformasi.
<br><br>
Berdasarkan referensi yang saya peroleh dari situs ini: https://www.binaracademy.com/blog/pengertian-data-warehouse
<br><br>
Data warehouse menggunakan data yang berdasarkan kenyataan di lapangan. Hal ini berarti data ini sangat berguna untuk memberi keputusan bisnis. Karakteristik data warehouse yang dapat mengumpulkan data dari berbagai sumber, menjadikan data ini adalah data yang konsisten.

2. Suatu organisasi yang memiliki skema data yang dikerjakan sebelumnya, perlu melihat jumlah penjualan dan total customer per bulan dari transaksi. Tentukan measure apa saja yang diperlukan? (5)

> Jawaban:

> Measure yang menurut saya diperlukan bergantung pada:

> - Table: Orders
  - OrderDate
  - Quantity
  - CustomerID

> Melalui atribut OrderDate yang dapat kita *cast* sebagai TIMESTAMP. Hal ini membuat kita dapat melakukan grouping OrderDate berdasarkan bulan dari setiap value transaksi (order) yang ada. Selanjutnya karena kita ingin mengetahui jumlah penjualan yang ada, kita dapat menghitung jumlah penjualan tersebut dengan fungsi agregasi SUM dari atribut Quantity. Tidak hanya itu, untuk menghitung total customer per bulan, kita dapat menggunakan fungsi agregasi COUNT dari atribut CustomerID.

3. Bagaimana hubungan antara tabel orders, customers, dan products dapat dimodelkan dalam konteks sebuah data warehouse? (10)
* Apakah Anda akan menggunakan dimensi bintang (star schema), dimensi salju (snowflake schema), atau skema lainnya?
* Mengapa Anda memilih skema tersebut?
* Tentukan peran setiap tabel pada kasus tersebut!

> Jawaban:

> Referensi: https://www.linkedin.com/advice/0/how-do-you-choose-between-star-snowflake-schema
- Saya akan menggunakan dimensi bintang (star schema)
- Pemilihan dimensi bintang (*star schema*) didasarkan karena dimensi antara tabel orders, customers, dan products memiliki kardinalitas yang kecil (hanya 2). Tidak hanya itu, hubungan hierarki antara tabel orders dengan customers maupun products hanyalah sebatas informasi dengan perbedaan 1 lapisan (*layer*). Untuk mengelaborasikan hal ini, lapisan yang dimaksud: products dan customers merupakan informasi lebih detail dari orders dan tidak ada pelebaran lebih lanjut.
- Bentuk star schema yang akan dibentuk: PRODUCTS <----- ORDERS -----> CUSTOMER
  - Orders: merupakan tabel fakta (fact table) yang berkaitan mengenai fakta bisnis (transaksi) yang ingin dianalisa.
  - Products: merupakan tabel dimensi (*dimension table*) yang memberikan konteks tambahan mengenai produk (detail-detail produk, seperti harga, nama barang, dsb).
  - Customers: merupakan tabel dimensi (*dimension table*) yang memberikan konteks tambahan mengenai customer (pelanggan transaksi kita, seperti nama lengkap mereka, dll).
  <br><br>
  Dengan customers dan products sebagai tabel dimensi, maka mereka akan memberikan detail informasi/konteks mengenai transaksi (orders) yang dilakukan.


4. Bagaimana Peran Metadata dalam Data Warehousing? (5)

> Jawaban:

> Metadata memberikan deskripsi lengkap tentang data yang disimpan dalam data warehouse. Metadata memberikan informasi seperti sumber data, struktur data, definisi kolom, dan tipe data. Hal ini dapat membantu kita untuk melakukan aksi-aksi tertentu terhadap metadata ini. Misalnya apabila kita mengetahui bahwa suatu atribut memiliki integer sebagai tipenya, kita dapat memiliki intuisi untuk mendapatkan rata-rata, nilai maksimum, minimum, dsb. Tidak hanya itu, metadata juga menyediakan konteks bisnis untuk data. Hal ini meliputi definisi bisnis, aturan bisnis, dan hubungan antar data. Dengan informasi ini, pemangku kepentingan bisnis dapat lebih memahami arti dan implikasi data, memudahkan pengambilan keputusan yang lebih baik.

> Selanjutnya, metadata juga biasanya mendeskripsikan data agar membuatnya **lebih mudah dicari** seperti author, tanggal (timestamp), maupun lokasi sehingga dapat dilakukan proses *filtering* sesuai dengan kebutuhan tertentu.