# Modul 4
## Topik 1: Praktek SQL untuk Data Analyst di VS Code
### Bagian 0: Persiapan Lingkungan di VS Code

In [2]:
# Skrip ini hanya perlu dijalakan SATU KALI untuk membuat database.
import pandas as pd
import sqlite3

# Nama file CSV yang sudah bersih
NAMA_FILE_CSV = 'C:/Users/ASUS/Documents/Road to DA/(Cleaned)Dataset Mini Project Modul 2.csv'
# Nama file database yang akan kita buat
NAMA_DATABASE = 'superstore.db'
# Nama tabel di ddalam database yang akan kita buat
NAMA_TABEL = 'penjualan'

In [3]:
# 1. Baca data dari CSV ke DataFrame Pandas
try:
    df = pd.read_csv(NAMA_FILE_CSV)
    print(f"Berhasil memuat {NAMA_FILE_CSV}.")
except FileNotFoundError:
    print(f"Error: File '{NAMA_FILE_CSV}' tidak ditemukan. Pastikan file ada di folder yang sama.")
    exit()

Berhasil memuat C:/Users/ASUS/Documents/Road to DA/(Cleaned)Dataset Mini Project Modul 2.csv.


In [4]:
# 2. Buat koneksi ke database SQLite
# File superstore.db akan otomatis dibuat jika belum ada
conn = sqlite3.connect(NAMA_DATABASE)
print(f"Berhasil membuat atau terhubung ke database '{NAMA_DATABASE}'.")

Berhasil membuat atau terhubung ke database 'superstore.db'.


In [5]:
# 3. Tulis DataFrame ke tabel SQLite
# if_exists='replace' akan membuat ulang tabel setiap kali skrip dijalankan
df.to_sql(NAMA_TABEL, conn, if_exists='replace', index=False)
print(f"Berhasil menulis data ke tabel '{NAMA_TABEL}'.")

Berhasil menulis data ke tabel 'penjualan'.


In [6]:
# 4. Tutup koneksi
conn.close()
print("Setup data base selesai.")

Setup data base selesai.


### Bagian 1: Menjalankan Query SQL dari Python

In [7]:
import pandas as pd
import sqlite3

# Nama file database kita
NAMA_DATABASE = 'superstore.db'

In [8]:
# 1. Buat koneksi ke database
conn = sqlite3.connect(NAMA_DATABASE)

In [9]:
# 2. Tulis query SQL di sini sebagai sebuah string
query = """
    SELECT * FROM penjualan LIMIT 5;
"""

In [10]:
# 3. Gunakan Pandas untuk menjalankan query dan memuat hasilnya ke DataFrame
try:
    df_hasil = pd.read_sql_query(query, conn)
    print("--- Hasil Query ---")
    print(df_hasil)
except Exception as e:
    print(f"Terjadi error saat menjalankan query: {e}")

--- Hasil Query ---
   Row ID        Order ID  Order Date   Ship Date       Ship Mode Customer ID  \
0       1  CA-2017-152156  2017-11-08  11/11/2017    Second Class    CG-12520   
1       2  CA-2017-152156  2017-11-08  11/11/2017    Second Class    CG-12520   
2       3  CA-2017-138688  2017-06-12  16/06/2017    Second Class    DV-13045   
3       4  US-2016-108966  2016-10-11  18/10/2016  Standard Class    SO-20335   
4       5  US-2016-108966  2016-10-11  18/10/2016  Standard Class    SO-20335   

     Customer Name    Segment        Country             City       State  \
0      Claire Gute   Consumer  United States        Henderson    Kentucky   
1      Claire Gute   Consumer  United States        Henderson    Kentucky   
2  Darrin Van Huff  Corporate  United States      Los Angeles  California   
3   Sean O'Donnell   Consumer  United States  Fort Lauderdale     Florida   
4   Sean O'Donnell   Consumer  United States  Fort Lauderdale     Florida   

   Postal Code Region       Pr

In [11]:
# 4. Tutup koneksi
conn.close()

### Bagian 2: Praktek Perintah-Perintah Inti SQL
#### a. SELECT, FROM, WHERE

In [12]:
import pandas as pd
import sqlite3

# Nama file database kita
NAMA_DATABASE = 'superstore.db'

# 1. Buat koneksi ke database
conn = sqlite3.connect(NAMA_DATABASE)

# 2. Menampilkan kolom Product Name dan Sales untuk semua penjualan di region 'South'
query = """
    SELECT "Product Name", "Sales"
    FROM penjualan
    WHERE "Region" = 'South';
"""

# 3. Gunakan Pandas untuk menjalankan query dan memuat hasilnya ke DataFrame
try:
    df_hasil = pd.read_sql_query(query, conn)
    print("--- Hasil Query ---")
    print(df_hasil)
except Exception as e:
    print(f"Terjadi error saat menjalankan query: {e}")

--- Hasil Query ---
                                           Product Name     Sales
0                     Bush Somerset Collection Bookcase  261.9600
1     Hon Deluxe Fabric Upholstered Stacking Chairs,...  731.9400
2         Bretford CR4500 Series Slim Rectangular Table  957.5775
3                        Eldon Fold 'N Roll Cart System   22.3680
4                                            Xerox 1967   15.5520
...                                                 ...       ...
1593                   Tops Wirebound Message Log Books   10.5280
1594  Fellowes Advanced Computer Series Surge Protec...   42.3840
1595    Cisco IPÂ PhoneÂ 7961G VoIPÂ phoneÂ - Dark gray  135.9500
1596  Acco Flexible ACCOHIDE Square Ring Data Binder...   48.8100
1597                Global Stack Chair with Arms, Black  149.9000

[1598 rows x 2 columns]


#### b. Agregasi: GROUP BY, SUM, COUNT

In [13]:
import pandas as pd
import sqlite3

# Nama file database kita
NAMA_DATABASE = 'superstore.db'

# 1. Buat koneksi ke database
conn = sqlite3.connect(NAMA_DATABASE)

# 2. Menghitung total penjualan (Sales) untuk setiap Category.
query = """
    SELECT 
        "Category", 
        SUM("Sales") AS "TotalSales"
    FROM penjualan
    GROUP BY "Category";
"""

# 3. Gunakan Pandas untuk menjalankan query dan memuat hasilnya ke DataFrame
try:
    df_hasil = pd.read_sql_query(query, conn)
    print("--- Hasil Query ---")
    print(df_hasil)
except Exception as e:
    print(f"Terjadi error saat menjalankan query: {e}")

--- Hasil Query ---
          Category   TotalSales
0        Furniture  723538.4757
1  Office Supplies  703212.8240
2       Technology  825856.1130


#### c. Pengurutan dan Pembatasan: ORDER BY, LIMIT

In [14]:
import pandas as pd
import sqlite3

# Nama file database kita
NAMA_DATABASE = 'superstore.db'

# 1. Buat koneksi ke database
conn = sqlite3.connect(NAMA_DATABASE)

# 2. Mencari 5 produk dengan penjualan tertinggi
query = """
    SELECT "Product Name", "Sales"
    FROM penjualan
    ORDER BY "Sales" DESC
    LIMIT 5;
"""

# 3. Gunakan Pandas untuk menjalankan query dan memuat hasilnya ke DataFrame
try:
    df_hasil = pd.read_sql_query(query, conn)
    print("--- Hasil Query ---")
    print(df_hasil)
except Exception as e:
    print(f"Terjadi error saat menjalankan query: {e}")

--- Hasil Query ---
                                        Product Name      Sales
0  Cisco TelePresence System EX90 Videoconferenci...  22638.480
1              Canon imageCLASS 2200 Advanced Copier  17499.950
2              Canon imageCLASS 2200 Advanced Copier  13999.960
3              Canon imageCLASS 2200 Advanced Copier  11199.968
4              Canon imageCLASS 2200 Advanced Copier  10499.970


## Topik 2: Statistik Deskriptif & Inferensial
### 1. Statistik Deskriptif: Meringkas dan Menggambarkan Data
Tujuan dari statistik deskriptif adalah untuk meringkas dan menyajikan data dengan cara yang mudah dipahami. Ini adalah apa yang telah kita lakukan secara tidak langsung dengan fungsi .describe() di Pandas.
#### A. Ukuran Pemusatan (Measures of Central Tendency)
**Mean (Rata-rata):**
- Apa itu? Jumlah total semua nilai dibagi dengan jumlah data.
- Kapan digunakan? Baik untuk data yang distribusinya normal (simetris) dan tidak memiliki banyak nilai ekstrem (outlier).
- Contoh Kode: df_cleaned['Sales'].mean()

**Median (Nilai Tengah):**
- Apa itu? Nilai yang berada tepat di tengah setelah semua data diurutkan.
- Kapan digunakan? Jauh lebih baik daripada mean jika data Anda memiliki outlier. Dari boxplot penjualan yang kita lihat, ada banyak sekali outlier penjualan yang sangat tinggi. Median akan memberi kita gambaran yang lebih akurat tentang "transaksi tipikal" daripada mean yang akan tertarik oleh nilai-nilai ekstrem tersebut.
- Contoh Kode: df_cleaned['Sales'].median()

**Modus (Nilai Paling Sering Muncul):**
- Apa itu? Nilai yang paling sering muncul dalam dataset.
- Kapan digunakan? Paling berguna untuk data kategorikal.
- Contoh Kode: df_cleaned['Category'].mode() akan memberitahu kita kategori produk yang paling sering ditransaksikan.

#### B.Ukuran Sebaran (Measures of Spread)
**Range (Jangkauan):**
- Apa itu? Perbedaan antara nilai maksimum dan minimum.
- Kapan digunakan? Memberikan gambaran cepat tentang sebaran, tetapi sangat sensitif terhadap outlier.
- Contoh Kode: df_cleaned['Sales'].max() - df_cleaned['Sales'].min()

**Standar Deviasi (Standard Deviation):**
- Apa itu? Ukuran rata-rata seberapa jauh setiap titik data dari mean.
- Kapan digunakan? Ini adalah ukuran sebaran yang paling umum. Standar deviasi yang tinggi berarti data sangat tersebar dan bervariasi. Standar deviasi yang rendah berarti data cenderung berkumpul di sekitar nilai rata-rata.
- Contoh Kode: df_cleaned['Sales'].std()

### 2. Statistik Inferensial: Menarik Kesimpulan dan Membuat Prediksi
Jika statistik deskriptif adalah tentang masa lalu (apa yang sudah terjadi di data kita), maka statistik inferensial adalah tentang masa depan. Tujuannya adalah untuk membuat kesimpulan atau prediksi tentang populasi yang lebih besar berdasarkan sampel data yang kita miliki.
#### A. Konsep Krusial: Korelasi vs Kausalitas
Ini adalah salah satu konsep paling penting yang harus dipahami oleh seorang Data Analyst.
- Korelasi (Correlation): Menunjukkan adanya hubungan statistik antara dua variabel. Misalnya, saat variabel A naik, variabel B juga cenderung naik (korelasi positif). Heatmap yang kita buat di Modul 3 adalah cara untuk memvisualisasikan korelasi.
- Kausalitas (Causation / Sebab-Akibat): Menunjukkan bahwa perubahan pada satu variabel menyebabkan perubahan pada variabel lain.

Contoh Klasik: Ada korelasi positif yang kuat antara penjualan es krim dan jumlah serangan hiu.

- Interpretasi yang Salah (Kausalitas): "Makan es krim menyebabkan serangan hiu."
- Interpretasi yang Benar (Korelasi): "Kedua hal ini tidak saling menyebabkan. Ada variabel ketiga yang tersembunyi, yaitu cuaca panas. Saat cuaca panas, lebih banyak orang membeli es krim, dan lebih banyak orang berenang di laut, sehingga meningkatkan kemungkinan terjadinya serangan hiu."

Pelajaran: Sebagai analis, jangan pernah menyimpulkan adanya sebab-akibat hanya dari korelasi. Selalu pertimbangkan faktor-faktor lain yang mungkin berpengaruh.

#### B. Pengenalan Hipotesis Testing dan A/B Testing
- Apa itu Hipotesis Testing? Sebuah cara untuk menentukan apakah suatu hasil cukup signifikan secara statistik untuk dipercaya, atau apakah itu hanya terjadi karena kebetulan.
- A/B Testing (Aplikasi Paling Umum):
Bayangkan sebuah perusahaan e-commerce ingin tahu apakah mengubah warna tombol "Beli Sekarang" dari biru menjadi hijau akan meningkatkan jumlah klik.
1. Hipotesis: "Mengubah warna tombol menjadi hijau akan meningkatkan click-through rate."

2. Eksperimen:
    - Grup A (Kontrol): Sebagian pengunjung website tetap melihat tombol biru.

    - Grup B (Varian): Sebagian pengunjung lainnya melihat tombol hijau.

3. Analisis: Setelah periode tertentu, kita mengumpulkan data dari kedua grup. Statistik inferensial akan membantu kita menentukan: "Apakah peningkatan klik di Grup B cukup signifikan untuk membuktikan hipotesis kita, atau apakah perbedaannya sangat kecil sehingga mungkin hanya kebetulan?"

### Latihan Konseptual:

1. Dari boxplot penjualan yang kita lihat di modul sebelumnya, mengapa median mungkin menjadi ukuran pemusatan yang lebih baik daripada mean untuk menggambarkan "transaksi tipikal"?
2. Jika Anda menemukan korelasi positif yang kuat antara jumlah diskon yang diberikan (Discount) dan jumlah penjualan (Sales), apakah Anda bisa langsung menyimpulkan bahwa diskon yang lebih tinggi menyebabkan penjualan yang lebih tinggi? Variabel lain apa yang mungkin berpengaruh? (Petunjuk: Pikirkan tentang jenis produk atau periode waktu).

**JAWAB**
1. Median adalah ukuran pemusatan yang lebih baik dalam kasus ini karena distribusi data penjualan kita sangat mencong ke kanan (positively skewed). Ini terlihat jelas dari boxplot di mana ada banyak sekali outliers (pencilan) dengan nilai penjualan yang sangat tinggi.
    - Mean (Rata-rata) sangat sensitif terhadap nilai ekstrem. Adanya transaksi bernilai jutaan akan "menarik" nilai rata-rata menjadi jauh lebih tinggi, sehingga tidak lagi merepresentasikan nilai transaksi yang paling umum terjadi.
    - Median (Nilai Tengah), sebaliknya, bersifat resisten terhadap outliers. Ia hanya melihat nilai yang berada tepat di tengah dari seluruh data yang diurutkan. Oleh karena itu, median memberikan gambaran yang jauh lebih akurat dan realistis tentang "transaksi tipikal" atau nilai penjualan yang paling sering dihadapi oleh Superstore.
2. Tidak, kita tidak bisa langsung menyimpulkan bahwa diskon yang lebih tinggi menyebabkan penjualan yang lebih tinggi. Prinsip fundamental dalam statistik adalah korelasi tidak membuktikan adanya sebab-akibat (correlation does not imply causation).

Meskipun kedua variabel tersebut bergerak bersamaan, ada kemungkinan besar hubungan tersebut dipengaruhi oleh variabel perancu (confounding variables) lain. Beberapa kemungkinan variabel perancu yang perlu diinvestigasi adalah:
- Jenis Produk: Bisa jadi diskon besar hanya diberikan pada produk-produk mahal (seperti kategori Technology atau Furniture) yang secara alami sudah memiliki nilai penjualan tinggi. Jadi, bukan diskonnya yang menaikkan penjualan, melainkan harga dasar produknya yang memang sudah tinggi.
- Periode Waktu: Diskon besar mungkin hanya ditawarkan pada periode tertentu seperti musim liburan atau event "cuci gudang". Pada periode ini, volume penjualan memang sudah diperkirakan akan naik, terlepas dari ada atau tidaknya diskon.
- Volume Pembelian: Diskon mungkin diberikan untuk pembelian dalam jumlah besar (borongan) oleh pelanggan korporat, yang secara otomatis akan menghasilkan total penjualan yang tinggi.

Oleh karena itu, sebelum menyimpulkan adanya sebab-akibat, seorang analis harus melakukan analisis lebih lanjut untuk mengisolasi dan memahami pengaruh dari variabel-variabel lain ini.