# Data Understanding

## 1. Pendahuluan

Tahapan **Data Understanding** adalah fase awal dalam siklus hidup proyek data science. Tujuannya adalah untuk mendapatkan pemahaman mendalam tentang data yang akan digunakan. Pada tahap ini, kita akan melakukan analisis eksplorasi awal untuk mengidentifikasi karakteristik, kualitas, dan pola dalam data. Proses ini sangat krusial karena kualitas data akan sangat memengaruhi kualitas model yang akan dibangun.

Dokumen ini akan memandu proses *data understanding* yang meliputi:

- **Menghubungkan dan mengambil data** dari database PostgreSQL.
- **Menganalisis tipe data** dari setiap kolom.
- **Mengevaluasi kualitas data**, termasuk analisis outlier, konsistensi data, dan penanganan missing value.


## 2. Impor Library yang Dibutuhkan
Sel pertama ini berisi semua library Python yang akan kita gunakan selama proses analisis. Mengumpulkannya di satu tempat membuat kode lebih terorganisir.

In [8]:
%pip install -q psycopg2-binary sqlalchemy pandas numpy seaborn
# Import library untuk koneksi database
import psycopg2
from sqlalchemy import create_engine
# Import library untuk analisis dan manipulasi data
import pandas as pd
import numpy as np
# Import library untuk visualisasi (opsional, namun sangat membantu)
import seaborn as sns
import matplotlib.pyplot as plt


Note: you may need to restart the kernel to use updated packages.


## 3. Koneksi ke Database PostgreSQL dan Pengambilan Data
Langkah selanjutnya adalah menghubungkan notebook ini dengan database PostgreSQL tempat data disimpan. Kita akan menggunakan sqlalchemy untuk membuat koneksi dan pandas untuk mengeksekusi query SQL dan menyimpannya ke dalam DataFrame.

Ganti nilai user, password, host, port, database, dan query sesuai dengan konfigurasi Anda.

In [11]:
# Ganti dengan kredensial database PostgreSQL Anda
db_user = 'avnadmin'
db_password = 'AVNS_9tlb724wsVZP8tiktZC'
db_host = 'zulfri-psd-data-science-zulfri.f.aivencloud.com'
db_port = '18222'
db_name = 'defaultdb'

# Membuat connection string
conn_string = f'postgresql://{db_user}:{db_password}@{db_host}:{db_port}/{db_name}'

# Membuat engine koneksi ke database
try:
    engine = create_engine(conn_string)
    print("Koneksi ke database PostgreSQL berhasil!")
except Exception as e:
    print(f"Terjadi kesalahan saat koneksi: {e}")

# --- PENGAMBILAN DATA ---
# Tulis query SQL untuk mengambil data yang Anda butuhkan
sql_query = "SELECT * FROM data_penjualan;"

# Mengambil data menggunakan pandas dan koneksi engine
try:
    df = pd.read_sql(sql_query, engine)
    print("Data berhasil diambil dari tabel.")
except Exception as e:
    print(f"Terjadi kesalahan saat mengambil data: {e}")

# Menampilkan 5 baris pertama dari data untuk memastikan data berhasil dimuat
df.head()

Koneksi ke database PostgreSQL berhasil!
Data berhasil diambil dari tabel.


Unnamed: 0,order_id,customer_id,nama_produk,jumlah,harga_satuan,tanggal_order,status_pengiriman,rating_produk
0,1,101,Laptop,1,12000000.0,2025-07-01,Selesai,5.0
1,2,102,Mouse,2,150000.0,2025-07-01,Selesai,4.0
2,3,103,Keyboard,1,350000.0,2025-07-02,Dikirim,5.0
3,4,101,laptop,1,12500000.0,2025-07-03,Selesai,4.0
4,5,104,Monitor,120,2500000.0,2025-07-04,Selesai,3.0
