# 2. Data Acquisition & Understanding (TDSP Step 2)

Tahap ini bertujuan untuk memahami struktur dan kualitas data yang digunakan sebelum melangkah ke tahap pemodelan.

Langkah-langkah utama:
1. Mengambil (load) data dari sumber.
2. Memahami struktur data dan tipe datanya.
3. Melakukan pengecekan awal (data health check).
4. Membuat ringkasan nilai unik per kolom.

---
## 2.1 Sumber Data

Dataset berasal dari **Syarah.com**, platform jual-beli mobil bekas di Arab Saudi.

File data: `./Dataset/UsedCarsSA_Unclean_EN.csv` (atau sesuaikan dengan direktori lokalmu).

---
## 2.2 Import Library & Load Dataset

Kita mulai dengan mengimpor library dan membaca file CSV menggunakan pandas.

In [ ]:
# Import library dan load dataset
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)

# Path file dataset
data_path = './Dataset/UsedCarsSA_Unclean_EN.csv'
df = pd.read_csv(data_path)

df.head()

## 2.3 Data Dictionary

| Kolom | Deskripsi |
|-------|------------|
| Link | URL halaman detail mobil |
| Make | Merk mobil (Hyundai, Toyota, dll.) |
| Type | Tipe / model (Accent, Camry, dll.) |
| Year | Tahun produksi |
| Origin | Asal mobil (Saudi, GCC, Import, dll.) |
| Gear_Type | Jenis transmisi |
| Engine_Size | Ukuran mesin (liter) |
| Fuel_Type | Jenis bahan bakar |
| Region | Wilayah listing |
| Mileage | Jarak tempuh (km) |
| Price | Harga listing (SAR) |
| Options | Opsi tambahan / paket fitur |
| Condition | Kondisi (biasanya "Used") |
| Negotiable | Apakah harga bisa dinego |


## 2.4 Quick Data Health Check

Langkah awal untuk menilai kelengkapan dan kualitas data:
- Melihat ukuran data (baris dan kolom)
- Melihat tipe data
- Statistik deskriptif
- Jumlah nilai unik per kolom

In [ ]:
# Informasi umum dataset
print('Shape (rows, columns):', df.shape)
print('\nInfo:')
df.info()

In [ ]:
# Statistik deskriptif numerik
df.describe().T

In [ ]:
# Statistik deskriptif semua kolom (termasuk kategorikal)
df.describe(include='all').T

## 2.5 Ringkasan Nilai Unik per Kolom

Kita buat fungsi pembantu untuk menampilkan jumlah nilai unik dan beberapa contoh nilai pada tiap kolom.

In [ ]:
def unique_summary(frame, sample_size=5):
    result = []
    for col in frame.columns:
        uniques = frame[col].dropna().unique()
        result.append({
            'Column': col,
            'Unique Count': frame[col].nunique(),
            'Sample Unique': list(uniques[:sample_size])
        })
    return pd.DataFrame(result).sort_values('Unique Count', ascending=False).reset_index(drop=True)

unique_summary(df)