# Data Storage/Warehouse 

Data warehouse pertama kali muncul pada akhir 1980-an dengan tujuan awalnya untuk memfasilitasi aliran data dari sistem operasional ke sistem pendukung keputusan atau DSS. Seiring waktu, data warehouse berkembang menjadi infrastruktur analitis yang luas, mendukung berbagai aplikasi.

RDBMS (Relational Database Management System)
RDBMS mendukung hubungan antar tabel dalam database relasional dengan menggunakan primary key dan foreign key. Contohnya MySQL, PostgreSQL, dan Microsoft SQL Server.

NoSQL
NoSQL adalah jenis basis data yang tidak menggunakan bahasa SQL. Beberapa teknik penyimpanan NoSQL meliputi dokumen, graf, nilai-kunci, dan kolom. Contohnya MongoDB, CouchDB, Cassandra, Redis, Neo4J, dan Riak.

Firebase Realtime Database
Firebase Realtime Database (FRD) adalah database cloud yang menyimpan dan sinkronisasi data secara realtime. Mendukung fitur offline untuk sinkronisasi data saat koneksi internet terputus.

Apache Spark
Apache Spark adalah perangkat lunak untuk pemrosesan dan analisis data berskala besar. Dapat digunakan dalam ETL, data streaming, perhitungan grafik, SQL, dan machine learning dengan modul MLlib.

BigQuery
BigQuery adalah data warehouse cloud yang menawarkan penyimpanan data berbasis SQL dan analisis data berukuran besar. Berbasis cloud sehingga tidak memerlukan manajemen infrastruktur.

Sebagai ML Engineer, menguasai berbagai jenis data storage dan data warehouse penting karena setiap perusahaan dapat menggunakan platform yang berbeda-beda. Dengan memahami berbagai tools tersebut, kita dapat lebih fleksibel dan efisien dalam menangani tuntutanekerjaan.

# Dataset

Dataset yang telah dibersihkan siap dilatih dengan machine learning. Satu-satunya cara kita mengetahui apakah data yang kita punya sudah bagus atau tidak dengan cara mengujinya pada kasus atau data baru yang belum dikenali oleh model. Kita bisa saja langsung mengujinya ketahap produksi, akan tetapi bila model kita buruk itu akan menimbulkan komplain dari user, memakana resource yang lebih banyak, dan biaya yang besar. 

## Training Set dan Test Set

Solusi terbaik dengan membagi dataset menjadi 2 yaitu data training dan data testing. Berikut gambaran pembagian dataset.
![image.png](attachment:772d9deb-4789-4176-b9d0-4e38cc1d9856.png)![image.png](attachment:a9f066db-94c3-4aba-ac51-e13449a64300.png)
Dengan demikian, kita bisa melakukan pelatihan model pada train set, kemudian mengujinya pada test set --sekumpulan data yang belum dikenali model. Ingat bahwa membandingkan hasil prediksi dengan label sebenarnya dalam test set merupakan proses evaluasi performa model. Dengan menguji model terhadap data testing, kita dapat melihat kesalahan yang dibuat dan memperbaikinya sebelum mulai membawa model kita ke tahap produksi.

Penting untuk kita memilih rasio yang sesuai dalam pembagian dataset. Saat membagi dataset, kita perlu membuat informasi pada kedua bagian tetap berimbang. Kita tidak ingin mengalokasikan terlalu banyak informasi pada data testing agar algoritma ML dapat belajar dengan baik pada data training. Tetapi, jika alokasi data pada data testing terlalu kecil, kita tidak bisa mendapatkan estimasi performa model yang akurat.

Data testing diambil dengan proporsi tertentu. Pada praktiknya, pembagian data training dan data testing yang paling umum adalah 80:20, 70:30, atau 60:40, tergantung dari ukuran atau jumlah data. Namun, untuk dataset berukuran besar, proporsi pembagian 90:10 atau 99:1 juga umum dilakukan. Misal jika ukuran dataset sangat besar berisi lebih dari 1 juta record, maka kita dapat mengambil sekitar 10 ribu data saja untuk testing alias sebesar 1% saja.

In [10]:
# belajar membagi dataset dengan fungsi train_test_split dari library sklearn. 
from sklearn.model_selection import train_test_split

In [30]:
x_data = range(20)
y_data = range(20)
x_train, x_test, y_train, y_test = train_test_split(x_data, y_data, test_size=0.2, random_state=1)

for i in range(10):
    X_train, X_test, y_train, y_test = train_test_split(x_data, y_data, test_size = 0.2, random_state = 42)
    print("y_test:")
    print(y_test)
    print("x_test:")
    print(x_test)

y_test:
[0, 17, 15, 1]
x_test:
[3, 16, 6, 10]
y_test:
[0, 17, 15, 1]
x_test:
[3, 16, 6, 10]
y_test:
[0, 17, 15, 1]
x_test:
[3, 16, 6, 10]
y_test:
[0, 17, 15, 1]
x_test:
[3, 16, 6, 10]
y_test:
[0, 17, 15, 1]
x_test:
[3, 16, 6, 10]
y_test:
[0, 17, 15, 1]
x_test:
[3, 16, 6, 10]
y_test:
[0, 17, 15, 1]
x_test:
[3, 16, 6, 10]
y_test:
[0, 17, 15, 1]
x_test:
[3, 16, 6, 10]
y_test:
[0, 17, 15, 1]
x_test:
[3, 16, 6, 10]
y_test:
[0, 17, 15, 1]
x_test:
[3, 16, 6, 10]


In [31]:
from sklearn.model_selection import train_test_split
 
X_data = range(10)
y_data = range(10)
 
print("random_state ditentukan")
for i in range(3):
    X_train, X_test, y_train, y_test = train_test_split(X_data, y_data, test_size = 0.3, random_state = 42)
    print(y_test)
 
 
print("random_state tidak ditentukan")
for i in range(3):
    X_train, X_test, y_train, y_test = train_test_split(X_data, y_data, test_size = 0.3, random_state = None)
    print(y_test)

# random_state bertujuan untuk dapat memastikan bahwa hasil pembagian dataset konsisten dan memberikan data yang sama setiap kali model dijalankan. 

random_state ditentukan
[8, 1, 5]
[8, 1, 5]
[8, 1, 5]
random_state tidak ditentukan
[0, 6, 1]
[4, 6, 0]
[1, 5, 6]
