# **1. Perkenalan Dataset**


Tahap pertama, Anda harus mencari dan menggunakan dataset dengan ketentuan sebagai berikut:

1. **Sumber Dataset**:  
   Dataset dapat diperoleh dari berbagai sumber, seperti public repositories (*Kaggle*, *UCI ML Repository*, *Open Data*) atau data primer yang Anda kumpulkan sendiri.


# **2. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning atau deep learning.

In [2]:
import pandas as pd 
import numpy as np
import sklearn as sns 

# **3. Memuat Dataset**

Pada tahap ini, Anda perlu memuat dataset ke dalam notebook. Jika dataset dalam format CSV, Anda bisa menggunakan pustaka pandas untuk membacanya. Pastikan untuk mengecek beberapa baris awal dataset untuk memahami strukturnya dan memastikan data telah dimuat dengan benar.

Jika dataset berada di Google Drive, pastikan Anda menghubungkan Google Drive ke Colab terlebih dahulu. Setelah dataset berhasil dimuat, langkah berikutnya adalah memeriksa kesesuaian data dan siap untuk dianalisis lebih lanjut.

Jika dataset berupa unstructured data, silakan sesuaikan dengan format seperti kelas Machine Learning Pengembangan atau Machine Learning Terapan

In [4]:
#Type your code here

# load_iris adalah fungsi dari scikit-learn untuk memuat dataset Iris
from sklearn.datasets import load_iris

In [5]:
iris_data = load_iris(as_frame=True)

In [10]:
df_raw = iris_data.frame
print("\n5 baris pertama dataset mentah (df_raw):")
print(df_raw.head())


5 baris pertama dataset mentah (df_raw):
   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  \
0                5.1               3.5                1.4               0.2   
1                4.9               3.0                1.4               0.2   
2                4.7               3.2                1.3               0.2   
3                4.6               3.1                1.5               0.2   
4                5.0               3.6                1.4               0.2   

   target  
0       0  
1       0  
2       0  
3       0  
4       0  


In [11]:
print("\nNama-nama kolom pada dataset:")
print(df_raw.columns.tolist())


Nama-nama kolom pada dataset:
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)', 'target']


In [12]:
output_raw_path = '../namadataset_raw/iris_mentah.csv'

In [13]:
try:
    # Menggunakan df_raw.to_csv() untuk menyimpan DataFrame ke file CSV.
    # index=False: Ini penting! Ini mencegah Pandas menulis indeks DataFrame (angka 0, 1, 2, ...)
    #              sebagai kolom tambahan di dalam file CSV. Kita hanya ingin data aslinya.
    df_raw.to_csv(output_raw_path, index=False)
    print(f"\nDataset mentah Iris berhasil disimpan ke: {output_raw_path}")
    print("Silakan cek folder 'namadataset_raw' di File Explorer Anda.")
except Exception as e:
    # Jika ada error saat menyimpan (misalnya folder 'namadataset_raw' belum ada),
    # pesan error akan ditampilkan.
    print(f"\nGALAT: Gagal menyimpan dataset mentah ke file: {e}")
    print("Pastikan folder 'namadataset_raw' sudah ada di tingkat yang sama dengan folder 'preprocessing'.")

# --- Bagian 3: Menyiapkan Data untuk EDA dan Preprocessing ---
# Untuk menjaga keaslian df_raw, kita akan membuat salinannya untuk proses EDA dan preprocessing selanjutnya.
# Ini adalah praktik terbaik agar Anda selalu punya data asli jika perlu merujuk kembali.
df_eda = df_raw.copy()

print("\nDataset siap untuk EDA (Exploratory Data Analysis) dan Preprocessing.")
print(f"Bentuk DataFrame untuk EDA/Preprocessing: {df_eda.shape}")


GALAT: Gagal menyimpan dataset mentah ke file: Cannot save file into a non-existent directory: '..\namadataset_raw'
Pastikan folder 'namadataset_raw' sudah ada di tingkat yang sama dengan folder 'preprocessing'.

Dataset siap untuk EDA (Exploratory Data Analysis) dan Preprocessing.
Bentuk DataFrame untuk EDA/Preprocessing: (150, 5)


# **4. Exploratory Data Analysis (EDA)**

Pada tahap ini, Anda akan melakukan **Exploratory Data Analysis (EDA)** untuk memahami karakteristik dataset.

Tujuan dari EDA adalah untuk memperoleh wawasan awal yang mendalam mengenai data dan menentukan langkah selanjutnya dalam analisis atau pemodelan.

In [None]:
#Type your code here

# **5. Data Preprocessing**

Pada tahap ini, data preprocessing adalah langkah penting untuk memastikan kualitas data sebelum digunakan dalam model machine learning.

Jika Anda menggunakan data teks, data mentah sering kali mengandung nilai kosong, duplikasi, atau rentang nilai yang tidak konsisten, yang dapat memengaruhi kinerja model. Oleh karena itu, proses ini bertujuan untuk membersihkan dan mempersiapkan data agar analisis berjalan optimal.

Berikut adalah tahapan-tahapan yang bisa dilakukan, tetapi **tidak terbatas** pada:
1. Menghapus atau Menangani Data Kosong (Missing Values)
2. Menghapus Data Duplikat
3. Normalisasi atau Standarisasi Fitur
4. Deteksi dan Penanganan Outlier
5. Encoding Data Kategorikal
6. Binning (Pengelompokan Data)

Cukup sesuaikan dengan karakteristik data yang kamu gunakan yah. Khususnya ketika kami menggunakan data tidak terstruktur.