# **1. Perkenalan Dataset**


Tahap pertama, Anda harus mencari dan menggunakan dataset dengan ketentuan sebagai berikut:

1. **Sumber Dataset**:  
   Dataset dapat diperoleh dari berbagai sumber, seperti public repositories (*Kaggle*, *UCI ML Repository*, *Open Data*) atau data primer yang Anda kumpulkan sendiri.


# **2. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning atau deep learning.

In [None]:
# Import Library
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from google.colab import drive
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer

# **3. Memuat Dataset**

Pada tahap ini, Anda perlu memuat dataset ke dalam notebook. Jika dataset dalam format CSV, Anda bisa menggunakan pustaka pandas untuk membacanya. Pastikan untuk mengecek beberapa baris awal dataset untuk memahami strukturnya dan memastikan data telah dimuat dengan benar.

Jika dataset berada di Google Drive, pastikan Anda menghubungkan Google Drive ke Colab terlebih dahulu. Setelah dataset berhasil dimuat, langkah berikutnya adalah memeriksa kesesuaian data dan siap untuk dianalisis lebih lanjut.

Jika dataset berupa unstructured data, silakan sesuaikan dengan format seperti kelas Machine Learning Pengembangan atau Machine Learning Terapan

In [None]:
# Menghubungkan Google Drive
drive.mount('/content/drive')

In [None]:
path = '/content/drive/MyDrive/Submission MSML/StudentsPerformance.csv'

In [None]:
# Membaca Dataset (Pandas)
data = pd.read_csv(path)

# Menampilkan 5 baris pertama
data.head()

# **4. Exploratory Data Analysis (EDA)**

Pada tahap ini, Anda akan melakukan **Exploratory Data Analysis (EDA)** untuk memahami karakteristik dataset.

Tujuan dari EDA adalah untuk memperoleh wawasan awal yang mendalam mengenai data dan menentukan langkah selanjutnya dalam analisis atau pemodelan.

In [None]:
# Mengecek Ukuran Dataset
print("Jumlah baris dan kolom:", data.shape)

In [None]:
# Mengecek Data Duplikat
duplicate_rows = data[data.duplicated()]

print("Jumlah data duplikat:", duplicate_rows.shape[0])

In [None]:
# Mengecek Missing Values
print("Jumlah missing values", data.isnull().sum())

In [None]:
# Mengecek Struktur Data
data.info()

In [None]:
# Statistik Deskriptif
data.describe()

In [None]:
# Mengganti 0 dengan median
data['math score'] = data['math score'].replace(0, data['math score'].median())
print("math score 0 diganti median")

In [None]:
# Visualisasi Distribusi
numerical_cols = ['math score', 'reading score', 'writing score']

for col in numerical_cols:
    plt.figure(figsize=(6,4))
    sns.histplot(data[col], bins=20, kde=True)
    plt.title(f'Distribusi {col}')
    plt.show()

In [None]:
for col in numerical_cols:
    plt.figure(figsize=(6,4))
    sns.boxplot(x=data[col])
    plt.title(f'Boxplot {col}')
    plt.show()


In [None]:
# Korelasi antar skor
plt.figure(figsize=(6,5))
sns.heatmap(data[numerical_cols].corr(), annot=True, cmap='coolwarm')
plt.title('Korelasi Antar Skor')
plt.show()

# **5. Data Preprocessing**

Pada tahap ini, data preprocessing adalah langkah penting untuk memastikan kualitas data sebelum digunakan dalam model machine learning.

Jika Anda menggunakan data teks, data mentah sering kali mengandung nilai kosong, duplikasi, atau rentang nilai yang tidak konsisten, yang dapat memengaruhi kinerja model. Oleh karena itu, proses ini bertujuan untuk membersihkan dan mempersiapkan data agar analisis berjalan optimal.

Berikut adalah tahapan-tahapan yang bisa dilakukan, tetapi **tidak terbatas** pada:
1. Menghapus atau Menangani Data Kosong (Missing Values)
2. Menghapus Data Duplikat
3. Normalisasi atau Standarisasi Fitur
4. Deteksi dan Penanganan Outlier
5. Encoding Data Kategorikal
6. Binning (Pengelompokan Data)

Cukup sesuaikan dengan karakteristik data yang kamu gunakan yah. Khususnya ketika kami menggunakan data tidak terstruktur.

In [None]:
# Kolom Numerik & Kategorikal
numerical_cols = ['math score', 'reading score', 'writing score']
categorical_cols = ['gender', 'race/ethnicity', 'parental level of education', 'lunch', 'test preparation course']

In [None]:
# Scaling
scaler = StandardScaler()

In [None]:
# Encoding Kategorikal
encoder = OneHotEncoder(sparse_output=False, drop='first')

In [None]:
# Column Transformer
preprocessor = ColumnTransformer(
    transformers=[
        ('num', scaler, numerical_cols),
        ('cat', encoder, categorical_cols)
    ]
)

In [None]:
# Preprocessing Data
data_preprocessed = preprocessor.fit_transform(data)

In [None]:
# Membuat DataFrame Hasil Preprocessing

# Mengambil nama kolom hasil encoding
encoded_cols = preprocessor.named_transformers_['cat'].get_feature_names_out(categorical_cols)

# Menggabungkan nama kolom numerik & encoded
all_cols = numerical_cols + list(encoded_cols)

# Membuat DataFrame
df_preprocessed = pd.DataFrame(data_preprocessed, columns=all_cols)

In [None]:
# Pengecekan Outlier
for col in numerical_cols:
    plt.figure(figsize=(6,4))
    sns.boxplot(x=df_preprocessed[col])
    plt.title(f'Boxplot {col} Setelah Preprocessing')
    plt.show()

In [None]:
# Tampilkan 5 baris pertama
df_preprocessed.head()