Dataset yang digunakan dalam proyek ini adalah **Iris Dataset** yang merupakan salah satu dataset klasik dalam machine learning.

**Sumber Dataset**: Iris dataset tersedia secara built-in dalam scikit-learn library dan juga dapat diperoleh dari UCI ML Repository.

**Deskripsi Dataset**:
- **Target**: Klasifikasi spesies bunga iris (setosa, versicolor, virginica)
- **Features**: 4 fitur numerik (sepal length, sepal width, petal length, petal width)
- **Jumlah samples**: 150 samples (50 per kelas)
- **Tipe problem**: Multi-class classification

Dataset ini dipilih karena:
1. Dataset yang bersih dan well-structured
2. Cocok untuk pembelajaran machine learning
3. Memiliki target yang balanced
4. Ukuran yang manageable untuk eksperimen

# **2. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning atau deep learning.

In [None]:
# Import library utama
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import warnings
warnings.filterwarnings('ignore')

# Set style untuk visualisasi
plt.style.use('default')
sns.set_palette("husl")

print("‚úÖ Library berhasil diimport!")

# **3. Memuat Dataset**

Pada tahap ini, Anda perlu memuat dataset ke dalam notebook. Dataset Iris akan dimuat menggunakan scikit-learn dan kemudian dikonversi ke format pandas DataFrame untuk analisis yang lebih mudah.

In [None]:
# Load iris dataset dari scikit-learn
iris_data = load_iris()

# Konversi ke DataFrame untuk analisis yang lebih mudah
iris_df = pd.DataFrame(data=iris_data.data, columns=iris_data.feature_names)
iris_df['target'] = iris_data.target
iris_df['species'] = iris_df['target'].map({0: 'setosa', 1: 'versicolor', 2: 'virginica'})

# Tampilkan informasi dataset
print("üìä Dataset Information:")
print(f"Shape: {iris_df.shape}")
print(f"Features: {list(iris_data.feature_names)}")
print(f"Target classes: {list(iris_data.target_names)}")

# Tampilkan beberapa baris pertama
print("\nüìã First 5 rows:")
iris_df.head()

In [None]:
# Simpan raw dataset
iris_df.to_csv('../namadataset_raw/iris_raw.csv', index=False)
print("‚úÖ Raw dataset saved to '../namadataset_raw/iris_raw.csv'")

# Info dataset
print("\nüìä Dataset Info:")
iris_df.info()

# **4. Exploratory Data Analysis (EDA)**

Pada tahap ini, Anda akan melakukan **Exploratory Data Analysis (EDA)** untuk memahami karakteristik dataset.

Tujuan dari EDA adalah untuk memperoleh wawasan awal yang mendalam mengenai data dan menentukan langkah selanjutnya dalam analisis atau pemodelan.

In [None]:
# 1. Statistical Summary
print("üìä Statistical Summary:")
iris_df.describe()

In [None]:
# 2. Check untuk missing values
print("üîç Missing Values Check:")
print(iris_df.isnull().sum())

# 3. Check distribusi target
print("\nüéØ Target Distribution:")
print(iris_df['species'].value_counts())

In [None]:
# 4. Visualisasi distribusi features
fig, axes = plt.subplots(2, 2, figsize=(15, 10))
fig.suptitle('Feature Distributions', fontsize=16)

features = ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

for i, feature in enumerate(features):
    row, col = i // 2, i % 2
    sns.histplot(data=iris_df, x=feature, hue='species', kde=True, ax=axes[row, col])
    axes[row, col].set_title(f'Distribution of {feature}')

plt.tight_layout()
plt.show()

In [None]:
# 5. Correlation matrix
plt.figure(figsize=(10, 8))
corr_matrix = iris_df[features].corr()
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', center=0)
plt.title('Feature Correlation Matrix')
plt.show()

In [None]:
# 6. Pairplot untuk melihat relationship antar features
sns.pairplot(iris_df, hue='species', diag_kind='kde')
plt.suptitle('Pairplot of Iris Features by Species', y=1.02)
plt.show()

In [None]:
# 7. Boxplot untuk melihat outliers
fig, axes = plt.subplots(2, 2, figsize=(15, 10))
fig.suptitle('Boxplots for Outlier Detection', fontsize=16)

for i, feature in enumerate(features):
    row, col = i // 2, i % 2
    sns.boxplot(data=iris_df, x='species', y=feature, ax=axes[row, col])
    axes[row, col].set_title(f'Boxplot of {feature} by Species')

plt.tight_layout()
plt.show()

# **5. Data Preprocessing**

Pada tahap ini, data preprocessing adalah langkah penting untuk memastikan kualitas data sebelum digunakan dalam model machine learning.

Berdasarkan hasil EDA, kita akan melakukan:
1. Feature scaling/standardization
2. Train-test split
3. Label encoding untuk target (jika diperlukan)
4. Menyimpan data yang sudah diproses

In [None]:
# 1. Prepare features dan target
X = iris_df[features].copy()
y = iris_df['target'].copy()

print("üìä Original Data Shape:")
print(f"Features (X): {X.shape}")
print(f"Target (y): {y.shape}")
print(f"Target classes: {np.unique(y)}")

In [None]:
# 2. Train-test split
X_train, X_test, y_train, y_test = train_test_split(
    X, y, 
    test_size=0.2, 
    random_state=42, 
    stratify=y  # Memastikan distribusi target seimbang
)

print("üîÑ Train-Test Split Results:")
print(f"X_train shape: {X_train.shape}")
print(f"X_test shape: {X_test.shape}")
print(f"y_train shape: {y_train.shape}")
print(f"y_test shape: {y_test.shape}")

# Check distribusi target di train dan test
print("\nüìä Target Distribution:")
print("Train:", np.bincount(y_train))
print("Test:", np.bincount(y_test))

In [None]:
# 3. Feature Scaling
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Konversi kembali ke DataFrame untuk kemudahan
X_train_scaled_df = pd.DataFrame(X_train_scaled, columns=features)
X_test_scaled_df = pd.DataFrame(X_test_scaled, columns=features)

print("‚öñÔ∏è Feature Scaling Completed!")
print("\nüìä Scaled Features Statistics (Train):")
print(X_train_scaled_df.describe())

In [None]:
# 4. Menyimpan data preprocessing
print("üíæ Saving preprocessed data...")

# Reset index untuk consistency
X_train_scaled_df.reset_index(drop=True, inplace=True)
X_test_scaled_df.reset_index(drop=True, inplace=True)
y_train_series = pd.Series(y_train).reset_index(drop=True)
y_test_series = pd.Series(y_test).reset_index(drop=True)

# Simpan ke files
X_train_scaled_df.to_csv('namadataset_preprocessing/X_train.csv', index=False)
X_test_scaled_df.to_csv('namadataset_preprocessing/X_test.csv', index=False)
y_train_series.to_csv('namadataset_preprocessing/y_train.csv', index=False, header=['target'])
y_test_series.to_csv('namadataset_preprocessing/y_test.csv', index=False, header=['target'])

# Simpan juga complete processed dataset
processed_df = iris_df.copy()
processed_df[features] = scaler.fit_transform(processed_df[features])
processed_df.to_csv('namadataset_preprocessing/iris_preprocessed.csv', index=False)

print("‚úÖ Preprocessed data saved to 'namadataset_preprocessing/' folder")
print("üìÅ Files created:")
print("   - X_train.csv")
print("   - X_test.csv")
print("   - y_train.csv")
print("   - y_test.csv")
print("   - iris_preprocessed.csv")

In [None]:
# 5. Validasi preprocessing dengan simple model
print("üß™ Validation dengan simple Random Forest:")

# Train simple model untuk validasi
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train_scaled, y_train)

# Predict dan evaluate
y_pred = rf_model.predict(X_test_scaled)
accuracy = accuracy_score(y_test, y_pred)

print(f"‚úÖ Validation Accuracy: {accuracy:.4f}")
print("\nüìä Classification Report:")
print(classification_report(y_test, y_pred, target_names=['setosa', 'versicolor', 'virginica']))

## **Summary**

**‚úÖ Eksperimen berhasil diselesaikan dengan hasil:**

1. **Dataset**: Iris dataset (150 samples, 4 features, 3 classes)
2. **EDA**: Tidak ada missing values, distribusi target seimbang
3. **Preprocessing**: 
   - Feature scaling menggunakan StandardScaler
   - Train-test split (80-20) dengan stratified sampling
   - Data tersimpan dalam format CSV
4. **Validasi**: Model sederhana mencapai accuracy tinggi

**üìÅ Output Files:**
- Raw dataset: `../namadataset_raw/iris_raw.csv`
- Processed files di `namadataset_preprocessing/`:
  - `X_train.csv`, `X_test.csv`
  - `y_train.csv`, `y_test.csv` 
  - `iris_preprocessed.csv`

**üéØ Data siap digunakan untuk tahap modeling!**