In [22]:
# =========================================================
# 1 Import Library
# =========================================================
import pandas as pd
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.model_selection import train_test_split
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Input
from sklearn.metrics import r2_score

# =========================================================
# 2 Baca Dataset
# =========================================================
df = pd.read_csv(r"E:\program\semester 5\jupyter notebook\Automobile.csv")

print(" 5 data pertama:")
print(df.head())

# =========================================================
# 3 Cek dan Bersihkan Data
# =========================================================
# Ganti tanda '?' dengan NaN agar bisa dibersihkan
df.replace('?', None, inplace=True)

# Ubah kolom numerik yang salah tipe menjadi float jika memungkinkan
for col in df.columns:
    try:
        df[col] = df[col].astype(float)
    except:
        pass

# Hapus baris dengan nilai kosong di kolom horsepower
df = df.dropna(subset=['horsepower'])
df['horsepower'] = df['horsepower'].astype(float)

# =========================================================
# 4 Encode Kolom Kategorikal
# =========================================================
le = LabelEncoder()
for col in df.select_dtypes(include='object').columns:
    df[col] = le.fit_transform(df[col])

# =========================================================
# 5 Pisahkan Fitur dan Target
# =========================================================
y = df['horsepower']
X = df.drop('horsepower', axis=1)

# =========================================================
# 6 Normalisasi Data
# =========================================================
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# =========================================================
# 7 Bagi Data jadi Train & Test
# =========================================================
X_train, X_val, y_train, y_val = train_test_split(
    X_scaled, y, test_size=0.2, random_state=42
)

# =========================================================
# 8 Model Deep Learning (Sequential, versi terbaru)
# =========================================================
model = Sequential([
    Input(shape=(X_train.shape[1],)),  # Layer input eksplisit
    Dense(64, activation='relu'),
    Dense(32, activation='relu'),
    Dense(1)  # Output regresi
])

model.compile(optimizer='adam', loss='mse', metrics=['mae'])

# =========================================================
#  Training Model
# =========================================================
history = model.fit(
    X_train, y_train,
    validation_data=(X_val, y_val),
    epochs=100,
    batch_size=16,
    verbose=1
)

# =========================================================
# 10 Evaluasi Model
# =========================================================
train_mse, train_mae = model.evaluate(X_train, y_train, verbose=0)
val_mse, val_mae = model.evaluate(X_val, y_val, verbose=0)

print("\n Training MAE :", round(train_mae, 2))
print(" Validation MAE :", round(val_mae, 2))

# =========================================================
# 11 R² Score (seberapa baik model memprediksi)
# =========================================================
y_pred = model.predict(X_val)
r2 = r2_score(y_val, y_pred)
print(" R² Score (Validation):", round(r2, 2))


 5 data pertama:
                        name   mpg  cylinders  displacement  horsepower  \
0  chevrolet chevelle malibu  18.0          8         307.0       130.0   
1          buick skylark 320  15.0          8         350.0       165.0   
2         plymouth satellite  18.0          8         318.0       150.0   
3              amc rebel sst  16.0          8         304.0       150.0   
4                ford torino  17.0          8         302.0       140.0   

   weight  acceleration  model_year origin  
0    3504          12.0          70    usa  
1    3693          11.5          70    usa  
2    3436          11.0          70    usa  
3    3433          12.0          70    usa  
4    3449          10.5          70    usa  
Epoch 1/100
[1m20/20[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 17ms/step - loss: 12237.1006 - mae: 103.7430 - val_loss: 12011.5283 - val_mae: 102.2363
Epoch 2/100
[1m20/20[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 7ms/step - loss: 11903

Program ini menggunakan dataset `Automobile.csv` yang berisi data spesifikasi mobil seperti `name`, `mpg`, `cylinders`, `displacement`, `horsepower`, `weight`, `acceleration`, `model_year`, dan `origin`. Tujuannya adalah membangun model deep learning untuk memprediksi **horsepower** berdasarkan fitur-fitur lainnya.

## Langkah-langkah dalam Program

### 1. Import Library  
Library seperti `pandas`, `sklearn`, dan `tensorflow.keras` diimpor untuk memproses data, membangun model, serta melakukan evaluasi.  
- `pandas` untuk membaca dan membersihkan data  
- `LabelEncoder` & `StandardScaler` untuk encoding dan normalisasi  
- `Sequential`, `Dense`, `Input` untuk membangun model neural network  

### 2. Baca Dataset  
Dataset dibaca menggunakan `pd.read_csv()` dari file `Automobile.csv`. Lima data pertama ditampilkan untuk memastikan isi dataset terbaca dengan benar.

### 3. Cek dan Bersihkan Data  
Nilai yang tidak valid seperti tanda tanya (`?`) diganti dengan `NaN`. Kolom numerik dikonversi ke tipe `float`, dan baris yang memiliki nilai kosong pada kolom `horsepower` dihapus agar tidak mengganggu pelatihan.

### 4. Encode Kolom Kategorikal  
Kolom bertipe teks (`name`, `origin`) dikonversi menjadi angka menggunakan **LabelEncoder** agar dapat digunakan dalam perhitungan model.

### 5. Pisahkan Fitur dan Target  
Kolom **`horsepower`** dijadikan target (`y`), sedangkan kolom lain seperti `mpg`, `cylinders`, `displacement`, `weight`, `acceleration`, dan `model_year` dijadikan fitur (`X`).

### 6. Normalisasi Data  
Fitur dinormalisasi menggunakan **StandardScaler** agar seluruh nilai berada pada skala yang seragam, sehingga model dapat belajar lebih stabil dan cepat.

### 7. Bagi Data Menjadi Train dan Test  
Data dibagi menjadi dua bagian: 80% untuk pelatihan dan 20% untuk validasi menggunakan `train_test_split()`. Pembagian ini membantu mengukur kemampuan generalisasi model.

### 8. Bangun Model Deep Learning  
Model dibuat dengan **Sequential API** menggunakan tiga lapisan utama:  
- Input layer menyesuaikan jumlah fitur  
- Hidden layer 1 dengan 64 neuron (aktivasi ReLU)  
- Hidden layer 2 dengan 32 neuron (aktivasi ReLU)  
- Output layer 1 neuron untuk regresi (tanpa aktivasi)

Model dikompilasi menggunakan **optimizer Adam** dan **loss function MSE (Mean Squared Error)**.

### 9. Training Model  
Model dilatih selama 100 epoch dengan ukuran batch 16. Proses training menghasilkan nilai error dan MAE pada data pelatihan serta validasi untuk melihat performa model.

### 10. Evaluasi Model  
Setelah training, model dievaluasi dengan menghitung **MAE (Mean Absolute Error)** dan **R² Score** untuk mengukur seberapa baik model memprediksi nilai `horsepower`.

---

Secara keseluruhan, kode ini menjalankan proses lengkap machine learning: mulai dari membaca data, pembersihan, encoding, normalisasi, pembagian dataset, pembuatan model neural network, pelatihan, hingga evaluasi akurasi hasil prediksi.