# **Step 1: Formulasi masalah**

Permasalahan yang akan diselesaikan adalah memprediksi tingkat kehematan bahan bakar (MPG) pada kendaraan berdasarkan profil kendaraan yang diberikan, diwakili oleh atribut-atribut seperti jumlah silinder, daya (tenaga kuda), tahun keluaran, dan lainnya.

#**Step 2: Eksplorasi dan pra-pemrosesan data**

Langkah pertama adalah mengimpor dataset dan melakukan eksplorasi data. Ini termasuk mengecek tipe data setiap kolom, mencari data yang hilang atau tidak valid, dan menghitung statistik sederhana seperti mean, median, dan modus. Kemudian, kita akan memisahkan data menjadi kelompok data latih (training set) dan kelompok data uji (test set). Ini akan membantu kita untuk mengevaluasi model dengan data yang tidak terlibat dalam proses pembelajaran. Selanjutnya, kita mungkin perlu melakukan normalisasi atau standarisasi data agar semua atribut memiliki skala yang sama.

In [None]:
# Import library yang diperlukan
import numpy as np
import pandas as pd
from sklearn.ensemble import BaggingRegressor
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split

In [None]:
# Baca dataset autos MPG menggunakan Pandas
df = pd.read_csv("autos_mpg.csv")

In [None]:
# Tampilkan informasi mengenai dataset, seperti jumlah baris dan kolom, tipe data pada setiap kolom, dan statistik deskriptif
print(f"Shape: {df.shape}")
print(f"Columns: {df.columns}")
print(f"Data types:\n{df.dtypes}")
print(f"Descriptive statistics:\n{df.describe()}")

Shape: (398, 9)
Columns: Index(['mpg', 'cylinders', 'displacement', 'horsepower', 'weight',
       'acceleration', 'model_year', 'origin', 'car_name'],
      dtype='object')
Data types:
mpg             float64
cylinders         int64
displacement    float64
horsepower       object
weight            int64
acceleration    float64
model_year        int64
origin            int64
car_name         object
dtype: object
Descriptive statistics:
              mpg   cylinders  displacement       weight  acceleration  \
count  398.000000  398.000000    398.000000   398.000000    398.000000   
mean    23.514573    5.454774    193.425879  2970.424623     15.568090   
std      7.815984    1.701004    104.269838   846.841774      2.757689   
min      9.000000    3.000000     68.000000  1613.000000      8.000000   
25%     17.500000    4.000000    104.250000  2223.750000     13.825000   
50%     23.000000    4.000000    148.500000  2803.500000     15.500000   
75%     29.000000    8.000000    262.00000

In [None]:
# Cek apakah terdapat missing values pada dataset
print(f"Missing values:\n{df.isnull().sum()}")

Missing values:
mpg             0
cylinders       0
displacement    0
horsepower      0
weight          0
acceleration    0
model_year      0
origin          0
car_name        0
dtype: int64


In [None]:
# Jika terdapat missing values, lakukan penanganannya
# Misalnya dengan mengubah string '?' menjadi NaN
df = df.replace('?', np.nan)

In [None]:
# Isi NaN dengan median atau mean dari kolom tersebut
df = df.fillna(df.median())

  df = df.fillna(df.median())


In [None]:
# Standarkan nilai-nilai atribut dengan menggunakan StandardScaler
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

In [None]:
# Pilih kolom-kolom yang tidak merupakan string sebagai input StandardScaler
X = df.select_dtypes(exclude='object').drop("mpg", axis=1)
X = scaler.fit_transform(X)
y = df["mpg"]

# **Step 3: Pemodelan**

Setelah data telah disiapkan, kita dapat membangun model regresi menggunakan salah satu algoritma seperti regresi linear, regresi ridge, atau regresi lasso. Kita akan melakukan pelatihan model dengan menggunakan data latih, dan kemudian mengevaluasi model dengan menggunakan data uji. Kita akan memilih model yang memiliki nilai error terkecil.

In [None]:
# Split data menjadi data latih dan data uji dengan proporsi 80:20
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Buat objek BaggingRegressor dan latih model tersebut dengan data latih
model = BaggingRegressor(n_estimators=10, random_state=42)
model.fit(X_train, y_train)

BaggingRegressor(random_state=42)

In [None]:
# Prediksi tingkat kehematan bahan bakar kendaraan pada data uji
y_pred = model.predict(X_test)

# **Step 4: Evaluasi**

Salah satu metode evaluasi yang dapat digunakan adalah menggunakan mean squared error (MSE). MSE mengukur seberapa dekat rata-rata dari selisih kuadrat antara nilai yang diprediksi oleh model dan nilai aktual. Nilai MSE yang lebih kecil menunjukkan model yang lebih baik.

In [None]:
# Import library yang diperlukan
from sklearn.metrics import mean_squared_error

In [None]:
# Hitung MSE antara nilai yang sebenarnya (y_test) dan nilai yang dihasilkan oleh model (y_pred)
mse = mean_squared_error(y_test, y_pred)

In [None]:
# Tampilkan MSE
print(f"Mean Squared Error: {mse:.2f}")

Mean Squared Error: 6.12


# **Step 5: Eksperimen**

Kita dapat melakukan berbagai eksperimen dengan mencoba algoritma regresi yang berbeda, menggunakan kombinasi atribut yang berbeda, atau mencoba teknik pemrosesan data yang berbeda untuk mencari hasil terbaik. Kita dapat membandingkan hasil dari setiap eksperimen untuk menentukan model yang paling baik.

Fine-tuning model jika diperlukan

In [None]:
# Import library yang diperlukan
from sklearn.ensemble import BaggingRegressor
from sklearn.metrics import mean_squared_error

In [None]:
# Buat objek BaggingRegressor dengan n_estimators yang berbeda
model1 = BaggingRegressor(n_estimators=10, random_state=42)
model2 = BaggingRegressor(n_estimators=20, random_state=42)
model3 = BaggingRegressor(n_estimators=30, random_state=42)

In [None]:
# Latih masing-masing model dengan data latih
model1.fit(X_train, y_train)
model2.fit(X_train, y_train)
model3.fit(X_train, y_train)

BaggingRegressor(n_estimators=30, random_state=42)

In [None]:
# Prediksi tingkat kehematan bahan bakar kendaraan pada data uji
y_pred1 = model1.predict(X_test)
y_pred2 = model2.predict(X_test)
y_pred3 = model3.predict(X_test)

In [None]:
# Hitung MSE antara nilai yang sebenarnya (y_test) dan nilai yang dihasilkan oleh model1 (y_pred1)
mse1 = mean_squared_error(y_test, y_pred1)

# Hitung MSE antara nilai yang sebenarnya (y_test) dan nilai yang dihasilkan oleh model2 (y_pred2)
mse2 = mean_squared_error(y_test, y_pred2)

# Hitung MSE antara nilai yang sebenarnya (y_test) dan nilai yang dihasilkan oleh model3 (y_pred3)
mse3 = mean_squared_error(y_test, y_pred3)

In [None]:
# Tampilkan MSE masing-masing model
print(f"Mean Squared Error (model1): {mse1:.2f}")
print(f"Mean Squared Error (model2): {mse2:.2f}")
print(f"Mean Squared Error (model3): {mse3:.2f}")

Mean Squared Error (model1): 6.12
Mean Squared Error (model2): 5.32
Mean Squared Error (model3): 5.29


# **Kesimpulan**

Kesimpulan dari semua proses yang telah dilakukan adalah model regresi yang paling sesuai untuk memprediksi tingkat kehematan bahan bakar kendaraan. Setelah melakukan eksplorasi dan pra-pemrosesan data, kita telah membangun model dengan menggunakan algoritma regresi yang sesuai dan mengevaluasi model dengan menggunakan metode yang tepat. Kita juga telah melakukan berbagai eksperimen untuk mencari hasil terbaik, dan telah menyimpulkan model yang paling sesuai untuk digunakan.