In [1]:
import pandas as pd
import numpy as np
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler

# Anda bisa mengganti 'data.csv' dengan nama file yang sesuai dengan data Anda
data = pd.read_csv('E:\syntax code\python\jupytr\dataset\Car_sales.csv')

# Menghapus baris dengan missing values pada kolom 'Horsepower', 'Price_in_thousands', 'Power_perf_factor', dan 'Fuel_efficiency'
data.dropna(subset=['Horsepower', 'Price_in_thousands', 'Power_perf_factor', 'Fuel_efficiency'], inplace=True)

# Mengatasi nilai inf (jika ada) dengan menggantinya dengan nilai NaN
data.replace([np.inf, -np.inf], np.nan, inplace=True)

# Mengisi nilai NaN dengan rata-rata dari kolom 'Horsepower', 'Power_perf_factor', dan 'Fuel_efficiency'
data['Horsepower'].fillna(data['Horsepower'].mean(), inplace=True)
data['Power_perf_factor'].fillna(data['Power_perf_factor'].mean(), inplace=True)
data['Fuel_efficiency'].fillna(data['Fuel_efficiency'].mean(), inplace=True)

# Memisahkan data menjadi fitur (X) dan target (y)
X = data[['Horsepower', 'Power_perf_factor', 'Fuel_efficiency']]
y = data['Price_in_thousands']

# Membuat pipeline dengan langkah-langkah pemrosesan data dan model
pipeline = Pipeline([
    ('scaler', StandardScaler()),  # Normalisasi data
    ('regressor', LinearRegression())  # Model Regresi Linier
])

# Melatih model pada keseluruhan data
pipeline.fit(X, y)

# Prediksi harga mobil untuk 2 tahun ke depan (2024 dan 2025)
X_future = pd.DataFrame({
    'Horsepower': [150, 170],
    'Power_perf_factor': [80, 90],
    'Fuel_efficiency': [25, 30]
})

# Normalisasi data untuk prediksi
X_future_scaled = pipeline.named_steps['scaler'].transform(X_future)

# Prediksi harga mobil menggunakan model regresi linier
predicted_prices = pipeline.named_steps['regressor'].predict(X_future_scaled)

# Hasil prediksi
result = pd.DataFrame({'Year': [2024, 2025], 'Predicted_Price_in_thousands': predicted_prices})
print(result)


   Year  Predicted_Price_in_thousands
0  2024                     68.627998
1  2025                     76.378319
