In [1]:
# 1. Import Library
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

# 2. Import Data dalam format CSV
from google.colab import files
uploaded = files.upload()

# Membaca file CSV (gantilah 'emisi.csv' dengan nama file yang diunggah)
file_name = list(uploaded.keys())[0]
df = pd.read_csv(file_name)

# Menampilkan informasi dasar data
df.info()
display(df.head())

# 3. Menghitung Matriks Korelasi
correlation_matrix = df.corr()

# Membuat heatmap korelasi
plt.figure(figsize=(8, 6))
sns.heatmap(correlation_matrix, annot=True, cmap="coolwarm", fmt=".2f")
plt.title("Matriks Korelasi")
plt.show()

# 4. Membuat Model Regresi Sederhana (Menggunakan Kombinasi L/100 km sebagai prediktor)
X = df[["kombinasi (L/100 km)"]]
y = df["Emisi CO2 (g/km)"]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model_lr = LinearRegression()
model_lr.fit(X_train, y_train)
y_pred_lr = model_lr.predict(X_test)

# Evaluasi model regresi linear sederhana
def evaluate_model(y_true, y_pred, model_name):
    mae = mean_absolute_error(y_true, y_pred)
    mse = mean_squared_error(y_true, y_pred)
    rmse = np.sqrt(mse)
    r2 = r2_score(y_true, y_pred)
    return {"Model": model_name, "MAE": mae, "MSE": mse, "RMSE": rmse, "R2 Score": r2}

result_lr = evaluate_model(y_test, y_pred_lr, "Linear Regression")
print(result_lr)

# 5. Eksplorasi Pengaruh Ville (L/100 km) ke Emisi CO2
plt.figure(figsize=(8, 6))
sns.regplot(x=df["Ville (L/100 km)"], y=df["Emisi CO2 (g/km)"], scatter_kws={"alpha": 0.5}, line_kws={"color": "red"})
plt.xlabel("Ville (L/100 km)")
plt.ylabel("Emisi CO2 (g/km)")
plt.title("Pengaruh Ville (L/100 km) ke Emisi CO2 (Linear)")
plt.show()

# 6. Evaluasi Model (Linear Regression sudah dievaluasi di atas)

# 7. Membuat Model Regresi Polynomial
degree = 2  # Bisa diubah sesuai kebutuhan
poly = PolynomialFeatures(degree=degree)
X_poly = poly.fit_transform(X)
X_train_poly, X_test_poly, y_train, y_test = train_test_split(X_poly, y, test_size=0.2, random_state=42)

model_poly = LinearRegression()
model_poly.fit(X_train_poly, y_train)
y_pred_poly = model_poly.predict(X_test_poly)

# Evaluasi model regresi polynomial
result_poly = evaluate_model(y_test, y_pred_poly, f"Polynomial Regression (Degree {degree})")
print(result_poly)

# Visualisasi hasil Polynomial Regression
plt.figure(figsize=(8, 6))
sns.scatterplot(x=X["kombinasi (L/100 km)"], y=y, alpha=0.5, label="Actual")
sns.lineplot(x=X["kombinasi (L/100 km)"].values.flatten(), y=model_poly.predict(poly.fit_transform(X)).flatten(), color='red', label="Polynomial Fit")
plt.xlabel("Ville(L/100 km)")
plt.ylabel("Emisi CO2 (g/km)")
plt.title("Pengaruh Ville (L/100 km) ke Emisi CO2 (Polynomial)")
plt.legend()
plt.show()


ModuleNotFoundError: No module named 'pandas'

Penjelasan Output

1. Tabel Data
Tabel ini menunjukkan informasi tentang dataset dengan total 4 kolom:
Ville (L/100 km): Ini adalah kolom dengan nilai float64, menunjukkan konsumsi bahan bakar dalam liter per 100 km untuk kendaraan.
Route (L/100 km): Kolom ini juga bertipe float64, yang menggambarkan nilai konsumsi bahan bakar pada rute tertentu.
kombinasi (L/100 km): Merupakan nilai float64 yang menunjukkan konsumsi bahan bakar dalam kombinasi (misalnya, kombinasi antara rute kota dan luar kota).
Emisi CO2 (g/km): Kolom ini bertipe int64, menunjukkan emisi karbon dioksida dalam gram per kilometer.

Data ini menunjukkan bahwa semua kolom memiliki nilai non-null, dan ukuran memori yang digunakan oleh dataframe adalah 20.2 KB.

2. Matriks Korelasi
Matriks korelasi adalah representasi yang menunjukkan hubungan antara variabel-variabel dalam dataset:
Angka 1 menunjukkan korelasi sempurna antara dua variabel yang sama.
Nilai mendekati 1 menunjukkan hubungan positif yang kuat, sedangkan nilai mendekati -1 menunjukkan hubungan negatif yang kuat.
Dari matriks, terlihat bahwa semua variabel memiliki korelasi yang tinggi, terutama antara Ville dan Emisi CO2, dan antara kombinasi dan Emisi CO2.

3. Pengaruh Ville (L/100 km) ke Emisi CO2 (Linear)
Grafik ini menunjukkan hubungan linear antara konsumsi bahan bakar (Ville) dan emisi CO2:
Sumbu X menunjukkan nilai Ville (L/100 km), sementara sumbu Y menunjukkan emisi CO2 (g/km).
Titik-titik biru mewakili data aktual, sementara garis merah menunjukkan model regresi linear.
Dari grafik, terlihat bahwa ada hubungan positif yang kuat, di mana peningkatan konsumsi bahan bakar diikuti dengan peningkatan emisi CO2.

4. Pengaruh Ville (L/100 km) ke Emisi CO2 (Polynomial)
Grafik ini mirip dengan grafik sebelumnya, tetapi menggunakan model regresi polinomial:
Model polinomial sering kali lebih baik dalam menangkap hubungan yang tidak linier.
Titik-titik biru tetap menunjukkan data aktual, sedangkan garis merah menunjukkan model regresi polinomial.
Grafik ini menunjukkan bahwa model polinomial dapat menangkap fluktuasi data dengan lebih baik dibandingkan dengan model linear, dengan garis yang lebih sesuai dengan pola data.

Secara keseluruhan, analisis ini menunjukkan bahwa konsumsi bahan bakar memiliki pengaruh signifikan terhadap emisi CO2, dan bahwa model polinomial dapat memberikan pemahaman yang lebih baik tentang hubungan tersebut.