## 👨‍🎓 Identitas Mahasiswa
- **Nama:** Naufal Ahmad Fauzi
- **NIM:** 24523168
---

# 🧠 Linear Regression dengan Python
## Disusun untuk Tugas Praktikum

**Deskripsi:**
Notebook ini berisi penerapan *Linear Regression* menggunakan `scikit-learn` dengan dataset California Housing.
Setiap langkah mencakup penjelasan konseptual dan analisis hasil otomatis agar mudah dipahami.

In [None]:
# Import pustaka dasar
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.datasets import fetch_california_housing
import warnings
warnings.filterwarnings('ignore')

## 1️⃣ Persiapan Dataset
Kita akan menggunakan dataset *California Housing* dari `sklearn`, yang berisi informasi sosial-ekonomi dan harga rumah di California.

**Tujuan:** memprediksi harga rumah (`MedHouseVal`) berdasarkan pendapatan rata-rata (`MedInc`).

In [None]:
# Memuat dataset
data = fetch_california_housing(as_frame=True)
df = data.frame

# Tampilkan 5 baris pertama
df.head()

### 📊 Deskripsi Dataset
- Jumlah data: sekitar 20.640 baris
- Jumlah fitur: 8
- Target: `MedHouseVal` (nilai median rumah)
- Contoh fitur penting: `MedInc`, `HouseAge`, `AveRooms`, `AveOccup`, `Latitude`, `Longitude`.

## 2️⃣ Eksplorasi Data (EDA)
Tahap ini bertujuan memahami distribusi dan hubungan antar variabel.

In [None]:
# Informasi umum dataset
display(df.info())

# Statistik deskriptif
df.describe().T

In [None]:
# Visualisasi hubungan antara pendapatan dan harga rumah
sns.scatterplot(x='MedInc', y='MedHouseVal', data=df, alpha=0.3)
plt.title('Hubungan antara Pendapatan dan Harga Rumah')
plt.xlabel('Pendapatan Median (MedInc)')
plt.ylabel('Nilai Median Rumah (MedHouseVal)')
plt.show()

## 3️⃣ Pembangunan Model
Kita akan menggunakan `LinearRegression` dari `sklearn.linear_model` untuk membangun model prediktif.

In [None]:
# Menentukan fitur (X) dan target (y)
X = df[['MedInc']]
y = df['MedHouseVal']

# Split data menjadi training (80%) dan testing (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inisialisasi dan latih model
model = LinearRegression()
model.fit(X_train, y_train)

# Tampilkan parameter model
print(f"Slope (Koefisien): {model.coef_[0]:.4f}")
print(f"Intercept: {model.intercept_:.4f}")

## 4️⃣ Evaluasi Model
Evaluasi dilakukan dengan *Mean Squared Error (MSE)* dan *R² Score* untuk mengukur kinerja model.

In [None]:
# Prediksi
y_pred = model.predict(X_test)

# Evaluasi
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error (MSE): {mse:.4f}")
print(f"R² Score: {r2:.4f}")

## 5️⃣ Visualisasi Hasil Regresi
Kita akan menggambar garis regresi terhadap data aktual untuk melihat seberapa baik model menyesuaikan data.

In [None]:
plt.figure(figsize=(8,6))
plt.scatter(X_test, y_test, color='blue', alpha=0.3, label='Data Aktual')
plt.plot(X_test, y_pred, color='red', linewidth=2, label='Garis Regresi')
plt.xlabel('Pendapatan Median (MedInc)')
plt.ylabel('Nilai Median Rumah (MedHouseVal)')
plt.title('Regresi Linear: Pendapatan vs Harga Rumah')
plt.legend()
plt.show()

## 6️⃣ Analisis Otomatis dan Kesimpulan
Bagian ini melakukan analisis otomatis terhadap hasil model.

In [None]:
def analisis_model(slope, intercept, r2):
    print('--- Analisis Model ---')
    print(f"Koefisien (slope): {slope:.4f}")
    print(f"Intercept: {intercept:.4f}\n")

    if r2 > 0.7:
        print(f"✅ Model sangat baik (R² = {r2:.2f}), mampu menjelaskan sebagian besar variasi data.")
    elif r2 > 0.4:
        print(f"⚖️ Model cukup baik (R² = {r2:.2f}), masih ada variabel lain yang berpengaruh.")
    else:
        print(f"⚠️ Model lemah (R² = {r2:.2f}), hubungan antara variabel kurang kuat.")

    print('\nInterpretasi:')
    print(f"Setiap kenaikan 1 unit pendapatan (MedInc) meningkatkan harga rumah sebesar {slope:.4f} unit.")
    print("Intercept menunjukkan nilai rumah saat pendapatan = 0 (nilai teoritis, bukan realistis).")

analisis_model(model.coef_[0], model.intercept_, r2)

### ✅ Kesimpulan Akhir
- *Linear Regression* mampu menggambarkan hubungan positif antara pendapatan dan harga rumah.
- Model sederhana ini belum sempurna karena hanya menggunakan satu fitur (`MedInc`).
- Untuk akurasi lebih tinggi, tambahkan fitur lain seperti `HouseAge`, `AveRooms`, atau `Latitude`.