In [1]:
# Step 1: Import necessary libraries
import pandas as pd
import numpy as np
from sklearn.datasets import fetch_california_housing

# Step 2: Load the dataset
california_data = fetch_california_housing()

# Step 3: Convert the dataset to a Pandas DataFrame for easier manipulation
data = pd.DataFrame(california_data.data, columns=california_data.feature_names)
data['MedHouseVal'] = california_data.target  # Add the target column (median house value)

# Step 4: Display the first few rows of the dataset
data.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23,4.526
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24,3.521
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422


In [2]:
# Step 1: Check for missing values in the dataset
missing_values = data.isnull().sum()
print("Missing Values:\n", missing_values)

# Step 2: If there are missing values, decide how to handle them
# For now, let's assume there are no missing values in this dataset

Missing Values:
 MedInc         0
HouseAge       0
AveRooms       0
AveBedrms      0
Population     0
AveOccup       0
Latitude       0
Longitude      0
MedHouseVal    0
dtype: int64


In [3]:
from sklearn.preprocessing import StandardScaler

# Step 1: Initialize the StandardScaler
scaler = StandardScaler()

# Step 2: Fit and transform the feature columns (excluding the target column)
feature_columns = data.columns[:-1]  # All columns except the last one (MedHouseVal)
data[feature_columns] = scaler.fit_transform(data[feature_columns])

# Step 3: Display the first few rows of the normalized data
data.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal
0,2.344766,0.982143,0.628559,-0.153758,-0.974429,-0.049597,1.052548,-1.327835,4.526
1,2.332238,-0.607019,0.327041,-0.263336,0.861439,-0.092512,1.043185,-1.322844,3.585
2,1.782699,1.856182,1.15562,-0.049016,-0.820777,-0.025843,1.038503,-1.332827,3.521
3,0.932968,1.856182,0.156966,-0.049833,-0.766028,-0.050329,1.038503,-1.337818,3.413
4,-0.012881,1.856182,0.344711,-0.032906,-0.759847,-0.085616,1.038503,-1.337818,3.422


In [4]:
from sklearn.model_selection import train_test_split

# Step 1: Separate features (X) and target (y)
X = data.drop(columns=['MedHouseVal'])  # Features (all columns except the target)
y = data['MedHouseVal']  # Target (the last column)

# Step 2: Split the data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Step 3: Display the shapes of the resulting datasets
print("X_train shape:", X_train.shape)
print("X_test shape:", X_test.shape)
print("y_train shape:", y_train.shape)
print("y_test shape:", y_test.shape)

X_train shape: (16512, 8)
X_test shape: (4128, 8)
y_train shape: (16512,)
y_test shape: (4128,)


In [5]:
from sklearn.linear_model import LinearRegression

# Step 1: Create an instance of the Linear Regression model
model = LinearRegression()

# Step 2: Train the model using the training data
model.fit(X_train, y_train)

# Step 3: Make predictions on the test data
y_pred = model.predict(X_test)

# Step 4: Display the coefficients and intercept of the model
print("Coefficients:", model.coef_)
print("Intercept:", model.intercept_)

# Step 5: Display the first few predicted values
print("First 5 predicted values:", y_pred[:5])

Coefficients: [ 0.85238169  0.12238224 -0.30511591  0.37113188 -0.00229841 -0.03662363
 -0.89663505 -0.86892682]
Intercept: 2.067862309508389
First 5 predicted values: [0.71912284 1.76401657 2.70965883 2.83892593 2.60465725]


In [6]:
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np

# Step 1: Calculate RMSE
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print("RMSE:", rmse)

# Step 2: Calculate R²
r2 = r2_score(y_test, y_pred)
print("R² Score:", r2)

RMSE: 0.7455813830127763
R² Score: 0.575787706032451


<div style = "direction : rtl;">
# گزارش پروژه: پیش‌بینی قیمت مسکن با رگرسیون خطی

## **هدف پروژه**
هدف از این پروژه، یادگیری نحوه استفاده از مدل‌های رگرسیون برای پیش‌بینی مقادیر عددی است. در اینجا، قیمت خانه‌ها بر اساس ویژگی‌های مختلف (مانند اندازه، سن خانه، محل و غیره) پیش‌بینی شد.

---

## **مراحل انجام شده**

### **۱. بارگیری داده‌ها**
- از دیتاست [California Housing](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_california_housing.html) استفاده شد.
- داده‌ها به یک DataFrame تبدیل شدند تا مدیریت و تحلیل آن‌ها آسان‌تر شود.

### **۲. پیش‌پردازش داده‌ها**
- داده‌ها بررسی شدند و مشخص شد که هیچ مقدار Null وجود ندارد.
- داده‌ها با استفاده از `StandardScaler` استانداردسازی شدند تا مقیاس تمام ویژگی‌ها یکسان شود.

### **۳. تقسیم داده‌ها**
- داده‌ها به دو مجموعه تقسیم شدند:
  - **آموزشی (80٪)**: برای آموزش مدل.
  - **آزمایشی (20٪)**: برای ارزیابی عملکرد مدل.

### **۴. آموزش مدل**
- از مدل رگرسیون خطی (`LinearRegression`) استفاده شد.
- مدل روی داده‌های آموزشی آموزش داده شد و ضرایب و بایاس محاسبه شدند.

### **۵. ارزیابی مدل**
- معیارهای ارزیابی مدل محاسبه شدند:
  - **RMSE**: `0.745` (خطای متوسط مدل).
  - **R²**: `0.575` (مدل ۵۷.۵٪ از تغییرات داده‌ها را توضیح می‌دهد).

---

## **نتایج و تحلیل**

### **نتایج**
- مدل رگرسیون خطی توانست به طور متوسط قیمت خانه‌ها را با خطای `0.745` پیش‌بینی کند.
- مقدار R² (`0.575`) نشان داد که مدل حدوداً ۵۷.۵٪ از تغییرات داده‌ها را توضیح می‌دهد.

### **تحلیل عملکرد مدل**
- **نقاط قوت**:
  - مدل ساده و سریع است.
  - استانداردسازی داده‌ها باعث شد که مدل بهتر عمل کند.
- **نقاط ضعف**:
  - مقدار R² نشان می‌دهد که مدل نمی‌تواند تمام تغییرات داده‌ها را توضیح دهد.
  - RMSE نیز نشان می‌دهد که خطای مدل هنوز قابل توجه است.

### **پیشنهادات برای بهبود**
1. استفاده از مدل‌های پیچیده‌تر مثل Random Forest یا Gradient Boosting.
2. افزایش ویژگی‌ها (مثل فاصله از مرکز شهر یا کیفیت مدرسه‌ها).
3. تنظیم هایپرپارامترها برای بهبود عملکرد.
4. بررسی داده‌ها برای یافتن الگوهای پنهان یا مقادیر پرت.

---

## **نتیجه‌گیری**
این پروژه نشان داد که مدل رگرسیون خطی می‌تواند به عنوان یک نقطه شروع خوب برای پیش‌بینی قیمت مسکن استفاده شود. اما برای دقت بالاتر، استفاده از مدل‌های پیشرفته‌تر و بهبود ویژگی‌ها توصیه می‌شود.
</div>