In [1]:
import pandas as pd
from scipy.io import arff

# خواندن داده‌ها از فایل ARFF
data, meta = arff.loadarff('/content/ESL.arff')

# تبدیل داده‌های ARFF به DataFrame پانداس
df = pd.DataFrame(data)

# نمایش چند ردیف اول برای درک ساختار داده
print("پیش‌نمایش داده:")
print(df.head())

# نمایش نام ستون‌ها
print("نام ستون‌ها:")
print(df.columns)

# بررسی نوع داده‌ها
print("انواع داده‌ها:")
print(df.dtypes)


پیش‌نمایش داده:
   in1  in2  in3  in4  out1
0  6.0  5.0  6.0  6.0   6.0
1  5.0  4.0  5.0  5.0   5.0
2  5.0  3.0  4.0  5.0   4.0
3  6.0  5.0  6.0  7.0   6.0
4  4.0  3.0  3.0  5.0   3.0
نام ستون‌ها:
Index(['in1', 'in2', 'in3', 'in4', 'out1'], dtype='object')
انواع داده‌ها:
in1     float64
in2     float64
in3     float64
in4     float64
out1    float64
dtype: object


In [5]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# هدف و ویژگی‌ها را مشخص کنید
target = 'out1'
features = ['in1', 'in2', 'in3', 'in4']

# تابع انتخاب رو به جلو
def forward_selection(df, target, features):
    selected_features = []
    remaining_features = features.copy()
    best_model = None
    best_score = float('inf')

    # حلقه برای اضافه کردن بهترین ویژگی‌ها
    while remaining_features:
        scores = []
        for feature in remaining_features:
            # ویژگی فعلی را به ویژگی‌های انتخاب‌شده اضافه می‌کنیم
            current_features = selected_features + [feature]

            # تقسیم داده‌ها به train و test
            X_train, X_test, y_train, y_test = train_test_split(
                df[current_features], df[target], test_size=0.2, random_state=42)

            # مدل رگرسیون خطی
            model = LinearRegression()

            # آموزش مدل
            model.fit(X_train, y_train)

            # پیش‌بینی
            predictions = model.predict(X_test)

            # محاسبه خطای میانگین مربعات (MSE)
            mse = mean_squared_error(y_test, predictions)

            scores.append((mse, feature))

        # انتخاب ویژگی با کمترین MSE
        scores.sort()
        best_feature = scores[0][1]

        # اگر MSE بهبود یافت، ویژگی جدید را اضافه می‌کنیم
        if scores[0][0] < best_score:
            selected_features.append(best_feature)
            remaining_features.remove(best_feature)
            best_score = scores[0][0]
            best_model = model
        else:
            break

    return selected_features, best_model, best_score

# اجرای انتخاب رو به جلو
best_features, model, score = forward_selection(df, target, features)

print("بهترین ویژگی‌ها:")
print(best_features)
print("بهترین مدل:")
print(model)
print("امتیاز (MSE):")
print(score)


بهترین ویژگی‌ها:
['in3', 'in4', 'in2', 'in1']
بهترین مدل:
LinearRegression()
امتیاز (MSE):
0.27767325311491214


In [7]:
# ضرایب مدل نهایی
coefficients = model.coef_

# ضریب متقاطع
intercept = model.intercept_

print("ضرایب رگرسیون:")
for feature, coef in zip(best_features, coefficients):
    print(f"{feature}: {coef}")

print("(Intercept):")
print(intercept)


ضرایب رگرسیون:
in3: 0.34610277994314675
in4: 0.589652849036775
in2: 0.23626999120074216
in1: 0.1816840812443135
(Intercept):
-2.124800591172594


دث

In [4]:
import pandas as pd
from scipy.io import arff

# بارگیری داده‌ها از فایل ARFF
data, meta = arff.loadarff('/content/ESL.arff')  # مسیر فایل ARFF خود را وارد کنید
df = pd.DataFrame(data)

# تبدیل داده‌ها به فرمت مناسب (در صورت لزوم)
for col in df.columns:
    if df[col].dtype == 'object':
        df[col] = df[col].str.decode('utf-8')

# تعیین ویژگی‌ها و متغیر هدف
target = 'out1'  # نام ستون متغیر هدف
features = ['in1', 'in2', 'in3', 'in4'] # سایر ستون‌ها به‌عنوان ویژگی


In [5]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# تابع انتخاب رو به جلو برای انتخاب بهترین ویژگی‌ها
def forward_selection(df, target, features):
    selected_features = []
    remaining_features = features.copy()
    best_model = None
    best_score = float('inf')

    while remaining_features:
        scores = []
        for feature in remaining_features:
            current_features = selected_features + [feature]

            # تقسیم داده‌ها به مجموعه‌های آموزشی و آزمایشی
            X_train, X_test, y_train, y_test = train_test_split(
                df[current_features], df[target], test_size=0.2, random_state=42
            )

            # مدل رگرسیون خطی
            model = LinearRegression()

            # آموزش مدل
            model.fit(X_train, y_train)

            # پیش‌بینی و محاسبه MSE
            predictions = model.predict(X_test)
            mse = mean_squared_error(y_test, predictions)

            scores.append((mse, feature))

        # انتخاب ویژگی با کمترین MSE
        scores.sort()
        best_feature = scores[0][1]

        # اگر MSE بهبود یافت، ویژگی را اضافه کنید
        if scores[0][0] < best_score:
            selected_features.append(best_feature)
            remaining_features.remove(best_feature)
            best_score = scores[0][0]
            best_model = model
        else:
            break

    return selected_features, best_model, best_score


In [6]:
# استفاده از انتخاب رو به جلو
best_features, model, best_mse = forward_selection(df, target, features)

print("بهترین ویژگی‌ها:")
print(best_features)
print("امتیاز (MSE) مدل:")
print(best_mse)


بهترین ویژگی‌ها:
['in3', 'in4', 'in2', 'in1']
امتیاز (MSE) مدل:
0.27767325311491214


In [7]:
# داده‌های آزمایشی بر اساس ویژگی‌های منتخب
X_test = df[best_features]
y_test = df[target]

# پیش‌بینی با مدل رگرسیون خطی
predictions = model.predict(X_test)

print("پیش‌بینی‌ها:")
print(predictions[:10])  # نمایش اولین 10 پیش‌بینی


پیش‌بینی‌ها:
[5.76118763 4.40747792 3.82510515 6.35084048 3.29731829 6.54250986
 4.64374792 1.36394105 4.64374792 5.34323355]


In [8]:
# ضرایب رگرسیون خطی
coefficients = model.coef_

# ضریب متقاطع
intercept = model.intercept_

print("ضرایب:")
for feature, coef in zip(best_features, coefficients):
    print(f"{feature}: {coef}")

print("ضریب متقاطع:")
print(intercept)


ضرایب:
in3: 0.34610277994314675
in4: 0.589652849036775
in2: 0.23626999120074216
in1: 0.1816840812443135
ضریب متقاطع:
-2.124800591172594


### **Q2**

In [9]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from scipy.io import arff

# خواندن داده‌ها از فایل ARFF (یا هر فرمت دیگری)
data, meta = arff.loadarff('/content/ESL.arff')
df = pd.DataFrame(data)

# اگر نوع داده‌ها اشتباه است، تبدیل کنید (مثلاً از byte به string)
for col in df.columns:
    if df[col].dtype == 'object':
        df[col] = df[col].str.decode('utf-8')

target = 'out1'
features = ['in1', 'in2', 'in3', 'in4']

# تابع حذف معکوس (Backward Elimination)
def backward_elimination(df, target, features):
    selected_features = features.copy()
    best_model = None
    best_score = float('inf')

    while len(selected_features) > 1:
        scores = []

        # حذف یکی از ویژگی‌ها و ارزیابی مدل
        for feature in selected_features:
            current_features = selected_features.copy()
            current_features.remove(feature)

            # تقسیم داده‌ها به train و test
            X_train, X_test, y_train, y_test = train_test_split(
                df[current_features], df[target], test_size=0.2, random_state=42
            )

            # مدل رگرسیون خطی
            model = LinearRegression()

            # آموزش مدل
            model.fit(X_train, y_train)

            # پیش‌بینی و ارزیابی با MSE
            predictions = model.predict(X_test)
            mse = mean_squared_error(y_test, predictions)

            scores.append((mse, current_features))

        # بهترین مجموعه ویژگی‌ها را انتخاب کنید
        scores.sort()
        best_combination = scores[0][1]

        # اگر حذف یک ویژگی باعث بهبود MSE شود، آن ویژگی را حذف می‌کنیم
        if scores[0][0] < best_score:
            selected_features = best_combination
            best_score = scores[0][0]
            best_model = model
        else:
            break

    return selected_features, best_model, best_score

# اجرای حذف معکوس
best_features, model, best_mse = backward_elimination(df, target, features)

print("بهترین ویژگی‌ها:")
print(best_features)

print("امتیاز (MSE) مدل نهایی:")
print(best_mse)


بهترین ویژگی‌ها:
['in2', 'in3', 'in4']
امتیاز (MSE) مدل نهایی:
0.31489824087622126


In [10]:
# ضرایب مدل بهینه
coefficients = model.coef_

# ضریب متقاطع
intercept = model.intercept_

print("ضرایب مدل:")
for feature, coef in zip(best_features, coefficients):
    print(f"{feature}: {coef}")

print("ضریب متقاطع (Intercept):")
print(intercept)


ضرایب مدل:
in2: 0.2366864843984032
in3: 0.18781228248961213
in4: 0.65114962336257
ضریب متقاطع (Intercept):
-0.5028932858552642
