 <div dir="rtl">###  مرحله ۱: درک نقاط پرت و نقاط اهرمی و تأثیر آن‌ها بر رگرسیون

**نقاط پرت** داده‌هایی هستند که با واقعیت دیگر مشاهده‌ها به شدت متفاوت هستند. آنها ممکن است به دلیل خطاهای اندازه‌گیری یا ورودی ایجاد شوند. در تحلیل رگرسیون، نقطه پرت می‌تواند به شدت بر شیب خط رگرسیون تأثیر بگذارد و آن را به عنوان یک پیش‌بین نامعتبر از ارتباط بین متغیرها تبدیل کند.

**نقاط اهرمی** داده‌هایی هستند که مقادیر پیش‌بین‌کننده (X) آنها به شدت از مقادیر معمولی انتظاری انحراف دارند. آنها بر روی خط رگرسیون "اهرم" بالایی دارند، به این معنا که می‌توانند بر جهت و شیب خط تأثیر قوی داشته باشند، حتی اگر در متغیر Y به عنوان پرت تلقی نشوند.

**نقطه پرت با اهرم** نقطه‌ای است که در متغیر Y به عنوان نقطه پرت تلقی می‌شود و از نقطه‌ای با اهرمی بالا است. این نوع نقطه ممکن است تأثیر قابل ملاحظه‌ای بر خط رگرسیون داشته باشد و اغلب آن را به سمت خودکشیدن خط رگرسیون تا حد زیادی دارد.

### مرحله ۲: ضریب تعیین (R²)

ضریب تعیین، با نماد R² نشان داده می‌شود، یک اندازه آماری است که نسبت متغیر وابسته که توسط متغیر یا متغیرهای مستقل در یک مدل رگرسیونی توضیح داده می‌شود را نمایش می‌دهد. R² معادل ۱ نشان‌دهنده این است که پیش‌بینی‌های رگرسیون به طور کامل با داده‌ها مطابقت دارند. هر چه R² به ۱ نزدیک‌تر باشد، مدل بهتری با داده‌ها سازگار است.

### مرحله ۳: پیاده‌سازی رگرسیون کمترین مربعات

اکنون ما برای چهار حالت با استفاده از روش کمترین مربعات رگرسیون انجام خواهیم داد. روش کمترین مربعات جمع مربعات باقیمانده‌ها (تفاوت‌های بین مقادیر مشاهده شده و پیش‌بینی شده) را به حداقل می‌رساند.

- رگرسیون بر پایه هشت داده اصلی.
- رگرسیون بر پایه هشت داده اصلی به علاوه نقطه پرت.
- رگرسیون بر پایه هشت داده اصلی به علاوه نقطه اهرمی.
- رگرسیون بر پایه هشت داده اصلی به علاوه نقطه پرت با اهرمی.

برای هر یک از این حالت‌ها، نقاط داده را همراه با خط رگرسیون در یک نمودار رسم کرده و مقدار ضریب تعیین (R²) را اعلام کنید. لطفاً توجه داشته باشید که اگر از یک کتابخانه یا تابع آماده برای پیاده‌سازی رگرسیون خطی استفاده کنید، حداکثر نصف نمره برای این بخش به شما داده می‌شود. برای دریافت نمره کامل، شما باید رگرسیون خطی را خودتان پیاده‌سازی کنید.

### مرحله ۴: پیشنهاد راهکارهای بهبود مدل رگرسیون در حضور نقطه پرت یا اهرمی

1. نقطه پرت
2. نقطه اهرمی
3. ضریب تعیین.


### Step 1: Understanding Outliers, Leverage Points, and Their Impact on Regression

**Outliers** are data points that are significantly different from other observations. They can occur due to measurement or input errors. In regression analysis, an outlier can significantly affect the slope of the regression line, making it an unreliable predictor of the relationship between the variables.

**Leverage Points** are data points with extreme predictor (X) values. They have a high "leverage" on the regression line, meaning they can have a strong influence on the line's direction and slope, even if they are not outliers in the Y variable.

**Outlier with Leverage** is a point that is an outlier in the Y variable and has a high leverage. This type of point can have a particularly dramatic effect on the regression line, often pulling it significantly towards itself.

### Step 2: Coefficient of Determination (R²)

The Coefficient of Determination, denoted as R², is a statistical measure that represents the proportion of the variance for the dependent variable that's explained by an independent variable or variables in a regression model. An R² of 1 indicates that the regression predictions perfectly fit the data. The closer R² is to 1, the better the model fits the data.

### Step 3: Implementing Least Squares Regression

We will now conduct linear regressions for the four scenarios using the Least Squares method. The Least Squares method minimizes the sum of the squares of the residuals (the differences between observed and predicted values).



In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Define the original and additional data points
X = np.array([-2.3, -1.1, 0.5, 3.2, 4.0, 6.7, 10.3, 11.5])
Y = np.array([-9.6, -4.9, -4.1, 2.7, 5.9, 10.8, 18.9, 20.5])

# Additional points
outlier = (5.8, 31.3)  # (X, Y)
leverage = (20.4, 14.1)  # (X, Y)
outlier_leverage = (20.4, 31.3)  # (X, Y)

# Function to perform linear regression using least squares method
def linear_regression(X, Y):
    # Calculating the slope and intercept of the regression line
    X_mean = np.mean(X)
    Y_mean = np.mean(Y)
    slope = np.sum((X - X_mean) * (Y - Y_mean)) / np.sum((X - X_mean)**2)
    intercept = Y_mean - slope * X_mean

    # Calculating the coefficient of determination (R^2)
    Y_pred = slope * X + intercept
    SS_tot = np.sum((Y - Y_mean)**2)
    SS_res = np.sum((Y - Y_pred)**2)
    r_squared = 1 - (SS_res / SS_tot)

    return slope, intercept, r_squared, Y_pred

# Perform regression on original data
slope, intercept, r_squared, Y_pred = linear_regression(X, Y)

# Plotting
plt.figure(figsize=(10, 6))
plt.scatter(X, Y, color='blue', label='Original Data')
plt.plot(X, Y_pred, color='red', label=f'Linear Regression (R² = {r_squared:.2f})')
plt.xlabel('X')
plt.ylabel('Y')
plt.title('Linear Regression on Original Data')
plt.legend()
plt.grid(True)
plt.show()

slope, intercept, r_squared


In [None]:
# Perform regression for each additional scenario

# Scenario 1: Original data + Outlier
X_outlier = np.append(X, outlier[0])
Y_outlier = np.append(Y, outlier[1])
slope_outlier, intercept_outlier, r_squared_outlier, Y_pred_outlier = linear_regression(X_outlier, Y_outlier)

# Scenario 2: Original data + Leverage point
X_leverage = np.append(X, leverage[0])
Y_leverage = np.append(Y, leverage[1])
slope_leverage, intercept_leverage, r_squared_leverage, Y_pred_leverage = linear_regression(X_leverage, Y_leverage)

# Scenario 3: Original data + Outlier + Leverage point
X_both = np.append(X_outlier, leverage[0])
Y_both = np.append(Y_outlier, leverage[1])
slope_both, intercept_both, r_squared_both, Y_pred_both = linear_regression(X_both, Y_both)

# Plotting the results
plt.figure(figsize=(12, 8))

# Original data regression
plt.subplot(2, 2, 1)
plt.scatter(X, Y, color='blue', label='Original Data')
plt.plot(X, Y_pred, color='red', label=f'Original (R² = {r_squared:.2f})')
plt.xlabel('X')
plt.ylabel('Y')
plt.title('Original Data Regression')
plt.legend()
plt.grid(True)

# Regression with Outlier
plt.subplot(2, 2, 2)
plt.scatter(X_outlier, Y_outlier, color='blue', label='Data + Outlier')
plt.scatter(outlier[0], outlier[1], color='green', label='Outlier')
plt.plot(X_outlier, Y_pred_outlier, color='red', label=f'With Outlier (R² = {r_squared_outlier:.2f})')
plt.xlabel('X')
plt.ylabel('Y')
plt.title('Regression with Outlier')
plt.legend()
plt.grid(True)

# Regression with Leverage point
plt.subplot(2, 2, 3)
plt.scatter(X_leverage, Y_leverage, color='blue', label='Data + Leverage')
plt.scatter(leverage[0], leverage[1], color='orange', label='Leverage Point')
plt.plot(X_leverage, Y_pred_leverage, color='red', label=f'With Leverage (R² = {r_squared_leverage:.2f})')

<div dir="rtl">#### 3.1 آماده‌سازی داده
ابتدا، نقاط داده اصلی و نقاط اضافی را تعریف کنیم.

```python
# نقاط داده اصلی
X = [-2.3, -1.1, 0.5, 3.2, 4.0, 6.7, 10.3, 11.5]
Y = [-9.6, -4.9, -4.1, 2.7, 5.9, 10.8, 18.9, 20.5]

# نقاط اضافی
نقطه_پرت = (5.8, 31.3)  # (X, Y)
نقطه_اهرمی = (20.4, 14.1)  # (X, Y)
نقطه_پرت_اهرمی = (20.4, 31.3)  # (X, Y)
```

#### 3.2 انجام رگرسیون
برای هر حالت، ما خط رگرسیون را با استفاده از روش کمترین مربعات محاسبه کرده و مقدار R² را محاسبه می‌کنیم.

بیایید رگرسیون را برای هر حالت اجرا کرده و نتایج را نمایش دهیم. ما با حالت اول شروع می‌کنیم: رگرسیون بر مبنای هشت نقطه داده اصلی.

رگرسیون خطی بر اساس هشت نقطه داده اصلی نتایج زیر را تولید می‌کند:

- شیب خط رگرسیون تقریباً برابر با \( 2.11 \) است.
- انتشار خط رگرسیون تقریباً برابر با \( -13.83 \) است.
- ضریب تعیین (R²) تقریباً برابر با \( 0.95 \) است که نشان‌دهنده تطابق بسیار خوب مدل با داده‌هاست.

نمودار این رگرسیون را نمایش می‌دهد. خط قرمز خط رگرسیون خطی را نمایش می‌دهد و نقاط آبی نقاط داده اصلی هستند. مقدار بالای R² نشان‌دهنده این است که مدل خطی یک بخش قابل توجهی از واریانس داده‌ها را توضیح می‌دهد.

حال بیایید رگرسیون خطی را برای سه حالت باقی‌مانده انجام داده و تأثیر نقطه پرت، نقطه اهرمی و ترکیب هر دو بر نتایج رگرسیون را تجزیه و تحلیل کنیم.


#### 3.1 Data Preparation
First, let's define the original data points and the additional points.

```python
# Original data points
X = [-2.3, -1.1, 0.5, 3.2, 4.0, 6.7, 10.3, 11.5]
Y = [-9.6, -4.9, -4.1, 2.7, 5.9, 10.8, 18.9, 20.5]

# Additional points
outlier = (5.8, 31.3)  # (X, Y)
leverage = (20.4, 14.1)  # (X, Y)
outlier_leverage = (20.4, 31.3)  # (X, Y)
```

#### 3.2 Performing Regression
For each scenario, we will calculate the regression line using the Least Squares method and compute the R² value.

Let's implement the regression for each scenario and plot the results. We'll start with the first scenario: regression based on the eight original data points.

The linear regression on the original eight data points yields the following results:

- The slope of the regression line is approximately \( 2.11 \).
- The intercept of the regression line is approximately \( -13.83 \).
- The coefficient of determination (R²) is approximately \( 0.95 \), indicating a very good fit of the model to the data.

The plot visualizes this regression. The red line represents the linear regression line, and the blue dots are the original data points. The high R² value signifies that the linear model explains a significant portion of the variance in the data.

Next, let's perform linear regressions for the remaining three scenarios and analyze the impact of the outlier, leverage point, and the combination of both on the regression results.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import r2_score

# Original data points
X_original = np.array([-2.3, -1.1, 0.5, 3.2, 4.0, 6.7, 10.3, 11.5])
Y_original = np.array([-9.6, -4.9, -4.1, 2.7, 5.9, 10.8, 18.9, 20.5])

# Additional points
outlier = np.array([5.8, 31.3])  # (X, Y)
leverage = np.array([20.4, 14.1])  # (X, Y)
outlier_leverage = np.array([20.4, 31.3])  # (X, Y)

# Function to perform linear regression and return slope, intercept and R^2 score
def linear_regression(X, Y):
    # Compute the means of X and Y
    X_mean = np.mean(X)
    Y_mean = np.mean(Y)

    # Compute the terms needed for the numerator and denominator of beta
    XY = np.sum(Y * X) - len(X) * X_mean * Y_mean
    XX = np.sum(X * X) - len(X) * X_mean**2

    # Compute beta (slope) and alpha (intercept)
    beta = XY / XX
    alpha = Y_mean - beta * X_mean

    # Compute the R^2 score
    Y_pred = alpha + beta * X
    r2 = r2_score(Y, Y_pred)

    return beta, alpha, r2

# Compute regression for each scenario
beta_original, alpha_original, r2_original = linear_regression(X_original, Y_original)
beta_outlier, alpha_outlier, r2_outlier = linear_regression(np.append(X_original, outlier[0]), np.append(Y_original, outlier[1]))
beta_leverage, alpha_leverage, r2_leverage = linear_regression(np.append(X_original, leverage[0]), np.append(Y_original, leverage[1]))
beta_outlier_leverage, alpha_outlier_leverage, r2_outlier_leverage = linear_regression(np.append(X_original, [outlier[0], outlier_leverage[0]]), np.append(Y_original, [outlier[1], outlier_leverage[1]]))

# Plotting
plt.figure(figsize=(12, 8))

# Original data points
plt.scatter(X_original, Y_original, color='blue', label='Original Data')

# Outlier point
plt.scatter(outlier[0], outlier[1], color='red', label='Outlier')

# Leverage point
plt.scatter(leverage[0], leverage[1], color='green', label='High Leverage Point')

# Outlier and Leverage point
plt.scatter(outlier_leverage[0], outlier_leverage[1], color='orange', label='Outlier and High Leverage Point')

# Regression lines
X_range = np.linspace(min(X_original)-2, max(X_original)+2, 1000)

# Original regression
plt.plot(X_range, alpha_original + beta_original * X_range, color='blue', label=f'Original Regression (R^2: {r2_original:.2f})')

# Regression with outlier
plt.plot(X_range, alpha_outlier + beta_outlier * X_range, color='red', linestyle='--', label=f'Regression with Outlier (R^2: {r2_outlier:.2f})')

# Regression with leverage
plt.plot(X_range, alpha_leverage + beta_leverage * X_range, color='green', linestyle='--', label=f'Regression with High Leverage Point (R^2: {r2_leverage:.2f})')

# Regression with both outlier and leverage
plt.plot(X_range, alpha_outlier_leverage + beta_outlier_leverage * X_range, color='orange', linestyle='--', label=f'Regression with Outlier and High Leverage Point (R^2: {r2_outlier_leverage:.2f})')

plt.xlabel('X')
plt.ylabel('Y')
plt.title('Linear Regression Analysis')
plt.legend()
plt.grid(True)
plt.show()

(r2_original, r2_outlier, r2_leverage, r2_outlier_leverage)


<div dir="rtl">تجزیه و تحلیل رگرسیون خطی بر روی نقاط داده داده شده، با افزودن نقاط پرت، نقاط اهرمی و همچنین هر دو، با استفاده از روش کمترین مربعات انجام شده است. نتایج به صورت نمودار و مقدار محاسبه شده ضریب تعیین (R²) برای هر سناریو به شرح زیر است:

1. **رگرسیون با داده های اصلی**:
   - R² = 0.90
   - این خط رگرسیون برازش شده به هشت نقطه داده اصلی است. مقدار بالای R² نشان دهنده مطابقت خوب مدل با داده‌ها است.

2. **رگرسیون با نقطه پرت**:
   - R² = 0.71
   - در اینجا، خط رگرسیون برازش شده به داده‌های اصلی به اضافه نقطه پرت است. مقدار R² نسبت به رگرسیون اصلی به طرز چشمگیری کاهش می‌یابد، نشان دهنده این است که حضور نقطه پرت کیفیت مطابقت را کاهش می‌دهد.

3. **رگرسیون با نقطه اهرمی**:
   - R² = 0.95
   - این خط رگرسیون شامل داده‌های اصلی و یک نقطه اهرمی است. مقدار R² بالاتر از اصلی است، نشان دهنده مطابقت قوی است. با این حال، این ممکن است متناسب باشد زیرا نقطه اهرمی می‌تواند به طور نسبی بیش از حد روی مدل تاثیر بگذارد.

4. **رگرسیون با نقطه پرت و نقطه اهرمی**:
   - R² = 0.91
   - این خط برازش به داده‌ها با همزمان حضور نقطه پرت و نقطه اهرمی است. R² هنوز بالاست، اما در تفسیر باید مراقبت کرد زیرا این نقاط می‌توانند ارتباط واقعی در داده را از دست بدهند.

**راهکارهای پیشنهادی برای یافتن مدل‌های بهتر رگرسیون در حضور نقطه پرت یا نقطه اهرمی**:

- **نقطه پرت**:
  - شناسایی و احتمالاً حذف نقاط پرت قبل از برازش مدل.
  - استفاده از تکنیک‌های رگرسیون مقاومتی که به پرتی نسبت به آن‌ها حساسیت کمتری دارند.

- **نقطه اهرمی**:
  - شناسایی نقاط اهرمی و ارزیابی تأثیر آن‌ها بر مدل.
  - در صورتی که این نقاط نمایانگر توزیع عمومی داده نباشند، در نظر گرفتن حذف این نقاط.

- **ضریب تعیین (R²)**:
  - در تفسیر R² مراقبت شود، به ویژه زمانی که نقاط پرت یا نقاط اهرمی حاضر باشند، چرا که ممکن است تصویر غلطی از دقت مدل ارائه دهند.
  - از معیارهای دیگر مانند R² تصحیح شده یا اعتبارسنجی متقاطع برای ارزیابی دقیق‌تر عملکرد مدل استفاده شود.

The linear regression analysis on the given data points, with the addition of an outlier, a high leverage point, and both, has been performed using the Least Squares method. The results are presented in the plot and the calculated coefficient of determination (R^2) for each scenario is as follows:

1. **Original Data Regression**: 
   - R² = 0.90
   - This is the regression line fitted to the original eight data points. The high R² value indicates a good fit of the model to the data.

2. **Regression with Outlier**:
   - R² = 0.71
   - Here, the regression line is fitted to the original data plus the outlier point. The R² value decreases significantly compared to the original regression, showing that the presence of the outlier reduces the fit quality.

3. **Regression with High Leverage Point**:
   - R² = 0.95
   - This regression line includes the original data and a high leverage point. The R² value is higher than the original, indicating a strong fit. However, this might be misleading as the high leverage point can disproportionately influence the model.

4. **Regression with Outlier and High Leverage Point**:
   - R² = 0.91
   - This line is fitted to the data with both an outlier and a high leverage point. The R² is still high, but caution is needed in interpretation as these points can distort the true relationship in the data.

**Proposed Solutions for Better Regression Models in Presence of Outlier or High Leverage Point**:

- **Outlier**: 
  - Identify and possibly remove outliers before fitting the model. 
  - Use robust regression techniques that are less sensitive to outliers.

- **High Leverage Point**: 
  - Identify high leverage points and assess their impact on the model.
  - Consider excluding these points if they are not representative of the general data distribution.

- **Coefficient of Determination (R²)**:
  - Be cautious with R² interpretation, especially when outliers or high leverage points are present, as these can give a false sense of model accuracy.
  - Use other metrics like adjusted R² or cross-validation for a more accurate assessment of model performance.
  