напишіть функцію гіпотези лінійної регресії у векторному вигляді;

In [5]:
import numpy as np

def hypothesis(X, theta):
    """
    Обчислює гіпотезу лінійної регресії у векторному вигляді.

    Args:
        X (numpy.ndarray): Матриця ознак розмірності (m, n+1), де m - кількість прикладів, n - кількість ознак.
        theta (numpy.ndarray): Вектор параметрів розмірності (n+1,).

    Returns:
        numpy.ndarray: Вектор прогнозів розмірності (m,).
    """
    return np.dot(X, theta)

створіть функцію для обчислення функції втрат у векторному вигляді;

In [7]:
import numpy as np

def compute_cost(X, y, theta):
    """
    Обчислює функцію втрат для лінійної регресії у векторному вигляді.

    Args:
        X (numpy.ndarray): Матриця ознак розмірності (m, n+1), де m - кількість прикладів, n - кількість ознак.
        y (numpy.ndarray): Вектор фактичних значень розмірності (m,).
        theta (numpy.ndarray): Вектор параметрів розмірності (n+1,).

    Returns:
        float: Значення функції втрат.
    """
    m = len(y)  # Кількість прикладів
    predictions = np.dot(X, theta)  # Обчислюємо прогнози
    errors = predictions - y  # Відхилення прогнозів від фактичних значень
    cost = (1 / (2 * m)) * np.dot(errors.T, errors)  # Функція втрат
    return cost

реалізуйте один крок градієнтного спуску;

In [8]:
import numpy as np

def gradient_descent_step(X, y, theta, alpha):
    """
    Виконує один крок градієнтного спуску для лінійної регресії.

    Args:
        X (numpy.ndarray): Матриця ознак розмірності (m, n+1), де m - кількість прикладів, n - кількість ознак.
        y (numpy.ndarray): Вектор фактичних значень розмірності (m,).
        theta (numpy.ndarray): Вектор параметрів розмірності (n+1,).
        alpha (float): Швидкість навчання.

    Returns:
        numpy.ndarray: Оновлений вектор параметрів.
    """
    m = len(y)  # Кількість прикладів
    predictions = np.dot(X, theta)  # Обчислюємо прогнози
    errors = predictions - y  # Відхилення прогнозів від фактичних значень
    gradient = (1 / m) * np.dot(X.T, errors)  # Градієнт
    theta = theta - alpha * gradient  # Оновлюємо параметри
    return theta

знайдіть найкращі параметри w⃗ для датасету прогнозуючу ціну на будинок залежно від площі, кількості ванних кімнат та кількості спалень;

In [12]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Завантаження даних
data = pd.read_csv('Housing.csv')

# Перевірка даних
print(data.head())

# Вибір ознак та цільової змінної
X = data[['area', 'bathrooms', 'bedrooms']]
y = data['price']

# Розділення даних на навчальну та тестову вибірки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Ініціалізація та навчання моделі лінійної регресії
model = LinearRegression()
model.fit(X_train, y_train)

# Прогнозування цін на тестовій вибірці
y_pred = model.predict(X_test)

# Оцінка якості моделі
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f'Mean Squared Error: {mse}')
print(f'R^2 Score: {r2}')

# Найкращі параметри (вагові коефіцієнти)
print(f'Coefficients: {model.coef_}')
print(f'Intercept: {model.intercept_}')

      price  area  bedrooms  bathrooms  stories mainroad guestroom basement  \
0  13300000  7420         4          2        3      yes        no       no   
1  12250000  8960         4          4        4      yes        no       no   
2  12250000  9960         3          2        2      yes        no      yes   
3  12215000  7500         4          2        2      yes        no      yes   
4  11410000  7420         4          1        2      yes       yes      yes   

  hotwaterheating airconditioning  parking prefarea furnishingstatus  
0              no             yes        2      yes        furnished  
1              no             yes        3       no        furnished  
2              no              no        2      yes   semi-furnished  
3              no             yes        3      yes        furnished  
4              no             yes        2       no        furnished  
Mean Squared Error: 2750040479309.052
R^2 Score: 0.45592991188724463
Coefficients: [3.45466570e+02 

знайдіть ці ж параметри за допомогою аналітичного рішення;

In [13]:
import numpy as np
import pandas as pd

# Завантаження даних
data = pd.read_csv('Housing.csv')

# Вибір ознак та цільової змінної
X = data[['area', 'bathrooms', 'bedrooms']].values
y = data['price'].values

# Додавання стовпця одиниць для вільного члена
X = np.hstack([np.ones((X.shape[0], 1)), X])

# Розрахунок параметрів за допомогою нормальних рівнянь
w = np.linalg.inv(X.T @ X) @ X.T @ y

# Виведення параметрів
print(f'Coefficients: {w[1:]}')
print(f'Intercept: {w[0]}')

Coefficients: [3.78762754e+02 1.38604950e+06 4.06820034e+05]
Intercept: -173171.60763263045


порівняйте отримані результати.

In [14]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Завантаження даних
data = pd.read_csv('Housing.csv')

# Вибір ознак та цільової змінної
X = data[['area', 'bathrooms', 'bedrooms']]
y = data['price']

# Розділення даних на навчальну та тестову вибірки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Ініціалізація та навчання моделі лінійної регресії
model = LinearRegression()
model.fit(X_train, y_train)

# Прогнозування цін на тестовій вибірці
y_pred = model.predict(X_test)

# Оцінка якості моделі
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# Найкращі параметри (вагові коефіцієнти)
coeff_sklearn = model.coef_
intercept_sklearn = model.intercept_

print(f'Coefficients (scikit-learn): {coeff_sklearn}')
print(f'Intercept (scikit-learn): {intercept_sklearn}')

# Підготовка даних для аналітичного рішення
X_train_np = X_train.values
X_train_np = np.hstack([np.ones((X_train_np.shape[0], 1)), X_train_np])
y_train_np = y_train.values

# Розрахунок параметрів за допомогою нормальних рівнянь
w_analytical = np.linalg.inv(X_train_np.T @ X_train_np) @ X_train_np.T @ y_train_np

# Розділення параметрів
intercept_analytical = w_analytical[0]
coeff_analytical = w_analytical[1:]

print(f'Coefficients (analytical): {coeff_analytical}')
print(f'Intercept (analytical): {intercept_analytical}')

Coefficients (scikit-learn): [3.45466570e+02 1.42231966e+06 3.60197650e+05]
Intercept (scikit-learn): 59485.37920871563
Coefficients (analytical): [3.45466570e+02 1.42231966e+06 3.60197650e+05]
Intercept (analytical): 59485.379208710554
