In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import random
from IPython.display import display, Math

# Псевдокод для алгоритма линейной регрессии (геометрический)

**Входные данные** — набор точек на плоскости.  
**Результат** — прямая, проходящая близко к точкам.  
**Процедура:**

1. Выберите случайную прямую.
2. Повторяйте многократно:
   - выберите случайную точку данных;
   - переместите прямую немного ближе к ней.

**Возврат** — полученная прямая

---
Определение некоторых переменных:
- $p$ — цена дома в наборе данных;
- $\hat{p}$ — прогнозируемая цена дома;
- $r$ — количество комнат;
- $m$ — цена за комнату;
- $b$ — базовая цена за дом.

**Модель прогнозирования цены дома:**

$$
\hat{p} = m \cdot r + b
$$

Где:
- $r$ — количество комнат (входной параметр)
- $m = 50$ (цена за комнату)
- $b = 100$ (базовая цена)
- $\hat{p}$ — прогнозируемая цена (выход функции)

In [2]:
def calc_house_price(r):
    """
    Прогнозирует цену дома на основе количества комнат.
    Параметры:
        r (int): количество комнат.
    Возвращает:
        float: прогнозируемая цена.
    """
    m = 50  # цена за комнату
    b = 100  # базовая цена
    p_hat = m * r + b  # прогнозируемая цена
    return p_hat

# Пример вызова:
print(calc_house_price(4))

300


# Псевдокод для алгоритма линейной регрессии

**Входные данные** — набор данных точек.  
**Результат** — модель линейной регрессии, соответствующая этому набору данных.  
**Процедура:**

1. Выберите модель со случайными весами и случайным смещением.
2. Повторяйте многократно:
   - выберите случайную точку данных;
   - слегка отрегулируйте веса и смещение, чтобы улучшить прогноз для конкретной точки данных.

**Возврат** — полученная модель.

| Аспект               | Геометрический алгоритм                          | Классический алгоритм               |
|----------------------|-------------------------------------------------|-------------------------------------|
| **Представление**     | Работа с прямой на плоскости                    | Работа с весами модели ($w$, $b$)   |
| **Инициализация**     | Случайная прямая ($y = mx + b$)                 | Случайные веса ($w$) и смещение ($b$)|
| **Шаг обучения**      | Перемещение прямой ближе к точке                | Корректировка весов и смещения      |
| **Когда использовать**| Для наглядного объяснения                       | Для реальных ML-задач               |

## Простой подход для перемещения прямой ближе к набору точек, по одной точке за раз

Метод состоит в том, чтобы слегка повернуть и переместить прямую в направлении точки и тем самым сблизить их.  
Итак, вот четыре сценария:
| **📌 Сценарий** | **📍 Положение точки**       | **🔄 Направление вращения**      | **📤 Перемещение прямой** |
|--------------|---------------------------|-------------------------------|------------------------|
| 1            | 🔴**Над** прямой, 🟡**справа** от оси $Y$ | 🔵**Против** часовой стрелки       | ⏫Вверх                  |
| 2            | 🔴**Над** прямой, 🟣**слева** от оси $Y$  | 🟠**По** часовой стрелке           | ⏫Вверх                  |
| 3            | 🟢**Под** прямой, 🟡**справа** от оси $Y$ | 🟠**По** часовой стрелке           | ⬇️Вниз                   |
| 4            | 🟢**Под** прямой, 🟣**слева** от оси $Y$  | 🔵**Против** часовой стрелки       | ⬇️Вниз                   |

---
Уравнение прямой: $ y = m \cdot x + b $,

где
- $m$ — наклон;
- $b$ — $Y$-пересечение.

В примере с жильём использовали аналогичную нотацию:
- точка с координатами $(r, p)$ соответствует дому с $r$ комнатами и ценой $p$;
- наклон $m$ соответствует цене за комнату;
- $y$-пересечение $b$ соответствует базовой цене дома;
- прогноз $ \hat{p} = m \cdot r + b $ соответствует прогнозируемой цене дома

## Псевдокод для простого подхода

**Входные данные:**
1. линия с наклоном $m$, $Y$-пересечением $b$ и уравнением $ \hat{p} = m \cdot r + b $
2. точка с координатами $(r, p)$.

**Результат** — линия $ \hat{p} = m' \cdot r + b' $, которая ближе к точке.

---

**Процедура:**  
- Выберите два очень маленьких случайных числа и назовите их  $ \eta_1 $ и $ \eta_2 $ (греческая буква *«эта»*).

- **Сценарий 1.** Если точка находится 🔴**над** прямой и 🟡**справа** от оси $Y$, вращаем прямую 🔵**против** часовой стрелки и перемещаем ее ⏫**вверх**:
  1. ➕Добавляем $ \eta_1 $ к наклону $m$, получаем $ m' = m + \eta_1 $
  2. ➕Добавляем $ \eta_2 $ к $Y$-пересечению $b$, получаем $ b' = b + \eta_2 $

- **Сценарий 2.** Если точка находится 🔴**над** прямой и 🟣**слева** от оси $Y$, вращаем прямую 🟠**по** часовой стрелке и перемещаем ее ⏫**вверх**:
  1. ➖Вычитаем $ \eta_1 $ из наклона $m$, получаем $ m' = m - \eta_1 $  
  2. ➕Добавляем $ \eta_2 $ к $Y$-пересечению $b$, получаем $ b' = b + \eta_2 $  

- **Сценарий 3.** Если точка находится 🟢**под** прямой и 🟡**справа** от оси $Y$, вращаем прямую 🟠**по** часовой стрелке и перемещаем ее ⬇️**вниз**:
  1. ➖Вычитаем $ \eta_1 $ из наклона $m$, получаем $ m' = m - \eta_1 $  
  2. ➖Вычитаем $ \eta_2 $ из $Y$-пересечения $b$, получаем $ b' = b - \eta_2 $  

- **Сценарий 4.** Если точка находится 🟢**под** прямой и 🟣**слева** от оси $Y$, вращаем прямую 🔵**против** часовой стрелки и перемещаем ее ⬇️**вниз**:
  1. ➕Добавляем $ \eta_1 $ к наклону $m$, получаем $ m' = m + \eta_1 $  
  2. ➖Вычитаем $ \eta_2 $ из $Y$-пересечения $b$, получаем $ b' = b - \eta_2 $

**Возврат** — прямая $ \hat{p} = m' \cdot r + b' $

---

Поскольку координата $x$ — количество комнат, это число **не может быть отрицательным**.  
Таким образом, здесь важны только сценарии 1 и 3.

---

## Квадратический подход — более умный способ приблизить прямую к одной из точек

**Вывод 1: Корректировка смещения (Y-пересечения)**  
Если добавить разность $( p - \hat{p} )$ к смещению $( b )$, прямая будет двигаться к точке, так как:  
- $( p - \hat{p} > 0 $) (точка **выше** прямой) → смещение **увеличивается** (линия сдвигается вверх).  
- $( p - \hat{p} < 0 $) (точка **ниже** прямой) → смещение **уменьшается** (линия сдвигается вниз).  

Однако в машинном обучении шаги должны быть небольшими, поэтому вводится **скорость обучения** $( \eta )$:  
$$
b_{\text{новое}} = b + \eta \cdot (p - \hat{p})
$$


**Вывод 2: Корректировка наклона (веса признака)**  
Рассмотрим величину $( r \cdot (p - \hat{p}) )$:  
- **Положительна** в сценариях 1 и 4 (точка справа/слева и выше/ниже прямой).  
- **Отрицательна** в сценариях 2 и 3 (точка слева/справа и выше/ниже прямой).  

Таким образом, добавление $( \eta \cdot r \cdot (p - \hat{p}) )$ к наклону $( m )$ всегда приближает прямую к точке:  
$$
m_{\text{новое}} = m + \eta \cdot r \cdot (p - \hat{p})
$$

**Итоговые правила обновления:**
$$
\begin{cases}
m' = m + \eta \cdot r \cdot (p - \hat{p}), \\
b' = b + \eta \cdot (p - \hat{p}).
\end{cases}
$$

**Пояснение:**   
- $( \eta )$ (эта) — скорость обучения, малая константа (например, 0.01).  
- $( p - \hat{p} )$ — ошибка прогноза (разница между истинным и предсказанным значениями).  
- Множитель $( r )$ масштабирует влияние признака на корректировку.

## Псевдокод для квадратического подхода

**Входные данные:**
1. прямая с наклоном $m$, $Y$-пересечением $b$ и уравнением $ \hat{p} = m \cdot r + b $
2. точка с координатами $(r, p)$;
3. небольшое положительное значение (скорость обучения).

**Результат** — прямая $ \hat{p} = m' \cdot r + b' $, которая находится ближе к точке.

---

**Процедура:**  
- Добавляем $ \eta \cdot r \cdot (p - \hat{p}) $ к наклону $m$, получаем $ m' = m + \eta \cdot r \cdot (p - \hat{p}) $ (при этом прямая вращается).
- Добавляем $ \eta \cdot (p - \hat{p}) $ к $Y$-пересечению $b$, получаем $ b' = b + \eta \cdot (p - \hat{p}) $ (это перемещает прямую).

**Возврат** — прямая $ \hat{p} = m' \cdot r + b' $.

## Код для простого подхода

In [3]:
def simple_trick(base_price, price_per_room, num_rooms, price):
    """Простой метод корректировки весов и смещения."""
    small_random_1 = random.random() * 0.1
    small_random_2 = random.random() * 0.1

    predicted_price = base_price + price_per_room * num_rooms

    if price > predicted_price and num_rooms > 0:
        price_per_room += small_random_1
        base_price += small_random_2

    if price > predicted_price and num_rooms < 0:
        price_per_room -= small_random_1
        base_price += small_random_2

    if price < predicted_price and num_rooms > 0:
        price_per_room -= small_random_1
        base_price -= small_random_2

    if price < predicted_price and num_rooms < 0:
        price_per_room -= small_random_1
        base_price += small_random_2

    return price_per_room, base_price

## Код для абсолютного подхода

In [4]:
def absolute_trick(base_price, price_per_room, num_rooms, price, learning_rate):
    """Метод, минимизирующий абсолютную ошибку."""
    predicted_price = base_price + price_per_room * num_rooms

    if price > predicted_price:
        price_per_room += learning_rate * num_rooms
        base_price += learning_rate

    else:
        price_per_room -= learning_rate * num_rooms
        base_price -= learning_rate

    return price_per_room, base_price

## Код для квадратического подхода

In [5]:
def square_trick(base_price, price_per_room, num_rooms, price, learning_rate):
    """Метод, минимизирующий среднеквадратичную ошибку."""
    predicted_price = base_price + price_per_room * num_rooms  # вычисляет прогноз
    error = price - predicted_price
    base_price += learning_rate * error # перемещает прямую
    price_per_room += learning_rate * num_rooms * error  # вращает прямую
    return price_per_room, base_price

# Алгоритм линейной регрессии. Многократное повторение абсолютного или квадратического подхода для приближения прямой к точкам

Этот алгоритм принимает в качестве входных данных набор точек и возвращает прямую, которая хорошо им соответствует.  
Он состоит в том, чтобы начать со случайных значений для существующих наклона и y-пересечения, а затем многократно повторять процедуру их обновления с использованием абсолютного или квадратического подхода.

In [6]:
def linear_regression(features, labels, learning_rate=0.01, epochs=1000, trick='square'):
    # генерируем случайные значения для наклона и y-пересечения
    price_per_room = random.random()
    base_price = random.random()

    # повторяем шаг обновления много раз
    for epoch in range(epochs):
        i = random.randint(0, len(features) - 1)  # выбираем случайную точку в наборе данных

        num_rooms = features[i]
        price = labels[i]

        if trick == 'square':
            # применяем квадратический подход
            price_per_room, base_price = square_trick(base_price,
                                                      price_per_room,
                                                      num_rooms,
                                                      price,
                                                      learning_rate=learning_rate)
    return price_per_room, base_price

# Загрузка данных и построение их графика

In [7]:
# Данные
features = np.array([1, 2, 3, 5, 6, 7])
labels = np.array([155, 197, 244, 356, 407, 448])

In [8]:
# График с итоговой прямой регрессии
final_slope, final_intercept = linear_regression(features, labels, epochs=10000)

plt.figure(figsize=(12, 4))
draw_line(final_slope, final_intercept, start=0, end=8)
plot_points(features, labels)
plt.title('Линейная регрессия: Итоговая модель', fontsize=14)
plt.xlabel('Количество комнат', fontsize=12)
plt.ylabel('Цена', fontsize=12)
plt.xlim(0, 8)
plt.ylim(0, 550)
plt.show()

NameError: name 'draw_line' is not defined

<Figure size 1200x400 with 0 Axes>

In [None]:
# Функция для прогнозирования и вывода уравнения
def predict_and_show_equation(features, labels, learning_rate=0.01, epochs=10000):
    slope, intercept = linear_regression(features, labels, learning_rate, epochs)

    # Вывод уравнения в LaTeX (используем сырую строку `r` для корректного отображения)
    display(Math(rf'\hat{{p}} = {intercept:.2f} + {slope:.2f} \cdot r'))

    # Функция для прогнозирования
    def predict(rooms_count):
        return intercept + slope * rooms_count

    # Пример прогноза
    print("\nПример прогноза для 4 комнат:")
    print(f"Предсказанная цена: {predict(4):.2f}")

    return predict

In [None]:
# Использование
model = predict_and_show_equation(features, labels)

# Функции ошибок

In [None]:
def rmse(labels, predictions):
    """Корень из средней квадратичной ошибки."""
    differences = np.subtract(labels, predictions)
    return np.sqrt(np.mean(differences ** 2))