# Лекция 1: Введение в машинное обучение

## Постановка основных типов задач в машинном обучении

Машинное обучение (ML) — это область искусственного интеллекта, которая разрабатывает алгоритмы и модели, позволяющие программам изучать закономерности в данных и принимать решения на основе полученного опыта. 

В основе ML лежит идея: вместо того чтобы задавать каждому шагу алгоритма **точную инструкцию**, мы предоставляем системе данные, и она самостоятельно находит **универсальные правила** для решения поставленных задач.

Если рассматривать задачи с точки зрения процесса обучения, методы могут быть разделены на три категории:
- **Обучение с учителем (Supervised Learning):** при наличии разметки – каждому входному примеру сопоставляется метка или целевое значение.
- **Обучение без учителя (Unsupervised Learning):** данные не размечены, и задача заключается в выявлении скрытой структуры или закономерностей в данных.
- **Обучение с подкреплением (Reinforcement Learning, RL):** Добавлен механизм влияния на процесс обучения модели из "окружающего мира".

Если рассматривать задачи с точки зрения конечной цели, можно выделить две основные категории:
- **Дискриминативные задачи:** направлены на разделение данных, предсказание меток или регрессию. Примерами являются классификация и регрессия. Моделируют зависимость вида $ p(y \mid x) $. Цель таких моделей – предсказывать метки или значения на основе входных признаков, не пытаясь смоделировать сам процесс генерации данных.
- **Генеративные задачи:** целятся в изучение и моделирование полного распределения данных, что позволяет генерировать новые, «реалистичные» примеры, аналогичные исходным. Моделируют совместное распределение $ p(x, y) $ (или просто $ p(x) $ в случае отсутствия меток) и, таким образом, способны генерировать новые данные, похожие на исходные, а также могут использоваться для решения задач классификации через вычисление условных вероятностей. Примеры — генерация текста, изображений, музыки и т.д.

Рассмотрим постановку основных типов задач машинного обучения, а именно: **классификацию**, **регрессию** и **кластеризацию**.

<img src="https://www.researchgate.net/profile/Ameer-Kwekha-Rashid-2/publication/351793676/figure/fig1/AS:1026865322016771@1621835179569/Overview-of-machinelearning-types-and-tasks.png" alt="Описание изображения" width="800">

### Классификация

#### Суть задачи:
Классификация применяется, когда необходимо распределить объекты по заранее определённым категориям. В обучающей выборке каждый объект сопровождается меткой класса, что позволяет модели изучить характерные особенности каждого класса и впоследствии использовать их для распознавания новых данных.

#### Постановка задачи:
Допустим, у нас имеется обучающая выборка:
$$
\mathcal{D} = \{ (\mathbf{x}_i, y_i) \}_{i=1}^N,
$$
где $\mathbf{x}_i \in \mathbb{R}^d$ — вектор признаков, а $y_i \in \{1, 2, \dots, K\}$ — метка класса.

#### Примеры:
- **Распознавание рукописных цифр:** например, набор данных MNIST, где изображенные цифры нужно отнести к соответствующим числам.
- **Фильтрация спама:** классификация электронных писем на "спам" и "не спам".
- **Распознавание образов:** определение типа объекта на изображении (кот, собака, автомобиль и т.д.).

<img src="https://lh7-rt.googleusercontent.com/docsz/AD_4nXdEee4iKUeq_HmcuU79jWcMxMd0p9G_EejMTT7r6zU0aLg0FtunGvxUh7emGC1YuaFNvFF6H6fZBjqCmv_4jLxYzFZkzzNlmLAKWtcnwvKNvLYQJhw9E0qc1h0HNufo7dHnSHMZtHRTe1RavB-IIMJt7gNx?key=IbqRKL5SySsVffR6LRm6IA" alt="Описание изображения" width="500">

### Регрессия

#### Суть задачи:
Регрессия направлена на предсказание непрерывной величины. Здесь модель изучает зависимость между входными признаками и непрерывным выходом, пытаясь минимизировать ошибку между предсказанными и истинными значениями.

#### Постановка задачи:
Рассмотрим обучающую выборку вида:
$$
\mathcal{D} = \{ (\mathbf{x}_i, y_i) \}_{i=1}^N,
$$
где $\mathbf{x}_i \in \mathbb{R}^d$ — вектор признаков, а $y_i \in \mathbb{R}$ — непрерывное значение, которое требуется предсказать (тоже может быть многомерным).

#### Примеры:
- **Прогнозирование цен:** например, оценка рыночной стоимости недвижимости или прогнозирование цен акций.
- **Физические прогнозы:** определение физических параметров системы по различным показателям.
- **Временные ряды:** прогнозирование на основе исторических данных.

<img src="https://images.javatpoint.com/tutorial/machine-learning/images/types-of-regression2.png" alt="Описание изображения" width="500">

### Кластеризация

#### Суть задачи:
Кластеризация относится к методам обучения без учителя. Здесь задача состоит в группировке объектов на основании их сходства, при этом данные не размечены заранее. Кластеризация позволяет автоматически выявлять скрытые структуры и паттерны в данных.

#### Постановка задачи:
Пусть имеется набор объектов без меток:
$$
\mathcal{D} = \{ \mathbf{x}_i \}_{i=1}^N, \quad \mathbf{x}_i \in \mathbb{R}^d.
$$
Задача кластеризации заключается в разделении объектов на $K$ групп, таких что объекты внутри одной группы максимально похожи друг на друга, а объекты разных групп — существенно различаются. При этом в части методов $K$ не задается наперед.

#### Примеры:
- **Сегментация клиентов:** выделение групп потребителей с похожим поведением или интересами.
- **Группировка документов:** автоматическое распределение текстов по темам.
- **Обнаружение аномалий:** обнаружение выбросов или аномальных объектов в наборе данных.

<img src="https://media.geeksforgeeks.org/wp-content/uploads/merge3cluster.jpg" alt="Описание изображения" width="800">

## Примеры

### Классификация

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.linear_model import LogisticRegression

import warnings
warnings.filterwarnings('ignore')

iris = datasets.load_iris()
X = iris.data[:, [2, 3]]
y = iris.target

classifier = LogisticRegression(multi_class='ovr', 
                                solver='lbfgs', 
                                max_iter=200)
classifier.fit(X, y)

x_min, x_max = X[:, 0].min() - 0.5, X[:, 0].max() + 0.5
y_min, y_max = X[:, 1].min() - 0.5, X[:, 1].max() + 0.5
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.01),
                        np.arange(y_min, y_max, 0.01))
grid = np.c_[xx.ravel(), yy.ravel()]
Z = classifier.predict(grid)
Z = Z.reshape(xx.shape)

plt.contourf(xx, yy, Z, 
             alpha=0.3, cmap=plt.cm.Set1)
plt.scatter(X[:, 0], X[:, 1], 
            c=y, edgecolors='k', cmap=plt.cm.Set1)
plt.xlabel('Длина лепестка')
plt.ylabel('Ширина лепестка')
plt.title('Классификация ирисов с помощью Logistic Regression')
plt.show()

#### Задание
1. Используйте `sklearn.datasets.load_wine()` вместо `load_iris`.
2. Измените классификатор на `LogisticRegression()`.
3. Оцените качество модели с помощью `precision`, `recall`, `f1-score`.

### Регрессия

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_regression
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

X, y = make_regression(n_samples=100, n_features=1, noise=10, random_state=42)

model = LinearRegression()
model.fit(X, y)
y_pred = model.predict(X)
print(f"MSE: {mean_squared_error(y, y_pred):.2f}")

plt.scatter(X, y, label='Исходные данные')
sorted_idx = X[:, 0].argsort()
plt.plot(X[sorted_idx], y_pred[sorted_idx],
            color='red', linewidth=2, label='Линия регрессии')
plt.xlabel('Признак')
plt.ylabel('Целевая переменная')
plt.title('Регрессия с использованием Linear Regression')
plt.legend()
plt.show()

#### Задание
1. Используйте `sklearn.datasets.load_diabetes()`.
2. Попробуйте `RandomForestRegressor()`.
3. Сравните MSE и MAE для обеих моделей.

### Кластеризация

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

X, y_true = make_blobs(n_samples=300, centers=3, cluster_std=1.0,
                       random_state=42)

kmeans = KMeans(n_clusters=3, random_state=42)
y_kmeans = kmeans.fit_predict(X)
centers = kmeans.cluster_centers_

plt.figure(figsize=(8, 6))
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=50, cmap='viridis',
            label='Кластеры')
plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, marker='X',
            label='Центроиды', edgecolor='k')
plt.xlabel('Признак 1')
plt.ylabel('Признак 2')
plt.title('Кластеризация с использованием KMeans')
plt.legend()
plt.show()

#### Задание
1. Измените количество кластеров и проанализируйте качество, измеряя его Silhouette Score.
2. Используйте `AgglomerativeClustering()` вместо `KMeans`.
3. Визуализируйте кластеры (например, с помощью `matplotlib`).

## Scientific Machine Learning (SciML) 

**Scientific Machine Learning (SciML)** — это область, объединяющая традиционные методы численного моделирования и машинного обучения (ML) для решения сложных физических задач.  

### Основные направления SciML  
1. **Моделирование физических процессов**:  
   - Решение дифференциальных уравнений (ODE, PDE) с помощью ML.  
   - Ускорение традиционных численных методов.  
2. **Предсказание параметров процесса**:  
   - Вывод физических параметров из данных.  
   - Заменение дорогостоящих экспериментов моделями ML (суррогатное моделирование).  

### Практическое задание: Решение ОДУ с помощью нейронной сети

In [None]:
"""
Пример решения обыкновенного дифференциального уравнения (ОДУ) с помощью
физически информированной нейронной сети (PINN) на основе PyTorch с последующим
сравнением с численным решением из SciPy.

Рассматривается уравнение:
    u'(x) + u(x) = 0,   u(0) = 1.
Аналитическое решение:
    u(x) = exp(-x).

Функция потерь состоит из двух частей:
    1. Потерь по остатку уравнения (MSE(u'(x) + u(x))).
    2. Потерь по начальному условию (MSE(u(0) - 1)).

Оптимизация проводится с использованием алгоритма Adam.
После обучения производится визуализация:
    - предсказанного решения PINN,
    - аналитического решения,
    - численного решения, полученного с помощью scipy.integrate.solve_ivp.
"""

import numpy as np
import matplotlib.pyplot as plt
import torch
import torch.nn as nn
import torch.optim as optim
from scipy.integrate import solve_ivp
from tqdm.notebook import tqdm


class PINN(nn.Module):
    """
    Физически информированная нейронная сеть для приближенного решения ОДУ.
    """
    def __init__(self):
        super(PINN, self).__init__()
        self.hidden1 = nn.Linear(1, 20)
        self.hidden2 = nn.Linear(20, 20)
        self.hidden3 = nn.Linear(20, 20)
        self.out = nn.Linear(20, 1)
        self.activation = nn.Tanh()

    def forward(self, x):
        x = self.activation(self.hidden1(x))
        x = self.activation(self.hidden2(x))
        x = self.activation(self.hidden3(x))
        return self.out(x)


def compute_loss(model, x_colloc, x_ic):
    """
    Вычисляет функцию потерь для PINN.

    Аргументы:
        model (nn.Module): обучаемая модель PINN.
        x_colloc (torch.Tensor): тензор коллокационных точек.
        x_ic (torch.Tensor): тензор для начального условия.

    Возвращает:
        loss (torch.Tensor): суммарное значение функции потерь.
    """
    x_colloc.requires_grad = True
    u_pred = model(x_colloc)

    grad_outputs = torch.ones_like(u_pred)
    du_dx = torch.autograd.grad(
        u_pred, x_colloc,
        grad_outputs=grad_outputs,
        create_graph=True
    )[0]

    # f(x) = u'(x) + u(x)
    f = du_dx + u_pred
    mse_pde = torch.mean(f ** 2)

    # u(0) = 1
    u_ic_pred = model(x_ic)
    mse_ic = torch.mean((u_ic_pred - 1.0) ** 2)

    loss = mse_pde + mse_ic
    return loss


def train(model: nn, 
          optimizer: optim, 
          num_epochs: int, 
          x_colloc: torch.Tensor, 
          x_ic: torch.Tensor):
    """
    Обучает модель PINN.

    Аргументы:
        model (nn.Module): обучаемая модель PINN.
        optimizer (torch.optim.Optimizer): оптимизатор.
        num_epochs (int): количество эпох обучения.
        x_colloc (torch.Tensor): коллокационные точки.
        x_ic (torch.Tensor): точка начального условия.
    """
    for epoch in tqdm(range(num_epochs), desc="Training epochs"):
        optimizer.zero_grad()
        loss = compute_loss(model, x_colloc, x_ic)
        loss.backward()
        optimizer.step()

        if epoch % 1000 == 0:
            print(f"Epoch {epoch:5d}, Loss: {loss.item():.6f}")


model = PINN()
optimizer = optim.Adam(model.parameters(), lr=0.001)

num_epochs = 5000
batch_size = 100

x_colloc = torch.linspace(0, 1, batch_size).view(-1, 1)
x_ic = torch.tensor([[0.0]])

train(model, optimizer, num_epochs, x_colloc, x_ic)

x_test = torch.linspace(0, 1, 100).view(-1, 1)
with torch.no_grad():
    u_pred = model(x_test).cpu().numpy().flatten()
x_test_np = x_test.cpu().numpy().flatten()
u_true = np.exp(-x_test_np)

sol = solve_ivp(lambda t, u: -u, [0, 1], [1.0], t_eval=x_test_np)
u_numerical = sol.y[0]

plt.figure(figsize=(8, 6))
plt.plot(x_test_np, u_true, 'b-', label='Аналитическое решение')
plt.plot(x_test_np, u_pred, 'r--', label='Предсказание PINN')
plt.plot(x_test_np, u_numerical, 'g-.', label='Численное решение (solve_ivp)')
plt.xlabel('x')
plt.ylabel('u(x)')
plt.title("Решение ОДУ: u'(x) + u(x) = 0")
plt.legend()
plt.grid(True)
plt.show()

**Дополнительное задание**: попробуйте изменить архитектуру сети и сравнить результаты.

### Практическое задание: предсказание параметра маятника

In [None]:
"""
Пример оценки гравитационного ускорения g по данным колебаний маятника с
использованием нейронной сети на PyTorch. Здесь мы генерируем синтетические
данные для углов маятника в заданные моменты времени по формуле:

    θ(t) = θ₀ · cos(√g · t)

с добавлением гауссовского шума. Целевая задача — восстановить значение g,
используя в качестве входных данных вектор измеренных значений угла в 50 точках.
Для повышения надежности обучения генерируется набор обучающих примеров.

Архитектура модели — простая полносвязная сеть (MLP) с последовательными слоями,
использующими функцию активации Tanh.

Основные шаги:
    1. Генерация обучающего набора (несколько траекторий маятника с шумом);
    2. Определение модели GravityNet, параметризуемой по размерности входа;
    3. Обучение модели с использованием оптимизатора Adam и функции потерь MSELoss;
    4. Визуализация графика зависимости функции потерь от эпох обучения;
    5. Тестирование модели на чистых и шумовых данных.
"""

import numpy as np
import torch
import torch.nn as nn
import matplotlib.pyplot as plt
from tqdm.notebook import tqdm


def pendulum(t, theta0, g):
    """
    Функция моделирует угловое отклонение маятника в момент времени t при начальном
    отклонении theta0 и гравитационном ускорении g.

    Аргументы:
        t (np.ndarray): Моменты времени.
        theta0 (float): Начальное отклонение.
        g (float): Гравитационное ускорение.

    Возвращает:
        np.ndarray: Вектор углов маятника по времени.
    """
    return theta0 * np.cos(np.sqrt(g) * t)


def generate_dataset(n_samples, t_data, theta0, g, noise_std=0.05):
    """
    Генерирует набор обучающих примеров. Каждый пример представляет собой вектор
    измеренных значений угла маятника с добавлением гауссовского шума.

    Аргументы:
        n_samples (int): Число примеров в обучающем наборе.
        t_data (np.ndarray): Массив моментов времени.
        theta0 (float): Начальное отклонение маятника.
        g (float): Истинное гравитационное ускорение.
        noise_std (float): Стандартное отклонение гауссовского шума.

    Возвращает:
        tuple: Кортеж из numpy массивов (X, y), где X имеет форму (n_samples, len(t_data))
               и y — массив с постоянным значением g.
    """
    X_data, y_data = [], []
    for _ in range(n_samples):
        theta = pendulum(t_data, theta0, g) + np.random.normal(0, noise_std, len(t_data))
        X_data.append(theta)
        y_data.append(g)
    X = np.array(X_data)
    y = np.array(y_data).reshape(-1, 1)
    return X, y


class MLP(nn.Module):
    """
    Простая полносвязная нейронная сеть для оценки гравитационного ускорения g по
    вектору измеренных углов маятника.
    """

    def __init__(self, input_dim):
        """
        Аргументы:
            input_dim (int): Размерность входного вектора (например, 50).
        """
        super(MLP, self).__init__()
        self.net = nn.Sequential(
            nn.Linear(input_dim, 20),
            nn.Tanh(),
            nn.Linear(20, 10),
            nn.Tanh(),
            nn.Linear(10, 1)
        )

    def forward(self, x):
        """
        Прямой проход модели: x -> g_pred

        Аргументы:
            x (torch.Tensor): Входной тензор формы (batch_size, input_dim).

        Возвращает:
            torch.Tensor: Предсказанное значение g для каждого примера.
        """
        return self.net(x)


def train_model(model, optimizer, loss_fn, X_train, y_train, epochs=1000):
    """
    Обучает модель нейронной сети на заданном наборе данных.

    Аргументы:
        model (nn.Module): Обучаемая модель.
        optimizer (torch.optim.Optimizer): Оптимизатор (например, Adam).
        loss_fn (nn.Module): Функция потерь (например, MSELoss).
        X_train (torch.Tensor): Входные данные: тензор формы (n_samples, input_dim).
        y_train (torch.Tensor): Целевая переменная: тензор формы (n_samples, 1).
        epochs (int): Количество эпох обучения.

    Возвращает:
        list: Список значений функции потерь на каждой эпохе.
    """
    losses = []
    for epoch in tqdm(range(epochs), desc="Training epochs"):
        optimizer.zero_grad()
        predictions = model(X_train)
        loss = loss_fn(predictions, y_train)
        loss.backward()
        optimizer.step()
        losses.append(loss.item())
        if epoch % 100 == 0:
            print(f"Epoch {epoch:4d}, Loss: {loss.item():.6f}")
    return losses



theta0 = 1.0 # Начальное отклонение
true_g = 9.8 # Истинное значение гравитационного ускорения
t_data = np.linspace(0, 10, 50)  # 50 моментов времени от 0 до 10 секунд

n_samples = 100
X_np, y_np = generate_dataset(n_samples, t_data, theta0, true_g, noise_std=0.05)

X_train = torch.tensor(X_np, dtype=torch.float32)
y_train = torch.tensor(y_np, dtype=torch.float32)

input_dim = X_train.shape[1]
model = MLP(input_dim)
optimizer = torch.optim.Adam(model.parameters(), lr=0.01)
loss_fn = nn.MSELoss()

epochs = 1000
losses = train_model(model, optimizer, loss_fn, X_train, y_train, epochs=epochs)

plt.figure(figsize=(8, 6))
plt.plot(losses, label="Loss")
plt.xlabel("Эпоха")
plt.ylabel("Значение функции потерь")
plt.title("График сходимости обучения")
plt.legend()
plt.grid(True)
plt.show()

theta_test = pendulum(t_data, theta0, true_g)
X_test = torch.tensor(theta_test.reshape(1, -1), dtype=torch.float32)
predicted_g = model(X_test).item()
print("Предсказанное значение g (без шума):", predicted_g)

theta_test_noisy = (pendulum(t_data, theta0, true_g) 
                    + np.random.normal(0, 0.1, len(t_data)))
X_test_noisy = torch.tensor(theta_test_noisy.reshape(1, -1), 
                            dtype=torch.float32)
predicted_g_noisy = model(X_test_noisy).item()
print("Предсказанное значение g (с шумом):", predicted_g_noisy)

### Практическое задание: обучение PINN для уравнения теплопроводности

In [11]:
!pip install deepxde -q

In [None]:
"""
Пример решения уравнения теплопроводности с помощью PINN (DeepXDE)
с расширенной и качественной визуализацией результатов.

Уравнение имеет вид:
    u_t - α u_xx = 0,
где α = 0.1, область по x ∈ [0,1] и t ∈ [0,2].

Граничные условия:
    u(x,t) = 0  на границе (при x = 0 и x = 1),
начальное условие:
    u(x,0) = sin(π x).

Аналитическое решение:
    u(x,t) = sin(π x) * exp( -α π² t ).
После обучения модели выводится визуализация:
  - Контурная карта предсказанного решения,
  - Контурная карта аналитического решения,
  - Контурная карта абсолютной ошибки между аналитическим решением и предсказанием.
"""

import deepxde as dde
import numpy as np
import matplotlib.pyplot as plt


def heat_eq(x, u):
    du_t = dde.grad.jacobian(u, x, i=0, j=1)  # du/dt
    du_xx = dde.grad.hessian(u, x, i=0, j=0)    # du/dx
    return du_t - 0.1 * du_xx  # α = 0.1

# x ∈ [0, 1], t ∈ [0, 2]
geom = dde.geometry.Interval(0, 1)
timedomain = dde.geometry.TimeDomain(0, 1)
geomtime = dde.geometry.GeometryXTime(geom, timedomain)

# Boundary condition: u = 0 на границе области (при любом t)
bc = dde.icbc.DirichletBC(geomtime, 
                          lambda x: 0, lambda _, on_boundary: on_boundary)

# Initial condition: u(x,0) = sin(πx)
ic = dde.icbc.IC(
    geomtime,
    lambda x: np.sin(np.pi * x[:, 0:1]),
    lambda _, on_initial: on_initial,
)

net = dde.nn.FNN([2, 20, 20, 1], "tanh", "Glorot normal")
data = dde.data.TimePDE(geomtime, heat_eq, [bc, ic], 
                        num_domain=1000, 
                        num_boundary=100, 
                        num_initial=100, 
                        num_test=1000)
model = dde.Model(data, net)

model.compile("adam", lr=0.001)
losshistory, train_state = model.train(epochs=5000)

x = np.linspace(0, 1, 101)
t = np.linspace(0, 2, 101)
X, T = np.meshgrid(x, t)
XT = np.hstack((X.flatten()[:, None], T.flatten()[:, None]))

u_pred = model.predict(XT)
u_pred = u_pred.reshape(X.shape)

u_exact = np.sin(np.pi * X) * np.exp(-0.1 * (np.pi**2) * T)

error = np.abs(u_exact - u_pred)

fig = plt.figure(figsize=(18, 5))

ax1 = fig.add_subplot(1, 3, 1)
contour1 = ax1.contourf(X, T, u_pred, 100, cmap="viridis")
ax1.set_title("Предсказанное решение PINN")
ax1.set_xlabel("x")
ax1.set_ylabel("t")
fig.colorbar(contour1, ax=ax1)

ax2 = fig.add_subplot(1, 3, 2)
contour2 = ax2.contourf(X, T, u_exact, 100, cmap="viridis")
ax2.set_title("Аналитическое решение")
ax2.set_xlabel("x")
ax2.set_ylabel("t")
fig.colorbar(contour2, ax=ax2)

ax3 = fig.add_subplot(1, 3, 3)
contour3 = ax3.contourf(X, T, error, 100, cmap="hot")
ax3.set_title("Абсолютная ошибка |u_exact - u_pred|")
ax3.set_xlabel("x")
ax3.set_ylabel("t")
fig.colorbar(contour3, ax=ax3)

plt.suptitle("Результаты решения уравнения теплопроводности методом PINN", 
             fontsize=16)
plt.tight_layout(rect=[0, 0.03, 1, 0.95])
plt.show()