## Машинное обучение

В этом разделе реализованы две базовые модели машинного обучения: линейная
регрессия и метод k-ближайших соседей (k-NN). Линейная регрессия используется
для предсказания числовых значений, при этом коэффициенты подбираются аналитически
через метод наименьших квадратов. Метод k-NN применяется для классификации объектов
на основе их близости к точкам из обучающей выборки: для нового элемента
определяется k ближайших соседей, и класс выбирается большинством голосов.

In [12]:
%use kandy
%use ktor-client

## Линейная регрессия

In [13]:
import org.jetbrains.kotlinx.dataframe.api.dataFrameOf

val xValues = (400..1_000).toList().map { it + Math.random() }
val yValues = xValues.map { (Math.random() * (Math.random() - 0.5)) * 1_000 + it }

val data = dataFrameOf("x" to xValues, "y" to yValues)

plot(data) {
  points {
    x("x")
    y("y")
  }
}

Сначала нужно найти середину, через эту точку будут проходить все возможные линии регрессии

In [14]:
val averageX = xValues.sum() / xValues.size
val averageY = yValues.sum() / yValues.size

plot(data) {
  points {
    x("x")
    y("y")
  }

  hLine {
    yIntercept.constant(averageY)
    color = Color.GREEN
  }

  vLine {
    xIntercept.constant(averageX)
    color = Color.GREEN
  }
}

Теперь методом наименьших квадратов находим коэффициент наклона линии регрессии

$$
k = \frac{\displaystyle \sum_{i=1}^n [(x_i - \overline{x})(y_i - \overline{y})]}{\displaystyle \sum_{i=1}^n (x_i - \overline{x})^2}
$$

In [15]:
fun linearRegression(): Double {
  val numerator = xValues.zip(yValues).sumOf { (x, y) ->
    (x - averageX) * (y - averageY)
  }

  val denominator = xValues.sumOf { (it - averageX).pow(2) }

  return numerator / denominator
}

linearRegression() // главное чтобы denominator не был 0

1.0859383960902627

Теперь подставляем минимум и максимум X, Y в уравнение регрессии

In [16]:
plot(data) {
  points {
    x("x")
    y("y")
  }

  val k = linearRegression()

  line {
    x(xValues)
    y(xValues.map { it * k })

    color = Color.GREEN
    width = 5.0
  }
}

## Классификация: Дерево решений

Дерево решений — это один из самых интуитивно понятных и широко используемых алгоритмов машинного обучения для задач классификации. Оно представляет собой древовидную структуру, где каждый внутренний узел — это проверка некоторого признака, каждая ветвь — результат этой проверки, а каждый лист — итоговая категория (класс). Алгоритм строит дерево, последовательно разбивая обучающую выборку на подмножества, стремясь максимизировать чистоту (гомогенность) этих подмножеств по целевой переменной. Наиболее часто используемые критерии разделения — это энтропия (в рамках ID3) и индекс Джини (в CART).

Основное преимущество деревьев решений — их интерпретируемость: модель легко визуализировать, объяснять и отлаживать. Однако, при всех своих плюсах, одиночные деревья склонны к переобучению, особенно если они слишком глубоки.

## K-ближайших соседей

In [17]:
data class Point(
  val x: Double,
  val y: Double,
  val label: String
)

In [18]:
val data = buildList {
  repeat(20) {
    add(Point(Math.random() * 2 + 1, Math.random() * 2 + 1, "A"))
    add(Point(Math.random() * 2 + 4, Math.random() * 2 + 4, "B"))
  }
}

val target = Point(3.5, 3.5, "?")

In [19]:
fun distance(
  p1: Point,
  p2: Point
) =
  sqrt((p1.x - p2.x).pow(2) + (p1.y - p2.y).pow(2))

In [20]:
fun classifyKNN(
  data: List<Point>,
  target: Point,
  k: Int
): String = data
  .map { it to distance(it, target) }
  .sortedBy { it.second }
  .take(k)
  .groupingBy { it.first.label }
  .eachCount()
  .maxByOrNull { it.value }
  ?.key ?: "?"

In [21]:
val k = 5
val predicted = classifyKNN(data, target, k)

plot {
  points {
    x(data.map { it.x })
    y(data.map { it.y })
    color(data.map { it.label })
    size = 6.0
  }

  points {
    x(listOf(target.x))
    y(listOf(target.y))
    color(listOf(predicted))
    size = 10.0
    symbol = Symbol.TRIANGLE
  }
}

## Типы машинного обучения

**Обучение с учителем (Supervised Learning)**

Алгоритму даются _входные данные_ и _правильные ответы_ (метки классов или числовые значения). Модель учится находить зависимость между ними.

1. Классификация (например, спам/не спам)
2. Регрессия (например, предсказание цены квартиры)


**Обучение без учителя (Unsupervised Learning)**

Алгоритм получает только _входные данные_, но без ответов. Модель пытается найти структуру или закономерности в данных.

1. Кластеризация (группировка по похожести)
2. Снижение размерности (например, PCA)
3. Поиск аномалий


**Обучение с подкреплением (Reinforcement Learning)**

Агент действует _в среде_, получает награды за хорошие действия и штрафы за плохие. Цель — научиться стратегии, максимизирующей общую награду.

1. Игра в шахматы/Go
2. Управление роботами
3. Рекомендательные системы, где важна последовательность действий