## Машинное обучение

...

In [1]:
%use kandy
%use ktor-client

## Линейная регрессия

In [107]:
import org.jetbrains.kotlinx.dataframe.api.dataFrameOf

val xValues = (0..1_000).toList().map { it + Math.random() }
val yValues = xValues.map { (Math.random() * (Math.random() - 0.5)) * 1_000 + it }

val data = dataFrameOf("x" to xValues, "y" to yValues)

plot(data) {
  points {
    x("x")
    y("y")
  }
}

Сначала нужно найти середину, через эту точку будут проходить все возможные линии регрессии

In [108]:
val averageX = xValues.sum() / xValues.size
val averageY = yValues.sum() / yValues.size

plot(data) {
  points {
    x("x")
    y("y")
  }

  hLine {
    yIntercept.constant(averageY)
    color = Color.GREEN
  }

  vLine {
    xIntercept.constant(averageX)
    color = Color.GREEN
  }
}

Теперь методом наименьших квадратов находим коэффициент наклона линии регрессии

$$
k = \frac{\displaystyle \sum_{i=1}^n [(x_i - \overline{x})(y_i - \overline{y})]}{\displaystyle \sum_{i=1}^n (x_i - \overline{x})^2}
$$

In [128]:
fun linearRegression(): Double {
  val numerator = xValues.zip(yValues).sumOf { (x, y) ->
    (x - averageX) * (y - averageY)
  }

  val denominator = xValues.sumOf { (it - averageX).pow(2) }

  return numerator / denominator
}

linearRegression() // главное чтобы denominator не был 0

0.9971703484520333

Теперь подставляем минимум и максимум X, Y в уравнение регрессии

In [129]:
fun predict(x: Double): Double {
  return linearRegression() * x + averageY - linearRegression() * averageX
}

In [130]:
plot(data) {
  points {
    x("x")
    y("y")
  }

  line {
    x(xValues)
    y(xValues.map(::predict))

    color = Color.GREEN
    width = 5.0
  }
}