In [2]:
import numpy as np

import turtle

# Интерактивная демонстрация линейной регрессии, переобучения, полиномиальных и тригонометрических признаков

## Ставим точки, пускаем через них кривую

In [3]:
def one_term(x, t):  # здесь задаём вид аппроксимации
    return x**t  # многочлен

In [4]:
def one_row(x, n_terms):  # размножаем вширь до ширины n_terms
    return np.array([one_term(x, t) for t in range(n_terms)])

In [5]:
def create_lsm_matrix(a, n):  # lsm - least squares method
    xy = np.array(a)
    x = xy[:, 0].reshape(-1, 1)
    y = xy[:, 1].reshape(-1, 1)
    return np.concatenate(one_row(x, n), axis=1), y 

In [35]:
def draw_points(a):
    turtle.up()
    turtle.clear()
    
    for point in a:
        turtle.pencolor((0, 0, 0))
        real_point = tuple(t*100 for t in point)
        turtle.goto(*real_point)  # переходим в точку, в которую раньше кликнули
        turtle.dot()  # ставим отметку


def draw_approximation(a):  # a - массив пар (x, y)
    n_terms = 6 # количество слагаемых полинома (степень = deg - 1 !!!). Чем больше, тем легче переобучиться
    print(a)
    b, y = create_lsm_matrix(a, n_terms)  

    btb = b.T.dot(b)
    print ('deg = ', n_terms - 1, ' npoints =', len(a), 'det =', np.linalg.det(btb))
    poly = np.linalg.inv(btb).dot(b.T.dot(y))

    minx = min(t[0] for t in a) - 1
    maxx = max(t[0] for t in a) + 1
    d = maxx - minx

    turtle.color((0, 1, 0))
    for sx in range(int(100*(minx - d/2)), int(100*(maxx + d/2))):  # sx - screen x, в 100 раз больше
        x = (float(sx)/100)
        y = one_row(x, n_terms).dot(poly)[0]
        approx_point = (sx, y*100)
        turtle.goto(*approx_point)
        turtle.down()

        
class MyPoints(object):
    def __init__(self):
        self.dat = []
    def my_click(self,x,y):
        self.dat.append((x/100,y/100))
        draw_points(self.dat)
        if len(self.dat) > 1:
            draw_approximation(self.dat)            

In [37]:
points = MyPoints()  # здесь хранятся точки

turtle.getscreen().onclick(points.my_click)  # если кликнули, добавить ещё одну точку
turtle.tracer(0)  # не тратить время на анимацию
turtle.mainloop()  # появляется окно, куда можно кликать. Если выполнилось с ошибкой, исполнить ячейку ещё раз

[(-3.7, -0.17), (1.65, 0.95)]
deg =  5  npoints = 2 det = 0.6923835608015494 shape = (6, 6)
[(-3.7, -0.17), (1.65, 0.95), (4.16, 0.23)]
deg =  5  npoints = 3 det = 4713487.708931805 shape = (6, 6)
[(-3.7, -0.17), (1.65, 0.95), (4.16, 0.23), (5.82, 0.47)]
deg =  5  npoints = 4 det = 4315701613499.701 shape = (6, 6)
[(-3.7, -0.17), (1.65, 0.95), (4.16, 0.23), (5.82, 0.47), (7.07, 0.7)]
deg =  5  npoints = 5 det = 4.372488950267246e+16 shape = (6, 6)
[(-3.7, -0.17), (1.65, 0.95), (4.16, 0.23), (5.82, 0.47), (7.07, 0.7), (8.28, 0.58)]
deg =  5  npoints = 6 det = 5.976289855248678e+18 shape = (6, 6)
[(-3.7, -0.17), (1.65, 0.95), (4.16, 0.23), (5.82, 0.47), (7.07, 0.7), (8.28, 0.58), (-6.74, -2.1)]
deg =  5  npoints = 7 det = 3.3400831802284234e+23 shape = (6, 6)


# Упражнения

## Исподвыподверт с недопереобучением

* Для количеств слагаемых многочлена n_terms = 3, 6, 9 ставить точки и смотреть, как проходит аппроксимация
* По отладочному выводу выдвинуть гипотезу о зависимости качества аппроксимации от количества точек, причине плохого качества аппроксимации
* Когда аппроксимация в точности проходит через наши точки?

### Выводы:

## Регулярные занятия - залог успеха

Добавить регуляризацию с $\lambda = 10^{-10}, 10^{-5}, 10^{-3}, 10^{-1}, 1 $
* повторить предыдущее упражнение
* Как и что изменилось?
* Какое значение $\lambda$ лучше всего? Почему?
### Выводы:

## Учёный малый, но педант
### Уже понятно, когда аппроксимация в точности проходит через точки. Хорошо ли это?

* Изменить строчку n_terms так, чтобы аппроксимация всегда проходила через поставленные точки
* Попробовать "на глаз" поставить много (> 10) точек на параболу. Похожа ли на параболу аппроксимация?
* Сделать то же самое при трёх слагаемых

### Выводы:

## Fourier's Fury

### Заменить полиномиальные признаки на тригонометрические

* Внести изменения в one_term
* Учесть, что для полноты чувств неплохо ставить на чётные места косинусы, на нечётные - синусы
* В одном месте в функцию one_term передаётся скалярное значение, в другом - вектор. Нужно чтобы работало и там и там. numpy рулит

## Совсем факультатив

### Пофиксить мерзкую ошибку
* Ячейка с turtle.mainloop выдаёт ошибку из-за того что не вызывается метод закрытия окна при нажатии на крестик
* нагуглить правильное завершение turtle.mainloop(), вставить корректный обработчик