# Regresja liniowa (aproksymacja średniokwadratowa)

* Czytanka: Kincaid, Cheney rozdz. 12 ("Smoothing of data and the method of least squares."), str. 495
* [Fajny tutorial od podstaw](https://machinelearningmastery.com/simple-linear-regression-tutorial-for-machine-learning/)
* [Kontynuacja tegoż tutorialu](https://machinelearningmastery.com/implement-simple-linear-regression-scratch-python/)

#### Pytania:
* po co się stosuje regresję liniową?
* w jakich problemach/dziedzinach jest przydatna?
* (*) na co trzeba uważać?

### Krótkie objaśnienie
Mając jakieś dane niejednokrotnie potrzebujemy je "wyjaśnić", tj. znaleźć model matematyczny, który w wygodny sposób opisze te dane. Celem jest łatwiejsza analiza, kompresja, predykcja, etc. W szczególności, wiele danych wykazuje pewną liniowość: dla uproszczenia zajmiemy się funkcjami `R -> R` (np. zależność ceny domu od jego powierzchni), ale oczywiście regresja liniowa zadziała też dla danych o większej ilości wymiarów.

Ogólna zasada: mamy dany zbiór punktów `{(x_i, y_i)}`, chcemy znaleźć takie parametry `a` i `b`, żeby funkcja `y = f(x) = ax + b` jak najlepiej przybliżała nasze dane.

Co to znaczy, że funkcja "dobrze przybliża dane"? Bardzo intuicyjnie: oznacza to, że jeśli porównamy faktyczne wartości w punktach `y_i` z wartościamy naszej funkcji `f`, to w sumie powinny dawać możliwie mały błąd. Warto zaznaczyć: funkcji błędu można wybrać parę, między innymi:
* sumę wartości bezwzględnych różnic pomiędzy `y_i`, a `f(x_i)`
* sumę kwadratów różnic pomiędzy `y_i`, a `f(x_i)`
Z przyczyn matematyczno-techicznych wybierzemy tą drugą funkcję (między innymi jest łatwo i niezawodnie różniczkowalna :)).

#### Pytania (c.d.):
* czemu umawiamy się na konkretny, bardzo prosty model, i staramy się minimalizować błąd? Czy nie lepiej zastosować model, który dokładniej opisze dane? Przecież możemy dobrać modele, które dużo lepiej dopasują się do danych, niż linia prosta...

### Zadanie 1.
Napisz funkcję liczącą błąd średniokwadratowy. Na wejściu musi dostawać dwie tablice/dwa wektory równej długości, a na wyjściu ma zwracać sumę kwadratów różnic pomiędzy kolejnymi elementami tych wektorów.

In [None]:
from typing import List

def rmse(x: List[float], y: List[float]) -> float:
    pass

### Zadanie 2.

Napisz funkcję pobierającą wektor par floatów lub dwa wektory floatów i zwracającą parametry a i b prostej o równaniu `y = ax + b`, będącej najlepszą aproksymacją tych punktów.

W przypadku opcji z wektorem par, kolejne pary traktujemy jako `x_i` i `y_i` opisane powyżej. W przypadku wyboru dwóch wektorów, traktujemy je jako wektory `x` i `y`.

In [1]:
from typing import List, Tuple, Optional
import numpy as np
from matplotlib import pyplot as plt


def rmse(x: List[float], y: List[float]) -> float:
    r = 0
    for (a, b) in zip(x, y):
        r += (a - b) ** 2
    return r


def lin_reg(data: List[Tuple[float, float]]) -> Tuple[float, float]:
    d = np.array(data)
    m = d.shape[0]
    p = np.sum(d[:, 0])
    q = np.sum(d[:, 1])
    r = np.sum(d[:, 0] * d[:, 1])
    s = np.sum(d[:, 0] ** 2)
    d = (m + 1) * s - p ** 2
    a = ((m + 1) * r - p * q) / d
    b = (s * q - p * r) / d
    return (a, b)



### Zadanie 3.

Napisz klasę enkapsulującą model regresji liniowej. Klasa powinna mieć metody:
* `fit`, przyjmującą punkty, do których będziemy dopasowywać model (sygnatura taka, jak metoda `lin_reg`)
* `predict`, przyjmująca wektor floatów (tylko współrzędna x) i zwracającą predykcje naszego modelu dla tych danych wejściowych
* pole `coeffs`, zwracają współczynniki prostej, którą dopasowywaliśmy

In [3]:
class LinearRegressor():
    def __init__(self):
        self._coeffs = None  # type: Optional[Tuple[float, float]]

    def fit(self, data: List[Tuple[float, float]]) -> None:
        self._coeffs = lin_reg(data)

    def predict(self, x: List[float]) -> List[float]:
        return [self.coeffs[0] * xi + self.coeffs[1] for xi in x]

    @property
    def coeffs(self) -> Tuple[float, float]:
        if self._coeffs is None:
            raise Exception('You need to call `fit` on the model first.')

        return self._coeffs


### Zadanie 4.

Przetestuj powyższą klasę używając prawdziwych danych (dopasowując model na danych, następnie licząc błąd średniokwadratowy pomiędzy predykcjami modelu a prawdziwymi danymi).

Przykładowo, mogą to być dane o szwedzkim rynku ubezpieczeń samochodowych, dostępne [tutaj](https://www.math.muni.cz/~kolacek/docs/frvs/M7222/data/AutoInsurSweden.txt).

### Zadanie 5.

Napisz funkcję, która będzie potrafiła narysować wykres danych i dopasowanej do nich prostej, używając klasy `LinearRegressor` do stworzenia modelu.

In [None]:
def plot_data(x: List[float], y: List[float]) -> None:
    pass