# Regresja liniowa: rachunki wektorowe i macierzowe w pythonie, algorytmy gradientowe, równania normalne
## Wektor wierszowy i kolumnowy 
Do rachunków użyać będziemy mdułu `numpy`, a to rysowania modułu `pylab`. Zaimportujmy je:

In [None]:
import numpy as np
import pylab as py

Natywnym typem zmiennych w numpy są tablice czyli `array`.

Aczkolwiek są one wielowymiarowe i przy pomocy indeksowania i pobierania wycinków można się nimi sprawnie posługiwać to nie są one domyślnie macierzami w sensie matematycznym. 

Aby uprawiać przy ich pomocy algebrę musimy nadać im kształt :-). Służy do tego metoda `reshape`.

Aby zbadać własności tych obiektów proszę wykonać następujący kod:

In [None]:
x = np.array([1,2,3,4])
print(len(x), x.shape)
print('x: ',x)
print('transponowany x: ',x.T)

Czy tablica x i transponowana tablica x się różnią?

A teraz proszę wykonać następujący kod:

In [None]:
x = np.array([1,2,3,4]).reshape(4,1)
print(len(x), x.shape)
print('x: ',x)
print('transponowany x: ',x.T)

Proszę sprawdzić kształt i transpozycję macierzy 2x2, np. 
$A =
\left[
\begin{array}{cc}
1 & 2 \\
3 & 4
\end{array}
\right]
$

In [None]:
A = np.array([[1,2],[3,4]])
print(A)

Operator `*` służy do mnożenia macierzy element po elemencie, albo do mnożenia macierzy przez skalar:

In [None]:
print(A*A)

In [None]:
print(2*A)

In [None]:
v = np.array([3])
print(v*A)

Do wykonywania mnożenia w sensie macierzowym służy funkcja `np.dot`:

In [None]:
print(np.dot(A,A))

Przeanalizuj, co robią następujące polecenia:

In [None]:
x = np.array([1,2,3,4]).reshape(4,1)
print(x)

In [None]:
print(np.dot(x.T,x))

In [None]:
print(np.dot(x,x.T))

Najpierw wytwarzamy `x`:

# Zapoznanie się z regresją liniową
* Wytworzymy dane, które wykorzystamy dalej.
* Symulowana zalezność ma nastepującą postać $y = \theta_0 + \theta_1 x$   
* `(X,Y)` to ciąg uczący.

In [None]:
ile = 11
x = np.linspace(0, 10,ile)
print(x)

Do dalszych rachunków macierzowych przyda się `X`, w którym pierwszą kolumną jest kolumna jedynek , zaś drugą jest `x`:

In [None]:
X = np.ones((ile,2))
X[:,1] = x
print(X)

Ustalamy parametry dla symulacji $\theta_0 = 1$ i $\theta_1 = 3$:

In [None]:
theta = np.array([1,3]).reshape(2,1) # theta ma być wektorem kolumnowym
print(theta)

Wytwarzamy `y`:

In [None]:
Y =  np.dot(X,theta) + 3*np.random.randn(ile,1)
print(Y)

Obejrzyjmy te dane:

In [None]:
py.plot(X[:,1], Y,'bo')
py.show()

## Algorytm równań normalnych
Proszę napisać funkcję, która:
* na wejściu przyjmuje ciąg uczący, implementuje wzór na parametry optymalne na podstawie [równań normalnych](http://brain.fuw.edu.pl/edu/index.php/Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wykład_1#Minimalizacja_funkcji_kosztu ). 
* Funkcja powinna zwracać estymowane parametry theta.
* Proszę dorysować prostą reprezentującą hipotezę do wykresu punktów ciągu uczącego.
* dla przypomnienia: odwrotność macierzy można obliczyć w numpy funkcją: <tt>numpy.linalg.inv</tt>

In [None]:
def licz_rownania_normalne(X,Y):
    theta = np.dot(np.dot(np.linalg.inv(np.dot(X.T,X)),X.T),Y)
    return theta

theta_est = licz_rownania_normalne(X,Y)
theta_est = alg_r_norm(X,Y)
print("ROWNANIA NORMALNE\n")
print("Prawdziwe wartosci parametrow: ", theta.T)
print("Estymowane wartosci parametrow: ", theta_est.T)
py.plot(X[:,1], Y, 'bo')
py.plot(X[:,1], np.dot(X,theta_est), 'g')
py.xlabel("x")
py.ylabel("y")
py.title("Regresja z rownan normalnych")
py.show()

## Algorytm gradientowy stochastyczny 
Proszę napisać funkcję, która znajduje optymalne parametry theta wg. algorytmu gradientowego stochastycznego. Funkcja jako argumenty przyjmuje ciąg uczący, wartości początkowe theta i parametr szybkości zbiegania alpha.
Na wyjściu funkcja powinna zwracać wyestymowane wartości parametrów.

W ramach ilustracji po każdej iteracji proszę dorysować prostą parametryzowaną przez aktualne wartości parametrów. 

In [None]:
def licz_iteracyjnie_stoch(X,Y,theta0 = np.array([0,0]).reshape(2,1), alpha = 0.01):
    y_reg = np.dot(X,theta0) 
    py.plot(X[:,1],y_reg,'g')
    for i in range(200):
        ind = np.random.randint(X.shape[0])
        # mały x to wejście pojedynczego przykładu o indeksie ind
        x = X[ind]
        x = x.reshape(1,len(x))
        theta0 = theta0 - alpha * (np.dot(x,theta0)-Y[ind]) * x.T
        y_reg = np.dot(X,theta0) 
        py.plot(X[:,1],y_reg,'g')
    return theta0

theta_est = licz_iteracyjnie_stoch(X,Y)
print("ALGORYTM GRADIENTOWY STOCHASTYCZNY\n")
print("Prawdziwe wartosci parametrow: ", theta.T)
print("Estymowane wartosci parametrow: ", theta_est.T)
py.plot(X[:,1], Y, 'bo') 
py.plot(X[:,1], np.dot(X,theta_est), 'g')
py.xlabel("x") 
py.ylabel("y")
py.title("Regresja z algorytmu gradientowego stochastycznego")
py.show()

## Algortym gradientowy zbiorczy
Proszę napisać funkcję, która znajduje optymalne parametry theta wg. algorytmy gradientowego zbiorczego. Funkcja jako argumenty przyjmuje ciąg uczący, wartości początkowe theta i parametr szybkości zbiegania alpha.
Na wyjściu funkcja powinna zwracać wyestymowane wartości parametrów.

W ramach ilustracji po każdej iteracji proszę dorysować prostą parametryzowaną przez aktualne wartości parametrów. 

In [None]:
def licz_iteracyjnie_batch(X,Y,theta0 = np.array([0,0]).reshape(2,1), alpha = 0.005):
    delta = np.ones(len(theta0)).reshape(len(theta0),1)
    for i in range(200):
        delta = np.zeros((len(theta0),1))
        for ind, x in enumerate(X):
            # mały x to wejście pojedynczego przykładu 
            x = x.reshape(1,len(theta0))
            delta += ( np.dot(x,theta0)- Y[ind])*x.T
        theta0 = theta0 - alpha * delta 
    return theta0

theta_est = licz_iteracyjnie_batch(X,Y)
print("ALGORYTM GRADIENTOWY ZBIORCZY\n")
print("Prawdziwe wartosci parametrow: ", theta.T)
print("Estymowane wartosci parametrow: ", theta_est.T)
py.plot(X[:,1], Y, 'bo')
py.plot(X[:,1], np.dot(X,theta_est), 'g')
py.xlabel("x")
py.ylabel("y")
py.title("Regresja z algorytmu gradientowego zbiorczego")
py.show()

##  Proszę sprawdzić czy algorytmy optymalizacyjne działają poprawnie dla danych gdzie błąd podlega innym rozkładom prawdopodobieństwa niż normalny. np. rozkład jednorodny lub  t o 3 st. swobody.
 