# Powtórka podstawowych rachunków wektorowych i macierzowych w ptyhonie
## Wektor wierszowy i kolumnowy 
Do rachunków użyać będziemy mdułu `numpy`, a to rysowania modułu `pylab`. Zaimportujmy je:

In [2]:
import numpy as np
import pylab as py

Natywnym typem zmiennych w numpy są tablice czyli `array`.

Aczkolwiek są one wielowymiarowe i przy pomocy indeksowania i pobierania wycinków można się nimi sprawnie posługiwać to nie są one domyślnie macierzami w sensie matematycznym. 

Aby uprawiać przy ich pomocy algebrę musimy nadać im kształt :-). Służy do tego metoda `reshape`.

Aby zbadać własności tych obiektów proszę wykonać następujący kod:

In [3]:
x = np.array([1,2,3,4])
print(len(x), x.shape)
print('x: ',x)
print('transponowany x: ',x.T)

4 (4,)
x:  [1 2 3 4]
transponowany x:  [1 2 3 4]


Czy tablica x i transponowana tablica x się różnią?

A teraz proszę wykonać następujący kod:

In [4]:
x = np.array([1,2,3,4]).reshape(4,1)
print(len(x), x.shape)
print('x: ',x)
print('transponowany x: ',x.T)

4 (4, 1)
x:  [[1]
 [2]
 [3]
 [4]]
transponowany x:  [[1 2 3 4]]


Proszę sprawdzić kształt i transpozycję macierzy 2x2, np. 
$A =
\left[
\begin{array}{cc}
1 & 2 \\
3 & 4
\end{array}
\right]
$

In [5]:
A = np.array([[1,2],[3,4]])
print(A)

[[1 2]
 [3 4]]


Operator `*` służy do mnożenia macierzy element po elemencie, albo do mnożenia macierzy przez skalar:

In [6]:
print(A*A)

[[ 1  4]
 [ 9 16]]


In [7]:
print(2*A)

[[2 4]
 [6 8]]


In [8]:
v = np.array([3])
print(v*A)

[[ 3  6]
 [ 9 12]]


Do wykonywania mnożenia w sensie macierzowym służy funkcja `np.dot`:

In [9]:
print(np.dot(A,A))

[[ 7 10]
 [15 22]]


Przeanalizuj, co robią następujące polecenia:

In [10]:
x = np.array([1,2,3,4]).reshape(4,1)
print(x)

[[1]
 [2]
 [3]
 [4]]


In [11]:
print(np.dot(x.T,x))

[[30]]


In [12]:
print(np.dot(x,x.T))

[[ 1  2  3  4]
 [ 2  4  6  8]
 [ 3  6  9 12]
 [ 4  8 12 16]]


Najpierw wytwarzamy `x`:

# Zapoznanie się z regresją liniową
* Wytworzymy dane, które wykorzystamy dalej.
* Symulowana zalezność ma nastepującą postać $y = \theta_0 + \theta_1 x$   
* `(X,Y)` to ciąg uczący.

In [13]:
ile = 11
x = np.linspace(0, 10,ile)
print(x)

[  0.   1.   2.   3.   4.   5.   6.   7.   8.   9.  10.]


Do dalszych rachunków macierzowych przyda się `X`, w którym pierwszą kolumną jest kolumna jedynek , zaś drugą jest `x`:

In [14]:
X = np.ones((ile,2))
X[:,1] = x
print(X)

[[  1.   0.]
 [  1.   1.]
 [  1.   2.]
 [  1.   3.]
 [  1.   4.]
 [  1.   5.]
 [  1.   6.]
 [  1.   7.]
 [  1.   8.]
 [  1.   9.]
 [  1.  10.]]


Ustalamy parametry dla symulacji $\theta_0 = 1$ i $\theta_1 = 3$:

In [15]:
theta = np.array([1,3]).reshape(2,1) # theta ma być wektorem kolumnowym
print(theta)

[[1]
 [3]]


Wytwarzamy `y`:

In [16]:
Y =  np.dot(X,theta) + 3*np.random.randn(ile,1)
print(Y)

[[ -0.53165836]
 [  1.12455799]
 [  5.187635  ]
 [ 10.43375497]
 [  8.40476473]
 [ 17.87723414]
 [ 16.23856114]
 [ 21.46133046]
 [ 26.09199421]
 [ 30.67114609]
 [ 30.94907271]]


Obejrzyjmy te dane:

In [17]:
py.plot(X[:,1], Y,'bo')
py.show()

## Algorytm równań normalnych
Proszę napisać funkcję, która:
* na wejściu przyjmuje ciąg uczący, implementuje wzór na parametry optymalne na podstawie [równań normalnych](http://brain.fuw.edu.pl/edu/index.php/Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wykład_1#Minimalizacja_funkcji_kosztu ). 
* Funkcja powinna zwracać estymowane parametry theta.
* Proszę dorysować prostą reprezentującą hipotezę do wykresu punktów ciągu uczącego.
* dla przypomnienia: odwrotność macierzy można obliczyć w numpy funkcją: <tt>numpy.linalg.inv</tt>

In [18]:
def licz_rownania_normalne(X,Y):
    theta = np.dot(np.dot(np.linalg.inv(np.dot(X.T,X)),X.T),Y)
    return theta

theta_est = licz_rownania_normalne(X,Y)
print("prawdziwe wartości parametrów: ", theta.T)
print("wartości estymowane za pomocą równań normalnych: ", theta_est.T)
py.plot(X[:,1], Y,'bo')
y_reg = np.dot(X,theta_est) 
py.plot(X[:,1],y_reg,'g')
py.xlabel("x")
py.ylabel("y")
py.title(u"Regresja z równań normalnych")
py.show()

prawdziwe wartości parametrów:  [[1 3]]
wartości estymowane za pomocą równań normalnych:  [[-1.47160212  3.3472003 ]]


## Algorytm gradientowy stochastyczny 
Proszę napisać funkcję, która znajduje optymalne parametry theta wg. algorytmu gradientowego stochastycznego. Funkcja jako argumenty przyjmuje ciąg uczący, wartości początkowe theta i parametr szybkości zbiegania alpha.
Na wyjściu funkcja powinna zwracać wyestymowane wartości parametrów.

W ramach ilustracji po każdej iteracji proszę dorysować prostą parametryzowaną przez aktualne wartości parametrów. 

In [30]:
def licz_iteracyjnie_stoch(X,Y,theta0 = np.array([0,0]).reshape(2,1), alpha = 0.01):
    y_reg = np.dot(X,theta0) 
    py.plot(X[:,1],y_reg,'g')
    for i in range(200):
        ind = np.random.randint(X.shape[0])
        # mały x to wejście pojedynczego przykładu o indeksie ind
        x = X[ind]
        x = x.reshape(1,len(x))
        theta0 = theta0 - alpha * (np.dot(x,theta0)-Y[ind]) * x.T
        y_reg = np.dot(X,theta0) 
        py.plot(X[:,1],y_reg,'g')
    return theta0

theta_est = licz_iteracyjnie_stoch(X,Y)
print("prawdziwe wartości parametrów: ", theta.T)
print("wartości estymowane za pomocą algorytmu gradientowego stochastycznego: ", theta_est.T)
py.plot(X[:,1], Y,'bo')
y_reg = np.dot(X,theta_est) 
py.plot(X[:,1],y_reg,'g')
py.xlabel("x")
py.ylabel("y")
py.title(u"Regresja z alg. grad. stochastycznego")
py.show()

prawdziwe wartości parametrów:  [[1 3]]
wartości estymowane za pomocą algorytmu gradientowego stochastycznego:  [[-0.35002764  3.13159926]]


## Algortym gradientowy zbiorczy
Proszę napisać funkcję, która znajduje optymalne parametry theta wg. algorytmy gradientowego zbiorczego. Funkcja jako argumenty przyjmuje ciąg uczący, wartości początkowe theta i parametr szybkości zbiegania alpha.
Na wyjściu funkcja powinna zwracać wyestymowane wartości parametrów.

W ramach ilustracji po każdej iteracji proszę dorysować prostą parametryzowaną przez aktualne wartości parametrów. 

In [31]:
def licz_iteracyjnie_batch(X,Y,theta0 = np.array([0,0]).reshape(2,1), alpha = 0.005):
    delta = np.ones(len(theta0)).reshape(len(theta0),1)
    for i in range(200):
        delta = np.zeros((len(theta0),1))
        for ind, x in enumerate(X):
            # mały x to wejście pojedynczego przykładu 
            x = x.reshape(1,len(theta0))
            delta += ( np.dot(x,theta0)- Y[ind])*x.T
        theta0 = theta0 - alpha * delta 
    return theta0

theta_est = licz_iteracyjnie_batch(X,Y)
print("prawdziwe wartości parametrów: ", theta.T)
print("wartości estymowane za pomocą algorytmu gradientowego zbiorczego: ", theta_est.T)
py.plot(X[:,1], Y,'bo')
y_reg = np.dot(X,theta_est) 
py.plot(X[:,1],y_reg,'g')
py.xlabel("x")
py.ylabel("y")
py.title(u"Regresja z alg. grad. zbiorczego")
py.show()

prawdziwe wartości parametrów:  [[1 3]]
wartości estymowane za pomocą algorytmu gradientowego zbiorczego:  [[-1.38600609  3.33255122]]


##  Proszę sprawdzić czy algorytmy optymalizacyjne działają poprawnie dla danych gdzie błąd podlega innym rozkładom prawdopodobieństwa niż normalny. np. rozkład jednorodny lub  t o 3 st. swobody.
 