# Optymalizacja ciągła
## Laboratorium 3: Numpy - powtórka


Większość operacji wykonywanych w optymalizacji/machine learningu można zapisać jako operacje macierzowe. Pozwala to przyspieszyć obliczenia oraz przenieść je na karty graficzne. Dodatkowo, pozwala to programistom pisać kod w bardzo niewydajnych językach wysokiego poziomu, gdzyż operacje macierzowe implementowane są przez biblioteki napisane w C/C++. Naszym ulubionym przykładem jest oczywiście kochany i uwielbiany Python. Nie byłoby tak jednak gdybyśmy musieli wykonywać wszystkie operacje za pomocą list i wbudowanych pętli. Właśnie dlatego warto nauczyć się używać biblioteki Numpy!

Większość zadań umieszczonych w tym tutorialu nie wymaga użycia pętli i zachęca do nauczenia pisania się one-linerów. W pythonie większość rzeczy można załatwić złożeniem kilku metod np. sort, max, min, slicingiem, map, filter itd. Dodatkowo warto sobie przyswoić pewną myśl - nie wymyślajmy koła od nowa - szczególnie w pythonie. Jeśli jakaś funkcjonalność wydaje się nam oczywista, prawie na pewno ktoś już to naklepał i wystarczy zaimportować odpowiedni pakiet. 
Do wykonania tego tutoriala przydatna może być dokumentacja numpy: [https://docs.scipy.org/doc/]()

Zajęcia te mogą wymagać instalacji dodatkowych pakietów:

```
pip3 install scikit-image numpy matplotlib seaborn tqdm --upgrade --user
```
Dla bardziej zainteresowanych, którzy jeszcze nie zauważyli: '--upgrade' updatejtuje package do najnowszej wersji nawet jeśli jest zainstalowany, a '--user' sprawia, że pakiety instalowane są u użytkownika lokalnie co eliminuje potrzebę uprawnień roota.

Do czego służą installowane pakiety:

* scikit-image - wyświetlanie i ładowanie zdjęć
* numpy (numeric python) - nakładka na tablice w c optymalizująca operacje macierzowe
* matplotlib - rysowanie wykresów
* seaborn - nakładka na matplotliba, żeby żyło się lepiej
* tqdm - pasek postępu (działa także, w notebookach)


Dla zainteresowany: Powstała także biblioteka [CuPy](https://github.com/cupy/cupy), która implementuje w podobny sposób co NumPy operacje macierzowe w Cudzie (na GPU)


In [None]:
import numpy as np
from matplotlib import pyplot as plt
from skimage import io

plt.style.use("ggplot") # tak żeby wykresy były ładniejsze
%matplotlib inline


## Inicjalizacja
Numpy pozwala nam stworzyć tensory (tensor to takie uogólnienie macierzy na dowolną ilość wymiarów) o dowolnych kształtach. Numpy pozwala też zainicjalizować macierze najpopularniejszymi sposobami - jedynki, zera, losowo (są rózne rozkłady), diagonalnie (jakieś pomysły czemu macierz diagonalna tworzona jest metodą **eye** ?). Numpy pozwala nam także na tworzenie macierzy wszystkich standardowych typów - aby to zrobić należy podać parametr **dtype** (data type). Domyślnie, typ danych to np.float64, zazwyczaj jednak zależy nam na przeprowadzaniu obliczeń na kartach graficznych, które póki co nie obsługują raczej 64 bitowych floatów, dlatego przy powazniejszych obliczeniach korzysta się raczej z **np.float32**. Dla algorytmów dokładnych, spadek dokładności (i fakt, że karty graficzne przekręcają bity co chwila) mógłby mieć poważne konsekwencje. Naszczęśćie w machine learningu wszystko opiera się na prawdopodobieństwach, przybliżeniach, a tak naprawdę wszystko jest jedną wielką heurystyką - nie musimy się więc martwić aż taką dokładnością.

Obiekty zwracane przez poniższe metody są tak naprawdę wrapperami na zwykłę tablice w C z całym zakresem dodatkowych funkcjonalności, pamiętać jednak należy, że w praktyce zachowują się tak samo (poza faktem, żę pewne optymalizacje zrobione są już za nas). W pythonie obiekty te widoczne są jako **ndarray** co rozwija się do **n-dimensional array**. 


In [None]:
m_filled_with_zeros = np.zeros((2, 2), dtype=np.float32)
m_filled_with_ones = np.ones((2, 2), dtype=np.int32)
m_random = np.random.random((2, 2, 2))
m_diagonal = np.eye(3)
rng = np.arange(1, 10)


## Podstawowe operacje
Numpy implementuje wiele wysokopoziomowych operacji na macierzach za nas:
* mnożenie przez skalar
* dodawanie, mnożenie i inne operacje 'elementwise'  
* mnożenie macierzy i wektorów
* transpozycja
* wiele innych!

Należy jednak pamiętać, że metody te, zwykle nie będą działały na pythonowych listach! Naszczęście nie jest to wielkim problemem, gdyż możemy bardzo łatwo rzutować taką listę na np.ndarray poprzez motedoę **np.array**.

In [None]:
the_array =[1, 2, 3, 4, 5, 6 ]
# TODO your code here
raise NotImplementedError()


# This won't work on a list, you need to cast it to ndarray!
print(2 * the_array)
print(the_array + the_array)
print(the_array**2)
print(the_array.T)


## Slicing
Ndarrays pozwalają na indeksowanie dowolnych kawałków (slice'ów). Pozwala to na wycinanie dowolnych kolumn/wierszy lub zastępowanie dowolnych elementów.

## Reshape
Ndarray przechowuje kształt taplicy w postaci pola **shape**. W każdym momencie można zmienić kształt tablicy poprzez metodę reshape. Co ciekawe, operacja ta ma złożoność O(1) gdyż zmieniane są tylko metadane (chyba, że wykonamy twadrą kopię ...).

## Algebra liniowa
Większość (wszystkie?) algorytmy algebry liniowej, które nie są aż tak trywialne wylądowały w pakiecie np.linagl (jak linear albegra). Użyce tego podpakietu pozwala odwaracać macierze, znajdować eigenvectory, robić rozkład svd i inne rzeczy, których przecież sami nie będziemy pisać - chcemy stać na ramionach gigantów, a nie wymyślać koło od nowa!

In [None]:
m = np.random.random((5,5))

print(m)
print("Komórka 1,1:", m[1,1])
print("Pierwszy rząd:", m[0])
print("Pierwsza kolumna:", m[:,0])
print("Wybrane kolumny w wybranej kolejności:", m[:, [3,1,2]])


### Zadanie 0 
Powtórka (lub nauka?) podstawowych trywialnych operacji!


Stwórz wektor zawierający co trzeci element od 1 do 30 (czyli 1, 4, 7 ...)

In [None]:
vec = 
# TODO your code here
raise NotImplementedError()
print(vec)

Stwórz macierz, która ma na przekątnej same piątki (zera gdzie indziej).

In [None]:
mat =
# TODO your code here
raise NotImplementedError()
print(mat)

Stwórz macierz 5x5, w której występuje krzyż (środkowa kolumna i środkowy wiersz to jedynki - reszta to zera)

In [None]:
m = 
# TODO your code here
raise NotImplementedError()
print(m)

Policz iloczyn skalarny 2 wektorów. Zrób to dwoma sposobami (żaden nie wymaga pętli).

In [None]:
a = 
b = 
# TODO your code here
raise NotImplementedError()

Odwróć macierz (większą niż 2x2) i sprawdź czy faktycznie wszystko pasuje (czy macierz faktycznie jest odwrotna do danej). Co z dokłądnością numeryczną?

In [None]:
a = 
# TODO your code here
raise NotImplementedError()

Stwórz losową macierz (od 0 do 1) i wyzeruj wszystkie elementy mniejsze niż 0.5.

In [None]:
a = 
a_zeroed = 
# TODO your code here
raise NotImplementedError()

print(a)
print(a_zeroed)

### Zadanie 1
Doge był wesołym pieskiem ujętym na kwadratowym zdjęciu z 4 kanałami (rgba). Niestety wandale spłaszczyli doge'a i pozamieniali mu kolory (pozamieniali kolejność kanałów - np rgba -> rbga ). Spraw żeby doge był znowu szczęśliwym pieskiem!

In [None]:
sad_doge = io.imread("sad_doge.jpg")

# TODO your code here
raise NotImplementedError()
happy_doge = 
plt.imshow(happy_doge)
plt.axis('off')


### Zadanie 2

Zaimplementuj mnożenie macierzy 'na pałoszczaka' (przy użyciu pętli) oraz dowiedz się jak się mnoży macierze w numpy! Następnie sprawdź ile zajmuje przemnożenie dwóch macierzy (np (100x100) twoją metodą oraz przy pomocy numpy. Upewnij się, że wyniki podawane przez obydwie metody są takie same!

In [None]:
def matmul_naive(mat1, mat2):
    # TODO your code here
    raise NotImplementedError()
        return mat3
def matmul_numpy(mat1, mat2):
    # TODO your code here
    raise NotImplementedError()

A = np.random.random((5,3))
B = np.random.random((3,4))

res_naive = matmul_naive(A,B)
res_numpy = matmul_numpy(A,B)

print("wynik nasz:")
print(res_naive)
print("wynik numpy:")
print(res_numpy)
print("różnica w wynikach:")
print(abs(res_numpy-res_naive))

Pomiar czasu

In [None]:
import time
from tqdm import trange

d = 50
iters = 100
a = np.random.random((d, d))
b = np.random.random((d, d))

start = time.time()
for _ in trange(iters):
    matmul_numpy(a, b)
end = time.time()
time_numpy = (end-start)/iters

start = time.time()
for _ in trange(iters):
    matmul_naive(a, b)
end = time.time()
time_naive=(end-start)/iters

print("Czas numpy: {}".format(time_numpy))
print("Czas naive: {}".format(time_naive))
print("ratio: {:0.2f}".format(time_naive/time_numpy))
