### AITech — Uczenie maszynowe — laboratoria
# 1. Podstawowe narzędzia uczenia maszynowego

## 1.1. Elementy języka Python przydatne w uczeniu maszynowym

### Listy składane (*List comprehension*)

Przypuśćmy, że mamy dane zdanie i chcemy utworzyć listę, która będzie zawierać długości kolejnych wyrazów tego zdania. Możemy to zrobić w następujący sposób:

In [None]:
zdanie = 'tracz tarł tarcicę tak takt w takt jak takt w takt tarcicę tartak tarł'
wyrazy = zdanie.split()
dlugosci_wyrazow = []
for wyraz in wyrazy:
    dlugosci_wyrazow.append(len(wyraz))
    
print(dlugosci_wyrazow)

Możemy to też zrobić bardziej „pythonicznie”, przy użyciu list składanych:

In [None]:
zdanie = 'tracz tarł tarcicę tak takt w takt jak takt w takt tarcicę tartak tarł'
wyrazy = zdanie.split()
dlugosci_wyrazow = [len(wyraz) for wyraz in wyrazy]

print(dlugosci_wyrazow)

Jeżeli chcemy, żeby był sprawdzany dodatkowy warunek, np. chcemy pomijać wyraz „takt”, to wciąż możemy użyć list składanych:

In [None]:
zdanie = 'tracz tarł tarcicę tak takt w takt jak takt w takt tarcicę tartak tarł'
wyrazy = zdanie.split()

# Ta konstrukcja:
dlugosci_wyrazow = []
for wyraz in wyrazy:
    if wyraz != 'takt':
        dlugosci_wyrazow.append(wyraz)
        
# ...jest równoważna tej jednolinijkowej:
dlugosci_wyrazow = [len(wyraz) for wyraz in wyrazy if wyraz != 'takt']

print(dlugosci_wyrazow)

### Indeksowanie

Wszystkie listy i krotki w Pythonie, w tym łańcuchy (które trakowane są jak krotki znaków), są indeksowane od 0:

In [None]:
napis = 'abcde'
print(napis[0])  # 'a'
print(napis[4])  # 'e'

Indeksy możemy liczyć również „od końca”:

In [None]:
napis = 'abcde'
print(napis[-1])  # 'e' („ostatni”)
print(napis[-2])  # 'd' („drugi od końca”)
print(napis[-5])  # 'a' („piąty od końca”)

Łańcuchy możemy też „kroić na plasterki” (*slicing*):

In [None]:
napis = 'abcde'
print(napis[1:4])  # 'bcd' („znaki od 1. włącznie do 4. wyłącznie”)
print(napis[1:2])  # 'b' (to samo co `napis[1]`)
print(napis[-3:-1])  # 'cd' (kroić można też stosując indeksowanie od końca)
print(napis[1:-1])  # 'bcd' (możemy nawet mieszać te dwa sposoby indeksowania)
print(napis[3:])  # 'de' (jeżeli koniec przedziału nie jest podany, to kroimy do samego końca łańcucha)
print(napis[:3])  # 'abc' (jeżeli początek przedziału nie jest podany, to kroimy od początku łańcucha)
print(napis[:])  # 'abcde' (kopia całego napisu)

## 1.2. Biblioteka _NumPy_

### Tablice

Głównym obiektem w NumPy jest **jednorodna**, **wielowymiarowa** tablica. Przykładem takiej tablicy jest macierz `x`.

Macierz $x =
    \begin{pmatrix}
    1 & 2 & 3  \\
    4 & 5 & 6  \\
    7 & 8 & 9
    \end{pmatrix}$
można zapisać jako:

In [None]:
import numpy as np

x = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(x)

Najczęsciej używane metody tablic typu `array`:

In [None]:
x.shape

In [None]:
x.sum(axis=0)

In [None]:
x.mean(axis=1)

Do tworzenia sekwencji liczbowych jako obiekty typu `array` należy wykorzystać funkcję `arange`.

In [None]:
np.arange(10)

In [None]:
np.arange(5, 10)

In [None]:
np.arange(5, 10, 0.5)

Kształt tablicy można zmienić za pomocą metody `reshape`:

In [None]:
x = np.arange(1, 13)
print(x)
y = x.reshape(3, 4)
print(y)

Funkcją podobną do `arange` jest `linspace`, która wypełnia wektor określoną liczbą elementów z przedziału o równych automatycznie obliczonych odstępach (w `arange` należy podać rozmiar kroku):

In [None]:
x = np.linspace(0, 5, 5)
print(x)

Dodatkowe informacje o funkcjach NumPy uzyskuje się za pomocą polecenia `help(nazwa_funkcji)`:

In [None]:
help(np.shape)

Tablice mogą składać się z danych różnych typów (ale tylko jednego typu danych równocześnie, stąd jednorodność).

In [None]:
x = np.array([1, 2, 3])
print(x, "- typ: ", x.dtype)

x = np.array([0.1, 0.2, 0.3])
print(x, "- typ: ", x.dtype)

x = np.array([1, 2, 3], dtype='float64')
print(x, "- typ: ", x.dtype)

Tworzenie tablic składających się z samych zer lub jedynek umożliwiają funkcje `zeros` oraz `ones`:

In [None]:
x = np.zeros([3,4])
print(x)

In [None]:
x = np.ones([3,4])
print(x)

### Podstawowe operacje arytmetyczne

Operatory arytmetyczne na tablicach w NumPy działają **element po elemencie**.

In [None]:
import numpy as np

a = np.array([3, 4, 5])
b = np.ones(3)
print(a - b)

Za mnożenie macierzy odpowiadają funkcje `dot` i `matmul` (**nie** operator `*`):

In [None]:
a = np.array([[1, 2], [3, 4]])
print(a)

In [None]:
b = np.array([[1, 2], [3, 4]])
print(b)

In [None]:
a * b  # mnożenie element po elemencie

In [6]:
np.dot(a,b)  # mnożenie macierzowe

array([[  0, -10],
       [ -3,  -1]])

In [7]:
np.matmul(a,b)  # mnożenie macierzowe

array([[  0, -10],
       [ -3,  -1]])

Przykłady innych operacji dodawania i mnożenia:

In [None]:
a = np.zeros((2, 2), dtype='float')
a += 5
a

In [None]:
a *= 5
a

In [None]:
a + a

Sklejanie tablic:

In [None]:
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
c = np.array([7, 8, 9])
np.hstack([a, b, c])

In [None]:
np.vstack([a, b, c])

Typowe funkcje matematyczne:

In [None]:
x = np.arange(1, 5)
np.sqrt(x) * np.pi

In [None]:
2**4

In [None]:
np.power(2, 4)

In [None]:
np.log(np.e)

In [None]:
x = np.arange(5)
x.max() - x.min()

### Indeksy i zakresy

Tablice jednowymiarowe zachowują sie podobnie do zwykłych list pythonowych.

In [None]:
a = np.arange(10)
a[2:4]

In [None]:
a[:10:2]

In [None]:
a[::-1]

Tablice wielowymiarowe mają po jednym indeksie na wymiar:

In [None]:
x = np.arange(12).reshape(3, 4)
x

In [None]:
x[2, 3]

In [None]:
x[:, 1]

In [None]:
x[1, :]

In [None]:
x[1:3, :]

### Warunki

Warunki pozwalają na selekcję elementów tablicy.

In [None]:
a = np.array([1, 1, 1, 2, 2, 2, 3, 3, 3])
a[a > 1]

In [None]:
a[a == 3]

In [None]:
np.where(a < 3)

In [None]:
np.where(a < 3)[0]

In [None]:
np.where(a > 9)

### Pętle i wypisywanie

In [None]:
for row in x:
    print(row)

In [None]:
for element in x.flat:
    print(element) 

### Liczby losowe

In [None]:
np.random.randint(0, 10, 5)

In [None]:
np.random.normal(0, 1, 5) 

In [None]:
np.random.uniform(0, 2, 5)

### Macierze

NumPy jest pakietem wykorzystywanym do obliczeń w dziedzinie algebry liniowej, co jeszcze szczególnie przydatne w uczeniu maszynowym. 

Wektor o wymiarach $1 \times N$ 
$$
    x =
    \begin{pmatrix}
    x_{1}  \\
    x_{2}  \\
    \vdots \\
    x_{N}
    \end{pmatrix} 
$$

i jego transpozycję $x^\top = (x_{1}, x_{2},\ldots,x_{N})$ można wyrazić w Pythonie w następujący sposób:

In [None]:
import numpy as np

x = np.array([[1, 2, 3]]).T
x.shape

In [None]:
xt = x.T
xt.shape

**Macierz kolumnowa** w NumPy.
$$X =
    \begin{pmatrix}
    3  \\
    4  \\
    5  \\
    6  
    \end{pmatrix}$$

In [None]:
x = np.array([[3,4,5,6]]).T
x

**Macierz wierszowa** w NumPy.
$$ X =
    \begin{pmatrix}
    3 & 4 & 5 & 6
    \end{pmatrix}$$

In [None]:
x = np.array([[3,4,5,6]])
x

Oprócz obiektów typu `array` istnieje wyspecjalizowany obiekt `matrix`, dla którego operacje `*` (mnożenie) oraz `**-1` (odwracanie) są określone w sposób właściwy dla macierzy (w przeciwieństwie do operacji elementowych dla obiektów `array`).

In [None]:
x = np.array([1,2,3,4,5,6,7,8,9]).reshape(3,3)
print(x)

In [None]:
y = np.array([4,6,3,8,7,1,3,0,3]).reshape(3,3)
print(y)

In [None]:
X = np.matrix(x)
Y = np.matrix(y)

In [None]:
print(x * y)  # Tablice np.array mnożone są element po elemencie

In [None]:
print(X * Y)  # Macierze np.matrix mnożone są macierzowo

In [None]:
print(np.matmul(x, y))

**Wyznacznik macierzy**

In [None]:
a = np.array([[3,-9],[2,5]])
np.linalg.det(a)

**Macierz odwrotna**

In [None]:
A = np.array([[-4,-2],[5,5]])
A

In [None]:
invA = np.linalg.inv(A)
invA

In [None]:
np.round(np.dot(A, invA))

(ponieważ $AA^{-1} = A^{-1}A = I$).

**Wartości i wektory własne**

In [None]:
a = np.diag((1, 2, 3))
a

In [None]:
w, v = np.linalg.eig(a)
print(w)  # wartości własne
print(v)  # wektory własne

## 1.3. Biblioteka PyTorch

Biblioteka PyTorch została stworzona z myślą o uczeniu maszynowym. Oprócz wykonywania rozmaitych działań matematycznych takich jak te, które można wykonywać w bibliotece NumPy, dostarcza metod przydatnych w uczeniu maszynowym, z których chyba najbardziej charakterystyczną jest automatyczne różniczkowanie (moduł `autograd`).

Ale o tym później.

### Instalacja

    pip install torch torchvision

lub

    conda install pytorch torchvision torchaudio cudatoolkit=10.2 -c pytorch

### Tensory

Podstawowym typem danych dla pakietu `pytorch` jest tensor (`torch.tensor`). Tensor to uogólnienie macierzy na dowolną liczbę wymiarów. Można powiedzieć, że macierze są dwuwymiarowymi tensorami.

In [None]:
import torch

x = torch.tensor([[1,2,3],[4,5,6],[7,8,9]])
print(x)

### Operacje na tensorach

Działania na tensorach w bibliotece PyTorch wykonuje się bardzo podobnie do działań na miacierzach w bibliotece NumPy. Czasami nazwy metod się trochę różnią.

In [None]:
# Wymiary (rozmiar) tensora

print(x.shape)
print(x.size())  # Można użyć `size()` zamiast `shape`

In [None]:
# Typy elementów

x = torch.tensor([1, 2, 3])
print(x, "- type:", x.dtype)

x = torch.tensor([0.1, 0.2, 0.3])
print(x, "- type:", x.dtype)

x = torch.tensor([1, 2, 3], dtype=torch.float64)  # Uwaga: inaczej niż w NumPy
print(x, "- type:", x.dtype)


In [None]:
x = torch.zeros([3,4])
print(x)

In [None]:
x = torch.ones([3,4])
print(x)

In [None]:
x = torch.rand([3,4])
print(x)

In [None]:
# Iterowanie po elementach tensora

for i, row in enumerate(x):
    print(f"\nWiersz {i}:")
    for element in row:
        print(element.item())  # `item()` zamienia jednoelementowy (bezwymiarowy) tensor na liczbę

In [None]:
# Przykładowe macierze

A = torch.rand([3, 4])
print(A)

B = torch.rand([3, 4])
print(B)

C = torch.rand([4, 2])
print(C)

In [None]:
# Działania "element po elemencie"

print(A + B)
print(A - B)
print(A * B)
print(A / B)

In [None]:
# Mnożenie macierzowe

print(torch.matmul(A, C))

### Konwersja między PyTorch i NumPy

In [None]:
# Konwersja z PyTorch do NumPy

print(A)

A_numpy = A.numpy()
print(A_numpy)

In [None]:
# Konwersja z numpy do PyTorch

X = np.random.rand(3, 5)
print(X)

X_pytorch = torch.from_numpy(X)
print(X_pytorch)

## Przydatne materiały

 * NumPy - dokumentacja: https://numpy.org/doc/stable
 * PyTorch - dokumentacja: https://pytorch.org/docs/stable

## Zadania

### Zadanie 1.1 (1 pkt)

Dla danej listy `input_list` zawierającej liczby utwórz nową listę `output_list`, która będzie zawierała kwadraty liczb dodatnich z `input_list`. Użyj _list comprehension_!

In [58]:
# Przykładowe dane

input_list = [34.6, -203.4, 44.9, 68.3, -12.2, 44.6, 12.7]

def kwadraty(input_list):
    output_list = [  pow(item, 2) for item in input_list  ]
    return output_list

print(kwadraty(input_list))

[1197.16, 41371.560000000005, 2016.0099999999998, 4664.889999999999, 148.83999999999997, 1989.16, 161.29]


### Zadanie 1.2 (1 pkt)

Za pomocą jednowierszowego polecenia utwórz następującą macierz jako obiekt typu `array`:
$$A = \begin{pmatrix}
1       & 2      & \cdots & 10      \\
11      & 12     & \cdots & 20      \\
\vdots  & \ddots & \ddots & \vdots  \\
41      & 42     & \cdots & 50 
\end{pmatrix}$$

In [1]:
import numpy as np

x = np.array([np.arange(i*10 + 1, i*10 + 11) for i in range(5)])
x2 = np.arange(1, 51).reshape(5, 10)

print(x)
print(x2)


[[ 1  2  3  4  5  6  7  8  9 10]
 [11 12 13 14 15 16 17 18 19 20]
 [21 22 23 24 25 26 27 28 29 30]
 [31 32 33 34 35 36 37 38 39 40]
 [41 42 43 44 45 46 47 48 49 50]]
[[ 1  2  3  4  5  6  7  8  9 10]
 [11 12 13 14 15 16 17 18 19 20]
 [21 22 23 24 25 26 27 28 29 30]
 [31 32 33 34 35 36 37 38 39 40]
 [41 42 43 44 45 46 47 48 49 50]]


### Zadanie 1.3 (1 pkt)

Dla macierzy $A$ z zadania 1.2:
 * określ liczbę elementów, kolumn i wierszy,
 * stwórz wektory średnich po wierszach oraz po kolumnach,
 * wypisz jej trzecią kolumnę,
 * wypisz jej czwarty wiersz.
 
Użyj odpowiednich metod obiektu `array`.

In [3]:
import numpy as np

x = np.arange(1, 51).reshape(5, 10)

elem_count = x.shape[0] * x.shape[1]
cols_count = x.shape[1]
rows_count = x.shape[0]

rows_avg = x.mean(axis=1)
cols_avg = x.mean(axis=0)

print('macierz: %s' % x)
print('liczba elementów: %s' % elem_count)
print('liczba kolumn: %s' % cols_count)
print('liczba wierszy: %s' % rows_count)
print('wektor średniej po wierszach: %s' % rows_avg)
print('wektor średniej po kolumnach: %s' % cols_avg)
print('trzecia kolumna: %s' % x[:, 2])
print('czwarty wiersz: %s' % x[3])



macierz: [[ 1  2  3  4  5  6  7  8  9 10]
 [11 12 13 14 15 16 17 18 19 20]
 [21 22 23 24 25 26 27 28 29 30]
 [31 32 33 34 35 36 37 38 39 40]
 [41 42 43 44 45 46 47 48 49 50]]
liczba elementów: 50
liczba kolumn: 10
liczba wierszy: 5
wektor średniej po wierszach: [ 5.5 15.5 25.5 35.5 45.5]
wektor średniej po kolumnach: [21. 22. 23. 24. 25. 26. 27. 28. 29. 30.]
trzecia kolumna: [ 3 13 23 33 43]
czwarty wiersz: [31 32 33 34 35 36 37 38 39 40]


### Zadanie 1.4 (1 pkt)

Utwórz macierze
$$ A = \begin{pmatrix}
0 & 4 & -2 \\
-4 & -3 & 0
\end{pmatrix} $$
$$ B = \begin{pmatrix}
0 & 1 \\
1 & -1 \\
2 & 3
\end{pmatrix} $$
oraz wektor
$$ x = \begin{pmatrix}
2 \\
1 \\
0
\end{pmatrix} $$

Oblicz:
 * iloczyn macierzy $A$ z wektorem $x$ 
 * iloczyn macierzy $A \cdot B$
 * wyznacznik $\det(A \cdot B)$
 * wynik działania $(A \cdot B)^\top - B^\top \cdot A^\top$

In [52]:
import numpy as np

a = np.array([[0, 4, -2],
           [-4, -3, 0]])

b = np.array([[0, 1],
           [1, -1],
           [2, 3]])

A = np.matrix(a)
B = np.matrix(b)

x = np.array([[2],
            [1], 
            [0]])

print(np.matmul(a,x))
print(A * B)
print(np.linalg.det(A*B))
print((A * B).T - B.T * A.T)


[[  4]
 [-11]]
[[  0 -10]
 [ -3  -1]]
-30.000000000000014
[[0 0]
 [0 0]]


### Zadanie 1.5 (1 pkt)

Czym różni się operacja `A**-1` dla obiektów typu `array` i `matrix`? Pokaż na przykładzie.

In [26]:
import numpy as np

a = np.array([[1.0, 2.0, 3.0],
           [1.0, 1.0, 2.0],
           [2.0, 1.0, 1.0]])

A = np.matrix(a)

print(a**-1)
print(A**-1)

## a**-1 każdą wartość osobno potęguje
## A**-1 wykonuje odpowiednie operacje aby obliczyć macierz odwrotną danej macierzy

[[1.         0.5        0.33333333]
 [1.         1.         0.5       ]
 [0.5        1.         1.        ]]
[[-0.5  0.5  0.5]
 [ 1.5 -2.5  0.5]
 [-0.5  1.5 -0.5]]


### Zadanie 1.6 (1 pkt)

Dla macierzy $X = \left[
      \begin{array}{rrr}
        1 & 2 & 3\\
        1 & 3 & 6 \\
      \end{array}
    \right]$ oraz wektora $y = \left[
      \begin{array}{r}
        5 \\
        6 \\
      \end{array}
    \right]$ oblicz wynikowy wektor: 
$$ \theta = (X^\top \, X)^{-1} \, X^\top \, y \, . $$
Wykonaj te same obliczenia raz na obiektach typu `array`, a raz na obiektach typu `matrix`.
W przypadku obiektów typu `matrix` zastosuj możliwie krótki zapis. 

In [53]:
import numpy as np

x = np.array([[1.0, 2.0, 3.0],
           [1.0, 3.0, 6.0]])
X = np.matrix(x)
y = np.array([[5],
            [6]])

print (
    np.matmul (
        np.matmul (
            np.linalg.inv (
                np.matmul(x.T, x)
            ),
            x.T
        ),
        y
    )
)

print (
    ((X.T * X)**-1)*X.T*y
)



[[13.9375  ]
 [ 1.3125  ]
 [-0.015625]]
[[13.9375  ]
 [ 1.3125  ]
 [-0.015625]]
