In [53]:
import numpy as np
import pandas as pd

# WAŻNE INFORMACJE NA START
- w 'czystym' pythonie używa się terminu 'lista', ale w NumPy mówi się o 'macierzach',
- w kontekście NumPy, mówimy też o 'elementach' macierzy, a nie 'polach', czy jakoś inaczej,

# Podstawowe informacje
- rysunek wyżej posiada błąd dla pierwszej macierzy, poprawnie powinno być:  
  a1 = np.array([[1, 2, 3]]) -> podwójny nawias kwadratowy 

![](numpy-data-types.png)

- głównym typem danych w NumPy jest 'ndarray' = 'n-dimencional array',
- wszystko tak naprawdę rozchodzi się o wymiary macierzy,
- w NumPy nie istnieje ogranieczenie na liczbę wymiarów z ilu może składać się macierz,
- kształt macierzy do trzeciego wymiaru: (liczba macierzy, wiersze, kolumny),


In [54]:
a1 = np.array([[1, 2, 3]]) # podwójny nawias kwadratowy
a2 = np.array([[1, 2, 3.3], 
              [4, 5, 6.5]])
a3 = np.array([[[1, 2, 3],
                [4, 5, 6],
                [7, 8, 9]],
               
               [[10, 11, 12], 
                [13, 14, 15], 
                [16, 17, 18, ]]])

## Konkretne wymiary

In [55]:
a1.shape, a2.shape, a3.shape

((1, 3), (2, 3), (2, 3, 3))

## Liczba wymiarów (n - dimension)

In [56]:
a1.ndim, a2.ndim, a3.ndim 

(2, 2, 3)

## Typy przechowywanych danych

In [57]:
a1.dtype, a2.dtype, a3.dtype

(dtype('int64'), dtype('float64'), dtype('int64'))

## Liczba elementów w tablicy

In [58]:
a1.size, a2.size, a3.size

(3, 6, 18)

# WEKTOR jednowymiarowy (1-D) VS MACIERZ składająca się z jednego wiersza (2-D)
- zarówno jedno, jak i drugie z punktu widzenia matematyki może być nazywane wektorem, ale NumPy wyraźnie je rozróżnia,
- wektor jednowymiarowy (1-D) można zamienić na macierz składającą się z jednego wiersza (2-D) za pomocą funkcji 'reshape()',
- dla własnego bezpieczeństa chyba najlepiej jest zawsze korzystać z macierzy składającej się z jednego wiersza (2-D)  

## Wektor jednowymiarowy (1-D)
- jest to ciąg liczb bez wyraźnej struktury (mimo że wygląda jak struktura),
- można na nim wykonywać szybkie operacje arytmetyczne takiej jak np. dodawanie, mnożenie itd. oraz wykorzystywać wbudowane funkcje agregujące, listing,
- NIE MOŻNA wykonywać na nim pełnoprawnych działań macierzowych, takich jak np. mnożenie, transpozycja, itd.

In [59]:
vector_1d = np.array([1, 2, 3])
vector_1d.shape # (3,)

(3,)

## Macierz składająca się z jednego wiersza (2-D)
- struktura pełnoprawnej macierzy,
- można na niej wykonywać wszystkie operacje macierzowe, taki jak np. mnożenie, transpozycja itd.

In [60]:
vector_2 = np.array([[1, 2, 3]]) # podwójny nawias kwadratowy [[]]
vector_2.shape # (1, 3)

(1, 3)

# Tworzenie macierzy w NumPy
- macierze wypełnione jedynkami lub zerami tworzy się, aby uzyskać macierze o konkretnych rozmiarach, które w przyszłości zostaną nadpisane przez inne dane,  

### Macierz podstawowa

In [61]:
sample_array = np.array([1, 2, 3])
sample_array

array([1, 2, 3])

### Macierz wypełniona jedynkami

In [62]:
ones = np.ones((2, 3))
ones

array([[1., 1., 1.],
       [1., 1., 1.]])

### Macierz wypełniona zerami

In [63]:
zeros = np.zeros((2, 3))
zeros

array([[0., 0., 0.],
       [0., 0., 0.]])

### Macierz (start, stop, step)

In [64]:
range_array = np.arange(2, 10, 2)
range_array

array([2, 4, 6, 8])

### Macierz wypełniona randomowymi wartościami

In [65]:
random_array = np.random.randint(1, 10, size=(2, 5))
random_array

array([[7, 8, 8, 9, 2],
       [6, 9, 5, 4, 1]], dtype=int32)

### Macierz wypełniona randomowymi wartościami z przedziału <0, 1)

In [66]:
random_array_2 = np.random.random(size=(5, 3))
random_array_2

array([[0.83261985, 0.77815675, 0.87001215],
       [0.97861834, 0.79915856, 0.46147936],
       [0.78052918, 0.11827443, 0.63992102],
       [0.14335329, 0.94466892, 0.52184832],
       [0.41466194, 0.26455561, 0.77423369]])

### DataFrame utworzony z tablicy NumPy

In [67]:
df = pd.DataFrame(a2)
df

Unnamed: 0,0,1,2
0,1.0,2.0,3.3
1,4.0,5.0,6.5


# Dostęp do elementów macierzy
- do elementów macierzy można dostaje się poprzez zwykłe odwołanie, tak jak w przypadku 'czystego' pythona, 

In [68]:
a3

array([[[ 1,  2,  3],
        [ 4,  5,  6],
        [ 7,  8,  9]],

       [[10, 11, 12],
        [13, 14, 15],
        [16, 17, 18]]])

In [69]:
# ZAD: Dostań się do liczby 14 z macierzy 'a3'
a3[1][1][1]

np.int64(14)

- na macierzach NumPy możliwe jest wykorzystywanie list slicingu,
- w ogólnym rozrachunku działa on całkiem podobnie w porównaniu do 'czystego' pythona. Jednak 'czysty' python nie umożliwia list slicingu na wielu wymiarach, a NumPy tak. Działa on bardzo intuicyjnie, a przy jego obsłudze pomaga pole 'shape' - zobrazowanie wymiarów,  

In [70]:
a3.shape

(2, 3, 3)

In [71]:
# ZAD: Dostań się do wszystkich liczb na pozycji '0' w najbardziej wewnętrznym wierszu macierzy
a3[:, :, :1] # [jeden wymiar skopiowany, drugi wymiar skopiowany, konkretne elementy wewnętrznej listy]

array([[[ 1],
        [ 4],
        [ 7]],

       [[10],
        [13],
        [16]]])

# Operacje na macierzach
- ma macierzach Numpy można praktycznie wykonywać wszystkie operacje matematyczne jakie są dostępne w pythonie, np. dodawanie, odejmowanie, mnożenie, dzielenie, czy '//', '**', itd.,
- operacje są wykonywanie w oparciu o model 'element-wise', czyli 'element po elemencie',
- operacje te są możliwe do wykonania w przypadku kiedy:
  * !!! wtedy, kiedy zasady broadcastu są spełnione i tyle, to co niżej, to tak wisz !!!
  * dwie macierze mają taki sam rozmiar,
  * jedna z macierzy jest macierzą składającą się z jednego wiersza, oraz liczba kolumn w obu macierzach jest jednakowa,
- kolejność macierzy, na których wykonywane są operacje jest znacząca - może dawać inne efekty zależne od konfiguracji - przypadek mnożenia,  
- mimo że wspomniane wyżej operacje można wykonywać za pomocą operatorów pythonowych, wskazane jest, aby zamiast nich wykorzystywać wbudowane w NumPy funkcje - zwiększenie wydajności, 

In [72]:
a1 

array([[1, 2, 3]])

In [73]:
ones

array([[1., 1., 1.],
       [1., 1., 1.]])

In [74]:
np.add(a1, ones) # dodawanie

array([[2., 3., 4.],
       [2., 3., 4.]])

In [75]:
np.exp(a1) # literka 'e' podniesiona do potęgi

array([[ 2.71828183,  7.3890561 , 20.08553692]])

In [76]:
np.log(a1) # logarytm

array([[0.        , 0.69314718, 1.09861229]])

# Funkcje agregujące
- są to funkcje, które wykorzystują wszystkie elementy danej struktury w jakiejś operacji i następnie zwracają tylko jedną wartość, 

In [77]:
a2

array([[1. , 2. , 3.3],
       [4. , 5. , 6.5]])

In [78]:
np.mean(a2)

np.float64(3.6333333333333333)

In [79]:
np.max(a2)

np.float64(6.5)

In [80]:
np.min(a2)

np.float64(1.0)

In [81]:
np.sum(a2)

np.float64(21.8)

# Wariancja oraz Odchylenie Standardowe (do zr)
- generalnie obie te rzeczy są bardzo łatwe matematycznie, ale teraz tutaj nie będę tego rozpisywał. Można zapytać chata i on elegancko wszystko wytłumaczy, jak zajdzie taka potrzeba. Teraz zostawiam to trochę niedokończone,
- link zostawiony przez Daniela, aby sobie zobaczyć jak to działa matematycznie, ale ja wiem jak to działa matematycznie i tak: https://www.mathsisfun.com/data/standard-deviation.html,

In [82]:
var_array = np.array([2, 4, 6, 8, 10])

In [83]:
np.var(var_array) # wariancja

np.float64(8.0)

In [84]:
np.std(var_array) # odchylenie standardowe

np.float64(2.8284271247461903)

# Zmiana Kształtu oraz Transpozycja

## Broadcast w NumPy 
- broadcast w numpy odnosi się do możliwość wykonywania operacji między macierzami ze względu na ich wymiary - 'shape'
- macierze NumPy porównują między sobą wymiary zaczynająć od prawej strony:
  * jeżeli macierze NIE są tego samego wymiaru, to brakujące wymiary są uzupełniane 'niewidzialnymi jedynkami',
  * jeżeli odpowiadające wymiary się zgadzają (czyli ich wartości są identyczne) w jednej i drugiej macierzy to okey,
  * jeżeli jeden z porównywanych wymiarów ma wartość 1, to też wszystko jest okey,
- przykład z dokumentacji:
  <pre>
  A (4d array):       8 x 7 x 6 x 1  
  B (3d array):           7 x 1 x 5
  RESULT (4d array):  8 x 7 x 6 x 5 
  </pre>
  * pierwsze 2 wymiary od prawej się zgadzają, bo zawsze jeden z nich to 1, więc wszystko okey,
  * trzeci wymiar od prawej jest identyczny w jednym, jak i drugim przypadku, więc wszystko okey,
  * a tam gdzie nie ma jednego wymiaru (B) postawiona jest niewidzialna jedynka, więc też wszystko jest okey,
- dodatkowo macierz NumPy może być swobodnie przemnażana przez:
  * skalar,
  * macież składającą się z jednego wiersza, który jest jednoelementowy - [[94]], 

In [85]:
a2.shape, a3.shape # odpowiadające wymiary się nie zgadzają oraz jedynki nie pomogą - BROADCAST TUTAJ NIE DZIAŁA 
# a2 * a3 # wywali błąd

((2, 3), (2, 3, 3))

## Zmiana kształtu macierzy
- zmiana kształtu macierzy jest możliwa do wykonania dopóki iloczym wymiarów w starej macierzy, jak i nowej jest jednakowy: 
  macierz o wymiarach (2, 3, 2) -> 2 * 3 * 2 = 12 można zamienić na  
  macierz o wymiarach (1, 1, 4, 1, 3) -> bo 1 * 1 * 4 * 1 * 3 = 12, więc wszystko się zgadza

In [86]:
a2.shape

(2, 3)

In [87]:
a2_reshape = a2.reshape(2, 3, 1)
a2_reshape

array([[[1. ],
        [2. ],
        [3.3]],

       [[4. ],
        [5. ],
        [6.5]]])

In [88]:
a2.shape, a2_reshape.shape # iloczyn wymiarów w obu przypadkach jest równy 6

((2, 3), (2, 3, 1))

## Transpozycja macierzy
- najprościej mówiąc jest to zamiana wierszy z kolumnami w macierzy, np.
![](transpozycja.png)

In [89]:
a2.shape, a2.T.shape # (2, 3) -> (3, 2)

((2, 3), (3, 2))

## 'Sklejenie' dwóch macierzy
- takie jakby postawienie ich obok siebie 'po osi kolumn'

In [90]:
A = np.array([['a', 'b'],
              ['c', 'dd']])

B = np.array([['aaa', 'bbb'],
              ['ccc', 'ddd']])

C = np.concatenate((A, B), axis=1)
C

array([['a', 'b', 'aaa', 'bbb'],
       ['c', 'dd', 'ccc', 'ddd']], dtype='<U3')

# Dot product
- jest to zwykłe przemnażanie macierzy zgodne z zasadami algebry liniowej,
- stanowi to przeciwieństwo 'element-wise'
- warunek możliwości przemnożenia dwóch macierzy:  
  liczba kolumn pierwszej macierzy musi być równa liczbie wierszy drugiej macierzy: (5, 3) * (3, 5) = (5, 5)

In [91]:
np.random.seed(0)
mat1 = np.random.randint(10, size=(5, 3))
mat2 = mat1.T

In [92]:
mat1.shape, mat2.shape

((5, 3), (3, 5))

In [93]:
mat3 = np.dot(mat1, mat2)
mat3

array([[ 34,  42,  21,  38,  43],
       [ 42, 139,  62, 115,  89],
       [ 21,  62,  38,  59,  66],
       [ 38, 115,  59, 101,  94],
       [ 43,  89,  66,  94, 129]], dtype=int32)

# Operatory porównywania
- Numpy wykorzystuje takie same operatory porównywania jak 'czysty' python,
- porównywane są ze sobą wszystkie elementy porównywanych macierzy,
- macierz może być również porównywana ze skalarem, 

In [94]:
a1

array([[1, 2, 3]])

In [95]:
a2

array([[1. , 2. , 3.3],
       [4. , 5. , 6.5]])

In [96]:
a1 < a2

array([[False, False,  True],
       [ True,  True,  True]])

# Sortowanie elementów macierzy (do zr)
- nie wydaje się to być specjalnie przydatne

# Zamiana obrazków na macierze

<img src='images/panda.png'/>

In [97]:
from matplotlib.image import imread

In [98]:
panda = imread('images/panda.png')
type(panda)

numpy.ndarray

In [99]:
panda.size, panda.shape, panda.ndim

(24465000, (2330, 3500, 3), 3)

In [100]:
panda

array([[[0.05490196, 0.10588235, 0.06666667],
        [0.05490196, 0.10588235, 0.06666667],
        [0.05490196, 0.10588235, 0.06666667],
        ...,
        [0.16470589, 0.12941177, 0.09411765],
        [0.16470589, 0.12941177, 0.09411765],
        [0.16470589, 0.12941177, 0.09411765]],

       [[0.05490196, 0.10588235, 0.06666667],
        [0.05490196, 0.10588235, 0.06666667],
        [0.05490196, 0.10588235, 0.06666667],
        ...,
        [0.16470589, 0.12941177, 0.09411765],
        [0.16470589, 0.12941177, 0.09411765],
        [0.16470589, 0.12941177, 0.09411765]],

       [[0.05490196, 0.10588235, 0.06666667],
        [0.05490196, 0.10588235, 0.06666667],
        [0.05490196, 0.10588235, 0.06666667],
        ...,
        [0.16470589, 0.12941177, 0.09411765],
        [0.16470589, 0.12941177, 0.09411765],
        [0.16470589, 0.12941177, 0.09411765]],

       ...,

       [[0.13333334, 0.07450981, 0.05490196],
        [0.12156863, 0.0627451 , 0.04313726],
        [0.10980392, 0