# Języki programowania w Data Science (Python)
## 1. NumPy
"The fundamental package for scientific computing with Python" ~ numpy.org

In [116]:
import numpy as np # Standardowo numpy importuje się pod tym aliasem. Podobnie jak pandas nazwa nie jest długa, ale potrafi wystąpić kilka razy w jednej linijce, więc warto skrócić.
np.show_config()

{
  "Compilers": {
    "c": {
      "name": "msvc",
      "linker": "link",
      "version": "19.44.35215",
      "commands": "cl"
    },
    "cython": {
      "name": "cython",
      "linker": "cython",
      "version": "3.1.3",
      "commands": "cython"
    },
    "c++": {
      "name": "msvc",
      "linker": "link",
      "version": "19.44.35215",
      "commands": "cl"
    }
  },
  "Machine Information": {
    "host": {
      "cpu": "x86_64",
      "family": "x86_64",
      "endian": "little",
      "system": "windows"
    },
    "build": {
      "cpu": "x86_64",
      "family": "x86_64",
      "endian": "little",
      "system": "windows"
    }
  },
  "Build Dependencies": {
    "blas": {
      "name": "scipy-openblas",
      "found": true,
      "version": "0.3.30",
      "detection method": "pkgconfig",
      "include directory": "C:/Users/runneradmin/AppData/Local/Temp/cibw-run-5t0hy_xh/cp313-win_amd64/build/venv/Lib/site-packages/scipy_openblas64/include",
      "lib directo



NumPy oparty jest o interfejsy API BLAS (Basic Linear Algebra Subprograms) i LAPACK (Linear ALgebra PACKage), czyli wysoce zoptymalizowane pod określone typy precesorów narzędzia do operacji numerycznych na poziomie wektorów i macierzy. Ich implementacje dostępne są w Fortranie i C a domyślnie instalowaną przez NumPy jest open-source'owy OpenBLAS. Istnieje możliwość instalacji NumPy wykorzystującego na przykład Intelowski MKL - ten pakiet jest zwykle trochę szybszy od OpenBLASa, ale zajmuje 700 zamiast 30 MB.

## 2. NumPy'owe tablice
Rdzeniem biblioteki NumPy jest obiekt ndarray (od n-dimentional-array). Jest to tablica zawierająca elementy tego samego typu, indeksowana tuplą nieujemnych liczb całkowitych. W przeciwieństwie do list pythona, NumPy'owe tablice zawierają bezpośrednio obiekty w jednym, nieprzerwanym bloku pamięci (tak, jak w C, czy Fortranie) a nie referencje do obiektów. Umożliwia to znaczne przyspieczenie operacji na tablicach kosztem pewnych ograniczeń.

 - Tablice NumPy mają stały rozmiar podczas tworzenia, w przeciwieństwie do list Pythona (które mogą rosnąć dynamicznie). Zmiana rozmiaru tablicy ndarray spowoduje utworzenie nowej tablicy i usunięcie oryginalnej.

 - Wszystkie elementy w tablicy NumPy muszą zawierać ten sam typ danych, a zatem ich elementy mają ten sam rozmiar w pamięci. Wyjątkiem są tablice obiektów, ale powinno być to traktowane jako wytrych raczej niż standardowe wykorzystanie.

 - Tablice NumPy ułatwiają zaawansowane operacje matematyczne i inne rodzaje operacji na dużej liczbie danych. Zazwyczaj takie operacje są wykonywane wydajniej i przy użyciu mniejszej ilości kodu niż jest to możliwe przy użyciu wbudowanych sekwencji Pythona.

 - Rosnąca liczba naukowych i matematycznych pakietów opartych na Pythonie wykorzystuje tablice NumPy; chociaż zazwyczaj obsługują one dane wejściowe w postaci sekwencji Pythona, konwertują takie dane wejściowe na tablice NumPy przed ich przetworzeniem i często zwracają już tablice. Wniosek z tego jest taki, że do korzystania z większości naukowego/matematycznego oprogramowania w Pythonie nie wystarczy wiedza o wbudowanych sekwencjach - trzeba również wiedzieć, jak korzystać z tablic NumPy.


In [108]:
# Poniżej sposób na sprawdzenie, ile Bajtów w pamięci zajmuje tablica
zeros = np.zeros(10, dtype=float) # Tworzymy tablicę wypełnioną zerami, typem danych jest float
np.multiply(zeros.size, zeros.itemsize) # Przemnażamy ilość elementów w tablicy przez wielkość każdego z nich w pamięci

np.int64(80)

In [109]:
# Gdy mamy wątpliwości co do działania jakiejkolwiek NumPy'owej operacji, możemy wypisać jej dokumentację w programie, lub sprawdzić na stronie numpy.org
print(np.multiply.__doc__)

multiply(x1, x2, /, out=None, *, where=True, casting='same_kind', order='K', dtype=None, subok=True[, signature])

Multiply arguments element-wise.

Parameters
----------
x1, x2 : array_like
    Input arrays to be multiplied.
    If ``x1.shape != x2.shape``, they must be broadcastable to a common
    shape (which becomes the shape of the output).
out : ndarray, None, or tuple of ndarray and None, optional
    A location into which the result is stored. If provided, it must have
    a shape that the inputs broadcast to. If not provided or None,
    a freshly-allocated array is returned. A tuple (possible only as a
    keyword argument) must have length equal to the number of outputs.
where : array_like, optional
    This condition is broadcast over the input. At locations where the
    condition is True, the `out` array will be set to the ufunc result.
    Elsewhere, the `out` array will retain its original value.
    Note that if an uninitialized `out` array is created via the default


#### Porównanie szybkości
Sprawdźmy, ile czasu zaoszczędzimy na prostej operacji generowania dwóch list z losowymi liczbami i przemnażania ich elementów.

In [121]:
import random
from time import perf_counter

POWER = 7

In [122]:
t_start = perf_counter()
p_a = [random.randint(0,100) for _ in range(10**POWER)] # looping
p_b = [random.randint(0,100) for _ in range(10**POWER)]
t_end = perf_counter()
print("Input list creation time: ", t_end - t_start)
t_start = perf_counter()
p_c = []
for i in range(len(p_a)): # looping
    p_c.append(p_a[i]*p_b[i]) # allocating memory for list expansion
t_end = perf_counter()
print("Result list calculation time: ", t_end - t_start)

Input list creation time:  7.949656400131062
Result list calculation time:  1.6238356998655945


In [None]:
t_start = perf_counter()
lp_a = [random.randint(0,100) for _ in range(10**POWER)] # looping
lp_b = [random.randint(0,100) for _ in range(10**POWER)]
t_end = perf_counter()
print("Input list creation time: ", t_end - t_start)
t_start = perf_counter()
lp_c = [lp_a[i] * lp_b[i] for i in range(len(lp_a))] # looping
t_end = perf_counter()
print("Result list calculation time: ", t_end - t_start)

In [None]:
t_start = perf_counter()
np_a = np.random.randint(0,100, size=10**POWER) # vectorized operation
np_b = np.random.randint(0,100, size=10**POWER)
t_end = perf_counter()
print("List creation time: ", t_end - t_start)
t_start = perf_counter()
np_c = np_a * np_b # vectorized operation
t_end = perf_counter()
print("Result list calculation time: ", t_end - t_start)

### Co sprawia, że NumPy jest szybki?
Numpy opiera swoją wydajność na wektoryzacji. Kod zwektoryzowany (vectorized) pozwala procesorowi wykonać operacje na wielu elementach wektora w tym samym czasie. Wiele procesorów ma zestawy instrukcji "wektorowych" lub "SIMD", które stosują tę samą operację jednocześnie do dwóch, czterech lub więcej elementów danych. Jeśli spojrzycie na stronę na wikipedii BLAS'a, to zobaczycie, że jego funkcjonalności podzielone są na poziomy, gdzie pierwszy poziom, to operacje wektor-wektor, drugi macierz-wektor a trzeci macierz-macierz. Każdy z tych poziomów oferuje optymalizacje dla konkretnego typu operacji. Wszelkie niezoptymalizowane pętle i indeksowanie odnoszące się do pojedynczych elementów nie pozwalają procesorom wykorzystać pełni swojej mocy. Dodatkowo ciągła struktura tablic NumPy o określonym rozmiarze przyspiesza operacje na pamięci (patrz pierwszy przykład, gdzie traciliśmy czas na rozszerzanie listy).

## 3. Korzystanie z tablic
Zapisywanie operacji obliczeniowych w sposób zwektoryzowany jest pewną sztuką samą w sobie. Nie iterujemy już po elementach tablicy zamiast tego umieszczając je we wzorze jak zwykłe zmienne Niemniej zmieniając sposób myślenia o kodzie i zdobywając pewną wprawę jesteśmy w stanie zapisać skomplikowane działania w bardzo elegancki, 'pythonowy' sposób - ta czytelność operacji matematycznych to kolejna zaleta NumPy'owych tablic.

### Generowanie tablic

#### Wektory

In [2]:
# Poniżej wygodne tworzenie mniejszych tablic poprzez rzutowanie listy. Przy tworzeniu warto okreslić typ choćby dla własnej świadomości, ale przy jego braku NumPy spróbuje go wywnioskować..
np.array([1, 3, 5, 7], dtype=int)

array([1, 3, 5, 7])

In [16]:
# Bardzo często spotykanymi sposobami inicjacji są metody tworzące serię liczb. Arange zwraca nam wartości na przedziale (górna granica otwarta) rozmieszczone w określonej odległości od siebie.
np.arange(0.0, 10.1, 1.0)

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.])

In [14]:
# Linspace natomiast zwraca n równo rozłożonych liczb i zawiera górną granicę przedziału. Poniżej przykład dwuwymiarowy.
np.linspace([0.0, 0.0], [100.0, 200.0], 11)

array([[  0.,   0.],
       [ 10.,  20.],
       [ 20.,  40.],
       [ 30.,  60.],
       [ 40.,  80.],
       [ 50., 100.],
       [ 60., 120.],
       [ 70., 140.],
       [ 80., 160.],
       [ 90., 180.],
       [100., 200.]])

#### Macierze

In [13]:
# Funkcja eye generuje kwadratową macierz jednostkową (identycznościową) o zadanym rozmiarze.
np.eye(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [5]:
# Za pomocą funkcji diag możemy wygenerować macierz zer z konkretną sekwencją liczb na danej diagonali
np.diag(np.arange(6), -1)

array([[0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0],
       [0, 1, 0, 0, 0, 0, 0],
       [0, 0, 2, 0, 0, 0, 0],
       [0, 0, 0, 3, 0, 0, 0],
       [0, 0, 0, 0, 4, 0, 0],
       [0, 0, 0, 0, 0, 5, 0]])

In [6]:
# Albo zwrócić wartości na zadanej diagonali w już istniejącej macierzy
np.diag(np.eye(4))

array([1., 1., 1., 1.])

#### Funkcje n-wymiarowe

In [113]:
# Funkcja zeros generuje macierz zer. Służy często do rezerwowania miejsca na tablicę, do której konkretne wartości wpisujemy już później.
np.zeros([2]*4, dtype=float)

array([[[[0., 0.],
         [0., 0.]],

        [[0., 0.],
         [0., 0.]]],


       [[[0., 0.],
         [0., 0.]],

        [[0., 0.],
         [0., 0.]]]])

In [8]:
# Bardziej zaawansowane macierze możemy generować wykorzystując kafelkowanie. Funkcja tile pozwala określić nam charakterystykę kafelków oraz jak je rozmieścić. Poniżej szachownica.
mat = np.tile([[1,0],
               [0,1]], (4,4))
mat

array([[1, 0, 1, 0, 1, 0, 1, 0],
       [0, 1, 0, 1, 0, 1, 0, 1],
       [1, 0, 1, 0, 1, 0, 1, 0],
       [0, 1, 0, 1, 0, 1, 0, 1],
       [1, 0, 1, 0, 1, 0, 1, 0],
       [0, 1, 0, 1, 0, 1, 0, 1],
       [1, 0, 1, 0, 1, 0, 1, 0],
       [0, 1, 0, 1, 0, 1, 0, 1]])

In [9]:
# Przy odrobinie umysłowej gimnastyki możemy też wygenerować struktury wyżej-wymiarowe. Poniżej kostka w szachownicę.
mat = np.tile([[[1,0],[0,1]],[[0,1],[1,0]]], (2,2,2))
mat

array([[[1, 0, 1, 0],
        [0, 1, 0, 1],
        [1, 0, 1, 0],
        [0, 1, 0, 1]],

       [[0, 1, 0, 1],
        [1, 0, 1, 0],
        [0, 1, 0, 1],
        [1, 0, 1, 0]],

       [[1, 0, 1, 0],
        [0, 1, 0, 1],
        [1, 0, 1, 0],
        [0, 1, 0, 1]],

       [[0, 1, 0, 1],
        [1, 0, 1, 0],
        [0, 1, 0, 1],
        [1, 0, 1, 0]]])

In [10]:
# Najczęściej jednak spotykanym sposobem generacji jest wykorzystywanie modułu liczb pseudolosowych. Poniżej generowanie z rozkładu jednostajnego.
np.random.uniform(low=0, high=10, size=[4,4])

array([[0.81609487, 8.50595637, 4.88147536, 9.41505079],
       [2.1392578 , 2.80969868, 3.41989489, 3.43738714],
       [3.34310295, 2.79984705, 7.86511031, 2.33113222],
       [2.20226873, 4.43984451, 3.33998564, 3.18309439]])

In [124]:
# Podobnie generowanie liczb pseudolosowych całkowitych
np.random.randint(low=0, high=10, size=[4,4])

array([[4, 8, 0, 7],
       [6, 4, 7, 9],
       [9, 0, 3, 1],
       [9, 7, 2, 6]], dtype=int32)

In [12]:
# Oraz liczb z rozkładu normalnego
np.random.normal(loc=10.0, scale=5.0, size=[3,3,3])

array([[[11.82411327,  5.53063547, 20.20113343],
        [11.96394451,  8.3163342 , 16.93138682],
        [16.01550722, 10.55178833,  4.70739079]],

       [[ 5.95351162,  8.39886458,  6.98567687],
        [13.40390357, 19.08579156,  4.82325553],
        [ 6.95556935,  6.9742612 ,  9.61922876]],

       [[ 6.53516324, 10.91715564,  8.66379145],
        [22.30949804,  1.96225138, 12.02003343],
        [14.13226116, 13.10779513, 12.3206679 ]]])

### Ćwiczenie 1
Jak utworzyć w numpy następującą tablicę o wymiarach 6x6?: \
array([[ 0.,  0.,  0.,  0.,  0.,  0.],\
       [ 2.,  4.,  6.,  8., 10., 12.],\
       [ 4.,  8., 12., 16., 20., 24.],\
       [ 6., 12., 18., 24., 30., 36.],\
       [ 8., 16., 24., 32., 40., 48.],\
       [10., 20., 30., 40., 50., 60.]])

In [18]:
np.linspace([0.0, 0.0, 0.0, 0.0, 0.0, 0.0], [10., 20., 30., 40., 50., 60], 6)
 

array([[ 0.,  0.,  0.,  0.,  0.,  0.],
       [ 2.,  4.,  6.,  8., 10., 12.],
       [ 4.,  8., 12., 16., 20., 24.],
       [ 6., 12., 18., 24., 30., 36.],
       [ 8., 16., 24., 32., 40., 48.],
       [10., 20., 30., 40., 50., 60.]])

In [24]:
np.linspace(np.zeros(6), np.arange(10,61,10),6)

array([[ 0.,  0.,  0.,  0.,  0.,  0.],
       [ 2.,  4.,  6.,  8., 10., 12.],
       [ 4.,  8., 12., 16., 20., 24.],
       [ 6., 12., 18., 24., 30., 36.],
       [ 8., 16., 24., 32., 40., 48.],
       [10., 20., 30., 40., 50., 60.]])

### Indeksowanie

In [19]:
# Przygotujmy przykładowy wektor i tablicę
sample_table = np.arange(20)
print(sample_table)
sample_matrix = np.tile(np.arange(8), [8,1])
sample_matrix

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]


array([[0, 1, 2, 3, 4, 5, 6, 7],
       [0, 1, 2, 3, 4, 5, 6, 7],
       [0, 1, 2, 3, 4, 5, 6, 7],
       [0, 1, 2, 3, 4, 5, 6, 7],
       [0, 1, 2, 3, 4, 5, 6, 7],
       [0, 1, 2, 3, 4, 5, 6, 7],
       [0, 1, 2, 3, 4, 5, 6, 7],
       [0, 1, 2, 3, 4, 5, 6, 7]])

In [25]:
# Tak, jak w przypadku pythonowych sekwencji możemy odwoływać się do elementów po indeksie
print(sample_table[5])
# Jednak odmiennie od nich w przypadku tablic wielowymiarowych indeksy kolejnych wymiarów umieszczamy po przecinku
sample_matrix[5,5]

5


np.int64(5)

In [26]:
# Możemy też odwołać się do wycinka tablicy (slicing). Wycinek definiujemy poprzez podanie wartości start:stop:krok.
sample_table[2:10:2]

array([2, 4, 6, 8])

In [47]:
# Slicing generalizuje się w analogiczny sposób na macierze.
sample_matrix[::2,::-2] # Gdy nie podamy wartości, NumPy użyje domyślnych (start=0,stop=-1,krok=1). Jeśli podamy ujemną wartość kroku, to dostaniemy odwrócony wynik.

array([[7, 5, 3, 1],
       [7, 5, 3, 1],
       [7, 5, 3, 1],
       [7, 5, 3, 1]])

In [None]:
sample_matrix.strides #ile w pamieci nalezy sie przemiescic zeby dojsc do nastepnego elemntu

In [None]:
# Czasem chcemy wiedzieć, na jakim indeksie znajduje się n-ty element danej tablicy. Możemy wtedy 'rozwikłać' indeks.
np.unravel_index(100, (8,8,8)) #adres w pamieci od 800-setnego bajta w pamieci

(np.int64(1), np.int64(4), np.int64(4))

### Ćwiczenie 2.
Utwórz wycinek macierzy sample_matrix, w którym znajdują się tylko jej wewnętrzne parzyste elementy

In [74]:
sample_matrix[1:-1:,2::2]

array([[2, 4, 6],
       [2, 4, 6],
       [2, 4, 6],
       [2, 4, 6],
       [2, 4, 6],
       [2, 4, 6]])

### Indeksowanie tablicami
Bardzo elastycznym mechanizmem unikalnym dla tablic NumPy jest możliwość odwoływania się do konkretnych elementów na podstawie tablicy indeksów.

In [44]:
# Poniżej przykład zwracający widok składający się z elementów na wskazanych indeksach. Jak widać możemy powtarzać indeksy oraz indeksować liczbami ujemnymi.
sample_table[[2,4,6,6,-3]]

array([ 2,  4,  6,  6, 17])

In [45]:
# Tablice indeksujące mogą przybrać też formę masek o wartościach prawda-fałsz. Biorąc pod uwagę możliwości działań na tablicach tworzenie takich masek jest bardzo wygodne.
sample_matrix > 4

array([[False, False, False, False, False,  True,  True,  True],
       [False, False, False, False, False,  True,  True,  True],
       [False, False, False, False, False,  True,  True,  True],
       [False, False, False, False, False,  True,  True,  True],
       [False, False, False, False, False,  True,  True,  True],
       [False, False, False, False, False,  True,  True,  True],
       [False, False, False, False, False,  True,  True,  True],
       [False, False, False, False, False,  True,  True,  True]])

In [46]:
# Zaaplikujmy teraz powstałą maskę, aby łatwo odfiltrować wartości tablicy.
sample_matrix[sample_matrix > 4]

array([5, 6, 7, 5, 6, 7, 5, 6, 7, 5, 6, 7, 5, 6, 7, 5, 6, 7, 5, 6, 7, 5,
       6, 7])

### Ćwiczenie 3.
Utwórz macierz o wymiarach 7x7 o wartościach wylosowanych z rozkładu normalnego o średniej 5 i odchyleniu standardowym 2. Ile jest w niej wartości wyższych od 2,4,6,8?

In [78]:
my_matrix = np.random.normal(loc=5.0, scale=2.0, size=[7,7])
my_matrix

array([[ 6.70077193, 10.19501437,  4.90123799,  8.46999682,  7.70265192,
         3.81603961,  4.76126554],
       [ 3.54896847,  6.74507401,  4.44536251,  1.42500042,  8.65188717,
         3.85753338,  6.52515766],
       [ 0.90091353,  1.95611555,  0.61015565,  7.54609191,  3.98942454,
         6.29321372,  6.87969962],
       [ 7.2702035 ,  3.66998853,  8.94795564,  5.82179478,  2.69816606,
         3.08002987,  6.55748385],
       [ 4.79792196,  6.48468095,  6.56741178,  4.72684288,  6.02466077,
         4.52041282,  2.33323213],
       [ 5.14935554,  5.12391147,  4.2584114 ,  4.72878403,  5.78632299,
         3.37900243,  5.71651842],
       [ 5.94903493,  1.12260319,  2.33429642,  4.61117885, -1.68049589,
         6.41639096,  3.62891527]])

In [90]:
print(my_matrix>2)
len(my_matrix[my_matrix>2])

[[ True  True  True  True  True  True  True]
 [ True  True  True False  True  True  True]
 [False False False  True  True  True  True]
 [ True  True  True  True  True  True  True]
 [ True  True  True  True  True  True  True]
 [ True  True  True  True  True  True  True]
 [ True False  True  True False  True  True]]


43

In [89]:
print(my_matrix>4)
len(my_matrix[my_matrix>4])

[[ True  True  True  True  True False  True]
 [False  True  True False  True False  True]
 [False False False  True False  True  True]
 [ True False  True  True False False  True]
 [ True  True  True  True  True  True False]
 [ True  True  True  True  True False  True]
 [ True False False  True False  True False]]


32

In [None]:
tablica=np.random.normal(loc=5.0, scale=2.0, size=[7,7])
 
for i in range(2,10,2):
    print(tablica[tablica>i].__len__())
 

In [88]:
print(my_matrix>6)
len(my_matrix[my_matrix>6])

[[ True  True False  True  True False False]
 [False  True False False  True False  True]
 [False False False  True False  True  True]
 [ True False  True False False False  True]
 [False  True  True False  True False False]
 [False False False False False False False]
 [False False False False False  True False]]


17

In [87]:
print(my_matrix>8)
len(my_matrix[my_matrix>8])

[[False  True False  True False False False]
 [False False False False  True False False]
 [False False False False False False False]
 [False False  True False False False False]
 [False False False False False False False]
 [False False False False False False False]
 [False False False False False False False]]


4

### Operacje numeryczne na tablicach
Poza strukturą tablicy NumPy zawiera bardzo rozwinięty pakiet operacji algebraicznych. Po pierwsze są w nim zaimplementowane odpowiedniki praktycznie całego modułu math z biblioteki standardowej. Po drugie rozwinięty pakiet numpy.linalg dostarcza zoptymalizowane operacje algebry liniowej oparte o BLAS i LAPACK.

In [91]:
# Stwórzmy kilka tablic i macierzy do dalszych działań
sample_vector_1 = np.array([0,1,2,3,4,5])
sample_vector_2 = np.array([4,5,6,7,8,9])

sample_matrix_1 = np.array([[1,2],
                            [1,2],
                            [1,2]])

sample_matrix_2 = np.array([[0,1,0],
                            [0,1,0],
                            [0,1,0]])

sample_matrix_3 = np.array([[2,4,6],
                            [2,4,6],
                            [2,4,6]])

In [92]:
# Podobnie jak pythonową listę, NumPy pozwala łatwo zsumować wartości tablicy.
np.sum(sample_vector_1)

np.int64(15)

In [93]:
# Dostarcza jednak wiele więcej operacji takich, jak średnia.
np.mean(sample_matrix_1)

np.float64(1.5)

In [94]:
# Możemy zapisywać operacje tablica-skalar tak, jak standardowe operacje liczbowe w pierwszym konspekcie.
sample_vector_2 ** 2

array([16, 25, 36, 49, 64, 81])

In [95]:
# Jeśli wymiary są zgodne (takie same, lub wymiar jednego obiektu możemy uzyskać multiplikując wymiar drugiego), to możemy podobnie operować na poziomie tablica-tablica.
sample_vector_1 + sample_vector_2

array([ 4,  6,  8, 10, 12, 14])

In [96]:
sample_vector_1 + np.array([[4,5,6,7,8,9],
                            [4,5,6,7,8,9]])

array([[ 4,  6,  8, 10, 12, 14],
       [ 4,  6,  8, 10, 12, 14]])

In [97]:
print(np.add.__doc__)

add(x1, x2, /, out=None, *, where=True, casting='same_kind', order='K', dtype=None, subok=True[, signature])

Add arguments element-wise.

Parameters
----------
x1, x2 : array_like
    The arrays to be added.
    If ``x1.shape != x2.shape``, they must be broadcastable to a common
    shape (which becomes the shape of the output).
out : ndarray, None, or tuple of ndarray and None, optional
    A location into which the result is stored. If provided, it must have
    a shape that the inputs broadcast to. If not provided or None,
    a freshly-allocated array is returned. A tuple (possible only as a
    keyword argument) must have length equal to the number of outputs.
where : array_like, optional
    This condition is broadcast over the input. At locations where the
    condition is True, the `out` array will be set to the ufunc result.
    Elsewhere, the `out` array will retain its original value.
    Note that if an uninitialized `out` array is created via the default
    ``out=None``,

In [98]:
# NumPy zawiera też jednak dedykowane funkcje, których działanie możemy dodatkowo modyfikować parametrami. Przykładowo poniżej wynik pierwszej operacji nadpisuje pierwszy wektor.
np.add(sample_vector_1, sample_vector_2, out=sample_vector_1)

array([ 4,  6,  8, 10, 12, 14])

In [99]:
# Poniżej pojedyncza deklaracja pozwalająca nam wyliczyć rząd macierzy (miara wymiarów przestrzeni wektorowej rozpiętej przez wektory jej rzędów)
np.linalg.matrix_rank(sample_matrix_3)

np.int64(1)

In [None]:
sample_matrix_2 * sample_matrix_3

In [None]:
# Mnożenie macierzy
sample_matrix_2 @ sample_matrix_3

### Manipulacje wymiarami tablic
Tablice NumPy przechowywane są zawsze jako ciągły blok w pamięci. Kształt tablicy w programie nie ma więc wpływu na jej zapis w pamięci, ale ma duży wpływ na to, jak wykonujemy na niej operacje. Dane, które wczytujemy nie zawsze przyjmują pożądany przez nas kształt a w wyniku niektórych operacji możemy spłaszczyć tabelę, lub w inny sposób zmienić jej wymiary. W takich sytuacjach możemy żyć wachlarza narzędzi operujących na kształcie tablic.

In [100]:
# Każda tablica posiada atrybut opiszujący jej kształt.
sample_matrix_2.shape

(3, 3)

In [101]:
# Niezgodność wymiarów może przeszkodzić nam w wykonaniu operacji. Przykładowa macierz i wektor mają tyle samo elementów, ale ułożonych w inny kształt.
sample_matrix_1 * sample_vector_1

ValueError: operands could not be broadcast together with shapes (3,2) (6,) 

In [103]:
# Aby wykonać operację możemy na przykład spłaszczyć macierz do kształtu wektora.
sample_matrix_1.flat * sample_vector_1

array([ 4, 12,  8, 20, 12, 28])

In [104]:
# Jeśli jednak zależy nam na utrzymaniu wymiarów macierzy, to możemy użyć na koniec funkcji reshape, która nadaje tablic ustalony kształt zgodny z jej liczba elementów.
np.multiply(sample_matrix_1.flat, sample_vector_1).reshape((3, 2))

array([[ 4, 12],
       [ 8, 20],
       [12, 28]])

In [None]:
print(sample_matrix_1.size)
sample_matrix_1.reshape((3, -1)).shape  # -1 oznacza "cokolwiek pasuje"

In [None]:
# Możemy łączyć ze sobą wektory tak, jak listy w pythonie.
np.concatenate((sample_vector_1, sample_vector_2))

In [None]:
# W przypadku wyżej wymiarowych tablic natomiast paleta operacji jest bogatsza i wyraża różne sposoby doklejania.
np.vstack((sample_matrix_2, sample_matrix_3))

In [None]:
np.hstack((sample_matrix_2, sample_matrix_3))

In [None]:
np.dstack((sample_matrix_2, sample_matrix_3))

In [None]:
np.stack((sample_matrix_2, sample_matrix_3), axis=2)

### Ćwiczenie 4
Zacznij od tablicy z ćwiczenia 1. Dodaj drugą tablicę o takim samym rozmiarze z "szumem" wylosowanym z rozkładu normalnego o średniej zero i odchyleniu standardowym 0.5. Wylicz średnią dla każdego rzędu.

In [105]:
m1 = np.linspace([0.0, 0.0, 0.0, 0.0, 0.0, 0.0], [10., 20., 30., 40., 50., 60], 6)
m2 = np.random.normal(loc=0.0, scale=0.5, size=[6,6])

m3 = np.add(m1, m2)

row_mean = np.mean(m3, axis=1)
print(row_mean)

[1.63231903e-02 6.99911351e+00 1.41572447e+01 2.10747744e+01
 2.80582822e+01 3.49486735e+01]


In [106]:
sample_matrix_1 = np.linspace(np.zeros(6), np.arange(10,60.1,10), 6);
szum = np.random.normal(loc=0, scale=0.5, size=sample_matrix_1.shape)
matrix = sample_matrix_1 + szum
# print(matrix)
print(matrix.mean(axis=1))

[-8.85071903e-03  7.04592932e+00  1.39319233e+01  2.10200785e+01
  2.83082145e+01  3.48702623e+01]


### Typy danych
NumPy pozwala na znacznie większy poziom kontroli nad typami danych zawartymi w tablicach. Możemy na przykład okreslić, że w danej tablicy będa zawierały się elementy o konkretnym typie całkowitym reprezentowanym przez mniejsza ilość bajtów, niż pythonowy int (konkretne rozmiary są zależne od platformy). Poza optymalizacją pamięciową i wydajnościową mamy też dostęp do innych całkiem ciekawych typów i możemy nawet definiować własne.

In [None]:
# Szczególnie przydatny jest typ datetime opisujący datę oraz godzinę
yesterday = np.datetime64('today') - np.timedelta64(1)
today     = np.datetime64('today')
tomorrow_noon  = np.datetime64('today') + np.timedelta64(1) + np.timedelta64(12, 'h')
tomorrow_noon

In [None]:
# Wykorzystując poznane wcześniej operacje na zakresach możemy uzyskać bardzo ciekawe wyniki. Poniżej wypisanie dat z kalendarza z lipca 2016 roku.
Z = np.arange('2016-07', '2016-08', dtype='datetime64[D]')
print(Z)

In [107]:
# Utwórzmy teraz własny typ danych reprezentujący kolor jako cztery nieoznakowane bajty (RGBA).
dt = np.dtype([("r", np.ubyte), ("g", np.ubyte), ("b", np.ubyte), ("a", np.ubyte)])
dt

dtype([('r', 'u1'), ('g', 'u1'), ('b', 'u1'), ('a', 'u1')])

#### Przykład: Wektoryzacja random walkera
Przyjrzyjmy się RandomWalkerowi z pierwszego konspektu. Jak bardzo moglibyśmy go przyspieszyć wykorzystując zwektoryzowane operacje z NumPy?

In [None]:
from typing import List, Generator

class RandomWalker:
    def __init__(self):
        self.position = [0.0,0.0]

    def walk(self, n) -> Generator[float]:
        for _ in range(n):
            yield self.position.copy()
            self.position[0] += random.uniform(-1.0, 1.0)
            self.position[1] += random.uniform(-1.0, 1.0)

In [None]:
class RandomWalkerNp:
    def __init__(self):
        self.position = np.zeros((1,2))

    def walk(self, n) -> List[float]:
        steps = np.concatenate((self.position, np.random.uniform(-1.0, 1.0, (n,2))))
        positions = np.cumsum(steps, 0)
        self.position = positions[-1]
        return positions

In [None]:
walker = RandomWalker()
t_start = perf_counter()
list(walker.walk(10**POWER))
t_end = perf_counter()
t_end - t_start

In [None]:
fast_walker = RandomWalkerNp()
t_start = perf_counter()
path = fast_walker.walk(10**POWER)
t_end = perf_counter()
t_end - t_start

## 4. Zadania
1. Odwróć wektor (ostatni element ma znaleźć się na początku itd.).
2. Utwórz tablicę 10x10 z losowymi wartościami i znajdź jej wartość średnią, minimalną i maksymalną.
3. Utwórz tablicę 3-wymiarową z elementami o wartości 1. Następnie utwórz drugą tablicę, która zawiera pierwszą tablicę otoczoną zerami (1 wewnątrz i 0 na obrzeżu).
4. Jak znaleźć najbliższą wartość (danemu skalarowi) w wektorze?
5. Jak zamienić miejscami dwa wiersze tablicy?
6. ★ Rozważmy dany wektor, jak dodać 1 do każdego elementu indeksowanego przez drugi wektor?
7. ★ Wykonaj zadanie 6 z poprzednich zajęć wykorzystując typy NumPy'owe i obliczenia zwektoryzowane. Zmierz, jakie przyspieszenie udało Ci się uzyskać.

Zadanie 1. Odwróć wektor (ostatni element ma znaleźć się na początku itd.).

In [111]:
v = [1,2,3,4,5]

v[::-1]

[5, 4, 3, 2, 1]

Zadanie 2. Utwórz tablicę 10x10 z losowymi wartościami i znajdź jej wartość średnią, minimalną i maksymalną.

In [141]:
mytable = np.random.randint(low=0, high=10, size=[10,10])
mytable



array([[8, 2, 5, 6, 5, 6, 3, 1, 3, 3],
       [0, 5, 5, 6, 2, 3, 3, 5, 3, 4],
       [0, 2, 7, 9, 0, 5, 5, 2, 5, 0],
       [0, 4, 7, 0, 9, 6, 9, 1, 3, 2],
       [0, 2, 0, 4, 8, 4, 2, 9, 2, 0],
       [1, 9, 5, 6, 3, 2, 2, 0, 2, 8],
       [7, 5, 8, 8, 2, 4, 2, 9, 2, 0],
       [9, 5, 2, 2, 1, 0, 8, 9, 6, 3],
       [2, 2, 8, 9, 8, 9, 6, 6, 3, 3],
       [0, 0, 5, 4, 5, 4, 6, 4, 1, 7]], dtype=int32)

In [147]:
avg = sum(sum(mytable))/(len(mytable)*len(mytable))
avg1 = np.mean(mytable)
print(f"1): {avg}")
print(f"2): {avg1}")

mymin = np.min(mytable)
mymax = np.max(mytable)

print(mymin)
print(mymax)

print(mytable.min())
print(mytable.max())

std = np.std(mytable)
print(std)
print(mytable.std())

1): 4.07
2): 4.07
0
9
0
9
2.8539621581233345
2.8539621581233345


Zadanie 3. Utwórz tablicę 3-wymiarową z elementami o wartości 1. Następnie utwórz drugą tablicę, która zawiera pierwszą tablicę otoczoną zerami (1 wewnątrz i 0 na obrzeżu).

In [144]:
mytable3 = np.eye(3)
mytable3
# mymin = np.random.normal(loc=0.0, scale=0.5, size=[6,6])
# mymax = np.add(m1, m2)
# row_mean = np.mean(m3, axis=1)
# print(row_mean)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])