# NumPy - wprowadzenie

Na podstawie:
- rozdz. 4 książki `Wes McKinney, "Python w analizie danych. Przetwarzanie danych za pomocą pakietów Pandas i NumPy oraz środowiska IPython. Wydanie II", Helion, 2018`, https://helion.pl/ksiazki/python-w-analizie-danych-przetwarzanie-danych-za-pomoca-pakietow-pandas-i-numpy-oraz-srodowiska-ipy-wes-mckinney,pytand.htm#format/d
- dokumentacji NumPy: https://numpy.org/doc/stable/user/absolute_beginners.html

NumPy jest pakietem do obliczeń numerycznych Python. Jest znacznie bardziej efektywny w przetwarzaniu danych tablicowych, niż standardowe typy danych Python.

In [14]:
import numpy as np

In [15]:
numpy_array = np.arange(100000000)
%time numpy_array = numpy_array * 2

CPU times: total: 359 ms
Wall time: 371 ms


In [16]:
python_list = list(range(100000000))
%time python_list = [x * 2 for x in python_list]

CPU times: total: 50.2 s
Wall time: 1min 4s


# `ndarray` - $n$-wymiarowy obiekt tablicowy

Tworzenie tablicy na podstawie listy

In [17]:
tablica = np.array([[1,2],[3,4],[5,6]])
tablica

array([[1, 2],
       [3, 4],
       [5, 6]])

Tworzenie losowej tablicy dwuwymiarowej o 3 wierszach i 4 kolumnach

In [18]:
tablica = np.random.randn(3,4)
tablica

array([[-0.12456015, -0.96349759, -0.79887021,  0.96459786],
       [-0.32210851,  0.63047545, -1.07032866,  0.65437141],
       [-1.04224788,  0.11956796,  0.78205093,  0.92952595]])

Dla obiektów `ndarray` możemy wykorzystywać operatory arytmetyczne

In [19]:
tablica * 20

array([[ -2.49120297, -19.26995185, -15.97740419,  19.29195729],
       [ -6.4421702 ,  12.60950899, -21.40657316,  13.08742828],
       [-20.84495762,   2.3913591 ,  15.64101861,  18.59051901]])

In [20]:
tablica - tablica

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

Atrybuty obiektu `ndarray` zawierają, m.in., liczbę wymiarów, kształt i typ danych

In [21]:
tablica.ndim # tablica dwuwymiarowa

2

In [22]:
tablica.shape # dla tablicy 2-wymiarowej będzie to liczba wierszy i kolumn

(3, 4)

In [23]:
tablica.dtype # tutaj będzie to 64-bitowy zmiennoprzecinkowy

dtype('float64')

## Tworzenie obiektu `ndarray`

Tworzenie tablicy na podstawie obiektu sekwencyjnego.

In [24]:
dane = list(range(10))
tablica = np.array(dane)
tablica # tablica jednowymiarowa

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [25]:
dane2 = [dane, list(range(10,20))]
tablica2 = np.array(dane2)
tablica2 # tablica dwuwymiarowa

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 15, 16, 17, 18, 19]])

Podczas tworzenia tablicy na podstawie danych wejściowych NumPy samodzielnie próbuje ustalić typ danych

In [26]:
tablica2.dtype

dtype('int32')

Tworzenie tablic wypełnionych zerami `np.zeros()`, jedynkami `np.ones()` i wartościami nieokreślonymi `np.empty()`

In [27]:
np.zeros((4,2)) # pierwszy argument to krotka z rozmiarami wymiarów

array([[0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.]])

In [28]:
np.ones((3,2,1))

array([[[1.],
        [1.]],

       [[1.],
        [1.]],

       [[1.],
        [1.]]])

In [29]:
np.empty(5) # tylko jeden wymiar; komórki pamięci nie są inicjowane

array([2.12199579e-314, 1.27319747e-311, 3.55727265e-322, 3.79442416e-321,
       0.00000000e+000])

Tworzenie tablicy za pomocą funkcji `np.arange()`, odpowiednika `range()`

In [30]:
np.arange(5,125,10) # początek, koniec, krok

array([  5,  15,  25,  35,  45,  55,  65,  75,  85,  95, 105, 115])

**Zadanie 1**. Sprawdź do czego służą i przetestuj działanie następujących funkcji tworzących tablice `ndarray`:
1. `asarray`
2. `ones_like`
3. `zeros_like`
4. `full`
5. `full_like`
6. `eye`
7. `identity`

## Typ danych `ndarray`: `dtype`

Przy tworzeniu tablicy można jawnie podać typ danych przechowywanych w tablicy

In [31]:
tablica_int = np.arange(10, dtype=np.int32)
tablica_int

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [32]:
tablica_int.dtype

dtype('int32')

In [33]:
tablica_double = np.arange(10, dtype=np.double)
tablica_double

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

In [34]:
tablica_double.dtype

dtype('float64')

Konwersja typu za pomocą `astype`

In [35]:
tablica_int2 = tablica_double.astype(np.int32)
tablica_int2

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

**Zadanie 2**. Sprawdź, w jaki sposób są konwertowane przez funkcję `astype` niecałkowite wartości zmiennoprzecinkowe na wartości całkowite.

Szczegółowa informacja o typach wykorzystywanych w NumPy: https://numpy.org/doc/stable/reference/arrays.scalars.html#

**Zadanie 3**. Przekonwertuj tablicę wartości zmiennoprzecinkowych na tablicę stringów. Następnie przekonwertuj tablicę stringów z powrotem na wartości zmiennoprzecinkowe.

## Wektoryzacja

Podobnie jak w języku R, pewne operacja działające na wszystkich elementach tablicy nie wymagają wykorzystywania pętli `for`. Poniżej przykład analogiczne do omawianych w trakcie poprzedniego semestru w języku R (RWprowadzenie2022 - część 1.pdf)

In [36]:
wektorA = np.arange(1,7)
wektorB = np.arange(-4,2,1)
wektorA

array([1, 2, 3, 4, 5, 6])

In [37]:
wektorB

array([-4, -3, -2, -1,  0,  1])

In [38]:
wektorA + wektorB

array([-3, -1,  1,  3,  5,  7])

In [39]:
wektorA - wektorB

array([5, 5, 5, 5, 5, 5])

In [40]:
wektorD = np.arange(-1,-5,-1)
wektorD

array([-1, -2, -3, -4])

In [41]:
wektorA + wektorD # jaki był rezultat w R?

ValueError: operands could not be broadcast together with shapes (6,) (4,) 

In [42]:
wektorE = np.array(-1)
wektorA * wektorE

array([-1, -2, -3, -4, -5, -6])

In [43]:
wektorA < 4

array([ True,  True,  True, False, False, False])

In [44]:
wektorF = np.arange(4,-2,-1)
wektorA <= wektorF

array([ True,  True, False, False, False, False])

Dla operacji na tablicach o nierównych rozmiarach stosuje się tzw. rozłgaszanie (broadcasting): https://numpy.org/doc/stable/user/basics.broadcasting.html

**Zadanie 4**. Zaprezentuj przykład rozgłaszania na dowolnej dwuargumentowej operacji gdzie pierwszym argumentem jest tablica trójwymiarowa, a drugim argumentem tablica dwuwymiarowa.

## Indeksowanie

Dla tablic jednowymiarowych tak jak w standardowych typach sekwencyjnych

In [45]:
tablica = np.arange(100,110)
tablica[2:6]

array([102, 103, 104, 105])

Przy przypisaniu do zakresu stosowane jest rozgłaszanie

In [46]:
tablica[2:6] = -1
tablica

array([100, 101,  -1,  -1,  -1,  -1, 106, 107, 108, 109])

Uwaga! Przypisanie wycinka tablicy nie tworzy kopii tego wycinka, lecz nadal odnosi się do tej tablicy!

In [47]:
wycinek = tablica[2:6]
wycinek[:] = -100
tablica

array([ 100,  101, -100, -100, -100, -100,  106,  107,  108,  109])

Aby operować na kopii, należy ją jawnie utworzyć

In [48]:
wycinek = tablica[2:6].copy()
wycinek[:] = 1000 # teraz modyfikujemy tylko kopię w wycinku
tablica

array([ 100,  101, -100, -100, -100, -100,  106,  107,  108,  109])

Dla tablic o większej liczbie wymiarów indeksowanie jest rekurencyjne

In [49]:
tablica = np.arange(60).reshape((3,4,5)) # zmiana kształtu z wektora na tablicę trójwymiarową
tablica 

array([[[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19]],

       [[20, 21, 22, 23, 24],
        [25, 26, 27, 28, 29],
        [30, 31, 32, 33, 34],
        [35, 36, 37, 38, 39]],

       [[40, 41, 42, 43, 44],
        [45, 46, 47, 48, 49],
        [50, 51, 52, 53, 54],
        [55, 56, 57, 58, 59]]])

In [50]:
tablica[1] # rezultat to dwuwymiarowa tablica

array([[20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34],
       [35, 36, 37, 38, 39]])

In [51]:
tablica[1][2] # rezultat to jednowymiarowa tablica

array([30, 31, 32, 33, 34])

In [52]:
tablica[1][2][3] # rezultat to skalar

33

Alternatywny sposób adresowania z przecinkami

In [53]:
tablica[1,2] # rezultat to jednowymiarowa tablica

array([30, 31, 32, 33, 34])

In [54]:
tablica[1,2,3] # rezultat to skalar

33

Przykład rozgłaszania przy indeksowaniu

In [55]:
tablica[1]=7
tablica

array([[[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19]],

       [[ 7,  7,  7,  7,  7],
        [ 7,  7,  7,  7,  7],
        [ 7,  7,  7,  7,  7],
        [ 7,  7,  7,  7,  7]],

       [[40, 41, 42, 43, 44],
        [45, 46, 47, 48, 49],
        [50, 51, 52, 53, 54],
        [55, 56, 57, 58, 59]]])

Podawanie zakresu wycinka dla każdego wymiaru

In [56]:
tablica[:1,2:4,1:]

array([[[11, 12, 13, 14],
        [16, 17, 18, 19]]])

Możliwe jest także indeksowanie za pomocą warunków logicznych

In [57]:
parzystosc = np.array(['parzysta', 'nieparzysta', 'parzysta'])
tablica[parzystosc=='parzysta',2:4,:]

array([[[10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19]],

       [[50, 51, 52, 53, 54],
        [55, 56, 57, 58, 59]]])

Użycie znaku `~` powoduje wstawienie wszystkich indeksów oprócz podanych

In [58]:
tablica[~(parzystosc=='parzysta'),~2:4,:] # które numery wierszy są wyświetlane?

array([[[7, 7, 7, 7, 7],
        [7, 7, 7, 7, 7],
        [7, 7, 7, 7, 7]]])

Możliwe jest tworzenie bardziej skomplikowanych warunków logicznych z wykorzystaniem operatorów `|` (lub), `&` (i) oraz `!` (negacja).

## Indeksowanie wektorami

Możliwe jest także indeksowanie wektorami liczba całkowitych

In [59]:
tablica = np.arange(10,20)
tablica_indeksow = np.array([5,4,-1,9])
tablica[tablica_indeksow]

array([15, 14, 19, 19])

W przypadku podania większej liczby argumentów jako indeksy, wybierane są krotki z poszczególnych pozycji argumentów

In [60]:
tablica = np.arange(4*5*6).reshape((4,5,6))
tablica

array([[[  0,   1,   2,   3,   4,   5],
        [  6,   7,   8,   9,  10,  11],
        [ 12,  13,  14,  15,  16,  17],
        [ 18,  19,  20,  21,  22,  23],
        [ 24,  25,  26,  27,  28,  29]],

       [[ 30,  31,  32,  33,  34,  35],
        [ 36,  37,  38,  39,  40,  41],
        [ 42,  43,  44,  45,  46,  47],
        [ 48,  49,  50,  51,  52,  53],
        [ 54,  55,  56,  57,  58,  59]],

       [[ 60,  61,  62,  63,  64,  65],
        [ 66,  67,  68,  69,  70,  71],
        [ 72,  73,  74,  75,  76,  77],
        [ 78,  79,  80,  81,  82,  83],
        [ 84,  85,  86,  87,  88,  89]],

       [[ 90,  91,  92,  93,  94,  95],
        [ 96,  97,  98,  99, 100, 101],
        [102, 103, 104, 105, 106, 107],
        [108, 109, 110, 111, 112, 113],
        [114, 115, 116, 117, 118, 119]]])

In [61]:
tablica[[0,2,3], [2,3,4]] # pierwsza strona trzeci wiersz, trzecia strona czwarty wiersz, czwarta strona piąty wiersz

array([[ 12,  13,  14,  15,  16,  17],
       [ 78,  79,  80,  81,  82,  83],
       [114, 115, 116, 117, 118, 119]])

In [62]:
tablica[[0,2,3], [2,3,4], [-5,-4,-3]]

array([ 13,  80, 117])

W przypadku indeksowania wektorami całkowitoliczbowymi tworzone są kopie (w przeciwieństwie do wycinków).

## Transpozycja, permutacja osi

Tablice dysponują atrybutem T dającym dostęp do tablicy transponowanej

In [63]:
tablica = np.arange(3*6).reshape((3,6))
tablica

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17]])

In [64]:
tablica.T

array([[ 0,  6, 12],
       [ 1,  7, 13],
       [ 2,  8, 14],
       [ 3,  9, 15],
       [ 4, 10, 16],
       [ 5, 11, 17]])

Możliwe jest także wykorzystanie metody `transpose`

In [65]:
tablica.transpose()

array([[ 0,  6, 12],
       [ 1,  7, 13],
       [ 2,  8, 14],
       [ 3,  9, 15],
       [ 4, 10, 16],
       [ 5, 11, 17]])

W przypadku tablic o większej liczbie wymiarów do metody transpose możemy podać permutację, która określa w jaki sposób zostaną zamienione osie

In [66]:
tablica = np.arange(2*3*6).reshape((2,3,6))
tablica

array([[[ 0,  1,  2,  3,  4,  5],
        [ 6,  7,  8,  9, 10, 11],
        [12, 13, 14, 15, 16, 17]],

       [[18, 19, 20, 21, 22, 23],
        [24, 25, 26, 27, 28, 29],
        [30, 31, 32, 33, 34, 35]]])

In [67]:
tablica.transpose((2,0,1)) # czy ktoś to jeszcze rozumie?

array([[[ 0,  6, 12],
        [18, 24, 30]],

       [[ 1,  7, 13],
        [19, 25, 31]],

       [[ 2,  8, 14],
        [20, 26, 32]],

       [[ 3,  9, 15],
        [21, 27, 33]],

       [[ 4, 10, 16],
        [22, 28, 34]],

       [[ 5, 11, 17],
        [23, 29, 35]]])

Do zamiany osi można wykorzystać metodę `swapaxes()`.

## Funkcje uniwersalne

NumPy oferuje zestaw funkcji uniwersalnych (*universal function*, w skróce *ufunc*) do operacji na tablicach.

In [68]:
tablica = np.arange(10).reshape(2,5)
tablica

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [69]:
np.sqrt(tablica) #pierwiastek z wszystkich elementów tablicy

array([[0.        , 1.        , 1.41421356, 1.73205081, 2.        ],
       [2.23606798, 2.44948974, 2.64575131, 2.82842712, 3.        ]])

In [70]:
tablica2 = np.arange(10,0,-1).reshape(2,5)
tablica2

array([[10,  9,  8,  7,  6],
       [ 5,  4,  3,  2,  1]])

In [71]:
np.minimum(tablica, tablica2) # minimum z poszczególnych pozycji obu tablic

array([[0, 1, 2, 3, 4],
       [5, 4, 3, 2, 1]])

Pełny zestaw funcji uniwersalnych: https://numpy.org/doc/stable/reference/ufuncs.html

## Operacje warunkowe

Funkcja `where` umożliwia wykorzystanie tablic logicznych do wyboru elementów z tablic wejściowych

In [72]:
tabA = np.arange(1,11)
tabA

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [73]:
tabB = np.arange(5,-5,-1)
tabB

array([ 5,  4,  3,  2,  1,  0, -1, -2, -3, -4])

In [74]:
tabLog = np.array([True, True, False, False, False, True, True, False, True, False])
tabLog

array([ True,  True, False, False, False,  True,  True, False,  True,
       False])

In [75]:
np.where(tabLog, tabA, tabB)

array([ 1,  2,  3,  2,  1,  6,  7, -2,  9, -4])

In [76]:
np.where(tabA>=tabB, tabA, tabB)

array([ 5,  4,  3,  4,  5,  6,  7,  8,  9, 10])

In [77]:
np.where(tabA>=tabB, tabLog, tabB) # skąd taki wynik?

array([5, 4, 0, 0, 0, 1, 1, 0, 1, 0])

Możliwe jest łączenie wartości skalarnych i tablic

In [78]:
np.where(tabA>=tabB, 100, tabB)

array([  5,   4, 100, 100, 100, 100, 100, 100, 100, 100])

## Metody matematyczne i statystyczne tablic

Obiekty tablicowe NumPy posiadają podstawowe metody matematyczne i statystyczne, np. suma, średnia czy odchylenie standardowe

In [79]:
tablica = np.arange(10)
tablica

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [80]:
tablica.mean()

4.5

In [81]:
tablica.sum()

45

In [82]:
tablica.std()

2.8722813232690143

Dla tablic wielowymiarowych możliwe jest podanie osi

In [83]:
tablica = np.arange(4*5).reshape((4,5))
tablica

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

In [84]:
tablica.sum(axis=0)

array([30, 34, 38, 42, 46])

In [85]:
tablica.sum(axis=1)

array([10, 35, 60, 85])

**Zadanie 5**. Przeczytaj w dokumentacji zastosowanie następujących metod a następnie przetestuj ich działanie na dowolnej tablicy dwuwymiarowej:
1. `sum`
2. `mean`
3. `std`
4. `var`
5. `min` 
6. `max`
7. `argmin`
8. `argmax`
9. `cumsum`
10. `cumprod`

Pełna lista funkcji matematycznych: https://numpy.org/doc/stable/reference/routines.math.html
Pełna lista funkcji statystycznych: https://numpy.org/doc/stable/reference/routines.statistics.html

## Metody dla tablic wartości logicznych

Niektóre metody wykonane dla tablic logicznych konwertują `True` do wartości 1, a `False` do wartości 0

In [86]:
tabLog = np.array([True, True, False, False, False, True, True, False, True, False])
tabLog

array([ True,  True, False, False, False,  True,  True, False,  True,
       False])

In [87]:
tabLog.sum()

5

Metody `all` oraz `any` pozwalają stwierdzić, czy wszystkie bądź jakiekolwiek wartości tablicy zawierają `True`

In [88]:
tabLog.any()

True

In [89]:
tabLog.all()

False

In [90]:
tabA = np.arange(6)
tabA

array([0, 1, 2, 3, 4, 5])

In [91]:
tabB = np.arange(6,12)
tabB

array([ 6,  7,  8,  9, 10, 11])

In [92]:
tabA < tabB

array([ True,  True,  True,  True,  True,  True])

In [93]:
(tabA < tabB).any()

True

In [94]:
(tabA < tabB).all()

True

## Sortowanie

In [95]:
tablica = np.random.randn(20)
tablica

array([-0.69669678, -1.05115951,  0.2855009 , -0.03810854, -0.94979084,
        0.75927336, -0.61551636, -0.43265248, -1.22986786,  0.84833637,
        0.50997837,  0.24030569,  1.20901075,  0.38078299, -0.35411545,
       -0.03550824,  1.35578123,  0.09097612,  1.88526628, -0.86057147])

In [96]:
tablica.sort()
tablica

array([-1.22986786, -1.05115951, -0.94979084, -0.86057147, -0.69669678,
       -0.61551636, -0.43265248, -0.35411545, -0.03810854, -0.03550824,
        0.09097612,  0.24030569,  0.2855009 ,  0.38078299,  0.50997837,
        0.75927336,  0.84833637,  1.20901075,  1.35578123,  1.88526628])

## Operacje na zbiorach

Do tablic można stosować operacje dotyczące zbiorów

In [97]:
tablica = np.array([1,2,2,3,4,4,4,5])
tablica

array([1, 2, 2, 3, 4, 4, 4, 5])

Wartości unikatowe

In [98]:
np.unique(tablica)

array([1, 2, 3, 4, 5])

Które wartości z podanej tablicy zawiera tablica wejściowa?

In [99]:
wartosci = np.arange(-1,8)
wartosci

array([-1,  0,  1,  2,  3,  4,  5,  6,  7])

In [100]:
np.in1d(wartosci,tablica)

array([False, False,  True,  True,  True,  True,  True, False, False])

Wszystkie operacje na zbiorach: https://numpy.org/doc/stable/reference/routines.set.html

**Zadanie 6**. Spróbuj wykonać wszystkie zadania z listy `RZadania.pdf` z poprzedniego semestru. Które i w jaki sposób da się wykonać za pomocą Pythona/NumPy?

**Zadanie 7**. Posortuj poniższą tablicę w wierszach.

In [101]:
T = np.array([[5,2,1,6],[4,8,3,1],[2,4,7,8]])

**Zadanie 8**. Posortuj powyższą tablicę w kolumnach.

**Zadanie 9**. Za pomocą `np.argsort()` podaj numery elementów oryginalnej tablicy w każdym wierszu, gdyby była ona posortowana w wierszach.

**Zadanie 10**. Poniższą tablicę posortuj zgodnie z porządkiem leksykograficznym na podstawie kolumny drugiej, w następnej kolejności na podstawie kolumny czwartej, a ostatecznie szóstej.

In [102]:
T = np.array([[5,2,5,2,7,4],[2,2,1,5,4,3],[1,3,4,1,4,5],[1,3,1,1,2,2]])

**Zadanie 11**. Za pomocą `np.hsplit()` podziel powyższą tablicę na 3 równe części.

In [103]:
T

array([[5, 2, 5, 2, 7, 4],
       [2, 2, 1, 5, 4, 3],
       [1, 3, 4, 1, 4, 5],
       [1, 3, 1, 1, 2, 2]])

**Zadanie 12**. Za pomocą `np.hsplit()` podziel powyższą tablicę na 4 części tak, aby w pierwszej , trzeciej i czwartej części znalazła się tylko jedna kolumna, a w drugiej części 3 kolumny.

**Zadanie 13**. Za pomocą `np.vsplit()` podziel powyższą tablicę na 3 dowolne części.

**Zadanie 14**. W trzech powyższych zadaniach, po podziale scal z powrotem części w jedną tablicę za pomocą `np.vstack()` lub `np.hstack()`.

**Zadanie 15**. Co robi z wektorem *w* poniższa operacja?

In [104]:
w = np.arange(1,11)
w = w[:, np.newaxis]

**Zadanie 16**. Co stanie się, jeżeli w powyszej opercji zamienimy pozycje indeksowania?

**Zadanie 17**. Korzystając z powyższego wektora i operatora `*`, wykorzystaj rozgłaszanie do wyliczenia tabliczki mnożenia do 100.

**Zadanie 18**. Wykorzystaj funkcję `np.nonzero()` aby uzyskać indeksy wierszy i kolumn wszystkich elementów z tablicy z zadania 10, która są jednocześnie nie mniejsze od 2 i mniejsze od 7. Wypisz wszystkie takie pary (nr_wiersza, nr_kolumny) na ekranie (podpowiedź: komenda `zip`).

In [105]:
np.nonzero((T >= 2) & (T < 7))

(array([0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3], dtype=int64),
 array([0, 1, 2, 3, 5, 0, 1, 3, 4, 5, 1, 2, 4, 5, 1, 4, 5], dtype=int64))

**Zadanie 19**. Korzystając z `np.unique()`, w poniższym wektorze znajdź wszystkie elementy unikatowe, ich indeksy oraz liczbę powtórzeń każdego z nich.

In [106]:
w = np.array([1,2,2,2,3,1,3,1,4,4,5,6,5,7,8,8])

**Zadanie 20**. Korzystając z `np.unique()`, w poniższej tablicy znajdź wszystkie unikatowe wiersze, ich indeksy oraz liczbę powtórzeń każdego z nich.

In [107]:
T = np.array([[1,2],[2,1],[2,2],[2,2],[2,3],[3,2],[1,2],[1,4],[2,1]])

**Zadanie 21**. Podczas ostatniego wykładu podano cztery sposoby liczenia odległości między klastrami. Wczytaj klastry z plików `klaster A.csv`, `klaster B.csv` i `klaster C.csv` za pomocą `np.loadtxt()`. Następnie wylicz odległości między każdą parą klastrów na każdy z czterech sposobów korzystając z możliwości NumPy. 

**Zadanie 22**. Dla każdego sposobu pomiaru odległości pomiędzy klastrami wylicz miarę $wc(C)/bc(C)$.