<a href="https://colab.research.google.com/github/jakubtwalczak/dsbootcampudemy/blob/main/1_NumPy_intro.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Intro.

NumPy, czyli Numerical Python, to biblioteka programistyczna w języku Python, która dostarcza wsparcie dla efektywnych operacji numerycznych, zwłaszcza na dużych tablicach i macierzach danych. Jest jednym z podstawowych narzędzi w dziedzinie naukowych obliczeń i analizy danych w języku Python.



Główne cechy i funkcje biblioteki NumPy:

1. **Tablice wielowymiarowe**: NumPy wprowadza nowy typ danych, znany jako "array"
(tablica), który pozwala na przechowywanie i operowanie danymi wielowymiarowymi. Tablice w NumPy są bardziej wydajne niż standardowe listy w Pythonie i pozwalają na efektywne wykonywanie operacji matematycznych i statystycznych na danych.

2. **Efektywne operacje numeryczne**: NumPy dostarcza wiele wbudowanych funkcji i operacji, takich jak dodawanie, mnożenie, podnoszenie do potęgi, funkcje trygonometryczne itp., które działają efektywnie na dużych zbiorach danych.

3. **Broadcasting**: NumPy umożliwia wykonywanie operacji na tablicach o różnych kształtach, co jest nazywane "broadcasting". Dzięki temu można wygodnie operować na danych o różnych wymiarach, a NumPy automatycznie dostosowuje kształt tablic.

4. **Indeksowanie i wycinanie**: NumPy oferuje zaawansowane możliwości indeksowania i wycinania danych z tablic, co pozwala na dostęp do konkretnych elementów lub podtablic z dużą precyzją.

5. **Losowanie liczb**: Biblioteka umożliwia generowanie losowych liczb o różnych rozkładach, co jest przydatne w symulacjach i analizach statystycznych.

6. **Integracja z innymi bibliotekami**: NumPy jest często używany w połączeniu z innymi bibliotekami do naukowych obliczeń i analizy danych, takimi jak SciPy, pandas, matplotlib i scikit-learn.

7. **Obsługa danych brakujących**: NumPy ma wbudowane funkcje do pracy z danymi brakującymi, co jest istotne w analizie danych.

8. **Obsługa danych binarnych**: Możesz używać NumPy do operacji na danych binarnych, takich jak obrazy, dźwięk czy pliki binarne.


NumPy jest nieodzowną biblioteką w ekosystemie naukowych obliczeń w języku Python. Dzięki niej programiści i naukowcy danych mogą wygodnie manipulować dużymi zbiorami danych numerycznych i wykonywać zaawansowane operacje matematyczne. W połączeniu z innymi narzędziami do analizy danych i wizualizacji, NumPy stanowi solidną podstawę dla wielu projektów związanych z naukowymi obliczeniami i analizą danych.

In [2]:
import numpy as np # powszechna konwencja importu

In [3]:
np.__version__

'1.26.4'

In [4]:
print(dir(np))



## Funkcja Array.

Podstawowa funkcja do tworzenia tablic.

In [5]:
help(np.array)

Help on built-in function array in module numpy:

array(...)
    array(object, dtype=None, *, copy=True, order='K', subok=False, ndmin=0,
          like=None)
    
    Create an array.
    
    Parameters
    ----------
    object : array_like
        An array, any object exposing the array interface, an object whose
        ``__array__`` method returns an array, or any (nested) sequence.
        If object is a scalar, a 0-dimensional array containing object is
        returned.
    dtype : data-type, optional
        The desired data-type for the array. If not given, NumPy will try to use
        a default ``dtype`` that can represent the values (by applying promotion
        rules when necessary.)
    copy : bool, optional
        If true (default), then the object is copied.  Otherwise, a copy will
        only be made if ``__array__`` returns a copy, if obj is a nested
        sequence, or if a copy is needed to satisfy any of the other
        requirements (``dtype``, ``order``, e

Podstawowym obiektem biblioteki NumPy jest wielowymiarowa tablica, której cechą charakterystyczną jest jednorodność typu danych. Wymiary tej tablicy nazywane są w dokumentacji "osiami" ("axis"). Klasa tych obiektów - **ndarray**.

### Array 1D.

In [6]:
x = np.array([2.1, 8]) # tablica jednowymiarowa
x

array([2.1, 8. ])

In [7]:
print(x)
print(type(x))

[2.1 8. ]
<class 'numpy.ndarray'>


Tak utworzony obiekt możemy utożsamiać z wektorem.

In [8]:
x.ndim # wymiar tablicy

1

In [9]:
x.shape # kształt tablicy

(2,)

Kształt wyświetla się jako krotka.

In [10]:
x.size # liczba elementów tablicy

2

In [11]:
x.dtype # typ danych tablicy

dtype('float64')

Warto zauważyć, że choć drugi element został zapisany jako "8", to w tablicy wyświetla się jako "8." i ma typ zmiennoprzecinkowy.

In [12]:
y = np.array([2, 6, 15])
y

array([ 2,  6, 15])

In [13]:
print(y.dtype)
print(y.shape)

int64
(3,)


NumPy automatycznie określa typ danych, aby zachować jednorodność w tym zakresie.

### Array 2D.

Częściej spotykane w praktyce są tablice dwuwymiarowe, jako domyślna interpretacja macierzy w kodzie Pythona.

In [14]:
x1 = np.array([[1, 6], [-3, 4]]) # tablica dwuwymiarowa - definiujemy jako listę list
x1

array([[ 1,  6],
       [-3,  4]])

Wyświetlamy domyślne atrybuty. Jak już zostało wskazane, również i ta tablica należy do klasy numpy.ndarray. Poza zmianą liczby elementów pojawił się drugi wymiar, zmienił się kształt tablicy.

In [15]:
print(x1)
print(type(x1))
print(x1.ndim)
print(x1.shape)
print(x1.size)
print(x1.dtype)

[[ 1  6]
 [-3  4]]
<class 'numpy.ndarray'>
2
(2, 2)
4
int64


**Uwaga** - aby być w stanie dobrze budować sieci neuronowe, należy umiejętnie posługiwać się wymiarami tablic; poprawne działanie tychże, które składają się z licznych operacji na macierzach, zależy od starannego określenia wymiarów tablic (mowa tu jednak o budowaniu ich przy pomocy NumPy; istnieją biblioteki wyższego poziomu, jak np. PyTorch czy Tensorflow, które radzą sobie z tym bardziej efektywnie).

In [16]:
x2 = np.array([[1, 2, 4], [8, -1, 0]])
x2.shape

(2, 3)

### 3D Array.

Bardziej skomplikowane są tablice trójwymiarowe - które można nazwać wektorem macierzy. Pozwalają nam one przechowywać np. obraz.

In [17]:
td = np.array(
    [[[1, 2, 3],
      [4, 5, 6]],

      [[7, 8, 9],
       [10, 11, 12]]]
) # tablica trójwymiarowa
td

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [18]:
print(td.ndim)
print(td.shape)
print(type(td))
print(td.dtype)

3
(2, 2, 3)
<class 'numpy.ndarray'>
int64


Mamy i trzeci wymiar. Wymiary to 2 x 2 x 3 (2 tablice, 2 wiersze, 3 kolumny).

In [19]:
td2 = np.array(
    [[[-1, 2, -3],
      [4, -5, 6]],

      [[-7, 8, -9],
       [10, -11, 12.]],

     [[-13, 14, -15],
      [16, -17, 18.]]]
)
td2

array([[[ -1.,   2.,  -3.],
        [  4.,  -5.,   6.]],

       [[ -7.,   8.,  -9.],
        [ 10., -11.,  12.]],

       [[-13.,  14., -15.],
        [ 16., -17.,  18.]]])

In [20]:
print(td2.ndim)
print(td2.shape)
print(type(td2))
print(td2.dtype)

3
(3, 2, 3)
<class 'numpy.ndarray'>
float64


Możemy dodawać również kolejne tablice do naszego tensora. Dotychczasowe uwagi dot. typów danych i zwiększenia wymiarów stosują się również tu.

## Typy danych.

Pora na utworzenie kilku tablic, aby wskazać na ich przykładach podstawowe typy danych w bibliotece NumPy.

In [21]:
A = np.array([1, 2, 3])
A.dtype

dtype('int64')

Jeżeli utworzymy tablicę składającą się w całości z liczb całkowitych, typem danych będzie **integer**.

In [22]:
B = np.array([0.178, -4.18, 3.])
B.dtype

dtype('float64')

Jeżeli utworzymy tablicę z liczb zmiennoprzecinkowych - typem danych tablicy będzie **float**.

In [23]:
C = np.array([6, -1, 2.])
C.dtype

dtype('float64')

Jeżeli jednak chociaż jeden element tablicy to float, wówczas cała tablica jest interpretowana jako tablica liczb zmiennoprzecinkowych.

In [24]:
D = np.array([1, 2, 3], dtype=float)
D.dtype

dtype('float64')

Można kontrolować typ danych przy pomocy hiperparametru dtype, w którym przekazujemy typ danych, który mają reprezentować elementy tablicy (domyślnie parametr ustawiony na None).

In [25]:
D = np.array([1.9, 2.6, -3.45], dtype=int)
D.dtype

dtype('int64')

In [26]:
D

array([ 1,  2, -3])

Parametr dtype może ingerować w naszą zmienną. Gdy w tablicy mamy liczby zmiennoprzecinkowe, a parametr przyjmuje wartość int, wówczas "ucina" on liczby po przecinku.

In [27]:
E = np.array([1, 2, 3], dtype=complex)
E.dtype

dtype('complex128')

In [28]:
E

array([1.+0.j, 2.+0.j, 3.+0.j])

Możemy też wskazać jako typ danych liczbę zespoloną (**complex**). NumPy ponowni przekonwertuje nasze wskazania wartości.

In [29]:
F = np.array([True, False])
F.dtype

dtype('bool')

In [30]:
F

array([ True, False])

Możemy również stworzyć tablicę wartości boolowskich.

In [31]:
G = np.array([1, 2, 3], dtype='int8')
G.dtype

dtype('int8')

Możemy też, oprócz typu danych, wskazać liczbę bitów, aby zaoszczędzić miejsce w pamięci.

In [32]:
G = np.array([16, 124, 248], dtype='uint8')
G.dtype

dtype('uint8')

Używając **uint** (Unsigned int) możemy np. opisać wymiary obrazów, zaoszczędziwszy miejsce w pamięci komputera.

# Główne funkcje biblioteki NumPy.

## Tworzenie tablic ndarray.

Pora na omówienie funkcji NumPy pozwalających na bardziej sprawne i zautomatyzowane budowanie tablic.

In [33]:
np.zeros(shape=(3, 4, 3))

array([[[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]]])

Funkcja **zeros** pozwala tworzyć tablice wypełnione zerami. Parametrem funkcji jest **shape** - kształt, który podajemy w postaci krotki lub liczby całkowitej (wtedy tworzy się tablica w formie skalara).

Domyślny typ danych to float, ale również możemy określić typ za pomocą parametru **dtype** (np. jako integer).

Ta funkcja może posłużyć w widzeniu komputerowym do tworzenia mask dla zdjęć; jeżeli chcemy utworzyć zdjęcie z czarnym tłem, możemy wygenerować taką tablicę jako tło.

In [34]:
np.ones(shape=(8,6))

array([[1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.]])

Podobny case jak w przypadku funkcji zeros mamy w przypadku funkcji **ones**, z tą różnicą, że zamiast zerami tablica wypełniona zostaje jedynkami.

In [35]:
np.full(shape=(3, 5), fill_value=6, dtype='int')

array([[6, 6, 6, 6, 6],
       [6, 6, 6, 6, 6],
       [6, 6, 6, 6, 6]])

Funkcja **full** jest podobna w działaniu jak dwie ww., lecz oprócz kształtu podajemy obowiązkowo również wartość, która ma wypełnić tablicę.

In [38]:
np.arange(16)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

Funkcja **arange** jest podobna do range w standardowym Pythonie i generuje nam tablicę do podanej wartości. Jedynym parametrem obowiązkowym jest stop, który jest liczbą, na której generator się zatrzymuje i kończy generowanie (ale jej już nie ujmuje w tablicy). Możemy podać również start (liczba początkowa) i step (krok, o który kolejna wygenerowana liczba ma być większa od poprzedniej).

In [39]:
np.arange(start=6, stop=90, step=7)

array([ 6, 13, 20, 27, 34, 41, 48, 55, 62, 69, 76, 83])

In [41]:
np.arange(start=90, stop=6, step=-7)

array([90, 83, 76, 69, 62, 55, 48, 41, 34, 27, 20, 13])

In [42]:
np.arange(start=6, stop=90, step=4.5)

array([ 6. , 10.5, 15. , 19.5, 24. , 28.5, 33. , 37.5, 42. , 46.5, 51. ,
       55.5, 60. , 64.5, 69. , 73.5, 78. , 82.5, 87. ])

Krok może być oczywiście ujemny i może być też liczbą zmiennoprzecinkową. Podanie kroku ujemnego przy stopie wyższym od startu (i dodatniego przy wyższym starcie od stopu) nie zwróci błędu, ale wygenerowana tablica będzie pusta.

In [43]:
np.linspace(start=0, stop=1, num=30)

array([0.        , 0.03448276, 0.06896552, 0.10344828, 0.13793103,
       0.17241379, 0.20689655, 0.24137931, 0.27586207, 0.31034483,
       0.34482759, 0.37931034, 0.4137931 , 0.44827586, 0.48275862,
       0.51724138, 0.55172414, 0.5862069 , 0.62068966, 0.65517241,
       0.68965517, 0.72413793, 0.75862069, 0.79310345, 0.82758621,
       0.86206897, 0.89655172, 0.93103448, 0.96551724, 1.        ])

**Linspace** działa podobnie, ale zamiast parametru step mamy parametr num, który odpowiada za to, ile liczb w równych odstępach z przedziału start - stop zostanie wygenerowanych (co istotne, tym razem liczba podana jako stop również znajduje się w tablicy).

In [45]:
A = np.arange(30)
A

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29])

In [48]:
A.reshape((5, 6))

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])

Możemy zmienić kształt tablicy funkcją **reshape** (parametrem jest shape, czyli kształt tablicy; należy mieć na względzie, że kształt powinien odpowiadać liczbie elementów).

In [52]:
A.reshape(-1, 5)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29]])

In [51]:
A.reshape((2, 3, -1))

array([[[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14]],

       [[15, 16, 17, 18, 19],
        [20, 21, 22, 23, 24],
        [25, 26, 27, 28, 29]]])

Podając jako którykolwiek wymiar -1 pozwalamy funkcji, aby automatycznie przypisała odpowiedni wymiar do przekształcanej tablicy.

## Podstawowe operacje na tablicach.

In [54]:
A = np.array([9, 2, 3.5, -1.7])
B = np.array([1.8, 6, -2.4, 4])
print(A)
print(B)

[ 9.   2.   3.5 -1.7]
[ 1.8  6.  -2.4  4. ]


In [55]:
A + B # dodawanie tablic

array([10.8,  8. ,  1.1,  2.3])

Odpowiadające sobie elementy tablic zostały zsumowane. Jeżeli dodajemy 2 tablice, to liczba elementów musi być identyczna w obu.

In [57]:
A - B # odejmowanie

array([ 7.2, -4. ,  5.9, -5.7])

In [58]:
A * B # mnożenie

array([16.2, 12. , -8.4, -6.8])

In [59]:
A / B # dzielenie

array([ 5.        ,  0.33333333, -1.45833333, -0.425     ])

Proste działania algebraiczne na tego typu tablicach zawsze są wykonywane element po elemencie. Oczywiście w przypadku dzielenia trzeba pamiętać, żeby tablica-dzielnik nie zawierała zera.

In [60]:
A + 2.5 # dodawanie do każdego elementu tablicy

array([11.5,  4.5,  6. ,  0.8])

Jeżeli wykonujemy dodawanie, odejmowanie, mnożenie lub dzielenie z udziałem tablicy i skalara, każdy z elementów tablicy poddawany jest operacji z osobna.

In [61]:
A - 2.5

array([ 6.5, -0.5,  1. , -4.2])

In [62]:
A * 2.5

array([22.5 ,  5.  ,  8.75, -4.25])

In [63]:
A / 2.5

array([ 3.6 ,  0.8 ,  1.4 , -0.68])

In [64]:
A + 3 * B

array([14.4, 20. , -3.7, 10.3])

Operacje możemy łączyć - tak jak w komórce wyżej.

**Ogólnie jednak NumPy zawiera funkcje pozwalające na operacje matematyczne między tablicami.**

In [66]:
np.add(A, B) # dodawanie

array([10.8,  8. ,  1.1,  2.3])

In [67]:
np.subtract(A, B) # odejmowanie

array([ 7.2, -4. ,  5.9, -5.7])

In [68]:
np.multiply(A, B) # mnożenie

array([16.2, 12. , -8.4, -6.8])

In [69]:
np.divide(A, B) # dzielenie

array([ 5.        ,  0.33333333, -1.45833333, -0.425     ])

**Bardzo istotnym tematem jest mnożenie macierzy.**

In [70]:
X = np.array([[1, 3], [-2, 6]])
Y = np.array([[6, 0], [-1, 2]])
print(X)
print(Y)

[[ 1  3]
 [-2  6]]
[[ 6  0]
 [-1  2]]


Możliwe jest mnożenie element po elemencie, jednakowoż nie jest ono właściwe z punktu widzenia algebry liniowej.

In [71]:
X * Y

array([[ 6,  0],
       [ 2, 12]])

Prawidłowe jest mnożenie wiersz x kolumn; odpowiednie jest zastosowanie funkcji **dot**, funkcji **matmul** lub operatora **@**.

In [73]:
np.dot(X, Y) # mnożenie macierzy

array([[  3,   6],
       [-18,  12]])

In [72]:
np.matmul(X, Y) # mnożenie macierzy

array([[  3,   6],
       [-18,  12]])

In [74]:
X @ Y # mnożenie macierzy

array([[  3,   6],
       [-18,  12]])

In [75]:
X.dot(Y) # mnożenie macierzy

array([[  3,   6],
       [-18,  12]])

Pamiętajmy, że mnożenie macierzy nie jest przemienne.

In [76]:
Y.dot(X)

array([[ 6, 18],
       [-5,  9]])

## Generowanie liczb pseudolosowych.

Mówimy o liczbach pseudolosowych, bo one nie mają naturalną losowość, a tak naprawdę różne stany losowości.

Ustawiamy sobie najpierw "ziarno losowości", aby za każdym razem uzyskać ten sam wynik losowania. Za generowanie odpowiada funkcja **random**.

In [79]:
np.random.seed(42)

In [80]:
np.random.randn(10) # generowanie liczb z rozkładu normalnego

array([ 0.49671415, -0.1382643 ,  0.64768854,  1.52302986, -0.23415337,
       -0.23413696,  1.57921282,  0.76743473, -0.46947439,  0.54256004])

Przy wywołaniu funkcji bez parametrów zwróci nam ona jedną liczbę z rozkładu normalnego o średniej 0 i odchyleniu standardowym 1; możemy podać, ile liczb ma zwrócić funkcja, jako parametr.

In [81]:
np.random.randn(6,4)

array([[-0.46341769, -0.46572975,  0.24196227, -1.91328024],
       [-1.72491783, -0.56228753, -1.01283112,  0.31424733],
       [-0.90802408, -1.4123037 ,  1.46564877, -0.2257763 ],
       [ 0.0675282 , -1.42474819, -0.54438272,  0.11092259],
       [-1.15099358,  0.37569802, -0.60063869, -0.29169375],
       [-0.60170661,  1.85227818, -0.01349722, -1.05771093]])

Można podać krotkę jako kształt zwróconej tablicy. Możemy taką funkcję użyć do generowania danych do zwizualizowania w formie histogramu lub wykresu gęstości rozkładu normalnego.

Funkcja **random.rand** zwraca losową liczbę z rozkładu jednostajnego z przedziału 0 - 1.

In [82]:
np.random.rand() # losowa liczba z przedziału [0, 1)

0.034388521115218396

In [83]:
np.random.rand(8)

array([0.9093204 , 0.25877998, 0.66252228, 0.31171108, 0.52006802,
       0.54671028, 0.18485446, 0.96958463])

In [84]:
np.random.rand(3, 4)

array([[0.77513282, 0.93949894, 0.89482735, 0.59789998],
       [0.92187424, 0.0884925 , 0.19598286, 0.04522729],
       [0.32533033, 0.38867729, 0.27134903, 0.82873751]])

Funkcja **random.randint** zwraca losową liczbę całkowitą z przedziału 0 - podana liczba (przedział otwarty prawostronnie - podana liczba nie wchodzi w skład przedziału).

In [86]:
np.random.randint(100)

25

Można podać parametr low, jeżeli chcemy, aby minimalna liczba była inna od 0. Parametr high jest jedynym obowiązkowym.

In [87]:
np.random.randint(low=10, high=100)

98

Parametr size pozwala określić rozmiar generowanych danych (można podać liczbę całkowitą, jak i krotkę wymiarów tablicy.

In [88]:
np.random.randint(low=10, high=100, size=(2,5))

array([[69, 50, 38, 24, 54],
       [74, 98, 80, 18, 97]])

Funkcja **random.choice** losuje z przekazanej listy lub tablicy.

In [89]:
np.random.choice([5, 68, 1, 0, 6, 11])

5

Parametr size również pozwala zwrócić tablicę o pożądanych wymiarach.

In [90]:
np.random.choice(np.random.randint(low=10, high=100, size=30), size=(2, 3))

array([[17, 90, 44],
       [46, 82, 44]])

Jest też funkcja **random.shuffle**, która pozwala w miejscu potasować elementy naszej tablicy. Uwaga - jeżeli wywołujemy na tablicy składającej się z kilku elementów (wektory, macierze), wówczas losuje te elementy, ale nie elementy wewnątrz nich.

In [96]:
data = np.linspace(start=10, stop=100, num=30)
data

array([ 10.        ,  13.10344828,  16.20689655,  19.31034483,
        22.4137931 ,  25.51724138,  28.62068966,  31.72413793,
        34.82758621,  37.93103448,  41.03448276,  44.13793103,
        47.24137931,  50.34482759,  53.44827586,  56.55172414,
        59.65517241,  62.75862069,  65.86206897,  68.96551724,
        72.06896552,  75.17241379,  78.27586207,  81.37931034,
        84.48275862,  87.5862069 ,  90.68965517,  93.79310345,
        96.89655172, 100.        ])

In [97]:
np.random.shuffle(data)
data

array([ 53.44827586,  13.10344828,  75.17241379,  19.31034483,
        44.13793103,  62.75862069,  56.55172414,  65.86206897,
        59.65517241,  37.93103448,  93.79310345,  81.37931034,
        22.4137931 ,  50.34482759,  72.06896552, 100.        ,
        31.72413793,  25.51724138,  96.89655172,  16.20689655,
        34.82758621,  47.24137931,  68.96551724,  90.68965517,
        10.        ,  28.62068966,  84.48275862,  78.27586207,
        87.5862069 ,  41.03448276])

In [100]:
data = data.reshape((10,3))
data

array([[ 53.44827586,  13.10344828,  75.17241379],
       [ 19.31034483,  44.13793103,  62.75862069],
       [ 56.55172414,  65.86206897,  59.65517241],
       [ 37.93103448,  93.79310345,  81.37931034],
       [ 22.4137931 ,  50.34482759,  72.06896552],
       [100.        ,  31.72413793,  25.51724138],
       [ 96.89655172,  16.20689655,  34.82758621],
       [ 47.24137931,  68.96551724,  90.68965517],
       [ 10.        ,  28.62068966,  84.48275862],
       [ 78.27586207,  87.5862069 ,  41.03448276]])

In [101]:
np.random.shuffle(data)
data

array([[ 96.89655172,  16.20689655,  34.82758621],
       [ 22.4137931 ,  50.34482759,  72.06896552],
       [ 47.24137931,  68.96551724,  90.68965517],
       [ 78.27586207,  87.5862069 ,  41.03448276],
       [ 56.55172414,  65.86206897,  59.65517241],
       [ 19.31034483,  44.13793103,  62.75862069],
       [100.        ,  31.72413793,  25.51724138],
       [ 10.        ,  28.62068966,  84.48275862],
       [ 37.93103448,  93.79310345,  81.37931034],
       [ 53.44827586,  13.10344828,  75.17241379]])

## Podstawowe funkcje NumPy.

Tutaj zajmiemy się funkcjami, które wbudowane są w bibliotekę NumPy i nie trzeba ich z żadnej innej biblioteki importować.

In [107]:
np.exp(1) # zwraca stałą Eulera

2.718281828459045

Funkcja **exp** zwraca eksponent stałą Eulera, podstawę logarytmu naturalnego, bardzo istotną przy budowie sieci neuronowych.

In [108]:
np.sqrt(9) # zwraca pierwiastek kwadratowy

3.0

**Sqrt** zwraca pierwiastek jako float.

In [114]:
np.all([2, 3, -1])

True

In [113]:
np.all([2, 8, 0])

False

Funkcja **all** iteruje po wszystkich elementach tablicy i zwraca wartość logiczną koniunkcji wszystkich elementów (każdy element liczbowy różny od 0 to prawda, 0 to fałsz).

In [115]:
np.any([2, 3, -1])

True

In [116]:
np.any([2, 8, 0])

True

In [117]:
np.any([0, 0, 0])

False

Funkcja **any** sprawdza, czy jakikolwiek element jest prawdą. Funkcja ta może się sprawdzać przy bardzo dużych tablicach, gdzie mamy bardzo mało wartości innych od 0 i trzeba je odnaleźć.

In [119]:
A = np.random.rand(8)
A

array([0.99774049, 0.26678101, 0.97661496, 0.41103701, 0.03305073,
       0.34507125, 0.63435134, 0.68070545])

Generujemy sobie 8 liczb z rozkładu jednostajnego - niech to będą umownie prawdopodobieństwa klasy 1 dla danej próbki.

In [120]:
np.argmax(A) # zwraca indeks największej wartości

0

Aby wyciąć tę największą wartość z próbki, możemy użyć liczby zwróconej przez funkcję jako indeksu.

In [121]:
A[np.argmax(A)]

0.9977404850489419

Przeciwna do argmax jest funkcja **argmin**.

In [122]:
np.argmin(A)

4

In [123]:
A[np.argmin(A)]

0.033050732900548385

Jeżeli mielibyśmy klasyfikację multiklasową - przydaje się funkcja **argsort**. Sortuje ona elementy, podając jednocześnie indeks.

In [124]:
np.argsort(A)

array([4, 1, 5, 3, 6, 7, 2, 0])

Oczywiście też możemy jej output potraktować w celu posortowania tablicy.

In [125]:
A[np.argsort(A)]

array([0.03305073, 0.26678101, 0.34507125, 0.41103701, 0.63435134,
       0.68070545, 0.97661496, 0.99774049])

I funkcje czysto statystyczne - **max**, **min**, **mean**, **std**, **var**.

In [126]:
np.max(A)

0.9977404850489419

In [127]:
np.min(A)

0.033050732900548385

In [128]:
np.mean(A)

0.5431690307073092

In [129]:
np.std(A)

0.31918914327199

In [131]:
np.var(A)

0.10188170918270695

## Indeksowanie i wycinanie tablic.

In [133]:
A = np.arange(20)
A

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

Mamy wygenerowaną tablicę. Teraz możemy sobie wycinać jej elementy. Możemy podać:

In [135]:
A[5] # konkretny indeks

5

In [136]:
A[5:12] # indeks startowy i końcowy

array([ 5,  6,  7,  8,  9, 10, 11])

In [137]:
A[:8] # indeks, na którym chcemy skończyć

array([0, 1, 2, 3, 4, 5, 6, 7])

In [138]:
A[8:] # indeks, od którego chcemy rozpocząć

array([ 8,  9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [139]:
A[[6, 9, 4]] # kilka konkretnych indeksów, wskazanych jako lista

array([6, 9, 4])

In [140]:
A[-7] # indeks od końca

13

To było proste. Zróbmy jednak z tego macierz, żeby trochę to utrudnić.

In [141]:
A = A.reshape(4, 5)
A

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

In [142]:
A[0] # pierwszy wiersz

array([0, 1, 2, 3, 4])

In [143]:
A[:, 0] # pierwsza kolumna

array([ 0,  5, 10, 15])

In [144]:
A[:, -1] # ostatnia kolumna

array([ 4,  9, 14, 19])

In [145]:
A[1,1] # konkretny element

6

In [146]:
A[1,-2]

8

In [148]:
A[1:3, 1:4] # wycinanie macierzy

array([[ 6,  7,  8],
       [11, 12, 13]])

Możemy też zmieniać elementy.

In [149]:
A[1, 2] = 14 # zmiana elementu
A

array([[ 0,  1,  2,  3,  4],
       [ 5,  6, 14,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

In [150]:
A[1:3, 1:4] = np.zeros((2,3)) # zmiana wycinanego elementu
A

array([[ 0,  1,  2,  3,  4],
       [ 5,  0,  0,  0,  9],
       [10,  0,  0,  0, 14],
       [15, 16, 17, 18, 19]])

## Iteracja po tablicach.

Przypomnijmy sobie postać naszej tablicy 2D (macierzy). Jeżeli chcemy iterować wiersz po wierszu, możemy to robić za pomocą pętli.

In [151]:
for row in A:
    print(row)

[0 1 2 3 4]
[5 0 0 0 9]
[10  0  0  0 14]
[15 16 17 18 19]


Możemy też przy pomocy pętli wyświetlać wycinki tablicy.

In [152]:
for row in A:
    print(row[:3])

[0 1 2]
[5 0 0]
[10  0  0]
[15 16 17]


Żeby wyświetlać element po elemencie, musimy "spłaszczyć" tablicę, używając atrybutu **flat**.

In [156]:
for item in A.flat:
    print(item)

0
1
2
3
4
5
0
0
0
9
10
0
0
0
14
15
16
17
18
19


## Zmiana rozmiaru tablic.

In [158]:
A.shape

(4, 5)

Najoczywistszą metodą do zmiany kształtu takiej tablicy jest metoda **reshape**.

In [159]:
A.reshape(5, 4)

array([[ 0,  1,  2,  3],
       [ 4,  5,  0,  0],
       [ 0,  9, 10,  0],
       [ 0,  0, 14, 15],
       [16, 17, 18, 19]])

Można jednak też zastosować metodę **ravel**, która pozwoli wypłaszczyć naszą tablicę.

In [160]:
A.ravel()

array([ 0,  1,  2,  3,  4,  5,  0,  0,  0,  9, 10,  0,  0,  0, 14, 15, 16,
       17, 18, 19])

Transpozycja macierzy to zamiana wierszy na kolumny. Dwie metody:

In [161]:
A.T

array([[ 0,  5, 10, 15],
       [ 1,  0,  0, 16],
       [ 2,  0,  0, 17],
       [ 3,  0,  0, 18],
       [ 4,  9, 14, 19]])

In [162]:
np.transpose(A)

array([[ 0,  5, 10, 15],
       [ 1,  0,  0, 16],
       [ 2,  0,  0, 17],
       [ 3,  0,  0, 18],
       [ 4,  9, 14, 19]])

## Maski logiczne.

In [167]:
A = np.random.randint(low=-100, high=100, size=(10, 5))
A

array([[-77,  -8, -55,  80,  -6],
       [ -2,  87,  15,  90,  59],
       [ 60, -34,  27, -83, -76],
       [-47, -43, -34,   3,  73],
       [-77,  13, -69,  74, -15],
       [ 50,  93,  26,  54,  29],
       [-84,   3,  60,  36, -58],
       [ 75, -62,  69, -75,  -2],
       [-51,  52,  51, -88, -41],
       [ 34, -44, -65,  72, -81]])

Po co nam maski logiczne? Np. chcielibyśmy się dowiedzieć, w których miejscach macierzy mamy wartości ujemne.

In [168]:
A > 0

array([[False, False, False,  True, False],
       [False,  True,  True,  True,  True],
       [ True, False,  True, False, False],
       [False, False, False,  True,  True],
       [False,  True, False,  True, False],
       [ True,  True,  True,  True,  True],
       [False,  True,  True,  True, False],
       [ True, False,  True, False, False],
       [False,  True,  True, False, False],
       [ True, False, False,  True, False]])

Dzięki takiej masce możemy wyciąć tylko te dane, które nas interesują. Przekazujemy tę maskę jako indeks do wycięcia, dzięki czemu wyświetlą się te dane, dla których maska przyjmuje wartość True.

In [169]:
A[A < 0]

array([-77,  -8, -55,  -6,  -2, -34, -83, -76, -47, -43, -34, -77, -69,
       -15, -84, -58, -62, -75,  -2, -51, -88, -41, -44, -65, -81])

Aby wyświetlić tylko te wartości, które spełniają więcej niż jeden warunek logiczny, stosujemy funkcję **bitwise_and** (operator and nie znajdzie zastosowania, wyrzuci błąd).

In [171]:
A[np.bitwise_and(A > -10, A < 10)]

array([-8, -6, -2,  3,  3, -2])

Sama ta funkcja też oczywiście pełni rolę maski logicznej.

In [172]:
np.bitwise_and(A > -10, A < 10)

array([[False,  True, False, False,  True],
       [ True, False, False, False, False],
       [False, False, False, False, False],
       [False, False, False,  True, False],
       [False, False, False, False, False],
       [False, False, False, False, False],
       [False,  True, False, False, False],
       [False, False, False, False,  True],
       [False, False, False, False, False],
       [False, False, False, False, False]])

Funkcja **bitwise_or** to z kolei maska dla alternatywy - wyświetli True dla wartości spełniających jeden z dwóch warunków.

In [173]:
np.bitwise_or(A < -50, A > 50)

array([[ True, False,  True,  True, False],
       [False,  True, False,  True,  True],
       [ True, False, False,  True,  True],
       [False, False, False, False,  True],
       [ True, False,  True,  True, False],
       [False,  True, False,  True, False],
       [ True, False,  True, False,  True],
       [ True,  True,  True,  True, False],
       [ True,  True,  True,  True, False],
       [False, False,  True,  True,  True]])

In [174]:
A[np.bitwise_or(A < -50, A > 50)]

array([-77, -55,  80,  87,  90,  59,  60, -83, -76,  73, -77, -69,  74,
        93,  54, -84,  60, -58,  75, -62,  69, -75, -51,  52,  51, -88,
       -65,  72, -81])