<a href="https://colab.research.google.com/github/piotr-osiwianski/data-science-bootcamp/blob/master/01_wprowadzenie/01_numpy_intro.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

* @author: krakowiakpawel9@gmail.com  
* @site: e-smartdata.org

### NumPy
>Strona biblioteki: [https://numpy.org/](https://numpy.org/)  
>Dokumentacja: [https://numpy.org/doc/](https://numpy.org/doc/)  
>
>Podstawowa biblioteka do obliczeń numerycznych w języku Python.
>
>Aby zainstalować bibliotekę NumPy, użyj polecenia poniżej:
```
pip install numpy
```

### Spis treści:
1. [Podstawy](#a1)
2. [Typy danych](#a2)
3. [Tworzenie tablic](#a3)
4. [Podstawowe operacje na tablicach](#a4)
5. [Generowanie liczb pseudolosowych](#a5)
6. [Podstawowe funkcje](#a6)
7. [Indeksowanie, Wycinanie](#a7)
8. [Iteracja po tablicach](#a8)
9. [Zmiana rozmiaru tablic](#a9)
10. [Maski logiczne](#a10)


### <a name='a1'></a> Podstawy

In [1]:
import numpy as np
np.__version__

'1.26.4'

In [None]:
print(dir(np))

In [None]:
help(np.array)

1D Array

In [8]:
# Tworzenie tablicy
x = np.array([1, 3])
x

array([1, 3])

In [7]:
print(x)

[1 3]


In [9]:
type(x)

numpy.ndarray

In [10]:
# Wymiar tablicy
x.ndim

1

In [13]:
# Ksztalt tablicy, 2 elementy w tupli
x.shape

(2,)

In [None]:
# Liczba elementow w tablicy
x.size

2

In [None]:
# Typ danych
x.dtype

dtype('int64')

In [None]:
x = np.array([1.3, 2.3, 1.4])
print(x)

[1.3 2.3 1.4]


In [None]:
x.dtype

dtype('float64')

2D Array

In [14]:
x = np.array([[1, 2], [-3, 1]])
x

array([[ 1,  2],
       [-3,  1]])

In [15]:
x.ndim

2

In [16]:
# Mamy dwa wiersze i dwie kolumny
x.shape

(2, 2)

In [17]:
x = np.array([[1, 2, 4], [4, 2, 1]])
print(x)

[[1 2 4]
 [4 2 1]]


In [18]:
x.shape

(2, 3)

3D Array

In [19]:
# Na przyklad w obrazach
x = np.array(
    [[[4, 3, 1],
      [3, 1, 2]],

     [[4, 1, 3],
      [4, 2, 1]],

     [[3, 2, 1],
      [4, 3, 2]]]
)
x

array([[[4, 3, 1],
        [3, 1, 2]],

       [[4, 1, 3],
        [4, 2, 1]],

       [[3, 2, 1],
        [4, 3, 2]]])

In [20]:
x.ndim

3

In [21]:
# 3 tablice, 2 wiersze i 3 kolumny
x.shape

(3, 2, 3)

### <a name='a2'></a> Typy danych

In [22]:
A = np.array([1, 2, 3])
A.dtype

dtype('int64')

In [23]:
A = np.array([1.0, 2.3, 3.3])
A.dtype

dtype('float64')

In [24]:
A = np.array([1, 2, 3], dtype='float')
A.dtype

dtype('float64')

In [25]:
A = np.array([1, 2, 3], dtype='complex')
A.dtype

dtype('complex128')

In [26]:
# Obcina wartosci po przecinku, bez zaokraglania
A = np.array([1.0, 2.7, 3.3], dtype='int')
A.dtype

dtype('int64')

In [27]:
A

array([1, 2, 3])

In [28]:
A = np.array([True, False])
A.dtype

dtype('bool')

In [30]:
# Na przyklad dane piksela dla obrazu
A = np.array([24, 120, 230], dtype=np.int8)
A.dtype

For the old behavior, usually:
    np.array(value).astype(dtype)
will give the desired result (the cast overflows).
  A = np.array([24, 120, 230], dtype=np.int8)


dtype('int8')

In [31]:
A = np.array([24, 120, 230], dtype=np.uint8)
A.dtype

dtype('uint8')

### <a name='a3'></a> Tworzenie tablic

In [33]:
# Automatyczne wypelnianie tablic,
# na przyklad maski do zdjec i bedziemy chcieli 800 x 600 pikseli, czarne tlo
np.zeros(shape=(4, 10))

array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]])

In [34]:
np.zeros(shape=(4, 10), dtype='int')

array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])

In [35]:
np.ones(shape=(5, 5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [36]:
np.ones(shape=(5, 5), dtype='int')

array([[1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1]])

In [37]:
np.full(shape=(3, 3), fill_value=4, dtype='int')

array([[4, 4, 4],
       [4, 4, 4],
       [4, 4, 4]])

In [40]:
# bez 10, analogicznie do Pythona: list(range(10)).    // [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [41]:
np.arange(start=5, stop=10)

array([5, 6, 7, 8, 9])

In [43]:
# krok = 10, bez 100
np.arange(start=10, stop=100, step=10)

array([10, 20, 30, 40, 50, 60, 70, 80, 90])

In [45]:
# w druga strone od najwyzszej wartosci
np.arange(start=100, stop=10, step=-10)

array([100,  90,  80,  70,  60,  50,  40,  30,  20])

In [46]:
np.arange(start=0, stop=1, step=0.05)

array([0.  , 0.05, 0.1 , 0.15, 0.2 , 0.25, 0.3 , 0.35, 0.4 , 0.45, 0.5 ,
       0.55, 0.6 , 0.65, 0.7 , 0.75, 0.8 , 0.85, 0.9 , 0.95])

In [48]:
# num = 11, mowi ile rowno rozlozonych liczb ma byc w danego przedzialu
np.linspace(start=0, stop=1, num=11)

array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. ])

In [49]:
# 15 rowno rozlozonych liczb z danego przedzialu
np.linspace(start=0, stop=1, num=15)

array([0.        , 0.07142857, 0.14285714, 0.21428571, 0.28571429,
       0.35714286, 0.42857143, 0.5       , 0.57142857, 0.64285714,
       0.71428571, 0.78571429, 0.85714286, 0.92857143, 1.        ])

In [50]:
A = np.arange(15)
A

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [51]:
# robijamy poprzednia tablice na podane rozmiary, ale iloczyn musi sie zgadzac
# 3x5 albo 5x3 da nam 15 z A = np.arange(15)
A.reshape((3, 5))

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [52]:
# -1 oznacza jesli nie znam liczby kolumn, python dobieze automatycznie
# odpowiednia liczbe kolumn
A.reshape((3, -1))

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [53]:
# to samo ale podajemy ile chcemy kolumn,
# python obliczy liczbe wierszy automatycznie - podalismy -1
A.reshape((-1, 3))

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

### <a name='a4'></a> Podstawowe operacje na tablicach

In [54]:
A = np.array([3, 1, 4, 2])
B = np.array([3, -1, 3, 2])
print(A)
print(B)

[3 1 4 2]
[ 3 -1  3  2]


In [55]:
# rozmiar tablic musi sie zgadzac
A + B

array([6, 0, 7, 4])

In [56]:
A - B

array([0, 2, 1, 0])

In [57]:
A * B

array([ 9, -1, 12,  4])

In [58]:
# Tablica B nie moze zawierac zer, zeby nie dzielic przez 0
A / B

array([ 1.        , -1.        ,  1.33333333,  1.        ])

In [59]:
A + 3

array([6, 4, 7, 5])

In [60]:
4 * A

array([12,  4, 16,  8])

In [61]:
A + 3*B

array([12, -2, 13,  8])

In [62]:
# to samo za pomoca metod
np.add(A, B)

array([6, 0, 7, 4])

In [63]:
np.subtract(A, B)

array([0, 2, 1, 0])

In [64]:
np.multiply(A, B)

array([ 9, -1, 12,  4])

In [65]:
np.divide(A, B)

array([ 1.        , -1.        ,  1.33333333,  1.        ])

In [69]:
X = np.array([[1, 3], [-2, 0]])
Y = np.array([[6, 0], [-1, 2]])
print(X, '\n')
print(Y)

[[ 1  3]
 [-2  0]] 

[[ 6  0]
 [-1  2]]


In [71]:
# tu tylko mnozymy element przez element
X * Y

array([[6, 0],
       [2, 0]])

In [73]:
# MNOZENIE MACIERZOWE: tutaj pierwszy wiersz razy pierwsza kolumna
# i drugi wiersz razy druga kolumna
np.dot(X, Y)

array([[  3,   6],
       [-12,   0]])

In [74]:
X.dot(Y)

array([[  3,   6],
       [-12,   0]])

In [76]:
# nie bedzie to samo bo mnozenie macierzy NIE jest naprzemienne
Y.dot(X)

array([[ 6, 18],
       [-5, -3]])

In [78]:
# to samo, trzecia metoda mnozenia macierzy
X @ Y

array([[  3,   6],
       [-12,   0]])

### <a name='a5'></a>  Generowanie liczb pseudolosowych

In [81]:
# ziarno losowania, zebys zawsze otrzymali ten sam wynik
np.random.seed(0)

In [88]:
# jedna liczba
np.random.randn()

0.33367432737426683

In [89]:
# srednia 0 i odchylenie standardowe 1
np.random.randn(10)

array([ 1.49407907, -0.20515826,  0.3130677 , -0.85409574, -2.55298982,
        0.6536186 ,  0.8644362 , -0.74216502,  2.26975462, -1.45436567])

In [91]:
# 10 wierszy - liczba probek, 4 kolumny - liczba zmiennych
np.random.randn(10, 4)

array([[-1.63019835,  0.46278226, -0.90729836,  0.0519454 ],
       [ 0.72909056,  0.12898291,  1.13940068, -1.23482582],
       [ 0.40234164, -0.68481009, -0.87079715, -0.57884966],
       [-0.31155253,  0.05616534, -1.16514984,  0.90082649],
       [ 0.46566244, -1.53624369,  1.48825219,  1.89588918],
       [ 1.17877957, -0.17992484, -1.07075262,  1.05445173],
       [-0.40317695,  1.22244507,  0.20827498,  0.97663904],
       [ 0.3563664 ,  0.70657317,  0.01050002,  1.78587049],
       [ 0.12691209,  0.40198936,  1.8831507 , -1.34775906],
       [-1.270485  ,  0.96939671, -1.17312341,  1.94362119]])

In [96]:
# wartosc z przedzialu 0 i 1, lewodomkniete 0 wchodzi, 1 - NIE wchodzi
np.random.rand()

0.5743252488495788

In [97]:
np.random.rand(10)

array([0.65320082, 0.65210327, 0.43141844, 0.8965466 , 0.36756187,
       0.43586493, 0.89192336, 0.80619399, 0.70388858, 0.10022689])

In [98]:
np.random.rand(10, 2)

array([[0.91948261, 0.7142413 ],
       [0.99884701, 0.1494483 ],
       [0.86812606, 0.16249293],
       [0.61555956, 0.12381998],
       [0.84800823, 0.80731896],
       [0.56910074, 0.4071833 ],
       [0.069167  , 0.69742877],
       [0.45354268, 0.7220556 ],
       [0.86638233, 0.97552151],
       [0.85580334, 0.01171408]])

In [109]:
# 0.....9
np.random.randint(10)

0

In [110]:
np.random.randint(low=10, high=101)

85

In [111]:
np.random.randint(low=10, high=101, size=10)

array([44, 79, 63, 90, 72, 18, 71, 11, 91, 45])

In [114]:
# losowyelement z tej listy
np.random.choice([4, 2, 1, 3, 5])

4

In [128]:
np.random.choice(['python', 'java', 'sql'])

'python'

In [129]:
data = np.arange(10)
data

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [138]:
# przetasujemy nasze dane, zmiana zachodzi na naszym obiekcie,
# nie musimy przypisywac do zmiennej
np.random.shuffle(data)

In [139]:
data

array([6, 9, 1, 3, 4, 2, 5, 8, 7, 0])

### <a name='a6'></a> Podstawowe funkcje

In [142]:
# stala Eulera
np.exp(1)

2.718281828459045

In [145]:
# zawsze zwroci w typie float
np.sqrt(9)

3.0

In [147]:
# czy kazdy element zwraca True czy False, czy caly zbior jest True czy False
np.all([2, 3, 1])

True

In [149]:
# czy jakikolwiek obiekt w zbiorze jest True, jak same 0 to False
np.any([0, 0, 0])

False

In [152]:
# tylko dla 0 bedzie False
bool(1.3)

True

In [156]:
A = np.random.rand(5)
A

array([0.74699424, 0.09259617, 0.21745049, 0.74925442, 0.73169376])

In [158]:
# WAZNE zwraca index gdzie funkcja (tablica) przyjmuje wartosc najwieksza
np.argmax(A)

3

In [160]:
# wyswietlamy najwieksza wartosc,
# bo jak wczesniej jest index 3 to A[3] - najwieksza liczba
A[np.argmax(A)]

0.7492544170632397

In [161]:
np.argmin(A)

1

In [163]:
# pokazuje indexy wartosci od najmniejszych z wczesniejszego zbioru A
# wartosc z indexem 3 byla najwieksza wiec jest na koncu
np.argsort(A)

array([1, 2, 4, 0, 3])

In [166]:
np.max(A)

0.7492544170632397

In [165]:
np.min(A)

0.09259616511851354

In [167]:
np.mean(A)

0.5075978143103038

In [168]:
np.median(A)

0.7316937564646905

In [169]:
np.std(A)

0.29063358055771227

###  <a name='a7'></a> Indeksowanie, Wycinanie

In [170]:
A = np.arange(20)
A

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

In [171]:
# A[idx], A[start:stop], A[:stop], A[start:]

In [172]:
A[2]

2

In [173]:
A[2:]

array([ 2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17, 18,
       19])

In [175]:
# lewostronnie domkniety, bez ostatniego indexu
A[:2]

array([0, 1])

In [176]:
A[[0, 2]]

array([0, 2])

In [177]:
A[-1]

19

In [178]:
A[10:15]

array([10, 11, 12, 13, 14])

In [179]:
A = A.reshape(4, 5)
A

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

In [180]:
# wiersze i kolumny od indexu 0
# A[0] - caly pierwszy wiersz, A[1] - caly drugi wiersz
# A[:, 0] - cala pierwsza kolumna [0,5,10,15]
# A[:, -1] - cala ostatnia kolumna [4,9,14,19]
# A[1, 3] = 8 (drugi wiersz i czwarta kolumna)

A[1:3, 1:4]
# pokaze wiersze od indexu 1 do 2 (bez 3) i kolumny od 1 do 3 (bez 4)

array([[ 6,  7,  8],
       [11, 12, 13]])

In [182]:
# zamieniamy w tablicy wartosc 7 na 14
A[1, 2] = 14
A

array([[ 0,  1,  2,  3,  4],
       [ 5,  6, 14,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

### <a name='a8'></a> Iteracja po tablicach

In [183]:
A

array([[ 0,  1,  2,  3,  4],
       [ 5,  6, 14,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

In [184]:
for row in A:
    print(row)

[0 1 2 3 4]
[ 5  6 14  8  9]
[10 11 12 13 14]
[15 16 17 18 19]


In [186]:
# w kazdym rzedzie 3 elementy do wydrukowania
for row in A:
    print(row[:3])

[0 1 2]
[ 5  6 14]
[10 11 12]
[15 16 17]


In [187]:
# flat wyplaszcza nasza tablice i iterujemy po kazdym elemencie tablicy
for item in A.flat:
    print(item)

0
1
2
3
4
5
6
14
8
9
10
11
12
13
14
15
16
17
18
19


### <a name='a9'></a> Zmiana rozmiaru tablic

In [188]:
A

array([[ 0,  1,  2,  3,  4],
       [ 5,  6, 14,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

In [189]:
A.shape

(4, 5)

In [190]:
A.reshape(5, 4)

array([[ 0,  1,  2,  3],
       [ 4,  5,  6, 14],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19]])

In [192]:
# wyplaszcza dane, odwrotne do reshape
A.ravel()

array([ 0,  1,  2,  3,  4,  5,  6, 14,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

In [195]:
# transponowanie macierzy, zamieniamy wiersze na kolumny i kolumny na wiersze
A.T

array([[ 0,  5, 10, 15],
       [ 1,  6, 11, 16],
       [ 2, 14, 12, 17],
       [ 3,  8, 13, 18],
       [ 4,  9, 14, 19]])

### <a name='a10'></a> Maski logiczne

In [197]:
A = np.arange(start=-10, stop=10, step=0.5)
# chcemy 10 wierszy a -1 oznacza automatycznie oblicz ile kolumn potrzeba
A = A.reshape(10, -1)
A

array([[-10. ,  -9.5,  -9. ,  -8.5],
       [ -8. ,  -7.5,  -7. ,  -6.5],
       [ -6. ,  -5.5,  -5. ,  -4.5],
       [ -4. ,  -3.5,  -3. ,  -2.5],
       [ -2. ,  -1.5,  -1. ,  -0.5],
       [  0. ,   0.5,   1. ,   1.5],
       [  2. ,   2.5,   3. ,   3.5],
       [  4. ,   4.5,   5. ,   5.5],
       [  6. ,   6.5,   7. ,   7.5],
       [  8. ,   8.5,   9. ,   9.5]])

In [199]:
# maska logiczna, True wartosci wieksze od zera
A > 0

array([[False, False, False, False],
       [False, False, False, False],
       [False, False, False, False],
       [False, False, False, False],
       [False, False, False, False],
       [False,  True,  True,  True],
       [ True,  True,  True,  True],
       [ True,  True,  True,  True],
       [ True,  True,  True,  True],
       [ True,  True,  True,  True]])

In [201]:
# dostaniemy wartosci tylko te gdzie jest True
A[A > 0]

array([0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5, 5. , 5.5, 6. , 6.5,
       7. , 7.5, 8. , 8.5, 9. , 9.5])

In [202]:
np.bitwise_and(A > -5, A < 5)

array([[False, False, False, False],
       [False, False, False, False],
       [False, False, False,  True],
       [ True,  True,  True,  True],
       [ True,  True,  True,  True],
       [ True,  True,  True,  True],
       [ True,  True,  True,  True],
       [ True,  True, False, False],
       [False, False, False, False],
       [False, False, False, False]])

In [203]:
A[np.bitwise_and(A > -5, A < 5)]

array([-4.5, -4. , -3.5, -3. , -2.5, -2. , -1.5, -1. , -0.5,  0. ,  0.5,
        1. ,  1.5,  2. ,  2.5,  3. ,  3.5,  4. ,  4.5])

In [204]:
np.bitwise_or(A < -5, A > 5)

array([[ True,  True,  True,  True],
       [ True,  True,  True,  True],
       [ True,  True, False, False],
       [False, False, False, False],
       [False, False, False, False],
       [False, False, False, False],
       [False, False, False, False],
       [False, False, False,  True],
       [ True,  True,  True,  True],
       [ True,  True,  True,  True]])

In [205]:
A[np.bitwise_or(A < -5, A > 5)]

array([-10. ,  -9.5,  -9. ,  -8.5,  -8. ,  -7.5,  -7. ,  -6.5,  -6. ,
        -5.5,   5.5,   6. ,   6.5,   7. ,   7.5,   8. ,   8.5,   9. ,
         9.5])