#Pakiet NumPy


*   Moduł - plik ze skryptem
*   Pakiet - folder zawierający moduły




**NumPy** jest biblioteką bazową dla pakietu *pandas* (który będziemy wykorzystywać do przetwarzania danych).<br>
**NumPy** opiera się na bardzo wydajnych (bardziej niż np listy) tablicach (array) - o różnych wymiarach. Tablice te są przydatne w obliczeniach matematycznych (np. mnożenie macierzy), ale możemy na nich przeprowadzać też obliczenia statystyczne.<br>
Na tych tablicach bazuje też *pandas*.

## Tablice array podstawy

In [44]:
import numpy as np # importujemy pakiet numpy
# jest to bazowy pakiet dla wielu innych np. pandas

In [45]:
moja_lista = [1,2,3,4]
odchylenie_standardowe = np.std(moja_lista) # tu std to funkcja zdefiniowana w pakiecie numpy
print(odchylenie_standardowe) # dlatego zadziała też na listach (jeszcze do tego wrócimy)

1.118033988749895


In [46]:
moja_lista = [1,2,3,4]
moja_lista1 = [[1,2],[3,4]]
print(type(moja_lista))

moja_tablica = np.array(moja_lista) # jednowymiarowa tablica N-dimensional array
moja_tablica1 = np.array(moja_lista1) # dwuwymiarowa tablica

print(type(moja_tablica)) # konkretny obiekt/instancja klasy (szablonu) numpy.ndarray

print(moja_tablica)
print(moja_tablica1)
moja_tablica.std() # teraz std to metoda obiektu ndarray

<class 'list'>
<class 'numpy.ndarray'>
[1 2 3 4]
[[1 2]
 [3 4]]


np.float64(1.118033988749895)

In [47]:
tablica = np.array([1,2,3,4])
print(tablica)
print(type(tablica))

tablica1 = np.array([[1,2],[3,4]])
print(tablica1)

[1 2 3 4]
<class 'numpy.ndarray'>
[[1 2]
 [3 4]]


In [48]:
print(tablica1[1])
print(tablica1[1][0]) # tak indeksowaliśmy przy listach
print(tablica1[1, 0]) # przy tablicachy numpy - bardziej zalecane

[3 4]
3
3


##Rozmiar danych

In [49]:
print(tablica1.dtype) # 64 bity = 8 bajtów (bardzo duża liczba)
# kolejne możliwe 32, 16, 8 bitów

tablica1 = np.array([[1,2],[3,4]], dtype = np.int32)
print(tablica1.dtype) # (atrybut obiektu - tablicy)

tablica1 = np.array([[1,2],[3,4]], np.uint8) # nie musimy nazywać argumentu (uint = unsigned integer)
print(tablica1.dtype)

int64
int32
uint8


W przypadku **float** mamy do wyboru float16, 32, 64, 128 <br>
Czy warto więc wybierać bardziej oszczędne typy danych? <br>
Czasami tak (np. w trenowaniu modeli ML), ale domyślny typ 64 zwykle będzie dobrą opcją.

In [50]:
print(2**8-1) # uint8
print(tablica1.itemsize) # ile bajtów zajmuje jeden element
tablica1.nbytes # jest to wyłącznie wielkość pamięci zajmowana przez elementy tablicy
# cała tablica zajmuje znacznie więcej

255
1


4

## Działania na całych strukturach danych

In [51]:
# moja_lista + 2  --- coś takiego nie zadziała
for i in range(len(moja_lista)):
  print(i)
  moja_lista[i] = moja_lista[i] + 2
print(moja_lista)

0
1
2
3
[3, 4, 5, 6]


In [52]:
# tu podobie jak w R - rodzaj wektoryzacji (możemy prowadzić operacje od razu na całych strukturach)
moja_tablica = moja_tablica + 2 # lub jeszcze krócej moja_tablica += 2
print(moja_tablica)

[3 4 5 6]


In [53]:
moje_dane1 = np.arange(0,10)  # tworzymy jednowymiarową tablicę (start, stop, krok)
print(type(moje_dane1))
print(moje_dane1)

moje_dane2 = np.arange(10,20)
print(moje_dane2)

print(moje_dane1 + moje_dane2)

np.linspace(1,5,25) # ponownie jednowymiarowa tablica

<class 'numpy.ndarray'>
[0 1 2 3 4 5 6 7 8 9]
[10 11 12 13 14 15 16 17 18 19]
[10 12 14 16 18 20 22 24 26 28]


array([1.        , 1.16666667, 1.33333333, 1.5       , 1.66666667,
       1.83333333, 2.        , 2.16666667, 2.33333333, 2.5       ,
       2.66666667, 2.83333333, 3.        , 3.16666667, 3.33333333,
       3.5       , 3.66666667, 3.83333333, 4.        , 4.16666667,
       4.33333333, 4.5       , 4.66666667, 4.83333333, 5.        ])

## Indeksy

In [54]:
moje_dane3 = np.linspace(1,5,10)
tabela = np.column_stack((moje_dane1, moje_dane2, moje_dane3))
print(tabela)

[[ 0.         10.          1.        ]
 [ 1.         11.          1.44444444]
 [ 2.         12.          1.88888889]
 [ 3.         13.          2.33333333]
 [ 4.         14.          2.77777778]
 [ 5.         15.          3.22222222]
 [ 6.         16.          3.66666667]
 [ 7.         17.          4.11111111]
 [ 8.         18.          4.55555556]
 [ 9.         19.          5.        ]]


In [55]:
print(tabela[0])    # pierwszy wiersz (liczymy od 0)
print(tabela[-1])   # ostatni wiersz
print(tabela[1:3])  # wiersze od 1 do 3 ( ale bez 3)
print(tabela[-1,0]) # ostatni wiersz i pierwsza (0) kolumna

[ 0. 10.  1.]
[ 9. 19.  5.]
[[ 1.         11.          1.44444444]
 [ 2.         12.          1.88888889]]
9.0


In [56]:
print(tabela[:,2]) # trzecia kolumna

[1.         1.44444444 1.88888889 2.33333333 2.77777778 3.22222222
 3.66666667 4.11111111 4.55555556 5.        ]


##Statystyka

In [57]:
print(np.std(tabela[:,2]))
print(np.mean(tabela[:,1]))
print(np.mean(tabela, axis = 0))  # dla wierszy axis = 1

1.2765694770084506
14.5
[ 4.5 14.5  3. ]


In [58]:
# korzystamy z modułu numpy.random w celu wygenerowania większego zbioru danych
rng = np.random.default_rng(seed = 111) # określamy ziarno
print(type(rng)) # obiekt - generator liczb pseudolosowych (stworzony przez funkcję default_rng z modułu random)
# rozkład normalny
normalny = rng.standard_normal(10)
print(normalny)
rng.random() # liczba losowa z przedziału 0 - 1

<class 'numpy.random._generator.Generator'>
[-0.30743784 -0.8386569   0.12563787 -0.66067729  0.15831516  2.43876182
  0.43963253  0.77035284 -0.79443326 -0.90645504]


0.3382755360684506

In [59]:
rng.random(100) * (140-70) + 70

array([120.0792062 ,  75.53103469,  99.12071806,  97.84212912,
       135.71959115,  91.37970102, 112.6275039 , 121.83266825,
        75.44965303, 129.85097366, 106.32749039, 130.70914663,
       102.04072467, 134.1672667 , 134.22944068,  87.64232807,
        77.76817434,  85.61683936, 101.67536357, 132.00983461,
        82.58034863, 123.53096192,  84.26923123,  75.77850272,
        82.36908195,  78.23549312,  96.40190214, 103.61156525,
       125.12153699,  83.32645178, 125.4840023 ,  95.93056549,
       128.87126607,  76.43731503, 109.09647086, 108.47466112,
        86.17266372,  85.45013001, 123.42645273, 128.44047988,
        97.03360789, 127.76610896, 100.73665434,  73.52446603,
        87.33999459, 118.29928352, 124.83702117, 125.47597515,
        86.33436138, 108.9063581 ,  78.25862117,  94.34391714,
        72.14532231,  95.32060994, 120.09232041, 117.02907186,
        82.25797267, 122.67613781, 109.53165332,  77.057148  ,
       115.93248013,  72.05586796,  72.03114939, 118.29

In [60]:
np.var(normalny)

np.float64(0.9444205010098582)

In [61]:
np.percentile(tabela[:,0],20) # 50 mediana
# wynik będzie float nawet jeśli samą tablicę przekonwertujemy na int

np.float64(1.8)

In [62]:
tabela = tabela.astype('int8')
tabela

array([[ 0, 10,  1],
       [ 1, 11,  1],
       [ 2, 12,  1],
       [ 3, 13,  2],
       [ 4, 14,  2],
       [ 5, 15,  3],
       [ 6, 16,  3],
       [ 7, 17,  4],
       [ 8, 18,  4],
       [ 9, 19,  5]], dtype=int8)

In [63]:
np.percentile(tabela[:,0],20) # domyślna metoda "linear" interpoluje wynik (stąd liczba po przecinku)

np.float64(1.8)

In [64]:
np.percentile(tabela[:,0],20, method='nearest') # 'midpoint' - średnia z dwóch sąsiadujących 'lower', 'higher'
# nanpercentile - ignoruje wartości nan - podobnie nanmean itd

np.int8(2)

In [65]:
np.ptp(tabela) # ‘peak to peak’ - zakres - rozstęp

np.int8(19)

##Przetwarzanie danych

In [66]:
tabela > 5

array([[False,  True, False],
       [False,  True, False],
       [False,  True, False],
       [False,  True, False],
       [False,  True, False],
       [False,  True, False],
       [ True,  True, False],
       [ True,  True, False],
       [ True,  True, False],
       [ True,  True, False]])

In [67]:
tabela[tabela > 5]

array([10, 11, 12, 13, 14, 15,  6, 16,  7, 17,  8, 18,  9, 19], dtype=int8)

In [68]:
tabela[tabela[:, 0] > 5]  # pokaż wiersze dla których w pierwszej kolumnie (0) spełniony jest warunek >5

array([[ 6, 16,  3],
       [ 7, 17,  4],
       [ 8, 18,  4],
       [ 9, 19,  5]], dtype=int8)

In [69]:
# dla wszystkich przypadków spełniających warunek (w pierwszej kolumnie > 5)
# podstaw do drugiej kolumny 10
tabela[tabela[:, 0] > 5, 2] = 10
tabela

array([[ 0, 10,  1],
       [ 1, 11,  1],
       [ 2, 12,  1],
       [ 3, 13,  2],
       [ 4, 14,  2],
       [ 5, 15,  3],
       [ 6, 16, 10],
       [ 7, 17, 10],
       [ 8, 18, 10],
       [ 9, 19, 10]], dtype=int8)

In [70]:
tabela[tabela > 5] = tabela[tabela > 5] + 10
# lub nieco bardziej elegancki i szybciej (jedna maska logiczna) dane[dane > 5] += 10
tabela

array([[ 0, 20,  1],
       [ 1, 21,  1],
       [ 2, 22,  1],
       [ 3, 23,  2],
       [ 4, 24,  2],
       [ 5, 25,  3],
       [16, 26, 20],
       [17, 27, 20],
       [18, 28, 20],
       [19, 29, 20]], dtype=int8)

In [71]:
np.isnan(tabela) # NaN (Not a Number) - specjalna wartość typu float (brakuje liczby)

array([[False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False]])

In [72]:
tabela = tabela.astype('float16') # astype - metoda obiektu ndarray
tabela[0,0] = np.nan # nie przypiszemy wartości nan do int
tabela

array([[nan, 20.,  1.],
       [ 1., 21.,  1.],
       [ 2., 22.,  1.],
       [ 3., 23.,  2.],
       [ 4., 24.,  2.],
       [ 5., 25.,  3.],
       [16., 26., 20.],
       [17., 27., 20.],
       [18., 28., 20.],
       [19., 29., 20.]], dtype=float16)

In [73]:
np.isnan(tabela)

array([[ True, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False]])

In [74]:
tabela[np.isnan(tabela)]

array([nan], dtype=float16)

In [75]:
tabela[np.isnan(tabela)] = np.nanmean(tabela)
tabela

array([[14.484, 20.   ,  1.   ],
       [ 1.   , 21.   ,  1.   ],
       [ 2.   , 22.   ,  1.   ],
       [ 3.   , 23.   ,  2.   ],
       [ 4.   , 24.   ,  2.   ],
       [ 5.   , 25.   ,  3.   ],
       [16.   , 26.   , 20.   ],
       [17.   , 27.   , 20.   ],
       [18.   , 28.   , 20.   ],
       [19.   , 29.   , 20.   ]], dtype=float16)

###Oparatory logiczne <br>
nie używamy and or not

In [76]:
maska = (tabela > 5) & (tabela <= 18) # (and) każdy warunek w odrębnym nawiasie
tabela[maska] = 1
tabela

array([[ 1., 20.,  1.],
       [ 1., 21.,  1.],
       [ 2., 22.,  1.],
       [ 3., 23.,  2.],
       [ 4., 24.,  2.],
       [ 5., 25.,  3.],
       [ 1., 26., 20.],
       [ 1., 27., 20.],
       [ 1., 28., 20.],
       [19., 29., 20.]], dtype=float16)

In [77]:
maska = (tabela == 1) | (tabela == 2) # (or)
maska

array([[ True, False,  True],
       [ True, False,  True],
       [ True, False,  True],
       [False, False,  True],
       [False, False,  True],
       [False, False, False],
       [ True, False, False],
       [ True, False, False],
       [ True, False, False],
       [False, False, False]])

In [78]:
maska = ~((tabela == 1) | (tabela == 2)) # (not) wszystkie poza 1 i 2
maska

array([[False,  True, False],
       [False,  True, False],
       [False,  True, False],
       [ True,  True, False],
       [ True,  True, False],
       [ True,  True,  True],
       [False,  True,  True],
       [False,  True,  True],
       [False,  True,  True],
       [ True,  True,  True]])

In [79]:
# krócej to samo - żeby nie mnożyć warunków
maska = ~np.isin(tabela, [1, 2])
maska

array([[False,  True, False],
       [False,  True, False],
       [False,  True, False],
       [ True,  True, False],
       [ True,  True, False],
       [ True,  True,  True],
       [False,  True,  True],
       [False,  True,  True],
       [False,  True,  True],
       [ True,  True,  True]])