# Przetwarzanie danych w Pythonie

![](https://upload.wikimedia.org/wikipedia/commons/1/12/Data_processing_system_%28english%29.svg)

W tej części skupimy się na technikach przetwarzania danych w Pythonie. Nauczymy się wczytywać dane z różnych źródeł, przechowywać je w pamięci komputera i wykonywać na nich różnego rodzaju operacje. Dane na których przyjdzie nam pracować będą pochodzić z różnych źródeł i mogą reprezentować dokumenty, obrazy, dźwięki, wyniki pomiarów, wydarzenia w czasie i wszystko inne co można w pewien sposób zapisać.

Na pierwszy rzut oka może wydawać się, że nie jest możliwe reprezentowanie tak różnych danych w spójny sposób. Okazuje się jednak, że większość danych z jakimi mamy styczność można przedstawić za pomocą macierzy liczbowych - np. zdjęcie w komputerze jest zapisane jako kilkuwymiarowa macierz liczb które oznaczają kolory poszczególnych pikseli.

Aby skutecznie analizować dane zwykle będziemy dążyć aby przedstawić je w formie numerycznej.

Narzędzia na których się skupimy to dwa pakiety Pythonowe:
- NumPy (Numerical Python)
- Pandas

# Przetwarzanie danych w Pythonie - NumPy

![](https://upload.wikimedia.org/wikipedia/commons/3/31/NumPy_logo_2020.svg)

## NumPy

NumPy pozwala nam efektywnie przechowywać i operować na dużych zbiorach danych. NumPy leży zwykle u podstaw wszystkich innych technik i narzędzi związanych z data science, więc czas poświęcony na naukę NumPy na pewno zwróci się w przyszłości. Jest to jedna z pierwszych bibliotek, z którymi chcemy się zaznajomić, pracując przy analizie danych oraz sztucznej inteligencji. Jest to biblioteka składająca się z wielowymiarowych obiektów tablicowych i zbioru procedur do przetwarzania tych tablic. Za jej można wykonywać operacje matematyczne i logiczne na tablicach.

## Dlaczego używać NumPy?

- NumPy jest szybki, ponieważ napisany jest w języku C oraz C++ które są językami kompilowanymi (aby uzyskać działający program musi on zostać uprzednio skompilowany do postaci kodu maszynowego - do postaci binarnej) ale częściowo jest też napisany w Python, który jest językiem interpretowanym,
- w Pythonie mamy listy, które służą do celów tablic, ale ich przetwarzanie jest wolne, dzięki NumPy mamy dostarczony obiekt tablicy, który jest 50 razy szybszy od tradycyjnych list Pythonowych,
- obiekt tablicy w NumPy nazywa się ndarray, zapewnia on wiele funkcji pomocniczych, które bardzo ułatwiają pracę z tymi tablicami,
- tablice NumPy są przechowywane w jednym ciągłym miejscu w pamięci, w przeciwieństwie do list Pythonowych, dzięki czemu procesy mogą uzyskiwać do nich dostęp i bardzo efektywnie nimi manipulować,
- NumPy jest biblioteką Open Source, czyli każdy może zobaczyć jej kod i przyczynić się do jego rozwoju,

In [2]:
import numpy as np
print(np.__version__)

1.24.3


### Typy danych w Pythonie i w NumPy

Python sam w sobie jest językiem który dynamicznie typowanym, co oznacza, że Python sam potrafi rozpoznawać typy obiektów z których korzystamy. Rozważmy np Pythonową listę:


In [3]:
l = [1, "2", True, 3.0, None]

In [4]:
[type(item) for item in l]

[int, str, bool, float, NoneType]

Jak widać Python potrafi samemu rozpoznać typy obiektów i stworzyć listę która zawiera obiektu różnego typu.
Ta elastyczność ma jednak swoją cenę - każdy obiekt w liście musi przechowywać informacje o swoim typie. 

Z perspektywy dużych zbiorów danych dużo efektywniej jest przechowywać dane w postaci wektorów wcześniej określonego typu. NumPy dostarcza nam właśnie tego typu kontener, który nazywa się `Array`.

In [5]:
# tablica liczb całkowitych
np.array([1, 2, 3, 4, 5])

array([1, 2, 3, 4, 5])

In [6]:
# tablica liczb zmiennoprzecinkowych
np.array([4.1, 0, 1, 2, 3]) 

array([4.1, 0. , 1. , 2. , 3. ])

Zauważ, że obiekty typu `int` zostały zamienione przez NumPy na typ `float` aby zachować spójność typu w tablicy.

Ponadto w odróżnieniu do Pythonowych list, NumPy z łatwością reprezentuje również tablice wielowymiarowe:

In [8]:
print(np.array([range(i, i + 3) for i in [2, 4, 6]]))

[[2 3 4]
 [4 5 6]
 [6 7 8]]


### Sposoby tworzenia tablic w NumPy

In [9]:
# 10 elementowa tablica wypełniona zerami
np.zeros(10, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [16]:
# Tablica o wymiarach 5x3, wypełniona 1.
np.ones((5, 3), dtype=float)

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [11]:
# Tablica wypełniona ciągiem liniowym z krokiem 2
np.arange(0, 20, 2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [20]:
# Tablica o wymiarach 3x3 z wartościami wylosowanymi z rozkładu N(0, 1)
np.random.normal(0, 1, (3, 3))

array([[-0.04526109,  0.20487086,  0.66626654],
       [-0.27609885,  0.96398352, -0.49588731],
       [ 2.19454914, -0.0102857 , -0.64444943]])

In [28]:
# Tablica o wymiarach 4x5 z liczbami całkowitymi wylosowanymi z przedziału [0, 10)
np.random.randint(0, 10, (4, 5))

array([[7, 5, 6, 5, 0],
       [6, 2, 7, 1, 0],
       [1, 9, 2, 9, 9],
       [0, 9, 7, 3, 0]])

NumPy posiada dużo więcej typów danych niż Python, aby przeczytać o wszystkich możliwościach warto zajrzęć do dokumentacji:
https://numpy.org/doc/stable/user/basics.types.html

### Operowanie na tablicach w NumPy 

Skupimy się teraz na operacjach jakie można wykonywać na NumPy tablicach. Zobaczymy między innymi jak:

- Odczytywać i ustawiać pojedyncze elementy w tablicy
- Sprawdzać rozmiar, typ, użycie pamięci tablicy
- Tworzyć tablice jako wycinki większych tablic
- Zmieniać wymiary tablicy
- Łączyć i dzielić tablice

Zacznijmy od stworzenia trzy wymiarowej tablicy wypełnionej liczbami całkowitymi:

In [35]:
# Trzy wymiarowa tablica o wymiarach 2x3x4 
# z losowymi liczbami całkowitymi z przedziału [0, 100)
x = np.random.randint(100, size=(2, 3, 4))

In [36]:
x

array([[[81, 37, 25, 56],
        [20, 82, 65, 70],
        [70, 40, 71,  8]],

       [[34, 24, 68, 70],
        [48, 69,  4, 64],
        [60, 38, 72, 50]]])

In [37]:
print(f"x ndim: {x.ndim}")  # liczba wymiarów
print(f"x shape: {x.shape}")  # wymiary tablicy
print(f"x size: {x.size}")  # całkowity rozmiar tablicy

x ndim: 3
x shape: (2, 3, 4)
x size: 24


In [38]:
print(f"x dtype: {x.dtype}")  # typ danych przechowywanych w tablicy

x dtype: int64


In [39]:
print(f"itemsize: {x.itemsize} bytes")  # rozmiar jednego elementu
print(f"nbytes: {x.nbytes} bytes")  # rozmiar całej tablicy (itemsize x size)

itemsize: 8 bytes
nbytes: 192 bytes


Indeksowanie tablic w NumPy jest bardzo podobne do tego w Pythonie, odwołanie do i-tej wartości (licząc od zera) odbywa się poprzez użycie nawiasów kwadratowych:

In [40]:
y = np.arange(0, 10)

In [41]:
y

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [42]:
y[5]

5

In [43]:
y[0]

0

Tak jak w standardowym Pythonie, możemy korzystać z ujemnych indeksów:

In [44]:
y

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [45]:
y[-1]

9

Wielowymiarowe tablice możemy indeksować za pomocą krotek:

In [46]:
x

array([[[81, 37, 25, 56],
        [20, 82, 65, 70],
        [70, 40, 71,  8]],

       [[34, 24, 68, 70],
        [48, 69,  4, 64],
        [60, 38, 72, 50]]])

In [47]:
x[0, 1, 2]  # odczytanie elementu o współrzednych (0,1,2)

65

W ten sam sposób możemy również modyfikować elementy:

In [48]:
x

array([[[81, 37, 25, 56],
        [20, 82, 65, 70],
        [70, 40, 71,  8]],

       [[34, 24, 68, 70],
        [48, 69,  4, 64],
        [60, 38, 72, 50]]])

In [49]:
x[0, 1, 2] = 42

In [50]:
x

array([[[81, 37, 25, 56],
        [20, 82, 42, 70],
        [70, 40, 71,  8]],

       [[34, 24, 68, 70],
        [48, 69,  4, 64],
        [60, 38, 72, 50]]])

Możemy również używać _slice_ aby odwołać się do wycinka tabeli:

In [51]:
y

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [52]:
y[:5]  # pierwsze 5 elementów

array([0, 1, 2, 3, 4])

In [53]:
y[4:7:2]  # wycinek ze środka tablicy

array([4, 6])

In [54]:
y[::-1]  # tablica odczytana od tyłu

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

Podobnie możemy korzystać ze _slice_ aby wycinać kawałki wielowymiarowych tablic:

In [55]:
x

array([[[81, 37, 25, 56],
        [20, 82, 42, 70],
        [70, 40, 71,  8]],

       [[34, 24, 68, 70],
        [48, 69,  4, 64],
        [60, 38, 72, 50]]])

In [56]:
x[:1, :, :3]  # dwukropek bez argumentów oznacza wybranie wszystkich elementów z danego wymiaryu!

array([[[81, 37, 25],
        [20, 82, 42],
        [70, 40, 71]]])

Warto tutaj zaznaczyć, że w przeciwieństwie do działania na liście w pythonie, gdzie użycie _slice_ zwraca nam kopie w NumPy otrzymujemy _view_.

In [67]:
l1 = [1, 2, 3]
l2 = l1[2:]
l2[0] = 4
print(l1)  # l1 pozostaje nie zmienione!
print(l2)  # l1 pozostaje nie zmienione!

[1, 2, 3]
[4]


In [68]:
# NumPy
x = np.zeros((2, 3))
y = x[ 0, :]
y[0] = 1
print(x)  # x i y reprezentują tą samą tablicę!
print(y)  # x i y reprezentują tą samą tablicę!

[[1. 0. 0.]
 [0. 0. 0.]]
[1. 0. 0.]


Jeżeli chcemy otrzymać kopię tablicy, musimy użyć metody `copy()`

In [69]:
x

array([[1., 0., 0.],
       [0., 0., 0.]])

In [70]:
x_copy = x[:2, :2].copy()
x_copy[0, 0] = 42

print(x)
print(x_copy)  # zmiana x_copy nie zmieniła x

[[1. 0. 0.]
 [0. 0. 0.]]
[[42.  0.]
 [ 0.  0.]]


### Zmiana wymiarów tablicy

Zmiana wymiarów tablicy odbywa się poprzez użycie metody `reshape`, powiedzmy, że chcemy ułożyć liczby od 1 do 9 w tablicy 3x3:

In [72]:
np.arange(1, 10).reshape((3, 3))

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

Często będzie nam się przydawać możliwość zmienienia jednowymiarowego wektora w dwuwymiarowy:

In [78]:
x = np.array([1, 2, 3])
print(x)
print(x.reshape((1, 3))) # dwuwymiarowa tablica z jednym wierszem i trzema kolumnami
print(x.reshape((3, 1))) # dwuwymiarowa tablica z trzema wierszami i jedną kolumną

[1 2 3]
[[1 2 3]]
[[1]
 [2]
 [3]]


### Łączenie tablic

Do łączenia tablic możemy korzystać z funkcji takich jak:
- `np.concatenate`
- `np.vstack`
- `np.hstack`

In [79]:
x = np.array([1, 2, 3])
y = np.array([3, 2, 1])
np.concatenate([x, y])

array([1, 2, 3, 3, 2, 1])

Podobnie dla dwuwymiarowych tablic:


In [83]:
grid = np.array([[1, 2, 3],
                 [4, 5, 6]])

print(np.concatenate([grid, grid]))
print(np.concatenate([grid, grid], axis=1))  # łączenie wzdłuż drugiego wymiaru

[[1 2 3]
 [4 5 6]
 [1 2 3]
 [4 5 6]]
[[1 2 3 1 2 3]
 [4 5 6 4 5 6]]


`np.vstack` i `np.hstack` są skrótami do operacji łączenia pionowo i poziomo:

In [87]:
x = np.array([1, 2, 3])
grid = np.array([[9, 8, 7],
                 [6, 5, 4]])

print(np.vstack([x, grid]))

[[1 2 3]
 [9 8 7]
 [6 5 4]]


In [85]:
y = np.array([[99],
              [99]])

print(np.hstack([grid, y]))

[[ 9  8  7 99]
 [ 6  5  4 99]]


Przeciwieństwiem łączenia jest dzielenie i mamy tu do dyspozycji funkcję `np.split`

Korzystając ze `np.split` musimy podać indeksy w których tablica ma być "przecięta".

In [90]:
x = np.arange(10)
print(x)
x1, x2, x3 = np.split(x, [3, 5])
print(x1, x2, x3)  # zauważ, że dwa punkty dzielenia tworzą trzy tablice

[0 1 2 3 4 5 6 7 8 9]
[0 1 2] [3 4] [5 6 7 8 9]


### Wykonywanie obliczeń na tablicach

Nauczymy się teraz wykonywać obliczenia na tablicach NumPy. Aby działania które wykonujemy były wykonywane efektywnie będziemy musieli zmienić nasze podejście do tego w jaki sposób myślimy o niektórych operacjach. Poznamy operacje wektorowe, które pozwolą nam pisać kod który wykonuje się szybko i sprawnie.

Rozważmy funkcję wyliczającą odwrotności elementów w tablicy:

In [91]:
def compute_reciprocals(values):
    output = np.empty(len(values))
    for i, value in enumerate(values):
        output[i] = 1.0 / value
    return output

In [92]:
values = np.random.randint(1, 10, size=5)

In [93]:
values

array([3, 3, 9, 4, 8])

In [94]:
compute_reciprocals(values)

array([0.33333333, 0.33333333, 0.11111111, 0.25      , 0.125     ])

Spróbujmy wykonąć tą samą operację dla bardzo dużej tablicy:

In [95]:
big_array = np.random.randint(1, 100, size=1_000_000)

„%timeit” to magiczna funkcja, gdzie kod składa się z jednej linii lub powinien być napisany w tej samej linii, aby zmierzyć czas wykonania. To polecenie wielokrotnie wykonuje dostępny kod i zwraca najszybszy wynik. Obliczy ono automatycznie liczbę wykonań potrzebnych do kodu w całkowitym oknie wykonania wynoszącym 2 sekundy.

In [96]:
%timeit compute_reciprocals(big_array)

698 ms ± 13.1 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


Wykonanie tej operacji dla miliona elementów zajęło prawie kilka sekund! Jest to absurdalnie wolno biorąc pod uwagę obecne możliwości komputerów. Ta powolność jest spowodowana tym w jaki sposób działa Python - wykonując pojedynczą operację dla każdego elementu Python musi wykonać wiele działań w tle związanych z określaniem typu.

Dla większości operacji NumPy pozwala nam korzystać z wbudowanych funkcji które wykonają się w sposób zwektoryzowany:

In [97]:
%timeit 1.0 / big_array  # ta sama operacja wykonana w sposób wektorowy

947 µs ± 41.6 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


W ten sposób możemy wykonywać wszystkie podstawowe operacje na tablicach:

In [107]:
x = np.arange(4)
print("x      =", x)
print("x + 5  =", x + 5)
print("x - 5  =", x - 5)
print("x * 2  =", x * 2)
print("x / 2  =", x / 2)
print("x // 2 =", x // 2)
print("-x     =", -x)
print("x ** 2 =", x ** 2)
print("x % 2  =", x % 2)

x      = [0 1 2 3]
x + 5  = [5 6 7 8]
x - 5  = [-5 -4 -3 -2]
x * 2  = [0 2 4 6]
x / 2  = [0.  0.5 1.  1.5]
x // 2 = [0 0 1 1]
-x     = [ 0 -1 -2 -3]
x ** 2 = [0 1 4 9]
x % 2  = [0 1 0 1]


### Agregacje na tablicach

NumPy oferuje nam wiele wbudowanych funkcji do wyliczania najczęściej stosowanych agregacji na danych:

In [122]:
L = np.random.random(100)
# print(L)
print(np.sum(L), np.min(L), np.max(L))

46.17768318806324 0.021256011755714344 0.9971851696218308


Warto zwrócić uwagę, że korzystanie z funkcji NumPy jest dużo szybsze niż z wbudowanych funkcji Pythonowych:

In [123]:
%timeit np.sum(L)
%timeit sum(L)

1.41 µs ± 9.84 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)
4.12 µs ± 9.77 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


Agregacje możemy wykonywać również po poszczególnych wymiarach:

In [124]:
M = np.random.randint(10, size=(3, 4))
print(M)

[[8 5 0 5]
 [4 1 4 9]
 [7 1 7 0]]


In [128]:
print(M.sum(axis=0))
print(M.sum(axis=1))
print(M.min(axis=0))
print(M.min(axis=1))

[19  7 11 14]
[18 18 15]
[4 1 0 0]
[0 1 0]


### Porównywanie, maski

Stosując operator porównania na tablicy zawsze otrzymamy nową tablicę zawierającą typ `bool`.

In [129]:
x = np.array([1, 2, 3, 4, 5])

In [130]:
x < 3

array([ True,  True, False, False, False])

In [131]:
x > 3

array([False, False, False,  True,  True])

In [132]:
x == 3

array([False, False,  True, False, False])

Tablice wartości logicznych często przydają się w kombinacji z innymi funkcjami np:

In [133]:
x = np.random.randint(10, size=(4, 4))

In [134]:
x

array([[6, 2, 1, 9],
       [1, 8, 7, 6],
       [0, 0, 8, 9],
       [7, 2, 8, 9]])

In [135]:
x < 6

array([[False,  True,  True, False],
       [ True, False, False, False],
       [ True,  True, False, False],
       [False,  True, False, False]])

In [136]:
# Ile wartości w tablicy jest mniejszych niż 6?
np.count_nonzero(x < 6)

6

In [137]:
# Ile wartości w każdej kolumnie jest mniejsze niż 6?
np.sum(x < 6, axis=0)

array([2, 3, 1, 0])

In [138]:
# Czy jest wartość mniejsza niż 0?
np.any(x < 0)

False

Tablic logicznych możemy również używać jako masek do wybierania wartości z tablicy które spełniają określone warunki:

In [139]:
x

array([[6, 2, 1, 9],
       [1, 8, 7, 6],
       [0, 0, 8, 9],
       [7, 2, 8, 9]])

In [140]:
x < 5

array([[False,  True,  True, False],
       [ True, False, False, False],
       [ True,  True, False, False],
       [False,  True, False, False]])

In [141]:
x[x < 5]  # Elementy z x które są mniejsze niż 5

array([2, 1, 1, 0, 0, 2])

### Fancy indexing

Fancy indexing polega na przekazywaniu tablicy indeksów aby otrzymać wiele elementów tablicy na raz. 

In [144]:
x = np.random.randint(100, size=10)

In [145]:
print(x)

[62 42 82  3 19 77 33 25 73 68]


Jeżeli chcemy wybrać 3., 7. i 2. element możemy to zrobić na dwa sposoby:

In [146]:
# Sposób pierwszy
[x[3], x[7], x[2]]

[3, 25, 82]

In [147]:
# Fancy indexing
ind = [3, 7, 2]
x[ind]

array([ 3, 25, 82])

Kiedy korzystamy z fancy indexingu wymiary tablicy wynikowej są takie jak tablicy indeksów:

In [148]:
x

array([62, 42, 82,  3, 19, 77, 33, 25, 73, 68])

In [149]:
ind = np.array([[3, 7],
                [4, 5]])
x[ind]

array([[ 3, 25],
       [19, 77]])

Rodzaje indeksowań można ze sobą mieszać:

In [150]:
x = np.random.randint(100, size=(5, 5))

In [151]:
x

array([[95, 67, 45, 27, 35],
       [25,  7, 87, 41,  5],
       [21, 64, 99, 84, 67],
       [43, 49, 83, 63, 50],
       [93, 36, 68, 27, 81]])

In [152]:
x[2, [0, 1, 2]]

array([21, 64, 99])

In [153]:
x[1:, [2, 0, 1]]

array([[87, 25,  7],
       [99, 21, 64],
       [83, 43, 49],
       [68, 93, 36]])

### Sortowanie tablic

NumPy ma również swoje wbudowane funkcje służące do sortowania tablic:

In [154]:
x = np.random.randint(100, size=5)

In [155]:
x

array([99, 16, 72, 36, 86])

In [156]:
np.sort(x) 

array([16, 36, 72, 86, 99])

Sortowanie można również przeprowadzić w miejscu:

In [157]:
print(x)

[99 16 72 36 86]


In [158]:
x.sort()

In [159]:
print(x)

[16 36 72 86 99]


Istnieje również funkcja `np.argsort` która zwraca indeksy posortowanych elementów:

In [162]:
x = np.random.randint(100, size=5)

In [163]:
print(x)

[73 16 93 72 95]


In [164]:
i = np.argsort(x)

In [165]:
print(i)

[1 3 0 2 4]


In [166]:
x[i]  # Fancy indexing daje nam posortowaną tablicę

array([16, 72, 73, 93, 95])

## Ćwiczenia

In [167]:
# chcemy uzyskać taką macierz

In [168]:
matrix = np.ones((5, 5))
zeros = np.zeros((3, 3))
zeros[1, 1] = 9
matrix[1:-1,1:-1] = zeros
print(matrix)

[[1. 1. 1. 1. 1.]
 [1. 0. 0. 0. 1.]
 [1. 0. 9. 0. 1.]
 [1. 0. 0. 0. 1.]
 [1. 1. 1. 1. 1.]]


In [169]:
array = np.array([[ 1,  2,  3,  4,  5],
                  [ 6,  7,  8,  9, 10],
                  [11, 12, 13, 14, 15],
                  [16, 17, 18, 19, 20],
                  [21, 22, 23, 24, 25],
                  [26, 27, 28, 29, 30]])
array

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25],
       [26, 27, 28, 29, 30]])

In [170]:
# print 11, 12 and 16, 17

In [171]:
array[2:4, 0:2] 

array([[11, 12],
       [16, 17]])

In [172]:
# chcemy uzyskać 2, 8, 14, 20

In [173]:
array[[0, 1, 2, 3], [1, 2, 3, 4]]

array([ 2,  8, 14, 20])

In [174]:
# chcemy uzyskać 4,5 i 24,25 i 29,30 

In [175]:
array[[0, 4, 5], 3:]

array([[ 4,  5],
       [24, 25],
       [29, 30]])

In [176]:
x = np.array([1, 2, 3, 4])

In [177]:
# 2, 4, 8, 16

In [178]:
2 ** x

array([ 2,  4,  8, 16])