# Przetwarzanie danych w Pythonie

![](https://upload.wikimedia.org/wikipedia/commons/1/12/Data_processing_system_%28english%29.svg)

W tej części kursu skupimy się na technikach przetwarzania danych w Pythonie. Nauczymy się wczytywać dane z różnych źródeł, przechowywać je w pamięci komputera i wykonywać na nich różnego rodzaju operacje. Dane na których przyjdzie nam pracować będą pochodzić z różnych źródeł i mogą reprezentować dokumenty, obrazy, dźwięki, wyniki pomiarów, wydarzenia w czasie i wszystko inne co można w pewien sposób zapisać.

Na pierwszy rzut oka może wydawać się, że nie jest możliwe reprezentowanie tak różnych danych w spójny sposób. Okazuje się jednak, że większość danych z jakimi mamy styczność można przedstawić za pomocą macierzy liczbowych - np. zdjęcie w komputerze jest zapisane jako kilkuwymiarowa macierz liczb które oznaczają kolory poszczególnych pikseli.

Aby skutecznie analizować dane zwykle będziemy dążyć aby przedstawić je w formie numerycznej.

Narzędzia na których się skupimy to dwa pakiety Pythonowe:
- NumPy (Numerical Python)
- Pandas

# Przetwarzanie danych w Pythonie - NumPy

![](https://upload.wikimedia.org/wikipedia/commons/3/31/NumPy_logo_2020.svg)

## NumPy

NumPy pozwala nam efektywnie przechowywać i operować na dużych zbiorach danych. NumPy leży zwykle u podstaw wszystkich innych technik i narzędzi związanych z data science, więc czas poświęcony na naukę NumPy na pewno zwróci się w przyszłości.

In [3]:
import numpy as np
np.__version__

'1.22.2'

### Typy danych w Pythonie i w NumPy

Python sam w sobie jest językiem który dynamicznie typowanym, co oznacza, że Python sam potrafi rozpoznawać typy obiektów z których korzystamy. Rozważmy np Pythonową listę:


In [4]:
l = [1, "2", True, 3.0, None]

In [5]:
[type(item) for item in l]

[int, str, bool, float, NoneType]

Jak widać Python potrafi samemu rozpoznać typy obiektów i stworzyć listę która zawiera obiektu różnego typu.
Ta elastyczność ma jednak swoją cenę - każdy obiekt w liście musi przechowywać informacje o swoim typie. 

Z perspektywy dużych zbiorów danych dużo efektywniej jest przechowywać dane w postaci wektorów wcześniej określonego typu. NumPy dostarcza nam właśnie tego typu kontener, który nazywa się `Array`.

In [6]:
# tablica liczb całkowitych
np.array([1, 2, 3, 4, 5])

array([1, 2, 3, 4, 5])

In [7]:
# tablica liczb zmiennoprzecinkowych
np.array([4.1, 0, 1, 2, 3])

array([4.1, 0. , 1. , 2. , 3. ])

Zauważ, że obiekty typu `int` zostały zamienione przez NumPy na typ `float` aby zachować spójność typu w tablicy.

Ponadto w odróżnieniu do Pythonowych list, NumPy z łatwością reprezentuje również tablice wielowymiarowe:

In [8]:
np.array([range(i, i + 3) for i in [2, 4, 6]])

array([[2, 3, 4],
       [4, 5, 6],
       [6, 7, 8]])

### Sposoby tworzenia tablic w NumPy

In [9]:
# 10 elementowa tablica wypełniona zerami
np.zeros(10, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [10]:
# Tablica o wymiarach 5x3, wypełniona 1.
np.ones((5, 3), dtype=float)

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [11]:
# Tablica wypełniona ciągiem liniowym z krokiem 2
np.arange(0, 20, 2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [12]:
# Tablica o wymiarach 3x3 z wartościami wylosowanymi z rozkładu N(0, 1)
np.random.normal(0, 1, (3, 3))

array([[-0.54876048,  0.4045463 , -0.51028164],
       [ 0.47428397, -1.05036247,  1.2809234 ],
       [-1.78273629, -0.44954144, -0.48720755]])

In [13]:
# Tablica o wymiarach 4x5 z liczbami całkowitymi wylosowanymi z przedziału [0, 10)
np.random.randint(0, 10, (4, 5))

array([[5, 8, 4, 3, 1],
       [2, 0, 5, 0, 4],
       [3, 4, 8, 2, 6],
       [2, 3, 0, 2, 4]])

NumPy posiada dużo więcej typów danych niż Python, aby przeczytać o wszystkich możliwościach warto zajrzęć do dokumentacji:
https://numpy.org/doc/stable/user/basics.types.html

### Operowanie na tablicach w NumPy 

Skupimy się teraz na operacjach jakie można wykonywać na NumPy tablicach. Zobaczymy między innymi jak:

- Odczytywać i ustawiać pojedyncze elementy w tablicy
- Sprawdzać rozmiar, typ, użycie pamięci tablicy
- Tworzyć tablice jako wycinki większych tablic
- Zmieniać wymiary tablicy
- Łączyć i dzielić tablice

Zacznijmy od stworzenia trzy wymiarowej tablicy wypełnionej liczbami całkowitymi:

In [14]:
# Trzy wymiarowa tablica o wymiarach 2x3x4 
# z losowymi liczbami całkowitymi z przedziału [0, 100)
x = np.random.randint(100, size=(2, 3, 4))

In [15]:
x

array([[[46, 11, 96, 46],
        [26, 70, 64, 57],
        [ 1, 95, 96, 29]],

       [[85, 81, 38,  4],
        [41, 64,  6, 80],
        [55, 88,  6, 88]]])

In [16]:
print(f"x ndim: {x.ndim}")  # liczba wymiarów
print(f"x shape: {x.shape}")  # wymiary tablicy
print(f"x size: {x.size}")  # całkowity rozmiar tablicy

x ndim: 3
x shape: (2, 3, 4)
x size: 24


In [17]:
print(f"x dtype: {x.dtype}")  # typ danych przechowywanych w tablicy

x dtype: int64


In [18]:
print(f"itemsize: {x.itemsize} bytes")  # rozmiar jednego elementu
print(f"nbytes: {x.nbytes} bytes")  # rozmiar całej tablicy (itemsize x size)

itemsize: 8 bytes
nbytes: 192 bytes


Indeksowanie tablic w NumPy jest bardzo podobne do tego w Pythonie, odwołanie do i-tej wartości (licząc od zera) odbywa się poprzez użycie nawiasów kwadratowych:

In [19]:
y = np.arange(0, 10)

In [20]:
y

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [21]:
y[5]

5

In [22]:
y[0]

0

Tak jak w standardowym Pythonie, możemy korzystać z ujemnych indeksów:

In [23]:
y

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [24]:
y[-1]

9

Wielowymiarowe tablice możemy indeksować za pomocą krotek:

In [25]:
x

array([[[46, 11, 96, 46],
        [26, 70, 64, 57],
        [ 1, 95, 96, 29]],

       [[85, 81, 38,  4],
        [41, 64,  6, 80],
        [55, 88,  6, 88]]])

In [26]:
x[0, 1, 2]  # odczytanie elementu o współrzednych (0,1,2)

64

W ten sam sposób możemy również modyfikować elementy:

In [27]:
x

array([[[46, 11, 96, 46],
        [26, 70, 64, 57],
        [ 1, 95, 96, 29]],

       [[85, 81, 38,  4],
        [41, 64,  6, 80],
        [55, 88,  6, 88]]])

In [28]:
x[0, 1, 2] = 42

In [29]:
x

array([[[46, 11, 96, 46],
        [26, 70, 42, 57],
        [ 1, 95, 96, 29]],

       [[85, 81, 38,  4],
        [41, 64,  6, 80],
        [55, 88,  6, 88]]])

Możemy również używać _slice_ aby odwołać się do wycinka tabeli:

In [30]:
y

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [31]:
y[:5]  # pierwsze 5 elementów

array([0, 1, 2, 3, 4])

In [32]:
y[4:7]  # wycinek ze środka tablicy

array([4, 5, 6])

In [33]:
y[::-1]  # tablica odczytana od tyłu

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

Podobnie możemy korzystać ze _slice_ aby wycinać kawałki wielowymiarowych tablic:

In [34]:
x

array([[[46, 11, 96, 46],
        [26, 70, 42, 57],
        [ 1, 95, 96, 29]],

       [[85, 81, 38,  4],
        [41, 64,  6, 80],
        [55, 88,  6, 88]]])

In [35]:
x[:1, :, :3]  # dwukropek bez argumentów oznacza wybranie wszystkich elementów z danego wymiaryu!

array([[[46, 11, 96],
        [26, 70, 42],
        [ 1, 95, 96]]])

Warto tutaj zaznaczyć, że w przeciwieństwie do działania na liście w pythonie, gdzie użycie _slice_ zwraca nam kopie w NumPy otrzymujemy _view_.

In [36]:
# Pythonowa lista

l1 = [1, 2, 3]
l2 = l1[2:]
l2[0] = 4
print(l1)  # l1 pozostaje nie zmienione!
print(l2)  # l1 pozostaje nie zmienione!

[1, 2, 3]
[4]


In [37]:
# NumPy
x = np.zeros((2, 3))
y = x[0, :]
y[0] = 1

print(x)  # x i y reprezentują tą samą tablicę!
print(y)  # x i y reprezentują tą samą tablicę!

[[1. 0. 0.]
 [0. 0. 0.]]
[1. 0. 0.]


Jeżeli chcemy otrzymać kopię tablicy, musimy użyć metody `copy()`

In [38]:
x_copy = x[:2, :2].copy()
x_copy[0, 0] = 42

print(x)
print(x_copy)  # zmiana x_copy nie zmieniła x

[[1. 0. 0.]
 [0. 0. 0.]]
[[42.  0.]
 [ 0.  0.]]


### Zmiana wymiarów tablicy

Zmiana wymiarów tablicy odbywa się poprzez użycie metody `reshape`, powiedzmy, że chcemy ułożyć liczby od 1 do 9 w tablicy 3x3:

In [39]:
np.arange(1, 10).reshape((3, 3))

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

Często będzie nam się przydawać możliwość zmienienia jednowymiarowego wektora w dwuwymiarowy:

In [40]:
x = np.array([1, 2, 3])
print(x.reshape((1, 3))) # dwuwymiarowa tablica z jednym wierszem i trzema kolumnami
print(x.reshape((3, 1))) # dwuwymiarowa tablica z trzema wierszami i jedną kolumną

[[1 2 3]]
[[1]
 [2]
 [3]]


### Łączenie tablic

Do łączenia tablic możemy korzystać z funkcji takich jak:
- `np.concatenate`
- `np.vstack`
- `np.hstack`

In [41]:
x = np.array([1, 2, 3])
y = np.array([3, 2, 1])
np.concatenate([x, y])

array([1, 2, 3, 3, 2, 1])

Podobnie dla dwuwymiarowych tablic:


In [42]:
grid = np.array([[1, 2, 3],
                 [4, 5, 6]])

print(np.concatenate([grid, grid]))
print(np.concatenate([grid, grid], axis=1))  # łączenie wzdłuż drugiego wymiaru

[[1 2 3]
 [4 5 6]
 [1 2 3]
 [4 5 6]]
[[1 2 3 1 2 3]
 [4 5 6 4 5 6]]


`np.vstack` i `np.hstack` są skrótami do operacji łączenia pionowo i poziomo:

In [43]:
x = np.array([1, 2, 3])
grid = np.array([[9, 8, 7],
                 [6, 5, 4]])

print(np.vstack([x, grid]))

[[1 2 3]
 [9 8 7]
 [6 5 4]]


In [44]:
y = np.array([[99],
              [99]])
np.hstack([grid, y])

array([[ 9,  8,  7, 99],
       [ 6,  5,  4, 99]])

Przeciwieństwiem łączenia jest dzielenie i mamy tu do dyspozycji funkcję `np.split`

Korzystając ze `np.split` musimy podać indeksy w których tablica ma być "przecięta".

In [45]:
x = np.arange(10)
x1, x2, x3 = np.split(x, [3, 5])

print(x1, x2, x3)  # zauważ, że dwa punkty dzielenia tworzą trzy tablice

[0 1 2] [3 4] [5 6 7 8 9]


### Wykonywanie obliczeń na tablicach

Nauczymy się teraz wykonywać obliczenia na tablicach NumPy. Aby działania które wykonujemy były wykonywane efektywnie będziemy musieli zmienić nasze podejście do tego w jaki sposób myślimy o niektórych operacjach. Poznamy operacje wektorowe, które pozwolą nam pisać kod który wykonuje się szybko i sprawnie.

Rozważmy funkcję wyliczającą odwrotności elementów w tablicy:

In [46]:
def compute_reciprocals(values):
    output = np.empty(len(values))
    for i, value in enumerate(values):
        output[i] = 1.0 / value
    return output

In [47]:
values = np.random.randint(1, 10, size=5)

In [48]:
values

array([9, 5, 1, 1, 3])

In [49]:
compute_reciprocals(values)

array([0.11111111, 0.2       , 1.        , 1.        , 0.33333333])

Spróbujmy wykonąć tą samą operację dla bardzo dużej tablicy:

In [50]:
big_array = np.random.randint(1, 100, size=1_000_000)

In [51]:
%timeit compute_reciprocals(big_array)

1.03 s ± 22.5 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


Wykonanie tej operacji dla miliona elementów zajęło prawie kilka sekund! Jest to absurdalnie wolno biorąc pod uwagę obecne możliwości komputerów. Ta powolność jest spowodowana tym w jaki sposób działa Python - wykonując pojedynczą operację dla każdego elementu Python musi wykonać wiele działań w tle związanych z określaniem typu.

Dla większości operacji NumPy pozwala nam korzystać z wbudowanych funkcji które wykonają się w sposób zwektoryzowany:

In [52]:
%timeit 1.0 / big_array  # ta sama operacja wykonana w sposób wektorowy

1.21 ms ± 146 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


W ten sposób możemy wykonywać wszystkie podstawowe operacje na tablicach:

In [53]:
x = np.arange(4)
print("x      =", x)
print("x + 5  =", x + 5)
print("x - 5  =", x - 5)
print("x * 2  =", x * 2)
print("x / 2  =", x / 2)
print("x // 2 =", x // 2)
print("-x     =", -x)
print("x ** 2 =", x ** 2)
print("x % 2  =", x % 2)

x      = [0 1 2 3]
x + 5  = [5 6 7 8]
x - 5  = [-5 -4 -3 -2]
x * 2  = [0 2 4 6]
x / 2  = [0.  0.5 1.  1.5]
x // 2 = [0 0 1 1]
-x     = [ 0 -1 -2 -3]
x ** 2 = [0 1 4 9]
x % 2  = [0 1 0 1]


### Agregacje na tablicach

NumPy oferuje nam wiele wbudowanych funkcji do wyliczania najczęściej stosowanych agregacji na danych:

In [54]:
L = np.random.random(100)
print(np.sum(L), np.min(L), np.max(L))

51.064410192853025 0.03389412219154542 0.9641177181738817


Warto zwrócić uwagę, że korzystanie z funkcji NumPy jest dużo szybsze niż z wbudowanych funkcji Pythonowych:

In [55]:
%timeit np.sum(L)
%timeit sum(L)

1.54 µs ± 10.4 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)
4.33 µs ± 198 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


Agregacje możemy wykonywać również po poszczególnych wymiarach:

In [56]:
M = np.random.randint(10, size=(3, 4))
print(M)

[[6 5 6 4]
 [3 2 5 6]
 [3 7 8 8]]


In [57]:
print(M.sum(axis=0))
print(M.min(axis=1))

[12 14 19 18]
[4 2 3]


### Porównywanie, maski

Stosując operator porównania na tablicy zawsze otrzymamy nową tablicę zawierającą typ `bool`.

In [58]:
x = np.array([1, 2, 3, 4, 5])

In [59]:
x < 3

array([ True,  True, False, False, False])

In [60]:
x > 3

array([False, False, False,  True,  True])

In [61]:
x == 3

array([False, False,  True, False, False])

Tablice wartości logicznych często przydają się w kombinacji z innymi funkcjami np:

In [62]:
x = np.random.randint(10, size=(4, 4))

In [63]:
x

array([[3, 5, 3, 8],
       [2, 1, 9, 8],
       [8, 6, 2, 9],
       [0, 7, 3, 2]])

In [64]:
# Ile wartości w tablicy jest mniejszych niż 6?
np.count_nonzero(x < 6)

9

In [65]:
# Ile wartości w każdym wierszu jest mniejsze niż 6?
np.sum(x < 6, axis=1)

array([3, 2, 1, 3])

In [66]:
# Czy jest wartość mniejsza niż 0?
np.any(x < 0)

False

Tablic logicznych możemy również używać jako masek do wybierania wartości z tablicy które spełniają określone warunki:

In [67]:
x

array([[3, 5, 3, 8],
       [2, 1, 9, 8],
       [8, 6, 2, 9],
       [0, 7, 3, 2]])

In [68]:
x[x < 5]  # Elementy z x które są mniejsze niż 5

array([3, 3, 2, 1, 2, 0, 3, 2])

### Fancy indexing

Fancy indexing polega na przekazywaniu tablicy indeksów aby otrzymać wiele elementów tablicy na raz. 

In [69]:
x = np.random.randint(100, size=10)

In [70]:
print(x)

[34 39 94  7 53 27 13 55 44 90]


Jeżeli chcemy wybrać 3, 7 i 2 element możemy to zrobić na dwa sposoby:

In [71]:
# Sposób pierwszy
[x[3], x[7], x[2]]

[7, 55, 94]

In [73]:
# Fancy indexing
ind = [3, 7, 2]
x[ind]

array([ 7, 55, 94])

Kiedy korzystamy z fancy indexingu wymiary tablicy wynikowej są takie jak tablicy indeksów:

In [74]:
ind = np.array([[3, 7],
                [4, 5]])
x[ind]

array([[ 7, 55],
       [53, 27]])

Rodzaje indeksowań można ze sobą mieszać:

In [75]:
x = np.random.randint(100, size=(5, 5))

In [76]:
x

array([[59, 36, 28, 63, 88],
       [ 9, 70, 99, 23, 88],
       [20, 42,  8, 10, 68],
       [23, 15, 82, 47,  5],
       [37,  7, 29, 41, 11]])

In [77]:
x[2, [0, 1, 2]]

array([20, 42,  8])

In [78]:
x[1:, [2, 0, 1]]

array([[99,  9, 70],
       [ 8, 20, 42],
       [82, 23, 15],
       [29, 37,  7]])

### Sortowanie tablic

NumPy ma również swoje wbudowane funkcje służące do sortowania tablic:

In [79]:
x = np.random.randint(100, size=5)

In [80]:
x

array([64, 52, 80, 28, 44])

In [81]:
np.sort(x)

array([28, 44, 52, 64, 80])

Sortowanie można również przeprowadzić w miejscu:

In [82]:
print(x)

[64 52 80 28 44]


In [83]:
x.sort()

In [84]:
print(x)

[28 44 52 64 80]


Istnieje również funkcja `np.argsort` która zwraca indeksy posortowanych elementów:

In [85]:
x = np.random.randint(100, size=5)

In [86]:
print(x)

[60 95 34 54 21]


In [87]:
i = np.argsort(x)

In [92]:
print(i)

[4 2 3 0 1]


In [89]:
x[i]  # Fancy indexing daje nam posortowaną tablicę

array([21, 34, 54, 60, 95])