# Przetwarzanie danych w Pythonie

![](https://upload.wikimedia.org/wikipedia/commons/1/12/Data_processing_system_%28english%29.svg)

W tej części kursu skupimy się na technikach przetwarzania danych w Pythonie. Nauczymy się wczytywać dane z różnych źródeł, przechowywać je w pamięci komputera i wykonywać na nich różnego rodzaju operacje. Dane na których przyjdzie nam pracować będą pochodzić z różnych źródeł i mogą reprezentować dokumenty, obrazy, dźwięki, wyniki pomiarów, wydarzenia w czasie i wszystko inne co można w pewien sposób zapisać.

Na pierwszy rzut oka może wydawać się, że nie jest możliwe reprezentowanie tak różnych danych w spójny sposób. Okazuje się jednak, że większość danych z jakimi mamy styczność można przedstawić za pomocą macierzy liczbowych - np. zdjęcie w komputerze jest zapisane jako kilkuwymiarowa macierz liczb które oznaczają kolory poszczególnych pikseli.

Aby skutecznie analizować dane zwykle będziemy dążyć aby przedstawić je w formie numerycznej.

Narzędzia na których się skupimy to dwa pakiety Pythonowe:
- NumPy (Numerical Python)
- Pandas

# Przetwarzanie danych w Pythonie - NumPy

![](https://upload.wikimedia.org/wikipedia/commons/3/31/NumPy_logo_2020.svg)

## NumPy

NumPy pozwala nam efektywnie przechowywać i operować na dużych zbiorach danych. NumPy leży zwykle u podstaw wszystkich innych technik i narzędzi związanych z data science, więc czas poświęcony na naukę NumPy na pewno zwróci się w przyszłości. Jest to jedna z pierwszych bibliotek, z którymi chcemy się zaznajomić, pracując przy analizie danych oraz sztucznej inteligencji. Jest to biblioteka składająca się z wielowymiarowych obiektów tablicowych i zbioru procedur do przetwarzania tych tablic. Za jej można wykonywać operacje matematyczne i logiczne na tablicach.

## Dlaczego używać NumPy?
- NumPy jest szybki, ponieważ napisany jest w języku C oraz C++ które są językami kompilowanymi (aby uzyskać działający program musi on zostać uprzednio skompilowany do postaci kodu maszynowego - do postaci binarnej) ale częściowo jest też napisany w Python, który jest językiem interpretowanym,
- w Pythonie mamy listy, które służą do celów tablic, ale ich przetwarzanie jest wolne, dzięki NumPy mamy dostarczony obiekt tablicy, który jest 50 razy szbszy od tradycyjnych list Pythonowych,
- obiekt tablicy w NumPy nazywa się ndarray, zapewnia on wiele funkcji pomocniczych, które bardzo ułatwiają pracę z tymi tablicami,
- tablice NumPy są przechowywane w jednym ciągłym miejscu w pamięci, w przeciwieństwie do list Pythonowych, dzięki czemu procesy mogą uzyskiwać do nich dostęp i bardzo efektywnie nimi manipulować,
- NumPy jest biblioteką Open Source, czyli każy może zobaczyć jej kod i przyczynić się do jego rozwoju,

In [1]:
import numpy as np
np.__version__

'1.22.3'

### Typy danych w Pythonie i w NumPy

Python sam w sobie jest językiem który dynamicznie typowanym, co oznacza, że Python sam potrafi rozpoznawać typy obiektów z których korzystamy. Rozważmy np Pythonową listę:


In [None]:
l = [1, "2", True, 3.0, None]

In [None]:
[type(item) for item in l]

Jak widać Python potrafi samemu rozpoznać typy obiektów i stworzyć listę która zawiera obiektu różnego typu.
Ta elastyczność ma jednak swoją cenę - każdy obiekt w liście musi przechowywać informacje o swoim typie. 

Z perspektywy dużych zbiorów danych dużo efektywniej jest przechowywać dane w postaci wektorów wcześniej określonego typu. NumPy dostarcza nam właśnie tego typu kontener, który nazywa się `Array`.

In [None]:
# tablica liczb całkowitych
np.array([1, 2, 3, 4, 5])

In [None]:
# tablica liczb zmiennoprzecinkowych
np.array([4.1, 0, 1, 2, 3]) 

Zauważ, że obiekty typu `int` zostały zamienione przez NumPy na typ `float` aby zachować spójność typu w tablicy.

Ponadto w odróżnieniu do Pythonowych list, NumPy z łatwością reprezentuje również tablice wielowymiarowe:

In [None]:
np.array([range(i, i + 3) for i in [2, 4, 6]])

### Sposoby tworzenia tablic w NumPy

In [None]:
# 10 elementowa tablica wypełniona zerami
np.zeros(10, dtype=int)

In [None]:
# Tablica o wymiarach 5x3, wypełniona 1.
np.ones(size=(5, 3), dtype=float)

In [None]:
# Tablica wypełniona ciągiem liniowym z krokiem 2
np.arange(0, 20, 2)

In [None]:
# Tablica o wymiarach 3x3 z wartościami wylosowanymi z rozkładu N(0, 1)
np.random.normal(0, 1, (3, 3))

In [None]:
# Tablica o wymiarach 4x5 z liczbami całkowitymi wylosowanymi z przedziału [0, 10)
np.random.randint(0, 10, (4, 5))

NumPy posiada dużo więcej typów danych niż Python, aby przeczytać o wszystkich możliwościach warto zajrzęć do dokumentacji:
https://numpy.org/doc/stable/user/basics.types.html

### Operowanie na tablicach w NumPy 

Skupimy się teraz na operacjach jakie można wykonywać na NumPy tablicach. Zobaczymy między innymi jak:

- Odczytywać i ustawiać pojedyncze elementy w tablicy
- Sprawdzać rozmiar, typ, użycie pamięci tablicy
- Tworzyć tablice jako wycinki większych tablic
- Zmieniać wymiary tablicy
- Łączyć i dzielić tablice

Zacznijmy od stworzenia trzy wymiarowej tablicy wypełnionej liczbami całkowitymi:

In [None]:
# Trzy wymiarowa tablica o wymiarach 2x3x4 
# z losowymi liczbami całkowitymi z przedziału [0, 100)
x = np.random.randint(100, size=(2, 3, 4))

In [None]:
x

In [None]:
print(f"x ndim: {x.ndim}")  # liczba wymiarów
print(f"x shape: {x.shape}")  # wymiary tablicy
print(f"x size: {x.size}")  # całkowity rozmiar tablicy

In [None]:
print(f"x dtype: {x.dtype}")  # typ danych przechowywanych w tablicy

In [None]:
print(f"itemsize: {x.itemsize} bytes")  # rozmiar jednego elementu
print(f"nbytes: {x.nbytes} bytes")  # rozmiar całej tablicy (itemsize x size)

Indeksowanie tablic w NumPy jest bardzo podobne do tego w Pythonie, odwołanie do i-tej wartości (licząc od zera) odbywa się poprzez użycie nawiasów kwadratowych:

In [None]:
y = np.arange(0, 10)

In [None]:
y

In [None]:
y[5]

In [None]:
y[0]

Tak jak w standardowym Pythonie, możemy korzystać z ujemnych indeksów:

In [None]:
y

In [None]:
y[-1]

Wielowymiarowe tablice możemy indeksować za pomocą krotek:

In [None]:
x

In [None]:
x[0, 1, 2]  # odczytanie elementu o współrzednych (0,1,2)

W ten sam sposób możemy również modyfikować elementy:

In [None]:
x

In [None]:
x[0, 1, 2] = 42

In [None]:
x

Możemy również używać _slice_ aby odwołać się do wycinka tabeli:

In [None]:
y

In [None]:
y[:5]  # pierwsze 5 elementów

In [None]:
y[4:7:2]  # wycinek ze środka tablicy

In [None]:
y[::-1]  # tablica odczytana od tyłu

Podobnie możemy korzystać ze _slice_ aby wycinać kawałki wielowymiarowych tablic:

In [None]:
x

In [None]:
x[:1, :, :3]  # dwukropek bez argumentów oznacza wybranie wszystkich elementów z danego wymiaryu!

Warto tutaj zaznaczyć, że w przeciwieństwie do działania na liście w pythonie, gdzie użycie _slice_ zwraca nam kopie w NumPy otrzymujemy _view_.

In [None]:
l1 = [1, 2, 3]
l2 = l1[2:]
l2[0] = 4
print(l1)  # l1 pozostaje nie zmienione!
print(l2)  # l1 pozostaje nie zmienione!

In [None]:
# NumPy
x = np.zeros((2, 3))
y = x[ 0, :]
y[0] = 1
print(x)  # x i y reprezentują tą samą tablicę!
print(y)  # x i y reprezentują tą samą tablicę!

Jeżeli chcemy otrzymać kopię tablicy, musimy użyć metody `copy()`

In [None]:
x

In [None]:
x_copy = x[:2, :2].copy()
x_copy[0, 0] = 42

print(x)
print(x_copy)  # zmiana x_copy nie zmieniła x

### Zmiana wymiarów tablicy

Zmiana wymiarów tablicy odbywa się poprzez użycie metody `reshape`, powiedzmy, że chcemy ułożyć liczby od 1 do 9 w tablicy 3x3:

In [None]:
np.arange(1, 10).reshape((3, 3))

Często będzie nam się przydawać możliwość zmienienia jednowymiarowego wektora w dwuwymiarowy:

In [None]:
x = np.array([1, 2, 3])
print(x)
print(x.reshape((1, 3))) # dwuwymiarowa tablica z jednym wierszem i trzema kolumnami
print(x.reshape((3, 1))) # dwuwymiarowa tablica z trzema wierszami i jedną kolumną

### Łączenie tablic

Do łączenia tablic możemy korzystać z funkcji takich jak:
- `np.concatenate`
- `np.vstack`
- `np.hstack`

In [None]:
x = np.array([1, 2, 3])
y = np.array([3, 2, 1])
np.concatenate([x, y])

Podobnie dla dwuwymiarowych tablic:


In [None]:
grid = np.array([[1, 2, 3],
                 [4, 5, 6]])

print(np.concatenate([grid, grid]))
print(np.concatenate([grid, grid], axis=1))  # łączenie wzdłuż drugiego wymiaru

`np.vstack` i `np.hstack` są skrótami do operacji łączenia pionowo i poziomo:

In [None]:
x = np.array([1, 2, 3])
grid = np.array([[9, 8, 7],
                 [6, 5, 4]])

print(np.vstack([x, grid]))

In [None]:
y = np.array([[99],
              [99]])
np.hstack ([grid, y])

Przeciwieństwiem łączenia jest dzielenie i mamy tu do dyspozycji funkcję `np.split`

Korzystając ze `np.split` musimy podać indeksy w których tablica ma być "przecięta".

In [None]:
x = np.arange(10)
x1, x2, x3 = np.split(x, [3, 5])
print(x)
print(x1, x2, x3)  # zauważ, że dwa punkty dzielenia tworzą trzy tablice

### Wykonywanie obliczeń na tablicach

Nauczymy się teraz wykonywać obliczenia na tablicach NumPy. Aby działania które wykonujemy były wykonywane efektywnie będziemy musieli zmienić nasze podejście do tego w jaki sposób myślimy o niektórych operacjach. Poznamy operacje wektorowe, które pozwolą nam pisać kod który wykonuje się szybko i sprawnie.

Rozważmy funkcję wyliczającą odwrotności elementów w tablicy:

In [4]:
def compute_reciprocals(values):
    output = np.empty(len(values))
    for i, value in enumerate(values):
        output[i] = 1.0 / value
    return output

In [5]:
values = np.random.randint(1, 10, size=5)

In [6]:
values

array([3, 7, 7, 1, 8])

In [7]:
compute_reciprocals(values)

array([0.33333333, 0.14285714, 0.14285714, 1.        , 0.125     ])

Spróbujmy wykonąć tą samą operację dla bardzo dużej tablicy:

In [8]:
big_array = np.random.randint(1, 100, size=1_000_000)

„%timeit” to magiczna funkcja, gdzie kod składa się z jednej linii lub powinien być napisany w tej samej linii, aby zmierzyć czas wykonania. To polecenie wielokrotnie wykonuje dostępny kod i zwraca najszybszy wynik. Obliczy ono automatycznie liczbę wykonań potrzebnych do kodu w całkowitym oknie wykonania wynoszącym 2 sekundy.

In [9]:
%timeit compute_reciprocals(big_array)

912 ms ± 7.61 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


Wykonanie tej operacji dla miliona elementów zajęło prawie kilka sekund! Jest to absurdalnie wolno biorąc pod uwagę obecne możliwości komputerów. Ta powolność jest spowodowana tym w jaki sposób działa Python - wykonując pojedynczą operację dla każdego elementu Python musi wykonać wiele działań w tle związanych z określaniem typu.

Dla większości operacji NumPy pozwala nam korzystać z wbudowanych funkcji które wykonają się w sposób zwektoryzowany:

In [10]:
%timeit 1.0 / big_array  # ta sama operacja wykonana w sposób wektorowy

825 µs ± 61.2 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


W ten sposób możemy wykonywać wszystkie podstawowe operacje na tablicach:

In [None]:
x = np.arange(4)
print("x      =", x)
print("x + 5  =", x + 5)
print("x - 5  =", x - 5)
print("x * 2  =", x * 2)
print("x / 2  =", x / 2)
print("x // 2 =", x // 2)
print("-x     =", -x)
print("x ** 2 =", x ** 2)
print("x % 2  =", x % 2)

### Agregacje na tablicach

NumPy oferuje nam wiele wbudowanych funkcji do wyliczania najczęściej stosowanych agregacji na danych:

In [3]:
L = np.random.random(100)
print(np.sum(L), np.min(L), np.max(L))

53.414041315075124 0.01785763408867147 0.9965830629773638


Warto zwrócić uwagę, że korzystanie z funkcji NumPy jest dużo szybsze niż z wbudowanych funkcji Pythonowych:

In [4]:
%timeit np.sum(L)
%timeit sum(L)

1.52 µs ± 91 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)
5.56 µs ± 128 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


Agregacje możemy wykonywać również po poszczególnych wymiarach:

In [5]:
M = np.random.randint(10, size=(3, 4))
print(M)

[[9 8 2 2]
 [4 1 0 7]
 [0 7 5 1]]


In [6]:
print(M.sum(axis=0))
M.min(axis=1)

[13 16  7 10]


array([2, 0, 0])

### Porównywanie, maski

Stosując operator porównania na tablicy zawsze otrzymamy nową tablicę zawierającą typ `bool`.

In [7]:
x = np.array([1, 2, 3, 4, 5])

In [8]:
x < 3

array([ True,  True, False, False, False])

In [9]:
x > 3

array([False, False, False,  True,  True])

In [10]:
x == 3

array([False, False,  True, False, False])

Tablice wartości logicznych często przydają się w kombinacji z innymi funkcjami np:

In [11]:
x = np.random.randint(10, size=(4, 4))

In [12]:
x

array([[6, 8, 8, 5],
       [0, 4, 2, 2],
       [5, 6, 8, 1],
       [2, 1, 3, 5]])

In [14]:
# Ile wartości w tablicy jest mniejszych niż 6?
np.count_nonzero(x < 6)

11

In [18]:
# Ile wartości w każdej kolumnie jest mniejsze niż 6?
np.sum(x < 6, axis=0)

array([3, 2, 2, 4])

In [28]:
# Czy jest wartość mniejsza niż 0?
np.any(x < 0)

False

Tablic logicznych możemy również używać jako masek do wybierania wartości z tablicy które spełniają określone warunki:

In [29]:
x

array([[6, 8, 8, 5],
       [0, 4, 2, 2],
       [5, 6, 8, 1],
       [2, 1, 3, 5]])

In [31]:
x[x < 5]  # Elementy z x które są mniejsze niż 5

array([0, 4, 2, 2, 1, 2, 1, 3])

### Fancy indexing

Fancy indexing polega na przekazywaniu tablicy indeksów aby otrzymać wiele elementów tablicy na raz. 

In [32]:
x = np.random.randint(100, size=10)

In [33]:
print(x)

[40  4 88 66 99  3 89 84 28 15]


Jeżeli chcemy wybrać 3, 7 i 2 element możemy to zrobić na dwa sposoby:

In [34]:
# Sposób pierwszy
[x[3], x[7], x[2]]

[66, 84, 88]

In [35]:
# Fancy indexing
ind = [3, 7, 2]
x[ind]

array([66, 84, 88])

Kiedy korzystamy z fancy indexingu wymiary tablicy wynikowej są takie jak tablicy indeksów:

In [36]:
x

array([40,  4, 88, 66, 99,  3, 89, 84, 28, 15])

In [40]:
ind = np.array([[3, 7],
                [4, 5]])
x[ind]

array([[66, 84],
       [99,  3]])

Rodzaje indeksowań można ze sobą mieszać:

In [41]:
x = np.random.randint(100, size=(5, 5))

In [42]:
x

array([[46,  7, 69, 45, 35],
       [28, 77, 85, 90, 65],
       [90, 26, 19, 32, 95],
       [99,  3, 68, 58, 41],
       [96, 58, 71, 60, 79]])

In [43]:
x[2, [0, 1, 2]]

array([90, 26, 19])

In [44]:
x[1:, [2, 0, 1]]

array([[85, 28, 77],
       [19, 90, 26],
       [68, 99,  3],
       [71, 96, 58]])

### Sortowanie tablic

NumPy ma również swoje wbudowane funkcje służące do sortowania tablic:

In [48]:
x = np.random.randint(100, size=5)

In [49]:
x

array([73, 88, 33, 18, 51])

In [50]:
np.sort(x) 

array([18, 33, 51, 73, 88])

Sortowanie można również przeprowadzić w miejscu:

In [51]:
print(x)

[73 88 33 18 51]


In [52]:
x.sort()

In [53]:
print(x)

[18 33 51 73 88]


Istnieje również funkcja `np.argsort` która zwraca indeksy posortowanych elementów:

In [54]:
x = np.random.randint(100, size=5)

In [58]:
print(x)

[70 73 42 21 96]


In [59]:
i = np.argsort(x)

In [60]:
print(i)

[3 2 0 1 4]


In [61]:
x[i]  # Fancy indexing daje nam posortowaną tablicę

array([21, 42, 70, 73, 96])

## Ćwiczenia

In [None]:
# chcemy uzyskać taką macierz

In [None]:
matrix = np.ones((5,5))
zeros = np.zeros((3,3))
zeros[1,1] =9
matrix[1:-1,1:-1] =zeros
print(matrix)

In [None]:
array =np.array([[1,2,3,4,5],
                 [6,7,8,9,10],
                 [11,12,13,14,15],
                 [16,17,18,19,20],
                 [21,22,23,24,25],
                 [26,27,28,29,30]])
array

In [None]:
# print 11, 12 and 16, 17

In [None]:
array[2:4, 0:2] 

In [None]:
# chcemy uzyskać 2, 8, 14, 20

In [None]:
array[[0,1,2,3], [1,2,3,4]] 

In [None]:
# chcemy uzyskać 4,5 i 24,25 i 29,30 

In [None]:
array[[0,4,5], 3:]

In [None]:
x = np.array([1, 2, 3, 4])

In [None]:
# 2, 4, 8, 16

In [None]:
2 ** x