![](../docs/banner.png)

# Laboratorium 2: Podstawowe biblioteki do odkrywania wiedzy

## Plan laboratorium
---

1. [Podstawowe biblioteki w warsztacie Data Science](#Podstawowe-biblioteki-w-warsztacie-Data-Science)
1. [Numpy](#Numpy)
1. [Pandas](#Pandas)
1. [Matplotlib](#Matplotlib)
1. [Zadania](#Zadania)

## Efekty kształcenia laboratorium
---
- dowiesz się, jakie są podstawowe i najczęściej używane biblioteki do pracy z danymi
- poznasz podstawy biblioteki Numpy
- poznasz podstawy biblioteki Pandas
- poznasz podstawy biblioteki Matplotlib

## Podstawowe biblioteki w warsztacie Data Science

| Biblioteka | Zastosowanie | Sensowne alternatywy |
| :--- | :--- | :--- |
| Numpy | szybkie operacje macierzowe | - |
| SciPy | zaawansowana metematyka i statystyka | - |
| Pandas | eksploracja i analiza zbiorów danych | - |
| Matplotlib | wizualizacja danych | Seaborn, Plotly, Bokeh |
| Scikit-learn | preprocessing danych i uczenie maszynowe | - |
| Keras | sieci neuronowe i uczenie głębokie | TensorFlow, PyTorch |
| Scrapy | scrapowanie stron www | BeautifulSoup |

## Numpy

Numpy jest podstawową biblioteką do operacji na macierzach - ich przechowywania, transformacji, zastosowań w algebrze, statystyce itd. Stała się podstawą przetwarzania danych w środowisku Pythona - na niej bazują pozostałe biblioteki, jak Pandas, SciPy czy Scikit-learn.

Dzięki implementacji w C oraz intensywnie używanej wektoryzacji, operacje są niezwykle szybkie. 

### Instalacja

Numpy instalujemy przy pomocy pip:
```
pip install numpy
```

### ndarray
Podstawowym typem danych w Numpy jest `ndarray` - ang. `N-dimentional array` (_tablica N-wymiarowa_). 

``` {important}
Tablice Numpy są jednorodne - tj. wszystkie elementy w tablicy muszą być tego samego typu.
```

``` {important}
Tablice Numpy mają stały rozmiar. Zmiana rozmiaru tablicy usuwa stary i tworzy nowy obiekt.
```


### Tablice jednowymiarowe
Tablice jednowymiarowe rozpatrywane być mogą jako pojedynczy rząd lub kolumna danych:
![](../docs/lab2/numpy_row_column.png)

Stworzyć jednowymiarową tablicę możemy na wiele sposobów:

In [29]:
import numpy as np

In [30]:
# z pythonowej listy 
np.array([1, 2, 3])

array([1, 2, 3])

In [31]:
# z samymi zerami
# np.zeros(ELEMENTS_COUNT)
np.zeros(5)

array([0., 0., 0., 0., 0.])

In [32]:
# z samymi jedynkami
# np.ones(ELEMENTS_COUNT)
np.ones(4)

array([1., 1., 1., 1.])

In [34]:
# z kolejnymi elementami 
# np.arange(START, STOP, STEP)
np.arange(5, 30, 5)

array([ 5, 10, 15, 20, 25])

In [33]:
# z elementami rozłożonymi liniowo
# np.linspace(START, STOP, ELEMENTS_COUNT)
np.linspace(3, 0, 5)

array([3.  , 2.25, 1.5 , 0.75, 0.  ])

In [39]:
# z losowymi elementami
# np.random.randint(START, STOP, ELEMENTS_COUNT)
np.random.randint(10, 100, 3)

array([68, 17, 81])

In [40]:
# pustą
# np.empty(ELEMENTS_COUNT)
np.empty(6)

array([3.10503618e+231, 3.10503618e+231, 2.18665683e-314, 2.78134232e-309,
       3.10503618e+231, 3.10503618e+231])

### Tablice wielowymiarowe
Tablice wielowymiarowe możemy rozpatrywać jako tablic jednowymiarowych względem kilku osi:
![](../docs/lab2/numpy_multidimentional.png)

Tablicę wielowymiarową tworzymy analogicznie do tablic jednowymiarowych:

In [237]:
# w przypadku metod randint, zeros, ones, empty, mozemy podać kształt tablicy
np.random.randint(10, 100, (3, 2))

array([[34, 24],
       [69, 96],
       [56, 63]])

In [239]:
# w przypadku metod arange, linspace, generujemy tablicę jednowymiarową i ją przekształcamy - więcej poniżej
np.linspace(1, 40, 8).reshape((2,4))

array([[ 1.        ,  6.57142857, 12.14285714, 17.71428571],
       [23.28571429, 28.85714286, 34.42857143, 40.        ]])

### Podstawowe operacje na tablicach

#### Dostęp do elementów

Dla tablic jednowymiarowych możemy stosować wszystkie metody dostępu do elementów znane ze standardowych pythonowych list:

In [185]:
a = np.arange(10)
print(a.shape)
a

(10,)


array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [186]:
# czwarty element
a[4]

4

In [187]:
# elementy od 5 do 7 (rozłącznie)
a[5:7]

array([5, 6])

In [188]:
# trzy elementy od tyłu
a[-3:]

array([7, 8, 9])

In [189]:
# co drugi element od 2 do 7 (rozłącznie)
a[2:7:2]

array([2, 4, 6])

Dla tablic wielowymiarowych, indeksowanie wygląda bardzo podobnie, z tym że indeksujemy każdą oś osobno

In [190]:
b = np.arange(20).reshape(4,5)
print(b.shape)
b

(4, 5)


array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

In [191]:
# drugi rząd, trzecia kolumna (indeksowane od zera)
b[1, 2]

7

In [192]:
# trzeci rząd, kolumny 2 do 4
b[2, 1:4]

array([11, 12, 13])

In [193]:
# wszystkie rzędy w pierwszej kolumnie:
b[:, 0]

array([ 0,  5, 10, 15])

#### Filtrowanie elementów
Bardzo przydatną funkcjonalnością NumPy jest możliwość używania warunków w dostępie do elementów:

In [194]:
a = np.random.randint(0, 100, 20)
a

array([55, 28, 40, 34, 16, 66, 39,  2, 40, 26, 31, 46, 77, 73, 42, 94, 40,
       96, 51, 56])

In [195]:
# użycie tablicy w warunku logicznym zwraca tablicę elementów spełniających dany warunek
idx = a > 50
idx

array([ True, False, False, False, False,  True, False, False, False,
       False, False, False,  True,  True, False,  True, False,  True,
        True,  True])

In [196]:
# możemy użyć tej tablicy do pobrania elementów spełniających warunek
a[idx]

array([55, 66, 77, 73, 94, 96, 51, 56])

#### Wymiary i zmiany kształtu

Tablica składa się z elementów podzielonych wobec osi o pewnych wymiarach. Można łatwo sprawdzić te wartości przy pomocy:

In [197]:
a = np.random.randint(1, 10, (2,4))

# ilość elementów w tablicy
print(a.size)

# ilość osi
print(a.ndim)

# kształt tablicy - wymiary osi 
print(a.shape)

8
2
(2, 4)


Można przekształcić tablicę jednowymiarową w wielowymiarową przy pomocy metody `reshape`:

In [198]:
a = np.arange(0, 8)
print(a)
print(a.shape)
print()

b = a.reshape((2,2,2,1))
print(b)
print(b.shape)

[0 1 2 3 4 5 6 7]
(8,)

[[[[0]
   [1]]

  [[2]
   [3]]]


 [[[4]
   [5]]

  [[6]
   [7]]]]
(2, 2, 2, 1)


Tablicę wielowymiarową można prosto przekształcić w jednowymiarową przy pomocy metody `flatten`

In [199]:
c = b.flatten()
print(c)
print(c.shape)

[0 1 2 3 4 5 6 7]
(8,)


#### Łączenie tablic

Można łatwo łączyć ze sobą tablice wielowymiarowe, w zależności od pożądanej osi:

In [200]:
a = np.array([[1,2], [3,4]])
b = np.array([[5,6], [7,8]])

print('oryginalne\n', a)
print(a.shape, '\n')
print(b)
print(b.shape, '\n')

# pionowo
c = np.vstack((a, b))
print('połączone pionowo \n', c)
print(c.shape, '\n')

# poziomo
d = np.hstack((a, b))
print('połączone poziomo \n', d)
print(d.shape, '\n')

oryginalne
 [[1 2]
 [3 4]]
(2, 2) 

[[5 6]
 [7 8]]
(2, 2) 

połączone pionowo 
 [[1 2]
 [3 4]
 [5 6]
 [7 8]]
(4, 2) 

połączone poziomo 
 [[1 2 5 6]
 [3 4 7 8]]
(2, 4) 



#### Sortowanie

In [201]:
# weźmy losową macierz 3x3
a = np.random.randint(1, 100, (3, 3))
a

array([[89, 59,  4],
       [15, 91, 98],
       [21,  6, 19]])

In [202]:
# możemy ją posortować przy pomocy funkcji np.sort()
b = np.sort(a)
b

array([[ 4, 59, 89],
       [15, 91, 98],
       [ 6, 19, 21]])

In [203]:
# defaultowe zachowanie sortuje dane w wierszach
# możemy wskazać oś sortowania przy pomocy parametru axis

print('oryginalna \n', a, '\n')

c = np.sort(a, axis=0)
print('posortowana kolumnami\n', c, '\n')

c = np.sort(a, axis=1)
print('posortowana wierszami \n', c, '\n')

oryginalna 
 [[89 59  4]
 [15 91 98]
 [21  6 19]] 

posortowana kolumnami
 [[15  6  4]
 [21 59 19]
 [89 91 98]] 

posortowana wierszami 
 [[ 4 59 89]
 [15 91 98]
 [ 6 19 21]] 



### Podstawowe operacje matematyczne

#### Arytmetyka

In [227]:
a = np.array([[1,2], [2,2]])
b = np.array([[1,0], [0,3]])

print(a)
print(b)

[[1 2]
 [2 2]]
[[1 0]
 [0 3]]


In [228]:
# dodawanie elementów macierzy
a + b

array([[2, 2],
       [2, 5]])

In [229]:
# mnożenie elementów macierzy
a * b

array([[1, 0],
       [0, 6]])

In [230]:
# mnożenie przez stałą
a * 5

array([[ 5, 10],
       [10, 10]])

#### Agregacje

In [206]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [207]:
# sumowanie
a.sum()

45

In [208]:
# średnia
a.mean()

4.5

In [209]:
# maksimum (minimum analogicznie)
a.max()

9

Powyższe funkcje przyjmują także argument `axis` określający w której osi wykonać agregację:

In [233]:
a = np.random.randint(1,10, (2,2))
a

array([[3, 4],
       [2, 2]])

In [234]:
a.sum(axis=0)

array([5, 6])

In [235]:
a.mean(axis=1)

array([3.5, 2. ])

#### Algebra liniowa

In [240]:
# mnożenie macierzowe 
a @ b

array([[ 3, 12],
       [ 2,  6]])

In [241]:
# transpozycja macierzy
a.transpose()

array([[3, 2],
       [4, 2]])

In [242]:
# odwrotność macierzy
np.linalg.inv(a)

array([[-1. ,  2. ],
       [ 1. , -1.5]])

In [243]:
# wektor i wartości własne macierzy
np.linalg.eig(a)

(array([ 5.37228132, -0.37228132]),
 array([[ 0.86011126, -0.76454754],
        [ 0.51010647,  0.64456735]]))

``` (hint)
Wyżej wymienione mechanizmy to jedynie podstawowe możliwości NumPy. W celu zdobycia szerszej wiedzy z tego zakresu odsyłamy do [tego poradnika](https://numpy.org/doc/stable/numpy-user.pdf).
```

## Pandas

