![](imgs/logo.png)

# Przetwarzanie Big Data z użyciem Apache Spark

Autor notebooka: Jakub Nowacki.

## NumPy

[NumPy](http://www.numpy.org/) jest podstawowym pakietem (dodatkowym) w Pythonie do obliczeń naukowych. Integruje on niskopoziomowe biblioteki takie jak BLAS i LAPACK lub ATLAS. Podstawowe właściwości NumPy to :
* potężny N-wymiarowy obiekt tablicy danych
* rozbudowane funkcje (
* narzędzia do integracji z codem napisanym w C/C++ i Fortranie
* narzędzia do algebry liniowej, transformaty Fouriera czy generator liczb losowych

Numpy importujemy używając nazwy `numpy`, najlepiej w całości jako pakiet. Często stosowany jest alias `np`.

In [1]:
import numpy as np

## Tablica

Podstawowym obiektem w Numpy jest tablica zwana `ndarray` od ang. *N-dimensional array*. Talbicę można stworzyć z kolekcji za pomocą funkcji `ndarray` lub jej aliasu `array`:

In [8]:
n1 = np.array([1,2,3])
print(n1)
n2 = np.array([[1,2],[3,4]])
print(n2[1])
print(n2.flatten())
# ... itd

[1 2 3]
[3 4]
[1 2 3 4]


Każda komenda ma poniższe właściwości:

In [9]:
print('Wymiar: n1: {}, n2: {}'.format(n1.ndim, n2.ndim))
print('Kształt: n1: {}, n2: {}'.format(n1.shape, n2.shape))
print('Rozmiar: n1: {}, n2: {}'.format(n1.size, n2.size))
print('Typ: n1: {}, n2: {}'.format(n1.dtype, n2.dtype))
print('Rozmiar elementu (w bajtach): n1: {}, n2: {}'.format(n1.itemsize, n2.itemsize))
print('Wskaźnik do danych: n1: {}, n2: {}'.format(n1.data, n2.data))

Wymiar: n1: 1, n2: 2
Kształt: n1: (3,), n2: (2, 2)
Rozmiar: n1: 3, n2: 4
Typ: n1: int64, n2: int64
Rozmiar elementu (w bajtach): n1: 8, n2: 8
Wskaźnik do danych: n1:                      , n2:                             


W przeciwieństwie do kolekcji, tablice mogą mieć tylko jeden typ elementu, choć moze być złożony; zobacz [ten link](https://docs.scipy.org/doc/numpy/reference/arrays.dtypes.html).

In [10]:
for v in [1, 1., 1j]:
    a = np.array([v])
    print('Tablica: {}, typ: {}'.format(a, a.dtype))
# Można też wymusić typ przy tworzeniu tablicy
a = np.array([1], dtype=str)
print('Tablica: {}, typ: {}'.format(a, a.dtype))

Tablica: [1], typ: int64
Tablica: [ 1.], typ: float64
Tablica: [ 0.+1.j], typ: complex128
Tablica: ['1'], typ: |S1


Są też ogólne metody tworzenia tablic o specyficznych właściwościach:

In [11]:
print('Zakres:\n{}'.format(np.arange(1,10)))
print('Zera:\n{}'.format(np.zeros((2,3))))
print('Jedynki:\n{}'.format(np.ones((3,2))))
print('Pusta:\n{}'.format(np.empty((2,7)))) # Bez inicjalizacji
print('Losowa:\n{}'.format(np.random.rand(2,2)))


Zakres:
[1 2 3 4 5 6 7 8 9]
Zera:
[[ 0.  0.  0.]
 [ 0.  0.  0.]]
Jedynki:
[[ 1.  1.]
 [ 1.  1.]
 [ 1.  1.]]
Pusta:
[[  6.91606062e-310   4.39633841e-317   3.25218909e-317   6.91606129e-310
    6.91602529e-310   6.91602527e-310   3.16202013e-322]
 [  3.16202013e-322   0.00000000e+000  -3.13486983e-294   1.20090504e+175
    4.71677816e-309   1.20090504e+175   4.71677816e-309]]
Losowa:
[[ 0.96771247  0.87549192]
 [ 0.51442253  0.6851072 ]]


Pobieranie wartości z tablic:

In [15]:
# Jak w kolekcjach
print(n1[1], n2[1][1])
# ... ale jest też skrót
print(n2[1,1])
# Przecięcia podobnie w kolekcjach
print(n2[1,:])
print(n2[:,1])
print(n2[1,:1])
print(n2%3 ==1)

(2, 4)
4
[3 4]
[2 4]
[3]
[[ True False]
 [False  True]]


Operacje w tablicach wykonywane są na poszczególnych elementach, np. jak pomnożymy dwie tablice pomnożone zostaną tylko elementy na tych samych pozycjach przez siebie.

In [16]:
a = np.random.randint(100,size=(2,3))
print('a = \n{}'.format(a))
print('2*a = \n{}'.format(2*a))
print('a**2 = \n{}'.format(a**2))
print('a*a = \n{}'.format(a*a))

a = 
[[81 69 77]
 [12 76 10]]
2*a = 
[[162 138 154]
 [ 24 152  20]]
a**2 = 
[[6561 4761 5929]
 [ 144 5776  100]]
a*a = 
[[6561 4761 5929]
 [ 144 5776  100]]


## Macierze

Numpy ma rownierz typ macierzy `matrix`. Jest on bardzo podobny do tablicy ale podstawowe operacje wykonywane są w sposób macierzowy a nie tablicowy.

In [None]:
m = np.matrix([[1,2], [3,4]])
mm = np.matrix([[5,6], [7,8]])

print('m*mm = \n{}'.format(m*mm))
print('m**2 = \n {}'.format(m**2))
print('m*2 = \n ={}'.format(m*2))

d = np.diag([3,4])
print('d = \n {}'.format(d))
print('d*m = \n {}'.format(d*m))

Niemniej, tablice można używać podobnie, ale do mnożenia trzeba wykorzystywać funkcje `dot`:

In [None]:
a = np.array([[1,2], [3,4]])
aa = np.array([[5,6], [7,8]])

print('a*aa = \n{}'.format(a*aa))
print('a.dot(aa) = \n{}'.format(a.dot(aa)))
print('a**2 = \n {}'.format(a**2))
print('a*2 = \n ={}'.format(a*2))

Dodatkowo, operacje algebry liniowej można wykonywać zarówno na tablicach jak i macierzach, np:

In [None]:
print('det(m) = {}'.format(np.linalg.det(m)))
print('det(a) = {}'.format(np.linalg.det(a)))

## Zadanie
Mamy liczbę trzycyfrową. Jeżeli od liczby dziesiątek odejmiemy liczbę jedności otrzymamy 6. Jeżeli do liczby dziesiątek dodamy liczbę jedności otrzymamy 10.

* znajdź wszystkie liczby trzycyfrowe spełniające ten warunek
* znajdź liczby trzycyfrowe podzielne przez 3

[Podpowiedź](https://pl.wikipedia.org/wiki/Uk%C5%82ad_r%C3%B3wna%C5%84_liniowych):
$$ Ax=B $$
$$ x = A^{-1}B $$

In [18]:
A = np.matrix([[1,-1],[1,1]])
A


matrix([[ 1, -1],
        [ 1,  1]])

In [19]:
B = np.matrix([6,10]).T
B

matrix([[ 6],
        [10]])

In [22]:
x = A**(-1)*B
x

matrix([[ 8.],
        [ 2.]])

In [26]:
for i in range(1,10):
    print('{}{}{}'.format(i,int(x[1,0]),int(x[0,0])))

128
228
328
428
528
628
728
828
928


In [28]:
res = np.arange(1,10)*100 + x[1,0]*10 + x[0,0]
res

array([ 128.,  228.,  328.,  428.,  528.,  628.,  728.,  828.,  928.])

In [29]:
res[res % 3 ==0]

array([ 228.,  528.,  828.])