# NumPy

Źródła: 
Jake VanderPlas, Python Data Science Handbook, ESSENTIAL TOOLS FOR WORKING WITH DATA
Maciej Wilamowski, Łukasz Nawaro

Numpy to podstawowy pakiet Python'a służący do obsługi operacji macierzowych i wektorowych. Jest szybki, elastyczny, przydatny do obsługi dużych zbiorów danych i liczb pseudolosowych. Stanowi podstawę dla wielu innych pakietów (w tym Pandas). 

In [2]:
import numpy as np ### wczytujemy pakiet

### Array

array: lista zawierająca tylko jeden typ danych - bardziej wydajna forma danych (zajmuje mniej pamięci)

In [5]:
np.array([1, 4, 2, 5, 3])

array([1, 4, 2, 5, 3])

możemy też stworzyć macierz

In [198]:
print([range(i, i + 3) for i in [2, 4, 6]])
np.array([range(i, i + 3) for i in [2, 4, 6]])

[range(2, 5), range(4, 7), range(6, 9)]


array([[2, 3, 4],
       [4, 5, 6],
       [6, 7, 8]])

In [259]:
np.array( [[1,1],
               [0,1]] )

array([[1, 1],
       [0, 1]])

In [260]:
np.zeros(10, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [261]:
np.ones((3, 5), dtype=float)

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [262]:
np.arange(0, 20, 2) ##podobny do range()

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [263]:
np.linspace(0, 1, 5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [264]:
x1 = np.array([range(i, i + 3) for i in [2, 4, 6]])
x1

array([[2, 3, 4],
       [4, 5, 6],
       [6, 7, 8]])

In [265]:
print("x1 ndim: ", x1.ndim)

print("x1 shape:", x1.shape)
print("x1 size: ", x1.size)
print("dtype:", x1.dtype)

x1 ndim:  2
x1 shape: (3, 3)
x1 size:  9
dtype: int64


### Zadanie

1. Stwórz array od 2 do 10
2. Stwórz macierz 4X6 z 0

### Macierz z istniejącego obiektu
Czasem możemy chcieć utworzyć macierz z już istniejącego obiektu. W tym miejscu warto wspomnieć o tym, że zmiana kształtu macierzy jest łatwym i szybkim zadaniem nawet dla dużych macierzy. Nie zmienia to sposobu w jaki zapisana jest macierz w pamięci, ale jedynie sposób interpretacji pamięci.

In [102]:
x = list(range(12))
print("Lista: ", x)
print("Macierz numpy:", np.asarray(x)) #prerób mi na macierz
print("Macierz numpy z nowym kształtem:\n", np.asarray(x).reshape((3, 4))) #krotka jako argument

Lista:  [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
Macierz numpy: [ 0  1  2  3  4  5  6  7  8  9 10 11]
Macierz numpy z nowym kształtem:
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


### Wektor/macierz jako range
Metoda reshape zastosowana na istniejącej macierzy nie zwróci jej kopii. Utworzy nowy "widok" tych samych danych. Możliwy jest również kształt istniejącego widoku.

Prześledźmy poniższy przykład, poznając przy okazji sposób tworzenie macierzy z zakresu (arange), który przyjmuje analogiczne argumenty do pythonowego range.

In [266]:
r = np.arange(0, 23, 2)
print(r)
R = r.reshape((3, 4)) #Do R prypisz nowy widok z reshapowanego r
# Powyższą linię możemy alternatywnie napisać w ten sposób: R = reshape(r, (3, 4))

[ 0  2  4  6  8 10 12 14 16 18 20 22]


In [269]:
print(R)

[[ 0  2  4  6]
 [ 8 10 12 14]
 [16 18 20 22]]


In [270]:
r[0]=10

In [271]:
r

array([10,  2,  4,  6,  8, 10, 12, 14, 16, 18, 20, 22])

In [None]:
r[0]=10
r.shape=(3, 4)
print("Zmieniając zawartość 'r' zmienia się również zawartość 'R'") #kolumny i wierszy liczymy od 0
print(R)
print(r)

In [208]:
x = np.array([1, 2, 3])
print(x)
x.reshape((1, 3))

[1 2 3]


array([[1, 2, 3]])

In [209]:
x.reshape((3, 1))

array([[1],
       [2],
       [3]])

### Zadanie

1. Stwórz 8 elementowy array od 1 do 6 i nazwaj go ar
2. Stwórz macierz 2X4 z ar 

### Liczby losowe

In [226]:
print("Pojedyncze liczby losowe:")
print(np.random.random()) # float U~[0,1)] #z rzeczy random daj mi operacja losowa
print(np.random.normal()) # float N~[0,1)]
print(np.random.normal(20, 5)) # float N~[20,5)]

print("\nMacierz z rozkładu jednostajnego [0,1):")
print(np.random.random((3, 4))) # float U~[0,1)]
print("\nMacierz z rozkładu normalnego N~(0,1):")
print(np.random.normal(size=(3, 4))) # float N~(0,1)]
print("\nMacierz z rozkładu normalnego N~(20,5):")
print(np.random.normal(20, 5, (3, 4))) # float N~(20,5)]

Pojedyncze liczby losowe:
0.6388531020014796
1.9972681534153325
23.598711468200985

Macierz z rozkładu jednostajnego [0,1):
[[0.49472638 0.11118103 0.37646387 0.04793264]
 [0.89238816 0.96289296 0.6159298  0.42667192]
 [0.59815022 0.72468261 0.45875783 0.49407241]]

Macierz z rozkładu normalnego N~(0,1):
[[-1.70934100e+00 -3.44840387e-01  1.07363372e-01  5.76202085e-01]
 [ 4.00047273e-01 -2.26231848e+00 -1.75277032e-01  1.06537636e+00]
 [ 6.82233694e-02  2.41481945e-01  1.23610943e-01 -2.02091173e-03]]

Macierz z rozkładu normalnego N~(20,5):
[[18.19874357 21.96967953 21.53654487 16.6220834 ]
 [17.0539406  17.51575489 13.4784457  17.83725583]
 [25.35639466 15.07616551 20.11167421 26.13637682]]


### Zadanie

1. Wylosuj pojedynczą liczbę z rozkladu  N~[40,6)]
2. Wylosuj macierz 4X6 z rozkladu  N~[40,6)]

### Adresowanie i indeksowanie
Numpy domyślnie tworzy macierze w układzie wierszowym. Kiedy z dwuwymiarowej macierzy wybierzemy fragment stosując tylko jeden wymiar, uzyskamy stosowny wiersz. Jeżeli chcemy wybrać kolumnę musimy wybrać też wszystkie wiersze (:). 

In [108]:
r = np.arange(0, 12)
r.shape=(3, 4)
print(r)
print("Wiersz: ", r[2], "ma wymiar", r[2].shape) # alternatywnie, r[2, :]
print("Kolumna: ", r[:,2])

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
Wiersz:  [ 8  9 10 11] ma wymiar (4,)
Kolumna:  [ 2  6 10]


In [273]:
x1 = np.random.randint(10, size=6)

In [274]:
print(x1)

[1 0 5 8 1 6]


In [275]:
x1[-1]

6

In [276]:
x1[:5]

array([1, 0, 5, 8, 1])

In [278]:
x1[::2]

array([1, 5, 1])

In [279]:
x2 = np.random.randint(10, size=(3, 4))

In [280]:
x2

array([[9, 6, 5, 4],
       [8, 0, 9, 9],
       [4, 2, 1, 9]])

In [281]:
x2[0, 0]

9

In [282]:
x2[2, -1]

9

In [283]:
x2[:2, :3] ##rows, columns

array([[9, 6, 5],
       [8, 0, 9]])

In [287]:
x2[0, :] # first row of x2

array([9, 6, 5, 4])

In [288]:
print(x2[:, 0]) # first column of x2

[9 8 4]


### Łączenie/dzielenie macierzy
To często wykonywane operacja. Przydatne tutaj funkcje to concatenate i split. Pierwszą z tych nazw trudno zapamiętać, jeżeli ktoś woli może korzystać z aliasów w postaci vstack i hstack. 


In [293]:
x = np.array([1, 2, 3])
y = np.array([3, 2, 1]) 
np.concatenate([x, y])

array([1, 2, 3, 3, 2, 1])

In [294]:
z = [99, 99, 99]

print(np.concatenate([x, y, z]))

[ 1  2  3  3  2  1 99 99 99]


In [295]:
grid = np.array([[1, 2, 3],[4, 5, 6]])

In [296]:
np.concatenate([grid, grid]) 

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [297]:
np.concatenate([grid, grid], axis=1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

In [298]:
np.concatenate([grid, grid], axis=0)

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [299]:
x = np.array([1, 2, 3])

Różne rozmiary: vertical stack oraz horizontal stack

In [300]:
grid = np.array([[9, 8, 7],[6, 5, 4]])
np.vstack([x, grid])

array([[1, 2, 3],
       [9, 8, 7],
       [6, 5, 4]])

In [304]:
y = np.array([[99],[99]])

In [305]:
np.hstack([grid, y])

array([[ 9,  8,  7, 99],
       [ 6,  5,  4, 99]])

In [309]:
x = np.random.randint(0, 12, size=(3, 4))
y = np.random.randint(0, 12, size=(3, 4))
print(x.shape, y.shape)
print(x)
print(y)
print("Sklejanie w pionie:")
#print(np.concatenate((x,y)))
#print(np.vstack((x,y)))
print(np.concatenate((x,y), axis=0).shape, np.vstack((x,y)).shape)
print("Sklejanie w poziomie:")
print(np.hstack((x,y)))
print(np.concatenate((x,y), axis=1).shape, np.hstack((x,y)).shape)


(3, 4) (3, 4)
[[11  4  5 11]
 [11 10  3  7]
 [ 5 10  2  7]]
[[ 9 10  1  7]
 [11  4  0  5]
 [ 4  7  9 10]]
Sklejanie w pionie:
(6, 4) (6, 4)
Sklejanie w poziomie:
[[11  4  5 11  9 10  1  7]
 [11 10  3  7 11  4  0  5]
 [ 5 10  2  7  4  7  9 10]]
(3, 8) (3, 8)


Split zwróci nam listę

In [310]:
x = [1, 2, 3, 99, 99, 3, 2, 1]

x1, x2, x3 = np.split(x, [3, 5])

print(x1, x2, x3)

print(x[:3], x[3:5], x[5:])


[1 2 3] [99 99] [3 2 1]
[1, 2, 3] [99, 99] [3, 2, 1]


In [311]:
x = np.random.randint(0, 12, size=(3, 4))
print(x)
print(np.split(x, 2, axis=1))
print(np.split(x, 3, axis=0))


[[11  8 10  2]
 [ 4  8  4  0]
 [ 9 11 11  5]]
[array([[11,  8],
       [ 4,  8],
       [ 9, 11]]), array([[10,  2],
       [ 4,  0],
       [11,  5]])]
[array([[11,  8, 10,  2]]), array([[4, 8, 4, 0]]), array([[ 9, 11, 11,  5]])]


### Zadanie
1. Stwórz 2 macierze 2X3 z random liczbami między 10 a 20,  połącz je wertykalnie oraz horyzontalnie

## Algebra i inne funkcje.
Numpy posiada wiele wbudowanych funkcji matematycznych, algebraicznych i innych. Poniżej ograniczmy się do zaledwie kilku przykładów. Najważniejsze jest sprawne odszukiwanie funkcji w dokumentacji. Dzięki temu nie tylko dowiemy się czy funkcja jest zaimplementowana, ale również możemy szybko sprawdzić sposób jej implementacji.

Poniżej na przykładzie funkcji matematycznych zobaczymy jak ważne jest korzystanie z wbudowanych funkcji, kiedy to tylko możliwe.

* Funkcje matematyczne: https://docs.scipy.org/doc/numpy/reference/routines.math.html
* Funkcje algebraiczne: https://docs.scipy.org/doc/numpy/reference/routines.linalg.html
* Funkcje statystyczne: https://numpy.org/doc/stable/reference/routines.statistics.html
* Wykaz pozostałych grup funkcji: https://docs.scipy.org/doc/numpy/reference/index.html

In [171]:
### policzmy odwrotność n

np.random.seed(0) 

def compute_reciprocals(values):
    output = np.empty(len(values))
    for i in range(len(values)):
        output[i] = 1.0 / values[i]
    return output 

values = np.random.randint(1, 10, size=5) 
print(values)
compute_reciprocals(values)

[6 1 4 4 8]


array([0.16666667, 1.        , 0.25      , 0.25      , 0.125     ])

In [179]:
big_array = np.random.randint(1, 100, size=1000000) 

In [177]:
compute_reciprocals(big_array)

array([0.01204819, 0.03448276, 0.01219512, ..., 0.04      , 0.02272727,
       0.02777778])

In [178]:
%timeit compute_reciprocals(big_array)

1.99 s ± 15.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [180]:
print(compute_reciprocals(values)) 
print(1.0 / values)

[0.16666667 1.         0.25       0.25       0.125     ]
[0.16666667 1.         0.25       0.25       0.125     ]


In [182]:
%timeit (1.0 / big_array)

1.91 ms ± 139 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [183]:
x = np.arange(4)

print("x =", x)
print("x + 5 =", x + 5) 
print("x - 5 =", x - 5) 
print("x * 2 =", x * 2)
print("x / 2 =", x / 2) 
print("x // 2 =", x // 2)

x = [0 1 2 3]
x + 5 = [5 6 7 8]
x - 5 = [-5 -4 -3 -2]
x * 2 = [0 2 4 6]
x / 2 = [0.  0.5 1.  1.5]
x // 2 = [0 0 1 1]


In [184]:
x = np.array([-2, -1, 0, 1, 2])

abs(x)

array([2, 1, 0, 1, 2])

In [185]:
np.absolute(x)

array([2, 1, 0, 1, 2])

In [253]:
x=[1, 2, 3]
print(np.exp(x))
print(np.exp2(x))
print(np.power(3, x))

[ 2.71828183  7.3890561  20.08553692]
[2. 4. 8.]
[ 3  9 27]


In [257]:
import math
x = np.random.normal(size=(10000, 1))
print("Max:")
%timeit -n 100 max(x)
%timeit -n 100 x.max()

print("Sin:")
%timeit -n 100 [math.sin(z) for z in x]
%timeit -n 100 np.sin(x)

print("Mean:")
%timeit -n 100 np.mean(x)
%timeit -n 100 x.mean()

Max:
5.8 ms ± 172 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
6.36 µs ± 1.57 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
Sin:
2.47 ms ± 125 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
144 µs ± 8.78 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
Mean:
The slowest run took 4.35 times longer than the fastest. This could mean that an intermediate result is being cached.
15.1 µs ± 10.6 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
11 µs ± 3.57 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [252]:
M = np.arange(0, 4)
N = np.arange(1, 5)
M.shape=(-1)
N.shape=(-1)
print(M)
print(N)
print("Mnożenie wektorów:")
print(np.dot(M,N))

print("\nDla macierzy")
M = np.arange(0, 4)
N = np.arange(1, 5)
M.shape=(2, 2)
N.shape=(2, 2)
print(M)
print(N)
print("\nMnożenie macierzy:")
print(np.dot(M,N))
print("\nOdwracanie macierzy:")
print(np.linalg.inv(M))

[0 1 2 3]
[1 2 3 4]
Mnożenie wektorów:
20

Dla macierzy
[[0 1]
 [2 3]]
[[1 2]
 [3 4]]

Mnożenie macierzy:
[[ 3  4]
 [11 16]]

Odwracanie macierzy:
[[-1.5  0.5]
 [ 1.   0. ]]
