# Numpy - królestwo wektorów w Pythonie

Numpy jest jednym z cześciej wykorzytywanych pakietów w analizie danych. Analiza danych w dużej mierze opiera się na przeliczaniu dużej liczby danych liczbowy. Temu głównie służy pakiet numpy - nazwa pochodzi od numerical python.  
Podstawowymi strukturami są wektory, macierze i ich więcej wymiarowe odpowiedniki. 

## Po co jest numpy?

Prowadząc obliczenia w Pythonie musimy być świadomi pewnych ograniczeń jakie sam nam narzucone. Z pewnością każdy analityk danych wie, że będzie potrzebował kolekcji celem przetwarzania swoich danych. W Pythonie poznane na daną chwilę zostały kolekcje takie jakie tablice, krotki czy słowniki. Konstrukcja tych kolekcji jest oparta wprost na Pythonie - który jest - no właśnie - językiem wysokiego poziomu. Wysokiego poziomu oznacza dla nas między innymi to, że jest powolny. Na pytanie czy są języki programowania, w których przetwarzanie jest bardzo szybkie - w zasadzie zawsze pada jedna odpowiedź. Tak - takim językiem jest C/C++. C++ jest jednak językiem programowania znacznie trudniejszym w opanowaniu niż Python czy R. Wiele rzeczy, które w językach poziomu wyższego są załatwiane automatycznie, tu muszą być rozpoznane, przewidzanie i zabezpieczone przez programistę tworzącego program dla danego zadania. Może kilka przykładów:

1. Rezerwowanie i zwalnianie pamięci,
1. Nadzorowanie dostępu do pamięci, tworzenie kopii lokalnych,
1. Monitorowanie procesu kompilacji kodu,
1. Wywoływanie i definiowanie sposobów konwersji typów,
1. Ręczne implementowanie wątków,
1. Modyfikowanie kodu w zależności od architektury komputera, systemu operacyjnego, etc.

A mimo jeśli wszystko powyższe zostanie dopełnione, to dalej wiele rzeczy może pójść nie tak ...  Czy możliwe jest osiągnięcie szybkości przetwarzania na poziomie C/C++ i łatwości programowania jak w Pythonie? Numpy jest właśnie odpowiedzią na to pytanie. 

## Czym jest numpy

Numpy jest pakietem narzędzi zapisanych w C/C++ w taki sposób, aby można było sterować ich przetwarzaniem z poziomu Pythona. Podstawowy opis procesu, który zarządza pracą z numpy miałby postać:

1. Przekazujemy dane mające podlegać przetwarzaniu do numpy z poziomu Pythona.
1. Przekazujemy instrukcje które chcemy wykonać na tych danych z numpy.
1. Numpy przetwarza te dane zgodnie z naszymi poleceniami (operacjami opisanymi w C/C++).
1. Numpy zwraca do Pythona wynik działania swoich operacji.

Intuicyjnie widzimy, że największym obciążeniem takiego procesu - jest przekazywanie i odczytywanie danych. Zatem im więcej przekształceń wykonujemy bez podglądania danych - tym większy jest nasz zysk.


## Przykład przyśpieszenia

Spróbujmy pokazać wyraźnie jak wygląda to przyśpieszenie.

In [1]:
import random 

a = [random.randint(1, 100) for _ in range(1000000)]
b = [random.randint(1, 100) for _ in range(1000000)]



In [2]:
%timeit -n100 res = [x * y for x, y in zip(a, b)]

51.1 ms ± 684 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [3]:
import numpy as np

np_a = np.array(a)
np_b = np.array(b)

In [4]:
%timeit -n100 np_a * np_b

1.06 ms ± 38.6 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


Otrzymane tu wyniki mogą się różnic w zależności od komputera na którym są uruchomione. Uzyskane przeze mnie wyniki tj. około 66 ms przez kolekcje Pythona do mniej niż 2 ms dla numpy. Oznacza ponad 33 krotne przyśpieszenie obliczeń. To jest skrócenie 8 godzin do mniej niż 15 minut. Ogólnie są dwa powodu dla których działanie to było szybsze:

1. Ponieważ kod numpy jest szybszy od kolekcji Pythona. Stąd około 4-krotne przyśpieszenie.
1. Ponieważ mój komputer posiada 8 rdzeni obliczeniowych (po 2.5GHz), a numpy umie wykonywać obliczenia równolegle (wielowątkowo). Natomiast kolekcje pythona przetwarzają z użyciem pojedynczego procesora (jednowątkowo). Stąd około 8-krotne przyśpiszenie

### Uwaga - czy można jeszcze bardziej przyśpieszyć?

W dalszej części będę chciał zainteresować państwa pakietem tensorflow, który realizuje podobną funkcjonalność jak numpy. W odróżnieniu od numpy - można go jednak za pomocą biblioteki CUDA (prawie wszystkie karty Nvdia) uruchomić na procesorze graficznym (GPU) zamiast na procesorze głównym (CPU). Wzrasta koszt przesłania danych do karty graficznej, jednak moc obliczeniowa kart obecnie znacząco przewyższa moc procesora. Dla przykładu moja karta GF GTX970M posiada 1280 rdzeni po 924MHz. Tutaj potencjalnie najbardziej optymistyczny rozdział zadań pozwolić może na redukcję czasu z 8 godzin do 23 sec.

# Wprowadzenie do numpy

Rozpocznimy od utworzenie najbardziej podstawowych obiektów numpy w Pythonie nazywanych ndarray:


In [13]:
import numpy as np
wektor = np.array([1, 2, 3]) #wektor
wektor2D = np.array([[1, 2, 3], [4, 5, 6]])# macierze
wektor3D = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])# wektory macierzy
print(wektor)
print(wektor2D)
print(wektor3D)

[1 2 3]
[[1 2 3]
 [4 5 6]]
[[[1 2]
  [3 4]]

 [[5 6]
  [7 8]]]


In [20]:
wektor[ [0,1,0,1]]

array([1, 2, 1, 2])

Jedną z kluczowych i podstawowych cech tych wektorów jest zgodność ich wymiarów.

In [6]:
nierownomierny = np.array([[1, 2, 3, 4], [2]])
print(nierownomierny)

[list([1, 2, 3, 4]) list([2])]


czyli próby utworzenia obiektów o wymiarach niezgodnych kończą się nie zrealizowaniem poprawnej struktury.

## Dostęp do składowych

W ramach pracy z obiektami numpy mamy możliwość dostęp odczytu ich wielu składowanych własnosci jak rozmiar, kształ, czy typ danych

In [7]:
wektor3D = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])# wektory macierzy
nierownomierny = np.array([[1, 2, 3, 4], [2]])
## pola w klasie np.array
print("Ilość wymiarów wektor3D", wektor3D.ndim)# ilosć wymiarów
print("Ilośc wymiarów nierównomiernego", nierownomierny.ndim)#dla nierównomiernego

print("Kształt wektor3D", wektor3D.shape)

## ilość elementów
print("Rozmiar danych", wektor3D.size)

## rodzaj danych
print("typ danych to", wektor3D.dtype)

print("Rozmiar pola w pamięci (w bajtach) ", wektor3D.itemsize)

Ilość wymiarów wektor3D 3
Ilośc wymiarów nierównomiernego 1
Kształt wektor3D (2, 2, 2)
Rozmiar danych 8
typ danych to int64
Rozmiar pola w pamięci (w bajtach)  8


Zgodność wymiarów jest bardzo istotna, gdyż pakiet dostarcza nam wielu metod na transformowanie kształtu naszej struktury.

In [8]:
wektor3D_reshaped = wektor3D.reshape(8)
print("Wektor")
print(wektor3D)
print("Transformacja")
print(wektor3D_reshaped)

Wektor
[[[1 2]
  [3 4]]

 [[5 6]
  [7 8]]]
Transformacja
[1 2 3 4 5 6 7 8]


## Szybka inicjalizacja

Istnieje wiele metod szybkiej inicjalizacji struktury numpy

1. Inicjalizacja zerami
1. Inicjalizacja jednościami
1. Macierz jednostkowa
1. Siatka na przedziałach $\mathbb{R}^n$

In [9]:
wektor_zerowy = np.zeros((2, 3)) #krotka przekazywana jako parametr
print("Wektor zerowy")
print(wektor_zerowy)

## wektory inicjalizowane 1

wektor_jedynek = np.ones((2, 2, 2))
print("wektor jedynek")
print(wektor_jedynek)

wektor_czego_sie_chce = np.full((2,2), 3)
print('wektor czego sie chce')
print(wektor_czego_sie_chce)

## macierz identycznościowa

macierz_identycznosciowa = np.eye(4)
print("Macierz identycznosciowa")
print(macierz_identycznosciowa)

macierz_identycznosciowa_asymetryczne = np.eye(4, 5)
print("Macierz asymetryczna")
print(macierz_identycznosciowa_asymetryczne)

## generowanie osi numerycznych

x = np.linspace(-10, 10, num=100)
print("x=", x, "\nrozmiar", x.size)

print('Typ tablicy to', type(x))

Wektor zerowy
[[0. 0. 0.]
 [0. 0. 0.]]
wektor jedynek
[[[1. 1.]
  [1. 1.]]

 [[1. 1.]
  [1. 1.]]]
wektor czego sie chce
[[3 3]
 [3 3]]
Macierz identycznosciowa
[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]
Macierz asymetryczna
[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]]
x= [-10.          -9.7979798   -9.5959596   -9.39393939  -9.19191919
  -8.98989899  -8.78787879  -8.58585859  -8.38383838  -8.18181818
  -7.97979798  -7.77777778  -7.57575758  -7.37373737  -7.17171717
  -6.96969697  -6.76767677  -6.56565657  -6.36363636  -6.16161616
  -5.95959596  -5.75757576  -5.55555556  -5.35353535  -5.15151515
  -4.94949495  -4.74747475  -4.54545455  -4.34343434  -4.14141414
  -3.93939394  -3.73737374  -3.53535354  -3.33333333  -3.13131313
  -2.92929293  -2.72727273  -2.52525253  -2.32323232  -2.12121212
  -1.91919192  -1.71717172  -1.51515152  -1.31313131  -1.11111111
  -0.90909091  -0.70707071  -0.50505051  -0.3030303   -0.1010101
   0.1010101    0.30303

## Rzutowanie typu

Dla tablic można również sprecyzować odpowiedni typ. Można również w dowolnej chwili zmienić rodzaj typu w danej tablicy

Typy danych

* int - całkowito-liczbowy w rozmiarach 8,16,32,64,128 bitów
* uint - całkowito-liczbowy bez znaku (unsigned) w rozmiarach 8,16,32,64,128 bitów
* float - zmiennoprzecinkowy w rozmiarach 16,32,64,128,256
* complex - zmiennoprzecinkowy zespolony w rozmiarach 32, 64, 128, 160, 192, 256, 512 bitów
* char, str, unicode - znakowe
* bool - logiczny
* object - obiekty pythona

In [10]:
c = np.array([1, -2, 3], dtype=np.int8)
print(c)
print('Typ c to ', type(c), ' o danych rodzaju ', c.dtype)

# konwersja 

d = c.astype(dtype=np.uint32)
print(d)
print('Typ d to ', type(d), ' o danych rodzaju ', d.dtype)

[ 1 -2  3]
Typ c to  <class 'numpy.ndarray'>  o danych rodzaju  int8
[         1 4294967294          3]
Typ d to  <class 'numpy.ndarray'>  o danych rodzaju  uint32


Jak widać zmiana typów nie sprawdza dla nas poprawności wykonania odpowiedniego rzutowania, musimy więc być odpowiednio pewni przed jej wykonaniem.

## Operacje numeryczne pakietu numpy

Możemy wykonywać proste operacje numeryczne jak dodawnie czy mnożenie. Działamy jednak pod ograniczeniem, że muszą znajdować się w strukturach zgodne wymiary lub przynajmniej jeden operand musi być skalarem


In [11]:
n = np.arange(20)
c = np.array([1])
d = np.array([0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3])
print("n-c=", n-c)
print("n-d=", n-d)
print("n*2=", 2*n)

n-c= [-1  0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18]
n-d= [ 0  1  2  3  4  4  5  6  7  8  8  9 10 11 12 12 13 14 15 16]
n*2= [ 0  2  4  6  8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38]


Bardziej zaawansowane funkcje są implementowane jako składowe pakietu. Czyli aby wowołać np. operację sinus musimy posłużyć się funkcja sinus bezpośrednio z pakietu numpy. 

In [12]:
import numpy as np
x = np.linspace(-10, 10, num=100)
y = np.sin(x)
print("y=", y)

y= [ 0.54402111  0.36459873  0.17034683 -0.03083368 -0.23076008 -0.42130064
 -0.59470541 -0.74392141 -0.86287948 -0.94674118 -0.99209556 -0.99709789
 -0.96154471 -0.8868821  -0.77614685 -0.63384295 -0.46575841 -0.27872982
 -0.0803643   0.12126992  0.31797166  0.50174037  0.66510151  0.80141062
  0.90512352  0.97202182  0.99938456  0.98609877  0.93270486  0.84137452
  0.7158225   0.56115544  0.38366419  0.19056796 -0.01027934 -0.21070855
 -0.40256749 -0.57805259 -0.73002623 -0.85230712 -0.93992165 -0.98930624
 -0.99845223 -0.96698762 -0.8961922  -0.78894546 -0.64960951 -0.48385164
 -0.2984138  -0.10083842  0.10083842  0.2984138   0.48385164  0.64960951
  0.78894546  0.8961922   0.96698762  0.99845223  0.98930624  0.93992165
  0.85230712  0.73002623  0.57805259  0.40256749  0.21070855  0.01027934
 -0.19056796 -0.38366419 -0.56115544 -0.7158225  -0.84137452 -0.93270486
 -0.98609877 -0.99938456 -0.97202182 -0.90512352 -0.80141062 -0.66510151
 -0.50174037 -0.31797166 -0.12126992  0.0803643 

Jest to tym logiczniejsze, im przypomnimy sobie, że ten wektor danych jest gdzieś we wnętrzu szybkiego programu numpy. Wtedy

* wydanie operacji math.sin powoduje wyciągniecie wartości danych z numpy do pythona - a następnie wyznacza wartości tej funkcji dla kolejnych elementów kolekcji.
* natomiast wydanie operacji np.sin powoduje poinstruowanie programu numpy aby wykonał on sinus na posiadanej obecnie w pamięci kopii naszych danych. 

Druga opcja wydaje się zdecydowanie rozsądniejsza.

### Wektory logiczne

Ku zaskoczeniu jednym z częściej wykorzystywanych rodzajów wektorów są wektory o składowych typu boolowskiego.

In [2]:
import numpy as np
n = np.arange(20)
print(n < 10)

[ True  True  True  True  True  True  True  True  True  True False False
 False False False False False False False False]


## Mnożenie macierzowe

Najważniejszą z operacji dla analityka danych, którą może przeprowadzać na zbiorze jest mnożenie macierzowe. Numpy potrafi wykonywać to działanie na swoich strukturach.

In [10]:
A = np.array([[1, 1], [2, 0]])
B = np.array([[3, 0], [0, 1]])
np.matmul(A,B)

array([[3, 1],
       [6, 0]])

## Elementy losowości w numpy

Numpy zapewnia również najbardziej podstawowe sposoby tworzenia liczb losowych.

In [15]:
a = np.random.random(size=(2, 10))
print(a)

## statystyka wektora

print("Max", a.max())
print("Min", a.min())
print("Sum", a.sum())

[[0.18660526 0.49128966 0.03935179 0.04809738 0.96764652 0.90113878
  0.41369261 0.20248469 0.41385477 0.5483521 ]
 [0.42359283 0.74610371 0.18455209 0.65239837 0.74383679 0.27986666
  0.93569951 0.18185409 0.54959024 0.03584143]]
Max 0.9676465180906042
Min 0.035841428083368765
Sum 8.94584925189803


## Zadanie 1

Napisać funkcje wykonującą rzut monetą


In [3]:
import numpy as np
def rzut_moneta(ile):
    return ['o' if x == 0 else 'r' for x in np.random.randint(0,2, size=ile)]

In [6]:
def rzut_moneta(ile):
    return np.random.choice(['o','r'], size = ile)

In [7]:
monety = rzut_moneta(100)
monety[5:10]

array(['o', 'o', 'r', 'o', 'o'], dtype='<U1')

In [8]:
%timeit -n100 rzut_moneta(100000)

429 µs ± 14.1 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


## Zadanie 2

Napisać funkcje symulującą wylosowanie karty z talii

In [17]:
def karta_z_talii(ile_kart = 1):
    pass

# Slicing tablic numpy

Do pracy i wybierania poszczególnych składowych z tablic numpy stosuje sie przemyślane metody selekcji elementów (tzw. slicing). Metody te są w użyciu podobne do tych stosowanych dla pythonowych krotek i tablic



In [18]:
a = np.random.random(size=(2, 10))
print(a)
print("Dwa pierwsze elementy", a[0, 0:2])

b = np.random.random(10)
print("b=", b)
for i in b:
    print("Element ", i)

for i in a:
    print("Wiersz", i)

for i in a.flat:
    print("Element", i)

print("Spłaszczenie wektora wielowymiarowego", a.ravel())

[[0.6121195  0.51932728 0.25373152 0.54129041 0.32254868 0.79053927
  0.70829137 0.35595865 0.64308244 0.49916556]
 [0.93755351 0.70901803 0.61167586 0.52124225 0.28095643 0.99961942
  0.58889657 0.5996094  0.43056533 0.72800158]]
Dwa pierwsze elementy [0.6121195  0.51932728]
b= [0.60101979 0.89254238 0.44505204 0.51844854 0.27333781 0.67735725
 0.4694342  0.75594509 0.32275714 0.40275878]
Element  0.6010197905166998
Element  0.8925423784901845
Element  0.4450520372269833
Element  0.5184485394028829
Element  0.27333781454747463
Element  0.6773572530874336
Element  0.4694341959283642
Element  0.7559450882680558
Element  0.3227571408288341
Element  0.4027587847394285
Wiersz [0.6121195  0.51932728 0.25373152 0.54129041 0.32254868 0.79053927
 0.70829137 0.35595865 0.64308244 0.49916556]
Wiersz [0.93755351 0.70901803 0.61167586 0.52124225 0.28095643 0.99961942
 0.58889657 0.5996094  0.43056533 0.72800158]
Element 0.6121195020566964
Element 0.519327284573785
Element 0.2537315206016737
Elemen

## Kopiowanie tablic numpy

Z uwagi na to, że dane są przenoszone do kodu C/C++ - poważnie traktowany jest tam temat ich kopiowania. Powiedzmy sobie szczerze - kopiowanie jest operacją wymagającą dużo pracy. Tym więcej im więcej jest naszych danych. Spora część wykonywanych przez nas operacji nie wymaga od nas aby tworzyć kopię naszych danych. Aby dane podległy skopiowaniu w numpy trzeba wydać danym bezpośrednie polecenie. 

Zobaczmy to na przykładzie

In [19]:
a = np.array([[1, 2, 3], [1, 2, 3]])
print("a=", a)
b = a
b[0, 1] = 0
print("a=", a)

a= [[1 2 3]
 [1 2 3]]
a= [[1 0 3]
 [1 2 3]]


Stąd obserwujemy, że pomimo tego że chcieliśmy aby b było jakąś forma kopii tablicy a, to zmiana wykonana na danych przechowywanych przez b, została również wprowadzona na danych składowanych w a. Jest tak dlatego, że 

* co prawda b jest kopią a, ale ani a ani b tak naprawdę nie są tablicami naszych danych. 
* Są to uchwyty do danych. 
* Zatem b jest nowym uchwytem do danych uzyskanym jako kopia uchwytu a. 
* W efekcie oba uchwyty pokazują ten sam zestaw danych w pamięci.

Mam nadzieję, że udało mi się przekazać ideę. Zatem pora na rozwiązanie - jak utworzyć kopię danych a nie uchwytu

In [20]:
b = a.copy()
b[1, 0] = 0
print("b=", b)
print("a=", a)

b= [[1 0 3]
 [0 2 3]]
a= [[1 0 3]
 [1 2 3]]


# Elementy algebry liniowej

Numpy dostarcza nam macierze, razem z wieloma metodami pracy z nimi. Można je wykorzystać do uzyskiwania rozwiązań i innych rzeczy związanych z układami równań liniowych.

In [21]:
a = np.array([[1, 2], [-1, 2]])
print("A=\n", a)
print("A^T=\n", a.transpose())
print("det A=", np.linalg.det(a))
print("A^{-1}=\n", np.linalg.inv(a))
A = np.array([[5, 1], [-3, 3], [4, -1], [-1, 2], [0, 7]])
B = np.array([[1, 7, 0, -1, 9, 0, 5], [2, -6, -1, 10, 2, -3, 1]])
print("A=\n", A)
print("B=\n", B)
print("A*B=\n", A.dot(B))
C = np.trace(A) #ślad macierzy
print("C=", C)
A = np.array([[2, 3, 8], [1, -10, -4], [-2, -1, 2]])
b = np.array([[9], [15], [16]])
print('Rozwiązanie równania Ax=b to ', np.transpose(np.linalg.solve(A, b)))

print("Wartości własne=", np.linalg.eig(A))

A=
 [[ 1  2]
 [-1  2]]
A^T=
 [[ 1 -1]
 [ 2  2]]
det A= 4.0
A^{-1}=
 [[ 0.5  -0.5 ]
 [ 0.25  0.25]]
A=
 [[ 5  1]
 [-3  3]
 [ 4 -1]
 [-1  2]
 [ 0  7]]
B=
 [[ 1  7  0 -1  9  0  5]
 [ 2 -6 -1 10  2 -3  1]]
A*B=
 [[  7  29  -1   5  47  -3  26]
 [  3 -39  -3  33 -21  -9 -12]
 [  2  34   1 -14  34   3  19]
 [  3 -19  -2  21  -5  -6  -3]
 [ 14 -42  -7  70  14 -21   7]]
C= 8
Rozwiązanie równania Ax=b to  [[-3.34343434 -3.08080808  3.11616162]]
Wartości własne= (array([  2.20836502+3.75912335j,   2.20836502-3.75912335j,
       -10.41673003+0.j        ]), array([[ 0.86914838+0.j        ,  0.86914838-0.j        ,
        -0.25680363+0.j        ],
       [ 0.0170539 -0.15854201j,  0.0170539 +0.15854201j,
         0.96577728+0.j        ],
       [ 0.0162423 +0.46785775j,  0.0162423 -0.46785775j,
         0.03641619+0.j        ]]))


## Zadanie 3

Rozwiązać następujący układ równań 

$$
\left\lbrace
\begin{array}{c}
2 x +   y +  3 z = 1\\
2 x + 6 y +  8 z = 3\\
8 x + 8 y + 18 z = 5
\end{array}
\right.
$$

In [22]:
A = np.array([])
b = np.array([])
pass

# Wielomiany numpy

Numpy dostarczają nam również możliwość tworzenia obiektów w rodzaju wielomian

In [23]:
from numpy import poly1d

w1 = poly1d([3, 4, 5])
w2 = poly1d([4, 0, 2, 1])
print('W1 to \n', w1)
print('W2 to \n', w2)
print('Ich suma \n', w1 + w2)
print('Ich iloczyn \n', w1 * w1)

W1 to 
    2
3 x + 4 x + 5
W2 to 
    3
4 x + 2 x + 1
Ich suma 
    3     2
4 x + 3 x + 6 x + 6
Ich iloczyn 
    4      3      2
9 x + 24 x + 46 x + 40 x + 25


Wypisywanie nie jest mocną stroną, ale widać że tak wytworzone narzędzie może skutecznie użyte

In [24]:
print(w1(0))
print(w1(1))

5
12


In [25]:
print(w1.order)
print(w1.coefficients)
print(w1.roots)
print(w1.variable)

2
[3 4 5]
[-0.66666667+1.1055416j -0.66666667-1.1055416j]
x


# Wektoryzacja funkcji

Ostatni temat dotyczący wyłącznie numpy opowiada o tworzeniu funkcji wektorowych. Jak zmienić funkcję $f(x,y)$ działającą dla skalarów na $f(X,Y)$ działającą dla wektorów pozycja za pozycją:


In [26]:
def funkcja(a, b):
    return a+b


vector_funkcja = np.vectorize(funkcja)

a = np.array([1, 2, 3])
b = np.array([-1, 0, 1])

print("Wynik=", vector_funkcja(a, b))

Wynik= [0 2 4]


Miejmy jednak na uwadze, że po tego rodzaju funkcjach nie należy się spodziewać porównywalnej szybkości co dla wbudowanych funkcji numpy

In [27]:
import random 
import numpy as np

a = [random.randint(1, 100) for _ in range(1000000)]
b = [random.randint(1, 100) for _ in range(1000000)]


np_a = np.array(a)
np_b = np.array(b)

In [28]:
%timeit -n100 vector_funkcja(np_a, np_b)

106 ms ± 685 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [29]:
%timeit -n100 np_a + np_b

1.03 ms ± 37.3 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


# Pobieranie zdalnych danych

Poniżej prezentujemy jeszcze sposób na pobieranie zdalne zasobów:

In [30]:
import requests
import csv

url = "http://www.randomservices.org/random/data/Galton.txt"

with requests.Session() as s: #jeśli nie wiesz jak działa blok with powróć do lekcji_2_nietypowe
    download = s.get(url)
decoded_content = download.content.decode('utf-8')

data_iter = csv.reader(decoded_content.splitlines(), delimiter='\t')
data = np.array([data for data in data_iter])
print(data)

[['Family' 'Father' 'Mother' 'Gender' 'Height' 'Kids']
 ['1' '78.5' '67' 'M' '73.2' '4']
 ['1' '78.5' '67' 'F' '69.2' '4']
 ...
 ['136A' '68.5' '65' 'F' '64' '8']
 ['136A' '68.5' '65' 'F' '63.5' '8']
 ['136A' '68.5' '65' 'F' '63' '8']]
