# Biblioteka NumPy

NumPy to jedna z podstawowych bibliotek umożliwiających przeprowadzanie zaawansowanych obliczeń matematycznych w Pythonie, na przykład w celach naukowych. W szczególności została stworzona, aby umożliwić szybkie i sprawne przeprowadzanie obliczeń numerycznych, np. mnożenie i dodawanie macierzy, ich diagonalizację czy odwracanie. Zawiera bardzo wiele sprawdzonych implementacji operacji na macierzach. W nomenklaturze NumPy wektory, macierze i wielowymiarowe struktury to tablice (ang. *array*). Szacuje się, że operacje na tablicach NumPy są ok. 50-krotnie szybsze od operacji na standardowych listach/tablicach w Pythonie (zaobserwujemy to na przykładzie w trakcie dzisiejszych zajęć). Nazwa NumPy pochodzi od "Numerical Python".

Dokumentacja biblioteki NumPy jest dostępna pod adresem https://numpy.org/doc/.

Polecany materiał uzupełniający dla osób zainteresowanych dokładniejszym poznaniem biblioteki NumPy: [https://youtu.be/eClQWW_gbFk?si=uLgow5ZfKHlyrrut](https://youtu.be/eClQWW_gbFk?si=uLgow5ZfKHlyrrut).
- Materiał jest w języku angielskim.
- Zawiera ćwiczenia z przykładowymi rozwiązaniami i ich omówieniem. 

## Instalacja oraz import biblioteki NumPy

Instalujemy za pomocą komendy pip:

In [1]:
!pip install numpy



oraz importujemy za pomocą instrukcji

In [2]:
import numpy as np

i sprawdzamy jaką mamy zainstalowaną wersję

In [3]:
print(np.__version__)

1.26.4


## Podstawowy typ danych - numpy.ndarray

Podstawowym typem danych biblioteki NumPy jest [np.ndarray](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.html) (od ang. *n-dimensional array*), czyli tablica wielowymiarowa.

### Tworzenie tablicy w NumPy

Tablica [numpy.ndarray](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.html) może być tworzona na różne sposoby:
- z list albo krotek za pomocą funkcji [np.array()](https://numpy.org/doc/stable/reference/generated/numpy.array.html),
- przy pomocy funkcji generujących, np. [np.arange()](https://numpy.org/doc/stable/reference/generated/numpy.arange.html), [np.linspace()](https://numpy.org/doc/stable/reference/generated/numpy.linspace.html),
- wczytując dane z plików.

Na przykładach zobaczymy jak tworzyć tablice typu `numpy.ndarray`.

#### Tworzenie tablicy 1-wymiarowej (wektora)

In [4]:
v = np.array([4,5,7,9,13])
v

array([ 4,  5,  7,  9, 13])

**Uwaga:** Poniższa próba utworzenia tablicy nie zadziała:

In [6]:
np.array(1, 2, 3, 4)

TypeError: array() takes from 1 to 2 positional arguments but 4 were given

Zobaczmy, że rzeczywiście utworzyliśmy zmienną typu `np.ndarray`:

In [7]:
print(type(v))

<class 'numpy.ndarray'>


O takiej tablicy możemy myśleć jako o wektorze

\begin{align}
    v &= \begin{bmatrix}
           4 \\
           5 \\
           7 \\
           9 \\
           13
         \end{bmatrix}
  \end{align} 

Tworzenie za pomocą funkcji [np.arange()](https://numpy.org/doc/stable/reference/generated/numpy.arange.html), gdzie kolejne parametry pozwalają określić zakres liczb wraz z odstępem liczbowym:

In [8]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [9]:
np.arange(start=15, stop=30, step=2)

array([15, 17, 19, 21, 23, 25, 27, 29])

Możemy też określić docelowy typ elementów:

In [10]:
np.array([4, 3, 2], dtype=np.float32)

array([4., 3., 2.], dtype=float32)

**Uwaga:** Jak zwykle w Pythonie, prawy zakres jest otwarty z prawej strony:

In [11]:
np.arange(start=15, stop=29, step=2)

array([15, 17, 19, 21, 23, 25, 27])

In [12]:
np.arange(start=29, stop=15, step=-2)

array([29, 27, 25, 23, 21, 19, 17])

I jeszcze tworzenie tablicy za pomocą funkcji [np.linspace()](https://numpy.org/doc/stable/reference/generated/numpy.linspace.html), gdzie kolejne parametry pozwalają określić końce zakresu liczbowego oraz liczbę elementów w wynikowej tablicy (parametr num). 

**Uwaga:** W tym przypadku zakres jest domknięty z lewej ale i z prawej strony! Wynikowa tablica będzie zawierała lewy i prawy koniec zakresu oraz num-2 liczb równo rozmieszczonych pomiędzy krańcami zakresu.

In [13]:
np.linspace(start=0, stop=10, num=6)

array([ 0.,  2.,  4.,  6.,  8., 10.])

Korzystając z funkcji [np.zeros](https://numpy.org/doc/stable/reference/generated/numpy.zeros.html) możemy w prosty sposób utworzyć tablicę jednowymiarową zainicjalizowaną zerami o podanej liczbie elementów.

In [14]:
np.zeros(5)

array([0., 0., 0., 0., 0.])

Zera niekoniecznie muszą oznaczać liczbę 0. Zero jest pojmowane ogólnie, zależnie od typu elementów tablicy: 

In [15]:
np.zeros(4, dtype='str')

array(['', '', '', ''], dtype='<U1')

In [16]:
np.zeros(4, dtype='bool')

array([False, False, False, False])

Istnieje też funkcja [np.ones](https://numpy.org/doc/stable/reference/generated/numpy.ones.html), która pozwala tworzyć tablice zainicjalizowane jedynkami:

In [17]:
np.ones(5)

array([1., 1., 1., 1., 1.])

In [18]:
np.ones(5, dtype='str')

array(['1', '1', '1', '1', '1'], dtype='<U1')

##### Różnice pomiędzy standardowymi listami w Pythonie a tablicami np.ndarray są następujące.

Listy mogą zawierać elementy różnych typów:

In [19]:
[1, 3.4, 'Ala', ['ma', 'kota']]

[1, 3.4, 'Ala', ['ma', 'kota']]

Elementy `np.ndarray` muszą być tego samego typu. Jeżeli nie są, funkcja `np.array` automatycznie "uzgodni" typy:

In [20]:
np.array([1,'ala',3])

array(['1', 'ala', '3'], dtype='<U11')

In [21]:
np.array((1.2, True, 5))

array([1.2, 1. , 5. ])

Na tablicach możemy przeprowadzać typowe operacje matematyczne na poszczególnych elementach tablicy, tj. element po elemencie, przy użyciu jednego operatora lub funkcji bez pisania jakichkolwiek pętli (ang. *element-wise operations*):

In [22]:
v/3

array([1.33333333, 1.66666667, 2.33333333, 3.        , 4.33333333])

In [None]:
np.sin(v)

Nie mamy takiej możliwości w przypadku standardowych list w Pythonie:

In [None]:
[4,5,7,9,13]/3

Dla list musimy użyć pętli, na przykład

In [None]:
[x/3 for x in [4,5,7,9,13]]

Inne różnice są związane w wymaganiami pamięciowymi. 
 - Po pierwsze, ze względu na konieczność przechowywania informacji o typie poszczególnych elementów, listy zajmują więcej miejsca w pamięci. 
 - Po drugie, elementy listy nie muszą być przechowywane w sposób ciągły w pamięci w odróżnieniu od elementów tablic `np.ndarray`.

#### Tworzenie tablicy wielowymiarowej

Tablicę wielowymiarową (np. reprezentującą macierz) możemy utworzyć za pomocą funkcji `np.array` z argumentem będącym zagnieżdżoną listą, tzn. listą, której elementami są inne listy:

In [None]:
M = np.array([[1,2.0,3],[4,5,6]])
M

Zwróćmy uwagę jakiego typu są elementy tablicy M w powyższym przykładzie - wszystkie liczby są typu np.float64.

Jeszcze jeden przykład:

In [None]:
np.array([[1, 2], [3, 4]], dtype=complex)

Spróbujmy utworzyć tablicę 3-wymiarową:

In [None]:
M3D = np.array([[[1,2.0,3],[-8,-4,-2]],[[4,5,6],[9,-2,1.0]]])
print(M3D)

Oczywiście musimy zwrócić uwagę na zgodność liczby elementów dla poszczególnych wymiarów. W przeciwnym przypadku pojawi się komunikat o błędzie.

In [None]:
print(f"NumPy version: {np.version.version}") # Inny niż powyżej sposób wypisania informacji o zainstalowanej wersji NumPy 
np.array([[[1,2.0],[-8,-4,-2]],[[4,5,6],[9,-2,1.0]]])

**Uwaga:** W przypadku starszych wersji NumPy, np. w wersji 1.23.5, nie pojawia się komunikat o błędzie, ale wynik takiego tworzenia tablicy jest nieco zaskakujący, tzn. elementami tablicy są listy:

array([[list([1, 2.0]), list([-8, -4, -2])],[list([4, 5, 6]), list([9, -2, 1.0])]], dtype=object))

### Atrybuty obiektów NumPy ndarray

[ndarray.ndim](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.ndim.html): zwraca liczbę całkowitą dodatnią określającą liczbę wymiarów tablicy. 

Uwaga: W terminologii NumPy wymiary określa się mianem "osi" (ang. *axes*). Mówimy, że tablica 2-wymiarowa ma dwie osie. Wymiar odpowiadający wierszom macierzy to oś 0 zaś kolumnom to oś 1. 

In [None]:
print(f"Liczba wymiarów tablicy v: {v.ndim}")
print(f"Liczba wymiarów tablicy M: {M.ndim}")
print(f"Liczba wymiarów tablicy M3D: {M3D.ndim}")

Kształt tablicy NumPy opisuje krotka liczb całkowitych dodatnich, określająca zakres wartości indeksów dla poszczególnych wymiarów (osi). Krotka ta dana jest przez atrybut [ndarray.shape](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.shape.html):

In [None]:
print(v.shape)
print(M.shape)
print(M3D.shape)

Korzystając z możliwości określania kszałtu tablicy, możemy tworzyć tablice o zadanym kszatłcie w jeszcze jeden sposób:

In [None]:
np.zeros((2,4))

In [None]:
np.ones((3,2,4)) * 4

Możemy też utworzyć tablicę o zadanym kształcie zainicjalizowaną losowymi liczbami z rozkładu standardowego, tj. normalnego o wartości oczekiwanej 0 i wariancji 1, N(0,1):

In [None]:
np.random.standard_normal((2,4,5))

Wartość atrybutu [ndarray.size](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.size.html) określa liczbę elementów tablicy będącą iloczynem zakresu indeksów dla poszczególnych wymiarów:

In [None]:
print(v.size)
print(M.size)
print(M3D.size)

Atrybut [ndarray.dtype](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.dtype.html) określa typ elementów w tablicy. Jak wcześniej zostało wspomniane, wszystkie elementy tablicy muszą być tego samego typu. 

In [None]:
M.dtype

Atrybut [ndarray.itemsize](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.itemsize.html) określa rozmiar elementu tablicy w bajtach. 

In [None]:
M.itemsize

### Dostęp do elementów tablicy: indeksowanie i slicing

Dostęp do elementów jest możliwy poprzez użycie notacji indeksowej (tablica[i]) jak i wycinkowej (tablica[i:j])

In [None]:
M[1,2]

In [None]:
M[1][2]

#### Tworzenie podtablic poprzez "wycinanie" (ang. *slicing*).

Oto kilka przykładów:

In [None]:
A = np.array([[ -7, 0, 10, 20],
              [ -5, 1, 40, 200],
              [ -1, 1, 4, 30]])

A[1:,1:3]

Podtablica składająca się z tablicy A bez pierwszej kolumny:

In [None]:
A[:,1:]

Podtablica składająca się z drugiej kolumny tablicy A:

In [None]:
A[:,1]

A co się stało z kształtem wynikowej tablicy?

In [None]:
print(A.shape)
print(A[:,1].shape)

Ograniczenie się do pojedynczego punktu w danym wymiarze, powoduje degenerację tego wymiaru. Uzyskuje się tablicę, w której liczba wymiarów jest mniejsza o jeden.

Jeżeli zależałoby nam na zachowaniu liczby wymiarów, możemy zrobić to tak:

In [None]:
A[:,1:2]

In [None]:
A[:,1:2].shape

Można też wybrać co któryś element z tablicy jednowymiarowej:

In [None]:
a = np.arange(12)**3
print(a)
a[:6:2]

Lub podmienić:

In [None]:
a[:6:2] = -10
a

Podobnie w przypadku tablicy wielowymiarowej:

In [None]:
A = np.array(range(0,8*9)).reshape((8,9)) # Metoda reshape pozwala zmienić kształt tablicy na podany; za chwilę omówimy ją dokładniej
A

In [None]:
A[2:7:2,2::3]

In [None]:
A[2:7:2,2::3] = -13
A

"Wycięcia" ostatniej kolumny możemy dokonać w ten sposób:

In [None]:
M[:,2:3]

W prosty sposób możemy odwrócić tablicę:

In [None]:
a = np.array([2,4,7,9,10,13])
a[::-1]

### Indeksowanie tablic tablicami

Do wybrania elementów z tablicy można użyć innej tablicy. W tym celu można użyć:
- tablicy/listy indeksów - wybieramy z tablicy te elementy, które uzyskalibyśmy indeksując każdym z indeksów z osobna;
- tablicy wartości logicznych (boolean) rozmiaru tablicy z danymi. Wybieramy te elementy, którym odpowiada wartość True w macierzy indeksującej.

**Uwaga:** Wynikiem jest tablica 1-wymiarowa. 

In [None]:
v[[1,3,4]]

In [None]:
M % 2 == 0

In [None]:
M[M % 2 == 0]

### Zmienianie kształtu tablicy

Możemy zmieniać kształt tablicy za pomocą metody np.ndarray.reshape(). Zmiana kształtu musi jednak zachowywać całkowitą liczbę elementów tablicy, w przeciwnym wypadku zgłaszany jest błąd.

In [None]:
t = np.arange(10,22)
t

In [None]:
t.reshape(3,4)

In [None]:
np.arange(24).reshape(2, 3, 4)

## Ćwiczenie 1

Utwórz macierz M o wymiarach 1000x1000 o elementach A[i,j] == 2 * i - 1 * j. 

In [None]:
# Miejsce na rozwiązanie


Za pomocą metody [np.ndarray.flatten](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.flatten.html) możemy tablicę n-wymiarową zmienić/"spłaszczyć" w tablicę 1-wymiarową:

In [None]:
t = np.random.standard_normal((4,3))
t

Spłaszczanie wierszami:

In [None]:
t.flatten(order='C')

Uwaga: Dlaczego order = 'C'? Mogłoby się wydawać, że C jest skrótem od "column" i się pomyliliśmy. Jednak wszystko jest dobrze; C oznacza "flatten in row-major (C-style) order".

Spłaszczanie kolumnami:

In [None]:
t.flatten(order='F')

F oznacza "flatten in column-major (Fortran- style) order".

Transponowanie tablicy

In [None]:
a = np.array([2,3,4,5,6,7]).reshape((2,3))
print(a)
a.T

**Uwaga:** transponowanie nie tworzy nowej tablicy!

In [None]:
b = a.T
b[1,1] = -5
print(a)

## Broadcasting i wektoryzacja na przykładzie arytmetyki w NumPy

Zacznijmy od przykładu dodawania tablic:

In [None]:
a = np.array([[1, 2, 3],
              [4, 5, 6]])
b = np.array([[4, 3, 9],
              [5, 2, 1]])
print(a + b)

Powyższe dodawanie jest wykonywane element po elemencie. Odpowiada ono dodawaniu macierzy. 

No to teraz spróbujmy pomnożyć dwie tablice:

In [None]:
a * b

Ewidentnie nie odpowiada ono mnożeniu macierzy. Jest to po prostu wymnażanie odpowiadających sobie elementów. 

Jeżeli chcemy wymnożyć tablice zgodnie z definicją mnożenia macierzy, korzystamy z funkcji [numpy.matmul](https://numpy.org/doc/stable/reference/generated/numpy.matmul.html):

In [None]:
A = np.array([[3,2,6],[7,2,1]])
B = np.array([[2,3],[1,4],[3,2]])
print(A)
print('x')
print(B)
print("=")
print(np.matmul(A,B))

Można też tak:

In [None]:
A @ B

lub tak:

In [None]:
A.dot(B)

Tablicę można pomnożyć przez liczbę (odpowiada mnożeniu macierzy przez skalar):

In [None]:
M = np.array(range(1,11)).reshape((2,5))
print(M)
M * 3

W przypadku macierzy znanych nam z wykładu algebry liniowej możemy dodawać i odejmować macierze o takich samych wymiarach lub możemy mnożyć macierz przez skalar. Nie mamy jednak zdefiniowanych operacji odejmowania skalaru od macierzy.

W przypadku tablic NumPy jest inaczej. Od tablicy możemy odjąć liczbę (skalar) lub od liczby (skalaru) odjąć tablicę:

In [None]:
M - 5

In [None]:
5 - M

Aby ułatwić i znacznie przyspieszyć operacje arytmetyczne na danych ujętych w tablicach NumPy, podstawowe operacje zostały w NumPy rozszerzone tak, aby można było je wykonywać element po elemencie. Jest to możliwe dzięki dwóm mechanizmom: broadcasting'u (ang. *[broadcasting](https://numpy.org/doc/stable/user/basics.broadcasting.html)*) i wektoryzacji (ang. *vectorization*).

Możemy wykonywać operacje element po elemencie na dwóch tablicach o różnej liczbie wymiarów:

In [None]:
a = np.array([[ 0.0,  0.0,  0.0],
              [10.0, 10.0, 10.0],
              [20.0, 20.0, 20.0],
              [30.0, 30.0, 30.0]])

b = np.array([1.0, 2.0, 3.0])

a + b

Umożliwił to mechanizm braodcasting'u. Ale to już nie zadziała:

In [None]:
a = np.array([[  1.,   2.,   3.],
              [11.,  12.,  13.],
              [21.,  22.,  23.],
              [31.,  32.,  33.]])

b = np.array([1.0, 2.0, 3.0, 4.0])

a + b

Przed wykonaniem działania na dwóch tablicach, NumPy porównuje rozmiary poszczególnych wymiarów **zaczynając od prawej strony**.
Przy porównywaniu, rozmiary wymiaru są uznawane za kompatybilne, gdy są równe bądź gdy któryś z rozmiarów wynosi 1. Jeżeli żaden z tych warunków nie jest spełniony, zgłaszany jest błąd "ValueError: operands could not be broadcast together". 

Tablice nie muszą mieć takiej samej liczby wymiarów. Zakłada się, że brakujące wymiary mają rozmiar 1. Tablica wynikowa będzie miała liczbę wymiarów równą większej liczbie wymiarów spośród obu tablic wejściowych a rozmiar każdego wymiaru będzie równy większemu rozmiarowy odpowiedniego wymiaru obu tablic wejściowych. Kilka przykładów:

<code>
A     (2d): 4 x 3
B     (1d):     3
Wynik (2d): 4 x 3
</code>

Na rysunku można przedstawić to tak

![broadcasting_2.png](attachment:broadcasting_2.png)

<code>
A     (3d): 256 x 256 x 3
B     (1d):             3
Wynik (3d): 256 x 256 x 3
</code>

<code>
A     (4d): 8 x 1 x 6 x 1
B     (3d):     7 x 1 x 5
Wynik (4d): 8 x 7 x 6 x 5
</code>



W poprzednim przykładzie mieliśmy następującą sytuację:

<code>
a (2d): 4 x 3
b (1d): 1 x 4  
</code>

Widzimy, że rozmiary wymiaru pierwszego od prawej strony nie są kompatybilne. Ale to już zadziała:

In [None]:
a.T * b 

Więcej o mechanizmie broadcastingu można poczytać np. [tutaj](https://numpy.org/doc/stable/user/basics.broadcasting.html#basics-broadcasting).

Wróćmy jeszcze do przykładu mnożenia dwóch tablic o tych samych wymiarach:

In [None]:
a = np.array([[1, 2, 3],
              [4, 5, 6]])
b = np.array([[4, 3, 9],
              [5, 2, 1]])
print(a * b)

Zadziałał tutaj mechanizm "wektoryzacji": nie wymnażaliśmy odpowiednich elementów obu tablic za pomocą pętli w Pythonie tylko pozostawiliśmy to bibliotece NumPy, gdzie iteracja po odpowiadających sobie elementach tablic jest realizowana w C, zamiast w interpreterze Pythona. Jest to dużo bardziej efektywne!

Inny przykład - podnoszenie do kwadratu każdego elementu w tablicy:

In [None]:
M**np.array([2])

Albo prościej tak:

In [None]:
M**2

A teraz jeszcze jeden przykład łączący broadcasting i wektoryzację:

In [None]:
M - np.array([5]) > np.array([0])

Albo prościej tak:

In [None]:
M - 5 > 0

## Funkcje matematyczne

NumPy zawiera realizacje podstawowych funkcji matematycznych, takich jak sin, cos, exp, log. Pozwalają one dokonywać odpowiednich operacji na danych tablicowych element po elemencie.

In [None]:
X = np.arange(0, 2 * np.pi, 0.1)

np.sin(X) + np.cos(X)

Sprawdzimy jedynkę trygonometryczną, czyli tożsamość trygonometryczną postaci

$$\sin^2(\alpha) + \cos^2(\alpha) = 1$$

In [None]:
np.sin(X)**2 + np.cos(X)**2

In [None]:
M.max()

Albo tak:

In [None]:
np.max(M)

Inne przykłady funkcji matematycznych:

In [None]:
M.min()

In [None]:
M.mean()

In [None]:
M.std()

In [None]:
M.sum()

Funkcje takie jak max, min działają szybko, gdyż korzystają z wektorowej architektury procesora. Takie wektorowe funkcje w NumPy nazywają się [ufunc](https://numpy.org/doc/stable/reference/generated/numpy.frompyfunc.html) (ang. *universal functions*).

Teraz spróbujmy czegoś bardziej złożonego. Za pomocą broadcasting'u i wektoryzacji możemy na przykład szybko policzyć przewidywania modelu regresji logistycznej dla różnych danych wejściowych. Bez zbytniego zagłębiania się w szczegóły, model regresji logistycznej jest postaci

$$y(\mathbf{x}) = \frac{1}{1+e^{-(\beta_0 + \beta_1 x_1 + \beta_2 x_2 + \ldots + \beta_n x_n)}}$$,

gdzie $\beta_i$ dla $i = 0,1,\ldots,n$ to parametry modelu (zwykle są "uczone" bądź "trenowane", ale to zagadnienie na inny przedmiot; u nas będą zadane), $\mathbf{x} = [x_1, x_2, \ldots, x_n]$ to wektory obserwacji, tj. zaobserwowanych wartości dla zmiennych niezależnych (zwanych też cechami) $x_j$ dla $j = 1,2,\ldots,n$. Wynikiem jest liczba z przedziału $(0,1)$ interpretowana jako prawdopodobieństwo przynależności obserwacji do jednej wybranej klasy z dwóch możliwych (regresja logistyczna ma zastosowanie w problemach klasyfikacji binarnej; więcej informacji można znaleźć np. [tutaj](https://pl.wikipedia.org/wiki/Regresja_logistyczna)). Przykładowo zmiennymi niezależnymi mogą być różne parametry krwi pacjenta a zmienna zależna określać czy u pacjenta rozwinęła się określona choroba czy nie. W tym przypadku wytrenowany model regresji logistycznej na podstawie parametrów krwi pacjenta mógłby określać prawdopodobieństwo zapadnięcia na daną chorobę.

Zobaczmy jak to działa w przypadku n = 2 i zbioru danych wielkości 5:

In [None]:
# Wartości parametrów modelu regresji logistycznej
beta = [0.07,0.34]
beta0 = 0.04

# Tablica z danymi: wiersze zawierają poszczególne wektory obserwacji, a kolumny zawierają wartości dla
# zmiennych niezależnych x_1 i x_2. 
x = np.array([[0.1,0.4],
              [4.2,5.9],
              [7.2,8.1],
              [7.3,1.1],
              [2.3,0.1]]
            )
print(f"Liczba zmiennych wejściowych: {x.shape[0]}, liczba obserwacji: {x.shape[1]}")

y = 1/(1 + np.exp( -(x.dot(beta)+beta0) ))
y

I na tym przykładzie (choć dla "nieco" większego zbioru danych) możemy zaobserwować jak korzystanie z biblioteki NumPy pozwala przyspieszyć obliczenia:

**Uwaga:** Obliczenia mogą zająć dłuższą chwilę (ok. 3 min.)!

In [None]:
from timeit import timeit

dataset_size = 100000
number_of_executions = 100

x = np.random.standard_normal((dataset_size,2))
print(f"Liczba zmiennych wejściowych: {x.shape[0]}, liczba obserwacji: {x.shape[1]}")

# Korzystamy z wektoryzacji i iloczynu skalarnego w NumPy
def logreg_vect():
    return 1/(1 + np.exp( -(x.dot(beta)+beta0) ))

# timeit w Jupyterze
#t_vect= %timeit -o logreg_vect()

t_vect = timeit("logreg_vect()", globals=globals(), number=number_of_executions)
print(f'Czas obliczeń z wykorzystaniem broadcasting\'u i wektoryzacji: {t_vect}s')

print("Liczymy teraz za pomocą pętli for ... prosimy o cierpliwość :)")

def logreg_loop():
    # Iterujemy po obserwacjach (wierszach tabeli x) za pomocą pętli for
    y_loop = np.zeros(dataset_size) # Alokacja tablicy na wyniki
    for i in range(dataset_size):
        y_loop[i] = 1/(1 + np.exp( -(x[i,:].dot(beta)+beta0) ))
  
    return y_loop

t_loop = timeit("logreg_loop()", globals=globals(), number=number_of_executions)
print(f'Czas obliczeń za pomocą pętli for w Pythonie: {t_loop}s')
print(f"Broadcasting i wektoryzacja dały nam {t_loop/t_vect:.3f}-krotne przyspieszenie w stosunku do pętli for!")

print("Liczymy teraz za pomocą list comprehension ... prosimy o cierpliwość :)")

# Korzystamy z list comprehension
def logreg_lc():
    return [1/(1 + np.exp( -(x[i,:].dot(beta)+beta0) )) for i in range(dataset_size)]

t_lc = timeit("logreg_lc()", globals=globals(), number=number_of_executions)
print(f'Czas obliczeń za pomocą list comprehension: {t_lc}s')
print(f"Broadcasting i wektoryzacja dały nam {t_lc/t_vect:.3f}-krotne przyspieszenie w stosunku do list comprehension!")

Aby przekształcić algorytmy do ich wektorowej wersji, należy zadbać, aby definiowane przez nas funkcje dobrze pracowały z argumentami typu array. Pokażemy to na przykładzie. Zdefiniujmy funkcję skokową Heaviside'a: 

In [None]:
def heaviside(x):
    if x >= 0:
        return 1
    else:
        return 0

Tak zdefiniowana funkcja nie radzi sobie z argumentem typu `np.array`:

In [None]:
heaviside(np.array([-1,2,-3,5,7]))

Możemy to naprawić, wykorzystując do tego celu funkcję [numpy.vectorize](https://numpy.org/doc/stable/reference/generated/numpy.vectorize.html), która w większości przypadków automatycznie zwektoryzuje naszą funkcję:

In [None]:
heaviside_vec = np.vectorize(heaviside)

heaviside_vec(np.array([-1,2,-3,5,7]))

lub używając @np.vectorize jako adnotacji do definiowanej funkcji:

In [None]:
@np.vectorize
def heaviside(x):
    if x >= 0:
        return 1
    else:
        return 0

heaviside(np.array([-1,2,-3,5,7]))

Można to też zrobić "ręcznie" - wymaga więcej pracy i pomysłowości, ale za to możemy uzyskać lepszą wydajność niż stosując wektoryzację automatyczną:

In [None]:
def heaviside_vec2(x):
    return 1 * (x >= 0)

heaviside_vec2(np.array([-1,2,-3,5,7]))

## Ćwiczenie 2

Proszę "ręcznie" zwektoryzować poniższy kod:

<code>
def test_equality(x):
    if x**2 + 2*x-1 == (x + 2)*x-1:
        return True
    else:
        return False
</code>

<code>
test_equality(np.linspace(0,1,1000))
</code>

In [None]:
# Miejsce na rozwiązanie


Poza pewnymi dodatkowymi rzeczami, funkcja np.vectorize wywołuje funkcję [np.frompyfunc](https://numpy.org/doc/stable/reference/generated/numpy.frompyfunc.html#numpy-frompyfunc), która dodaje własności wektoryzacji i broadcasting'u. 

Dla zainteresowanych: krótko o różnicach między tymi funkcjami można poczytać na [StackOverflow](https://stackoverflow.com/questions/6768245/difference-between-frompyfunc-and-vectorize-in-numpy).

Omówmy jeszcze jedną kwestię. Załóżmy, że mamy daną funkcję dwóch zmiennych $x$ i $y$, np. 
$$f(x,y) = \frac{\sin{(\sqrt{x^2 + y^2} + 1)}}{\sqrt{x^2 + y^2} + 1}.$$
Chcielibyśmy policzyć wartości tej funkcji na siatce punktów $(x,y)$, gdzie $x,y \in [-8, -7.5, \ldots, 8]$. Będzie to np. przydatne później, przy omawianiu wizualizacji w Pythonie. Możemy to zrealizować korzystając w funkcji [numpy.meshgrid](https://numpy.org/doc/stable/reference/generated/numpy.meshgrid.html#numpy.meshgrid). Najpierw jednak zobaczmy jak działa ta funkcja:

In [None]:
mg = np.meshgrid([1,2,3],[5,6,7])
mg

Zauważmy, że dostaliśmy w wyniku listę dwóch tablic: mg[0] i mg[1] o tych samych wymiarach. Pytanie co to są za tablice?

Widzimy, że wiersze mg[0] są takie same, równe [1,2,3]. W przypadku mg[1] kolumny są takie same równe [5,6,7]. Wypiszmy jeszcze pary odpowiadających sobie elementów z obu tablic: 

In [None]:
for i in range(mg[0].shape[0]):
    for j in range(mg[0].shape[1]):
        print(f"({mg[0][i,j]},{mg[1][i,j]})")    

W wyniku dostaliśmy współrzędne wszystkich punktów naszej siatki! Nasza siatka wygląda tak:

(1,5) --- (2,5) --- (3,5)

(1,6) --- (2,6) --- (3,6)

(1,7) --- (2,7) --- (3,7)

Korzystając z funkcji numpy.meshgrid w elegancki sposób możemy rozwiązać nasze zadanie:

In [None]:
mg = np.meshgrid(np.arange(-8,8.1,0.5),np.arange(-8,8.1,0.5))
F = np.sqrt(mg[0]**2 + mg[1]**2) + 1
F = np.sin(F)/F
F

A co to za funkcję policzyliśmy? 

Wyrysowanie tej funkcji pomoże nam udzielić na to pytanie odpowiedzi (w niedalekiej przyszłości dokładniej omówimy kwestie związane z wizualizacją w Pythonie, a na razie chcemy tylko zobaczyć co się nam policzyło w NumPy). Zwróćmy uwagę jak siatka punktów mg zostanie użyta w naszej wizualizacji:

In [None]:
import matplotlib.pyplot as plt # Importujemy bibliotekę matplotlib do wizualizacji - omówimy ją dokładniej nieco później w ramach naszego kursu.

fig = plt.figure()
ax = plt.axes(projection='3d')
ax.plot_surface(mg[0], mg[1], F)
plt.show()

## Kilka uwag o zapisywaniu i wczytywaniu danych do/z pliku

Utwórzmy plik tekstowy dane.txt zapisując do niego dwuwymiarową tablicę:

In [None]:
X = np.array([[ 1, 2 ,3],
              [ 4, 5, 6],
              [ 7, 8, 9],
              [10,11,12]])

np.savetxt('dane.txt', X, fmt='%.3e', delimiter=',', newline='\n', header='')

Uwaga: X może być co najwyżej tablicą dwuwymiarową. To nie zadziała:

In [None]:
np.savetxt('test.txt', X.reshape((2,3,2)), fmt='%.3e', delimiter=',', newline='\n', header='')

Dane z pliku tekstowego możemy wczytać w następujący sposób:

In [None]:
data = np.loadtxt('dane.txt', delimiter=',')
print(data)

Może się zdarzyć, że w pliku brakuje pewnych wartości:

In [None]:
with open('dane.txt', 'w') as f:
    f.write('1, 2,  \n')
    f.write('4,  , 6\n')
    f.write('7, 8, 9\n')

Wówczas możemy wczytać dane w następujący sposób:

In [None]:
np.genfromtxt("dane.txt", delimiter=",")

albo określając wartość dla brakujących danych, w tym przypadku -1:

In [None]:
np.genfromtxt("dane.txt", delimiter=",", dtype=np.int8, filling_values=-1)

Używając funkcji [numpy.save](https://numpy.org/doc/stable/reference/generated/numpy.save.html#numpy.save) możemy zapisywać tablice NumPy do pliku binarnego w formacie [.npy](https://numpy.org/doc/stable/reference/generated/numpy.lib.format.html#module-numpy.lib.format). Funkcja ta pozwala zapisywać tablice o dowolnych wymiarach:

In [None]:
t = np.random.standard_normal((4,3,5))

with open('dane.npy', 'wb') as f:
    np.save(f, t, allow_pickle=False)
    np.save(f, np.array([[1,2,5],[6,8,9]]), allow_pickle=False)

Został utworzony plik binarny dane.npy.

Moduł pickle pozwala na serializację i deserializację obiektów Pythona. Serializacja (ang. *pickling*) to proces przekształcania obiektu w ciąg bajtów a deserializacja to proces odwrotny. My jednak opcję allow_pickle ustawiliśmy na False, co jest zalecane ze względów bezpieczeństwa. Przy zapisie problemu nie ma, bo wiemy co zapisujemy. Niestety, nie zawsze wiemy co dokładnie wczytujemy, a wczytywanie danych za pomocą modułu pickle umożliwia wykonanie dowolnego kodu. Dlatego może to być niebezpieczne.

Za pomocą funkcji [numpy.load](https://numpy.org/doc/stable/reference/generated/numpy.load.html) możemy wczytać nasze dane:

In [None]:
with open('dane.npy', 'rb') as f:
    t1 = np.load(f)
    t2 = np.load(f)

print(t1)
print(t2)

Opcja allow_pickle jest domyślnie ustawiona na False, więc jesteśmy bezpieczni.

Moża też za jednym razem zapisać słownik tablic za pomocą funkcji [numpy.savez](https://numpy.org/doc/stable/reference/generated/numpy.savez.html#numpy.savez) lub [numpy.savez_compressed](https://numpy.org/doc/stable/reference/generated/numpy.savez_compressed.html#numpy.savez_compressed):

In [None]:
t1 = np.random.standard_normal((4,3,5))
t2 = np.random.standard_normal((4,3))
t3 = np.random.standard_normal((3,5))

table_dict = {'a':t1, 'b':t2, 'c':t3}

#np.savez('tablice.npz', **table_dict)
np.savez_compressed('tablice.npz', **table_dict)

In [None]:
ts = np.load('tablice.npz')
    
ts.files

In [None]:
ts['a']