# NumPy


<a id='index-1'></a>

> „Postawmy sprawę jasno: praca naukowa nie ma nic wspólnego z konsensusem. Konsensus jest sprawą polityki. Nauka natomiast potrzebuje tylko jednego badacza, który akurat ma rację, co oznacza, że dysponuje on wynikami możliwymi do sprawdzenia w odniesieniu do świata rzeczywistego. W nauce konsensus nie ma znaczenia. Istotne są powtarzalne wyniki.” – Michael Crichton

## Wprowadzenie

[NumPy](https://en.wikipedia.org/wiki/NumPy) to podstawowa biblioteka do programowania numerycznego

- Szeroko stosowana w środowisku akademickim, finansach i przemyśle.
- Dojrzała, szybka, stabilna i podlegająca ciągłemu rozwojowi.


Zapewnia wysokowydajny wielowymiarowy obiekt tablicowy i narzędzia do pracy z tablicami. 
Zbliżony  do MATLAB
![image.png](attachment:image.png)

### Link

- [Oficjalna dokumentacja NumPy](http://docs.scipy.org/doc/numpy/reference/).  



<a id='numpy-array'></a>

## NumPy Arrays


<a id='index-2'></a>
Zasadniczym problemem, który rozwiązuje NumPy, jest szybkie przetwarzanie tablic.

Najważniejszą strukturą zdefiniowaną przez NumPy jest typ danych tablicowych, formalnie nazywany [numpy.ndarray] (http://docs.scipy.org/doc/numpy/reference/arrays.ndarray.html).

Tablice NumPy zasilają dużą część naukowego ekosystemu Pythona.

Najpierw zaimportujmy bibliotekę.

In [1]:
import numpy as np

Aby utworzyć tablicę NumPy zawierającą tylko zera, używamy  [np.zeros](http://docs.scipy.org/doc/numpy/reference/generated/numpy.zeros.html#numpy.zeros)

In [2]:
a = np.zeros(3)
a

array([0., 0., 0.])

In [3]:
type(a)

numpy.ndarray

Tablice NumPy przypominają nieco natywne listy Pythona, z tą różnicą, że

* Dane muszą być zgodne (wszystkie elementy tego samego typu).
* Te typy muszą być jednym z charakterystycznych danych (dtypes) dostarczonych przez NumPy.
* Najważniejsze z tych charakterystycznych:

 * float64: 64-bitowa liczba zmiennoprzecinkowa
 * int64: 64-bitowa liczba całkowita
 * bool: 8-bitowa prawda lub fałsz




In [4]:
a = np.zeros(3)
type(a[0])

numpy.float64

Jeśli chcemy używać liczb całkowitych, możemy określić to w następujący sposób:

In [5]:
a = np.zeros(3, dtype=int)
type(a[0])

numpy.int32


<a id='numpy-shape-dim'></a>

### Kształt i wymiarowość


Rozważ następujące zadanie

In [6]:
z = np.zeros(10)

Tutaj z jest płaską tablicą bez wymiaru — ani wektora wiersza, ani kolumny.

Wymiar jest zapisywany w atrybucie kształtu, który jest krotką

In [7]:
z.shape

(10,)

Tutaj krotka kształtu ma tylko jeden element, który jest długością tablicy (krotki z jednym elementem kończą się przecinkiem).

Aby nadać mu wymiar, możemy zmienić atrybut „shape”.


In [8]:
z.shape = (10, 1)
z

array([[0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.]])

In [9]:
z = np.zeros(4)
z.shape = (2, 2)
z

array([[0., 0.],
       [0., 0.]])

W ostatnim przypadku, aby utworzyć tablicę 2 na 2, moglibyśmy również przekazać krotkę do metody `zeros()` jako `z = np.zeros((2, 2))`.


<a id='creating-arrays'></a>

### Tworzenie tablic


<a id='index-4'></a>
Jak było wcześniej, funkcja `np.zeros` tworzy tablicę zer.

Można się domyślić, co tworzy `np.ones`.

Powiązane jest z nim polecenie `np.empty`, które tworzy tablice w pamięci, które można później wypełnić danymi



In [10]:
z = np.empty(3)
z

array([0., 0., 0.])

Liczby, które tu widzisz, to wartości śmieciowe.

(Python przydziela 3 ciągłe 64-bitowe fragmenty pamięci, a istniejąca zawartość tych pamięci jest interpretowana jako wartości float64)

Aby ustawić siatkę równomiernie rozmieszczonych liczb, użyj np.linspace

In [11]:
z = np.linspace(2, 4, 5)  # Od 2 do 4, z 5 elementami

Aby utworzyć macierz, użyj jednego z poleceń `np.identity` lub `np.eye`

In [12]:
z = np.identity(2)
z

array([[1., 0.],
       [0., 1.]])

Ponadto tablice NumPy można tworzyć z list Pythona, krotek itp. za pomocą `np.array`

In [13]:
z = np.array([10, 20])                 # ndarray from Python list
z

array([10, 20])

In [14]:
type(z)

numpy.ndarray

In [15]:
z = np.array((10, 20), dtype=float)    # Here 'float' is equivalent to 'np.float64'
z

array([10., 20.])

In [16]:
z = np.array([[1, 2], [3, 4]])         # 2D array from a list of lists
z

array([[1, 2],
       [3, 4]])

np.asarray, który wykonuje podobną funkcję, ale nie tworzy odrębnej kopii danych znajdujących się już w tablicy NumPy.

In [17]:
na = np.linspace(10, 20, 2)
na is np.asarray(na)   # Does not copy NumPy arrays

True

In [18]:
na is np.array(na)     # Does make a new copy --- perhaps unnecessarily

False

Aby wczytać dane tablicy z pliku tekstowego zawierającego dane numeryczne, użyj `np.loadtxt`

### Indeksowanie tablic


<a id='index-5'></a>
W przypadku tablicy płaskiej indeksowanie przebiega tak samo, jak w przypadku sekwencji w Pythonie:

In [19]:
z = np.linspace(1, 2, 5)
z

array([1.  , 1.25, 1.5 , 1.75, 2.  ])

In [20]:
z[0]

1.0

In [21]:
z[0:2]  # Two elements, starting at element 0

array([1.  , 1.25])

In [22]:
z[-1]

2.0

W przypadku tablic 2D składnia indeksu jest następująca:

In [23]:
z = np.array([[1, 2], [3, 4]])
z

array([[1, 2],
       [3, 4]])

In [24]:
z[0, 0]

1

In [25]:
z[0, 1]

2

I tak dalej.

Należy pamiętać, że indeksy nadal zaczynają się od zera, aby zachować zgodność z sekwencjami Pythona.

Kolumny i wiersze można wyodrębnić w następujący sposób

In [26]:
z[0, :]

array([1, 2])

In [27]:
z[:, 1]

array([2, 4])

Tablice integer NumPy można również wykorzystać do wyodrębnienia elementów

In [28]:
z = np.linspace(2, 4, 5)
z

array([2. , 2.5, 3. , 3.5, 4. ])

In [29]:
indices = np.array((0, 2, 3))
z[indices]

array([2. , 3. , 3.5])

Wreszcie, do wyodrębnienia elementów można użyć tablicy dtype bool

In [30]:
z

array([2. , 2.5, 3. , 3.5, 4. ])

In [31]:
d = np.array([0, 1, 1, 0, 0], dtype=bool)
d

array([False,  True,  True, False, False])

In [32]:
z[d]

array([2.5, 3. ])

Poniżej zobaczymy, dlaczego jest to przydatne.

Na marginesie: wszystkie elementy tablicy można ustawić jako równe jednej liczbie, korzystając z  slice notation

In [33]:
z = np.empty(3)
z

array([2. , 3. , 3.5])

In [34]:
z[:] = 42
z

array([42., 42., 42.])

### Operacje na tablicach (metody)


<a id='index-6'></a>
Tablice mają przydatne metody, z których wszystkie są zoptymalizowane

In [35]:
a = np.array((4, 3, 2, 1))
a

array([4, 3, 2, 1])

In [36]:
a.sort()              # Sorts a in place
a

array([1, 2, 3, 4])

In [37]:
a.sum()               # Sum

10

In [38]:
a.mean()              # Mean

2.5

In [39]:
a.max()               # Max

4

In [40]:
a.argmax()            # Returns the index of the maximal element

3

In [41]:
a.cumsum()            # Cumulative sum of the elements of a

array([ 1,  3,  6, 10])

In [42]:
a.cumprod()           # Cumulative product of the elements of a

array([ 1,  2,  6, 24])

In [43]:
a.var()               # Variance

1.25

In [44]:
a.std()               # Standard deviation

1.118033988749895

In [45]:
a.shape = (2, 2)
a.T                   # Equivalent to a.transpose()

array([[1, 3],
       [2, 4]])

Inną metodą wartą poznania jest `searchsorted()`.

Jeśli `z` jest tablicą niemalejącą, wówczas `z.searchsorted(a)` zwraca indeks pierwszego elementu `z`, czyli `>= a`

In [46]:
z = np.linspace(2, 4, 5)
z

array([2. , 2.5, 3. , 3.5, 4. ])

In [47]:
z.searchsorted(2.2)

1

Wiele z metod omówionych powyżej ma równoważne funkcje w przestrzeni nazw NumPy

In [48]:
a = np.array((4, 3, 2, 1))

In [49]:
np.sum(a)

10

In [50]:
np.mean(a)

2.5

## Operacje na tablicach


<a id='index-7'></a>

### Operacje arytmetyczne

Operatory `+`, `-`, `*`, `/` i `**`  działają *elementowo* na tablicach

In [3]:
a = np.array([1, 2, 3, 4])
b = np.array([5, 6, 7, 8])
a + b

array([ 6,  8, 10, 12])

In [4]:
a * b

array([ 5, 12, 21, 32])

Możemy dodać skalar do każdego elementu w następujący sposób

In [5]:
a + 10

array([11, 12, 13, 14])

Mnożenie przez skalar jest podobne

In [6]:
a * 10

array([10, 20, 30, 40])

Tablice dwuwymiarowe podlegają tym samym ogólnym zasadom

In [7]:
A = np.ones((2, 2))
B = np.ones((2, 2))
A + B

array([[2., 2.],
       [2., 2.]])

In [8]:
A + 10

array([[11., 11.],
       [11., 11.]])

In [9]:
A * B

array([[1., 1.],
       [1., 1.]])


<a id='numpy-matrix-multiplication'></a>
W szczególności „A * B” *nie* jest iloczynem macierzowym, jest to iloczyn elementarny.

### Mnożenie macierzy


<a id='index-8'></a>
Dzięki naukowemu pakietowi Pythona firmy Anaconda opartemu na Pythonie 3.5 i nowszych wersjach,
można użyć symbolu `@` do mnożenia macierzy w następujący sposób:

In [10]:
A = np.ones((2, 2))
B = np.ones((2, 2))
A @ B

array([[2., 2.],
       [2., 2.]])

(W przypadku starszych wersji Pythona i NumPy musisz użyć funkcji [np.dot](http://docs.scipy.org/doc/numpy/reference/generated/numpy.dot.html))

Możemy również użyć `@`, aby pobrać iloczyn wewnętrzny dwóch tablic płaskich

In [11]:
A = np.array((1, 2))
B = np.array((10, 20))
A @ B

50

W rzeczywistości możemy użyć `@`, gdy jeden element jest listą lub krotką Pythona

In [12]:
A = np.array(((1, 2), (3, 4)))
A

array([[1, 2],
       [3, 4]])

In [13]:
A @ (0, 1)

array([2, 4])

Ponieważ wykonujemy mnożenie końcowe, krotka jest traktowana jako wektor kolumnowy.

### Zmienność i kopiowanie tablic

Tablice NumPy to modyfikowalne typy danych, takie jak listy w Pythonie.

Innymi słowy, ich zawartość może zostać zmieniona (zmutowana) w pamięci po inicjalizacji.

Przykłady widzieliśmy już powyżej.

Oto kolejny przykład:

In [14]:
a = np.array([42, 44])
a

array([42, 44])

In [15]:
a[-1] = 0  # Change last element to 0
a

array([42,  0])

Zmienność prowadzi do następującego zachowania (które może być szokujące dla programistów MATLAB...)

In [16]:
a = np.random.randn(3)
a

array([-0.54070123,  0.97719755, -0.24876836])

In [17]:
b = a
b[0] = 0.0
a

array([ 0.        ,  0.97719755, -0.24876836])

Stało się tak, że zmieniliśmy „a”, zmieniając „b”.

Nazwa „b” jest powiązana z „a” i staje się kolejnym odniesieniem do
array.

Dlatego ma równe prawa do wprowadzania zmian w tej tablicy.

Jest to w rzeczywistości najrozsądniejsze zachowanie domyślne!

Oznacza to, że zamiast tworzyć kopie, przekazujemy jedynie wskaźniki do danych.

Wykonywanie kopii jest drogie, zarówno pod względem szybkości, jak i pamięci.

#### Wykonywanie kopii

W razie potrzeby możliwe jest oczywiście utworzenie „b” niezależnej kopii „a”.

Można to zrobić za pomocą `np.copy`

In [18]:
a = np.random.randn(3)
a

array([1.39113452, 0.81807009, 1.86220692])

In [19]:
b = np.copy(a)
b

array([1.39113452, 0.81807009, 1.86220692])

Teraz „b” jest niezależną kopią (zwaną *głęboką kopią*)

In [20]:
b[:] = 1
b

array([1., 1., 1.])

In [21]:
a

array([1.39113452, 0.81807009, 1.86220692])

Należy zauważyć, że zmiana na „b” nie ma wpływu na „a”.

## Dodatkowa funkcjonalność

Przyjrzyjmy się innym przydatnym rzeczom, które możemy zrobić za pomocą NumPy.an do with NumPy.

### Funkcje wektoryzowanens


<a id='index-9'></a>
NumPy udostępnia wersje standardowych funkcji `log`, `exp`, `sin` itp., które działają *elementowo* na tablicach

In [22]:
z = np.array([1, 2, 3])
np.sin(z)

array([0.84147098, 0.90929743, 0.14112001])

Eliminuje to potrzebę wykorzystania pętli (element po elemencie), takich jak:

In [23]:
n = len(z)
y = np.empty(n)
for i in range(n):
    y[i] = np.sin(z[i])

Ponieważ działają na tablicach elementarnie, funkcje te nazywane są *funkcjami wektorowymi*.

W języku NumPy nazywane są one także *ufuncs*, co oznacza „funkcje uniwersalne”.

Jak widzieliśmy powyżej, zwykłe operacje arytmetyczne (`+`, `*` itd.) również
działają elementarnie, a połączenie ich z ufuncami daje bardzo duży zestaw szybkich funkcji elementarnych.

In [24]:
z

array([1, 2, 3])

In [25]:
(1 / np.sqrt(2 * np.pi)) * np.exp(- 0.5 * z**2)

array([0.24197072, 0.05399097, 0.00443185])

Nie wszystkie funkcje zdefiniowane przez użytkownika będą działać elementarnie.

Na przykład przekazanie funkcji „f” zdefiniowanej poniżej tablicy NumPy powoduje wyświetlenie „ValueError”

In [26]:
def f(x):
    return 1 if x > 0 else 0

Funkcja NumPy `np.where` zapewnia wektoryzowaną alternatywę:

In [27]:
x = np.random.randn(4)
x

array([-1.77623515,  0.57748537, -0.88624065, -0.32825057])

In [28]:
np.where(x > 0, 1, 0)  # Insert 1 if x > 0 true, otherwise 0

array([0, 1, 0, 0])

Możesz także użyć `np.vectorize` do wektoryzacji danej funkcji

In [29]:
f = np.vectorize(f)
f(x)                # Passing the same vector x as in the previous example

array([0, 1, 0, 0])

Jednak to podejście nie zawsze pozwala uzyskać taką samą prędkość, jak w przypadku bardziej starannie opracowanej funkcji wektorowej.

### Porównania


<a id='index-10'></a>
Z reguły porównania tablic przeprowadzane są elementarnie

In [30]:
z = np.array([2, 3])
y = np.array([2, 3])
z == y

array([ True,  True])

In [31]:
y[0] = 5
z == y

array([False,  True])

In [32]:
z != y

array([ True, False])

Sytuacja jest podobna dla `>`, `<`, `>=` i `<=`.

Możemy także dokonywać porównań ze skalarami

In [33]:
z = np.linspace(0, 10, 5)
z

array([ 0. ,  2.5,  5. ,  7.5, 10. ])

In [34]:
z > 3

array([False, False,  True,  True,  True])

Jest to szczególnie przydatne w przypadku *ekstrakcji warunkowej*

In [35]:
b = z > 3
b

array([False, False,  True,  True,  True])

In [36]:
z[b]

array([ 5. ,  7.5, 10. ])

Oczywiście możemy – i często to robimy – wykonać to w jednym kroku

In [37]:
z[z > 3]

array([ 5. ,  7.5, 10. ])

### Podpakiety

NumPy zapewnia dodatkową funkcjonalność związaną z programowaniem naukowym
poprzez swoje podpakiety.

Widzieliśmy już, jak możemy generować zmienne losowe za pomocą np.random

In [38]:
z = np.random.randn(10000)  # Generate standard normals
y = np.random.binomial(10, 0.5, size=1000)    # 1,000 draws from Bin(10, 0.5)
y.mean()

4.972

Innym powszechnie używanym podpakietem jest np.linalg

In [39]:
A = np.array([[1, 2], [3, 4]])

np.linalg.det(A)           # Compute the determinant

-2.0000000000000004

In [40]:
np.linalg.inv(A)           # Compute the inverse

array([[-2. ,  1. ],
       [ 1.5, -0.5]])


<a id='index-12'></a>
Wiele z tych funkcji jest również dostępnych w [SciPy] (http://www.scipy.org/), zbiorze modułów zbudowanych na bazie NumPy.



## Ćwiczenia



<a id='np-ex1'></a>

### Ćwiczenie 1

a. Przekonwertuj tablicę 1D na 2D

b. Utwórz następującą tablicę bez skomplikowanego kodowania. Używaj tylko funkcji numpy i poniższej tablicy wejściowej a.
    wejście: `a = np.array([1,2,3])`
    wyjście: `> array([1, 1, 1, 2, 2, 2, 3, 3, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3])`

c. wyświetl wspólne elementy dwóch tablic - korzystając tylko z funkcji numpy

d. usuń z jednej tablicy elementy, które występują w drugiej

e. zamień wiersze 1 i 2 w tablicy `arr = np.arange(9).reshape(3,3)`

f. utwórz tablicę 2D zawierającą liczby typu float od 5 do 10

g. Wyświetl tylko 3 miejsca po przecinku dla tablicy numpy

h. Wstaw wartości np.nan w 20 losowych pozycjach w zestawie danych iris_2d
    
    `# Input
     url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
     iris_2d = np.genfromtxt(url, delimiter=',', dtype='object')`

In [None]:
# Ćwiczenie 1 - Jan Banot
# a
arr_1d = np.array([1, 2, 3, 4, 5])

arr_2d_row = arr_1d.reshape(1, -1)
arr_2d_col = arr_1d.reshape(-1, 1)

# b
a = np.array([1, 2, 3])

repeated = np.repeat(a, 3)

tiled = np.tile(a, 3)

result = np.concatenate([repeated, tiled])
print(result)

# c
a = np.array([1, 2, 3, 4])
b = np.array([3, 4, 5, 6])

common = np.intersect1d(a, b)
print(common)

# d
a = np.array([1, 2, 3, 4, 5])
b = np.array([3, 4, 5, 6])

result = np.setdiff1d(a, b)
print(result)

# e
arr = np.arange(9).reshape(3, 3)
arr[[0, 1]] = arr[[1, 0]]
print(arr)

# f
arr = np.linspace(5, 10, 12).reshape(3, 4)
print(arr)

# g
np.set_printoptions(precision=3)
arr = np.random.rand(3, 3) * 10
print(arr)

# h
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype='object')

rows, cols = iris_2d.shape
for _ in range(20):
    i = np.random.randint(0, rows)
    j = np.random.randint(0, cols - 1)
    iris_2d[i, j] = np.nan

print(iris_2d)

### Ćwiczenie 2

Rozważmy wyrażenie wielomianowe


<a id='equation-np-polynom'></a>
$$
p(x) = a_0 + a_1 x + a_2 x^2 + \cdots a_N x^N = \sum_{n=0}^N a_n x^n \tag{1}
$$

Napisz funkcję wykorzystującą NumPy i tablice do obliczenia podanego wyrażenia

- Podpowiedź: Użyj `np.cumprod()`  



<a id='np-ex2'></a>

In [None]:
# Ćwiczenie 2 - Jan Banot

def evaluate_polynomial(coefficients, x):
    """
    Evaluates the polynomial p(x) = a[0] + a[1]*x + a[2]*x^2 + ... + a[n]*x^n
    using np.cumprod()

    Parameters:
    coefficients : array_like
        Array of coefficients [a0, a1, ..., aN]
    x : float
        The point at which to evaluate the polynomial

    Returns:
    float: The value of the polynomial at x
    """
    coefficients = np.array(coefficients)
    # Create an array of x powers: [1, x, x^2, ..., x^N]
    powers_of_x = np.concatenate(([1], np.cumprod(np.full(len(coefficients) - 1, x))))
    return np.sum(coefficients * powers_of_x)

coefficients = [1, 2, 3]  # p(x) = 1 + 2x + 3x^2
x = 2
print(evaluate_polynomial(coefficients, x))

17


### Ćwiczenie 3

Niech `q` będzie tablicą NumPy o długości `n` z `q.sum() == 1`.

Załóżmy, że q reprezentuje [funkcję masy prawdopodobieństwa.](https://pl.wikipedia.org/wiki/Funkcja_masy_prawdopodobieństwa).

Chcemy wygenerować dyskretną zmienną losową $ x $
   tak, że $ \mathbb P\{x = i\} = q_i $.

Innymi słowy, `x` przyjmuje wartości z zakresu `range(len(q))` i `x = i` z prawdopodobieństwem `q[i]`.

Algorytm standardowy (transformacja odwrotna) jest następujący:

- Divide the unit interval $ [0, 1] $ into $ n $ subintervals $ I_0, I_1, \ldots, I_{n-1} $ such that the length of $ I_i $ is $ q_i $.  
- Draw a uniform random variable $ U $ on $ [0, 1] $ and return the $ i $ such that $ U \in I_i $.  


Prawdopodobieństwo wylosowania $ i $  to długość  $ I_i $, co jest równe $ q_i $.

Algorytm możemy zaimplementować w następujący sposób:

In [None]:
from random import uniform

def sample(q):
    a = 0.0
    U = uniform(0, 1)
    for i in range(len(q)):
        if a < U <= a + q[i]:
            return i
        a = a + q[i]

Jeśli nie widzisz, jak to działa, spróbuj przemyśleć przebieg działania na prostym przykładzie, na przykład `q = [0.25, 0.75]`. Pomocny jest rysunek na papierze.

Twoje zadanie polega na przyspieszeniu tego za pomocą NumPy, unikając jawnych pętli

- Podpowiedź: Skorzystaj z `np.searchsorted` i `np.cumsum`  


If you can, zaimplementuj tę funkcjonalność jako klasę o nazwie `DiscreteRV`,gdzie

- danymi dla instancji klasy jest wektor prawdopodobieństw `q`  
- klasa posiada metodę `draw()`, która zwraca jeden losowanie zgodnie z algorytmem opisanym powyżej


Jeśli jesteś w stanie, napisz metodę tak, aby `draw(k)` zwracało `k` losowań z  `q`.


<a id='np-ex3'></a>

In [None]:
# Ćwiczenie 3 - Jan Banot
class DiscreteRV:
    def __init__(self, q):
        self.q = np.array(q, dtype=float)
        self.q = self.q / self.q.sum()
        self.cdf = np.cumsum(self.q)

    def draw(self, k=1):
        U = np.random.uniform(0, 1, size=k)
        samples = np.searchsorted(self.cdf, U)
        if k == 1:
            return samples[0]
        return samples

rv = DiscreteRV([0.25, 0.75])
print(rv.draw())
print(rv.draw(10))

0
[1 1 1 1 1 1 0 1 0 0]
