# NumPy

Czym jest [numpy](https://numpy.org/)?

Z dokumentacji:

It provides:

* a powerful N-dimensional array object
* sophisticated (broadcasting) functions
* tools for integrating C/C++ and Fortran code
* useful linear algebra, Fourier transform, and random number capabilities

Najważniejsza struktura danych w NumPy to `ndarray`, która ma stałą długość i przechowuje elementy tego samego typu. Mówimy, że Python jest wolny - jest to prawda tylko, jeżeli chodzi o iterowanie przez małe pythonowe obiekty. Numpy wykorzystuje szybkie implementacje w C i FORTRANIE, by pracować na tablicach `ndarray`.

[Opracowano na podstawie tutorialu na UAB, Barcelona]

In [None]:
import numpy as np
import matplotlib.pyplot as plt

### Porównanie implementacji

In [None]:
voltages = [10.1, 15.1, 9.5]
resistances = [1.2, 2.4, 5.2]

currents = [U * R for U, R in zip(voltages, resistances)]
currents

In [None]:
# list(zip(voltages, resistances))

In [None]:
U = np.array([10.1, 15.1, 9.5])
R = np.array([1.2, 2.4, 5.2])

I = U * R
I

In [None]:
type(U)

In [None]:
currents[1] == I[1]

### Znajdowanie najbliższego punktu w tablicy

In [None]:
import math

def euclidean_distance(p1, p2):
    return math.sqrt((p1[0] - p2[0])**2 + (p1[1] - p2[1])**2)

point = (1, 2)
points = [(3, 2), (4, 2), (3, 0)]

min_distance = float('inf')
for other in points:
    distance = euclidean_distance(point, other)
    if distance < min_distance:
        closest = other
        min_distance = distance 

print(min_distance, closest)

In [None]:
point = np.array([1, 2])
points = np.array([(3, 2), (4, 2), (3, 0)])

distance = np.linalg.norm(point - points, axis=1)
idx = np.argmin(distance)

print(distance[idx], points[idx])

### Pomiary czasu

In [None]:
def mean(data):   
    n = 0
    total = 0.0
    
    if len(data) < 2:
        return float('nan')

    for value in data:
        n += 1
        total += value

    return total / n

In [None]:
%%timeit -n100

l = list(range(2000))  # list with elements with values from 0,...,1999
mean(l)

In [None]:
%%timeit -n100

a = np.arange(2000)  # array with numbers 0,...,1999
np.mean(a)

In [None]:
import math

def var(data):
    '''
    Welford's algorithm for one-pass calculation of the variance
    Avoids rounding errors of large numbers when doing the naive
    approach of `sum(v**2 for v in data) - sum(v)**2`
    '''
    # https://en.wikipedia.org/wiki/Algorithms_for_calculating_variance#Welford's_online_algorithm
    n = 0
    mean = 0.0
    m2 = 0.0
    
    if len(data) < 2:
        return float('nan')

    for value in data:
        n += 1
        delta = value - mean
        mean += delta / n
        delta2 = value - mean
        m2 += delta * delta2

    return m2 / n 

In [None]:
%%timeit -n100

l = list(range(2000))  # list with elements with values from 0,...,1999
var(l)

In [None]:
%%timeit -n100

a = np.arange(2000)  # array with numbers 0,...,1999

np.var(a)

### Wektoryzacja podstawowych operacji

In [None]:
# create a numpy array from a python list
a = np.array([1.0, 3.5, 7.1, 4, 6])
a

In [None]:
a*a

In [None]:
a**2

In [None]:
a**a

In [None]:
math.cos(a) # Nie zadziała

In [None]:
np.cos(a)

Pozdtawowe funkcje zaimplementowanie w pythonie zadziałają dzięki przeciążeniu.

In [None]:
def poly(x):
    return x + 2 * x**2 - x**3

poly(a)

In [None]:
poly(np.pi)

### Użyteczne atrybuty

In [None]:
len(a)

In [None]:
a.shape

In [None]:
a.dtype

In [None]:
a.ndim

### Tablice dwuwymiarowe

In [None]:
# two-dimensional array
y = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])

y + y

In [None]:
## since python 3.5 @ is matrix product
y @ y

In [None]:
# Broadcasting, changing array dimensions to fit the larger one
# Description of numpy broadcating rules:
# https://numpy.org/doc/stable/user/basics.broadcasting.html
y + np.array([1, 2, 3])

In [None]:
10. + y 

### Różne operacje redukcji

In [None]:
x = np.random.normal(0, 1, size=10)

In [None]:
x

In [None]:
np.sum(x)

In [None]:
np.prod(x)

In [None]:
np.mean(x)

Odchylenie standardowe populacji

In [None]:
np.std(x)

Odchylenie standardowe średniej

In [None]:
np.std(x, ddof=1) / np.sqrt(len(x))

Odchylenie standardowe próbki

In [None]:
np.std(x, ddof=1)

Różnica sąsiadujących elementów

In [None]:
z = np.arange(10)**2
z

In [None]:
np.diff(z)

### Operacje redukcji na tablicach wielowymiarowych

In [None]:
array2d = np.arange(20).reshape(4, 5)

array2d

In [None]:
np.sum(array2d, axis=0)

In [None]:
np.mean(array2d, axis=1)

In [None]:
np.mean(array2d)

## Exercise 1

Napisz funkcję która wyznacza regresję liniową mając dane wektory x i y.

Przypomnienie:

$$ f(x) = a \cdot x + b$$

z 

$$
\hat{a} = \frac{\mathrm{Cov}(x, y)}{\mathrm{Var}(x)} \\
\hat{b} = \bar{y} - \hat{a} \cdot \bar{x}
$$

In [None]:
def linear_regression(x,y):
    ## TODO: implement
    ## use np.cov and np.mean
    a,b=0,0
    return a,b

In [None]:
x = np.linspace(0, 1, 50)
y = 5 * np.random.normal(x, 0.2) + 2  # see section on random numbers later
# y = 5 * x + 2
a, b = linear_regression(x, y)
print(a,b)

In [None]:
plt.scatter(x, y)
plt.plot(x, (a * x) + b)

### Tworzenie tablic

In [None]:
np.zeros(10)

In [None]:
np.ones((5, 2))

In [None]:
np.full((5,5), np.nan)

In [None]:
np.empty(5)  # Uwaga: niezainicjalizowana przestrzeń w pamięci

In [None]:
np.linspace(0, 1, 11)

In [None]:
np.arange(0, 10)

In [None]:
np.logspace(-4, 5, 10)

### Indeksowanie tablic
* dostęp do elementów
* 'slicing'

In [None]:
x = np.arange(0, 10)

# like lists:
x[4]

In [None]:
# all elements with indices ≥1 and <4:
x[1:4]

In [None]:
# negative indices count from the end
x[-1], x[-2]

In [None]:
# combination:
x[3:-2]

In [None]:
# step size
x[::2]

In [None]:
# trick for reversal: negative step
x[::-1]

In [None]:
y = np.array([x, x + 10, x + 20, x + 30])
y

In [None]:
y[2,5]

In [None]:
# comma between indices
y[3, 2:-1]

In [None]:
# only one index ⇒ one-dimensional array
y[2]

In [None]:
# other axis: (: alone means the whole axis)
y[:, 3]

In [None]:
# inspecting the number of elements per axis:
y.shape

In [None]:
y3d = np.arange(30).reshape((5,3,2))
print(y3d)

In [None]:
# Ellipsis object: https://docs.python.org/dev/library/constants.html#Ellipsis
y3d[...,0]

### Napisywanie elementów tablicy

In [None]:
y

In [None]:
y[:, 3] = 0
y

'Slicing' z obydwu stron

In [None]:
y[:,0] = x[3:7]
y

Transpozycja

In [None]:
y

In [None]:
y.shape

In [None]:
y.T

In [None]:
y.T.shape

### Wykorzystanie mask

Tablica wypełniona wartościami logicznymi może być wykorzystana do dostępu do wybranych wartości i w innej tablicy.

In [None]:
a = np.linspace(0, 2, 11)
b = np.random.normal(0, 1, 11)
print(a)
print(b)
print(b >= 0)
print(a[b >= 0])

In [None]:
a[b < 0] = 0
a

In [None]:
x = np.arange(3000,7000,0.01)
period = 100
y = np.sin(2*np.pi/period * x)

plt.plot(x,y)

In [None]:
mask= (x > 5000) & (x < 6000)
x_part = x[mask]
y_part = y[mask]
plt.plot(x_part, y_part)

### Liczby losowe
* wiele wbudowanych rozkładów

In [None]:
np.random.uniform(0, 1, 5)

In [None]:
np.random.normal(5, 10, 5)

In [None]:
np.random.normal()

### Obliczanie wartości liczby $\pi$ przez symulację [Monte Carlo](https://en.wikipedia.org/wiki/Monte_Carlo_method)


* Losujemy z rozkładu jednostajnego liczby w kwadracie (-1,1)
* Zliczamy punkty, które są w kole o promieniu 1

Pole powierzchni kwadratu to:

$$
A_\mathrm{square} = a^2 = 4
$$

Pole powierzchni koła to:
$$
A_\mathrm{circle} = \pi r^2 = \pi
$$

Więc 
$$
\frac{n_\mathrm{circle}}{n_\mathrm{square}} = \frac{A_\mathrm{circle}}{A_\mathrm{square}}
$$
Możemy wyznaczyć wartość $\pi$:

$$
\pi = 4 \frac{n_\mathrm{circle}}{n_\mathrm{square}}
$$

In [None]:
n_square = 1000 # From 1000 to 100000000

x = np.random.uniform(-1, 1, n_square)
y = np.random.uniform(-1, 1, n_square)
plt.figure()
plt.scatter(x,y)

In [None]:
radius = np.sqrt(x**2 + y**2)
radius[:10]

In [None]:
np.sum(radius <= 1.0)

In [None]:
n_square = 1000000 # From 1000 to 100000000

x = np.random.uniform(-1, 1, n_square)
y = np.random.uniform(-1, 1, n_square)

radius = np.sqrt(x**2 + y**2)

n_circle = np.sum(radius <= 1.0)

print(4 * n_circle / n_square)

## Zadanie 2.

1. Wylosuj 100000 próbek z rozkładu Gaussa, o średniej $\mu = 2$ i odchyleniu standardowym $\sigma = 3$.
2. Oblicz średnią i odchylenie standardowe w wylosowanej próbie.
3. Jaki procent próbek znajduje się poza przedziałem $[\mu - \sigma, \mu + \sigma]$?
4. Ile próbek jet większych od zera $> 0$?
5. Wyznacz odchylenie standardowe i średnią dla próbek ${} > 0$


In [None]:
y = np.random.normal(2, 3, 10000)

Wizualne sprawdzenie

In [None]:
x = np.linspace(-20,20, 1000)

In [None]:
def gaussian(x, mu, sigma):
    return((1./(sigma*np.sqrt(2*math.pi)))*np.exp(-(x-mu)**2/(2*sigma**2)))

In [None]:
plt.hist(y, bins=100, density=True)
plt.plot(x, gaussian(x,2,3))
plt.axvline(x=2,color='r');

## Zadanie 3.

Propagowanie błędu wykorzytując metodę Monte Carlo. 

* Stała Hubble'a zmierzona przez PLANCKa to
$$
H_0 = (67.74 \pm 0.47)\,\frac{\mathrm{km}}{\mathrm{s}\cdot\mathrm{Mpc}}
$$

* Wyznacz średnią i niepewność wyznaczenia prędkości galaktyki, w przypadku której zmierzona odległość to $(500 \pm 100)\,\mathrm{Mpc}$ wykorzystując metodę Monte Carlo.

$$
v = H_0 * d
$$

### Proste IO

In [None]:
idx = np.arange(100)
x = np.random.normal(0, 1, 100)
y = np.random.normal(0, 1, 100)
n = np.random.poisson(20, 100)

In [None]:
idx.shape, x.shape, y.shape, n.shape

In [None]:
np.savetxt(
    'data.csv',
    np.column_stack([idx, x, y, n]),
)

In [None]:
!head data.csv

In [None]:
# Load back the data, unpack=True is needed to read the data columnwise and not row-wise
idx, x, y, n = np.genfromtxt('data.csv', unpack=True)

idx.dtype, x.dtype

### Problemy

* Wszystko jest float'em
* Dużo większy rozmiar niż konieczny, ponieważ wszystko jest zapisywane jako float
* Brak nazw kolumn

## Numpy recarrays

* Numpy recarrays mogą posidać kolumny róznych typów
* Do kolejnych wierszy dostęp uzysujemy przez indeks
* Do kolumn dostajemy dostęp przez nagłówki

Rozwiązanie problemu → Nazwy kolumn, różne typy

In [None]:
data = np.savetxt(
    'data.csv',
    np.column_stack([idx, x, y, n]),
    delimiter=',', # true csv file
    header=','.join(['idx', 'x', 'y', 'n']),
    fmt=['%d', '%.4g', '%.4g', '%d'],
)

In [None]:
!head data.csv

In [None]:
data = np.genfromtxt(
    'data.csv',
    names=True, # load column names from first row
    dtype=None, # Automagically determince best data type for each column
    delimiter=',',
)

In [None]:
data[0]

In [None]:
data['x']

In [None]:
data.dtype

## Algebra liniowa

Numpy zapewnia dostęp do wielu operacji algebry liniowej, główne jako wrapper  [LAPACK](http://www.netlib.org/lapack/)

In [None]:
# symmetrix matrix, use eigh
mat = np.array([
    [4, 2, 0],
    [2, 1, -3],
    [0, -3, 4]
])

eig_vals, eig_vecs = np.linalg.eig(mat)

eig_vals, eig_vecs

In [None]:
np.linalg.inv(mat)

## Typ danych - Macierz

In [None]:
mat = np.matrix(mat)

In [None]:
mat.T

In [None]:
mat * mat

In [None]:
mat * 5

In [None]:
mat.I

In [None]:
mat * np.matrix([1, 2, 3]).T

#### Rozwiązanie zadania 1.

In [None]:
def linear_regression(x, y):

    cov_matrix = np.cov(x, y)
    a = cov_matrix[0, 1] / cov_matrix[0, 0]
    b = np.mean(y) - a * np.mean(x)

    return a, b

#### Rozwiązanie zadania 2.

In [None]:
import numpy as np

numbers = np.random.normal(2, 3, 10000)

print('mean:', np.mean(numbers))
print('std:', np.std(numbers))

mask = np.logical_or(numbers <= -1, numbers >= 5)

print('Outside 1 sigma:', len(numbers[mask]) / len(numbers))

mask = numbers >= 0

print('n>0:', len(numbers[mask]))
print('mean, where x > 0:', np.mean(numbers[mask]))
print('std, where x > 0:', np.std(numbers[mask]))

#### Rozwiązanie zadania 3.

In [None]:
import numpy as np

n = 100000
h0 = np.random.normal(67.74, 0.47, n)
distance = np.random.normal(500, 100, n)

velocity = np.mean(h0 * distance)
velocity_unc = np.std(h0 * distance)

print('({:.0f} ± {:.0f}) km/s'.format(velocity, velocity_unc))