# NumPy
***
## Wstęp
`NumPy` jest jedną z podstawowych bibliotek wykorzystywanych w analizie danych w Pythonie. Zaletą `NumPy` jest wsparcie dla dużych, wielowymiarowych tablic i macierzy oraz mnóstwo zaimplementowanych funkcji matematycznych. 

`NumPy` rozwiązuje również problem wydajności standardowych operacji matematycznych w Pythonie. Został zaimplementowany w `C` i `Fortran`, dzięki czemu efektywność operacji została przeniesiona na inny poziom. Wydajność operacji w `numpy` jest zbliżona do tej z `MATLAB`, ale osiągamy ją pracując w środowisku pełnoprawnego języka programowania.

## Instalacja

Aby zainstalować `NumPy`, musimy skorzystać z jednego z managerów pakietów:

```
pip install numpy
conda install numpy
```

## Hello World
Standardowo, importujemy `NumPy` jako `np` i ilekroć w tutorialu pojawia się wywołanie `np.<cokolwiek>` to prawdopodobnie chodzi o `NumPy`.


In [1]:
import numpy as np
np.version.version

def pure_python(n):
    # suma w dwóch list
    X = range(n)
    Y = range(n)
    Z = [X[i] + Y[i] for i in range(n)]

def pure_numpy(n):
    # suma dwóch jednowymiarowych macierzy numpy
    X = np.arange(n)
    Y = np.arange(n)
    Z = X + Y

%timeit pure_python(100_000)
%timeit pure_numpy(100_000)

21.8 ms ± 361 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
117 µs ± 3.72 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


# Podstawy
***
Główną klasą, na której operujemy w `numpy` jest tablica elementów (najczęściej liczb), tego samego typu, indeksowana tuplą zawierającą liczby naturalne. Wymiary w `ndarray` nazywane są `axes`.

Przykładowo, tablica `[1,2,3]` ma jeden wymiar i mówimy, że ma długość 3. Przykładem tablicy dwuwymiarowej jest:
```
[[1,2,3],
 [4,5,6]]
```
O tej tablicy możemy powiedzieć, że pierwsza oś (`axis`) ma długość 2, a druga ma długość 3. Czasami, na `numpy.ndarray` używa się aliasu `numpy.array`, ale w praktyce warto odwoływać się wprost do `numpy.ndarray`.

Najważniejszymi atrybutami `ndarray` są:

`ndarray.ndim` - liczba wymiarów tablicy,
`ndarray.shape` - wymiary tablicy,
`ndarray.size` - liczba elementów w tablicy (iloczyn wymiarów),
`ndarray.dtype` - obiekt opisujący typ elementów tablicy,
`ndarray.itemsize` - rozmiar pojedynczego elementu w pamięci.
## Przykłady

In [2]:
a = np.arange(15).reshape(3,5)  # macierz o 3 wierszach i 5 kolumnach
print(a)  # macierz
print(a.shape)  # wymiar macierzy
print(a.dtype.name)  # typ danych w macierzy
print(a.itemsize)  # długość w bajtach jednego elementu
print(a.size)  # liczba elementów w macierzy
print(type(a))  # typ obiektu

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
(3, 5)
int64
8
15
<class 'numpy.ndarray'>


# Tworzenie tablic
***

## Tworzenie tablic na podstawie danych

In [3]:
a = np.array([1,2,3]) #lista jest tutaj niezbędna. Bez nawiasów kwadratowych nie zadziała!
print(a)
print(a.dtype)
b = np.array([1.,2.,3.,4.])
print(b.dtype)
c = np.array([(1,2,3), (4,5,6)])
print(c)
d = np.array([1,2,3], dtype=np.int32)
print(d.dtype)

[1 2 3]
int64
float64
[[1 2 3]
 [4 5 6]]
int32


## Tworzenie tablic - placeholderów

In [5]:
print(np.zeros((3,4)))
print(np.ones((2,3,4), dtype=np.int16))
print(np.empty((2,3)))
print(np.full((9), 3, dtype=np.int32))

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
[[[1 1 1 1]
  [1 1 1 1]
  [1 1 1 1]]

 [[1 1 1 1]
  [1 1 1 1]
  [1 1 1 1]]]
[[1.39069238e-309 1.39069238e-309 1.39069238e-309]
 [1.39069238e-309 1.39069238e-309 1.39069238e-309]]
[3 3 3 3 3 3 3 3 3]


## Tworzenie tablic - sekwencji

In [6]:
print(np.arange(10, 40, 5))  # start, stop, step
print(np.arange(0, 2, 0.3))
np.linspace(0,2,9) # linspace(a,b,c) zwraca c wartości z przestrzeni (a,b)
x = np.linspace(0, 2*np.pi, 100)
f = np.sin(x)
print(f)

[10 15 20 25 30 35]
[0.  0.3 0.6 0.9 1.2 1.5 1.8]
[ 0.00000000e+00  6.34239197e-02  1.26592454e-01  1.89251244e-01
  2.51147987e-01  3.12033446e-01  3.71662456e-01  4.29794912e-01
  4.86196736e-01  5.40640817e-01  5.92907929e-01  6.42787610e-01
  6.90079011e-01  7.34591709e-01  7.76146464e-01  8.14575952e-01
  8.49725430e-01  8.81453363e-01  9.09631995e-01  9.34147860e-01
  9.54902241e-01  9.71811568e-01  9.84807753e-01  9.93838464e-01
  9.98867339e-01  9.99874128e-01  9.96854776e-01  9.89821442e-01
  9.78802446e-01  9.63842159e-01  9.45000819e-01  9.22354294e-01
  8.95993774e-01  8.66025404e-01  8.32569855e-01  7.95761841e-01
  7.55749574e-01  7.12694171e-01  6.66769001e-01  6.18158986e-01
  5.67059864e-01  5.13677392e-01  4.58226522e-01  4.00930535e-01
  3.42020143e-01  2.81732557e-01  2.20310533e-01  1.58001396e-01
  9.50560433e-02  3.17279335e-02 -3.17279335e-02 -9.50560433e-02
 -1.58001396e-01 -2.20310533e-01 -2.81732557e-01 -3.42020143e-01
 -4.00930535e-01 -4.58226522e-01 -5.1367

In [11]:
x = np.arange(10, 40, 5)
x[x < 30]

array([10, 15, 20, 25])

## Podobne funkcje
```
np.zeros_like, 
np.ones_like, 
np.empty, 
np.empty_like, 
np.random.rand
```
***

# Podstawowe operacje

Operacje arytmetyczne na tablicach dotyczą elementów na odpowiednich indeksach. Zwracana jest nowa tablica wynikowa. Ta zasada dotyczy również operatora `*`, który w przeciwieństwie do `MATLAB` nie służy do mnożenia macierzy, a do mnożenia elementów. Operatorem służącym do mnożenia macierzy jest operator `@`, ale znacznie częściej używa się zapisu `A.dot(B)`.

In [None]:
A = np.array([1, 2, 3, 4])
B = np.array([10, 20, 30, 40])
C = A - B  
D = A * B
E = B ** 2
F = 10*A
G = B < 25
H = A @ B
H = A.dot(B)

Skrócone operatory podstawienia `+=`, `-=` itd. działają "w miejscu" i nie zwracają nowego obiektu.

In [None]:
A += 3

Część operacji unarnych również jest zaimplementowana i dostępna w `ndarray`.

In [None]:
a = np.ones((2,3))
a.sum()
a.min()
a.max()
a.mean() #Uwaga - NIE MA a.avg()

Mamy również dostęp do mniej oczywistych metod. Wszystkie dostępne metody znajdują się w [dokumentacji](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.html).

In [None]:
a = np.array([1,10,2,3,-5-10])
a.argmax()
a.argmin()
a.argsort()  # indeksy posortowane według rosnącej wartości
a.cumprod()  # kumulatywny iloczyn
a.cumsum()  # kumulatywna suma

***
# Przydatne funkcje

`NumPy` zawiera oprócz API do tablic wielowymiarowych również zestaw często używanych funkcji.

In [None]:
B = np.arange(3)
C = np.exp(B)
D = np.sqrt(B)
E = np.add(B, B)

Ponadto:
```
np.average
np.maximum
np.mean
np.median
np.sort
```

## Indeksowanie, cięcie i iterowanie

Tablice jednowymiarowe mogą być indeksowane, cięte i iterowane tak jak listy w Pythonie.

In [None]:
a = np.arange(10)**3
a[2]
a[2:5]
a[:6:2] = -1000

def f(x,y):
    return 10*x+y

b = np.fromfunction(f, (5,4), dtype=int)
print(b)
b[2,3]
b[1:3, :]
b[-1] # brakujące indeksy są uzupełniane : - pełnym cięciem (complete slice)

Brakujące indeksy mogą być wskazane przy użyciu `...`. Przykładowo dla pięciowymiarowej tablicy `x`, `x[3,...]` odpowiada `x[3,:,:,:,:]`, a `x[...,3]` odpowiada `x[:,:,:,:,3]`.

Iterowanie odbywa się po kolejnych osiach. Aby przeiterować po wszystkich elementach, należy skorzystać z `ndarray.flat`.

In [None]:
for row in b:
    print(row)
    
for element in b.flat:
    print(element)

***
# Praca z wymiarami tablicy

Kształt tablicy to krotka przechowująca na `i` pozycji liczbę elementów w osi `i`.

In [None]:
a = np.floor(10*np.random.random((3,4)))
print(a)
a.shape

Wymiary tablicy mogą zostać zmodyfikowane na kilka sposobów. Kluczowe jest, aby pamiętać, że metody te zwracają nową tablicę na podstawie starej, a nie modyfikują istniejącą. Nie dotyczy to metody `resize`, która działa w miejscu (ang. in-place).

In [None]:
a.ravel()  # spłaszczenie wymiarów
a.reshape(6,2)  # zmiana wymiarów
a.T  # transpozycja
a.T.shape
a.shape

In [None]:
print(a)
a.resize((2,6))
print(a)

W metodzie `reshape`, możemy podać jako jeden z argumentów `-1`. Wówczas zostanie on wyliczony na podstawie pozostałych argumentów.

Zadanie 7: Convert a 1D array to a 2D array with 2 rows

## Łączenie różnych tablic

In [None]:
a = np.floor(10*np.random.random((2,2)))
print(a)
b = np.floor(10*np.random.random((2,2)))
print(b)
c = np.vstack((a,b))
print(c)
d = np.hstack((a,b))
print(d)

## Kopiowanie tablic

In [None]:
a = np.arange(10)
b = a
b is a
c = a.view()
d = a.copy()


***
# Algebra Liniowa
`NumPy` zawiera wsparcie dla funkcji znanych z algebry liniowej.

In [None]:
a = np.array([[1.0,2.0],[3.0, 4.0]])
b = a.transpose()
c = np.linalg.inv(a)
d = np.eye(2)
e = np.trace(d)
y = np.array([[5.],[7.]])
x = np.linalg.solve(a,y)

Wszystkie funkcje związane z algebrą liniową zgromadzono w [dokumentacji](https://docs.scipy.org/doc/numpy/reference/routines.linalg.html).

***
Przetwarzanie macierzy przez funkcję
----

In [29]:
arr = np.full((1000, 1000), 2)

def f(x):
    return x**2 + np.sin(x)

In [30]:
def array_for(array):
    return np.array([[f(x) for x in row] for row in array])


def array_map(array):
    return np.array([list(map(f, row)) for row in array])


def vectorize(array):
    return vf(array)

# vectorize stosuje caching, więc jest szansa, że będzie szybszy

In [31]:
%timeit array_for(arr)

3.7 s ± 76.3 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [32]:
%timeit array_map(arr)

3.73 s ± 67.8 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [33]:
%timeit vectorize(arr)

1.37 s ± 44.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


***
# Różności

In [34]:
mu, sigma = 2, 0.5
# rozkład normalny
v = np.random.normal(mu, sigma, 10_000)
# histogram rozkładu
(n, bins) = np.histogram(v, bins=50, density=True)
print(n)
print(bins)

# meshgrid = wartości z siatki
xs, ys = np.meshgrid(np.arange(-5, 5, 0.1), np.arange(-5, 5, 0.1))
print(xs, ys)

[0.00333295 0.00111098 0.         0.00222197 0.00222197 0.00999886
 0.01333181 0.01999772 0.01555378 0.04332839 0.05888217 0.08776776
 0.12665221 0.17997946 0.21997489 0.31107561 0.34996006 0.4677244
 0.62215122 0.64103795 0.6943652  0.78102197 0.76769016 0.78546591
 0.76102426 0.6943652  0.64881484 0.61437433 0.55882511 0.42883995
 0.29107789 0.26330328 0.20775407 0.12998516 0.0988776  0.07332496
 0.04888331 0.03666248 0.02221969 0.01110984 0.00777689 0.00444394
 0.00222197 0.         0.         0.         0.         0.
 0.         0.00111098]
[-8.64152266e-02  3.59504500e-03  9.36053166e-02  1.83615588e-01
  2.73625860e-01  3.63636131e-01  4.53646403e-01  5.43656675e-01
  6.33666946e-01  7.23677218e-01  8.13687489e-01  9.03697761e-01
  9.93708033e-01  1.08371830e+00  1.17372858e+00  1.26373885e+00
  1.35374912e+00  1.44375939e+00  1.53376966e+00  1.62377993e+00
  1.71379021e+00  1.80380048e+00  1.89381075e+00  1.98382102e+00
  2.07383129e+00  2.16384156e+00  2.25385184e+00  2.3438621

In [36]:
# wczytywanie danych z pliku csv
iris = np.genfromtxt('ml-throwdown-datasets/iris.csv', delimiter=',')[1:, :-1]
iris[:5]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2]])

In [40]:
# np.nan
a = np.array([0])
b = np.array([0])
result = a / b
print(result == np.nan)  # False
print(np.isnan(result)) # True

[False]
[ True]


  after removing the cwd from sys.path.


***
# Zadania


### Zadanie 1
Stwórz funkcję, zwracającą tablicę, zawierającą część wspólną dwóch `ndarray`.

### Zadanie 2
Stwórz funkcję, zwracającą tablicę, zawierającą te elementy, które występują w obu tablicach na tych samych indeksach.

### Zadanie 3
Stwórz funkcję, zwracającą tablicę, zawierającą wartości z zakresu (a,b) z innej tablicy.

### Zadanie 4
Stwórz tablicę o wymiarach `3x3` wypełnioną losowymi wartościami z przedziału `[1,2)` i wyświetl ją z dokładnością do dwóch cyfr po przecinku.

### Zadanie 5
Napisz funkcję, która zwróci n największych wartości z tablicy.

### Zadanie 6
Policz korelację między poszczególnymi cechami w zbiorze Iris.

### Zadanie 7
Sprawdź, czy którakolwiek z kolumn w zbiorze Glass zawiera wartość `NaN`.

### Zadanie 8
Zastąp losowe wartości ze zbioru Iris wartością `np.nan`, a następnie napisz funkcję, która w każdej kolumnie, zastąpi wartości `np.nan` średnią lub inną agregacją, którą zaproponujesz.

### Zadanie 9
Znajdź liczbę unikalnych wartości w tablicy i w poszczególnych kolumnach.

### Zadanie 10
Napisz funkcję, która jako argument przyjmie wartość `u` z przedziału `(0,1)` oraz tablicę, a zwróci `(train, test)` takie, że `train.size/test.size = u`.

### Zadanie 11
Znajdź wartość dominującą w zbiorze Iris.