![](images/baner.png)

**Tydzień 1 - Numpy (ale najpierw listy)**

Podstawą wszystkich obliczeń na komputerze są... liczby.
Rzadko kiedy operujemy jednak na pojedynczych liczbach, z reguły pracujemy na całych tablicach/wektorach liczb.
Do tego właśnie służy `numpy`.

Ktoś mógłby zapytać _co złego jest w wbudowanym typie `list`_.
Zacznijmy od przyjrzenia mu się bliżej.

## Listy przypomnienie

### Tworzenie listy

In [1]:
l = [1, 2, 3] 
l

[1, 2, 3]

In [2]:
type(l), l[0], l[-1], len(l), sum(l)

(list, 1, 3, 3, 6)

Lista może mieć w sobie elementy różnych typów: 

In [3]:
l2 = [1, "a", "0"]

In [4]:
l2

[1, 'a', '0']

Indeksowanie elementów listy

In [6]:
l2[0]

1

In [7]:
l2[:]

[1, 'a', '0']

In [8]:
l2[-1]

'0'

In [5]:
l2[0], l2[:], l2[-1]

(1, [1, 'a', '0'], '0')

In [9]:
l2[:2]

[1, 'a']

In [10]:
l2[2:]

['0']

Z racji, że w liście są elementy które nie wiadomo jak do siebie dodać to `sum(l2)` _rzuci_ błędem.

In [11]:
sum(l2)

TypeError: unsupported operand type(s) for +: 'int' and 'str'

Dodatkowa uwaga.
(Choć nie powinniśmy) to python pozwoli zrobić `sum([1, 2.5, 3j])`, czyli policzyć sumę listy złożonej z elementów różnych typów.

In [12]:
l3 = [1, 2.5, 3j]
for e in l3:
    print(f"Element {e} jest typu {type(e)}")
sum(l3)


Element 1 jest typu <class 'int'>
Element 2.5 jest typu <class 'float'>
Element 3j jest typu <class 'complex'>


(3.5+3j)

Warto pamiętać, że pomnożenie listy przez liczbę `int` powiela listę.

In [13]:
[0] * 5

[0, 0, 0, 0, 0]

In [15]:
[[], "a", int] * 3

[[], 'a', int, [], 'a', int, [], 'a', int]

In [14]:
[1, 2, 3] * 4

[1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3]

W tym przypadku warto zauważyć pewną subtelność, która może powodować problemy w przyszłości.
Elementami powiększonej listy będę _płytkie kopie_ elementów.

Przykład więcej pokaże:

In [16]:
ll = [[]] * 3  # lista z trzema pustymi listami
ll

[[], [], []]

In [17]:
ll[0].append(42)  # do pierwszej listy dodajemy 42
ll[0]

[42]

In [18]:
ll  # okazuje się, że wszystkie listy to tak naprawdę ta sama lista!

[[42], [42], [42]]

In [19]:
ll = [[] for _ in range(3)]

In [20]:
ll

[[], [], []]

In [21]:
ll[0].append(12)
ll

[[12], [], []]

W tym kontekście polecam zapoznać się z tymi dwoma wątkami na Stack Overflow:

- [least-astonishment-and-the-mutable-default-argument](https://stackoverflow.com/questions/1132941/least-astonishment-and-the-mutable-default-argument)
- [what-is-the-pythonic-way-to-avoid-default-parameters-that-are-empty-lists](https://stackoverflow.com/questions/366422/what-is-the-pythonic-way-to-avoid-default-parameters-that-are-empty-lists)

### Iterowanie po liście

In [22]:
print(l)

for e in l:
    print(e**2)

[1, 2, 3]
1
4
9


In [25]:
for e in enumerate(l):
    print(e)

(0, 1)
(1, 2)
(2, 3)


In [26]:
for i, e in enumerate(l):
    print(i, e**2)

0 1
1 4
2 9


Warto zaprzyjaźniać się z _list comprehension_, jest niezwykle przydatne.

In [27]:
l3 = [i**2 for i in range(10)]
l3

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

In [28]:
[i**2 for i in range(10) if i % 3 == 0]


[0, 9, 36, 81]

### Indeksowanie listy

Elementy od trzeciego do końca listy

In [30]:
l3

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

In [29]:
l3[2:]

[4, 9, 16, 25, 36, 49, 64, 81]

Elementy o indeksach od dwa (włącznie) do trzy (wyłącznie).
Warto zwrócić uwagę, że ponieważ indeksowanie `l[i:j]` zwraca listę to dostajemy **listę** jedno elementową, a nie pojedynczy element `l3[2]`.

In [33]:
l3[2]

4

In [36]:
l3[2:3]

[4]

In [37]:
l3[2:2]

[]

W pythonie istnieją indeksy ujemne, idą od końca.
W tym przypadku dostaniemy całą listę oprócz ostatniego elementu.

In [38]:
l3[:-1]

[0, 1, 4, 9, 16, 25, 36, 49, 64]

Warto pomijać redundantne indeksy jak w przypadku poniżej gdzie chcemy wziąć elementy o indeksach mniejszych od 4.

In [39]:
l3[0:4] == l3[:4]

True

Domyśle indeksowanie pozwala również na branie co któregoś elementu oraz na odwracanie listy.

In [40]:
l3[::2]

[0, 4, 16, 36, 64]

In [41]:
l3[3:8:2]  # Od elementu o indeksie do elementu o indeksie mniejszym od 8, co dwa czyli indeksy 3, 5, 7

[9, 25, 49]

In [42]:
l3[::-1]  # Wszystkie elementy co -1 czyli odwrócenie listy.

[81, 64, 49, 36, 25, 16, 9, 4, 1, 0]

## Numpy

Przypomnieliśmy sobie działanie list w pythonie.
W numpy'u podstawową _jednostką_ na jakiej będziemy operować jest `np.ndarray`, czyli _n-dimensional array_.
Możemy więc myśleć o `ndarray`'u jak o n-wymiarowej tablicy/wektorze.
Dla $n=1$ będzie to wektor, a dla $n=2$ macierz.
W ogólności takie twory nazywane są z reguły **tensorami**, ale my będziemy nazywać je arrayami, bo z tą nazwą spotkacie się częściej.

Za każdym razem gdy masz jakiś problem, zanim napiszesz na Slacku, pogoogluj. Prawdopodobnie na stack'u (StackOverflow) ktoś już miał to pytanie...
Przykładowe frazy do googla:

- _concat array horizontally numpy_
- _reverse sort numpy_
- _add dimension in front numpy_
- _zeros bool array numba_


### Podstawowe tworzenie i indeksowanie array'i

Na początku zobaczymy, że wszystko co znamy z list tutaj również zadziała.

[Dodatkowo patrz tworzenie array'i](https://numpy.org/doc/stable/user/basics.creation.html)

![](images/import_numpy.png)

In [43]:
import numpy as np

In [44]:
x = np.array([1, 2, 3])  # w ten sposób tworzymy array na podstawie pythonowej listy
x

array([1, 2, 3])

In [45]:
x[0], x[-1], len(x)

(1, 3, 3)

In [46]:
x[1:]

array([2, 3])

In [47]:
x[2:]

array([3])

In [48]:
x[::-1]

array([3, 2, 1])

In [49]:
3 in x

True

### Przydatne pola

Array ma też kilka przydatnych pól:

In [50]:
x.dtype, x.ndim  # typ danych w array'u oraz liczba wymiarów

(dtype('int64'), 1)

In [51]:
# ilość elementów listy w każdym z wymiarów
# zwróć uwagę, że jest to krotka jednoelementowa
x.shape

(3,)

### Przypadek wielowymiarowy

Teraz stwórzmy array dwuwymiarowy przez wykorzystanie funkcji [reshape](https://numpy.org/doc/stable/reference/generated/numpy.reshape.html). 

In [52]:
lr = list(range(12))
a = np.array(lr)
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

Zwróć uwagę, że docelowe wymiary podajemy jako krotkę

In [53]:
a2 = a.reshape((3, 4))
a2

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

Wywołanie metody `reshape` na `a` nie zmienia go:

In [54]:
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [55]:
a2[0, :]  # pierwszy wiersz

array([0, 1, 2, 3])

In [56]:
a2[:, 0]  # pierwsza kolumna

array([0, 4, 8])

In [57]:
a2[2, 3]  # Element z 3-go wiersza i 4-tej kolumny

11

In [58]:
a2[:, ::2]  # wszystkie wiersze i co druga kolumna

array([[ 0,  2],
       [ 4,  6],
       [ 8, 10]])

In [59]:
a2[:, 1::2]  # wszystkie wiersze i co druga kolumna od tej o indeksie 1

array([[ 1,  3],
       [ 5,  7],
       [ 9, 11]])

### Typowe sposoby tworzenia array'i

W praktyce rzadko kiedy tworzymy array'e z list pythonowych, bo to oznacza, że najpierw musimy stworzyć listę, żeby dopiero później zamienić ją na array.

Teraz poznamy najczęściej używane funkcje do tworzenia array'i.

In [60]:
np.zeros((2, 4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [61]:
np.ones((2, 3))

array([[1., 1., 1.],
       [1., 1., 1.]])

In [62]:
np.arange(10)  # zwróć uwagę, że w ostatnia liczba jest mniejsza od 10

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [63]:
np.arange(10).reshape((2, 5))

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [64]:
np.arange(2, 10, 3)  # od, do, co ile

array([2, 5, 8])

In [65]:
np.linspace(0, 5)  # koniec jest również _włączony_

array([0.        , 0.10204082, 0.20408163, 0.30612245, 0.40816327,
       0.51020408, 0.6122449 , 0.71428571, 0.81632653, 0.91836735,
       1.02040816, 1.12244898, 1.2244898 , 1.32653061, 1.42857143,
       1.53061224, 1.63265306, 1.73469388, 1.83673469, 1.93877551,
       2.04081633, 2.14285714, 2.24489796, 2.34693878, 2.44897959,
       2.55102041, 2.65306122, 2.75510204, 2.85714286, 2.95918367,
       3.06122449, 3.16326531, 3.26530612, 3.36734694, 3.46938776,
       3.57142857, 3.67346939, 3.7755102 , 3.87755102, 3.97959184,
       4.08163265, 4.18367347, 4.28571429, 4.3877551 , 4.48979592,
       4.59183673, 4.69387755, 4.79591837, 4.89795918, 5.        ])

In [66]:
np.linspace(0, 5, 5)

array([0.  , 1.25, 2.5 , 3.75, 5.  ])

In [67]:
np.array([1, 2, 3]).repeat(3)

array([1, 1, 1, 2, 2, 2, 3, 3, 3])

In [68]:
np.tile(np.array([1, 2, 3]), 3)

array([1, 2, 3, 1, 2, 3, 1, 2, 3])

In [69]:
np.random.rand(10)  # 10 liczb losowych z przedziału [0, 1)

array([0.63359743, 0.73224512, 0.80959342, 0.92153461, 0.27311182,
       0.25970235, 0.14308508, 0.61214344, 0.62586545, 0.72338144])

### Typy elementów w array'u

Choć nie padło to jeszcze wprost to widać, że wszystkie elementy array'a **są tego samego typu**, a przez to zajmuje tyle samo miejsca na dysku.
Jeżeli bardzo się postaramy to może to być najogólniejszy typ `object`, który trzyma referencje do obiektów, ale z reguły oznacza to, że gdzieś popełniliśmy błąd, przykład niżej.

Poniżej przykłady jak zmieniać typ array'a bądź wybrać go przy tworzeniu. Z reguły domyślnie jest to `int`, bądź `float`.
Kropeczka przy liczbie zawsze oznacza zmiennoprzecinkowość.

[Patrz dtype, czyli data types](https://numpy.org/doc/stable/user/basics.types.html)

In [70]:
(np.zeros(3), 
np.zeros(3, dtype=int), 
np.zeros(3, dtype=bool), 
np.zeros(3, dtype=np.uint16), 
np.zeros(3, dtype=complex))

(array([0., 0., 0.]),
 array([0, 0, 0]),
 array([False, False, False]),
 array([0, 0, 0], dtype=uint16),
 array([0.+0.j, 0.+0.j, 0.+0.j]))

In [71]:
x = np.zeros(3)
x[0] = 12
x[2] = -1
x.astype(np.float16)

array([12.,  0., -1.], dtype=float16)

In [73]:
qq = np.arange(5)
qq

array([0, 1, 2, 3, 4])

In [75]:
qq.dtype

dtype('int64')

In [77]:
1/2

0.5

In [76]:
qq / 2

array([0. , 0.5, 1. , 1.5, 2. ])

Znowu, oryginalny `x` nie został zmodyfikowany.

In [78]:
x

array([12.,  0., -1.])

Zwróć uwagę, że takie działanie może powodować [klasyczny overflow](https://pl.wikipedia.org/wiki/Przekroczenie_zakresu_liczb_ca%C5%82kowitych)!

In [79]:
x.astype(np.uint8)

array([ 12,   0, 255], dtype=uint8)

$1 \cdot 10^{100}$

In [80]:
x = np.array([1e100])
x, x.astype(np.float16)

(array([1.e+100]), array([inf], dtype=float16))

In [81]:
np.array(["ala", 2, int])

array(['ala', 2, <class 'int'>], dtype=object)

### Nibyliczby specjalne

Warto wiedzieć, że taki powyższy `np.inf` (ang. infinity) też jest liczbą tylko specjalną.
Oprócz niego jest jeszcze `np.nan` czyli _not a number_.
W ogólności jest to część standardu IEEE 754 mówiącego o tym jak powinny zachowywać się liczby zmiennoprzecinkowe. Takie same zachowania dostaniesz w każdym innym języku programowania (no tak mniej więcej).

In [None]:
a = np.inf
a, a*5, a-4, a*0, -a, a+2, a-a

**Uwaga!!!** Nan nanowi nie równy

[Tu miał być mem z kaszką NAN ale nes*** nie wyszło z rosji]

In [None]:
np.nan == np.nan, np.nan != np.nan, np.nan < np.nan, np.nan >= np.nan

### Operacje na array'ach

Ok, umiemy tworzyć i indeksować array'e, ale po co?
Otóż żeby coś na nich liczyć!

To co odróżnia array'e od list to ich **zwektoryzowanie**!
To oznacza, że zapominamy o pętlach i od teraz dokonujemy operacji na całych array'ach!


In [82]:
x = np.arange(4)
x

array([0, 1, 2, 3])

In [83]:
x * 2

array([0, 2, 4, 6])

In [84]:
x ** 2

array([0, 1, 4, 9])

In [85]:
np.sin(x)

array([0.        , 0.84147098, 0.90929743, 0.14112001])

Co ważne (z punktu widzenia wydajności) to array'e numpy'owe _żyją_ jako tablice w C.
Wykonanie operacji `y = x * 2` oznacza wymnożenie tablicy przez 2 w C i dopiero później przekazanie wyniku do pythona.

Dzięki temu numpy jest równie szybki jakby napisać:

```c
int x[10];
int y[10];
for (int i=0; i<10; i++)
    x[i] = i;
for (int i=0; i<10; i++)
    y[i] = x[i] * 2;
```

Tylko _troszkę_ bardziej przyjemny w obsłudze :)

![](images/cpp_numpy.jpg)

## Zaawansowane tricki i sztuczki

Domyślam się, że nie jesteś na tym kursie żeby poznać same podstawy, na pewno interesują Cię jakieś smaczki i subtelności które pokażą, że jesteś sprawnym użytkownikiem numpy'ia!

### `np.r[]` czyli nie chce pamiętać `np.array`, `np.arange`, `np.linspace` i innych.

Gdy piszesz dużo w numpy, starasz się znajdywać skróty, jednym z nich jest `np.r_[]` oraz `np.c_[]` (od row i column).

W podstawowej formie zastępuje `np.array`:

In [None]:
np.r_[0, 1, 2]

Ale również arange:

In [None]:
np.r_[:3], np.r_[3:7:2]

Oraz linspace! Zwróć uwagę, że technicznie rzecz biorąc, ostatnia liczba w range'u to `n` jednostek urojonych :D

In [None]:
np.r_[0:5:4j], np.r_[0:5:11j]

To nie wszystko, możemy od razu łatwo tworzyć macierze!

In [None]:
np.c_[[0, 1], [2, 3]]

hstack

In [None]:
x = np.r_[:3]
np.r_[x, x], np.c_[x, x]

In [None]:
np.r_[:3, :5, :3]

### Nie chce mi się liczyć ostatniego wymiaru...

Czasem przy reshapowaniu nie chce nam się liczyć ostatniego wymiaru, który jest _oczywisty_ , bo wychodzi z innych. Na to też jest trick.

In [None]:
# automatycznie zostało wyliczone 111//3 == 37 i wstawione za -1
np.arange(111).reshape((3, -1)) 

## Nie weszło na sprint ale może się przydać...

Oczywiście nie jest to pełny opis możliwości numpy'a, ale warto sprawdzić w razie potrzeb:

- [Widoki vs kopie](https://numpy.org/doc/stable/user/basics.copies.html)
- Operacje inplace, zmieniające array'a
- `np.linalg` - rozkłady macierzy, wartości własne itd.
- `np.fft` - szybka transformata Fouriera
- `np.random` - różne rozkłady oraz generatory liczb losowych
- `np.polynomial` - praca z wielomianami
- `np.histogram` - histogram ale same liczby
- `np.einsum` - **super** sprytne obliczenia na tensorach
- [Praca z plikami](https://numpy.org/doc/stable/user/how-to-io.html)
- [Poradnik dla matlabowców](https://numpy.org/doc/stable/user/numpy-for-matlab-users.html)

## Do pracy domowej

W przypadku zadania z Monte Carlo zacznij od oszacowania liczby $\pi$ :)

Kilka linków które mogą się przydać:

- https://www.geeksforgeeks.org/estimating-value-pi-using-monte-carlo/
- https://www.youtube.com/watch?v=WAf0rqwAvgg

Poniżej znajdziesz więcej zdań do poćwiczenia.
Odpowiedzi z podpunktów 5 i 9 umieść w google formsie.

Korzystając z następującego array'a:

In [None]:
np.random.seed(1337)
x = np.round(np.random.normal(size=30), 2)
y = x + np.round(np.random.normal(size=30) * 0.1, 2)
x

Wyznacz/policz:

1. Średnią z `x`
2. Sumę `x`
3. Średnią z wartości bezwzględnych z `x`
4. Element najbardziej odległy od $0$ z `x`
5. Element najbardziej odległy od $2$ z `x`
6. Array który ustawi elementy mniejsze od $-1$ na $-1$, a większe od $1$ na $1$
7. Średni błąd między (ERR) `x` i `y`
8. Średni błąd bezwzględny (MAD) między `x` i `y`
9. Średni błąd kwadratowy (MSE) między `x` i `y`
10. Pierwiastek ze średniego błędu kwadratowego (RMSE) między `x` i `y`

Napisz funkcję `standardize(X)`, która unormuje każdą kolumnę macierzy `X` (każdą oddzielnie).
Średnia z każdej kolumny powinna być równa $0$, a odchylenie standardowe równe $1$.
Jest to procedura bardzo często stosowana w MLu.