![image.png](attachment:c43b4530-a840-4e0a-a1f2-74ca2b0ec903.png)

## Wstęp

[Numpy](https://numpy.org/) (ang. **Num**erical **py**thon) - pythonowa biblioteka do obliczeń numerycznych. Jest jedną z najczęściej wykorzystywanych bibliotek w Pythonie. Ze względu na bardzo wysoką wydajność obliczeniową (czyli szybkość obliczeń) korzysta z niej wiele innych popularnych bibliotek w pythonie takich jak: scikit-learn, scipy, seaborn, matplotlib, pandas, tensorflow, openCV, ... 

![image.png](attachment:43ad3ea3-3a9b-4253-8c7e-e9928758dafa.png)

(źródło: https://numpy.org/)

Jest tak powszechna w data science, że w nomenklaturze na określenie stosowanego w pythonie stacku technologicznego data science ukuty został termin NumPy-stack. 

Po co uczyć się biblioteki numpy?
1. Numpy stanowi rdzeń większości bibliotek pythona do data science i tym samym jest z nimi kompatyblina.
2. W odrożnieniu od Matlab, Mathemtica i Maple, biblioteka Numpy należy do rodziny wolnego oprogramowania
3. Numpy zawiera wiele wyspecjalizowanych funkcji matematycznych w tym z algebry liniowej, analizy fourierowskiej i innych.
4. Numpy jest bardzo szybka, rdzeń biblioteki jest świetnie zoptymalizowany i zaimplementowany w języku C.
5. Jest narzędziem względnie prostym, a jednocześnie dojrzałym (pierwsza wersja biblioteki numpy powstała w 2005)

## Instalacja biblioteki

Na [oficjalnej stronie](https://numpy.org/) biblioteki numpy możemy znaleźć [instrukcje instalacji](https://numpy.org/install/). Istnieje kilka sposobów instalacji. Twórcy numpy zalecają tylko dwa z nich:
* za pomocą menadżera pakietów pythona **conda** $\Rightarrow$ `conda install numpy`
* za pomocą menadżera pakietów pythona **pip** $\Rightarrow$ `pip install numpy`

Importowanie biblioteki

In [1]:
# importujemy bibliotekę i sprawdzamy jej wersje
import numpy as np

np.__version__

'1.26.4'

Zobaczmy co zawiera biblioteka.

In [2]:
# zawartość bibiloteki numpy
print(dir(np))



Podstawową klasą używaną w numpy jest `ndarray` (*ang. n-dimensional array*).

In [3]:
# klasa `ndarray`
np.ndarray

numpy.ndarray

## Podstawowe właściwości klasy ndarray

Obiekty klasy `ndarray` nazywane są potocznie tablicami numpy (*ang. numpy array*), tablicami (*ang. array*) lub wektorami (*ang. vector*). 

Twórcy numpy nie zalecają bezpośredniego inicjalizowania obiektów klasy `ndarray`. Zamiast tego udostęniają rodzinę funkcji fabrykujących (takich tak `np.array`, `np.zeros`, ...), które odpowiadają za tworzenie obiektów klasy `ndarray`. Na początku popatrzmy na funkcję `np.array`.

Obiekty klasy ndarray (czyli tablice numpy) możemy tworzyć za pomocą funkcji np.array. Funkcja `np.array` jako parametr przyjmuje najczęściej listę (ale możemy przekazywać też różne inne typy- o tym później), a zwraca zainicjalizowany obiekt klasy ndarray o wartości odpowiadającej wartości przekazanej listy.

In [4]:
# Tworzenie obiektu klasy `ndarray` za pomocą funkcji `np.array'.
list_of_numbers = [5, 35, 13, 21, 8]
vector = np.array(list_of_numbers)
vector

array([ 5, 35, 13, 21,  8])

A co potrafią obiekty klasy `ndarray` ?

In [5]:
# co potrafi klasa `ndarray`?
print(dir(vector))

['T', '__abs__', '__add__', '__and__', '__array__', '__array_finalize__', '__array_function__', '__array_interface__', '__array_prepare__', '__array_priority__', '__array_struct__', '__array_ufunc__', '__array_wrap__', '__bool__', '__class__', '__class_getitem__', '__complex__', '__contains__', '__copy__', '__deepcopy__', '__delattr__', '__delitem__', '__dir__', '__divmod__', '__dlpack__', '__dlpack_device__', '__doc__', '__eq__', '__float__', '__floordiv__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__getstate__', '__gt__', '__hash__', '__iadd__', '__iand__', '__ifloordiv__', '__ilshift__', '__imatmul__', '__imod__', '__imul__', '__index__', '__init__', '__init_subclass__', '__int__', '__invert__', '__ior__', '__ipow__', '__irshift__', '__isub__', '__iter__', '__itruediv__', '__ixor__', '__le__', '__len__', '__lshift__', '__lt__', '__matmul__', '__mod__', '__mul__', '__ne__', '__neg__', '__new__', '__or__', '__pos__', '__pow__', '__radd__', '__rand__', '__rdivmod__',

Wśród dostępnych atrybutów mamy, np. kształt. 

O pozostałych polach tablicy numpy powiemy sobie za chwilę.

Na tablicach numpy działa wiele funkcji biblioteki numpy, np. funkcja `np.shape`.

In [6]:
# sprawdzenie kształtu tablicy n1
vector.shape

(5,)

Zanim zaczniemy poznawać szczegóły biblioteki numpy, zastanówmy się po co jej w ogóle używać. Czy nie wystarczą nam listy pythonowe? Przecież to co zrobiliśmy powyżej możemy równie dobrze zrobić za pomocą zwykłych list.

In [7]:
# To samo za pomocą listy pythonowej
len(list_of_numbers)

5

### Lista vs ndarray

Jest kilka powodów, dla których moglibyśmy chcieć użyć `ndarray` zamiast list:
    
1. obiekty klasy ndarray potrafią znacznie więcej rzeczy niż zwykłe pythonowe listy 
2. ndarray są znacznie szybsze od list

Wyświetlając zawartość biblioteki numpy oraz atrybuty obiektu ndarray zobaczyliśmy, że punkt 1 jest prawdziwy. Spójrzmy jeszcze na konretny przykład. 

Dodawanie 'po współrzędnych' (*ang. element-wise addition*) czasami nazywane 'dodawaniem zwektoryzowanym' to dodawanie do siebie dwóch kolekcji poprzez dodawanie do siebie takich elementów tych dwóch kolekcji, które znajdują się na odpowiadających sobie pozycjach:


#### <center>$[ 1, 2, 3, 4, 5] + [6, 7, 8, 9,10] = [1+6, 2+7, 3+8, 4+9, 5+10] = [7, 9, 11, 13, 15]$</center>

Jak zrobilibyśmy to za pomocą zwykłych list?

In [8]:
# Tworzymy dwie listy pythonowe
l1 = [1, 2, 3, 4, 5]
l2 = [6, 7, 8, 9, 10]

Operator `+` na listach jest operatorem konkatencji, więc użycie go tutaj nic nam nie pomoże.

In [9]:
# Konkatenujemy dwie stworzone liczy
result = l1 + l2
print(result)

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]


Używając list jesteśmy zmuszeni takie dodawanie po współrzędnych zaimplementować samodzielnie.

In [10]:
# Sumujemy (po współrzędnych) stworzone listy
result = []

for item in zip(l1, l2):
    sum_ = item[0] + item[1]
    result.append(sum_)

result

[7, 9, 11, 13, 15]

W odróżnieniu od list, operator `+` w działaniu na tablicach numpy pełni rolę właśnie operatora dodawania po współrzędnych.

In [11]:
# Tworzymy i sumujemy (po współrzędnych) dwie tablice numpy
n1 = np.array(l1)
n2 = np.array(l2)

result = n1 + n2
result

array([ 7,  9, 11, 13, 15])

Ale wobec tego, co gdybyśmy chcieli 'skonkatenować' ze sobą dwie tablice numpy? 

Używamy funkcji `np.concatenate`.

In [13]:
# Konkatenujemy dwie stworzone tablice numpy
result = np.concatenate([n1, n2])
result

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

Podsumowując, tablice numpy umieją robić znacznie więcej rzeczy niż pythonowe listy. A jak jest z tą wydajnością obliczeniową?

### Benchmarking (analiza porównawcza)

Dodamy teraz do siebie "po współrzędnych" dwie 1000-elementowe listy pythonowe oraz dwie 1000-elementowe tablice numpy i porównamy czas, potrzebny na wykonanie tych operacji.

Do porównywania czasu wykonywania fragmentów kodu w pythonie najczęściej wykorzystuje się znajdującą się w standardowej bibliotece pythona, bibliotekę `timeit`.

In [14]:
# Importujemy timeit
import timeit

In [17]:
# kod inicjalizujący
setup_code = """
result = []
l1 = list(range(1100, 2100))
l2 = list(range(500, 1500))
"""

# kod właściwy
code = """
for item in zip(l1, l2):
    result.append(item[0] + item[1])
"""

# Puszczamy 1000 kod właściwy (poprzedzając go wykonaniem kodu inicjalizującego) i mierzymy czas wykonania każdego powtórzenia. W wyniku
# dostajemy uśrednioną po wszystkich próbach wartość.
t = timeit.timeit(code, setup=setup_code, number=1000)  # default = 1_000_000
print(t)

0.09372020000591874


Ten sam kod możemy uruchomić jeszcze w inny sposób, za pomocą dostępnej z poziomu Jupyter-a magicznej komendy `timeit`

In [18]:
# Tworzymy dwie listy pythonowe
result = []
l1 = list(range(1100, 2100))
l2 = list(range(500, 1500))

Analiza porównawcza za pomocą magicznego polecenia `timeit`.

In [20]:
%%timeit

for item in zip(l1, l2):
    result.append(item[0] + item[1])

# widzimy, że komenda została wykonana 10000 razy, a wynik uśredniony. Magiczna komenda timeit w zależności od tego 
# ile zajmuje wykonanie komendy, wykonuje ją mniej lub więcej razy. Liczbę powtórzeń dobiera dynamicznie na podstawie 
# czasu trwania pierwszych iteracji.

90.1 µs ± 3.82 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


A jak to będzie wyglądało z wykorzystaniem tablic numpy?

In [21]:
# Tworzymy dwie tablice numpy
n1 = np.array(l1)
n2 = np.array(l2)

Analiza porównawcza za pomocą magicznego polecenia `timeit`.

In [22]:
%%timeit

result = n1 + n2

1.24 µs ± 17.6 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)


Widzimy, że z użyciem tablic numpy kod wykonał się około 100 razy szybciej. To jest ogromna różnica. 

Wyobraźmy sobie, że użytkownik musi czekać 0.5 sekundy na odpowiedź. Raczej tego nie zauważy. A 50 sekund? Raczej boleśnie odczuje. A wraz ze wzrostem wielkości zbioru danych ta różnica będzie się tylko powiększała.

Biblioteka numpy swoją popularność zawdzięcza właśnie tablicom numpy. W związaku z tym poznajmy je lepiej.

---

Poznawanie biblioteki numpy zaczniemy od przypadku jednowymiarowego. Z czasem będziemy zwiększać liczbę wymiarów.

Jednowymiarową tablicę numpy będziemy nazywali `wektorem`.

### Praca z wektorami

#### Tworzenie wektorów

Podstawową funkcją do tworzenia wektorów jest poznana już wcześniej funkcja `np.array`. Funkcja np.array przyjmuje na wejściu obiekt iterowalny (taki po którym można iterować, np. lista lub krotka) i zwraca obiekt klasy `ndarray`.

In [23]:
# Tworzymy 5 elementowy wektor
vector

array([ 5, 35, 13, 21,  8])

In [24]:
# Sprawdzamy typ zmiennej `vector`
type(vector)

numpy.ndarray

#### Pobieranie wartości

Obiekty klasy ndarray obsługują tradycyjne indeksowanie.

In [25]:
# Wyciągamy pierwszy element wektora
vector[0]

5

In [26]:
# Wyciągamy ostatni element wektora
vector[len(vector) - 1]

8

Wspierają negatywne indeksy.

In [27]:
# Wyciągamy ostatni element za pomocą negatywnego indeksu
vector[-1]

8

![indexing2.png](attachment:00b509d5-98b5-4e7c-a635-797623bab3a6.png)

#### Ustawianie wartości

In [29]:
# Zmieniamy wartość pierwszego i ostatniego elementu
vector[0] = 0
vector[-1] = 100

In [30]:
# Wyświetlamy zawartość wektora
vector

array([  0,  35,  13,  21, 100])

#### Inne sposoby tworzenia obiektów klasy `ndarray` - funkcja `np.arange`

Innym sposobem tworzenia obiektów klasy `ndarray` jest funkcja `np.arange`, która jest odpowiednikiem wbudowanej w pythona funkcji `range`.

In [32]:
# Tworzymy ośmio-elementowy wektor za pomocą funkcji `np.arange`
sequence_1 = np.arange(1, 9)
sequence_1

array([1, 2, 3, 4, 5, 6, 7, 8])

Funkcja `np.arange`, tak jak funkcja `range` posiada trzeci, opcjonalne parametr step.

In [34]:
# Tworzymy wektor za pomocą funkcji `np.arange` z użyciem parametry `step`.
sequence_2 = np.arange(1, 9, 3)
sequence_2

array([1, 4, 7])

Parametr `step` funkcji `np.arange`, w odróżnieniu parametru `step` funkcji `range` może przyjmować wartości typu float.

In [35]:
# Wywołanie funkcji `np.arange` z zmiennopozycyjną wartością parametru step.
sequence_3 = np.arange(1, 9, 2.5)
sequence_3

array([1. , 3.5, 6. , 8.5])

#### Zadanie 1

Za pomocą funkcji `np.arange` stwórz sześcioelementowy wektor liczb całkowitych z przedziału od 3 do 8 (włącznie).

In [37]:
# zaimportuj bibliotekę numpy i przypisz do niej alias np
import numpy as np

# użyj funkcji `np.arange` do stworzenia wektora liczb od 3 do 8 (włącznie).
vector = np.arange(3, 9)
vector

array([3, 4, 5, 6, 7, 8])

#### Zadanie 2

Zmień wartość ostatniego elementu zadanej tablicy `my_vector` na 500.

In [39]:
# import biblioteki numpy z aliasem np
import numpy as np

# definicja wektora
my_vector = np.array([5, 3, 65, 2, 11, 9])

# Zmień ostatnią wartość wektora na 500
my_vector[-1] = 500
my_vector

array([  5,   3,  65,   2,  11, 500])

#### Podstawowe operacje

Większośc dostępnych operacji na obiektach klasy `ndarray` to operacje zwektoryzowane (*ang. element-wise*)

In [40]:
# Tworzymy dwa wektory
first_vector = np.arange(1, 6)
second_vector = np.array([5, 34, 12, 21, 8])

In [48]:
first_vector

array([1, 2, 3, 4, 5])

In [49]:
second_vector

array([ 5, 34, 12, 21,  8])

In [41]:
# dodawanie wektorów
summation = first_vector + second_vector
summation

array([ 6, 36, 15, 25, 13])

Liczba elementów powinna się zgadzać.

In [43]:
# "Niedodawanie" niekompatybilnych wektorów.
third_vector = np.arange(1, 7)

second_vector + third_vector

ValueError: operands could not be broadcast together with shapes (5,) (6,) 

Chociaż nie w każdym przypadku

In [44]:
# Uzgodnienie rozmiarów
forth_vector = np.array([4])

result = second_vector + forth_vector
result

array([ 9, 38, 16, 25, 12])

Biblioteka numpy w przypadku niezgodności wymiarów próbuje je uzgodnić. Jeżeli jej się uda dostaniemy jakiś wynik. W przeciwnym razie podniesie wyjątek ValueError.

Proces uzgadniania wymiarów to tzw. *broadcasting* i niedługo omówimy go w szczegółach. 

In [45]:
# odejmowanie wektorów
difference = first_vector - second_vector
difference

array([ -4, -32,  -9, -17,  -3])

In [46]:
# mnożenie wektorów
multiplcation = first_vector * second_vector
multiplcation

array([ 5, 68, 36, 84, 40])

In [47]:
# dzielenie wektorów
division = first_vector / second_vector
division

array([0.2       , 0.05882353, 0.25      , 0.19047619, 0.625     ])

Tutaj warto zwrócić uwagę na to, że typ danych w wektorze został niejawnie zrzutowany (koercja).

Elementy `first_vector` i `second_vector` to int,  elementy division to floaty. Skoro float to problemy arytmetyki zmiennopozycyjnej.

In [50]:
# Problemy arytmetyki zmiennopozycyjnej
0.1 + 0.1 + 0.1 == 0.3

False

In [51]:
0.1+0.1+0.1

0.30000000000000004

Najlepiej zaokrąglmy. Na przykład funkcją `np.around`.

In [52]:
# Zaokrąglanie wektorów za pomocą funkcji `np.around`.
np.around(division, 3)

array([0.2  , 0.059, 0.25 , 0.19 , 0.625])

Do tematu typów danych w obiektach klasy `ndarray` zaraz wrócimy.

In [53]:
# potęgowanie wektorów
exponential = first_vector ** second_vector
exponential

array([     1,      0, 531441,      0, 390625])

#### Zadanie 3

Znajdź sumę oraz iloraz dwóch zadanych wektorów `first`, `second`. Ponadto znajdź trzykrotność kwadratu wektora `first`.

**Podpowiedź**: Aby podnieść wektor `x` do całkowitej potęgi `n` można użyć operator `**`.

In [54]:
# Import biblioteki numpy z aliasem np
import numpy as np

# Definicja dwóch wektorów
first = np.array([1, 4, 0, 10, 13, 9, 10])
second = np.array([8, 4, 9, -1, 1, 19, 99])

# suma wektorów `first`, `second`
sum_of_vectors = first + second

# iloraz wektorów `first`, `second`
first_divided_by_second = first / second

# znajdź trzykrotoność kwadratu wektora `first`
three_first_square = 3 * first ** 2

#### Popularne atrybut obiektów klasy `ndarray`

##### `dtype` - typ danych `ndarray`

W Pythonie wartość 3 lub 5.3 nie jest przechowywany jako "natywny typ danych" (np. int 32-bitowy czy double 64-bitowy). Są obiektami klas odpowiednio `int`, `float` (klas zaimplementownaych w C).

In [55]:
# Wbudowane typy w pythonie
x = 3
type(x)

int

In [57]:
# Co potrafi obiekt klasy int?
print(dir(x))

['__abs__', '__add__', '__and__', '__bool__', '__ceil__', '__class__', '__delattr__', '__dir__', '__divmod__', '__doc__', '__eq__', '__float__', '__floor__', '__floordiv__', '__format__', '__ge__', '__getattribute__', '__getnewargs__', '__getstate__', '__gt__', '__hash__', '__index__', '__init__', '__init_subclass__', '__int__', '__invert__', '__le__', '__lshift__', '__lt__', '__mod__', '__mul__', '__ne__', '__neg__', '__new__', '__or__', '__pos__', '__pow__', '__radd__', '__rand__', '__rdivmod__', '__reduce__', '__reduce_ex__', '__repr__', '__rfloordiv__', '__rlshift__', '__rmod__', '__rmul__', '__ror__', '__round__', '__rpow__', '__rrshift__', '__rshift__', '__rsub__', '__rtruediv__', '__rxor__', '__setattr__', '__sizeof__', '__str__', '__sub__', '__subclasshook__', '__truediv__', '__trunc__', '__xor__', 'as_integer_ratio', 'bit_count', 'bit_length', 'conjugate', 'denominator', 'from_bytes', 'imag', 'numerator', 'real', 'to_bytes']


W odróżenieniu do Pythona, Numpy wspiera "typy natywne". Informacja o typie elementów obiektu `ndarray` przechowywane są w atrybucie `dtype` (*ang. data type*).

In [58]:
# Typy w numpy. 32-bitowy wektor integerów
v1 = np.array([1,2,3,4])
v1.dtype

dtype('int32')

32-bitowe integery

In [59]:
# 64-bitowy wektor floatów
v2 = np.array([2.0, 3.0, 5.0])
v2.dtype

dtype('float64')

64-bitowy float

W odróżnieniu od wbudowanych list Pythonowych obiekty klasy `ndarray` muszą być jednakowego typu.

W powyższych przykładach numpy przypisał domyślne typy na podstawie klas pythonowych (`int`, `float`). Typ danych możemy narzucić podczas tworzenia obiektu klasy `ndarray`. Służy do tego parametr `dtype`.

In [60]:
# Jawne ustawianie typu danych elementom wektora (int8)
v3 = np.array([4, 12, 6, 100], dtype=np.int8)
v3

array([  4,  12,   6, 100], dtype=int8)

8-bitowy integer ze znakiem (*ang. signed integer*). 8 bitów, czyli 7 bitów na wartość bezwzględną i 1 bit na znak. 7 bitów czyli liczby z zakresu od 0 do 127.

In [64]:
# Uwaga na błąd przepełnienia zakresu (*ang. overflow*).
v3 + 28

array([  32,   40,   34, -128], dtype=int8)

Przepełenie zakresu w numpy daje efekt **obcięcia** (truncate) wartości do dostępnej liczby bitów (wartość zachowuje sie tak jakby obowiązywała ją arytmetka modulo).

In [65]:
# Przykład przepełnienie zakresu
v3 + 100

array([104, 112, 106, -56], dtype=int8)

Jeżeli przepełnienie będzie miało miejsce w definicji dostaniemy deprecation warning (w przyszłości taka operacja będzie rzucała wyjątek)

In [66]:
# Przepełnienie w definicji (int8)
np.array([30, 120, 150] , dtype=np.int8)

For the old behavior, usually:
    np.array(value).astype(dtype)
will give the desired result (the cast overflows).
  np.array([30, 120, 150] , dtype=np.int8)


array([  30,  120, -106], dtype=int8)

In [68]:
# Przepełnienie w definicji (uint8)
np.array([30, 120, 300] , dtype=np.uint8)

For the old behavior, usually:
    np.array(value).astype(dtype)
will give the desired result (the cast overflows).
  np.array([30, 120, 300] , dtype=np.uint8)


array([ 30, 120,  44], dtype=uint8)

Numpy obsługuje 19 typów danych

| Typ        | Opis                       |
| --------------------- |:---------------------------|
| bool_   | domyślny typ reprezentujący wartość logiczną prawda lub fałsz o rozmiarze 1 bajta |
| int_   | domyślny typ reprezentujący wartość całkowitoliczbową. Identyczny z typem long w C (32 lub 64-bitowy) |
| intc | typ podobny do int w C (32 lub 64-bitowy) |
| intp | typ reprezentujacy wartość całkowitoliczbową używany do indeksowania |
| int8 | typ reprezentujący 8-bitową (jeden bajt) wartość całkowitoliczbową. Zakres wartości od -128 do 127 |
| int16 | typ reprezentujący wartość 16-bitową (dwa bajty) wartość całkowitoliczbową. Zakres wartości od -32768 do 32767 |
| int32 | typ reprezentujący wartość 32-bitową (cztery bajty) wartość całkowitoliczbową. Zakres wartości od -2147483648 to2147483647 |
| int64 | typ reprezentujący wartość 64-bitową (osiem bajtów) wartość całkowitoliczbową. Zakres wartości od -9223372036854775808 do 9223372036854775807 |
| uint8 | typ reprezentujący 8-bitową (jeden bajt) wartość całkowitoliczbową bez znaku |
| uint16 | typ reprezentujący 16-bitową (dwa bajty) wartość całkowitoliczbową bez znaku |
| uint32 | typ reprezentujący 32-bitową (cztery bajty) całkowitoliczbową bez znaku |
| uint64 | typ reprezentujący 64-bitową (osiem bajtów) wartość całkowitoliczbową bez znaku |
| float_ | domyślny typ reprezentujący wartość zmiennoprzecinkową. Typ identyczny do float64 |
| float16 | typ reprezentujący wartość zmiennoprzecinkową połówkowej precyzji. 5-bitowy wykładnik, 10-bitowa mantysa + bit znaku |
| float32 | typ reprezentujący wartość zmiennoprzecinkową pojedynczej precyzji. 8-bitowy wykładnik, 23-bitowa mantysa + bit znaku |
| float64 | typ reprezentujący wartość zmiennoprzecinkową podwójnej precyzji. 11-bitowy wykładnik, 52-bitowa mantysa + bit znaku |
| complex_ | domyślny typ reprezentujący wartość zespoloną. Typ identyczny z complex 128 |
| complex64 | typ reprezentujący wartość zespoloną. 32-bitowa część rzeczywista + 32-bitowa część urojona |
| complex128 | typ reprezentujący wartość zespoloną. 64-bitowa część rzeczywista + 64-bitowa część urojona |

Zakresy poszczególnych typów danych możemy łatwo sprawdzić za pomocą funkcji `np.iinfo`, `np.finfo`.

In [70]:
# Sprawdzenie zakresu typu danych `int32` za pomocą funkcji `np.iinfo`.
print(np.iinfo(np.int32))

Machine parameters for int32
---------------------------------------------------------------
min = -2147483648
max = 2147483647
---------------------------------------------------------------



In [71]:
# Sprawdzenie zakresu typu danych `float32` za pomocą funkcji `np.finfo`.
print(np.finfo(np.float32))

Machine parameters for float32
---------------------------------------------------------------
precision =   6   resolution = 1.0000000e-06
machep =    -23   eps =        1.1920929e-07
negep =     -24   epsneg =     5.9604645e-08
minexp =   -126   tiny =       1.1754944e-38
maxexp =    128   max =        3.4028235e+38
nexp =        8   min =        -max
smallest_normal = 1.1754944e-38   smallest_subnormal = 1.4012985e-45
---------------------------------------------------------------



In [72]:
# Sprawdzenie zakresu typu danych `int8` za pomocą funkcji `np.iinfo`.
print(np.iinfo(np.int8))

Machine parameters for int8
---------------------------------------------------------------
min = -128
max = 127
---------------------------------------------------------------



Ale w większości przypadków, gdzie kwestie wydajnościowe nie są kluczowym czynnikiem możemy zostawić numpy kwestie dobrania odpowiedniego typu.

##### `size` - rozmiar (liczba elementów) `ndarray`

Rozmiarem tablicy nazywamy liczbę jej elementów.

In [None]:
# Tworzymy 4 elementowy wektor 8-bitowych intów
v4 = np.array([30, 120, -5, 100], dtype=np.int8)
v4

Przy jednowymiarowych tablicach, atrybut size działa identycznie jak wbudowana funkcja len. Różnica staje się widoczna dla większej liczby wymiarów (wrócimy do tego).

In [74]:
# Sprawdzamy wartość atrybutu `size` stworzonego wektora.
v4.size

4

##### `nbytes` - rozmiar (liczba bytów) `ndarray`

In [76]:
# sprawdźmy ile bajtów w pamięci zajmuje wektor v4
v4.nbytes

4

In [77]:
# zmieńmy typ (na int32), zawartość zostawmy niezmienioną
v5 = np.array([30, 120, -5, 100], dtype=np.int32)
v5

array([ 30, 120,  -5, 100])

In [78]:
# Sprawdźmy `size` nowego wektora 
v5.size

4

In [81]:
# Sprawdźmy `nbytes` nowego wektra
v5.nbytes

16

#### Szatkowanie (*ang. slicing*)

In [82]:
# Tworzymy nowy wektor
array = np.array([1, 1, 2, 3, 5, 8, 13, 21])

Obiekty klasy `ndarray` wspierają tradycyjne szatkowanie, znane z Pythona.

In [83]:
# Wyświetl elementy od indeksu 2 do 5 (bez 5)
array[2:5]

array([2, 3, 5])

Wszystko przed indeksem (bez indeksu)

In [84]:
# Wyświetl pierwsze dwa elementy
array[:2]

array([1, 1])

In [85]:
# Wyświetl całą listę używając znaku `:`
array[:]

array([ 1,  1,  2,  3,  5,  8, 13, 21])

In [89]:
# wychodzimy poza zakres
array[:100]

array([ 1,  1,  2,  3,  5,  8, 13, 21])

Wszystko za indeksem.

In [88]:
# Wyświetl wszystko bez pierwszych czterech elementów
array[5:]

array([ 8, 13, 21])

In [91]:
# Wychodzimy poza zakres
array[100:]

array([], dtype=int32)

Wycinki również obsługują negatywne indeksy.

In [92]:
# Negatywne indeksy w wycinkach
array[2:-2]

array([2, 3, 5, 8])

Podobnie jak w czystym Pythonie, krok również jest obsługiwany.

In [94]:
# Przykład użycia kroku
array[1:8:3]

array([ 1,  5, 21])

In [93]:
# od początku do elementu o indeksie 5 (bez niego) co drugi element
array[:5:2]

array([1, 2, 5])

In [95]:
# co drugi element
array[::2]

array([ 1,  2,  5, 13])

Podobnie jak w czystym Pythonie ujemny krok też jest obsługiwany.

In [96]:
# wektor w odwróconej kolejności
array[::-1]

array([21, 13,  8,  5,  3,  2,  1,  1])

Na początek wystarczy, ale do tematy indeksowania i szatkowania jeszcze wrócimy.

#### Zadanie 4

Wyświetl wycinek wektora `vector` zawierający jego trzy pierwsze elementy. Następnie wyświetl wycinek wektora `vector` zawierający ostatnicz cztery elementy tego wektora.

In [None]:
# Import biblioteki numpy z aliasem np
import numpy as np

# Definicja wektora `vector`
vector = np.array([1, 4, 5, 10, 13, 9, 10])

# Wycinek zawierający trzy pierwsze elementy wektora `vector`
three_slice = ...

# Wycinek zawierający cztery ostatnie elementy wektora `vector`
four_slice = ...

#### Sortowanie

W Numpy istnieją dwa popularne sposoby sortowania tablicy (odpowiedniki wbudowanej funkcji `sorted` oraz metody listy `sort`):
- metoda sort() obiektów klasy `ndarray` (sortuje tablicę w miejscu aka 'sortowanie w miejscu')
- funkcja np.sort() (zwraca nową, posortowaną werjsę oryginalnej tablicy aka 'sortowanie ze zwracaniem')

In [97]:
# Tworzymy nowy wektor
array = np.array([4, 15, 15, 8, 42, 32])

In [98]:
# sortujemy (w miejscu)
array.sort()
array

array([ 4,  8, 15, 15, 32, 42])

In [101]:
# Tworzymy nowy wektor
array = np.array([4, 15, 15, 8, 42, 32])

In [102]:
# sortujemy (ze zwracaniem)
sorted_array = np.sort(array)
sorted_array

array([ 4,  8, 15, 15, 32, 42])

In [103]:
# i stara tablica w tym przypadku wciąż jest
array

array([ 4, 15, 15,  8, 42, 32])

In [104]:
# Opcjonalny parametr kind pozwala nam na wskazanie akgorytmu sortowania
import numpy as np

sorted_array = np.sort(array, kind='heapsort')
sorted_array

array([ 4,  8, 15, 15, 32, 42])

##### Operacja w miejscu vs operacja ze zwracaniem.

Uwaga na częsty błąd!

In [105]:
# przypisanie przy użyciu metody działającej w miejscu
niby_posortowana_tablica = array.sort()
niby_posortowana_tablica

In [106]:
print(niby_posortowana_tablica)

None


#### Kopia (*ang. copy*) vs widok (*ang. view*) 

Przy omawianiu szatkowania pominęliśmy jedną istotną kwestię. Przyjrzyjmy się jej teraz.

Stwórzmy roboczą tablicę.

In [110]:
# Nowy wektor
array = np.array([2, 3, 5, 7, 11, 13])

Teraz stwórzmy wycinek tej tablicy złożony ze wszystkich elementów poza pierwszy i ostatnim.

In [111]:
# wycinek zawierający wszystkie elementy bez pierwszego i ostatniego
slice = array[1:-1]
slice

array([ 3,  5,  7, 11])

i zmodyfikujmy ostatni element tego wycinka.

In [112]:
# Modyfikujemy ostatni element wycinka
slice[-1] = 1000
slice

array([   3,    5,    7, 1000])

ok. Teraz pytanie. Jak wygląda oryginalna tablica?

In [114]:
array

array([   2,    3,    5,    7, 1000,   13])

Raczej nie tego się spodziewaliśmy. Co się stało? Dlaczego orygniał również został zmieniony?

Szatkowanie tworzy tzw. widok (*ang. [view](https://numpy.org/doc/stable/user/basics.copies.html)*) a nie kopię. Jest to terminologia charakterystyczna dla numpy.

Pod spodem `ndarray` składa się z dwóch podstawowych części:
- bufora danych
- metadanych o tym buforze danych

https://numpy.org/doc/stable/dev/internals.html#numpy-internals

Widok jest kopią metadanych, która współdzieli bufor danych. Innymi słowy w pamięci komputera mamy zapisane dane w postaci jednego ciągłego bloku wartości. O tym w jaki sposób ten blok wartości zostanie wyświetlony decydują informacje zapisane w metadanych. `ndarray` łączy bufor danych i metadane w jedną całość.

O kopii `ndarray` mówimy, gdy do innego miejsca w pamięci zostaną skopiowane zarówno metadadane jak i bufor danych. O widoku `ndarray` mówimy, gdy do innego miejsca w pamięci zostaną skopiowane wyłącznie metadane, a bufor danych pozostanie współdzielony pomiędzy stary i nowopowstały obiekt.

Szatkowanie ze względów wydajnościowych tworzy widok, nie kopię. Kiedy tworzymy wycinek tak naprawdę wyświetlamy te same informacje/dane tylko w inny sposób.


Nie należy tego łączyć z popularnym w programowaniu zagadnieniem przekazywania przez wartość i przekazywania przez referencję. Jest to zagadnienie zupełnie innej klasy.

Jak spojrzymy bliżej przekonamy się, że są to zupełnie inne obiekty.

In [116]:
# id wektora
id(array)

1568588331408

In [117]:
# id wycinka
id(slice)

1571861163696

I nie ma w tym nic dziwnego. Przecież to są dwie różne `ndarray`. Tylko, że te dwa różne obiekty klasy `ndarray` współdzielą pod spodem jeden bufor danych.

Ale co zrobić kiedy potrzebujemy prawdziwą kopię tablicy, kiedy takie zachowanie nie jest przez nas porządane ?

Po pierwsze nie wszystkie funkcje zachowują sie w ten sposób. Większość funkcji zwracają "prawdziwą" kopię, a nie widok.

In [118]:
# Przykład użycia funkcji `np.abs`
positive_array = np.abs(array)
positive_array

array([   2,    3,    5,    7, 1000,   13])

Modyfikujemy otrzymaną tablicę.

In [120]:
# Modyfikujemy ostatni element nowego wektora
positive_array[-1] = 5000
positive_array

array([   2,    3,    5,    7, 1000, 5000])

Sprawdzamy oryginał

In [121]:
array

array([   2,    3,    5,    7, 1000,   13])

Funkcja `np.abs` tworzy kopię obiektu klasy `ndarray`. Ponadto biblioteka numpy posiada funckje do tworznie kopii obiektów `ndarray` - `np.copy`.

In [122]:
# Tworzymy kopię wektora
copy_array = np.copy(array)
copy_array

array([   2,    3,    5,    7, 1000,   13])

Modyfikujemy kopię

In [123]:
# Modyfikujemy kopię
copy_array[-1] = 5000
copy_array

array([   2,    3,    5,    7, 1000, 5000])

Sprawdzamy orygniał

In [124]:
array

array([   2,    3,    5,    7, 1000,   13])

Używając dowolnych narzędzi powinniśmy wiedzieć jakiego typu obiekt jest przez nie zwracany. Czy jest to widok, czy kopia. A może zwraca None, może działa w miejscu, a nie ze zwracaniem.

Na późniejszym etapie będziemy mówili o wnętrznościach numpy array i o stride i wtedy przekonamy się, że ma to sens, żeby slicing i niektóre funkcje zwracał view, podczas gdy abs i inne funkcje zwracały kopię.

#### Funkcje agregujące

Funkcje agregujące w numpy to funkcje przyjmujące na wejściu wektor (w ogólności obiekt klasy `ndarray`) i zwracające liczbę lub zbiór liczba mających charakter statystyki na tym wektorze.

Przypomnijmy sobie co potrafią obiekty klasy `ndarray`.

In [125]:
# Co potrafią obiekty klasy `ndarray` ?
print(dir(array))

['T', '__abs__', '__add__', '__and__', '__array__', '__array_finalize__', '__array_function__', '__array_interface__', '__array_prepare__', '__array_priority__', '__array_struct__', '__array_ufunc__', '__array_wrap__', '__bool__', '__class__', '__class_getitem__', '__complex__', '__contains__', '__copy__', '__deepcopy__', '__delattr__', '__delitem__', '__dir__', '__divmod__', '__dlpack__', '__dlpack_device__', '__doc__', '__eq__', '__float__', '__floordiv__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__getstate__', '__gt__', '__hash__', '__iadd__', '__iand__', '__ifloordiv__', '__ilshift__', '__imatmul__', '__imod__', '__imul__', '__index__', '__init__', '__init_subclass__', '__int__', '__invert__', '__ior__', '__ipow__', '__irshift__', '__isub__', '__iter__', '__itruediv__', '__ixor__', '__le__', '__len__', '__lshift__', '__lt__', '__matmul__', '__mod__', '__mul__', '__ne__', '__neg__', '__new__', '__or__', '__pos__', '__pow__', '__radd__', '__rand__', '__rdivmod__',

Wśród dostępnych metod widzimy `__iter__`, która jest częścią protokołu iteratora w Pythonie. Czyli wygląda na to, że po obiektach klasy `ndarray` można się iterować. Sprawdźmy to.

In [127]:
# Przeiterujemy się po wektorze
for item in array:
    print(item)

2
3
5
7
1000
13


Rzeczywiście. To policzmy w sposób tradycyjny (za pomocą pętli) sumę wszystkich elementów tego wektora.

In [129]:
# Policzmy sumę tradycyjnym sposobem
sum_ = 0
for num in array:
    sum_ += num

print(sum_)

1030


Gdybyśmy zamknęli ten kawałek kodu w funkcji, to taką funkcję moglibyśmy nazwać funkcją agregująca (przyjmuje obiekt klasy `ndarray` i zwraca liczbę opisującą ten obiekt).

Działa? Tak

Prawidłowo? Tak

Optymalnie? Nie

Numpy posiada zestaw takich funkcji (sum, mean, max, min, ...) napisanych w C i zoptymalizowanych pod kątem wydajnościowym.

In [130]:
# suma elementów z wykorzystaniem funkcji agregującej `np.sum`
np.sum(array)

1030

In [131]:
array.sum()

1030

In [132]:
# średnia z elementów z wykorzystaniem funkcji agregującej `np.mean`
np.mean(array)

171.66666666666666

In [133]:
# maksymalny element z wykorzystaniem funkcji agregującej `np.max`
np.max(array)

1000

In [134]:
# minimalny element z wykorzystaniem funkcji agregującej np.min
np.min(array)

2

In [135]:
# indeks maksymalnego elementu z wykorzystaniem funkcji agregującej `np.argmax`.
np.argmax(array)

4

In [136]:
# indeks minimalnego elementu z wykorzystaniem funkcji agregującej `np.argmin`.
np.argmin(array)

0