### NumPy - biblioteka do obliczeń numerycznych

- Podstawy obliczeń numerycznych
- Porównanie szybkości z czystym Pythonem
- Kluczowe różnice pomiędzy tablicami Numpy i listami pythonowymi
- Typowe operacje na wektorach i macierzach
- Algebra liniowa

**NumPy**, czyli **Numerical Python**, to biblioteka programistyczna w języku Python, która dostarcza wsparcie dla efektywnych operacji numerycznych, zwłaszcza na dużych tablicach i macierzach danych. Jest jednym z podstawowych narzędzi w dziedzinie naukowych obliczeń i analizy danych w języku Python.

Główne cechy i funkcje biblioteki NumPy:

1. Tablice wielowymiarowe: NumPy wprowadza nowy typ danych, znany jako **"array" (tablica)**, który pozwala na przechowywanie i operowanie danymi wielowymiarowymi. Tablice w NumPy są bardziej wydajne niż standardowe listy w Pythonie i pozwalają na efektywne wykonywanie operacji matematycznych i statystycznych na danych.

2. Efektywne operacje numeryczne: NumPy dostarcza wiele wbudowanych funkcji i operacji, takich jak **dodawanie, mnożenie, podnoszenie do potęgi, funkcje trygonometryczne itp.**, które działają efektywnie na dużych zbiorach danych.

3. Indeksowanie i wycinanie: NumPy oferuje zaawansowane możliwości indeksowania i wycinania danych z tablic, co pozwala na dostęp do konkretnych elementów lub podtablic z dużą precyzją.

4. Losowanie liczb: Biblioteka umożliwia generowanie losowych liczb o różnych rozkładach, co jest przydatne w symulacjach i analizach statystycznych.

5. Integracja z innymi bibliotekami: NumPy jest często używany w połączeniu z innymi bibliotekami do naukowych obliczeń i analizy danych, takimi jak SciPy, pandas, matplotlib i scikit-learn.

6. Obsługa danych brakujących: NumPy ma wbudowane funkcje do pracy z danymi brakującymi, co jest istotne w analizie danych.

## NumPy

Dokumentacja: [https://NumPy.org/doc/](https://NumPy.org/doc/)

Biblioteka do przetwarzania numerycznego dużych wielowymiarowych tablic liczbowych. 

Typowy import:

- Strona biblioteki: https://numpy.org/
- Dokumentacja: https://numpy.org/doc/
-  ---

- Aby zainstalować bibliotekę NumPy, użyj polecenia poniżej:

```python
pip install numpy
```

In [None]:
# !pip install numpy

In [4]:
!pip install numpy #to instaluje biblioteki



In [5]:
import numpy as np
np.__version__

'1.24.4'

## `np.ndarray`


* Reprezentuje jedno lub wielowymiarową tablicę wartości. Jest to podstawowa klasa definiowana przez bibliotekę.
* Wszystkie wartości w tablicy musza być tego samego typu, czyli `np.ndarray` jest tablicą jednorodną (homogeniczną) .
* Każda wartość zajmuje tę samą określoną przez typ porcję pamięci.

In [9]:
a = np.array([1,2,3])
a

array([1, 2, 3])

In [10]:
type(a)

numpy.ndarray

## `dtype`

Wspólny typ dla wszystkich wartości w tablicy:

In [11]:
a.dtype

dtype('int32')

In [12]:
a = np.array([1.5, 2, 3.14])
a.dtype

dtype('float64')

Automatyczne rozszerzanie typu:

In [13]:
a = np.array([1, 2, 3, 4.5])
a

array([1. , 2. , 3. , 4.5])

In [14]:
a.dtype

dtype('float64')

Zadawanie konkretnego typu:

In [15]:
a = np.array([1, 2, 3], dtype='float64')
a

array([1., 2., 3.])

In [16]:
a.dtype

dtype('float64')

zwężadanie typu

In [17]:
a = np.array([1.6, 2.1, 3], dtype='int32')
a

array([1, 2, 3])

## NumPy: typy wbudowane

Data type |Description
---|---
bool_ |Boolean (True or False) stored as a byte
int_ |Default integer type (same as C long; normally either int64 or int32)
intc |Identical to C int (normally int32 or int64)
intp |Integer used for indexing (same as C ssize_t; normally either int32 or int64)
int8 |Byte (-128 to 127)
int16 |Integer (-32768 to 32767)
int32 |Integer (-2147483648 to 2147483647)
int64 |Integer (-9223372036854775808 to 9223372036854775807)
uint8 |Unsigned integer (0 to 255)
uint16 |Unsigned integer (0 to 65535)
uint32 |Unsigned integer (0 to 4294967295)
uint64 |Unsigned integer (0 to 18446744073709551615)
float_ |Shorthand for float64.
float16 |Half precision float: sign bit, 5 bits exponent, 10 bits mantissa
float32 |Single precision float: sign bit, 8 bits exponent, 23 bits mantissa
float64 |Double precision float: sign bit, 11 bits exponent, 52 bits mantissa
complex_ |Shorthand for complex128.
complex64 |Complex number, represented by two 32-bit floats
complex128 |Complex number, represented by two 64-bit floats

## Dygresja: pamięć zajmowana przez tablicę
### `np.nbytes`

Liczba bajtów zajęta przez jedną wartość danego typu:

In [18]:
np.nbytes

{numpy.bool_: 1,
 numpy.int8: 1,
 numpy.uint8: 1,
 numpy.int16: 2,
 numpy.uint16: 2,
 numpy.intc: 4,
 numpy.uintc: 4,
 numpy.int64: 8,
 numpy.uint64: 8,
 numpy.int32: 4,
 numpy.uint32: 4,
 numpy.float16: 2,
 numpy.float32: 4,
 numpy.float64: 8,
 numpy.longdouble: 8,
 numpy.complex64: 8,
 numpy.complex128: 16,
 numpy.clongdouble: 16,
 numpy.object_: 8,
 numpy.bytes_: 0,
 numpy.str_: 0,
 numpy.void: 0,
 numpy.datetime64: 8,
 numpy.timedelta64: 8}

In [19]:
a = np.array([[1, 2, 3]])
a

array([[1, 2, 3]])

In [20]:
a.dtype

dtype('int32')

`a.itemsize` -- wspólny rozmiar w bajtach pojedynczej wartości w tablicy `a`:

In [21]:
a.itemsize

4

In [22]:
a = np.array([[1, 2], [-1.5, 3]])
a

array([[ 1. ,  2. ],
       [-1.5,  3. ]])

In [23]:
a.dtype

dtype('float64')

In [24]:
a.itemsize

8

### `.astype()`

Metoda konwertująca typ, zwraca kopię tablicy:

In [27]:
b = a.astype('int16')
b

array([[ 1,  2],
       [-1,  3]], dtype=int16)

In [28]:
b.itemsize

2

In [29]:
b.nbytes

8

 - `itemsize` zwraca rozmiar (w bajtach) jednego elementu tablicy NumPy.
 - `nbytes` zwraca całkowitą ilość pamięci (w bajtach), jaką zajmuje tablica NumPy.
 - Funkcja `sys.getsizeof()` zwraca rozmiar (w bajtach) obiektu w Pythonie, obejmujący wewnętrzne struktury pamięci obiektu. Jest używana do sprawdzenia, ile pamięci zajmuje obiekt Pythonowy, wliczając narzut związany z zarządzaniem pamięcią przez Python.

### `sys.getsizeof()`

Zwraca wielkość obiektu w bajtach:

In [30]:
a = np.array([1, 2, 3, 4, 5], dtype=np.int32)
print(a.itemsize)  # Wyjście: 4 (każdy element zajmuje 4 bajty)

4


In [31]:
a

array([1, 2, 3, 4, 5])

In [32]:
print(a.nbytes)  # Wyjście: 20 (5 elementów * 4 bajty na element)

20


In [33]:
import sys

In [34]:
sys.getsizeof(a)

132

In [35]:
sys.getsizeof(0)

24

In [36]:
sys.getsizeof(2**100)

40

In [37]:
2**100

1267650600228229401496703205376

In [38]:
print('{:<25}{:<15}{:<10}'.format('Tablica', 'Mem wartości', 'Mem obiektu'))

for k in range(6):
    a = np.array(range(k))
    print('{!r:<25}{:<15}{:<10}'.format(a, a.nbytes, sys.getsizeof(a)))

Tablica                  Mem wartości   Mem obiektu
array([], dtype=float64) 0              112       
array([0])               4              116       
array([0, 1])            8              120       
array([0, 1, 2])         12             124       
array([0, 1, 2, 3])      16             128       
array([0, 1, 2, 3, 4])   20             132       


In [39]:
sys.getsizeof(a)

132

### dla listy python

In [49]:
l = []

for i in range(2*1000):
    l.append(i)

In [50]:
l = [i for i in range(2*1000)]

In [51]:
sys.getsizeof(l)

16184

In [52]:
sys.getsizeof(l) + sum(sys.getsizeof(item) for item in l)

72180

In [53]:
a = np.array(range(2*1000))

In [54]:
a.itemsize

4

In [55]:
a.nbytes

8000

In [56]:
sys.getsizeof(a)

8112

### Poprawne porównanie rozmiarów

Aby porównać rozmiar zajmowanej pamięci przez listę i tablicę NumPy, powinniśmy użyć odpowiednich metod:
- **Dla listy**: `sys.getsizeof(python_list) + sum(sys.getsizeof(item) for item in python_list)`
- **Dla tablicy NumPy**: `sys.getsizeof(numpy_array)` dla samego obiektu oraz `numpy_array.nbytes` dla danych.

### Wyniki i wyjaśnienie

- **Lista Pythona**:
  - `sys.getsizeof(python_list)`: rozmiar samej listy (narzut pamięciowy struktury listy).
  - `sum(sys.getsizeof(item) for item in python_list)`: rozmiar wszystkich elementów (każdy element jest oddzielnym obiektem Pythona).

- **Tablica NumPy**:
  - `sys.getsizeof(numpy_array)`: narzut obiektu tablicy NumPy.
  - `numpy_array.nbytes`: całkowity rozmiar danych przechowywanych w tablicy.

Tablica NumPy będzie zazwyczaj bardziej efektywna pamięciowo niż lista Pythona ze względu na brak dodatkowego narzutu związanego z zarządzaniem indywidualnymi obiektami elementów.

W Pythonie lista jest strukturą danych, która przechowuje referencje do obiektów, a nie same obiekty. Dlatego całkowita pamięć zajmowana przez listę obejmuje zarówno narzut związany z samą listą, jak i pamięć zajmowaną przez poszczególne elementy, do których lista odwołuje się przez referencje.

### Morał

Nawet proste wbudowane typy w Pythonie są złożonymi obiektami zawierającymi liczne dodatkowe dane. Dlatego zwykła lista obiektów ma duży rozmiar i skomplikowaną strukturę.

Tablica NumPy odpowiada tablicy w języku C. Ma prostą strukturę, zajmuje jednorodny obszar pamięci, a wartości nie zawierają żadnych dodatkowych metadanych.

## Atrybuty tablic

* `.ndim` -- liczba wymiarów, liczba całkowita.
* `.shape` -- rozmiar każdego z wymiarów, krotka liczb całkowitych.
* `.size` -- całkowita liczba wartości, iloczyn wartości z krotki `.shape`.

In [64]:
np.arange(11,21,2)

array([11, 13, 15, 17, 19])

In [58]:
np.arange(-10, 10, 2)

array([-10,  -8,  -6,  -4,  -2,   0,   2,   4,   6,   8])

In [57]:
a = np.arange(-10, 10, 2)
a

array([-10,  -8,  -6,  -4,  -2,   0,   2,   4,   6,   8])

In [65]:
a.ndim

1

In [66]:
a.shape

(10,)

In [67]:
a.size

10

## Tworzenie tablic z niczego

* `np.zeroes()`
* `np.ones()`
* `np.full()`
* `np.arange()`
* `np.linspace()`
* `np.random.random()`
* `np.random.normal()`
* `np.random.randint()`
* `np.eye()`
* i inne ...

Tablica dwuwymiarowa o 6 elementach, 3 wiersze i dwie kolumny:

In [69]:
a = np.zeros((3,2))
a

array([[0., 0.],
       [0., 0.],
       [0., 0.]])

In [71]:
a.ndim

2

In [72]:
a.shape

(3, 2)

In [73]:
a.size

6

## Indeksowanie: dostęp do pojedynczych elementów

In [74]:
a = np.arange(10, 20)
a

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [79]:
np.array((a[0], a[1], a[1]))

array([10, 11, 11])

In [80]:
lista = [1,2,3,4,5]

In [83]:
nowa_lista = [lista[0], lista[-1]]
nowa_lista

[1, 5]

In [84]:
a = np.array([[ 0,  1,  2,  3,  4],
              [ 5,  6,  7,  8,  9],
              [10, 11, 12, 13, 14],
              [15, 16, 17, 18, 19]])
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

In [85]:
a.ndim

2

In [86]:
a[2,3] #13

13

In [89]:
a[-1,-1]

19

## Wycinki

Składnia dla wycinków naśladuje tę wbudowaną w Pythona:

```python
a[start:stop:step]
```

### Tablice jednowymiarowe

In [90]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [91]:
a[:3], a[3:]

(array([0, 1, 2]), array([3, 4, 5, 6, 7, 8, 9]))

In [92]:
a[-2:]

array([8, 9])

In [93]:
a[::2]

array([0, 2, 4, 6, 8])

In [94]:
a[::-1]

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

### Tablice wielowymiarowe

In [95]:
a = np.array([[ 0,  1,  2,  3,  4],
              [ 5,  6,  7,  8,  9],
              [10, 11, 12, 13, 14],
              [15, 16, 17, 18, 19]])
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

In [97]:
#dwa pierwsze wiersze
a[:2]

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

Wycinki można tworzyć na każdej osi osobno. Dwa ostatnie wiersze, druga, trzecia i czwarta kolumna:

In [102]:
a[-2:,1:4]

array([[11, 12, 13],
       [16, 17, 18]])

### Wiersze i kolumny

Drugi wiersz

In [107]:
a[1]

array([5, 6, 7, 8, 9])

In [106]:
a[1,:]

array([5, 6, 7, 8, 9])

ale tak jest mniej czytelnie, bo struktura tablicy pozostaje ukryta. Ponadto, to wywołanie zadziała również dla tablicy jednowymiarowej, co może prowadzić do niespodziewanych błędów.

In [108]:
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

In [109]:
a[:,2]

array([ 2,  7, 12, 17])

### Uwaga!

**Wycinki tablic NumPy nie zwracają kopii!**

In [110]:
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

In [111]:
b = a[1:3,2:4]
b

array([[ 7,  8],
       [12, 13]])

In [112]:
b[1,1] = 123
b

array([[  7,   8],
       [ 12, 123]])

In [113]:
a

array([[  0,   1,   2,   3,   4],
       [  5,   6,   7,   8,   9],
       [ 10,  11,  12, 123,  14],
       [ 15,  16,  17,  18,  19]])

### Tworzenie kopii

In [115]:
a = np.array([[ 0,  1,  2,  3,  4],
              [ 5,  6,  7,  8,  9],
              [10, 11, 12, 13, 14],
              [15, 16, 17, 18, 19]])
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

In [116]:
b = a[1:3,2:4].copy()
b

array([[ 7,  8],
       [12, 13]])

In [117]:
b[1,1] = 123
b

array([[  7,   8],
       [ 12, 123]])

In [118]:
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

## `.reshape()` -- zmiana kształtu tablicy

In [119]:
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

In [122]:
np.arange(10).reshape(2,5)

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [123]:
np.arange(10).reshape(5,2)

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [130]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [132]:
np.arange(10).reshape(1, 10)

array([[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]])

To samo za pomocą `np.newaxis`:

In [133]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [134]:
a[np.newaxis, :]

array([[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]])

In [135]:
a[:, np.newaxis]

array([[0],
       [1],
       [2],
       [3],
       [4],
       [5],
       [6],
       [7],
       [8],
       [9]])

In [137]:
np.arange(10).reshape(10,1)

array([[0],
       [1],
       [2],
       [3],
       [4],
       [5],
       [6],
       [7],
       [8],
       [9]])

In [138]:
# w zależności od potrzeb:
np.arange(5).reshape(5, 1, 1)

array([[[0]],

       [[1]],

       [[2]],

       [[3]],

       [[4]]])

## Łączenie i dzielenie tablic

* `np.concatenate()`
* `np.vstack()`
* `np.hstack()`
* `np.split()`
* `np.vsplit()`
* `np.hsplit()`

## Funkcje uniwersalne (ufuncs), wektoryzacja

Funkcja uniwersalna jest zwykłą funkcją jednej lub wielu zmiennych opakowaną mechanizmem wektoryzacji: wywołana na tablicy wywołuje się (wektoryzacja) na wszystkich jej elementach.

Funkcje uniwersalne są bardzo wydajne czasowo.

##### Listy w Python:

In [141]:
l = [1,2,3,4,5]
L_2 = [6,7,8,9,10]

In [142]:
l + L_2

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

##### Tablice w NumPy:

In [139]:
x = np.arange(5)
y = np.arange(10, 15)
x, y

(array([0, 1, 2, 3, 4]), array([10, 11, 12, 13, 14]))

In [140]:
x + y

array([10, 12, 14, 16, 18])

In [143]:
x * y

array([ 0, 11, 24, 39, 56])

In [144]:
x / y

array([0.        , 0.09090909, 0.16666667, 0.23076923, 0.28571429])

In [145]:
2*x + y/2

array([ 5. ,  7.5, 10. , 12.5, 15. ])

In [None]:
from matplotlib import pyplot as plt
%matplotlib inline
plt.style.use('seaborn-notebook')

# 100 punktów równomiernego podziału
X = np.linspace(-2*np.pi, 2*np.pi, 100)
Y = np.sin(X) # ufunc!
plt.plot(X, Y)
plt.grid(ls=':')