### NumPy - biblioteka do obliczeń numerycznych

- Podstawy obliczeń numerycznych
- Porównanie szybkości z czystym Pythonem
- Kluczowe różnice pomiędzy tablicami Numpy i listami pythonowymi
- Typowe operacje na wektorach i macierzach
- Algebra liniowa

**NumPy**, czyli **Numerical Python**, to biblioteka programistyczna w języku Python, która dostarcza wsparcie dla efektywnych operacji numerycznych, zwłaszcza na dużych tablicach i macierzach danych. Jest jednym z podstawowych narzędzi w dziedzinie naukowych obliczeń i analizy danych w języku Python.

Główne cechy i funkcje biblioteki NumPy:

1. Tablice wielowymiarowe: NumPy wprowadza nowy typ danych, znany jako **"array" (tablica)**, który pozwala na przechowywanie i operowanie danymi wielowymiarowymi. Tablice w NumPy są bardziej wydajne niż standardowe listy w Pythonie i pozwalają na efektywne wykonywanie operacji matematycznych i statystycznych na danych.

2. Efektywne operacje numeryczne: NumPy dostarcza wiele wbudowanych funkcji i operacji, takich jak **dodawanie, mnożenie, podnoszenie do potęgi, funkcje trygonometryczne itp.**, które działają efektywnie na dużych zbiorach danych.

3. Indeksowanie i wycinanie: NumPy oferuje zaawansowane możliwości indeksowania i wycinania danych z tablic, co pozwala na dostęp do konkretnych elementów lub podtablic z dużą precyzją.

4. Losowanie liczb: Biblioteka umożliwia generowanie losowych liczb o różnych rozkładach, co jest przydatne w symulacjach i analizach statystycznych.

5. Integracja z innymi bibliotekami: NumPy jest często używany w połączeniu z innymi bibliotekami do naukowych obliczeń i analizy danych, takimi jak SciPy, pandas, matplotlib i scikit-learn.

6. Obsługa danych brakujących: NumPy ma wbudowane funkcje do pracy z danymi brakującymi, co jest istotne w analizie danych.

## NumPy

Dokumentacja: [https://NumPy.org/doc/](https://NumPy.org/doc/)

Biblioteka do przetwarzania numerycznego dużych wielowymiarowych tablic liczbowych. 

Typowy import:

- Strona biblioteki: https://numpy.org/
- Dokumentacja: https://numpy.org/doc/
-  ---

- Aby zainstalować bibliotekę NumPy, użyj polecenia poniżej:

```python
pip install numpy
```

In [None]:
# !pip install numpy

In [5]:
import numpy as np
np.__version__

'2.3.5'

## `np.ndarray`


* Reprezentuje jedno lub wielowymiarową tablicę wartości. Jest to podstawowa klasa definiowana przez bibliotekę.
* Wszystkie wartości w tablicy musza być tego samego typu, czyli `np.ndarray` jest tablicą jednorodną (homogeniczną) .
* Każda wartość zajmuje tę samą określoną przez typ porcję pamięci.

## `np.array()`

Tworzy tablice z "tablicopodobnych" obiektów, np. z list:

In [6]:
a = np.array([1,2,3])
a

array([1, 2, 3])

In [3]:
type(a)

numpy.ndarray

In [8]:
sum(a)

np.int64(6)

## `dtype`

Wspólny typ dla wszystkich wartości w tablicy:

In [9]:
a.dtype

dtype('int64')

In [10]:
a = np.array([1.5, 2, 3.14])
a.dtype

dtype('float64')

In [15]:
a = np.array([1, 2, 3, 4.5])
a

array([1. , 2. , 3. , 4.5])

In [16]:
a.dtype

dtype('float64')

In [17]:
a = np.array([1, 2, 3], dtype='float64')
a

array([1., 2., 3.])

In [18]:
a = np.array([1.6, 2.1, 3], dtype='int32')
a

array([1, 2, 3], dtype=int32)

## NumPy: typy wbudowane

Data type |Description
---|---
bool_ |Boolean (True or False) stored as a byte
int_ |Default integer type (same as C long; normally either int64 or int32)
intc |Identical to C int (normally int32 or int64)
intp |Integer used for indexing (same as C ssize_t; normally either int32 or int64)
int8 |Byte (-128 to 127)
int16 |Integer (-32768 to 32767)
int32 |Integer (-2147483648 to 2147483647)
int64 |Integer (-9223372036854775808 to 9223372036854775807)
uint8 |Unsigned integer (0 to 255)
uint16 |Unsigned integer (0 to 65535)
uint32 |Unsigned integer (0 to 4294967295)
uint64 |Unsigned integer (0 to 18446744073709551615)
float_ |Shorthand for float64.
float16 |Half precision float: sign bit, 5 bits exponent, 10 bits mantissa
float32 |Single precision float: sign bit, 8 bits exponent, 23 bits mantissa
float64 |Double precision float: sign bit, 11 bits exponent, 52 bits mantissa
complex_ |Shorthand for complex128.
complex64 |Complex number, represented by two 32-bit floats
complex128 |Complex number, represented by two 64-bit floats

## Dygresja: pamięć zajmowana przez tablicę
### `np.nbytes`

Liczba bajtów zajęta przez jedną wartość danego typu:

In [20]:
a = np.array([[1, 2, 3]])
a

array([[1, 2, 3]])

In [22]:
a.dtype

dtype('int64')

`a.itemsize` -- wspólny rozmiar w bajtach pojedynczej wartości w tablicy `a`:

In [21]:
a.itemsize

8

In [23]:
a = np.array([[1, 2], [-1.5, 3]])
a

array([[ 1. ,  2. ],
       [-1.5,  3. ]])

In [24]:
a.dtype

dtype('float64')

In [25]:
a.itemsize

8

### `.nbytes`

Liczba bajtów zajętych przez wartości tablicy:

In [28]:
a = np.array(range(10), dtype=np.int64)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [29]:
a.itemsize

8

In [30]:
a.nbytes

80

 - `itemsize` zwraca rozmiar (w bajtach) jednego elementu tablicy NumPy.
 - `nbytes` zwraca całkowitą ilość pamięci (w bajtach), jaką zajmuje tablica NumPy.
 - Funkcja `sys.getsizeof()` zwraca rozmiar (w bajtach) obiektu w Pythonie, obejmujący wewnętrzne struktury pamięci obiektu. Jest używana do sprawdzenia, ile pamięci zajmuje obiekt Pythonowy, wliczając narzut związany z zarządzaniem pamięcią przez Python.

In [31]:
a = np.array([1, 2, 3, 4, 5], dtype=np.int32)
print(a.itemsize)  # Wyjście: 4 (każdy element zajmuje 4 bajty)

4


In [33]:
print(a.nbytes)  # Wyjście: 20 (5 elementów * 4 bajty na element)

20


In [35]:
import sys

sys.getsizeof(a)

132

In [37]:
print('{:<25}{:<15}{:<10}'.format('Tablica', 'Mem wartości', 'Mem obiektu'))

for k in range(6):
    a = np.array(range(k))
    print('{!r:<25}{:<15}{:<10}'.format(a, a.nbytes, sys.getsizeof(a)))

Tablica                  Mem wartości   Mem obiektu
array([], dtype=float64) 0              112       
array([0])               8              120       
array([0, 1])            16             128       
array([0, 1, 2])         24             136       
array([0, 1, 2, 3])      32             144       
array([0, 1, 2, 3, 4])   40             152       


In [38]:
lista = list(range(5))

### Poprawne porównanie rozmiarów

Aby porównać rozmiar zajmowanej pamięci przez listę i tablicę NumPy, powinniśmy użyć odpowiednich metod:
- **Dla listy**: `sys.getsizeof(python_list) + sum(sys.getsizeof(item) for item in python_list)`
- **Dla tablicy NumPy**: `sys.getsizeof(numpy_array)` dla samego obiektu oraz `numpy_array.nbytes` dla danych.

### Wyniki i wyjaśnienie

- **Lista Pythona**:
  - `sys.getsizeof(python_list)`: rozmiar samej listy (narzut pamięciowy struktury listy).
  - `sum(sys.getsizeof(item) for item in python_list)`: rozmiar wszystkich elementów (każdy element jest oddzielnym obiektem Pythona).

- **Tablica NumPy**:
  - `sys.getsizeof(numpy_array)`: narzut obiektu tablicy NumPy.
  - `numpy_array.nbytes`: całkowity rozmiar danych przechowywanych w tablicy.

Tablica NumPy będzie zazwyczaj bardziej efektywna pamięciowo niż lista Pythona ze względu na brak dodatkowego narzutu związanego z zarządzaniem indywidualnymi obiektami elementów.

W Pythonie lista jest strukturą danych, która przechowuje referencje do obiektów, a nie same obiekty. Dlatego całkowita pamięć zajmowana przez listę obejmuje zarówno narzut związany z samą listą, jak i pamięć zajmowaną przez poszczególne elementy, do których lista odwołuje się przez referencje.

In [40]:
sys.getsizeof(lista)

104

In [41]:
sys.getsizeof(lista) + sum(sys.getsizeof(item) for item in lista)

244

In [51]:
a = np.array(range(2*10000))
a

array([    0,     1,     2, ..., 19997, 19998, 19999], shape=(20000,))

In [43]:
a.dtype

dtype('int64')

In [44]:
a.itemsize

8

In [46]:
a.nbytes

16000

In [52]:
sys.getsizeof(a)

160112

##### dla listy w Python:

In [53]:
l = []
for i in range(2*100000):
    l.append(i)

In [54]:
sys.getsizeof(l) + sum(sys.getsizeof(item) for item in l)

7224056

## Atrybuty tablic

* `.ndim` -- liczba wymiarów, liczba całkowita.
* `.shape` -- rozmiar każdego z wymiarów, krotka liczb całkowitych.
* `.size` -- całkowita liczba wartości, iloczyn wartości z krotki `.shape`.

In [59]:
a.shape

(20000,)

In [62]:
a = np.arange(-10, 10, 2)
a

array([-10,  -8,  -6,  -4,  -2,   0,   2,   4,   6,   8])

## Tworzenie tablic z niczego

* `np.zeroes()`
* `np.ones()`
* `np.full()`
* `np.arange()`
* `np.linspace()`
* `np.random.random()`
* `np.random.normal()`
* `np.random.randint()`
* `np.eye()`
* i inne ...

In [67]:
a = np.zeros((3, 2))
a

array([[0., 0.],
       [0., 0.],
       [0., 0.]])

In [64]:
a.shape

(3, 2)

In [68]:
a = np.arange(10, 20)
a

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [69]:
a[0], a[1], a[-1], a[-2]

(np.int64(10), np.int64(11), np.int64(19), np.int64(18))

In [70]:
lista = [1,2,3,4,5]

In [71]:
[lista[0], lista[3]]

[1, 4]

In [84]:
a = np.arange(10, 20)
a

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [77]:
a[0]

np.int64(10)

In [78]:
a[3:]

array([13, 14, 15, 16, 17, 18, 19])

In [86]:
a[0:4]

array([10, 11, 12, 13])

### Tablice wielowymiarowe

In [None]:
a = np.array([[ 0,  1,  2,  3,  4],
              [ 5,  6,  7,  8,  9],
              [10, 11, 12, 13, 14],
              [15, 16, 17, 18, 19]])
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

In [90]:
#Dwa pierwsze wiersze:
a[:2]

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [92]:
a[1,:]

array([5, 6, 7, 8, 9])

In [93]:
a[:,1]

array([ 1,  6, 11, 16])

In [95]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [94]:
np.arange(10).reshape(2, 5)

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

### Podobieństwa między Listą w Python a tablicą w NumPy

In [96]:
##### nawiasy []

In [97]:
lista = [1,2,3]
lista

[1, 2, 3]

In [98]:
arr = np.array([1,2,3])
arr

array([1, 2, 3])

#### modyfikowalność

In [99]:
lista[0] = 0
lista

[0, 2, 3]

In [102]:
arr[0] = 0
arr

array([0, 2, 3])

In [103]:
#### Indeksy i wycinanie

### Różnice między Listą w Python a tablicą w NumPy

In [107]:
lista * 2

[0, 2, 3, 0, 2, 3]

In [106]:
arr * 2

array([0, 4, 6])

### LISTA przymuje dowolne warotości a tablica numpy tylko liczby


### Porównanie szybkości z czystym Pythonem;

In [109]:
py_list1 = list(range(10)) 
py_list2 = list(range(10, 20))  
result_list = [a + b for a, b in zip(py_list1, py_list2)]
result_list

[10, 12, 14, 16, 18, 20, 22, 24, 26, 28]

In [111]:
import time  

# Define two Python lists 
py_list1 = list(range(100000000)) 
py_list2 = list(range(100000000, 200000000))  

# Define two Numpy arrays 
np_array1 = np.arange(100000000) 
np_array2 = np.arange(100000000, 200000000)  

# Adding Python lists 
start_time = time.time() 
result_list = [a + b for a, b in zip(py_list1, py_list2)] 
print("Time taken to add Python lists: ", time.time() - start_time)  

# Adding Numpy arrays 
start_time = time.time() 
result_array = np_array1 + np_array2 
print("Time taken to add Numpy arrays: ", time.time() - start_time)

Time taken to add Python lists:  4.9249231815338135
Time taken to add Numpy arrays:  0.5092799663543701


##### Generowanie liczb pseudolosowych

In [113]:
np.random.seed(0) # ziarno losowania - za każdym razem ten sam wynik losowania (w ML też ważne przy np. parametrach sieci)

In [114]:
np.random.randn() # losowa wartość z rozkładu normalnego

1.764052345967664

In [115]:
np.random.randn(10) # 10 elementów z rozkłądu normalego

array([ 0.40015721,  0.97873798,  2.2408932 ,  1.86755799, -0.97727788,
        0.95008842, -0.15135721, -0.10321885,  0.4105985 ,  0.14404357])

In [116]:
np.random.randn(10, 4)

array([[ 1.45427351,  0.76103773,  0.12167502,  0.44386323],
       [ 0.33367433,  1.49407907, -0.20515826,  0.3130677 ],
       [-0.85409574, -2.55298982,  0.6536186 ,  0.8644362 ],
       [-0.74216502,  2.26975462, -1.45436567,  0.04575852],
       [-0.18718385,  1.53277921,  1.46935877,  0.15494743],
       [ 0.37816252, -0.88778575, -1.98079647, -0.34791215],
       [ 0.15634897,  1.23029068,  1.20237985, -0.38732682],
       [-0.30230275, -1.04855297, -1.42001794, -1.70627019],
       [ 1.9507754 , -0.50965218, -0.4380743 , -1.25279536],
       [ 0.77749036, -1.61389785, -0.21274028, -0.89546656]])

In [117]:
np.random.rand() # rozkład jednostajny <0:1)

0.1965823616800535

In [125]:
np.random.randint(10) # liczba całkowita (0:10)

0

In [126]:
np.random.randint(low=10, high=101)

13

In [127]:
np.random.randint(low=10, high=101, size=10)

array([52, 87, 31, 83, 10, 20, 53, 68, 33, 69])

In [129]:
np.random.choice(['python', 'java', 'sql'])

np.str_('java')