<br />

***

## **NumPy**

NumPy (Numerical Python) to biblioteka Python służąca do efektywnego wykonywania operacji na tablicach n-wymiarowych (strukturach danych zawierających liczby). Wykorzystuje ciągłe bloki pamięci i implementacje w językach niskiego poziomu (C/C++), dzięki czemu operacje na tablicach NumPy są **wielokrotnie szybsze** niż ekwiwalentne operacje na standardowych listach Pythona. Poniżej przypomnimy najważniejsze cechy i funkcjonalności NumPy.

### **Tworzenie tablic i podstawowe atrybuty `.shape` i `.dtype`**

Aby skorzystać z NumPy, najpierw należy zaimportować bibliotekę, zazwyczaj z aliasem **`np`**:


In [1]:
import numpy as np  # standardowa konwencja aliasu

Podstawowym typem danych w NumPy jest **ndarray** (wielowymiarowa tablica). Najprostszym sposobem utworzenia tablicy jest przekazanie listy (lub zagnieżdżonych list) do funkcji **`np.array`**. Poniżej utworzymy proste tablice i sprawdzimy ich atrybuty:


In [3]:
[1, 2, 3, 4, 5]

[1, 2, 3, 4, 5]

In [2]:

# Tworzenie 1-wymiarowej tablicy z listy Python
vector = np.array([1, 2, 3, 4, 5])
print(vector)        # Wyświetlenie zawartości tablicy
print(type(vector))  # Typ obiektu (numpy.ndarray)

[1 2 3 4 5]
<class 'numpy.ndarray'>


In [7]:
vector

array([1, 2, 3, 4, 5])

In [4]:
# Atrybuty tablicy 1D
print("Shape:", vector.shape)   # kształt tablicy (tu: (5,), czyli 5 elementów w jednym wymiarze)
print("Dtype:", vector.dtype)   # typ danych przechowywanych w tablicy (np. int64, float64)


Shape: (5,)
Dtype: int64




Wynik działania powyższego kodu (po uruchomieniu) powinien pokazać, że **`vector`** to **`numpy.ndarray`** o kształcie **`(5,)`** i określonym typie danych (domyślnie NumPy wybierze typ najbardziej dopasowany do przekazanych wartości, w tym przypadku zapewne **`int64`** lub **`int32`** w zależności od platformy). Atrybut **`.shape`** zwraca krotkę z rozmiarami tablicy w każdym wymiarze. Jednowymiarowa tablica o 5 elementach ma **`.shape == (5,)`**. Natomiast **`.dtype`** opisuje typ każdego elementu (np. liczby całkowite 64-bitowe, liczby zmiennoprzecinkowe 32-bitowe, itp.).

Możemy tworzyć również tablice wielowymiarowe przekazując zagnieżdżone sekwencje (np. listy list). NumPy automatycznie zinterpretuje strukturę zagnieżdżonych list jako wymiary tablicy:


In [None]:

# Tworzenie 2-wymiarowej tablicy (macierzy) z list zagnieżdżonych
matrix = np.array([[10, 20, 30],
                   [40, 50, 60],
                   [70, 80, 90]])
print(matrix)
print("Shape:", matrix.shape)  # (3, 3) - 3 wiersze, 3 kolumny
print("Dtype:", matrix.dtype)  # typ danych, np. int64


[[10. 20. 30.]
 [40. 50. 60.]
 [70. 80. 90.]]
Shape: (3, 3)
Dtype: float64


In [9]:
matrix.ndim

2



W powyższym przykładzie **`matrix`** jest tablicą 3x3 (3 wiersze, 3 kolumny). Zwróć uwagę, że NumPy wyświetla tablicę 2D w postaci wierszy i kolumn. Atrybut **`.shape`** zwraca **`(3, 3)`**. Jeśli chodzi o typ danych, w tablicy NumPy wszystkie elementy **muszą być tego samego typu** (jest to różnica w porównaniu do list Pythona, które mogą zawierać elementy różnych typów). NumPy dobierze typ wystarczająco pojemny, by pomieścić wszystkie wartości – w naszym przypadku wszystkie liczby to całkowite, więc typem będzie któryś z całkowitych (**`int`**).

Jeśli podamy dane różnych typów, NumPy zastosuje **upcasting** do typu mogącego reprezentować wszystkie podane wartości. Np. jeśli w liście jest mieszanka int i float, wynikowa tablica będzie typu **`float`** (bo float może reprezentować int, ale nie odwrotnie bez utraty informacji).


In [18]:

mixed = np.array([1, 2.5, 3])  # jeden element jest float, reszta int
print(mixed)
print("Dtype:", mixed.dtype)   # spodziewany dtype: float64 (wszystkie elementy zostaną przekonwertowane na float)


[1.  2.5 3. ]
Dtype: float64



Często przy tworzeniu tablic używa się także funkcji wbudowanych NumPy do generowania danych, np.:

* **`np.zeros(shape)`** – tworzy tablicę wypełnioną zerami o zadanym kształcie,
* **`np.ones(shape)`** – tablica wypełniona jedynkami,
* **`np.full(shape, fill_value)`** – tablica wypełniona stałą wartością,
* **`np.arange(start, stop, step)`** – analogiczne do wbudowanego **`range`**, tworzy tablicę z ciągiem liczb w podanym zakresie,
* **`np.linspace(start, stop, num)`** – generuje **`num`** równomiernie rozłożonych wartości od **`start`** do **`stop`** włącznie,
* **`np.random.rand(d0, d1, ...)`** – generuje tablicę o podanych wymiarach wypełnioną losowymi liczbami z przedziału \[0,1).


In [None]:
zeros = np.zeros((2, 5))            # 2x5 zera (float64 domyślnie)
ones = np.ones((3, 2), dtype=int)   # 3x2 jedynki, wymuszamy dtype=int
vals = np.full((2, 3), 7.5)         # 2x3 stała wartość 7.5

seq  = np.arange(0, 10, 2)          # sekwencja: 0, 2, 4, 6, 8 (jak range, koniec 10 nie wchodzi)
lin  = np.linspace(0, 1, 5)         # 5 liczb od 0 do 1: [0.   0.25 0.5  0.75 1.  ]

rand = np.random.rand(2, 3)         # 2x3 losowe wartości (zmiennoprzecinkowe z [0,1))
randint = np.random.randint(1, 11, (2, 3))  # 2x3 losowe liczby całkowite z zakresu [1, 11)

print("zeros:\n", zeros)
print("ones:\n", ones)
print("vals:\n", vals)
print("seq:\n", seq)
print("lin:\n", lin)
print("rand:\n", rand)
print("randint:\n", randint)


rand:
 [[0.41235137 0.55320189 0.79661393]
 [0.88517262 0.85976623 0.73685889]]
randint:
 [[ 9 10  7]
 [ 6  5  7]]




W powyższym kodzie:

* Zmienna **`zeros`** to tablica 2x5 z samymi zerami.
* **`ones`** to tablica 3x2 z jedynkami typu całkowitego (dzięki parametrowi **`dtype=int`**).
* **`vals`** to tablica 2x3, gdzie każdy element ma wartość 7.5 (typ zostanie float64).
* **`seq`** to jednowymiarowa tablica z ciągiem **`[0, 2, 4, 6, 8]`**.
* **`lin`** to 1D z pięcioma wartościami od 0 do 1 (włącznie) liniowo rozmieszczonymi.
* **`rand`** to tablica 2x3 z losowymi liczbami zmiennoprzecinkowymi z zakresu \[0,1).


**Wskazówka:** Przydatnym atrybutem jest też **`.ndim`** (liczba wymiarów tablicy). Np. **`matrix.ndim`** dla tablicy 2D wyniesie 2, a **`vector.ndim`** dla wektora 1D wyniesie 1. Ponadto **`.size`** zwraca **całkowitą liczbę elementów** w tablicy (iloczyn wielkości wzdłuż wszystkich wymiarów).


In [35]:
print("ndim vector:", vector.ndim, " size:", vector.size)
print("ndim matrix:", matrix.ndim, " size:", matrix.size)


ndim vector: 1  size: 5
ndim matrix: 2  size: 9





Teraz gdy znamy podstawy tworzenia tablic, przejdźmy do pobierania danych z tablic, czyli indeksowania i *slicingu*.


In [38]:
# Dostęp do elementów tablicy 1D i 2D
nested_list= [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
print(nested_list[0][0])

1




### **Indeksowanie i slicing w tablicach 1D, 2D, 3D**

Indeksowanie w NumPy jest zbliżone do indeksowania standardowych sekwencji Pythona, ale daje też dużo większe możliwości (np. indeksowanie wielowymiarowe, indeksowanie maskami boolean, itp.).

**Indeksowanie proste (liczbami całkowitymi)**:

* Tablice NumPy są **indeksowane od 0** (tak jak listy w Pythonie).
* Dla tablicy 1D **`vector`**, element o indeksie **`i`** uzyskamy poprzez **`vector[i]`**.
* Dla tablic wielowymiarowych podajemy indeksy dla kolejnych wymiarów oddzielone przecinkami, np. **`matrix[1, 2]`** to element w 2. wierszu i 3. kolumnie (bo indeksy od 0).

Przykłady:

In [42]:

# Indeksowanie tablicy 1D
print(vector)        # array([1, 2, 3, 4, 5])
print("Element o indeksie 0:", vector[0])
print("Element o indeksie 4:", vector[4])
print("Ostatni element:", vector[-1])  # ostatni element (indeks -1)
# print(vector[5])   # odkomentowanie spowoduje błąd IndexError (indeks poza zakresem)

[1 2 3 4 5]
Element o indeksie 0: 1
Element o indeksie 4: 5
Ostatni element: 5


In [43]:
print(matrix)
print(matrix.shape)

[[10. 20. 30.]
 [40. 50. 60.]
 [70. 80. 90.]]
(3, 3)


In [45]:
# Indeksowanie tablicy 2D
print(matrix)
print("Element w 1. wierszu, 2. kolumnie:", matrix[1, 2])  # matrix[1][2] również zadziała, ale zalecane jest [1,2]
print("Element w 0. wierszu, 0. kolumnie:", matrix[0, 0])


[[10. 20. 30.]
 [40. 50. 60.]
 [70. 80. 90.]]
Element w 1. wierszu, 2. kolumnie: 60.0
Element w 0. wierszu, 0. kolumnie: 10.0



Wyniki:

* **`vector[0]`** powinno zwrócić pierwszą wartość **`1`**.
* **`vector[4]`** zwróci **`5`** (ostatni element, ponieważ tablica ma indeksy 0..4).
* **`matrix[1, 2]`** to wartość w drugim wierszu (indeks 1) i trzeciej kolumnie (indeks 2). Zgodnie z tablicą z wcześniejszego przykładu **`matrix`**, powinno to być **`60`**.
* **`matrix[0, 0]`** to lewy górny róg **`matrix`**, czyli **`10`** w naszym przykładzie.



**Slicing (wycinki)**:

Składnia slicing w Pythonie (**`start:stop:step`**) działa także na tablicach NumPy. W przypadku wielowymiarowych tablic możemy slicing stosować niezależnie na każdym wymiarze, oddzielając zakresy przecinkami.

* **`array[start:stop]`** – wybiera elementy w indeksach od **`start`** do **`stop-1`** (tak jak w listach, koniec **nie** jest włączony).
* Można pominąć **`start`** lub **`stop`**, uzyskując domyślnie początek lub koniec tablicy.
* **`step`** określa co który element brać (domyślnie 1).


Przykłady na tablicy 1D:


In [46]:

print("vector:", vector)       # [1 2 3 4 5]
print("vector[1:4]:", vector[1:4])   # od indeksu 1 do 3 -> [2 3 4]
print("vector[:3]:", vector[:3])     # od początku do indeksu 2 -> [1 2 3]
print("vector[3:]:", vector[3:])     # od indeksu 3 do końca -> [4 5]
print("vector[::2]:", vector[::2])   # co drugi element -> [1 3 5]
print("vector[::-1]:", vector[::-1]) # odwrócenie kolejności -> [5 4 3 2 1]


vector: [1 2 3 4 5]
vector[1:4]: [2 3 4]
vector[:3]: [1 2 3]
vector[3:]: [4 5]
vector[::2]: [1 3 5]
vector[::-1]: [5 4 3 2 1]


Slicing tablicy 2D (np. **`matrix`**). Załóżmy **`matrix`** według wcześniejszego przykładu:


In [61]:

matrix =np.array( [[10, 20, 30],
          [40, 50, 60],
          [70, 80, 90]])


Indices:

* Wiersze: 0,1,2
* Kolumny: 0,1,2

Kilka przykładów wycinania fragmentów:

In [56]:
print("matrix:\n", matrix)
print("Wiersz 1:\n", matrix[1, :])         # drugi wiersz (indeks 1), wszystkie kolumny -> [40 50 60]
print("Kolumna 2:\n", matrix[:, 2])        # wszystkie wiersze, kolumna 2 (trzecia) -> [30 60 90]
print("Pierwsze dwa wiersze:\n", matrix[:2, :])   # wiersze 0 i 1, wszystkie kolumny (wynik to tablica 2x3)
print("Podtablica (wiersze 0-1, kolumny 1-2):\n", matrix[:2, 1:3])


matrix:
 [[10 20 30]
 [40 50 60]
 [70 80 90]]
Wiersz 1:
 [40 50 60]
Kolumna 2:
 [30 60 90]
Pierwsze dwa wiersze:
 [[10 20 30]
 [40 50 60]]
Podtablica (wiersze 0-1, kolumny 1-2):
 [[20 30]
 [50 60]]




Wyniki:

* **`matrix[1, :]`** wyciąga cały wiersz o indeksie 1: **`[40 50 60]`**.
* **`matrix[:, 2]`** wyciąga całą kolumnę o indeksie 2: **`[30 60 90]`**. (Uwaga: wynik w tym wypadku będzie 1-wymiarową tablicą z 3 elementami.)
* **`matrix[:2, :]`** wybiera wiersze o indeksach 0 i 1 (czyli dwa pierwsze wiersze) oraz wszystkie kolumny. 


**Tablice 3D i wyższych wymiarów**: Indeksowanie i slicing rozszerza się naturalnie. Dla tablicy 3-wymiarowej musimy podać trzy indeksy lub zakresy (np. **`arr3d[x, y, z]`**). Poniżej krótki przykład:


In [57]:
# Tworzymy tablicę 3D o wymiarach 2 x 3 x 4 (np. 2 "warstwy" 3x4)
arr3d = np.arange(24).reshape((2, 3, 4))
print("arr3d shape:", arr3d.shape)
print(arr3d)  # wypisuje całą strukturę 3D

arr3d shape: (2, 3, 4)
[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]


In [59]:


# Indeksowanie 3D: arr3d[layer, row, col]
print("Element [1, 2, 3]:", arr3d[1, 2, 3])  # warstwa 1, wiersz 2, kolumna 3
# Slicing 3D: np. druga warstwa, wszystkie wiersze, kolumny 1-2
print("Druga warstwa, kolumny 1-2:\n", arr3d[1, :, 1:3])


Element [1, 2, 3]: 23
Druga warstwa, kolumny 1-2:
 [[13 14]
 [17 18]
 [21 22]]



W powyższej tablicy **`arr3d`**:

* **`.shape`** będzie **`(2, 3, 4)`** czyli 2 warstwy, 3 wiersze, 4 kolumny.
* **`arr3d[1, 2, 3]`** pobiera element z **drugiej** warstwy (**`index 1`**), **trzeciego** wiersza (**`index 2`**), **czwartej** kolumny (**`index 3`**). Jeśli **`arr3d`** został wypełniony **`np.arange(24)`**, to wartości rosną kolejno, więc możemy przewidzieć, że ten element ma wartość 23 (ponieważ 0-23 to 24 liczby, ostatnia to 23).
* **`arr3d[1, :, 1:3]`** wycina z drugiej warstwy (index 1) wszystkie wiersze (**`:`**) i kolumny 1 oraz 2 (**`1:3`** - pamiętajmy że stop jest nieinclusive, więc kolumny 1 i 2). Wynik to podtablica 3x2 (3 wiersze, 2 kolumny) z warstwy 1.

**Ważna uwaga:** W NumPy **slicing nie tworzy nowej kopii danych, lecz daje *widok* (view) na oryginalną tablicę**. Oznacza to, że modyfikując wycinek, zmodyfikujemy oryginalną tablicę! (Jeśli chcemy skopiować dane, należy wywołać metodę **`.copy()`** na wycinku). Przykład:


In [63]:
sub_matrix = matrix[:2, :2]   # wycinek 2x2 z oryginalnej tablicy matrix
print("sub_matrix przed modyfikacją:\n", sub_matrix)
sub_matrix[0, 0] = 999        # zmieniamy jeden element w wycinku
print("sub_matrix po modyfikacji:\n", sub_matrix)
print("oryginalny matrix po modyfikacji wycinka:\n", matrix)


sub_matrix przed modyfikacją:
 [[10 20]
 [40 50]]
sub_matrix po modyfikacji:
 [[999  20]
 [ 40  50]]
oryginalny matrix po modyfikacji wycinka:
 [[999  20  30]
 [ 40  50  60]
 [ 70  80  90]]


In [67]:
vector

array([1, 2, 3, 4, 5])

In [66]:
# Przyklad fancy indexing w numpy
indices = [0, 2]  # indeksy wierszy, które chcemy wybrać
fancy_matrix = matrix[indices, :]  # wybieramy wiersze 0 i 2
print("fancy_matrix:\n", fancy_matrix)  # wyświetlamy wybrane wiersze

#Przyklad fancy indexingu z 2d
fancy_indices = np.array([[0, 1], [2, 0]])  # indeksy wierszy i kolumn
vector[fancy_indices]  # wybieramy elementy z tych indeksów

fancy_matrix:
 [[999  20  30]
 [ 70  80  90]]


array([[1, 2],
       [3, 1]])

In [68]:
fancy_indices

array([[0, 1],
       [2, 0]])

Po wykonaniu powyższego kodu zauważymy, że zmiana **`sub_matrix[0,0]`** wpłynęła również na **`matrix`**, ponieważ **`sub_matrix`** to tylko widok danych **`matrix`**. Podczas pracy z NumPy trzeba być tego świadomym, by nie wprowadzać niechcących zmian do oryginalnych danych. Jeśli potrzebujemy *niezależnej* kopii fragmentu tablicy, używamy **`sub_matrix = matrix[:2, :2].copy()`**.



### **Indeksowanie boolean (maskowanie) i indeksowanie listą**

Oprócz zwykłego indeksowania liczbowego, NumPy umożliwia **indeksowanie boolean**: przekazanie tablicy bool (**`True`**/**`False`**) o tym samym kształcie co wymiar, który indeksujemy. Wówczas zwracane są elementy, dla których maska ma wartość True. Np.:


In [75]:
matrix > 40

array([[ True, False, False],
       [False,  True,  True],
       [ True,  True,  True]])

In [76]:
print("matrix:\n", matrix)
mask = matrix > 50        # maska boolean, True tam gdzie element > 50
print("mask >50:\n", mask)
print("elements > 50:", matrix[mask])

matrix:
 [[999  20  30]
 [ 40  50  60]
 [ 70  80  90]]
mask >50:
 [[ True False False]
 [False False  True]
 [ True  True  True]]
elements > 50: [999  60  70  80  90]




Tutaj **`mask`** będzie tablicą boolean o kształcie (3,3) z wartościami True/False zależnie od warunku. Indeksowanie **`matrix[mask]`** zwróci 1-wymiarową tablicę zawierającą **wszystkie elementy `matrix`, dla których maska ma True**, czyli elementy > 50.

Indeksowanie listą/arrayem: Możemy także wybierać nieciągłe elementy przekazując listę indeksów, np. **`vector[[0, 2, 4]]`** zwróci tablicę z elementami o indeksach 0, 2, 4. Podobnie w wymiarach 2D: **`matrix[[0,2], [1,2]]`** – tutaj przekazujemy dwie listy: pierwsza to lista wybranych wierszy, druga – odpowiadających im kolumn. Zwrócony zostanie zbiór elementów (matrix\[0,1] i matrix\[2,2] w tym przykładzie). Ten rodzaj indeksowania nazywa się *advanced indexing* i zawsze tworzy nową tablicę (kopię danych), w odróżnieniu od podstawowego slicing.




### **Operacje arytmetyczne na tablicach i wektoryzacja (zamiast pętli)**

Jedną z największych zalet NumPy jest możliwość wykonywania operacji arytmetycznych na tablicach **całościowo**, bez potrzeby pisania pętli iterujących po elementach. Kod wykorzystujący te **wektorowe** operacje jest nie tylko bardziej zwięzły, ale też znacznie szybszy dzięki wewnętrznej implementacji w języku C.

**Podstawowe operacje elementwise:**

Operatory arytmetyczne (+, -, \*, /, \*\*, %) zastosowane do tablic NumPy działają *element-po-elemencie*. Oznacza to, że np. dodając dwie tablice o tym samym kształcie otrzymamy tablicę wynikową, gdzie każdy element jest sumą odpowiadających sobie elementów operandów.

Przykłady:

In [81]:
a = np.array([1, 2, 3])
b = np.array([10, 10, 10])
print("a + b =", a + b)      # array([11, 12, 13])
print("a - b =", a - b)      # array([-9, -8, -7])
print("a * b =", a * b)      # array([10, 20, 30]) elementwise multiplication
print("a / b =", a / b)      # array([0.1, 0.2, 0.3]) elementwise division (floating point)
print("a ** 2 =", a ** 2)    # array([1, 4, 9]) - potęgowanie każdego elementu


a + b = [11 12 13]
a - b = [-9 -8 -7]
a * b = [10 20 30]
a / b = [0.1 0.2 0.3]
a ** 2 = [1 4 9]




Te operacje zostały przeprowadzone **wektorowo** na całych tablicach jednocześnie. Ich odpowiednikiem w czystym Pythonie byłoby iterowanie po indeksach i operacje na pojedynczych liczbach, co jest dużo mniej wydajne.




**Wektoryzacja vs pętle – wydajność:**

W Pythonie pętle **`for`** są stosunkowo wolne, zwłaszcza gdy wewnątrz wykonujemy operacje arytmetyczne w czystym Pythonie. NumPy pozwala przenieść te operacje do kodu w C działającego na całych blokach danych. Dzięki temu, operacje na dużych tablicach mogą być **wielokrotnie (rzędy wielkości) szybsze** od ekwiwalentnych operacji wykonywanych pętlą Pythona.

Dla ilustracji, rozważmy prosty przykład: chcemy dodać dwie tablice 10-milionów liczb. Porównamy podejście pętli Python vs wektorowego dodawania NumPy (ten kod można wykonać, chociaż dla 10 mln elementów może być odczuwalnie wolny w wersji pętlowej):


In [82]:

import time

# Przygotowanie danych - 10 milionów losowych liczb
N = 10_000_000
x = np.random.rand(N)
y = np.random.rand(N)

# Dodawanie za pomocą pętli Pythona
start = time.time()
result_loop = [x[i] + y[i] for i in range(N)]
end = time.time()
print("Czas dodawania pętlą Python:", end - start, "sekund")

# Dodawanie wektorowe NumPy
start = time.time()
result_vec = x + y  # wykorzystanie wektorowe
end = time.time()
print("Czas dodawania wektorowego:", end - start, "sekund")

Czas dodawania pętlą Python: 3.861135959625244 sekund
Czas dodawania wektorowego: 0.05312705039978027 sekund


In [84]:
%timeit -n 10 -r 3 x + y  # pomiar czasu dla operacji wektorowej
%timeit -n 10 -r 3 [x[i] + y[i] for i in range(N)]

59.6 ms ± 1.38 ms per loop (mean ± std. dev. of 3 runs, 10 loops each)


KeyboardInterrupt: 



Jeśli wykonamy powyższy kod, zazwyczaj zobaczymy dramatyczną różnicę. Dla takiej skali danych podejście wektorowe może być **dziesiątki, a nawet setki razy szybsze** od pętli Python. W literaturze znaleźć można przykłady, gdzie operacja wektorowa była nawet \~2500 razy szybsza od odpowiednika pętli w Pythonie. Oczywiście przy mniejszych tablicach różnice mogą być mniejsze (a dla bardzo małych struktur narzut wywołania funkcji NumPy może sprawić, że różnica nie będzie duża), jednak ogólna zasada brzmi: **używaj operacji wektorowych zawsze, gdy to możliwe**, zwłaszcza na dużych zbiorach danych.



**Uwaga:** Jeżeli w powyższym kodzie porównawczym zobaczysz ostrzeżenie od Pythona dotyczące zużycia pamięci lub podobne, zmniejsz N lub pomiń tę demonstrację. Dla naszych potrzeb edukacyjnych liczy się koncepcja.



### **Broadcasting – operacje na tablicach różnych rozmiarów**

Co jeśli chcemy wykonać operację arytmetyczną na tablicach o **różnych kształtach**? Muszą one mieć kompatybilne wymiary. Mechanizm **broadcasting** w NumPy pozwala, pod pewnymi warunkami, wykonywać operacje między tablicami o różnych rozmiarach, traktując mniejszą tablicę jakby była "rozciągnięta" (wirtualnie powielona) do rozmiarów większej. Dzięki temu możemy np. dodać wektor do każdej kolumny macierzy lub zastosować skalę do całej tablicy w prosty sposób.




**Zasady broadcastingu (uproszczone):**

1. Jeśli tablice mają różną liczbę wymiarów, to tablica o mniejszej liczbie wymiarów jest "rozszerzana" (dodawane wymiary o rozmiarze 1) z przodu, aż liczba wymiarów się zgodzi.
2. Następnie, dla każdego wymiaru, sprawdzane są rozmiary. Dwa wymiary są ze sobą kompatybilne jeśli:
   * mają ten sam rozmiar, **lub**
   * jeden z nich ma rozmiar **`1`**.
3. Tablica, która ma w danym wymiarze rozmiar 1, jest traktowana tak jakby była powielona do rozmiaru tego drugiego wymiaru (ale dzieje się to bez kopiowania danych w pamięci – to wirtualna operacja).
4. Jeśli w którymś wymiarze rozmiary różnią się i żadna z tablic nie ma rozmiaru 1 w tym wymiarze, wystąpi błąd (**`ValueError: operands could not be broadcast together`**).



Przykłady:

* Dodawanie skalaru do tablicy: działa od razu, traktowane jak dodanie liczby do każdego elementu tablicy.
* Dodawanie wektora (1D) do macierzy (2D) wzdłuż wierszy lub kolumn:
  * Jeśli wektor ma długość taką jak liczba kolumn macierzy, możemy go dodać do macierzy – zostanie dodany do każdego wiersza.
  * Jeśli wektor ma długość taką jak liczba wierszy, możemy go dodać, ale trzeba odpowiednio ustawić kształty (np. wektor kolumnowy).


Aby zilustrować, utwórzmy macierz 3x4 i wektor długości 4:


In [86]:
M = np.arange(12).reshape(3, 4)
v = np.array([10, 20, 30, 40])

In [92]:
v

array([10, 20, 30, 40])

In [96]:
#Print shapes of M and v
print("Shape of M:", M.shape)  # (3, 4)
print("Shape of v:", v.shape)  # (4,)

Shape of M: (3, 4)
Shape of v: (4,)


In [95]:

print("M:\n", M)
print("v:\n", v)
# Dodawanie wektora v do każdej linii macierzy M
print("M + v:\n", M + v)

M:
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
v:
 [10 20 30 40]
M + v:
 [[10 21 32 43]
 [14 25 36 47]
 [18 29 40 51]]




W powyższym przypadku **`M`** ma kształt (3,4), **`v`** ma kształt (4,). Mechanizm broadcastingu dopasował **`v`** do drugiego wymiaru **`M`** (kolumn): wektor **`v`** został konceptualnie powielony na 3 wiersze i dodany do każdego wiersza **`M`**. Innymi słowy **`M[i,j] + v[j]`** dla każdego **`i,j`**.

Jeśli chcielibyśmy dodać wektor o długości 3 (np. **`w = np.array([100,200,300])`**) jako kolumnę do macierzy 3x4, to bezpośrednio **`M + w`** by się nie udało, bo wymiary (3,4) i (3,) nie są kompatybilne w obecnej formie. Ale możemy uczynić **`w`** wektorem kolumnowym zmieniając jego kształt na (3,1), np. **`w.reshape(3,1)`** albo dodając wymiar za pomocą **`np.newaxis`** (**`w[:, np.newaxis]`** da kształt (3,1)). Wtedy dodanie zadziała przez powielenie kolumn:


In [100]:
w = np.array([100, 200, 300])
print("w shape:\n", w.shape)         # (3,)
print("M + w.reshape(3,1):\n", M + w.reshape(3,1))


w shape:
 (3,)
M + w.reshape(3,1):
 [[100 101 102 103]
 [204 205 206 207]
 [308 309 310 311]]



Tutaj **`w`** o kształcie (3,1) został dodany do **`M`** (3,4) – NumPy broadcastował wzdłuż drugiego wymiaru (rozmiar 1 kolumny do 4 kolumn).

**Broadcasting** pozwala pisać bardzo zwięzły kod bez potrzeby ręcznego powielania tablic. Np. jeżeli chcemy znormalizować macierz, odejmując średnią każdego wiersza i dzieląc przez odchylenie standardowe każdego wiersza, możemy to zrobić za pomocą broadcastingu w jednej operacji zamiast zagnieżdżonych pętli.



### **Funkcje uniwersalne (ufunc) i wbudowane operacje NumPy**

NumPy udostępnia wiele funkcji do operacji na tablicach, zarówno element-po-elemencie (tzw. *universal functions* – ufunc), jak i do agregacji wyników. Wspomniane wcześniej operatory arytmetyczne są w rzeczywistości przykładem ufunc (np. dodawanie to ufunc **`np.add`**, mnożenie **`np.multiply`** itd.), ale poniżej omówimy kilka najczęściej używanych funkcji:

* **Funkcje matematyczne elementwise**: np. **`np.sqrt`**, **`np.exp`**, **`np.sin`**, **`np.log`**, **`np.abs`** i wiele innych. Działają na każdej wartości tablicy, zwracając tablicę wynikową.
* **Agregacje (funkcje sumujące)**: np. **`np.sum`** (suma elementów), **`np.mean`** (średnia), **`np.std`** (odchylenie standardowe), **`np.min`**/**`np.max`** (minimum/maksimum), **`np.prod`** (iloczyn elementów), **`np.cumsum`** (skumulowana suma), **`np.any`**/**`np.all`** (czy jest jakikolwiek spełniający warunek / czy wszystkie spełniają warunek, szczególnie użyteczne z maskami boolean).
* **Operacje logiczne**: **`np.where`** (wybór elementów na podstawie warunku), **`np.count_nonzero`** (liczba niezerowych elementów / True w maskach), itp.


In [102]:
data = np.array([1.0, -2.5, 3.5, 0.0])
print("data:", data)
print("abs:", np.abs(data))      # wartości bezwzględne
print("sqrt:", np.sqrt(np.abs(data)))  # pierwiastek (z wartości bezwzględnych, bo sqrt z negatywnych nie jest zdefiniowane dla realnych)
print("square:", np.square(data))  # kwadrat każdego elementu (to samo co **2)
print("sum:", np.sum(data))      # suma wszystkich elementów: 1.0 + (-2.5) + 3.5 + 0.0 = 2.0
print("mean:", np.mean(data))    # średnia arytmetyczna: 0.5
print("max:", np.max(data))      # maksymalna wartość: 3.5
print("argmax:", np.argmax(data))# indeks maksymalnej wartości: 2 (bo data[2] = 3.5)
print('cumsum:', np.cumsum(data))  # skumulowana suma: [ 1.  -1.5  2.   2. ]

data: [ 1.  -2.5  3.5  0. ]
abs: [1.  2.5 3.5 0. ]
sqrt: [1.         1.58113883 1.87082869 0.        ]
square: [ 1.    6.25 12.25  0.  ]
sum: 2.0
mean: 0.5
max: 3.5
argmax: 2
cumsum: [ 1.  -1.5  2.   2. ]



Wyniki tych operacji są zazwyczaj albo pojedynczą wartością (skalar, np. **`np.sum`**) albo nową tablicą (np. **`np.abs`**, **`np.sqrt`** dają nową tablicę). Warto zwrócić uwagę na funkcje **`np.argmax`**/**`np.argmin`** – zwracają indeks pierwszego wystąpienia max/min. W naszym **`data`** maks = 3.5, stoi na indeksie 2, więc **`np.argmax(data)`** da 2.



W przypadku tablic wielowymiarowych, funkcje agregujące (sumy, min, średnie itp.) mogą działać na **całej tablicy** lub wzdłuż zadanej osi. Parametr **`axis`** w tych funkcjach określa wymiar, **który zostanie "zredukowany"**. Np. dla macierzy (2D):

* **`np.sum(matrix, axis=0)`** – zsumuje elementy **wzdłuż osi 0** (czyli kolumny), zwracając sumy dla każdej kolumny (otrzymamy tablicę 1D długości = liczba kolumn).
* **`np.sum(matrix, axis=1)`** – suma **wzdłuż osi 1** (czyli po wierszach), wynik: suma każdego wiersza, dostaniemy tablicę długości = liczba wierszy.

Przykład zastosowania na **`matrix`** 3x3 z poprzednich przykładów:

In [114]:
# example matrix with shape 2x3
matrix = np.array([[1, 2, 3],
                            [4, 5, 6]])

# # example matrix with shape 2x3x4
# matrix = np.random.rand(2, 3, 4) 

In [115]:
print("matrix:\n", matrix)
print('matrix shape:', matrix.shape)  # (3, 3)
print("Suma wszystkich elementów:", np.sum(matrix))
print("Suma wzdłuż osi 0 (kolumny):", np.sum(matrix, axis=0))  # sumy kolumn
print("Suma wzdłuż osi 1 (wiersze):", np.sum(matrix, axis=1))  # sumy wierszy
print("Średnia w kolumnach:", np.mean(matrix, axis=0))
print("Max w każdym wierszu:", np.max(matrix, axis=1))


matrix:
 [[1 2 3]
 [4 5 6]]
matrix shape: (2, 3)
Suma wszystkich elementów: 21
Suma wzdłuż osi 0 (kolumny): [5 7 9]
Suma wzdłuż osi 1 (wiersze): [ 6 15]
Średnia w kolumnach: [2.5 3.5 4.5]
Max w każdym wierszu: [3 6]



Jeśli **`matrix = [[10,20,30],[40,50,60],[70,80,90]]`**, to:

* Suma wszystkich = 450.
* Suma kolumn = **`[10+40+70, 20+50+80, 30+60+90] = [120, 150, 180]`**.
* Suma wierszy = **`[10+20+30, 40+50+60, 70+80+90] = [60, 150, 240]`**.
* Średnia w kolumnach = odpowiednio **`[40, 50, 60]`** (bo kolumny 0: (10+40+70)/3 = 40, kolumna1: (20+50+80)/3 = 50, kolumna2: (30+60+90)/3 = 60).
* Max w każdym wierszu = **`[30, 60, 90]`**.



Każda z tych operacji zwróci nową tablicę (lub skalar), nie modyfikuje oryginalnej.

**Łączenie tablic**: Często zachodzi potrzeba sklejenia tablic ze sobą. NumPy oferuje funkcje takie jak **`np.concatenate`**, **`np.vstack`** (vertical stack), **`np.hstack`** (horizontal stack) itp. **`np.concatenate((a,b), axis=...)`** łączy listę tablic wzdłuż zadanej osi (tablice muszą mieć zgodne wymiary poza tą osią). Np.:


In [119]:
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
c = np.concatenate((a, b))
print("c:", c)  # [1 2 3 4 5 6]


c: [1 2 3 4 5 6]


In [125]:

A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])
C0 = np.concatenate((A, B), axis=0)  # doklejanie wierszy (axis=0)
C1 = np.concatenate((A, B), axis=1)  # doklejanie kolumn (axis=1)
print("A:\n", A)
print("B:\n", B)
print('Shape A:', A.shape)  # (2, 2)
print('Shape B:', B.shape)  # (2, 2)
print()
print("C0:\n", C0)
print("Shape C0:", C0.shape)  # (4, 2)
print("C1:\n", C1)
print("Shape C1:", C1.shape)  # (2, 4)


A:
 [[1 2]
 [3 4]]
B:
 [[5 6]
 [7 8]]
Shape A: (2, 2)
Shape B: (2, 2)

C0:
 [[1 2]
 [3 4]
 [5 6]
 [7 8]]
Shape C0: (4, 2)
C1:
 [[1 2 5 6]
 [3 4 7 8]]
Shape C1: (2, 4)




Dla danych z przykładu:

* **`c`** będzie **`[1 2 3 4 5 6]`** (połączenie dwóch wektorów).
* **`C0`** połączy macierze A i B **pionowo** (więcej wierszy): skoro A i B są 2x2, wynik C0 będzie 4x2.
* **`C1`** połączy macierze A i B **poziomo** (więcej kolumn): wynik będzie 2x4.


Istnieją też wygodne funkcje:

* **`np.vstack([A, B])`** robi to samo co concat axis=0 w przypadku 2D (stack po wierszach),
* **`np.hstack([A, B])`** to concat axis=1 (doklejanie kolumnami).
* Dla tablic wyższych wymiarów są analogiczne **`np.dstack`** (dla trzeciego wymiaru) itd.

In [127]:
display(np.vstack((A, B)),np.hstack((A, B)) ) # poziome doklejanie (jak concatenate(axis=1))

array([[1, 2],
       [3, 4],
       [5, 6],
       [7, 8]])

array([[1, 2, 5, 6],
       [3, 4, 7, 8]])



### **Wydajność NumPy – dlaczego warto wektoryzować?**

Podsumowując część numeryczną: główną przewagą NumPy jest wydajność. Operacje wektorowe i broadcasted wykonują się w zoptymalizowanym kodzie (C, Fortran) pod spodem, omijając główny narzut interpretera Pythona dla każdej iteracji. Dlatego kod korzystający z NumPy potrafi być nie tylko zwięzły, ale i **rzędy wielkości szybszy**.

Pamiętajmy o kilku zasadach dla lepszej wydajności:



* Unikajmy jak ognia pętli **`for`** iterujących po elementach tablicy. Zamiast tego starajmy się skorzystać z wbudowanych operacji (wektoryzacja).
* Wykorzystujmy *broadcasting* zamiast ręcznego powielania danych czy zagnieżdżonych pętli.
* Zwróćmy uwagę na typy danych (**`dtype`**). Czasem użycie typu o niższej precyzji (np. float32 zamiast float64) może przyspieszyć obliczenia i zmniejszyć zużycie pamięci, jeśli najwyższa precyzja nie jest potrzebna.
* Jeśli operujemy na naprawdę dużych tablicach i napotkamy ograniczenia pamięciowe lub wydajnościowe, istnieją bardziej zaawansowane rozwiązania (np. biblioteka **Numexpr** do jeszcze szybszych obliczeń, biblioteka **CuPy** do wykorzystania GPU, czy rozkładanie danych na części), ale to poza zakresem naszych zajęć powtórkowych.

Na koniec tej części poćwiczmy praktycznie. Poniżej znajdziesz zadania dotyczące NumPy do samodzielnego wykonania.




### **Zadania**

**Zadanie 1:** Utwórz 1-wymiarową tablicę NumPy zawierającą liczby od 10 do 19 (włącznie), a następnie:

* wypisz na ekran jej kształt oraz typ danych,
* zmień kształt tej tablicy na tablicę 2-wymiarową o wymiarach 2x5 (2 wiersze, 5 kolumn) za pomocą **`np.reshape`**,
* wypisz tę przekształconą tablicę.



**Zadanie 2:** Mając daną tablicę 2D **`X`** o wymiarach 4x4 (np. wygeneruj ją przez **`np.arange(16).reshape(4,4)`**), wykonaj następujące operacje:

* Wytnij z niej podtablicę zawierającą 2. i 3. wiersz oraz 2. i 3. kolumnę (indeksy 1-2 dla wierszy i kolumn).
* Wytnij z niej ostatnią kolumnę jako wektor.
* Oblicz sumę elementów wzdłuż osi 0 (kolumny) i wzdłuż osi 1 (wiersze).



**Zadanie 3:** Wygeneruj dwie tablice 1-wymiarowe **`a`** i **`b`** po 5 losowych liczb (użyj **`np.random.rand(5)`**). Następnie:

* Oblicz różnicę **`a - b`** oraz iloczyn **`a * b`** (element-po-elemencie).
* Porównaj wyniki z wykonaniem tych operacji pętlą (czy otrzymasz te same rezultaty? **Uwaga:** nie mierz tutaj czasu, chodzi tylko o weryfikację poprawności).
* Oblicz średnią wartość i odchylenie standardowe z tablicy **`a`** oraz maksymalną wartość z tablicy **`b`**.





**Zadanie 4:** Zaprezentuj działanie broadcastingu:

* Utwórz tablicę **`A`** o wymiarach 3x3 zawierającą kolejne liczby od 1 do 9.
* Utwórz wektor **`w`** długości 3 zawierający np. \[1, 2, 3].
* Wykonaj operację **`A + w`** i wyjaśnij (w komentarzu) otrzymany wynik.
* Następnie przekształć **`w`** na wektor kolumnowy (czyli kształt (3,1)) i wykonaj **`A + w`** ponownie – porównaj rezultaty.



**Zadanie 5 (trudniejsze, wydajność):** Napisz funkcję, która dla danej tablicy 1D zwraca sumę kwadratów jej elementów. Zaimplementuj to na dwa sposoby:

1. Używając pętli Pythona.
2. Wykorzystując operacje wektorowe NumPy.

Przetestuj funkcje na dużej tablicy (np. milion elementów losowych) i zmierz czas działania obu metod (możesz użyć **`time.time()`** lub magicznej komendy **`%timeit`** w Jupyter Notebook). Czy obserwujesz różnicę? Która metoda jest szybsza i dlaczego?
