*Karolina Wadowska [wadowska@agh.edu.pl], Maciej Trzciński [mtrzcins@agh.edu.pl], WFiIS AGH 2024*

## Wstęp do numpy, pandas i matplotliba (dla zainteresowanych)

Na zajęciach będziemy prezentować rozwiązania zadań używając NumPy i matplotliba. Dodatkowo często będziemy pobierać dane z plików, w czym przydaje się Pandas. Ich znajomość może się przydać, ale programistyczne aspekty na zajęciach nie podlegają ocenie, dopóki wyniki są poprawne.

Zwłaszcza dla tych, którzy nie mają dużego doświadczenia z pythonem, polecamy zapoznanie się z tym notebookiem, bo może on znacznie ułatwić pracę na zajęciach.

Zarówno numpy, pandas jak i matplotlib mogą się Państwu przydać w przyszłości np. przy pisaniu pracy inżynierskiej i generowaniu wykresów, ale też w pracy, jeżeli będą Państwo musieli tworzyć wizualne raporty lub pracować z jakąkolwiek analizą danych, zwłaszcza, że narzędzia te stanowią wygodną i nowoczesną alternatywę dla oprogramowania takiego jak matlab, R, gnuplot.

## Czym jest NumPy i czemu z niego korzystamy?

Wykonywanie operacji matematycznych na wbudowanej strukturze listy w Pythonie jest często niewygodne i stosunkowo wolne. NumPy (Numerical Python) to biblioteka dla języka Python oferująca wsparcie dla obliczeń na wielowymiarowych danych, takich jak szybkie dodawanie i przeszukiwanie wektorów, mnożenie macierzy, liczenie transformat Fouriera, i tak dalej.

Numpy jest często wykorzystywany w obliczeniach numerycznych, a dla wielu bibliotek AI jest albo podstawową, albo pomocniczą biblioteką do przechowywania danych.

Podstawą NumPy jest array, który jest wielowymiarową tablicą liczb. Co ważne, wszystkie elementy arraya są tego samego typu.

In [None]:
# importowanie numpy
import numpy as np

In [None]:
# Array można stworzyć na różne sposoby
# Funkcja zeros tworzy array wypełniony zerami, a pierwszy argument to lista (uwaga! Listy zawieramy w nawiasach okrągłych) określająca wymiary tego arraya.
# Przykładowo (2, 3) oznacza stworzenie tablicy 2 na 3.
# Podanie pojedynczej liczby zamiast listy spowoduje stworzenie 1-wymiarowej liczby
arr1 = np.zeros((2,10))
arr1

In [None]:
# Inny sposób tworzenia arraya to arange, który tworzy 1-wymiarowy array i wypełnia go wartościami z podanego zakresu
# Argumenty podaje się w sposób podobny do wbudowanej w pythona funkcji range
arr2 = np.arange(start=1.0, stop = 2.0, step = 0.1)
arr2

In [None]:
# Używając funkcji linspace, możemy w NumPy stworzyć array pomiędzy dwoma wartościami,
# z dowolną ilością kroków pomiędzy
linspace_array = np.linspace(-2,2,6)
linspace_array

In [None]:
# Używając funkcji random.normal można wygenerować punkty z rozkładu normalnego.
# Pierwszy argument to mu (wart. oczekiwana), drugi to sigma (odch. standardowe),
# trzeci argument to ilość elementów
normal_array = np.random.normal(0,1,20)
normal_array

In [None]:
# Możemy często wykonywać operacje na arrayach jakby były liczbami
# Są wtedy wykonywane jakby były wykonywane na każdym elemencie arrayu
np.sqrt(linspace_array + 6) * 3

In [None]:
# Można też stworzyć array ze zwykłej pythonowej listy. Lista list zostanie zamieniona na pojedynczy, wielowymiarowy array
arr3 = np.array([[1,2],[3,4]])
arr3

In [None]:
# Ważną rzeczą w numpy są osie (axes), czyli wymiary tablicy. Wiele operacji wykonuje się względem któregoś wymiaru.
# Jedną z podstawowych operacji, czyli konkatenację, można wykonać względem różnych osi. W zależności od tego,
# po której osi sklejamy arraye 2-wymiarowe, będziemy mieć konkatenację według kolumn lub według rzędów.
arr4 = np.array([[5,6],[7,8]])
print("Po osi 0")
print(np.concatenate((arr3,arr4),axis=0))
print("Po osi 1:")
print(np.concatenate((arr3,arr4),axis=1))

In [None]:
# Wymiary arraya można otrzymać z atrybutu shape, a całkowitą ilość elementów z atrybutu size
print("Kształt arr1: ", arr1.shape)
print("Rozmiar arr1: ", arr1.size)

In [None]:
# Dostęp do elementów arraya można realizować wpisując koordynaty w pojedynczy nawias kwadratowy.
# Użycie ":" działa w tym wypadku podobnie jak w wypadku zwykłych list w pythonie

arr5 = np.array([[0,1,2,3,4,5,6,7,8,9],[10,11,12,13,14,15,16,17,18,19]])

print("Element 0,3 z arr5: ", arr5[0,3])
print("Elementy z rzędu 0 i kolumn 0, 1 i 2:", arr5[0,:3])
print("Elementy z kolumny 8:", arr5[:,8])

In [None]:
# W NumPy wiele funkcji matematycznych jest wbudowanych w jedną wygodną funkcję.

# Dodawanie dwóch arrayów:
print(np.add(arr3,arr4))

In [None]:
# Mnożenie arraya razy skalar:
print(arr3*100.)

In [None]:
# szukanie maximum i indeksu maksimum
arr6 = np.array([3.,9.,1.,7.,15.,0.,0.5,3.5])
print(np.max(arr6))
print(np.argmax(arr6))
print(np.sort(arr6))

In [None]:
# Numpy obsługuje też większość operacji na macierzach, np. szukanie wyznacznika
np.linalg.det(arr3)

In [None]:
# Czasem przydatne może być zmienianie kształtu arraya np. zamienianie 1-wymiarowej tablicy danych na macierz
# albo "wypłaszczanie" elementów macierzy w jednowymiarowy array. Służy do tego funkcja reshape.

array_to_reshape= np.array([[1,2,3],[4,5,6]])
print(array_to_reshape)
print(np.reshape(array_to_reshape, newshape=(6)))

### Przydatne funkcje matematyczne w NumPy

- **sin(array)** - sinus na każdym elemencie arraya osobno
- **cos(array)** - cosinus na każdym elemencie arraya osobno
- **sqrt(array)** - pierwiastek kwadratowy na każdym elemencie arraya osobno
- **sum(array)** - suma elementów w arrayu
- **mean(array)** - średnia arytmetyczna elementów w arrayu
- **max(array)**, **min(array)** - maximum/minimum w arrayu
- **argmax(array)**, **argmin(array)** - indeks największego/najmniejszego elementu w arrayu

... i wiele innych

### Materiały do nauki numpy:
https://numpy.org/devdocs/user/quickstart.html

https://www.w3schools.com/python/numpy/numpy_intro.asp

## Pandas

Biblioteką blisko współpracującą z NumPy służącą do analizy danych i ich przetwarzania jest biblioteka Pandas, operująca na tzw. DataFrames, będących wygodnymi obiektami przechowującymi dane różnych typów w formie przypominającej tabele.



In [None]:
# DataFrame można m.in. stworzyć z arraya numpy

import pandas as pd

array_to_pd = np.array([[7,20],[9,60],[21,120]])

# Warto zauważyć, że dane wyświetlają się ładnie w notebooku
df = pd.DataFrame(array_to_pd, columns=("Kolumna 1", "Kolumna 2"))
df

In [None]:
# Można też zamienić dataframe z powrotem w array:

print(df.to_numpy())

In [None]:
# Dostęp do określonych elementów DataFrame jest możliwy za pomocą nazw kolumn

print(df["Kolumna 1"])
print(df["Kolumna 1"][0])

In [None]:
# inną funkcja pozwalającą na dostęp do elementów DataFrame jest funkcja iloc,
# działająca podobnie jak adresowanie elementów w numpy

# pojedynczy element
print(df.iloc[0,0])

# pojedynczy wiersz
print(df.iloc[0])

# pojedyncza kolumna
print(df.iloc[:,0])

In [None]:
# często pandas wykorzystywany jest do wygodnego pobierania danych z csv
# wykorzystamy przykładowy plik dostępny w /sample_data w colabie

file = open("sample_data/california_housing_test.csv", "r")

df_from_file = pd.read_csv(file)

df_from_file

In [None]:
# jeżeli pobraliśmy z pliku dane, możemy przejrzeć np. ich kolumny

df_from_file.columns

In [None]:
# rozmiar ramki znajdziemy pod atrybutem size i shape, podobnie jak w numpy:

print(df_from_file.size)
print(df_from_file.shape)

In [None]:
# na danych w dataframe możemy operować podobnie jak na arrayach numpy

# liczenie średniej dla każdej kolumny z osobna
print(df_from_file.mean())

## Materiały do nauki Pandas:

https://pandas.pydata.org/docs/user_guide/10min.html

## Matplotlib

Bardzo wygodną biblioteką do rysowania wykresów jest matplotlib, kompatybilny z biblioteką numpy. Pozwala tworzyć bardzo ładne wykresy 2-wymiarowe, heatmapy, a nawet animowane wykresy 3d znacznie prościej niż takie narzędzia jak gnuplot.

In [None]:
import matplotlib.pyplot as plt

In [None]:
# Jedną z podstawowych funkcji jest scatter, który rysuje punkty.
# 1-szy argument to pozycje x punktów, 2-gi argument to pozycje y punktów.
# Argument c pozwala na kontrolę koloru punktów. Może być podany jako litera,
# albo jako tablica

X = np.array([0.3,1.7,-0.6,0.])
Y = np.array([0.,1.0,1.0,-0.3])

plt.scatter(X,Y, c = 'r')

In [None]:
# Dysponując arrayem punktów, scatter można używać wykorzystując indeksowanie NumPy.

XX = np.array([[0.,0.],[1.,1.],[2.,2.],[3.,3.]])
plt.scatter(XX[:,0], XX[:,1], c = 'g')

In [None]:
# Funkcja plot pozwala rysować zwykłe wykresy
X = np.linspace(-10,10,200)
Y = np.sin(X)**2.

# Pierwszym argumentem plot są pozycje x, drugim pozycje y, trzecim styl.
# Styl składa się z różnych elementów, ale przede wszystkim ze stylu linii i koloru

plt.plot(X, Y, '-r')

In [None]:
# W innym stylu ten wykres może wyglądać np. tak:

plt.plot(X, Y, '+b')

In [None]:
# Możemy dodać do wykresu tytuł, oznaczyć osie i wykresy
Y2 = np.cos(0.8*X)+0.3*X

plt.plot(X, Y, '-c',label="Funkcja 1")
plt.plot(X, Y2, '-r', label = "функція 2")

# legend wymusza pokazanie labeli, które umieśiliśmy w wykresach
plt.legend()

plt.xlabel("Oś x")
plt.ylabel("Oś y")
plt.title("Przykładowy wykres")

# Warto zauważyć, że większość znaków unicode powinno działać (np. znaki polskie,
# ukraińskie, itp)
# i powinny wyświetlać się poprawnie

In [None]:
# Innym przydatnym narzędziem jest np. histogram

random_numbers = np.random.normal(0,1,1000)

# argumentem bins sterujemy ilością słupków
# możemy podać liczbę słupków albo 'auto'
plt.hist(random_numbers,bins='auto')
plt.title("Rozkład normalny")

In [None]:
# oczywiście można wykorzystywać pandas i matplotlib razem

# funkcja plot pozwala rysować bezpośrednio z DataFrame

df_from_file.plot(kind='scatter',x='longitude',y='latitude')

### Materiały do nauki matplotliba:

https://matplotlib.org/stable/users/explain/quick_start.html