# Biblioteki Python: numpy, matplotlib, ...

* moduły, import bibliotek
* numpy - operacje macierzowe (_a la_ Matlab)
* matplotlib - wykresy (_a la_ Matlab)


## Moduły i pakiety

Lista wbudowanych funkcji: https://docs.python.org/3/library/functions.html  

Lista wbudowanych pakietów: https://docs.python.org/3/library/index.html

Przykład: 
* **math** https://docs.python.org/3/library/math.html
* **random** https://docs.python.org/3/library/random.html
* **time** https://docs.python.org/3/library/time.html

## Importowanie modułów


In [None]:
import math

x = math.sqrt(2)
print(x)

Importowanie z nadaniem aliasu (własnej nazwy)

In [None]:
import random as r

for i in range(10):
    print(r.random())

Importowanie pojedynczej funkcji z pakietu

In [None]:
from time import sleep

for i in range(10, 1, -1):
    print(i)
    sleep(1)

print('Start!')

## NumPy - bibloteka do obliczeń numerycznych

NumPy tutorial: <https://numpy.org/devdocs/user/quickstart.html>

In [None]:
import numpy as np

In [None]:
a = np.array([1, 2, 3])     # tablica numpy (ndarray), 1-wymiarowa (wektor)
print(a)
print(type(a))

### Obiekt array

![image-2.png](attachment:image-2.png)

In [None]:
a = np.array([1, 2, 3])

print(a)
print(a.ndim)       # liczba wymiarów
print(a.shape)      # kształt macierzy
print(a.dtype)      # typ danych
print(a.size)       # liczba elementów

### Macierz  2D

![image.png](attachment:image.png)

In [None]:
b = np.array([[1, 2, 3], [3, 5, 6]])   # tablica 2-wymiarowa
print(b)

In [None]:
b = np.array([[1, 2, 3], [3, 5, 6]])   # tablica 2-wymiarowa

print(b.ndim)       # liczba wymiarów
print(b.shape)      # wymiary (kształt) macierzy
print(b.dtype)      # typ danych
print(b.size)       # liczba elementów

### Funkcje do generowania tablic

In [None]:
np.random.rand(4)           # liczby losowe z rozkładu jednostajnego [0,1]

In [None]:
np.random.randn(5)          # rozkład normalny

In [None]:
np.arange(-10, 10, 2)         # wartości od -10 do 10 z krokiem 2

In [None]:
np.arange(12).reshape(3, 4)  # reshape to a matrix

In [None]:
np.linspace(0, 1, 10)         # 10 kolejnych wartości z odcinka [0,1]

### Zmiana kształtu mcierzy

![image-4.png](attachment:image-4.png)


In [None]:
x = np.arange(6)
print(f'shape {x.shape}')
print(x)

In [None]:
y = x.reshape([2, 3])
print(f'shape {y.shape}')
print(y)

### Operacje na macierzach

**Operacje skalarne na macierzach**

![image.png](attachment:image.png)

_Bradcasting_ - rozwijanie operacji do pasującego wymiaru

In [None]:
x = np.array([1, 2, 3])
print(x + 1)      # addition 

In [None]:
x = np.array([1, 2, 3])

print(x + 1)      # addition 
print(x - 1)      # subtraction
print(x * 2)      # multiplication
print(x // 2)     # integer division
print(x ** 2)     # square
print(x % 2)      # modulo  
print(1 / x)      # division

**Operacja na macierzach o tych samych wymiarach**

In [None]:
x = np.array([0, 2, 4, 6, 8, 10]).reshape([2,3])
y = np.array([1, 2, 3, 4, 5, 6]).reshape([2,3])

print(x)
print(y)

In [None]:
print(x + y)   # dodawanie elementów obu macierzy

In [None]:
print(x - y)
print(x * y)      # mnożenie element po elemencie
print(x / y)      # dzielenie element po elemencie
print(x // y) 
print(x ** y)

**Operacja na macierzach różnych wymiarach**
_Broadkasting_ 
![image.png](attachment:image.png)

In [None]:
x = np.array([4, 5, 6, 7, 8, 9]).reshape([2,3])
y = np.array([1, 2, 3])
x + y

### Transpozycja

In [None]:
# transpozycja 
a = x.T
print('x=\n', x)
print('a=\n', a)

### Mnożenie macierzy

![image.png](attachment:image.png)

In [None]:
a = np.array([[1, 2, 3], [4, 5, 6]])
b = np.array([1,2,3]).T
np.matmul(a, b)            # matrix multiplication

In [None]:
a @ b    # to samo co matmul

In [None]:
np.dot(a,b)     # dot product

### Indeksowanie elementów macierzy

![image-2.png](attachment:image-2.png)

In [None]:
x = np.array([[1 ,2 ,3], [4, 5, 6]])
x[1, 0]    # element: 2 wiersz, 1-sza kolumna

In [None]:
x[0]   # pierwszy wiersz

**Indeksowanie zakresów za pomocą dwukropka**

![image.png](attachment:image.png)

### Przekroje macierzy (slice)

In [None]:
x = np.array([40, 41, 42, 43, 44, 45, 46])
y = x[3:5]     # y jest przekrojem (slice) macierzy x elementów od 3 do 4, macierz y wskazuje wybrane dane z x
print('x', x)
print('y', y)

In [None]:
y[:] = 1000    # zmiana elementów y, zmieni się też x (obie macierze to widok na te same dane w pamięci)
print('x', x)
print('y', y)

In [None]:
z = x[3:5].copy()   # utworzenie kopii macierzy, elementy z leżą w innej przestrzeni pamięci niż x i y
print('z', z)

In [None]:
z[:] = 500          # zmiana z nie zmieni x
print('z', z)
print('x', x)

In [None]:
x = np.arange(12).reshape((3,4))
print(x)

In [None]:
print(x[2, :])       # trzeci wiersz

In [None]:
print(x[:, -1])      # ostatnia kolumna 

In [None]:
print(x[:2, 2:])     # dwa pierwsze wiersze i dwie ostatnie kolumny

### Indeksowanie warunkowe 

In [None]:
x = np.arange(12).reshape(3,4)
print(x)
x > 5      # rezultatem macierz boolowska

In [None]:
x[ x > 5 ] = 0   # wyzerowanie el. większych od 5
print(x)

In [None]:
ind = ( x == 0 )        # zapamietanie indeksów spełniających warunek x == 0 
print(ind)          # ndarray typu bool
print(x[ind])       # elementy x[] spełniające warunek
print(x[~ind])      # negacja 

### Przydatne funkcje

In [None]:
y = np.random.rand(10) - 0.5
print(y)

print(np.abs(y))          # wartośc bezwzględna elementów
print(np.exp(y))          # exponent elementów

In [None]:
print(np.sort(y))                     # sortowanie

In [None]:
print("Min = ",           np.min(y))             # minimalny element 
print("Max = ",           np.max(y))             # maksymalny welement
print("Average = ",       np.mean(y))            # średnia wartość wszystkich elementów
print("Std deviation = ", np.std(y))             # odchylenie standardowe  
print("Sum = ",           np.sum(y))             # suma wszystkich elementów 

### Suma po wymiarach (axis)

![image.png](attachment:image.png)


In [None]:
x = np.array([[1, 2, 3], [4, 5, 6]])

print('Suma axis=0: ', np.sum(x, axis=0))     
print('Suma axis=1: ', np.sum(x, axis=1))     
print('Liczba el. wikszych od 0.5 w kolumnach: ', np.sum(x > 3, axis=1))

### Ćwicznie 

Wyzanacz wspólczynniki $a$ i $b$ z zadania z poprzedniego tygodnia z pomocą operacji numpy.

Treść zadania: [https://github.com/IS-UMK/wdm_lab_01](https://github.com/IS-UMK/wdm_lab_01)



In [None]:
x = np.array([ 8, 2, 11, 6, 5, 4, 12, 9, 6, 1 ])
y = np.array([ 3, 10, 3, 6, 8, 12, 1, 4, 9, 14 ] )




### Wczytywanie danych z plików tekstowych (fomrat CSV)

Przykładowe dane Irys dostepne w repozytorium w katalogu [dane/iris.data](dane/iris.data)

In [None]:
data = np.loadtxt('dane/iris.data', delimiter=',')

print(f'data shape {data.shape}')
print(data[:3])    # trzy pierwsze wiersze

### Optymalizacja czasu wykonywania operacji macierzowych

In [None]:
n = 1000
x = np.random.rand(n)
y = np.random.rand(n)
z = np.zeros(x.shape)    # pre-alokacja macierzy z

In [None]:
%%timeit 
# mnożenie za pomoca operatora *
z = x * y

In [None]:
%%timeit 
# mnożenie za pomoca funkcji multiply()
z = np.multiply(x, y)

In [None]:
%%timeit
# mnożenie w pętli
for i in range(n):
    z[i] = x[i] * y[i]

## MatPlotLib - wykresy

Tutorial: <https://matplotlib.org/tutorials/index.html>

* ``plot(x,y)`` wykres liniowy (lub punktowy)
* ``bar(x, labels)`` wykres słupkowy
* ``pie(x, labels)`` wykres kołowy
* ``hist(x)`` histogram

In [None]:
import matplotlib.pyplot as plt

### Wykres liniowy

Narysujmy przebieg funkcji sigmoidalnej $f(x) = \frac{1}{1+e^{-\alpha x}}$ na odcinku [-5, 5]



In [None]:
x = np.linspace(-5, 5, 100)
y = 1.0 / (1.0 + np.exp(-x))

plt.plot(x, y);

Funkcji sigmoidalna ze współczynnikiem nachylenia $\alpha=0.5, 1, 2, 100$

In [None]:
for a in [0.5, 1.0, 2.0, 100]:
    y = 1.0 / (1.0 + np.exp(-x * a))
    plt.plot(x, y, label='a=' + str(a))

plt.title('Funkcja sigmoidalna')
plt.xlabel('x')
plt.ylabel('f(x)')
plt.legend();

### Wykres punktowy (wykres rozrzutu)

In [None]:
x1 = np.random.randn(100, 2)
x2 = np.random.randn(100, 2) * 3 + 2

plt.plot(x1[:,0], x1[:,1], 'ro')   # red circle (o)
plt.plot(x2[:,0], x2[:,1], 'bx')   # blue cross (x)

### Ćwiczenie 

Narysuj wykres przedstawiający punkty z zadania z poprzednich zajęć wraz z linią wyznaczoną metodą najmniejszych kwadratów

$f(x) = -1.1x + 14$

In [None]:
x = np.array([ 8, 2, 11, 6, 5, 4, 12, 9, 6, 1 ])
y = np.array([ 3, 10, 3, 6, 8, 12, 1, 4, 9, 14 ] )






### Wizualizacja macierzy: matshow

In [None]:
x = np.random.randn(4, 6)
plt.matshow(x)
plt.colorbar()

### Wykres słupkowy i kołowy

In [None]:
x = ['a', 'b', 'c']
y = [3, 5, 12]

plt.bar(x, y)

In [None]:
plt.pie(y, labels=x);

### Histogram

In [None]:
x = np.random.randn(10000, 1) * 3 + 2
plt.hist(x);

In [None]:
import matplotlib.pyplot as plt
data = np.loadtxt('dane/iris.data', delimiter=',')

plt.hist(data[:, 2], bins=20);

In [None]:
plt.hist(data[data[:,4] == 0, 2], label='Setosa')
plt.hist(data[data[:,4] != 0, 2], label='Not Setosa')
plt.legend()


In [None]:
plt.figure(figsize=(10,10))
for i in (0, 1, 2):
    plt.plot(data[data[:,4]==i, 2], data[data[:,4]==i, 3], 'o')
plt.xlabel("Długośc płatka")
plt.ylabel('Szerokość płatka')
plt.show()

## Zadanie: Włoskie wina

Plik [dane/wine.data](dane/wine.data) zawiera pomiary własności chemicznych 3 odmian Włoskich win.  
Format danych:  
```
  1,14.23,1.71,2.43,15.6,127,2.8,3.06,.28,2.29,5.64,1.04,3.92,1065
  2,13.2,1.78,2.14,11.2,100,2.65,2.76,.26,1.28,4.38,1.05,3.4,1050
  3,13.16,2.36,2.67,18.6,101,2.8,3.24,.3,2.81,5.68,1.03,3.17,1185
   ...
```
Każda linia zawiera 14 liczb oddzielonych przecinkami określających pomiary dla pojedynczego wina.  
Plik zawiera pomiary dla `N=178` win.  
Pierwsza zmienna określa odmianę wina (wartość 1, 2 lub 3), pozostałe 13 zmiennych to numeryczne wyniki pomiarów.
```
  1 Odmiana (1,2,3)           8 Flavanoids
  2 Alcohol                   9 Nonflavanoid phenols  
  3 Malic acid               10 Proanthocyanins  
  4 Ash                      11 Color intensity
  5 Alcalinity of ash        12 Hue
  6 Magnesium                13 OD280/OD315 of diluted wines
  7 Total phenols            14 Proline
```


Przeprowadż analize danych postępując zgodnie z ponizszymi instrukcjami:

1. Korzystając z pakietu ``numpy`` wczytaj dane ``wine.data`` do tablicy.  
Utwórz wektor ``y`` zaierający etykiety klas wszystkich `N=178` win (pierwszą kolumnę danych: ``Odmiana``).   
Utwórz macierz ``X`` o wymiarze ``N x 13`` zawierającą w kolumnach 13 zmiennych opisujących wina (zmienne od 2 do ostatniej).  


In [None]:
data = np.loadtxt('dane/wine.data', delimiter=',')






2. Wyznacz liczbę win każdej z trzch odmian i jaki procent całości stanowią te grupy.  
Zaprezentuj liczebność w grupach wykorxzystując odpowiedni wykres (np. słupkowy lub kołowy).

3. Wykonaj standaryzację danych zawartych w macierzy ``X``.  
Standaryzacja polega na zmianie zakresu wartości zmiennej tak aby jej wartość średnia wynosiła 0 a odchylenie standardowe wynosiło 1, zgodnie z ponizszą transformacją:  
$$ x_{std} = \frac{x - \bar{x}}{\sigma_x} $$
gdzie $\bar{x}$ to wartość średnia zamiennej $x$ a $\sigma_x$ to odchylenie standardowe zmiennej $x$.  

Sprawdź poprawność wykonanej transformacji wypisując wartości średnie i odchypenia standardowe uzyskanych zmiennych i wyświetlając wykres skrzynkowy (``boxplot``) prezentujący rozklad wszystkich zmiennych.

4. Wyznacz macierz wspólczynników korelacji liniowej dla zmiennych ``X``.  
Jeżeli $\mathbf{X_{std}}$ zawiera wystandaryzowane dane to macierz ta może być wyznaczona ze wzoru  
$$ \mathbf{R} = \mathbf{X}_{std}^T\mathbf{X}_{std} $$  
Możesz w tym celu też posłuzyć się funkcją [numpy.corrcoeff()](https://numpy.org/doc/stable/reference/generated/numpy.corrcoef.html), w tym wypadku dane nie muszą być wystandaryzowane.  
Użyj funkcji [matshow()](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.matshow.html) do zwizualizowania zawartości macirzy korelacji. 

5. Na podstaiwie wyników z poprzedniego punktu wybierz parę zmiennych o najwyższej korelacji liniowej.  
Narysuj wykres rozrzutu prezentujący rozkład danych w tych dwóch zmiennych.    
Nanieś na wykres linię prostą dopasowaną do punktów pomiarowych za pomocą metody najmniejszych kwadratów.    
Dla zmiennych wystandaryzowanych metoda najmniejszych kwadratów znacznie się upraszcza, gdzyż  

$$a = \frac{\sum_{i=1}^n\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)}{\sum_{i=1}^n\left(x_i-\bar{x}\right)^2} = \operatorname{corr}(x,y) \qquad b = \bar{y} - a\bar{x} = 0$$