<a href="https://colab.research.google.com/github/m-fila/uczenie-maszynowe-2021-22/blob/main/01_Powtórka_Python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Wprowadzenie/powtórka z przydatnych bibliotek w Pythonie: `numpy`, `pandas`, `matplotlib`, `seaborn`, `plotly`
Autorzy: Jarosław Żygierewicz, Artur Kalinowski

## Powtórka podstawowych rachunków wektorowych i macierzowych w Pythonie: `numpy`
Do działań na wektorach i macierzach użyjemy modułu `numpy`. Zaimportujmy go:

In [2]:
import numpy as np

Natywnym typem zmiennych w `numpy` są tablice, czyli `array`.
    
Można je zadeklarować zarówno przez podanie listy własnych liczb, albo użyć metod generujących tablice z samymi zerami, jedynkami lub liczbami losowymi ze ustandardyzowanego rozkładu normalnego N(0,1).
Użyj dokumentacji pakietu numpy by stworzyć następujące tablice i wektory:
$$
\begin{array}{lcr}
\vec{v} = [0, 1,2,3,4,5,6,7,8,9] \\
\vec{v}_{0} = [0,0,...] \\
\vec{v}_{1} = [1,1,...] \\
\vec{v}_{rand} = [{\rm losowa},{\rm losowa}, ...]
\end{array}
$$
Wektory $\vec{v}_{0}, \vec{v}_{1}$ i $\vec{v}_{rand}$ stwórz używając dedykowanych funkcji. Wymiar wektora zakoduj jako zmienną.

In [None]:
v = ...

vec_dim = ...

v0 =  ...
v1 = ...
vrand = ...

print("Vector of natural numbers: {}".format(v))
print("Vector of zeros: {}".format(v0))
print("Vector of ones: {}".format(v1))
print("Vector of randoms: {}".format(vrand))

Konkretny kształt (wymiarowość) możemy im nadać zarówno w momencie deklaracji, jak i po. Kształt jest przechowywany w polu `shape`, do zmiany kształtu służy metoda `reshape`. Liczbę elementów można sprawdzić metodą `size` lub funkcją `len`.

<ol>
<li>korzystając z pola "shape" wektora utworzonego poprzednio oraz dedykowanej funkcji pakietu numpy stwórz macierz $A$ - jednostkową macierz, (ang. identity matrix) o wymiarze NxN, gdzie N to długość wektora z poprzedniej komórki </li>    
<li>wypisz na ekran kształt uzyskanej macierzy </li>
<li>używając funkcji `reshape` spłaszcz (ang. flatten) macierz do jednowymiarowego wektora $\vec{v}_{100}$ </li>
<li>utwórz nowy wektor, $\vec{v}_{10}$ wybierając pierwsze 10 elementów spłąszczonej macierzy  </li>
<li>pomnóż nowy wektor przez macierz jednostkową: $\vec{v}_{10a} = A \times \vec{v}_{10}$  </li>   
</ol>

**Uwagi:** 
<ul>
<li>pole `shape` ma postać krotki (ang. `tuple`)</li>
<li>w czasie zmiany kształtu można użyć niespecyfikowanego rozmiaru: `-1` jeśli wynikowy kształt jest jednoznaczny, np. przy redukcji 2D -> 1D    
<li>domyślnie operator `*` w numpy oznacza mnożenie element po elemencie ewentualnie połaczoną z rozmnożeniem (ang. broadcasting) elementów jednego ze składników
</ul>    

In [None]:
A = ...
print("Macierz jednostkowa: \n{} \n wymiary macierzy: {}".format(A, A.shape))
v100 = ...
print("Wektor jedynek i zer: {}".format(v100)) 
v10 = ...
print("Wektor jedynek i zer (pierwsze 10 elementów): \n{}".format(v10)) 
v10a = ...
print("Wektor jedynek i zer pomnożony przez macierz jednostkową: \n{}".format(v10a)) 

Transpozycja macierzy w `numpy` jest fantastycznie prosta (jak wszystko w Pythonie): transponowana_tablica = tablica.T

<ol>
<li>utwórz jeszcze raz wektor $\vec{v} = [0,1,2,3,4,5,6,7,8,9]$ tym razem korzystając z dedykowanej funkcji pakietu numpy - `arange`    
<li>wypisz na ekran wektor i jego kształt uzyskany z transpozycji $\vec{v}$ </li>
<li>zmień kształt wektora $\vec{v}$ na (1,-1) </li>
<li>wypisz ponownie na ekran wektor i jego kształt</li>  
<li>wypisz ponownie na ekran wektor i jego kształt uzyskany z transpozycji $\vec{v}$ </li>   
</ol>

In [None]:
v = ...
print("Wektor oryginalny: {}".format(v))
print("Wektor transponowany: {} kształt: {}".format(np.transpose(v), np.transpose(v).shape))
v = ...
print("Wektor oryginalny, przeformatowany do kształtu (1,-1): {}, kształt: {}".format(v, v.shape))
print("Wektor transponowany: {} kształt: {}".format(np.transpose(v), np.transpose(v).shape))

Pomyśl jaki jest efekt następujących poleceń a następnie sprawdź swoje przewidywania uruchamiając je w komórkach poniżej:

<ol>
<li>
<code>
x = np.full_like(shape=(4), np.sqrt(2)).reshape(4,1)
</code>    
</li> 
<li> 
<code> 
print(np.dot(x.T,x))
</code>    
</li> 
 <li> 
<code> 
print(np.dot(x,x.T))   
</code>  
</li>      
<li> 
<code> 
B = np.dot(x,x.T)
print(np.linalg.inv(B))   
</code>  
</li>
<li> 
<code> 
B = np.dot(x,x.T)
B += np.identity(B.shape[0])   
print(np.linalg.inv(B))   
</code>  
</li>  
</ol>    

In [None]:
x = np.full(shape=(4), fill_value = np.sqrt(2)).reshape(4,1)
print("x = {}".format(x))
print("np.dot(x.T,x) = {}".format(np.dot(x.T,x)))
print("np.dot(x,x.T) = {}".format(np.dot(x,x.T)))
B = np.dot(x,x.T)
#print(np.linalg.inv(B)) #macierz B jest osobliwa -> ma liniowo zależne wiersze/kolumny
B += np.identity(B.shape[0])
B
print(np.linalg.inv(B))

## Przechowywanie danych z użyciem pakietu pandas
Do przechowywania i elementarnych operacjach na danych użyjemy modułu `pandas`. Zaimportujmy go, oraz pakiet obsługi rysunków `matplotlib.pyplot` 

In [114]:
import pandas as pd
import matplotlib.pyplot as plt

#### Ładowanie danych

Załadujmy jakieś ciekawe dane. Dane często są dostępne w postaci plików CSV - coma separated vector.
Będziemy pracować na tych danych:
https://dane.gov.pl/pl/dataset/2476/resource/33116,raport-o-liczbie-mieszkancow-zaszczepionych-pierwsza-dawka-oraz-w-peni-zaszczepionych-w-miastach-powiatach-i-gminach-w-dniu-2021-09-12?page=1&per_page=20&q=&sort=

Pobrać dane i załadować je do Colaba możecie na dwa sposoby:

A. Pobierz lokalnie powyższy plik i załaduj w środowisku Colab do bieżącej sesji np. do katalogu "dane" (który trzeba wczesnej utworzyć):
Menu z lewej -> ikona pliku -> ikona załadowania:

![loading icon](https://i.ibb.co/nBY5wFw/icon.png)

In [None]:
df = pd.read_csv("dane/poziom_wyszczepienia_mieszkańców_gmin_w_dniu_20210912_wskaźniki.csv", encoding='latin-1', sep=";")
print(df)

B. Możecie sklonować ćwiczeniowe repozytorium na GitHubie, by mieć dostęp do pobranych tam wcześniej danych w folderze "danych". Zawartość repozytorium będzie w folderze "/content/uczenie-maszynowe-2021-22".

In [None]:
!git clone https://github.com/Shmoo137/uczenie-maszynowe-2021-22

In [None]:
df = pd.read_csv("/content/uczenie-maszynowe-2021-22/dane/poziom_wyszczepienia_mieszkańców_gmin_w_dniu_20210912_wskaźniki.csv", encoding='latin-1', sep=";")
print(df)

Wypiszmy nazwy kolumn, dodajemy kolumnę z procentem zaszczepionych (tak, ta kolumna już jest, ale robimy to w ramach ćwiczenia).

potem wybieramy tylko te które są interesujące:
* liczba ludności powiatu
* liczba zaszczepionych jedną dawką
* liczba zaszczepionych dwiema dawkami
* ułamek w pełni zaszczepionych

In [None]:
print("Nazwy kolumn:",df.columns)
col1 = df["w1_zaszczepieni_pacjenci"]
col2 = df["liczba_ludnosci"]
df["ulamek_zaszczepionych"] = col1/col2
df_filtered = df[["liczba_ludnosci","w1_zaszczepieni_pacjenci", "w3_zaszczepieni_pelna_dawka","ulamek_zaszczepionych"]]

## Wykresy z użyciem `matplotlib`

Narysujmy różne histogramy:
* liczby ludności
* liczby ludności z ograniczeniem do 100 000
* histogramy w skali logarytmicznej

In [None]:
fig, axes = plt.subplots(2,2, figsize=(10,10))
# (a) liczba ludności w skali liniowej
# (b) liczba ludności z ograniczeniem do 100 000 w skali liniowej
# (c) i (d) - to samo, ale w skali logarytmicznej.
# Dla przykładu (a):
df_filtered["liczba_ludnosci"].plot.hist(bins=20, ax = axes[0,0])

# Tak możecie nałożyć ograniczenie na dane:
df_sub100k = df_filtered[df_filtered["liczba_ludnosci"]<0.1E6]

# (b)-(d) dla Was!

label_setter = np.vectorize(lambda ax: [ax.set_xlabel('Liczba ludności'), 
                                   ax.set_ylabel('Ułamek zaszczepionych')])
label_setter(axes)

Narysujmy dwuwymiarowy rozkład ułamka zaszczepionych względem liczby ludności:

In [None]:
fig, axes = plt.subplots(2,2, figsize=(10,10))

df_filtered.plot(x="liczba_ludnosci", y="ulamek_zaszczepionych", ax=axes[0,0], kind = "scatter")
df_filtered.plot.hexbin(x="liczba_ludnosci", y="ulamek_zaszczepionych", ax=axes[0,1], gridsize = 30)

df_sub100k.plot(x="liczba_ludnosci", y="ulamek_zaszczepionych", ax=axes[1,0], kind = "scatter")
df_sub100k.plot.hexbin(x="liczba_ludnosci", y="ulamek_zaszczepionych", ax=axes[1,1], gridsize = 30)

label_setter(axes)

## Wykresy z użyciem `seaborn`

Załadujmy dodatkowe moduły by uzyskać jeszcze ładniejsze rysunki.

In [None]:
import seaborn as sns

x = sns.jointplot(x="liczba_ludnosci", y="ulamek_zaszczepionych", data=df_sub100k, kind='hist')
x.set_axis_labels('Liczba ludności', 'Ułamek zaszczepionych', fontsize=16)

## Wykresy z użyciem `plotly`

Na koniec uczyńmy rysunki interaktywnymi z użyciem biblioteki `plotly`:

In [None]:
import plotly.express as px


fig = px.density_heatmap(df_sub100k, x="liczba_ludnosci", y="ulamek_zaszczepionych", marginal_x="histogram", marginal_y="histogram", labels={
                     "liczba_ludnosci": "Liczba ludności",
                     "ulamek_zaszczepionych": "Ułamek zaszczepionych"
                 })
fig.show()

Dane są bardzo rozmyte. Narysujmy medianę liczby zaszczepionych grupując gminy co 1k w liczbie mieszkańców.
Jak niepewność narysujmy odchylenie standardowe z próby, ale w wariancie obciążonym: 1/N zamiast 1/(N-1) - inaczej grupy gdzie jest tylko jedna gmina dadzą 1/0.

In [None]:
fig, axes = plt.subplots(2,2, figsize=(10,10))

df_group_1k = df_filtered.groupby((df_filtered["liczba_ludnosci"]/1000).round(0)).median()
error = df_filtered.groupby((df_filtered["liczba_ludnosci"]/1000).round(0)).std(ddof=0)

df_group_1k.plot(x="liczba_ludnosci", y="ulamek_zaszczepionych", ax=axes[0,0], kind = "scatter")
df_group_1k.plot.hexbin(x="liczba_ludnosci", y="ulamek_zaszczepionych", ax=axes[0,1], gridsize = 30)

df_group_1k = df_group_1k[df_group_1k["liczba_ludnosci"]<60000]
df_group_1k.plot(x="liczba_ludnosci", y="ulamek_zaszczepionych", yerr=error, ax=axes[1,0], kind = "scatter")
df_group_1k.plot.hexbin(x="liczba_ludnosci", y="ulamek_zaszczepionych", ax=axes[1,1], gridsize = 30)

label_setter(axes)