<a href="https://colab.research.google.com/github/monsad/Python_Boto3/blob/master/monday_14.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Wizualizacja

### Celem jest poznanie podstaw do tworzenia wizualizacji

Wizualizacja jest bardzo ważnym tematem - chociażby dlatego, że jest to obszar, w którym człowiek potrafi wyciągnąć błyskawiczne wnioski. Pamiętasz to przysłowie - “Lepiej raz zobaczyć niż sto razy usłyszeć”? To właśnie za pomocą zrobionych wykresów można "zobaczyć" rozwiązanie.

Z drugiej strony, warto zrozumieć, że wykresy są tworzone dla ludzi, maszyna ich nie potrzebuje. Innymi słowy, dla modelu wszystko wygląda jak wykres, on używa metryki sukcesu jako kierunku optymalizacji.
Temat wizualizacji jest ogromny - dlatego my tutaj zajmiemy się tylko ograniczonym wycinkiem, ale warto od czegoś zacząć.

In [0]:
import numpy as np
import pandas as pd

import sklearn.datasets as d

import seaborn as sns
import matplotlib.pyplot as plt
from pandas.plotting import scatter_matrix
from matplotlib.ticker import NullLocator, FixedLocator, LogLocator, MultipleLocator

%matplotlib inline

## Linia
Jeden z najprostszych wykresów  to linia łącząca dwa lub więcej punktów. 

In [0]:
plt.plot([3, 7, 8]);

Funkcja `.plot()` oczekuje na dwa parametry x i y, natomiast jeśli został podany tylko jeden (tak jak powyżej), czyli został podany w formie jednej listy, to traktuje to jako `y`, a wszystkie `x` wypełnia inkrementalnie. Możesz o tym myśleć w ten sposób, że wartości `x` to są indeksy `y`.

#### Na przykład: `y[0]=3 => x=0, y=3`.

Ten sam wynik, ale już jawnie podając `x`.

In [0]:
plt.plot([0, 1, 2], [3, 7, 8]);

Znak `;` na końcu powoduje usunięcie opisu z biblioteki `matplotlib`. Możesz usuąć `;` i zobaczyć, co się pojawi.

Warto zwrócić uwagę, że domyślny kolor linii to niebieski. W dalszej części pokażę, jak można zmienić kolor.

Zróbmy teraz bardziej złożony wykres. Funkcja `f(x)` będzie nam generować wartości na osi x od 0 do 10 i będzie tych punktów 100.

In [0]:
#jakaś "ładna" funkcja
def f(x):
    return np.pi*np.sin(x) + np.pi*np.cos(np.pi * x) + np.sin(x + np.pi)


x = np.linspace(0, 10, 100) # generuję 100 punktów między 0 i 10
y = f(x)

plt.plot(x, y);

## Trochę więcej kontroli nad wykresem

### Kolor linii

In [0]:
for color in ['r', 'g', 'b', 'c', 'm']: 
    plt.plot(x, y, color=color) #parametr "color" lub skrócona wersja "c". Możesz sprawdzić, podając `c=color`.
    plt.show()

### Rodzaj linii

In [0]:
for line_style in ['-', '-.', '--', ':', '']: #pusty string oznacza "żaden"
    plt.plot(x, y, linestyle=line_style) #parameter "linestyle" lub skrócona wersja "ls"
    plt.show()

### Punkty (marker w terminologii matplotlib)

In [0]:
all_markers = {'.': 'point',',': 'pixel','o': 'circle','v': 'triangle_down','^': 'triangle_up','<': 'triangle_left','>': 'triangle_right','1': 'tri_down','2': 'tri_up','3': 'tri_left','4': 'tri_right','8': 'octagon','s': 'square','p': 'pentagon','*': 'star','h': 'hexagon1','H': 'hexagon2','+': 'plus','x': 'x','D': 'diamond','d': 'thin_diamond','|': 'vline','_': 'hline'}

markers = {'.': 'point', 'o': 'circle', 's': 'square', '*': 'star','h': 'hexagon1'}



for marker, marker_name in markers.items():
    print("{0}\t{1}".format(marker, marker_name))
    
    plt.figure(figsize=(12, 7))
    plt.plot(x, y, markersize=7, marker=marker)
    plt.show()

### Kontrola nad kreskami (ang. *ticks*) na osiach.
Domyślnie wartości na osiach (x czy y) są wypisywane w sposób liniowy, ale możesz to zmienić zaczynając od tego, że możesz je schować, wprowadzić jawnie, które punkty chcesz mieć lub nawet zrobić skalę logarytmiczną.

Więcej informacji w dokumentacji [Tick locating and formatting](http://matplotlib.org/api/ticker_api.html#matplotlib.ticker.Locator).

In [0]:
locators = [
    NullLocator(), #brak
    FixedLocator([0, 1, 8]), #zafiksowany, będzie tylko dla 0, 1 i 8
    LogLocator(2, [1.]), #skala logarytmiczna
    MultipleLocator(3.) #co trzeci
]

for locator in locators:
    print(str(locator))
    plt.figure(figsize=(12, 7))
    
    ax = plt.gca()
    ax.xaxis.set_major_locator(locator)
    plt.plot(x, y)
    plt.show()

### Wiele linii

Więcej niż jedna linia na jednym wykresie.

In [0]:
z = y / 4.0

plt.figure(figsize=(12, 7))
plt.plot(x, y, label="high")
plt.plot(x, z, label="low")

#dodanie legendy
plt.legend(loc='best'); #opcja "best" (można też wpisać po prostu 0) oznacza, że biblioteka samodzielnie poszukuje najlepszej możliwej opcji

### Komentarz/adnotacja (ang. *annotation*) 

Bardziej skomplikowanym przypadkiem jest, kiedy chcemy zaznaczyć wybrany punkt na wykresie i dodać komentarz.

Jako dodatek na wykresie poniżej dodajemy dwie linie: poziomą i pionową.

*Swoją drogą*, "biznes" (ludzie z biznesu) bardzo to lubi. Kiedy wskazujemy miejsce warte uwagi wykres nagle staje się zrozumiały. Pokazanie wyniku to ważna umiejętność - zwykle osoby techniczne mają z tym problem.

In [0]:
plt.figure(figsize=(12, 7))
plt.plot(x, y, label="high")
plt.plot(x, z, label="low")

plt.ylim(-6, 7)

plt.annotate(r'$\pi sin(x) + \pi cos(\pi x) + \pi sin(x + \pi )$',
            xy=(2, 5), xycoords='data',
            xytext=(+3, +5.5), textcoords='data', fontsize=15,
            arrowprops=dict(arrowstyle="->",connectionstyle="arc3,rad=.2"),
            )

plt.plot([0, 10], [0, 0], color='grey', linestyle='-.')
plt.plot([2, 2],[0, 10], color='blue', linewidth=1, linestyle="--");

## Anatomia matplotlib

![](../images/anatomy_matplotlib.png)

Powyżej jest obraz, który opisuje poszczególne elementy wykresu.

### Teraz dodajmy:
1. Tytuł
2. Agendę
3. Bardziej zaawansowany podpis na osi x ( 0, $+\pi$, $+2\pi$, $+3\pi$ )
4. Jawnie punkty na dwóch liniach (używając różnych markerów).

In [0]:
plt.figure(figsize=(12, 7))
plt.plot(x, y, label="high", marker='*')
plt.plot(x, z, label="low", marker='+')

plt.ylim(-6, 7)

plt.annotate(r'$\pi sin(x) + \pi cos(\pi x) + \pi sin(x + \pi )$',
            xy=(2, 5), xycoords='data',
            xytext=(+3, +5.5), textcoords='data', fontsize=15,
            arrowprops=dict(arrowstyle="->",connectionstyle="arc3,rad=.2"),
            )

plt.plot([0, 10], [0, 0], color='grey', linestyle='-.')
plt.plot([2, 2],[0, 10], color='blue', linewidth=1, linestyle="--")

plt.title("Magic Sinusoida", fontsize=20)
plt.xticks([0, np.pi, 2*np.pi, 3*np.pi],
          [r'$0$', r'$+\pi$', r'$+2\pi$', r'$+3\pi$'])

plt.yticks([-6, -5, -4, -3, -2, -1, 0, +1, +2, +3, +4, +5, +6], [r'$-6$', r'$-5$', r'$-4$', r'$-3$', r'$-2$', r'$-1$', r'$0$', r'$+1$', r'$+2$', r'$+3$', r'$+4$', r'$+5$', r'$+6$'])

plt.legend(loc='best');

## Zadanie 2.2.1

Przykład z życia wzięty... Zadanie wymaga więcej czasu, aby je wyjaśnić, niż je zrealizować. Natomiast celem jest pokazanie mniej standardowego zastosowania, żeby przyzwyczaić się do myślenia, że nawet logi można wizualizować.

Załóżmy że jest system, którego zadaniem jest wykonanie pewnej pracy. Załóżmy, że praca ta polega na renderowaniu plików pdf (z jakąś tam zawartością).

Proces zajmujący się wyrenderowaniem nowego pliku będziemy nazywać `job`. Istnieje kilka `workerów`, które mogą tworzyć nowe `joby`. W tym samym czasie tylko jeden `job` (wśród wszystkich `workerów`) może renderować, reszta musi oczekiwać... Działa to w następujący sposób. `Workery` budzą się w pewnym odstępie czasowym (żeby nie przeszkadzać sobie nawzajem), uwzględniając ile czasu zajmuje średni rendering.

Po "obudzeniu" `worker` tworzy nowego `joba` z czasem begin. Następnie jest sprawdzane - czy można zacząć render, jeśli nie (czyli zajęte) - to `job` idzie spać na losowy okres czasu - jak obudzi się, znowu sprawdza czy render jest wolny, i tak aż uda się wykonać zadanie.

Tak wygląda przykładowy log, w którym są pewne zdarzenia. 
Log zawiera następujące informacje.
- **begin** - czas, kiedy worker uruchomił job i zaczął sprawdzać, czy może zacząć render
- **finish** - czas, kiedy worker skończył job (włączając redner pdf)
- **start_processing** - czas, kiedy job zaczął render
- **offset_submit** - opóźnienie w sekundach, kiedy job narodził się (begin) w porównaniu do pierwszego (“joba”)
- **offset_processing** - opóźnienie w sekundach od momentu, kiedy job narodził się (begin) i faktycznie rozpoczął rendering (innymi słowy, jak długo musiał czekać na rozpoczęcie renderingu)
- **total_seconds** - ile czasu sumaryczne zajęło wykonanie joba


### Logi
![logs](../images/task2.2.1.png)


### Oczekiwany wynik
Twoim zadaniem jest zwizualizować wszystkie `joby`, żeby upewnić się, że wykonują się one w uczciwej kolejności. To oznacza, że nie ma wiszących `jobów`, bo ktoś inny ciągle zajmuje miejsce dla renderingu.

![logs](../images/task2.2.2.png)

## Pandas (plotting)
Pandas też może tworzyć wykresy z pudełka (używając `matplotlib` pod spodem).

In [0]:
iris.boxplot(by="species", figsize=(12, 6));

In [0]:
cmaps = dict(zip(iris.species.unique(), ['red', 'blue', 'green']))


scatter_matrix(iris, c=iris.species.map(lambda x: cmaps[x]), s=90, figsize=(12, 10));

## Przydatne linki
1. [Anatomy of Matplotlib](https://www.youtube.com/watch?v=A2adyFMsut0)
2. [Overview of Python Visualization Tools](http://pbpython.com/visualization-tools-1.html)
3. [The Python Visualization Landscape](https://www.youtube.com/watch?v=FytuB8nFHPQ)
4. [matplotlib - 2D and 3D plotting in Python](http://nbviewer.jupyter.org/github/jrjohansson/scientific-python-lectures/blob/master/Lecture-4-Matplotlib.ipynb)
5. [Histograms and Boxplots](https://www.slideshare.net/dsaadeddin/histograms-and-boxplots)
6. [How To Think Visually Using Visual Analogies – Infographic](https://blog.adioma.com/how-to-think-visually-using-visual-analogies-infographic/)
7. [Visualizing Patterns on Repeat](https://flowingdata.com/2018/07/09/how-to-visualize-recurring-patterns/)
8. [Your Friendly Guide to Colors in Data Visualisation](https://blog.datawrapper.de/colorguide/)
9. [Create a zoomed-up inset plot in Matplotlib](http://akuederle.com/matplotlib-zoomed-up-inset)