![](imgs/logo.png)

# Przetwarzanie Big Data z użyciem Apache Spark

Autor notebooka: Jakub Nowacki.

## Wizualizacja w Python

Python posiada mnogość pakietów do wizualizacji, które mają różne zalety w różnych zastosowaniach m. in.:
* [Matplotlib](http://matplotlib.org/)
* [Pandas](http://pandas.pydata.org/pandas-docs/stable/visualization.html)
* [Altair](https://altair-viz.github.io/)
* [Bokeh](http://bokeh.pydata.org/)
* [Seaborn](http://seaborn.pydata.org/)
* [Lightning](http://lightning-viz.org/)
* [Plotly](https://plot.ly/)
* [HoloViews](http://holoviews.org/)
* [VisPy](http://vispy.org/)
* [pygg](https://github.com/sirrice/pygg)

W tym notebooku skupimy się na trzech bibliotekach
* [Matplotlib](http://matplotlib.org/)
* [Pandas](http://pandas.pydata.org/pandas-docs/stable/visualization.html)
* [Altair](https://altair-viz.github.io/)

## Matplotlib

Jedna z najstarszych bibliotek stricte Pythonowych do wizualizacji; wcześniej głównie używano zewnętrznych programów jak [gnuplot](http://www.gnuplot.info/).

Biblioteka była inspirowana narzędziami graficznymi MATLAB i gnuplot, ale z nieco swieższym podejściem. Napisana jest głównie z myślą o dwuwymiarowych wizualizacjach ale jest też prosty moduł do wizualizacji trójwymiarowej.

Jest parę metod tworzenia wykresów z użyciem Matplotlib jednak najbardziej podstawowym jest `pyplot`, który często importuje się z aliasem `plt`:

In [None]:
import matplotlib.pyplot as plt
# wyrażenie Jupyter, powoduje, że grafika będzie wklejona do notebooka
%matplotlib inline 

Dane do narysowania w Matplotlib można przekazać jako wiele rodzajów kolekcji (iterable), niemniej podstawowym obiektem danych jest `ndarray` z Numpy. 

In [None]:
import numpy as np 
x = np.linspace(0, 10, 100)
y = np.sin(x)
x, y

Podstawowym narzędziem do rysowania jest komenda `plot`:

In [None]:
plt.plot(x, y)

Powyższy rysunek składa się tak naprawdę z kilku elementów:
* `figure` - obiekt z osiami, może zawierać wiele rysunków
* `axis` - osie danych w których dana krzywa jest osadzona
* `line` - linia na wykresie; w osiach mogą znajdować się też inne rzeczy jak poligony, punkty itp
W notebooku figure i osie tworzone są dla jednego rysunku automatycznie, więc jeden rysunek definiowany jest w jednej komórce.

Możemy łatwo dodać nową serię danych:

In [None]:
y2 = np.cos(x)
plt.plot(x, y)
plt.plot(x, y2)

Jak widać serie danych tworzą się automatycznie z kolejnymi kolorami. Niemniej, możemy zdefiniować styl linii używając trzeciego argumenty w postaci tekstu; więcej informacji dostępne w [dokumentacji](http://matplotlib.org/1.5.3/api/pyplot_api.html#matplotlib.pyplot.plot)

In [None]:
plt.plot(x, y, 'r')
plt.plot(x, y2, 'b*')

Do wykresu możemy dodać jeszcze elementy opisujące:

In [None]:
plt.plot(x, y, 'r')
plt.plot(x, y2, 'b*')
plt.title('Sinus i cosinus')
plt.legend(['sin(x)', 'cos(x)']) 
plt.xlabel('x')
plt.ylabel('y')

Można też tworzyć różne podwykresy:

In [None]:
plt.subplot(211)
plt.plot(x, y)
plt.subplot(212)
plt.plot(x, y2)

### Zadanie
Dodaj do powyższego wykresu: tytuł, opisy osi, legendy i zmień typ linii.

Dostępne są również inne typy wykresów jak wykres punktowy (scatter plot):

In [None]:
x = np.random.rand(100)
y = np.random.rand(100)
kolor = np.ones(100)
kolor[y > 0.5] = 2 
plt.scatter(x,y, c=kolor)

Czy histogram:

In [None]:
v = np.random.normal(size=1000)
plt.hist(v, bins=40)

## Pandas

Matplotlib jest dość niskopoziomową biblioteką w której wiele rzeczy należy zrobić samemu, łącznie z zarządzaniem danymi. Pandas pomaga w zarządzaniu danymi i można dane użyć bezpośrednio w Matplotlib:

In [None]:
import pandas as pd

df = pd.DataFrame(np.random.randn(10,4), columns=list('ABCD'))
df

In [None]:
plt.scatter(df['A'], df['B'], c=df['C'], s=(1+df['D'])**2*100)

Lepiej jednak wykorzystać wbudowane narzędzia Pandas do wykresów. Rysowanie odbywa się za pomocą funkcji DataFame `plot`: 

In [None]:
df.plot()

In [None]:
df.plot(kind='bar')

In [None]:
df.plot.scatter('A', 'B', c='C', s=(1+df.D)**2*100, colormap='Greens')

In [None]:
df.plot.box()

Można też łatwo wyświetlać agregaty, np.:

In [None]:
df.sum().plot.bar()

In [None]:
df2 = df.copy()
df2['E'] = pd.cut(df2.B, [-5, -1, 1, 5], labels=['nisko', 'srednio', 'wysoko'])
df2.groupby('E').mean().plot.bar()

Dostępne są równierz narzędzia do bardziej rozbudowanych wykresów w module `plotting`:

In [None]:
from pandas.tools.plotting import scatter_matrix
scatter_matrix(df)

In [None]:
# Dodatkowe parametry jak rozmiar i wykres na diagonalnej
scatter_matrix(df, figsize=(6, 6), diagonal='kde')

### Zadanie

Zilustrować DataFrame `samochody` z notebooka Pandas wybranymi wykresami.

## Altair

Altair prezentuje deklaratywne podejście do wykresów w oparciu o bibliotekę [Vega-lite](http://vega.github.io/vega-lite) (JavaScript), zdejmując jeszcze więcej obowiązków z urzytkownika. Podstawowym modelem danych jest Pandas DataFrame. 

**Uwaga!** Altair nie jest jeszcze obecny w standardowej dystrybucji Anaconda, ale można go łatwo zainstalować używając komendy:
```
conda install altair --channel conda-forge
```

Podstawową formę wykresu importujemy jako `Chart`:

In [None]:
from altair import Chart

Obiekt wykresu inicjalizujemy danymi, wymieramy typ wykresu i enkodujemy jego wartości używając nazw kolumn jak poniżej:

In [None]:
Chart(df).mark_circle().encode(
    x = 'A',
    y = 'B',
    color='C',
    size='D'
)

Możemy zmienić typ wykresu bardzo prosto:

In [None]:
Chart(df).mark_point().encode(
    x = 'A',
    y = 'B',
    color='C',
    size='D'
)

Lub na coś bardziej egzotycznego; zauważ inny zestaw danych:

In [None]:
Chart(df2).mark_text().encode(
    x = 'A',
    y = 'B',
    color='E',
    text='E'
)

Altair jest dość elastyczny, więc np łatwo możemy narysować równierz wykres jednowymiarowy:

In [None]:
Chart(df).mark_point().encode(
    x = 'A',
    size='D'
)

Oraz zmienić jego typ na coś bardziej nam pasującego:

In [None]:
Chart(df).mark_tick().encode(
    x = 'A'
)

Altair ma też wbudowane agregaty, np średnią:

In [None]:
Chart(df2).mark_point().encode(
    x = 'E',
    y = 'average(A)'
)

Znowu, nie do końca o to chodziło, więc można łatwo zmienić typ wykresu:

In [None]:
Chart(df2).mark_bar().encode(
    x = 'E',
    y = 'average(A)'
)

Warto pamiętać, ze Altair lubi dane w postaci długiej tabeli, ze zmiennymi opisującymi. Zatem warto czasami przerobić nasz DataFrame:

In [None]:
df

Na długą formę:

In [None]:
dfm = pd.melt(df.reset_index(), id_vars=['index'])
dfm

Używając formy długiej możemy łatwo zbudować wykres szeregów czasowych z wieloma seriami:

In [None]:
Chart(dfm).mark_line().encode(
    color = 'variable',
    x = 'index',
    y = 'value'
)

### Zadanie

Zilustrować DataFrame `samochody` z notebooka Pandas wybranymi wykresami.