## matplotlib

`matplotlib` jest podstawową biblioteką do tworzenia wizualizacji w Pythonie. Jego największymi zaletami są uniwersalność i powszechność - w internecie znajdziemy mnóstwo informacji na temat tego jak używać tego pakietu i tworzyć w nim wizualizacje.

Sam `matplotlib` ma jednak dość mało intuicyjne API - dlatego powstały pakiety takie jak `Seaborn`, które znacząco ułatwiają pracę z wykresami

In [None]:
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt

In [None]:
%matplotlib inline

Korzystać z `plt.style` możemy w łatwy sposób wybrać jeden z gotowych stylów wykresów.

In [None]:
plt.style.use('ggplot')

In [None]:
for i in range(4):
    plt.plot(np.random.rand(10))

In [None]:
import numpy as np
x = np.linspace(0, 10, 100)

fig = plt.figure()
plt.plot(x, np.sin(x), '-')
plt.plot(x, np.cos(x), '--');

### Zapisywanie wykresu do pliku

In [None]:
fig.savefig('my_figure.png')

In [None]:
from IPython.display import Image
Image('my_figure.png')

Z racji tego, że matplotlib powstał jako alternatywa dla użytkowników programu MATLAB, istnieje w nim interfejs `pyplot`, który jest analogią do interfejsu istniejącego w MATLAB.

In [None]:
plt.figure()  # stwórz nowy obiekt

# tworzenie pierwszego wykresu
plt.subplot(2, 1, 1)  # (wiersze, kolumny, numer panelu)
plt.plot(x, np.sin(x))

# tworzenie drugiego wykresu
plt.subplot(2, 1, 2)
plt.plot(x, np.cos(x));

Innym istniejącym interfejsem jest bardziej techniczny interfejs powiązany z obiektami pythonowymi:

In [None]:
fig, ax = plt.subplots(2)

ax[0].plot(x, np.sin(x))
ax[1].plot(x, np.cos(x));

### Proste wykresy liniowe

W Matplotlib obiekt typu `plt.Figure` przechowuje wszelkie informacje o wyresie (osie, obrazy, tekst, oznaczenia). Obiekty typu `plt.Axes` natomiast reprezentują dane reprezentowane na wykresie.

In [None]:
fig = plt.figure()
ax = plt.axes()

Kiedy osie są gotowe możemy użyć na nich metody `plot` aby narysować wykres:

In [None]:
fig = plt.figure()
ax = plt.axes()

x = np.linspace(0, 10, 1000)
ax.plot(x, np.sin(x));

Lub analogicznie korzystając z drugiego interfejsu:

In [None]:
# Tutaj fig i ax są tworzone za nas:

plt.plot(x, np.sin(x));

Jeżeli chcemy kilka serii danych na raz możemy używać `plt.plot` wiele razy:

In [None]:
plt.plot(x, np.sin(x))
plt.plot(x, np.cos(x));

Aby zarządzać kolorami możemy użyć parametru `color`, oto kilka sposobów używania go:

In [None]:
plt.plot(x, np.sin(x - 0), color='blue')        # nazwa koloru
plt.plot(x, np.sin(x - 1), color='g')           # kod koloru (rgbcmyk)
plt.plot(x, np.sin(x - 2), color='0.75')        # grayscale (0-1)
plt.plot(x, np.sin(x - 3), color='#FFDD44')     # hex RRGGBB
plt.plot(x, np.sin(x - 4), color=(1.0,0.2,0.3)) # trójka reprezentująca wartości RGB
plt.plot(x, np.sin(x - 5), color='chartreuse'); # nazwy z HTML

Analogicznie możemy definiować styl linii za pomocą `linestyle`

In [None]:
plt.plot(x, x + 0, linestyle='solid')
plt.plot(x, x + 1, linestyle='dashed')
plt.plot(x, x + 2, linestyle='dashdot')
plt.plot(x, x + 3, linestyle='dotted');

# Lub korzystając ze skrótów:
plt.plot(x, x + 4, linestyle='-')  
plt.plot(x, x + 5, linestyle='--') 
plt.plot(x, x + 6, linestyle='-.') 
plt.plot(x, x + 7, linestyle=':');

Możemy też łączyć ze sobą te komendy:

In [None]:
plt.plot(x, x + 0, '-g')
plt.plot(x, x + 1, '--c')
plt.plot(x, x + 2, '-.k')
plt.plot(x, x + 3, ':r');

### Ustawianie zakresu osi

In [None]:
plt.plot(x, np.sin(x))

plt.xlim(-1, 11)  # zakres osi OX
plt.ylim(-1.5, 1.5);  # zakres osi OY

In [None]:
plt.plot(x, np.sin(x))

plt.xlim(10, 0)  # możemy ustawić zakres od prawej do lewej
plt.ylim(1.2, -1.2);

In [None]:
plt.plot(x, np.sin(x))
plt.axis([-1, 11, -1.5, 1.5]);  # plt.axis pozwala nam ustawić wszystko na raz

Dodatkowo korzystając z `plt.axis` możemy korzystać z gotowych ustawień takich jak:

In [None]:
plt.plot(x, np.sin(x))
plt.axis('tight');

In [None]:
plt.plot(x, np.sin(x))
plt.axis('equal');

Aby sprawdzić inne możliwości można zajrzeć do dokumentacji:

In [None]:
help(plt.axis)

### Dodawanie oznaczeń do wykresów

In [None]:
plt.plot(x, np.sin(x))
plt.title("A Sine Curve")
plt.xlabel("x")  
plt.ylabel("sin(x)");

Kiedy pokazujemy więcej niż jedną serie danych możemy skorzystać z `plt.legend` aby dodać legendę do wykresu:

In [None]:
plt.plot(x, np.sin(x), '-g', label='sin(x)')
plt.plot(x, np.cos(x), ':b', label='cos(x)')
plt.axis('equal')

plt.legend();

Jeżeli korzystamy z obiektowego interfejsu nazwy metod mogą być trochę inne:

- `plt.xlabel()` → `ax.set_xlabel()`
- `plt.ylabel()` → `ax.set_ylabel()`
- `plt.xlim()` → `ax.set_xlim()`
- `plt.ylim()` → `ax.set_ylim()`
- `plt.title()` → `ax.set_title()`


Aby ułatwić sobie pracę możemy skorzystać z `ax.set` i ustawić wszystko za jednym razem:

In [None]:
ax = plt.axes()
ax.plot(x, np.sin(x))
ax.set(xlim=(0, 10), ylim=(-2, 2),
       xlabel='x', ylabel='sin(x)',
       title='A Simple Plot');

### Wykresy kropkowe (scatter plots)

Wykresy kropkowe tworzymy dokładnie tak jak liniowe, zmieniamy jedynie symbol który jest używany do rysowania:

In [None]:
x = np.linspace(0, 10, 30)
y = np.sin(x)

plt.plot(x, y, 'o', color='black');

Istnieje wiele rodzajów symboli jakich możemy używać:

In [None]:
rng = np.random.RandomState(0)
for marker in ['o', '.', ',', 'x', '+', 'v', '^', '<', '>', 's', 'd']:
    plt.plot(rng.rand(5), rng.rand(5), marker,
             label="marker='{0}'".format(marker))
plt.legend(numpoints=1)
plt.xlim(0, 1.8);

Co więcej symbole można ze sobą łączyć:

In [None]:
plt.plot(x, y, '-o', color='red');

Funkcja `plot` posiada wiele argumentów służacych do modyfikowania stylu linii i punktów:

In [None]:
plt.plot(x, y, '-p', color='gray',
         markersize=15, linewidth=4,
         markerfacecolor='white',
         markeredgecolor='gray',
         markeredgewidth=2)
plt.ylim(-1.2, 1.2);

Jeżeli chcemy tworzyć bardziej skomplikowane wykresy kropkowe, możemy skorzystać z `plt.scatter` które daje nam możliwość ustalania stylu dla każdej obserwacji:

In [None]:
rng = np.random.RandomState(0)
x = rng.randn(100)
y = rng.randn(100)
colors = rng.rand(100)
sizes = 1000 * rng.rand(100)

plt.scatter(x, y, c=colors, s=sizes, alpha=0.3,
            cmap='viridis')
plt.colorbar();  # show color scale

Przykład użycia tych parametrów na zbiorze Iris, zawierającym obserwacje trzech rodzajów kwiatów. W ten  sposób możemy pokazać wielowymiarowość danych - każda kropka oznacza jedną obserwacje, jej położenie mówi o rozmiarze liści, rozmiar kropki mówi o rozmiarze płatka kwiatu, a kolor przedstawia jego rodzaj.

In [None]:
from sklearn.datasets import load_iris
iris = load_iris()
feat = iris.data.T  # features
plt.scatter(feat[0], feat[1], alpha=0.2, s=100*feat[3], c=iris.target, cmap='viridis')
plt.xlabel(iris.feature_names[0])
plt.ylabel(iris.feature_names[1]);

### Wizualizacja błędów

Każdy wykonany pomiar jest zawsze obarczony błędem. Pokazywanie przedziałów ufności pozwala ukazać pełniejszy obraz sytuacji.

In [None]:
x = np.linspace(0, 10, 50)
dy = 0.8
y = np.sin(x) + dy * np.random.randn(50)

plt.errorbar(x, y, yerr=dy, fmt='.k');  # fmt oznacza kod formatu

Funkcja `errorbar` pozwala również na modyfikowanie stylu samych słupków błedów:

In [None]:
plt.errorbar(x, y, yerr=dy, fmt='o', color='black',
             ecolor='lightgray', elinewidth=3, capsize=0);

### Tworzenie histogramów

Histogramy są świetnym narzędziem na początkowym etapie analizy zbioru danych, aby lepiej zrozumieć ich rozkład.

In [None]:
data = np.random.randn(1000)
plt.hist(data);

In [None]:
plt.hist(data, bins=30, alpha=0.5,
         histtype='stepfilled', color='steelblue',
         edgecolor='black');

In [None]:
plt.hist?

In [None]:
x1 = np.random.normal(0, 0.8, 1000)
x2 = np.random.normal(-2, 1, 1000)
x3 = np.random.normal(3, 2, 1000)

kwargs = dict(histtype='stepfilled', alpha=0.3, bins=40)

plt.hist(x1, **kwargs)
plt.hist(x2, **kwargs)
plt.hist(x3, **kwargs);

Możemy również tworzyć dwuwymiarowe histogramy:

In [None]:
mean = [0, 0]
cov = [[1, 1], [1, 2]]
x, y = np.random.multivariate_normal(mean, cov, 10000).T

In [None]:
plt.hist2d(x, y, bins=30, cmap='Blues')
cb = plt.colorbar()
cb.set_label('counts in bin')

In [None]:
plt.hexbin(x, y, gridsize=30, cmap='Blues')
cb = plt.colorbar(label='count in bin')

### Duże ilości wykresów na raz!

Czasami może przydać się możliwość pokazania kilku wykresów obok siebie, aby łatwiej było je porównać. W Matplotlib służy do tego `subplot`.

Korzystając z `plt.axes` możemy przekazać w którym miejscu ma się pokazać inny wykres:

In [None]:
ax1 = plt.axes()
ax2 = plt.axes([0.65, 0.65, 0.2, 0.2])

Innym sposobem jest użycie `plt.subplot` który tworzy siatkę wykresów:

In [None]:
for i in range(1, 7):
    plt.subplot(2, 3, i)
    plt.text(0.5, 0.5, str((2, 3, i)),
             fontsize=18, ha='center')

Aby poprawić odstępy między wykresami możemy użyć `subplots_adjust`

In [None]:
fig = plt.figure()
fig.subplots_adjust(hspace=0.4, wspace=0.4)
for i in range(1, 7):
    ax = fig.add_subplot(2, 3, i)
    ax.text(0.5, 0.5, str((2, 3, i)),
           fontsize=18, ha='center')

Takie pojedyncze tworzenie wykresów może być uciążliwe przy wielu wykresach na raz, lub gdy chcemy schować wewnętrzne osie, dlatego w takich przypadkach możemy użyć `plt.subplots`

In [None]:
fig, ax = plt.subplots(2, 3, sharex='col', sharey='row')

In [None]:
for i in range(2):
    for j in range(3):
        ax[i, j].text(0.5, 0.5, str((i, j)),
                      fontsize=18, ha='center')
fig


### Dodawanie tekstu do wykresów

Wczytajmy sobie zbiór danych o urodzeniach dzieci w Stanach.

In [None]:
births = pd.read_csv(
    'https://raw.githubusercontent.com/jakevdp/data-CDCbirths/master/births.csv'
)

Jak widzimy mamy tutaj dane o liczbie urodzonych dzieci wraz z ich płcią:

In [None]:
births.head()

Korzystając z tabeli przestawnej możemy zobaczyć jak rozkładają się urodzenia w poszczególnych dekadach:

In [None]:
births['decade'] = 10 * (births['year'] // 10)
births.pivot_table('births', index='decade', columns='gender', aggfunc='sum')

In [None]:
births.pivot_table('births', index='year', columns='gender', aggfunc='sum').plot()
plt.ylabel('total births per year');

Usuńmy teraz dane odstające ze zbioru danych:

In [None]:
quartiles = np.percentile(births['births'], [25, 50, 75])
mu = quartiles[1]
sig = 0.74 * (quartiles[2] - quartiles[0])

In [None]:
births = births.dropna()

In [None]:
births['day'] = births['day'].astype(int)

In [None]:
births = births.query('(births > @mu - 5 * @sig) & (births < @mu + 5 * @sig)')

Zmienimy teraz index zbioru danych na taki który reprezentuje obiekt typu datetime:

In [None]:
births.index = pd.to_datetime(10000 * births.year +
                              100 * births.month +
                              births.day, format='%Y%m%d')

births['dayofweek'] = births.index.dayofweek

W ten sposób możemy zobaczyć jak rozkładają się urodzenia względem dnia tygodnia:

In [None]:
births.pivot_table('births', index='dayofweek',
                    columns='decade', aggfunc='mean').plot()
plt.gca().set_xticklabels(['Mon', 'Tues', 'Wed', 'Thurs', 'Fri', 'Sat', 'Sun'])
plt.ylabel('mean births by day');

Spróbujmy zobaczyć jak rozkładają się urodzenia względem dnia roku:

In [None]:
births_by_date = births.pivot_table('births', 
                                    [births.index.month, births.index.day])
births_by_date.head()

In [None]:
from datetime import datetime
births_by_date.index = [datetime(2012, month, day)
                        for (month, day) in births_by_date.index]
births_by_date.head()

In [None]:
# Wykreśl wyniki
fig, ax = plt.subplots(figsize=(12, 4))
births_by_date.plot(ax=ax)
style = dict(size=10, color='gray')
ax.text('2012-1-1', 3950, "Nowy Rok", **style)
ax.text('2012-7-4', 4250, "Dzień Niepodległości", ha='center', **style)
ax.text('2012-9-4', 4850, "Dzień pracy", ha='center', **style)
ax.text('2012-10-31', 4600, "Halloween", ha='right', **style)
ax.text('2012-11-25', 4450, "Święto Dziękczynienia", ha='center', **style)
ax.text('2012-12-25', 3850, "Boże Narodzenie", ha='right', **style)
# Oznaczenia osi
ax.set(title='Urodzeni w USA według dnia roku (1969-1988)',
       ylabel='średnia dzienna liczba urodzeń')
# Odpowiednie formatowanie osi X
ax.xaxis.set_major_locator(mpl.dates.MonthLocator())
ax.xaxis.set_minor_locator(mpl.dates.MonthLocator(bymonthday=15))
ax.xaxis.set_major_formatter(plt.NullFormatter())
ax.xaxis.set_minor_formatter(mpl.dates.DateFormatter('%h'));

## Seaborn

Seaborn to pakiet zbudowany na bazie matplotlib który ułatwia pracę z nim. Przede wszystkim Seaborn świetnie działa w użyciu z obiektami typu `pandas.DataFrame`

In [None]:
import seaborn as sns

In [None]:
rng = np.random.RandomState(0)
x = np.linspace(0, 10, 500)
y = np.cumsum(rng.randn(500, 6), 0)


In [None]:
plt.plot(x, y)
plt.legend('ABCDEF', ncol=2, loc='upper left');

In [None]:
sns.set()

In [None]:
plt.plot(x, y)
plt.legend('ABCDEF', ncol=2, loc='upper left');

Przypomnijmy sobie rysowanie histogramu:

In [None]:
data = np.random.multivariate_normal([0, 0], [[5, 2], [2, 2]], size=2000)
data = pd.DataFrame(data, columns=['x', 'y'])

for col in 'xy':
    plt.hist(data[col], alpha=0.5)

Korzystając z Seaborn możemy łatwo narysować estymowaną gęstość rozkładu:

In [None]:
for col in 'xy':
    sns.kdeplot(data[col], shade=True)

Albo połączyć gęstość wraz z histogramem:

In [None]:
sns.distplot(data['x'])
sns.distplot(data['y']);

Seaborn świetnie sobie radzi również z rokładami wielowymiarowymi:

In [None]:
sns.kdeplot(x=data['x'], y=data['y']);

In [None]:
with sns.axes_style('white'):
    sns.jointplot(x=data['x'], y=data['y'], kind='kde')

Możemy również skorzystać z `pairplot` aby szybko przedstawić relacje między różnymi zmiennymi:

In [None]:
iris = sns.load_dataset("iris")
iris.head()

In [None]:
sns.pairplot(iris, hue='species', height=2.5);

### Przykład

In [None]:
marathon_url = 'https://raw.githubusercontent.com/jakevdp/marathon-data/master/marathon-data.csv'

In [None]:
marathon_df = pd.read_csv(marathon_url)

In [None]:
marathon_df.head(), marathon_df.dtypes

Zmieńmy odpowiednio typy danych:

In [None]:
from datetime import timedelta

In [None]:
def convert_time(s):
    h, m, s = map(int, s.split(':'))
    return timedelta(hours=h, minutes=m, seconds=s)

In [None]:
marathon_df = pd.read_csv(marathon_url, converters={'split':convert_time, 'final':convert_time})

In [None]:
marathon_df.head()

In [None]:
marathon_df.dtypes

In [None]:
marathon_df['split_sec'] = marathon_df['split'].dt.seconds
marathon_df['final_sec'] = marathon_df['final'].dt.seconds
marathon_df.head()

In [None]:
with sns.axes_style('white'):
    g = sns.jointplot(x=marathon_df['split_sec'], y=marathon_df['final_sec'], kind='hex')
    g.ax_joint.plot(np.linspace(4000, 16000),
                    np.linspace(8000, 32000), ':k')

In [None]:
marathon_df['split_frac'] = 1 - 2 * marathon_df['split_sec'] / marathon_df['final_sec']
marathon_df.head()

In [None]:
sns.histplot(marathon_df['split_frac'], kde=False);
plt.axvline(0, color="k", linestyle="--");

In [None]:
sum(marathon_df.split_frac < 0)

In [None]:
g = sns.PairGrid(marathon_df, vars=['age', 'split_sec', 'final_sec', 'split_frac'], hue='gender', palette='RdBu_r')
g.map(plt.scatter, alpha=0.8) and g.add_legend();

In [None]:
sns.kdeplot(marathon_df.split_frac[marathon_df.gender=='M'], label='men', shade=True)
sns.kdeplot(marathon_df.split_frac[marathon_df.gender=='W'], label='women', shade=True)
plt.xlabel('split_frac')
plt.legend();

In [None]:
sns.violinplot(x=marathon_df["gender"], y=marathon_df["split_frac"],
               palette=["lightblue", "lightpink"]);

In [None]:
marathon_df['age_dec'] = marathon_df.age.map(lambda age: 10 * (age // 10))
marathon_df.head()

In [None]:
with sns.axes_style(style=None):
    sns.violinplot(x=marathon_df["age_dec"], y=marathon_df["split_frac"], hue="gender", data=marathon_df,
                   split=True, inner="quartile",
                   palette=["lightblue", "lightpink"]);

In [None]:
sum(marathon_df['age'] > 80)