## Seaborn

Sam `matplotlib` ma dość mało intuicyjne API - dlatego powstały pakiety takie jak `Seaborn`, które znacząco ułatwiają pracę z wykresami

In [None]:
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt

In [None]:
%matplotlib inline

Seaborn to pakiet zbudowany na bazie matplotlib który ułatwia pracę z nim. Przede wszystkim Seaborn świetnie działa w użyciu z obiektami typu `pandas.DataFrame`

In [None]:
import seaborn as sns

In [None]:
rng = np.random.RandomState(0)
x = np.linspace(0, 10, 500)
y = np.cumsum(rng.randn(500, 6), 0)


In [None]:
plt.plot(x, y)
plt.legend('ABCDEF', ncol=2, loc='upper left');

In [None]:
sns.set()

In [None]:
plt.plot(x, y)
plt.legend('ABCDEF', ncol=2, loc='upper left');

Przypomnijmy sobie rysowanie histogramu:

In [None]:
data = np.random.multivariate_normal([0, 0], [[5, 2], [2, 2]], size=2000)
data = pd.DataFrame(data, columns=['x', 'y'])

for col in 'xy':
    plt.hist(data[col], alpha=0.5)

Korzystając z Seaborn możemy łatwo narysować estymowaną gęstość rozkładu:

In [None]:
for col in 'xy':
    sns.kdeplot(data[col], shade=True)

Albo połączyć gęstość wraz z histogramem:

In [None]:
sns.distplot(data['x'])
sns.distplot(data['y']);

Seaborn świetnie sobie radzi również z rokładami wielowymiarowymi:

In [None]:
sns.kdeplot(x=data['x'], y=data['y']);

In [None]:
with sns.axes_style('white'):
    sns.jointplot(x=data['x'], y=data['y'], kind='kde')

Możemy również skorzystać z `pairplot` aby szybko przedstawić relacje między różnymi zmiennymi:

In [None]:
iris = sns.load_dataset("iris")
iris.head()

In [None]:
sns.pairplot(iris, hue='species', height=2.5);

### Przykład

In [None]:
marathon_url = 'https://raw.githubusercontent.com/jakevdp/marathon-data/master/marathon-data.csv'

In [None]:
marathon_df = pd.read_csv(marathon_url)

In [None]:
marathon_df.head(), marathon_df.dtypes

Zmieńmy odpowiednio typy danych:

In [None]:
from datetime import timedelta

In [None]:
def convert_time(s):
    h, m, s = map(int, s.split(':'))
    return timedelta(hours=h, minutes=m, seconds=s)

In [None]:
marathon_df = pd.read_csv(marathon_url, converters={'split':convert_time, 'final':convert_time})

In [None]:
marathon_df.head()

In [None]:
marathon_df.dtypes

In [None]:
marathon_df['split_sec'] = marathon_df['split'].dt.seconds
marathon_df['final_sec'] = marathon_df['final'].dt.seconds
marathon_df.head()

In [None]:
with sns.axes_style('white'):
    g = sns.jointplot(x=marathon_df['split_sec'], y=marathon_df['final_sec'], kind='hex')
    g.ax_joint.plot(np.linspace(4000, 16000),
                    np.linspace(8000, 32000), ':k')

In [None]:
marathon_df['split_frac'] = 1 - 2 * marathon_df['split_sec'] / marathon_df['final_sec']
marathon_df.head()

In [None]:
sns.histplot(marathon_df['split_frac'], kde=False);
plt.axvline(0, color="k", linestyle="--");

In [None]:
sum(marathon_df.split_frac < 0)

In [None]:
g = sns.PairGrid(marathon_df, vars=['age', 'split_sec', 'final_sec', 'split_frac'], hue='gender', palette='RdBu_r')
g.map(plt.scatter, alpha=0.8) and g.add_legend();

In [None]:
sns.kdeplot(marathon_df.split_frac[marathon_df.gender=='M'], label='men', shade=True)
sns.kdeplot(marathon_df.split_frac[marathon_df.gender=='W'], label='women', shade=True)
plt.xlabel('split_frac')
plt.legend();

In [None]:
sns.violinplot(x=marathon_df["gender"], y=marathon_df["split_frac"],
               palette=["lightblue", "lightpink"]);

In [None]:
marathon_df['age_dec'] = marathon_df.age.map(lambda age: 10 * (age // 10))
marathon_df.head()

In [None]:
with sns.axes_style(style=None):
    sns.violinplot(x=marathon_df["age_dec"], y=marathon_df["split_frac"], hue="gender", data=marathon_df,
                   split=True, inner="quartile",
                   palette=["lightblue", "lightpink"]);

In [None]:
sum(marathon_df['age'] > 80)