# Seaborn

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

In [None]:
rest = pd.read_pickle('base_restaurante.pickle')

In [None]:
rest.head()

Uma outra forma de explorar a distribuição de uma variável é trabalharmos com um gráfico de densidade.

Por padrão, o método ```displot``` irá plotar um histograma bem como um gráfico de densidade.

Um gráfico de densidade permite visualizar a distribuição de dados em um intervalo ou período de tempo contínuo. Este gráfico é uma variação de um histograma que usa a suavização de kernel para plotar os valores, permitindo visualizar as distribuições mais suaves quando existe o ruído.

Os picos no gráfico de densidade ajudam a exibir onde os valores são concentrados no intervalo.

Uma vantagem que os gráficos de densidade têm é que eles não são afetados pelo parâmetro ```bins``` que ocorre nos Histogramas. Um histograma composto por apenas 4 bins não produziria uma forma de distribuição suficientemente distinta, como faria um histograma de 20. No entanto, com o gráfico de densidade isso não é um problema.

In [None]:
hist, ax = plt.subplots()
# trocar bins para 4, 20
ax = sns.distplot(rest['valor_conta'], kde=False, bins=4)
ax.set_title('Histograma com o gráfico de densidade para o Valor total da conta')
plt.show()

As plotagens de densida são outra forma de visualizar uma distribuição univariada. Essencialmente, são criadas usando uma distribuição normal centralizada em cada ponto de dado, e então suavizando as plotagens que se sobrepõem de modo que a área sob a curva seja 1.

Para plotar somente a plotagem de densidade, sem o histograma:

In [None]:
den, ax = plt.subplots()
# trocar bins para 4, 20
ax = sns.distplot(rest['valor_conta'], hist=False, bins=4)
ax.set_title('Gráfico de densidade para o Valor total da conta')
plt.show()

Além disso, podemos utilizar os rugs plots (literalmente, plotagens de tapete) que podemos considerar que as marcas que aparecem nas bordas do gráfico, assemelham-se às franjas de um tapete.

Podemos unificar a plotagem de histograma, densidade e tapete (rugs plots).

In [None]:
hist, ax = plt.subplots()
# trocar bins para 4, 20
ax = sns.distplot(rest['valor_conta'], rug=True, bins=20)
ax.set_title('Histograma com o gráfico de densidade e Rug para o Valor total da conta')
plt.show()

Os gráficos de dispersão são ótimos para comparar duas variáveis.

Porém, as vezes, há pontos demais para que um gráfico de dispersão seja significativo. Uma forma de contornar esse problema é reunir pontos no gráfico.

Assim como os histogramas podem reunir dados de uma variável para criar uma barra, o hdexbin pode fazer o mesmo com duas variáveis.

Um hexágono é usado com essa finalidade, pois é o formato mais eficiente para cobrir uma superfície 2D arbitrária.

Utiliza-se o método joinplot para criar o hexbin.

In [None]:
hexbin = sns.jointplot(x='valor_conta', y='valor_gorgeta', data=rest, kind='hex')
hexbin.set_axis_labels(xlabel='Valor Conta', ylabel='Valor gorgeta')
hexbin.fig.suptitle('Hexbin Joint Plot de Valor Conta e Valor da Gorgeta', fontsize=15, y=1);

Podes utilizar a plotagem de barras (bar plots) para mostrar diversas variáveis. Por padrão, o barplot irá calcular uma média, mas é possível passar qualquer função para o parâmetro estimator.

In [None]:
import numpy as np

In [None]:
bar, ax = plt.subplots()
ax = sns.barplot(x='periodo', y='valor_conta', data=rest, estimator=np.mean)
ax.set_title('Faturamente médio pelo período do dia')
ax.set_xlabel('Período do Dia')
ax.set_ylabel('Gorgeta')
plt.show()

In [None]:
bar, ax = plt.subplots()
ax = sns.boxplot(x='periodo', y='valor_conta', data=rest)
ax.set_title('Boxplot do valor_conta pelo período do dia')
ax.set_xlabel('Período do Dia')
ax.set_ylabel('Valor Total')
plt.show()

Podemos utilizar diferentes maneiras para incluir mais informações no gráficos, utilizando cores, tamanho e formato para distinguir os dados na plotagem.

Podemos utilizar as Facetas geram os subconjuntos e adicionam na figura de forma simples e rápida.

In [None]:
faceta = sns.FacetGrid(rest, col='periodo')
# para cada valor de tempo, plota um histograma do total da conta
faceta.map(sns.distplot, 'valor_conta', rug=True)
plt.show()

In [None]:
faceta = sns.FacetGrid(rest, col='dia', hue='sexo')
# para cada valor de tempo, plota um histograma do total da conta
facet = faceta.map(plt.scatter, 'valor_conta', 'valor_gorgeta')
facet = faceta.add_legend()
plt.show()

In [None]:
faceta = sns.FacetGrid(rest, col='periodo', row='fumante', hue='sexo')
faceta.map(plt.scatter, 'valor_conta', 'valor_gorgeta')
plt.show()

Também podemos utilizar os objetos de plotagem do Matplotlib para adicionar novos gráficos

In [None]:
fig, ax = plt.subplots()
ax = rest.plot.hexbin(x='valor_conta', y='valor_gorgeta', gridsize=10, ax=ax)
plt.show()