# Seaborn e Matplotlib

Assim como o Pandas expande as funcionalidades no Numpy para implementar funcionalidades de obtenção, análise e processamento de dados, o Seaborn expande as funcionalidades do Matplotlib, que viemos usando nas últimas semanas. 

Ao invés de implementar novas funcionalidades, o Seaborn na maior parte do tempo está utilizando as funções do Matplotlib diretamente, apenas passando uma série de argumentos que não é passada por padrão. O Seaborn facilita, portanto, a obtenção de gráficos de alta qualidade passando menos argumentos.

Recursos: 
- "Cola" do Seaborn - Cheat Sheet: Seaborn Charts
https://www.kaggle.com/code/themlphdstudent/cheat-sheet-seaborn-charts

- Seaborn é o Matplotlib mais fácil - Neural Nine
https://www.youtube.com/watch?v=ooqXQ37XHMM

- Galeria de exemplos do Seaborn
https://seaborn.pydata.org/examples/index.html

## Conjuntos de dados

### Tips

Contém dados sobre gorjetas em um restaurante de um shopping estadunidense nos anos 90. O conjunto possui colunas sobre a conta, a gorjeta, o sexo do cliente, se pediu para sentar numa mesa de fumantes, o dia da semana, a hora do dia e o tamanho da mesa, ou seja, o número de clientes na mesa.

### Titanic

Esse conjunto descreve os passageiros que estavam a bordo do Titanic e é um bom conjunto para estudar a probabilidade de sobrevivência dos passageiros.

In [None]:
# Primeiro vamos importar nossas bibliotecas e carregar os conjuntos de dados
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# Podemos controlar o estilo que queremos para nosso gráfico
sns.set_style('darkgrey')
# Veja a lista de estilos: white, dark, whitegrid, darkgrid, ticks 
# Controlando a estética: https://seaborn.pydata.org/tutorial/aesthetics.html

# Vamos ver quais conjuntos de dados (datasets)
# estão disponíveis no Seaborn
print(sns.get_dataset_names())
# Os conjuntos podem ser carregados com a função load_dataset() do Seaborn
tips = sns.load_dataset('tips')
titanic = sns.load_dataset('titanic')

In [None]:
# Vamos começar estudando o conjunto tips
# Esse conjunto possui informações sobre gorjetas
# Podemos ver através da função type() que o conjunto
# de dados foi carregado como um DataFrame.
# O Seaborn foi feito com o Matplotlib para ter boa interface com o Pandas.
type(tips)

In [None]:
# Vamos analisar as colunas do conjunto de dados
# Vamos visualizar algumas linhas com a função head() do DataFrame
tips.head()

In [None]:
tips.columns

In [None]:
# Visualização

# Para estudar esse conjunto de dados, apenas obter
# as informações estatísticas pode ser difícil
# e tedioso. Vamos utilizar visualizações para obter insights.

# É possível acessar as funções do seaborn diretamente pelo Pandas.
# Essa forma de obter gráficos utilizamos durante o semestre todo.
# Acessamos essas funcionalidades pela função plot do DataFrame
tips.plot()

In [None]:
# Podemos acessar os tipos diferentes de gráficos por seus nomes
# Para fazer um gráfico de espalhamento, vamos utilizar
# a função scatter() do módulo plot do DataFrame 
# Note que agora é necessário passar os valores de x e y

tips.plot.scatter(x='tip',y='total_bill')

In [None]:
# Para utilizar o Seaborn diretamente, utilize a função scatter
# do Seaborn e passe o argumento data, que deve receber o conjunto de dados

sns.scatterplot(x='tip',y='total_bill',data=tips)

In [None]:
# Existem vantagens em se utilizar o módulo diretamente
# como maior controle dos argumentos.

# Uma das facilidades que o Seaborn proporciona em comparação
# ao Matplotlib é a passagem de argumentos para separar as cores
# de um gráfico com relação ao 

sns.scatterplot(x='tip',y='total_bill',data=tips,hue='day')

In [None]:
sns.scatterplot(x='tip',y='total_bill',data=tips,hue='sex')


In [None]:
sns.scatterplot(x='tip',y='total_bill',data=tips,hue='sex',size='size')


In [None]:
sns.scatterplot(x='tip',y='size',data=tips,hue='sex',size='total_bill')

In [None]:
# Outro gráfico muito utilizado é o de barras. 

# Podemos fazer o gráfico com a função bar do módulo plot do DataFrame:
tips.plot.bar()

In [None]:
help(plt.bar)

In [None]:
# Também podemos utilizar o Matplotlib para fazer um gráfico de barras
plt.bar(x=np.arange(len(tips)),height=tips['total_bill'])
plt.ylabel('valor total da conta')
plt.show()

In [None]:
# Mas os gráficos de barra do Seaborn são obtidos muito mais facilmente
sns.barplot(x='sex',y='total_bill',data=tips)

In [None]:
sns.barplot(x='day',y='total_bill',data=tips)

In [None]:
sns.barplot(x='day',y='total_bill',data=tips,hue='sex')

In [None]:
# Também estudamos o Histograma, em que queremos estudar 
# o número de vezes que uma certa instância repetiu seu valor.

sns.histplot(tips['tip'])

In [None]:
# É possível obter regressões utilizando uma curva de densidade de probabilidade
sns.histplot(tips['tip'],kde=True)

In [None]:
sns.histplot(tips['tip'],kde=True,bins=15)


In [None]:
# Um gráfico importante é o Box Plot
sns.boxplot(x='day',y='tip',data=tips)

In [None]:
# Podemos representar mais quantis com a função boxenplot

sns.boxenplot(x='day',y='tip',data=tips)

In [None]:
# É possível realizar agrupamentos facilmente passando parâmetros como hue
sns.boxplot(x='day',y='tip',data=tips,hue='sex')

In [None]:
# Por fim, outro gráfico interessante de distribuição é o Strip Plot

sns.stripplot(x='day',y='tip',data=tips)

In [None]:
# Um Joint Plot junta o strip com o histograma 

sns.jointplot(x='day',y='tip',data=tips)

In [None]:
# E também pode apresentar curvas de probabilidade

sns.jointplot(x='tip',y='total_bill',data=tips,kind='reg')

In [None]:
# Para estudar correlação, vamos abrir o conjunto do Titanic

titanic.head()

In [None]:
# Vamos procurar por correlações entre as variáveis com a função corr() do DataFrame
correlacao = titanic.corr()
correlacao

In [None]:
# É possível visualizar essa distribuição com um Mapa de Calor
# ou heatmap. Esse tipo de gráfico é muito comum e pode ajudar a 
# interpretar dados tabulares.

sns.heatmap(correlacao,annot=True)