**Visualização de Dados - Trabalhando com Seaborn**
- Biblioteca para visualização de dados baseada em matplotlib
- Interface de alto nível para gráficos estatísticos
- Fornece uma interface atraente e profissional para os gráficos 
- Simples e muito intuitivo de usar

**Quando utilizar?**
- Útil para análise e exploração de dados
- Apresentar análises visuais

In [None]:
# Instalação da biblioteca Seaborn

!pip install seaborn==0.9.0

In [None]:
# Datasets

import seaborn as sns

df_tips = sns.load_dataset('tips')

df_tips.head()

**Visualizando relações estatísticas nos dados**
  > A análise estatística é o processo de entender como variáveis no conjunto de dados se relacionam uma com a outra e como essas relações dependem de outras variáveis.

  > A visualização de dados se torna uma peça essencial nesse processo, pois, quando os dados são visualizados adequadamente, as pessoas conseguem descobrir padrões que indicam relações nos dados.

**Função relplot()**

> Método de alto nível para visualização de relações estatísticas entre as variáveis. O método relplot() já combina o scatter plot e o line plot

> Muito útil para ver relações entre duas ou mais variáveis com o uso de parametros de semântica dos dados

**Relação de variáveis com scatter plot**
 > Visualizando a relação entre a variável valor total da conta e gorjeta

In [None]:
tips = sns.load_dataset('tips') 
sns.relplot(x = 'total_bill',  y = 'tip', data = tips);

In [None]:
# Visualizando a relação entre as variáveis total da conta, gorjeta e colorindo cada ponto com a variável smoker (fumante)

sns.relplot(x='total_bill', y='tip', hue='smoker', data=tips);

In [None]:
# Visualizando a relação entre as variáveis total da conta, gorjeta e colorindo cada ponto com a variável sex

sns.relplot(x='total_bill', y='tip', hue='sex', data=tips);

In [None]:
# Visualizando relação entre as variáveis total da conta e gorjeta, colorindo cada ponto com a variável sex e definindo um estilo também na variável sex

sns.relplot(x='total_bill', y='tip', hue='sex', style='sex', data=tips );

In [None]:
# É possível representar quatro variáveis alterando a tonalidade e estilo de cada ponto. Mas é preciso cautela, pois, a visualização pode ficar confusa

sns.relplot(x='total_bill', y='tip', hue='sex', style='smoker', data=tips);

In [None]:
# Em casos de variáveis númericas, para definir a tonalidade a paleta de cores altera de forma sequencial

sns.relplot(x='total_bill', y='tip', hue='size', data=tips);

**É possível customizar a paleta de cores**
> É só pesquisar no site do SEABORN

In [None]:
# Usando a opção size para definir o tamanho de cada ponto baseado em alguma coluna da base de dados

sns.relplot(x='total_bill', y='tip',size='size',data=tips);

In [None]:
sns.relplot(x='total_bill', y='tip',size='size',sizes=(15,300),data=tips);

**Scatter Plot**
- Caso não queira utilizar o relplot(), o método scatterplot() já atende perfeitamente quando queremos ver relações dos dados
- A única diferença é que o scatterplot plota gráficos de dispersão apenas, logo este não contem a função lineplot()

In [None]:
# Visualizando relação entre as 4 variáveis total_bill, tipo, day, smoker

import seaborn as sns

df_tips = sns.load_dataset('tips')

%matplotlib inline
tips = sns.load_dataset('tips')
sns.scatterplot(x = 'total_bill', y ='tip', hue ='day', style ='time', data = tips);

**Redimensionando figuras no Seaborn**

In [None]:
import matplotlib.pyplot as plt

In [None]:
f, ax = plt.subplots (figsize=(12,5))
sns.scatterplot (x = 'total_bill', y = 'tip', hue = 'day', data = tips);

**Usando cores no Seaborn**
- A função que controla as cores no seaborn e a color_palette()
- Essa função fornece uma interface para gerar cores no seaborn
- Usamos esse método internamente ao usar o parametro pallete
- O método color_palette() recebe o nome de uma paleta de cores do seaborn ou um colormap do matplotlib
- O método set_palette recebe os mesmos parametros e é usado para definir um estilo padrão para todos os plots 
- As cores devem ser definidas levando em consideração o tipo de dado que queremos plotar. (qualitativo, sequencial ou divergente)

> Ferramenta Color Brewer
- https://colorbrewer2.org/#type=sequential&scheme=BuGn&n=3

In [None]:
# Paleta de cores para dados quantitativos
sns.palplot(sns.color_palette('Accent'))

In [None]:
# Paleta de cores para dados divergentes
sns.palplot(sns.color_palette('PuOr'))

In [None]:
# Paleta de cores para dados sequencial
sns.palplot(sns.color_palette('Blues'))

In [None]:
# Gráfico usando a paleta de cor sequencial "Blues"
sns.relplot(x = 'total_bill', y = 'tip', hue = 'size', palette = 'Blues', size = 'size', sizes = (12,500), data = tips);

In [None]:
# Gráfico usando a paleta de cor sequencial "Purple" do site Color Brewer
sns.relplot(x = 'total_bill', y = 'tip', hue = 'size', palette = 'Purples', size = 'size', sizes = (12,500), data = tips);

**Gráfico usando a paleta de cor qualitativa 'Set2'**
- Paleta de cor ideal para plotar dados categóricos

In [None]:
sns.catplot (x = 'sex', kind = 'count', palette='Set2', data=tips);

In [None]:
# Gráfico usando a paleta de cor divergente 'PiYG'
sns.heatmap(tips.corr(), annot=True, cmap='PiYG');

In [None]:
# Definindo cores padrão para gráficos seaborn
sns.set_palette('pastel')

# Plot usando a paleta de cor 'pastel'
sns.relplot(x='total_bill', y='tip', data = tips);

**Instrução with para definir cor temporariamente**

In [None]:
# Plota o gráfico definindo uma opção de cor temporária
with sns.color_palette('Accent'):
    sns.relplot(x='total_bill', y='tip', size='size', sizes=(12,250), data= tips);

**Plotando dados categóricos**
- Quando trabalhamos com variáveis categóricas temos que visualizar dados de formas diferentes
- O seaborn fornece o método catplot() que já contem diversos tipos de gráficos embutidos
- Isso facilita, pois, você pode usar diferentes gráficos usando o mesmo método

In [None]:
# Carregando dataset
import seaborn as sns
tips = sns.load_dataset('tips')

In [None]:
# Gráficos de barras ou também conhecidos como gráficos de colunas
sns.catplot(x='sex', kind='count', palette='Set2', data=tips);

In [None]:
# Gráfico de barras horizontais usando a coluna day
sns.catplot(y='day', kind='count', palette='Set1', data=tips);

In [None]:
# Scatter plot com dados categóricos
sns.catplot(x='day', y='total_bill', palette='Set2', data=tips);

In [None]:
# O parametro swarm evita sobreposição de pontos
sns.catplot(x='day', y='total_bill', kind='swarm', data=tips);

In [None]:
# O paramentro hue permite adicionarmos uma terceira variável a nossa visualização
sns.catplot(x='day', y='total_bill', kind='swarm', hue='sex', palette='Dark2', data=tips);

- O parametro order permite alterarmos a ordem padrão das categorias que estão sendo exibidas
- Isso é útil quando temos mais de um gráfico na mesma figura e queremos manter as mesmas ordens

In [None]:
sns.catplot (x='day', y='total_bill', kind= 'swarm', hue='sex', order= ['Sat','Sun','Fri','Thur'], data=tips);

In [None]:
# Invertendo a visualização para plots horizontais
sns.catplot(x='total_bill', y='day', kind='swarm', data=tips);

**Gráficos com Regressão**
- Quando temos muitas variáveis quantitativas em nossos dados, é interessante visualizar como estas se relacionam
- Podemos visualizar essas informações com linhas de regressão
- Com modelos de regressão simples é possível checar se existe alguma correlação entre algumas variáveis

In [None]:
# Importando a biblioteca seaborn e o dataset embutido nela como exemplo
import seaborn as sns
import matplotlib
tips = sns.load_dataset('tips')

In [None]:
# Exibe a linha de regressão para visualizar 
%matplotlib inline
sns.lmplot(x='total_bill', y='tip', hue='sex', palette='Pastel1', data=tips);

In [None]:
# Usando o parametro col para separar os gráficos pelo valor da coluna categórica time
%matplotlib inline
sns.lmplot(x='total_bill', y='tip', hue='smoker', col='time', palette='Set2', data=tips);

In [None]:
# Parâmetros scatter_kws e line_kws

%matplotlib inline
sns.lmplot(
    x='total_bill',
    y='tip',
    hue='smoker',
    col='time',
    palette='Set1',
    data=tips,
    scatter_kws={'s': 90, 'alpha': 0.5},
    line_kws= {'lw': 4}
);

In [None]:
# Separando gráficos pelo parâmetro col e pelo parâmetro row
%matplotlib inline
sns.lmplot(x='total_bill', y='tip',hue='smoker', col='time', row='sex', palette='Set2', data=tips);

**Visualizando distribuição de observações**
- Um dataset muito grande será difícil de visualizar variáveis categóricas
- É preciso sumarizar a distribuição dos dados para facilitar a visualização
- Podemos usar um gráfico do tipo Boxplot para visualizar a distribuição de tais variáveis
- Esse tipo de gráfico é muito útil para visualizar outliers

In [None]:
# Boxplot de dias da semana por total de conta
sns.catplot(x='day', y='total_bill', kind='box', data=tips);

In [None]:
# Gráfico de boxplot dos dias por total de conta e se a pessoa é fumante ou não
sns.catplot(x='day', y='total_bill', hue='smoker', kind='box', data=tips);

In [None]:
# Tipo de boxplot com foco maior na forma dos dados do que nos outliers
# Esse tipo de gráfico é interessante quando temos grandes datasets
sns.catplot(x='day', y='total_bill', kind='boxen', data=tips);

In [None]:
# O método stripplot permite plotar a distribuição dos dados
# Podemos combinar os dois gráficos para ter mais informação
sns.catplot(x='day', y='total_bill', kind='boxen', data=tips);
sns.stripplot(x='day', y='total_bill', data=tips, color='green');

In [None]:
# O método catplot() permite usarmos facegrid assim podemos combinar gráficos em uma única figura
%matplotlib inline
sns.catplot(x='sex', y='total_bill', hue='smoker', col='time', data=tips, kind='boxen', height=4);

**Violin Plot**
- Gráfico ideal para visualizar a distribuição de variáveis
- Combinação do Boxplot com o KDE
- Funciona bem para distribuição com pico
- Permite uma visualização mais rica do que com o Boxplot normal

In [None]:
# Violin Plot
sns.catplot(x='day', y='total_bill', kind='violin', data=tips);

In [None]:
# Violin Plot horizontal
sns.catplot(x='total_bill', y='day', kind='violin', data=tips);

In [None]:
# Usando o parâmetro Hue para ter uma terceira variável
sns.catplot(x='day', y='total_bill', hue='time', kind='violin', data=tips);

In [None]:
# É possível dividir o violin plot com o parâmetro split
# Isso é útil quando temos muitos dados para dividir
sns.catplot(x='day', y='total_bill', hue='sex', split=True, kind='violin', data=tips);

In [None]:
# Usando o parâmetro inner para preencher o violin plot com observações
# Útil para destacar bem as partes que possuem mais dados
sns.catplot(x='day', y='total_bill', hue='sex', split=True, inner='sticker', palette='pastel', kind='violin', data=tips);

In [None]:
# Podemos combinar também um gráfico de swarm com o violin plot
# Dessa forma fica mais explícito ainda a frequência de pontos nas partes do 'violino'
sns.catplot(x='day', y='total_bill', hue='sex', split=True, palette='pastel', kind='violin', data=tips);
sns.swarmplot(x='day', y='total_bill', color='k', size=3, data=tips);

**Visualizando a distribuição de um Dataset**
> Histograma
- O método histograma tenta encontrar a maior quantidade de bins

In [None]:
sns.set(color_codes=True)
sns.distplot(tips.total_bill, kde=False);

**Plotando um histograma para uma distribuição normal**

In [None]:
# Importa o Numpy para distribuição aleatória dos dados
import numpy as np

In [None]:
# Gera 100 valores aleatórios em uma distribuição normal
x = np.random.normal(size=100)

In [None]:
# Mostra os dados aleatórios da variável x
x

In [None]:
# Plota o histograma para a variável x
sns.distplot(x);

In [None]:
# Plota o histograma com bins=20 e KDE=True
sns.distplot(tips.total_bill, bins=20, kde=True);

In [None]:
# Visualizando apenas o KDE
sns.distplot(tips.total_bill, hist=False);

In [None]:
# Parâmetro Rug
sns.distplot(tips.total_bill, hist=False, rug=True);

**Jointplot (ScatterPlot e Histograma)**
- Quando queremos ver a distribuição de duas variáveis podemos usar o Jointplot
- União de gráfico do tipo ScatterPlot e Histograma para as duas variáveis
- Mostra o ScatterPlot para as duas variáveis e um Histograma para cada variável separadamente

In [None]:
sns.jointplot(x='tip', y='total_bill', color='r', data=tips);

**Hexbin Plots**
- Adequado para visualização de grande conjunto de dados
- Tende a funcionar melhor com as cores em branco no fundo

In [None]:
sns.jointplot(x='tip', y='total_bill', color='b', kind='hex', data=tips);

In [None]:
# Usando o KDE para plotar mais de uma variável
sns.jointplot(x='tip', y='total_bill', color='b', kind='kde', data=tips);

**Visualizando relacionamentos emparelhados**
- Plota múltiplas variáveis de um dataset
- Cria uma matriz de eixos que mostra a relação de cada par de colunas no dataframe
- Por padrão plota também um histograma de cada coluna no dataframe na diagonal da matriz

In [None]:
# Método pairplot()
sns.pairplot(tips);

**Carrega o Dataset Iris**

In [None]:
iris = sns.load_dataset('iris')
iris.head()

In [None]:
# Plota pares emparelhados separando pela coluna species
sns.pairplot(iris, hue='species', palette='Set1')

In [None]:
# Plotando Scatter plots com regressão
sns.pairplot(iris, kind='reg');

In [None]:
# Plotando histogramas na diagonal
sns.pairplot(iris, hue='species', diag_kind='hist');

In [None]:
# Plotando apenas 2 colunas do dataframe
sns.pairplot(iris, hue='species', vars=['sepal_width', 'sepal_length'], palette='husl');

**Gráficos de correlação**
- Útil para visualizar se existem correlações positivas ou negativas entre colunas
- Método corr() do pandas possibilita calcular correlação por tipo spearman ou pearson

In [None]:
correlacoes = tips.corr()
correlacoes

In [None]:
ax = sns.heatmap(correlacoes)

In [None]:
# Exibe os valores da correlação
ax = sns.heatmap(correlacoes, annot=True)

In [None]:
# Visualizando a correlação de colunas do Dataframe Iris
correlacoes = iris.corr()
ax = sns.heatmap(correlacoes, cmap='PuOr', annot=True)