# Seaborn

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

import warnings
warnings.filterwarnings("ignore")

## Instalação

Seaborn é uma biblioteca de visualização de dados Python baseada no matplotlib. Ela fornece uma interface de alto nível para desenhar gráficos estatísticos atraentes e informativos.

Se você tem o Anaconda instalado, você provavelmente já possui a biblioteca instalada.

Para checar se você já tem, no Jupyter Notebook ou interpretador do python, rode:

In [None]:
import seaborn as sns

Se não der erro, é porque está tudo ok!

Caso você tenha um erro, será necessário instalar. Para isso, rode o comando no prompt/terminal que possua acesso ao comando:




In [None]:
pip install seaborn 

Em caso de problemas nessa parte, entre em contato no chat da sua turma ou no Q&A.

## Importando

Para utilizar o seaborn, precisamos importar a biblioteca:


In [None]:
import seaborn as sns

## Seaborn x matplotlib

In [None]:
# Create some data
rng = np.random.RandomState(0)
x = np.linspace(0, 10, 500)
y = np.cumsum(rng.randn(500, 6), 0)

In [None]:
y

In [None]:
# Plot the data with Matplotlib defaults
plt.style.use('classic')
plt.plot(x, y)
plt.legend('ABCDEF', ncol=2, loc='upper left');

In [None]:
# mesmo código utilizado acima!
sns.set()
plt.plot(x, y)
plt.legend('ABCDEF', ncol=2, loc='upper left');

In [None]:
# Importar dados do arquivo titanic.csv
df = pd.read_csv("data/titanic.csv")

In [None]:
# Usar .info() e .describe() para olhar os dados
df.info()

In [None]:
df.describe(include='all')

## API

Sendo uma biblioteca construída como uma casa envolta do matplotlib, tudo que aprendemos sobre matplotlib se aplica aqui em termos de conceitos (Figure, Axes, labels dos eixos, etc). Porém, o seaborn abstrai para o usuário da biblioteca algumas complexidades, tendo uma excelente integração com DataFrames do pandas.
<br>
A biblioteca do seaborn fornece vários tipos de visualização

<img src="images/function_overview_8_0.png"  style="width: 400px" />

### distplot()
O distplot plota a distribuição de uma única variável numérica.

In [None]:
sns.distplot(df['Age']);

#### Entendendo o gráfico:

Para entendermos melhor esse gráfico, precisamos entender um pouquinho o que é _KDE_, abreviação de _Kernel Density Estimation_, que traduzido seria Estimativa de densidade kernel:

    Em Estatística, estimativa de densidade por Kernel (EDK) é uma forma não-paramétrica para estimar a Função densidade de probabilidade (FDP) de uma variável aleatória. Estimativa da densidade por Kernel é um problema fundamental de suavização de dados onde inferências sobre a população são feitas com base em uma amostra de dados finita.

De forma bem simplificada então, juntando os dois conceitos, podemos pensar que o gráfico de linha KDE é basicamente a soma das várias gaussianas envolta de cada ponto individual. Quando mais gaussianas se sobrepõe, maior a soma e portanto maior o pico da função KDE.

A imagem abaixo ilustra bem:
<img src="images/distplot.png" style="width: 500px" />


### barplot()
Utilizado em análise com variáveis categóricas no eixo x e numéricas em y. Para a variável numérica o sns.barplot calcula a média do valor em y

In [None]:
# bar plot de 'Survived' como variável categórica em x pela variável numérica 'Fare' em y
sns.barplot(y='Fare', x='Survived', data = df);

Pelo gráfico concluímos que quem mais pagou para embarcar teve mais chances de sobreviver.

Para demonstrar que o `sns.barplot` calcula a média no eixo y podemos fazer um groupby na coluna 'Survived' calculando a média na coluna 'Fare':

In [None]:
df.groupby(['Survived'])['Fare'].mean()

Podemos adicionar uma dimensão a mais no nosso gráfico atribuindo cores diferentes para 'Sex' através do argumento `hue`

In [None]:
sns.barplot(y='Fare', x='Survived', data = df, hue='Sex')

### countplot()
É essencialmente o mesmo que o barplot, mas ele realiza a contagem do número de ocorrências da variável categórica. Nesse caso só passamos a variável x como argumento.

In [None]:
# countplot da variável 'Survived' com as cores dadas pela coluna 'Sex'
sns.countplot(x='Survived', data=df, hue='Sex');

### boxplot()
boxplots mostram a distribuição de dados categóricos. Esse método facilita a identificação visual de outliers. <br>

Elementos de um boxplot:
   * 1º quartil (Q1): 25% percentil <br>
   * 3º quartil (Q3): 75% percentil <br>
   * Intervalo Interquartílico (IQR): distância entre 3º e 1º quartil (IQR = Q3 − Q1) <br>
   * Mediana: representa o meio da distribuição (50% percentil) <br>
   * Mínimo dentro do intervalo: valor mínimo dentro do dataset excluindo as anomalias (Q1 − 1.5 × IQR) <br>
   * Máximo dentro do intervalo: valor máximo dentro do dataset excluindo as anomalias (Q3 + 1.5 × IQR) <br>
   * Outliers ou Anomalias: observações extremas do dataset, qualquer ponto fora das barras  <br>

<img src="images/ML12.png" style="width: 500px" />

In [None]:
# boxplot de Pclass por Fare com as cores dadas por Survived
plt.figure(figsize=(15,8))
sns.boxplot(x="Pclass", y="Fare", data=df, palette='rainbow', hue='Survived')
# plt.ylim([0,300])

Outras formas de visualização stripplot, violinplot, swarmplot.

### Scatterplot
Mostra a relação entre duas variáveis numéricas podendo adicionar uma categórica na cor.

In [None]:
# Scatter plot de 'Age' por 'Fare' diferenciando as cores por 'Survived'
sns.scatterplot(x='Age', y='Fare', data=df, hue='Survived');

Podemos realizar transformações nos dados para tentar visualizar melhor a relação entre as variáveis. Nesse caso 'Fare' tem uma variabilidade maior que 'Age'. Vamos tirar o np.log de Fare e plotar esse gráfico novamente.

In [None]:
df['Fare_log'] = np.log(df.Fare)

In [None]:
sns.scatterplot(x='Age', y='Fare_log', data=df, hue='Survived')
plt.xticks(rotation=90);

Podemos ver que na parte superior do gráfico onde o Fare é maior temos mais pontos com Survived que na parte inferior. O mesmo acontece para idades até 10 anos.

### jointplot()
Segue o mesmo princípio do scatterplot, mas adiciona gráficos de distribuição nos eixos.

In [None]:
sns.jointplot(x ="Age", y ="Fare", data = df);

### Pairplot()
When you generalize joint plots to datasets of larger dimensions, you end up with pair plots. This is very useful for exploring correlations between multidimensional data, when you'd like to plot all pairs of values against each other.

In [None]:
sns.pairplot(df.drop(['Fare_log','PassengerId'], axis=1), hue='Survived');

### Lineplot
Cria gráficos de linha entre variáveis. Muito útil quando queremos ver dados no tempo.

In [None]:
# line plot de Pclass em x por Survived em y diferenciando as cores por Sex
sns.lineplot(x='Pclass', y='Survived', data=df, hue='Sex');

## Matriz

O principal gráfico em termos de matriz é o heatmap ou mapa de calor.

Podemos utilizar o método `corr()` que calcula a correlação linear (por padrão, de <a href="https://pt.wikipedia.org/wiki/Coeficiente_de_correla%C3%A7%C3%A3o_de_Pearson">Pearson</a>) entre as variáveis contínuas do nosso DataFrame e retorna uma matriz numérica com os valores dessa correlação.

In [None]:
sns.heatmap(df.corr());

Onde __1__ quer dizer **correlação perfeita**, e __zero nenhuma correlação linear__, e __-1 correlação negativa perfeita__ (quando uma aumenta, outra diminui).

Para facilitar a visualização, podemos mudar o esquema de cores para o coolwarm ou quente/frio e mostrar os valores:


In [None]:
sns.heatmap(df.corr(), cmap='coolwarm', annot=True)

### Subplots
Se quisessemos vários gráficos em uma mesma imagem podemos usar o método subplot.

In [None]:
fig, axes = plt.subplots(2, 2, figsize=(15,6))
fig.suptitle('2 x 2 subplots', fontsize=20)
axes[0,0].text(0.45, 0.5, str(('[0,0]')), fontsize=16)
axes[0,1].text(0.45, 0.5, str(('[0,1]')), fontsize=16)
axes[1,0].text(0.45, 0.5, str(('[1,0]')), fontsize=16)
axes[1,1].text(0.45, 0.5, str(('[1,1]')), fontsize=16);

In [None]:
# Vamos criar quartis para 'Fare' utilizando a função pd.qcut
df['Fare_Range'] = pd.qcut(df['Fare'], 4)

Essa função pd.qcut distribui os valores em quantidades aproximadamente iguais entre os bins. Podemos validar aplicando a função .value_counts() na coluna criada de ranges de Fare

In [None]:
df['Fare_Range'].value_counts()

Agora vamos criar os subplots com dois gráficos: <br>
* Pclass em x por Survived em y
* Range de Fare em x por Survived em y

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(15,6))
fig.suptitle('Horizontally stacked subplots')
sns.barplot(y="Survived", x= "Pclass", data=df, ax=axes[0])
sns.barplot(y="Survived", x= "Fare_Range", data=df, ax=axes[1]);

O matplotlib permite você mudar praticamente tudo em um gráfico. Por exemplo:
* determinar a cor de cada categoria
* eliminar os eixos e labels
* adicionar grids
* trocar os textos, a fonte e o tamanho de labels e títulos
* adicionar linhas verticais e horizontais
* adicionar caixas de textos em locais específicos do gráfico
* juntar os eixos de dois gráficos em um subplot
* plotar dois gráficos com eixos distintos
* plotar mapas
* rotacionar os stickers

## Estilos e Cores

As duas funções mais valiosas para estilo com seaborn:

    set_style: darkgrid, whitegrid, dark, white, ticks
    set_context: paper, notebook, talk ou poster

A primeira é majoritariamente para mudar as cores, enquanto a segunda tem uma característica importante: facilitar a visualização para diferentes contextos.

Exemplo, para um poster, geralmente deseja-se letras maiores:


In [None]:
sns.set_context('poster')
sns.countplot(x='Sex', data=df);

## Referências

A principal e mais útil referência que posso citar é a documentação do próprio seaborn. Ela é incrivelmente boa, acima da média comparada a todas as bibliotecas que vimos até então.

<a href="https://seaborn.pydata.org/index.html">Documentação</a> <br>
https://colab.research.google.com/github/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/04.14-Visualization-With-Seaborn.ipynb#scrollTo=rJctnLc9LV0Q

## Exercícios

Utilizando o dataset **tips** do seaborn responda as questões abaixo: <br>
sns.load_dataset('tips')

a. Utilize os métodos para entender melhor o dataset

b. Como você avaliaria graficamente a relação entre total_bill e tip?

c. Existe diferença no pagamento de gorjetas feito por mulheres e homens? E no pagamento total da conta?

d. Existe diferença no pagamento de gorjetas entre almoço e janta? E no pagamento total da conta?

e. Existe diferença no pagamento de gorjetas entre os dias da semana? E no pagamento total da conta?

f. Se vc fosse garçon iria preferir trabalhar em que periodo?