<h1>Como entender dados estatisticamente por meio de gráficos</h1>
<br>
Seaborn é outra biblioteca construída sobre a matplotlib que se integra perfeitamente aos dataframes do Pandas. É especialmente conhecida por sua estética e recursos estatísticos incorporados aos gráficos.

<p class="lead">
Índice:

- <a href="#Why-do-we-use-seaborn?">Por que usamos o Seaborn?</a>
- <a href="#Seaborn-plotting-syntax">Sintaxe de gráficos do Seaborn</a>
- <a href="#Create-statistical-plots">Criar gráficos estatísticos</a>
- <a href="#Visualizing-multiple-relationships">Visualizar múltiplos relacionamentos</a>

</p>

<div>
<h2 class="breadcrumb">Por que usamos o Seaborn?</h2><p>
</div>

> O Seaborn é uma biblioteca de visualização de dados em Python baseada em matplotlib. Ela fornece uma interface de alto nível para a criação de gráficos estatísticos atraentes e informativos. (seaborn.pydata.org)

- A sintaxe é simples e fácil de usar.
- O Seaborn fornece gráficos prontos para uso com boa aparência. Confira a [galeria de exemplos](https://seaborn.pydata.org/examples/index.html) para se inspirar.
- É natural incluir informações estatísticas em seus gráficos usando o Seaborn.

<div>
<h2 class="breadcrumb">Sintaxe de Plotagem Seaborn</h2><p>
</div>

Importar bibliotecas e dados:

In [None]:
import seaborn as sns
import pandas as pd

In [None]:
df = pd.read_csv("https://static.anaconda.cloud/shared/lms/data_visualization/intro_data_visualization/assets/mpg.csv", storage_options = {'User-Agent': 'Mozilla/5.0'})

<div class="alert alert-success">
<h4>Dicas</h4>

- Use `sns.set_theme()` para o tema padrão do Seaborn.

In [None]:
sns.set_theme()
sns.barplot(x=[1,2,3], y=[1, 3, 2]);

## Funções de nível de eixos
As funções de nível de eixos plotam dados em um único objeto `matplotlib.pyplot.Axes`.

### Histograma

In [None]:
sns.histplot(data=df, x='mpg');

In [None]:
sns.histplot(data=df, x='mpg', kde=True);

### Gráfico de Dispersão

In [None]:
sns.scatterplot(data=df, x='weight', y='mpg');

### Adicione `hue` para determinar a cor dos elementos do gráfico

In [None]:
sns.histplot(data=df, x='mpg', kde=True, hue='origin').set(title='distribution of mpg by origin');

In [None]:
sns.scatterplot(data=df, x='weight', y='mpg', hue='origin');

### Mostre as contagens de observações em cada categoria categórica usando barras.

In [None]:
df.origin.value_counts().plot(kind='bar');

In [None]:
sns.countplot(data=df, x='origin');

### Integrar com Matplotlib

> As funções no nível dos eixos chamam internamente matplotlib.pyplot.gca(), que se conecta à interface da máquina de estados matplotlib para que desenhem seus gráficos nos eixos "atualmente ativos". Mas elas também aceitam um argumento ax=, que se integra à interface orientada a objetos e permite especificar exatamente onde cada gráfico deve ficar:

In [None]:
import matplotlib.pyplot as plt
fig, ax = plt.subplots(figsize=(14,5))
sns.histplot(data=df, x='mpg', kde=True, hue='origin', ax=ax);


In [None]:
fig, (ax1, ax2) = plt.subplots(nrows=2, ncols=1, figsize=(14,5))
sns.histplot(data=df, x='mpg', kde=True, hue='origin', ax=ax1);
sns.scatterplot(data=df, x='weight', y="mpg", hue='origin', ax=ax2);

<div class="alert alert-info">
<h4>Exercício</h4>

- Carregue o conjunto de dados Penguins de 'assets/penguins.csv' e nomeie-o como `dfe`.
- Use o Seaborn para visualizar a distribuição da massa corporal, a relação entre o comprimento da nadadeira e a massa corporal e visualizar as diferenças entre as espécies.

<details><summary><i><u>(Dica)</u><i></summary><br>
Use `hue='species'`.

<details><summary><i><u>(Solução)</u><i></summary><br>
    
```python
dfe = pd.read_csv('assets/penguins.csv')
sns.histplot(data=dfe, x='body_mass_g', kde=True, hue='species');
sns.scatterplot(data=dfe, x='flipper_length_mm', y="body_mass_g", hue='species');
```
</details>
</details>
</div>

### Funções de nível de figura

<img id="Image1" src="https://static.anaconda.cloud/shared/lms/data_visualization/intro_data_visualization/assets/seaborn.jpeg" align="left"/>

In [None]:
sns.relplot(data=df, x='weight', y='mpg', kind='scatter');

In [None]:
sns.displot(data=df, x='mpg', kind='kde');

In [None]:
sns.catplot(data=df, x='origin', y='mpg', kind='violin');

<div class="alert alert-info">
<h4>Exercício</h4>

- Explore as funções de nível de figura com o conjunto de dados Penguins.
- Use as funções de nível de figura para visualizar a distribuição da massa corporal, a relação entre o comprimento da nadadeira e a massa corporal e visualizar as diferenças entre as espécies.

<details><summary><i><u>(Dica)</u><i></summary><br>
Use sns.displot e sns.relplot.

<details><summary><i><u>(Solução)</u><i></summary><br>
    
```python
sns.displot(data=dfe, x='body_mass_g', kind='hist', kde=True, hue='species');
sns.relplot(data=dfe, x='flipper_length_mm', y="body_mass_g", kind='scatter', hue='species');
```
</details>
</details>    
</div>

<div>
<h2 class="breadcrumb">Criar gráficos estatísticos</h2><p>
</div>

### Plotando o intervalo de confiança ou desvio padrão em torno da média

- Padrão: plotar o IC de 95%.
> O comportamento padrão no Seaborn é agregar as múltiplas medições em cada valor de x, plotando a média e o intervalo de confiança de 95% em torno da média.

- Definir `ci='sd'`
> Outra boa opção, especialmente com dados maiores, é representar a dispersão da distribuição em cada ponto no tempo plotando o desvio padrão em vez de um intervalo de confiança:

In [None]:
sns.relplot(data=df, x='cylinders', y='mpg', kind='line', ci='sd');

### Desenhar modelos de regressão linear

In [None]:
sns.lmplot(data=df, x='weight', y='mpg');

Especifique matiz e marcadores para origem:

In [None]:
sns.lmplot(data=df, x="weight", y="mpg", hue="origin", markers=['o','x','+']);

Separe o gráfico por origem em três colunas:

In [None]:
sns.lmplot(data=df, x="weight", y="mpg", row="origin");

<div class="alert alert-info">
<h4>Exercício</h4>

- Trace a relação entre o comprimento da nadadeira e a massa corporal, visualize as diferenças entre as espécies e desenhe linhas de regressão nesses gráficos.

<details><summary><i><u>(Dica)</u><i></summary><br>
Use sns.lmplot
<details><summary><i><u>(Solução)</u><i></summary><br>
    
```python
sns.lmplot(data=dfe, x='flipper_length_mm', y="body_mass_g");
sns.lmplot(data=dfe, x='flipper_length_mm', y="body_mass_g", hue='species');
```
</details>
</details>
</div>

<div>
<h2 class="breadcrumb">Visualizando múltiplos relacionamentos</h2><p>
</div>

> `jointplot()` e `pairplot()` empregam vários tipos de gráficos de diferentes módulos para representar múltiplos aspectos de um conjunto de dados em uma única figura.

> jointplot() foca em um único relacionamento:

In [None]:
sns.jointplot(data=df, x="weight", y="mpg", kind="reg");

In [None]:
sns.jointplot(data=df, x="weight", y="mpg", hue='origin');

> pairplot() visualiza cada combinação de pares de variáveis ​​simultaneamente:

In [None]:
sns.pairplot(data=df);

In [None]:
sns.pairplot(data=df, hue="origin");