<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Matplotlib-e-Seaborn" data-toc-modified-id="Matplotlib-e-Seaborn-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Matplotlib e Seaborn</a></span><ul class="toc-item"><li><span><a href="#Figuras-e-Eixos" data-toc-modified-id="Figuras-e-Eixos-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Figuras e Eixos</a></span><ul class="toc-item"><li><span><a href="#Um-exemplo-simples" data-toc-modified-id="Um-exemplo-simples-1.1.1"><span class="toc-item-num">1.1.1&nbsp;&nbsp;</span>Um exemplo simples</a></span></li><li><span><a href="#Adicionando-dados" data-toc-modified-id="Adicionando-dados-1.1.2"><span class="toc-item-num">1.1.2&nbsp;&nbsp;</span>Adicionando dados</a></span></li><li><span><a href="#Figure" data-toc-modified-id="Figure-1.1.3"><span class="toc-item-num">1.1.3&nbsp;&nbsp;</span><code>Figure</code></a></span></li><li><span><a href="#Axes" data-toc-modified-id="Axes-1.1.4"><span class="toc-item-num">1.1.4&nbsp;&nbsp;</span><code>Axes</code></a></span></li><li><span><a href="#Axis" data-toc-modified-id="Axis-1.1.5"><span class="toc-item-num">1.1.5&nbsp;&nbsp;</span><code>Axis</code></a></span></li><li><span><a href="#Dois-caminhos" data-toc-modified-id="Dois-caminhos-1.1.6"><span class="toc-item-num">1.1.6&nbsp;&nbsp;</span>Dois caminhos</a></span><ul class="toc-item"><li><span><a href="#O-Caminho-OOP" data-toc-modified-id="O-Caminho-OOP-1.1.6.1"><span class="toc-item-num">1.1.6.1&nbsp;&nbsp;</span>O Caminho OOP</a></span></li></ul></li></ul></li><li><span><a href="#Utilizando-Seaborn" data-toc-modified-id="Utilizando-Seaborn-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Utilizando <code>Seaborn</code></a></span><ul class="toc-item"><li><span><a href="#Matplotlib-vs-Seaborn" data-toc-modified-id="Matplotlib-vs-Seaborn-1.2.1"><span class="toc-item-num">1.2.1&nbsp;&nbsp;</span>Matplotlib vs Seaborn</a></span></li></ul></li><li><span><a href="#Conhecendo-alguns-gráficos" data-toc-modified-id="Conhecendo-alguns-gráficos-1.3"><span class="toc-item-num">1.3&nbsp;&nbsp;</span>Conhecendo alguns gráficos</a></span><ul class="toc-item"><li><span><a href="#Visualizando-Relações" data-toc-modified-id="Visualizando-Relações-1.3.1"><span class="toc-item-num">1.3.1&nbsp;&nbsp;</span>Visualizando Relações</a></span><ul class="toc-item"><li><span><a href="#Utilizando-Regressões" data-toc-modified-id="Utilizando-Regressões-1.3.1.1"><span class="toc-item-num">1.3.1.1&nbsp;&nbsp;</span>Utilizando Regressões</a></span></li></ul></li><li><span><a href="#Visualizando-Distribuições" data-toc-modified-id="Visualizando-Distribuições-1.3.2"><span class="toc-item-num">1.3.2&nbsp;&nbsp;</span>Visualizando Distribuições</a></span><ul class="toc-item"><li><span><a href="#Histogramas" data-toc-modified-id="Histogramas-1.3.2.1"><span class="toc-item-num">1.3.2.1&nbsp;&nbsp;</span>Histogramas</a></span></li><li><span><a href="#Boxplots" data-toc-modified-id="Boxplots-1.3.2.2"><span class="toc-item-num">1.3.2.2&nbsp;&nbsp;</span>Boxplots</a></span></li></ul></li><li><span><a href="#Mapas-de-Calor" data-toc-modified-id="Mapas-de-Calor-1.3.3"><span class="toc-item-num">1.3.3&nbsp;&nbsp;</span>Mapas de Calor</a></span></li></ul></li><li><span><a href="#Plotly" data-toc-modified-id="Plotly-1.4"><span class="toc-item-num">1.4&nbsp;&nbsp;</span>Plotly</a></span></li></ul></li></ul></div>

# Matplotlib e Seaborn

Ao longo das últimas aulas utilizamos o Tableau para criar gráficos interativos de uma forma dinâmica e simples. Hoje aprenderemos como podemos criar gráficos semelhantes dentro do Python.

Para tanto, utilizaremos as bibliotecas `matplotlib` e `seaborn`. A `matplotlib` é uma das primeiras bibliotecas de visualização de dados do Python: foi criada por John D. Hunter, um neurobiologista estadunidense, **em 2003**! Ainda hoje ela é usada como base para criação de diversas visualizações e é conhecida pela sua capacidade de criar gráficos para publicações científicas.

A biblioteca `seaborn` funciona como uma **camada para a biblioteca `matplotlib`** - como esta é muito *low-level*, permitindo todo tipo de customização nos gráficos, é fácil se perder nos inúmeros parâmetros e opções mesmo para criar alguns gráficos simples. **A `seaborn` nasceu para simplificar isto!**. Ela *empacota* diversas tarefas (tipos de gráficos) comuns em funções simples.

**Referências**

* [Matplotlib Usage Guide](https://matplotlib.org/stable/tutorials/introductory/usage.html)
* [Matplotlib Named Colors](https://matplotlib.org/3.1.1/gallery/color/named_colors.html)
* [Visualization With Seaborn](https://jakevdp.github.io/PythonDataScienceHandbook/04.14-visualization-with-seaborn.html)
----

In [None]:
!pip3 install seaborn
!pip3 install matplotlib

In [None]:
import numpy as np
import pandas as pd


In [None]:
# Convenção de importação do matplotlib: plt
import matplotlib.pyplot as plt


In [None]:
# Garante que o plot irá printar na sua tela
%matplotlib inline

## Figuras e Eixos

A `matplotlib` funciona com base em alguns objetos básicos para construir gráficos:

* `Figure` - a janela, widget ou célula do Jupyter que contém seu gráfico;
* `Axis` - a área do próprio gráfico com um sistema de eixos de coordenado, como sistema cartesiano, polar ou 3D.

Uma `Figure` pode conter diversos `Axis`, empacotando diversos gráficos distintos em uma região única. A forma mais simples de criar uma `Figure` e alguns `Axis` é através da função `plt.subplots()`.

### Um exemplo simples

Vamos ver como podemos utilizar a função `plt.subplots()` para construir alguns gráficos simples:


In [None]:
fig, axs = plt.subplots(1, 1, figsize=(5, 5))
fig.suptitle("Meu gráfico")


In [None]:
axs


Agora, vamos criar uma `Figure` com dois `Axis`:

In [None]:
fig, axs = plt.subplots(1, 2, figsize=(5, 5))
fig.suptitle("Meu gráfico")


In [None]:
axs


### Adicionando dados

Vamos adicionar dados diretamente aos nossos gráficos utilizando os métodos `.bar()` e `.plot()` para criar um gráfico de barras e um gráfico de linhas respectivamente.

* Matplotlib Colors: https://matplotlib.org/stable/gallery/color/named_colors.html

In [None]:
fig, axs = plt.subplots(1, 2, figsize=(10, 5))
axs[0].bar([1, 2, 3, 4], [1, 0, 2, 5], color="orange")
axs[0].set_title("Titulo axs[0]")
axs[1].plot([1, 2, 3, 4], [1, 0, 2, 5], color="red")
axs[1].set_title("Titulo axs[1]")
fig.suptitle("Titulo Figura")


Podemos utilizar os dois primeiros argumentos da função `plt.subplots()` para criar `Figures` mais complexas:

In [None]:
fig, axs = plt.subplots(2, 2, figsize=(10, 5))
axs[0][0].bar([1, 2, 3, 4], [1, 0, 2, 5], color="orange")
axs[0][0].set_title("Titulo axs[0]")
axs[0][1].bar([1, 2, 3, 4], [1, 0, 2, 5], color="orange")
axs[0][1].set_title("Titulo axs[0]")
axs[1][0].bar([1, 2, 3, 4], [1, 0, 2, 5], color="orange")
axs[1][0].set_title("Titulo axs[0]")
axs[1][1].bar([1, 2, 3, 4], [1, 0, 2, 5], color="orange")
axs[1][1].set_title("Titulo axs[0]")


### `Figure`

A figura é a região onde nossos gráficos serão criados. Dificilmente utilizamos ela diretamente - mas este objeto (nos exemplos acima, a variável `fig`) é o que contém todas as informações de cada gráfico.

In [None]:
fig = plt.figure()
fig.suptitle("Título de um gráfico que não existe")
plt.show()


### `Axes`
* Um `Axes` é o que pensamos como *um gráfico*: é a região da figura que contém um sistema de eixos no qual serão criados nossos gráficos;
* Uma `Figure` pode ter múltiplos gráficos, mas um `Axes` só pode estar em uma `Figure`;
* Cada `Axes` contém 2 ou 3 objetos `Axis` (os eixos do espaço de coordenada).

In [None]:
fig, ax = plt.subplots()


As `Figures` e os `Axes` contém métodos que nos permitem adicionar elementos (como título dos eixos, legendas, formatação numérica, etc) à nossa figura - primeiro vamos adicionar um títutlo geral à `Figure`:

In [None]:
fig, ax = plt.subplots(2, 2, figsize=(10, 10))
fig.suptitle("Titulo da figura")


Agora, vamos adicionar títulos à cada um dos `Axes` de nossa `Figure`:

In [None]:
fig, ax = plt.subplots(2, 2, figsize=(10, 10))
fig.suptitle("Titulo da figura")
ax[1][0].set_title("Fig 1 0")
ax[1][1].set_title("Fig 1 1")
ax[0][1].set_title("Fig 0 1")
ax[0][0].set_title("Fig 0 0")



### `Axis`

Cada `Axes` contém 2 ou 3 `Axis` representando os eixos de nosso gráfico. Podemos utilizar diferentes métodos para mudar os títutlos dos eixos, sua escala e a formatação dos ticks.


![image.png](images/anatomia_matplotlib.jpg)

Primeiro, vamos utilizar o método `.set()` para mudar os limites dos `Axis` de um `Axes` específico em nossa `Figure`:

In [None]:
fig, ax = plt.subplots(2, 2, figsize=(10, 10))
ax[1][0].plot([1, 2, 3, 4], [2, 1, 2, 1], color="purple")
ax[1][0].set(ylim=(0, 5), xlim=(0, 5))
fig.suptitle("Titulo da figura")
ax[1][0].set_title("Fig 1 0")
ax[1][1].set_title("Fig 1 1")
ax[0][1].set_title("Fig 0 1")
ax[0][0].set_title("Fig 0 0")


### Dois caminhos

**Interfaces de objetos e funcional**

* WAY 1: Crie `Figures` diretamente e utilize métodos para configura-las;
* WAY 2: Utilize funções do `pyplot` para criar figuras e *gerenciar* `Axes`, `Axis` e outros elementos gráficos.

https://jakevdp.github.io/PythonDataScienceHandbook/04.00-introduction-to-matplotlib.html

#### O Caminho OOP

A interface mais flexível e que requer *decorar* menos argumentos e funções é a interface OOP da `matplotlib`:

In [None]:
numeros = np.linspace(0, 2, 100)

fig, ax = plt.subplots(1, 2, figsize=(10, 5))
ax[0].plot(numeros, numeros, label="linear")
ax[0].plot(numeros, numeros**2, label="quadratic")
ax[0].plot(numeros, numeros**3, label="cubic")
ax[0].set_xlabel("x label")
ax[0].set_ylabel("y label")
ax[0].set_title("Simple Plot")
ax[0].legend()
ax[1].plot(numeros, numeros, label="linear")
ax[1].plot(numeros**2, numeros, label="quadratic")
ax[1].plot(numeros**3, numeros, label="cubic")
ax[1].set_xlabel("x label")
ax[1].set_ylabel("y label")
ax[1].set_title("Simple Plot")
ax[1].legend()


Para gráficos simples podemos utilizar as funções do `pyplot` para cria-los:

In [None]:
x = np.linspace(0, 2, 100)

plt.plot(x, x, label="linear")
plt.plot(x, x**2, label="quadratic")
plt.plot(x, x**3, label="cubic")
plt.xlabel("x label")
plt.ylabel("y label")
plt.title("Simple Plot")
plt.legend()


Sempre que quisermos construir gráficos mais complexos, ou configurar todos os elementos de nosso gráfico (para uma publicação ou apresentação), é **melhor utilizar a interface OOP**!


## Utilizando `Seaborn`
Seaborn is a Python data visualization library based on matplotlib. It provides a high-level interface for drawing attractive and informative statistical graphics.

A biblioteca `seaborn` fornece funções mais simples para criar gráficos utilizando a `matplotlib`: ela é menos flexível mas, para o dia a dia, fornece funções com padrões atraentes e que atendem a maior parte das necessidades na criação de gráficos.

**Matplotlib Cons**

Embora a `matplotlib` seja a pedra angular de visualização de dados no Python, ela deixa muito a desejar, especificamente com relação a **quantidade de código** que precisamos utilizar mesmo para gráficos simples:

> Matplotlib's API is relatively **low level**. Doing sophisticated statistical visualization is possible, but often requires a lot of boilerplate code. 

> Matplotlib predated Pandas by more than a decade, and thus is **not designed for use with Pandas DataFrames**. In order to visualize data from a Pandas DataFrame, you must extract each Series and often concatenate them together into the right format. It would be nicer to have a plotting library that can intelligently use the DataFrame labels in a plot. 

[Source](https://jakevdp.github.io/PythonDataScienceHandbook/04.14-visualization-with-seaborn.html)

> While you can be productive using only seaborn functions, **full customization of your graphics will require some knowledge of matplotlib’s concepts and API.** 

> One aspect of the learning curve for new users of seaborn will be knowing when dropping down to the matplotlib layer is necessary to achieve a particular customization. On the other hand, users coming from matplotlib will find that much of their knowledge transfers. 

[Source](https://seaborn.pydata.org/introduction.html)

### Matplotlib vs Seaborn

In [None]:
# Create some data
rng = np.random.RandomState(0)

x = np.linspace(0, 10, 500)
y = np.cumsum(rng.randn(500, 6), 0)


In [None]:
plt.plot(x, y)
plt.legend("ABCDEF", ncol=3, loc="lower center")


In [None]:
import seaborn as sns

sns.set_style("darkgrid")


In [None]:
# same plotting code as above!
plt.plot(x, y)
plt.legend("ABCDEF", ncol=2, loc="lower center")


**Importante!**

* `sns.set()` utiliza os parâmetros de configuração da própria Matplotlib, logo todos os nossos plots em nosso notebook passarão a ter a mesma *cara* (independente de serem do Seaborn ou da Matplotlib)
* Parâmetros de estética na Seaborn: [Aesthetics](https://seaborn.pydata.org/tutorial/aesthetics.html)

## Conhecendo alguns gráficos

Neste seção veremos alguns tipos diferentes de gráficos (alguns comuns, outros mais herméticos) e qual função cumprem.

Para isso utilizaremos um conjunto de dados sobre gorjetas em um restaurante - [o conjunto Tips]( https://github.com/mwaskom/seaborn-data)

In [None]:
tips = sns.load_dataset("tips")


In [None]:
tips.info()


In [None]:
tips.describe()


### Visualizando Relações

Vamos explorar a relação entre `total_bill` e `tips` - condicionando essa relação aos diferentes atributos qualitativos de cada observação (`time`, `smokers`, `size`)

In [None]:
sns.relplot(data=tips, x="total_bill", y="tip")


Vamos utilizar o argumento `col = ` para separar jantares de almoços:

In [None]:
sns.relplot(data=tips, col="time", x="total_bill", y="tip")


Como este atributo possui apenas dois níveis, podemos representa-lo utilizando a cor dos pontos, através do argumento `hue = `:

In [None]:
sns.relplot(data=tips, hue="time", x="total_bill", y="tip")


Como a variável `day` contém 4 níveis distintos, coloca-la em um elemento gráfico deixará nosso gráfico confuso. Vamos utilizar o argumento `col = ` para criar um gráfico para cada dia da semana:

In [None]:
sns.relplot(data=tips, hue="time", col="day", x="total_bill", y="tip")


Podemos utilizar o argumento `col_wrap = ` para delimitar em quantas colunas desejamos inserir cada gráfico:

In [None]:
sns.relplot(data=tips, hue="time", col="day", col_wrap=2, x="total_bill", y="tip")


A variável `size` é uma variável continua, com o # de pessoas sentadas à mesa. Vamos utilizar o argumento `size = ` para alterar o tamanho de cada símbolo em função dessa variável:

In [None]:
sns.relplot(
    data=tips, hue="time", size="size", col="day", col_wrap=2, x="total_bill", y="tip"
)


Podemos alterar a banda de tamanhos utilizada para representar os diferentes tamanhos de mesa através do argumento `sizes = ()`:

In [None]:
sns.relplot(
    data=tips,
    hue="time",
    size="size",
    sizes=(20, 200),
    col="day",
    col_wrap=2,
    x="total_bill",
    y="tip",
)


Por fim, podemos alterar o marcador utilizado para cada ponto em nosso scatterplot em função da variável `smoker`:

In [None]:
sns.relplot(
    data=tips,
    hue="time",
    style="smoker",
    size="size",
    sizes=(20, 200),
    col="day",
    col_wrap=2,
    x="total_bill",
    y="tip",
)


##### EXERCICIO
A variável `size` representa o número de pessoas em cada almoço/jantar. Crie as variáveis `bill_per_person` representando a conta por pessoa e `percentage_tip` representando a % da conta que foi deixada como gorjeta. Crie um gráfico utilizando as classificações `smoker`, `time` e `sex` (que representa o genêro da pessoa que pagou a conta) para investigar a relação, caso ela exista, entre as duas variáveis criadas

#### Utilizando Regressões

Podemos estimar a relação entre duas variáveis continuas de um gráfico através de uma **Regressão Linear** - a `seaborn` nos fornece uma função que permite visualizar a relação entre 2 variáveis estimada por uma regressão linear diretamente, através da função `lmplot()`:

In [None]:
sns.lmplot(data=tips, x="total_bill", y="tip", hue="time")


### Visualizando Distribuições

Além de visualizar relação entre variáveis, podemos utilizar gráficos para visualizar a **distribuição** dela.

In [None]:
tips["total_bill"].describe()


#### Histogramas

Um **histograma** representa uma distribuição *discretizando* nossa variável: a variável é *cortada* para que possamos contar o número de observações em cada faixa:

In [None]:
sns.displot(data=tips, x="total_bill")


Podemos *misturar* elementos da `seaborn` com a `matplotlib`!

In [None]:
sns.displot(data=tips, x="total_bill")
plt.axvline(tips["total_bill"].mean(), color="red")
plt.axvline(tips["total_bill"].median(), color="green")


Podemos utilizar a cor (argumento `hue = `) para visualizar a **distribuição condicional** de uma variável: por exemplo, a distribuição de `total_bill` por `smoker`:

In [None]:
sns.displot(data=tips, x="total_bill", hue="smoker")


O histograma acima tem um problema sério: **desbalanceamento de classes**. O número de fumantes é menor que o número de não-fumantes, dificultando qualquer comparação das duas distribuições.

Podemos contornar esse problema utilizando dois argumentos: `stat = 'probability'` e `common_norm = False`.

In [None]:
sns.displot(
    data=tips, x="total_bill", hue="smoker", stat="probability", common_norm=False
)


Podemos utilizar o argumento `col = ` para adicionar mais variáveis condicionantes:

In [None]:
sns.displot(
    data=tips,
    x="total_bill",
    col="day",
    col_wrap=2,
    hue="smoker",
    stat="probability",
    common_norm=False,
)


##### EXERCICIO
Crie um gráfico para investigar as distribuições condicionais do tamanho da gorjeta ao genêro do pagante e o tipo de refeição (almoço e janta)

#### Boxplots

Conforme vimos acima, um histograma é uma ferramenta importante para visualizar e comparar distribuições. No entanto, fica muito dificíl realizar comparações entre distribuições conforme aumentamos o número de variáveis condicionantes.

Quando precisamos resumir uma distribuição e realizar comparações mais diretamente podemos utilizar um **Boxplot**:

In [None]:
tips.groupby("day")["total_bill"].describe()


In [None]:
sns.catplot(data=tips, kind="box", x="day", y="total_bill")


Um **boxplot** exibe uma distribuição a partir de algumas medidas robustas de localização:

![title](images/boxplot-outliers.png)

Ao resumir uma distribuição desta forma, conseguimos realizar comparações entre muitas variáveis condicionantes:

In [None]:
sns.catplot(data=tips, kind="box", x="day", y="total_bill", hue="sex")


##### Combinando histogramas e boxplots

Violin plots combinam boxplots e histogramas, fornecendo uma forma continua de visualizar a distribuição de uma variável de forma resumida:

In [None]:
sns.violinplot(
    x="smoker", y="total_bill", hue="time", data=tips, palette="muted", split=True
)


##### Combinando Scatterplots e Histogramas

Podemos utilizar Joint Plots para combinar um scatterplot e dois histogramas, combinando em um único gráfico a visualização das distribuições de duas variáveis e a relação entre estas.

In [None]:
sns.jointplot(data=tips, x="total_bill", y="tip", hue="sex")


### Mapas de Calor

Mapas de calor nos permitem visualizar graficamente uma matriz. Para entender este conceito, vamos utilizar o conjunto de dados `flights`, contendo informações do número ed vôos nos EUA entre 1949 e 1960

In [None]:
flights_long = sns.load_dataset("flights")
flights_long.head()


In [None]:
flights_long_pivot = flights_long.pivot(
    index="month", columns="year", values="passengers"
)


In [None]:
flights_long_pivot


In [None]:
sns.heatmap(flights_long_pivot)


Vamos utilizar alguns elementos da `matplotlib` para *melhorar* esse gráfico:

In [None]:
fig, ax = plt.subplots(figsize=(10, 7))

sns.heatmap(flights_long_pivot)

fig.suptitle(
    "Total de voos ao longo dos anos e meses\n\nObserve que com o passar dos anos esse número vem aumentando\n especialmente nos meses de Junho e Julho"
)


Um uso comum dos mapas de calor é a visualização de uma matriz de correlação:

In [None]:
tips.corr()


In [None]:
sns.heatmap(tips.corr())


A matriz acima é simétrica: a parte acima da diagonal é igual a parte inferior da diagonal. Além disso, a diagonal em si é sempre igual à 1. Além disso sabemos que a correlação é um indicador entre -1 e 1 - vamos utilizar isso para fixar o range de cores que utilizamos.

Vamos utilizar uma máscara para remover esses elementos redundantes.

In [None]:
corr = tips.corr()
mask = np.triu(np.ones_like(corr, dtype=bool))


In [None]:
~mask


In [None]:
sns.heatmap(tips.corr(), square=True, mask=mask, center=0, vmin=-1, vmax=1)
plt.suptitle("Matriz de Correlação")


## Plotly

As bibliotecas `matplotlib` e `seaborn` são excelentes para produzirmos gráficos estáticos - seja para explorar nossos dados seja para utilizar em uma apresentação. No entanto, se desejamos utilizar elementos interativos, como no Tableau, precisamos buscar outras soluções.

Felizmente, hoje em dia temos a biblioteca `plotly`, que nos permite construir gráficos interativos de maneira razoavelmente simples através do sub-módulo `plotly.express`.

[Biblioteca Plotly](https://plotly.com/python/)

In [None]:
!pip install plotly

In [None]:
import plotly.express as ply


In [None]:
ply.scatter(data_frame=tips, x="total_bill", y="tip")


Podemos utilizar o argumento `hover_data = []` para adicionar informações na tooltip de cada ponto selecionado:

In [None]:
ply.scatter(data_frame=tips,
            x="total_bill", y="tip", 
            color="time", 
            hover_data=["sex", "day"])
