# Visualização de Dados

Após interagir com dados externos como arquivos CSV e banco de dados com o Pandas e outras ferramentas, vamos agora a uma das etapas finais do processo de anáise de dados: visualização.

## Matplotlib

A biblioteca mais usada para fazer visualização de dados é a Matplotlib que foi criada para se assemelhar com vários recursos do MATLAB, e ela se integra bem com outras ferramentas como NumPy, SciPy e Pandas. Uma ótima forma de aprender a usar o Matplotlib é vendo exemplos em sua [galeria][matplotlib-gallery]. 

[matplotlib-gallery]: https://matplotlib.org/gallery.html

### Gráfico de linha

O método básico é o `plot`:



In [None]:
import matplotlib.pyplot as plt # Importado desta forma por convenção
import numpy as np

x = np.linspace(-10, 10, 5)
y = x ** 2

plt.plot(x, y)

Por padrão, o `plot` desenha uma linha azul, mas temos a liberdade de escolher o tipo de linha e cor:

In [None]:
plt.plot(x, y, 'r--')

Para um controle melhor, podemos usar os argumentos `marker`, `ls` e `color`, para o tipo de marcador, tipo de linha (*line style*) e cor, respectivamente.

In [None]:
plt.plot(x, y, marker='s', color='g', ls='--')

Para adicionar mais de uma curva no gráfico, basta usar outro `plt.plot`. Neste caso, podemos introduzir também uma legenda para facilitar a identificação das curvas.

In [None]:
z = 5*x + 50

plt.plot(x, y, label='Curva 1')
plt.plot(x, z, label='Curva 2') 

plt.legend()

### Gráfico de dispersão

Neste tipo de gráfico, estamos mostrando duas variáveis numéricas com pontos. 

In [None]:
np.random.seed(42) # Configruando a semente para que resultado seja reprodutível.

x = np.random.normal(size=100)
y = x + np.random.normal(scale=0.5, size=100)

plt.scatter(x, y)

Podemos usar alguns dos mesmos argumentos disponíveis no método `plot`. Por exemplo:

In [None]:
plt.scatter(
    x, y, 
    color='#f08080', # Podemos usar o formato de cor hexadecimal e RGB também
    marker='^', 
    s=200 # Tamanho dos marcadores
)

### Histogramas

Histogramas são usados para visualizar distribuições, por exemplo as idades de um grupo de pessoas:

In [None]:
np.random.seed(42)
idades = np.random.normal(loc=40, scale=10, size=500)

plt.hist(idades)

Por padrão, o método define sozinho os intervalos de cada categoria, mas temos a liberdade de alterar:

In [None]:
plt.hist(idades, bins=range(0,100, 5))

Uma formatação interessante a se fazer é definir as bordas dos intervalos para facilitar a visualização.

In [None]:
plt.hist(idades, bins=range(0,100, 5), edgecolor='k')

### Gráfico de barras

Outro gráfico bastante usado é o de barras para mostrar valores numéricos associados a categorias:

In [None]:
categorias = ['A', 'B', 'C']
valores = [30, 80, 60]

plt.bar(categorias, valores)

Podemos usar barras horizontais:

In [None]:
plt.barh(categorias, valores)

### Adicionando recursos

Os gráficos do Matplotlib são bem customizáveis. Na figura abaixo, é possível mudar todos os elementos:

![Anatomy of a figure](https://matplotlib.org/_images/anatomy.png)

Nós já vimos como adicionar legendas anteriormente e veremos agora alguns outros recursos.

In [None]:
np.random.seed(123)
z = y + np.random.normal(size=len(y))

plt.scatter(
    x, y, 
    label='Pontos subindo', 
    zorder=5, # configura ordem de desenho do elemento gráfico
    alpha=0.8 # configura opacidade do ponto: 0 é transparente e 1, opaco.
)
plt.scatter(
    x, z, 
    marker='v', 
    s=50, 
    label='Pontos descendo', 
    zorder=2,
    alpha=0.8
)

plt.legend(loc='upper left') # trocando a posição da legenda

plt.title("Demo de recursos extras")
plt.xlabel("X")
plt.ylabel("y")

plt.grid(zorder=0, color='lightgray') # configura grade

# configura extensão dos eixos
plt.xlim([-3, 3])
plt.ylim([-6, 6])