**Visualização de Dados com MatPlotLib**

- Ideal para plotagem de gráficos simples

- Aumenta a produtividade do cientista de dados

- Fornece uma interface próxima do MatLab, o que é interessante para gráficos com expressões matemáticas

- A maior desvantagem é o layout

> **Quando utilizar?**
- Útil para análise e exploração de dados

In [None]:
# Instalação da biblioteca
# Caso não esteja usando anaconda instale o matplotlib com o gerenciador de pacotes pip ou usando o conda

!pip install matplotlib

In [None]:
# Importando o pyplot

from matplotlib import pyplot as plt

In [None]:
# Define que os gráficos sejam plotados na célula e podem ser ajustados

%matplotlib notebook 

In [None]:
# Define que os gráficos sejam plotados na célula e sejam fixos

%matplotlib inline

In [None]:
# Plotando gráfico de linha simples

from IPython.display import Image
Image ('C:/Users/Pc Trabalho/Desktop/Studio Sun/Estudo/DSZ/PDF AULAS/MODULO6/Materiais-Apoio-Visualizacao-Dados/anatomia.png')

**Gráfico de Linhas**

- Normalmente utilizado para visualização de dados em uma linha do tempo
- Utilizado com o eixo X relacionado a dados temporais e eixo Y a dados quantitativos
- Cuidado ao plotar várias linhas, a leitura pode ficar prejudicada

In [None]:
import matplotlib.pyplot as plt



# Eixo X, Eixo Y
plt.plot([1,2,3,4], [1,4,9,16])
plt.show()

In [None]:
# Definindo label aos eixos

%matplotlib inline
import matplotlib.pyplot as plt
plt.plot([1,2,3,4], [1,4,9,16])
plt.ylabel ('eixo y')
plt.xlabel ('eixo x')
plt.show()

In [None]:
# Alterando a forma dos pontos

%matplotlib inline
plt.plot([1,2,3,4], [1,4,9,16], 'o')
plt.show()

In [None]:
# Definindo limites de visualização dos eixos x e y

# Opções do método axis()
%matplotlib inline

# plot(x,y)
plt.plot ([1,2,3,4], [1,4,9,16], 'o')

#axis(xmin,xmax,ymin,ymax)
plt.axis([0,6,0,20])            #[xmin,xmax,ymin,ymax]
plt.show()

In [None]:
# Importa a biblioteca Numpy

import numpy as np

In [None]:
# Plota duas séries de dados, no caso x1 e y2 e x3 e y3

%matplotlib inline
x1 = np.array([1,2,3,4,5,6,7,8,9,10,11])

x2 = x1
y2 = x1**2                 # número elevado ao quadrado

x3 = x1
y3 = x1**3                 # número elevado ao cubo

plt.plot(x1, x1, 'r--', x2, y2, 'bs', x3, y3, 'g^')
plt.show()

In [None]:
# Plotando gráfico de barras verticais (gráfico de colunas)

%matplotlib inline
grupos = ['Produto A', 'Produto B', 'Produto C']
valores = [1,10,100]

plt.bar(grupos, valores)
plt.show()

In [None]:
# Plota gráficos de barras juntas

import numpy as np


In [None]:
%matplotlib inline

# Quantidade de vendas para o Produto A
valores_produto_A = [6,7,8,4,4]

# Quantidade de vendas para o Produto B
valores_produto_B = [3,12,3,4.1,6]

# Cria eixo x para produto A e produto B com uma separação de 0.25 entre as barras
x1 = np.arange (len(valores_produto_A))
x2 = [x + 0.25 for x in x1]

# Plota as barras
plt.bar (x1, valores_produto_A, width=0.25, label = 'Produto A', color = 'b')
plt.bar (x2, valores_produto_B, width=0.25, label = 'Produto B', color = 'y')

meses = ['Agosto', 'Setembro', 'Outubro', 'Novembro', 'Dezembro']
plt.xticks ([x + 0.25 for x in range (len (valores_produto_A))], meses)

plt.legend()

plt.title ('Quantidade de Vendas')
plt.show()

**Gráfico de barras horizontais**

- Gráfico muito usado quando queremos fazer comparações
- Muito usado em pesquisa de campanhas eleitorais
- Leitura muito simples e intuitiva
- Funciona bem quando os labels dos eixos são longos

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline
grupos = ['Produto A', 'Produto B', 'Produto C']
valores = [1,10,100]

plt.barh(grupos, valores)
plt.show()

In [None]:
# Rotacionando Labels

%matplotlib inline
grupos = ['Produto A', 'Produto B', 'Produto C']
valores = [1,10,100]

plt.barh(grupos, valores)
plt.yticks(rotation=45)
plt.show()

**Gráfico de Pizza**

In [None]:
%matplotlib inline
vendas = [3000,2300,1000,500]
labels = ['Ecommerce', 'Loja Física', 'Email', 'Marketplace']

plt.pie(vendas, labels=labels)
plt.show()

**Customizando Gráficos**

> Adicionando informações de percentual, sombra, separação das partes e legenda

In [None]:
%matplotlib inline

vendas = [3000,2300,1000,500]
labels = ['Ecommerce','Loja Física','Email','Marketplace']

# Define o nível de separabilidade entre as partes, ordem do vetor representa as partes
explode = (0.1,0,0,0)

plt.pie(vendas, labels=labels, autopct='%1.1f%%', shadow=True, explode=explode)
plt.legend(labels, loc=2)

# Define que o gráfico será plotado em círculo
plt.axis('equal')

plt.show()

**Matplotlib, Pyplot e Pylab**

- Pyplot é um módulo do pacote matplotlib que implicitamente cria figuras e eixos nos gráficos
- Pylab é outro módulo do matplotlib que já importa o numpy e o pyplot. Este módulo é projetado para plots de arrays e cálculos matemáticos
- Pylab está depreciado

In [None]:
# Importando o matplotlib e o numpy
import matplotlib.pyplot as plt
import numpy as np

# Cria uma figura
fig = plt.figure()

# Define eixos
ax = fig.add_subplot(111)

# Scatter plot usando numpy
ax.scatter(np.linspace(0,1,5), np.linspace(0,5,5))

# Show the plot
plt.show()

**Criando subplots**
- Para criar subplots defina o número de linhas de gráficos e números de coluna (quantidade de gráficos em cada linha)

In [None]:
plt.subplots(nrows=1,ncols=2);

In [None]:
# 1 linha com 3 colunas

plt.subplots(nrows=1,ncols=3)

In [None]:
# 2 linhas com 2 colunas

plt.subplots(nrows=2,ncols=2)

In [None]:
#Para acessar subplots usa-se o método subplot (atenção para o nome correto no singular)

x = [1,2,3,4]
y = [10,20,25,40]

plt.subplot(1,2,1)
plt.plot(x,y,'o')

plt.subplot(1,2,2)
plt.plot(x,y,color='r');

**Criação de instâncias de classes figure**
- Aumenta o controle do nível de customização das funções do matplotlib 
- Gera menos código devido a orientação a objetos

In [None]:
# Cria um objeto do tipo figure

fig = plt.figure()

# Define o tamanho em percentual do gráfico
# Altura e largura do eixo na figura
axes_a = fig.add_axes([0.1,0.1,0.8,0.8])

# Plota o gráfico
axes_a.plot(x,y)

In [None]:
# Cria um objeto do tipo figure

fig = plt.figure()

# Define o tamanho em percentual do gráfico
# Altura e largura do eixo na figura
axes_a = fig.add_axes([0.1,0.1,0.8,0.8])
axes_b = fig.add_axes([0.2,0.5,0.3,0.3])

# Plota a figura com dois eixos
# O "r--" significa linha tracejada em vermelho (r)
# Plota o gráfico
axes_a.plot(x,y)
axes_b.plot(x,y,'r--');

**É possível customizar a largura ou altura do gráfico para acomodar melhor seus dados**
> Exemplo: gráfico de dados financeiros em uma granulidade muito baixa (minutos)

In [None]:
import matplotlib.pyplot as plt
x = [1,2,3,4]
y = [10,20,25,40]

# Altera a largura e altura do gráfico (width, height)
fig, ax = plt.subplots(figsize=(20,5))

# Plota o gráfico
ax.plot(x,y,'r--')

In [None]:
# Plotando dois gráficos (Eixos) na mesma figura

# Define as configurações dos plots
# Cada plot terá o mesmo tamanho de figuras
fig, (ax1,ax2) = plt.subplots(1,2,figsize=(10,5))

# Dados para cada subplot
ax1.bar([1,2,3],[3,4,5])
ax2.barh([0.5,1,2.5],[0,1,2])

plt.show()

In [None]:
# Define configurações dos eixos com o método set()

# Define as configurações dos plots
# Cada Plot terá o mesmo tamanho de figuras
fig, (ax1,ax2) = plt.subplots(1,2,figsize=(10,5))

# Dados para cada subplot 
ax1.bar([1,2,3],[3,4,5],color='r')
ax2.barh([0.5,1,2.5],[0,1,2])

# Usa o método set para definir configurações do gráfico
ax1.set(title='Gráfico de barras verticais', xlabel='Eixo X', ylabel='Eixo Y')
ax2.set(title='Gráfico de barras horizontais', xlabel='Eixo X', ylabel='Eixo Y')

plt.show()

**Customizando layouts**

In [None]:
import matplotlib.pyplot as plt

# Define o estilo para o ggplot
plt.style.use('ggplot')

In [None]:
import matplotlib.pyplot as plt

# Define as configurações dos plots
# Cada plot terá o mesmo tamanho de figuras (10,5)
fig, (ax1,ax2) = plt.subplots (1,2,figsize=(10,5))

# Dados para cada subplot
ax1.bar([1,2,3],[3,4,5])
ax2.barh([0.5,1,2.5],[0,1,2])

ax1.set (title='Gráfico de barras verticais', xlabel='eixo x', ylabel='eixo y')
ax2.set (title='Gráfico de barras horizontais', xlabel='eixo x', ylabel='eixo y')

plt.show()

**Matplotlib funciona também com cores em RGB. Para fazer isso use o parâmetro color**

In [None]:
# Define as configurações dos plots
# Cada plot terá o mesmo tamanho de figuras (10,5)
fig, (ax1,ax2) = plt.subplots (1,2,figsize=(10,5))

# Dados para cada subplot
ax1.bar([1,2,3],[3,4,5], color='#00BFFF')
ax2.barh([0.5,1,2.5],[0,1,2], color='#00FF00')

ax1.set (title='Gráfico de barras verticais', xlabel='eixo x', ylabel='eixo y')
ax2.set (title='Gráfico de barras horizontais', xlabel='eixo x', ylabel='eixo y')

plt.show()

**Adiciona textos em gráficos**

In [None]:
# Importar as bibliotecas matplotlib e numpy
import numpy as np
import matplotlib.pyplot as plt

# Chamar o gráfico
%matplotlib inline

# 100 valores no intervalo de 0 a 2
x = np.linspace(0,2,num=100)

# Define a legenda e o tamanho das linhas
plt.plot(x,x,label='Linear')
plt.plot(x,x**2,label='Quadrático', linewidth=5)

plt.xlabel('X label')
plt.ylabel('Y label')

plt.title('Gráfico de linhas simples')

# Exibe a legenda e por padrão usa o label de cada post
plt.legend()

# Configurações do texto
plt.text( 1.000, 1.0, "Cruzamento das linhas", fontsize=10, horizontalalignment='right')

plt.show()

**Plotando histogramas**
- Histogramas são úteis quando queremos visualizar a distribuição de uma variável
- Esse é um gráfico muito utilizado em estatística descritiva
- Facilita a visualização de dados extremos
- É útil em tarefas de análise e exploração de dados

In [None]:
# Gerando dados aleatórios com média em torno de 0 e desvio padrão em torno de 1
d = np.random.normal(0,1,size=500)

In [None]:
# Plota histograma com 10 bins
%matplotlib inline
plt.hist(d,bins=10,color='r');

**Trabalhando com dataframes Pandas**
- O Matplotlib trabalha bem com o Pandas
- É possível usar recursos de dataframes usando o parâmetro data

In [None]:
# Importando o pandas, numpy e matplotlib
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [None]:
# Cria um dicionário de valores
data = {
    'a' : np.arange(50),
    'c' : np.random.randint(0,50,50),
    'd' : np.random.randn(50)
}

In [None]:
data = pd.DataFrame(data)
data.head()

In [None]:
# Gera dados aleatórios para colunas b e d
data ['b'] = data ['a'] + 10 * np.random.randn (50)
data ['d'] = np.abs(data['d']) * 200

data.b.head()

In [None]:
# Dados absolutos
data.d.head()

In [None]:
data.head()

In [None]:
# Plota gráfico de disperssão usando Pandas DataFrame
plt.scatter('a','b',c='c',s='d',data=data)
plt.xlabel('entry a')
plt.ylabel('entry b')
plt.show()