# Matplotlib

"Uma imagem vale mais do que 1000 palavras"

A visualização de dados é uma área da ciência da computação que têm sido muito requisitada frente ao Big Data. Isto se dá devido a facilidade que o cérebro humano possui de processar uma figura, seja imagens ou gráficos, em relação aos dados textuais, como tabela.

Neste notebook, exploraremos algumas funções do Matplotlib, um módulo do Python dedicado para geração de gráficos em 2D.

A escolha desta biblioteca se dá pelo seu amplo uso dentro da comunidade de desenvolvedores em Python. A sua popularidade reflete no seu uso como base de outras bibliotecas de geração de imagem, como o Seaborn.

Esta biblioteca vem junto com o pacote Anaconda. Se você não utiliza o Anaconda, ele pode ser instalado usando o seguinte comando:

```
python -mpip install -U matplotlib
```

Mais informação no site oficial: https://matplotlib.org/

## Importando a biblioteca

In [1]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

## Importância da visualização de dados

A importância de se visualizar os seus dados pode ser deduzida utilizando estes quatro pares de conjunto de dados. Calcule primeiramente a média e o desvio padrão de cada conjunto de dados, o que podemos dizer sobre estes dados?

In [3]:
x = np.array([10.0,8.0,13.0,9.0,11.0,14.0,6.0,4.0,12.0,7.0,5.0])
y = np.array([8.04,6.95,7.58,8.81,8.33,9.96,7.24,4.26,10.84,4.82,5.68])

print(x.mean())

9.0


In [None]:
x = np.array([10.0,8.0,13.0,9.0,11.0,14.0,6.0,4.0,12.0,7.0,5.0])
y = np.array([9.14,8.14,8.74,8.77,9.26,8.10,6.13,3.10,9.13,7.26,4.74])

In [None]:
x = np.array([10.0,8.0,13.0,9.0,11.0,14.0,6.0,4.0,12.0,7.0,5.0])
y = np.array([7.46,6.77,12.74,7.11,7.81,8.84,6.08,5.39,8.15,6.42,5.73])

In [None]:
x = np.array([8.0,8.0,8.0,8.0,8.0,8.0,8.0,19.0,8.0,8.0,8.0])
y = np.array([6.58,5.76,7.71,8.84,8.47,7.04,5.25,12.50,5.56,7.91,6.89])

## Gerando um gráfico de dispersão simples


In [None]:
x = [1,2,3] # valores do eixo X
y = [1,4,9] # valores do eixo Y
plt.scatter(x,y, label="y")
plt.title("teste")
plt.xlabel("x")
plt.ylabel("y")
plt.legend()
plt.grid()
plt.show()

### Exercício
Volte para as células contendo os quatro conjuntos de dados e plote um gráfico de dispersão para cada uma delas. 

## Gerando um gráfico de linha simples

In [None]:
x = [1,2,3] # valores do eixo X
y = [1,4,9] # valores do eixo Y
plt.plot(x,y, label="y")
plt.title("teste")
plt.xlabel("x")
plt.ylabel("y")
plt.legend()
plt.grid()
plt.show()

## Gerando um gráfico com múltiplas linhas

In [None]:
x = [1,2,3]
y = [1,4,9]
z = [5,3,5]
plt.plot(x,y, label="y")
plt.plot(x,z, label="z")
plt.title("teste")
plt.xlabel("x")
plt.ylabel("y e z")
plt.legend()
plt.grid()
plt.show()

## Customizando o gráfico
Mais informações [aqui](https://matplotlib.org/2.2.2/api/_as_gen/matplotlib.pyplot.plot.html):

In [None]:
x = [1,2,3]
y = [1,4,9]
z = [5,3,5]
plt.plot(x,y, 'r--o', label="y")
plt.plot(x,z, 'd-.g', label="z")
plt.title("teste")
plt.xlabel("x")
plt.ylabel("y e z")
plt.legend()
plt.show()

In [None]:
x = [1,2,3]
y = [1,4,9]
z = [5,3,5]
plt.plot(x,y, color="red", linestyle="--", marker="o", label="y")
plt.plot(x,z, marker="d", linestyle="-.", color="green", label="z")
plt.title("teste")
plt.xlabel("x")
plt.ylabel("y e z")
plt.legend()
plt.show()

## Gráfico de barras
Mais informação [aqui](https://matplotlib.org/2.2.2/api/_as_gen/matplotlib.pyplot.bar.html).

In [None]:
x = np.array([1,2,3,4,5])
y = [4,6,2,7,5]
plt.bar(x, y, label='bar1')
plt.xlabel("x")
plt.ylabel("y")
plt.title("bar test")
plt.legend()
plt.show()

In [None]:
labels = ["segunda", "terça", "quarta", "quinta", "sexta"]
y = [4,6,2,7,5]
plt.bar(labels, y, label='bar1')
plt.xlabel("x")
plt.ylabel("y")
plt.title("bar test")
plt.legend()
plt.show()

# Gráfico de barras com dois conjuntos de dados

In [None]:
x = np.array([1,2,3,4,5])
y = [4,6,2,7,5]
z = [5,8,3,5,4]
plt.bar(x*2, y, label='bar1')
plt.bar(x*2+0.8, z, label='bar2', color="g")
plt.xlabel("x")
plt.ylabel("y")
plt.title("bar test")
plt.legend()
plt.show()

## Histogramas
Mais informação [aqui](https://matplotlib.org/2.2.2/api/_as_gen/matplotlib.pyplot.hist.html)

In [None]:
x = np.array([1,3,5,1,1,1,2,3,4,5,3,4,3,4,5,3,3,4,2,3,4,5,4,3,4,4,3,3,3,5,5])
bins = np.arange(1,7)
plt.hist(x, bins, rwidth=0.9) 
plt.show()

Exemplo com simulação de jogadas de dado:

In [None]:
dice = np.random.randint(1,7,10) # simula jogada de dados
bins = [1,2,3,4,5,6,7]

plt.hist(dice, bins, rwidth= 0.9)
plt.show()

## Exercícios

### Questão 1 
O código abaixo cria duas listas (dice1 e dice2) simulando jogadas de dois dados repetindo 1000 vezes. A partir destes dados, construa um histograma que ilustre o número de vezes que cada valor somado dos dois dados ocorreu nesta simulação.

In [None]:
# Crie o seu código aqui:
dice1 = np.random.randint(1,7,1000)
dice2 = np.random.randint(1,7,1000)

### Questão 2
O arquivo "japan_birth.tab" contém dados de quantos bebês nasceram no Japão em cada mês ao longo dos anos. A descrição de cada coluna se encontra a seguir:
1. ano
2. mês
3. número de nascimento

A partir destes dados, plote um gráfico que permita você conseguir verificar se existe algum mês que nasceram mais bebês no Japão.

In [None]:
# Crie o seu código aqui: