# Matplotlib

"Uma imagem vale mais do que 1000 palavras"

A visualização de dados é uma área da ciência da computação que têm sido muito requisitada frente ao Big Data. Isto se dá devido a facilidade que o cérebro humano possui de processar uma figura, seja imagens ou gráficos, em relação aos dados textuais, como tabela.

Neste notebook, exploraremos algumas funções do Matplotlib, um módulo do Python dedicado para geração de gráficos em 2D.

A escolha desta biblioteca se dá pelo seu amplo uso dentro da comunidade de desenvolvedores em Python. A sua popularidade reflete no seu uso como base de outras bibliotecas de geração de imagem, como o Seaborn.

Esta biblioteca vem junto com o pacote Anaconda. Se você não utiliza o Anaconda, ele pode ser instalado usando o seguinte comando:

```
python -mpip install -U matplotlib
```

Mais informação no site oficial: https://matplotlib.org/

## Importando a biblioteca

In [None]:
import matplotlib.pyplot as plt
import numpy as np

## Gerando um gráfico de linha simples

In [None]:
x = [1,2,3] # valores do eixo X
y = [1,4,9] # valores do eixo Y
plt.plot(x,y, label="y")
plt.title("teste")
plt.xlabel("x")
plt.ylabel("y")
plt.legend()
plt.grid()
plt.show()

## Gerando um gráfico com múltiplas linhas

In [None]:
x = [1,2,3]
y = [1,4,9]
z = [5,3,5]
plt.plot(x,y, label="y")
plt.plot(x,z, label="z")
plt.title("teste")
plt.xlabel("x")
plt.ylabel("y e z")
plt.legend()
plt.grid()
plt.show()

## Customizando o gráfico
Mais informações [aqui](https://matplotlib.org/2.2.2/api/_as_gen/matplotlib.pyplot.plot.html):

In [None]:
x = [1,2,3]
y = [1,4,9]
z = [5,3,5]
plt.plot(x,y, 'r--o', label="y")
plt.plot(x,z, 'd-.g', label="z")
plt.title("teste")
plt.xlabel("x")
plt.ylabel("y e z")
plt.legend()
plt.show()

In [None]:
x = [1,2,3]
y = [1,4,9]
z = [5,3,5]
plt.plot(x,y, color="red", linestyle="--", marker="o", label="y")
plt.plot(x,z, marker="d", linestyle="-.", color="green", label="z")
plt.title("teste")
plt.xlabel("x")
plt.ylabel("y e z")
plt.legend()
plt.show()

## Gráfico de barras
Mais informação [aqui](https://matplotlib.org/2.2.2/api/_as_gen/matplotlib.pyplot.bar.html).

In [None]:
x = np.array([1,2,3,4,5])
y = [4,6,2,7,5]
plt.bar(x, y, label='bar1')
plt.xlabel("x")
plt.ylabel("y")
plt.title("bar test")
plt.legend()
plt.show()

In [None]:
labels = ["segunda", "terça", "quarta", "quinta", "sexta"]
y = [4,6,2,7,5]
plt.bar(labels, y, label='bar1')
plt.xlabel("x")
plt.ylabel("y")
plt.title("bar test")
plt.legend()
plt.show()

# Gráfico de barras com dois conjuntos de dados

In [None]:
x = np.array([1,2,3,4,5])
y = [4,6,2,7,5]
z = [5,8,3,5,4]
plt.bar(x*2, y, label='bar1')
plt.bar(x*2+0.8, z, label='bar2', color="g")
plt.xlabel("x")
plt.ylabel("y")
plt.title("bar test")
plt.legend()
plt.show()

## Histogramas
Mais informação [aqui](https://matplotlib.org/2.2.2/api/_as_gen/matplotlib.pyplot.hist.html)

In [None]:
x = np.array([1,3,5,1,1,1,2,3,4,5,3,4,3,4,5,3,3,4,2,3,4,5,4,3,4,4,3,3,3,5,5])
bins = np.arange(1,7)
plt.hist(x, bins, rwidth=0.9) 
plt.show()

Exemplo com simulação de jogadas de dado:

In [None]:
dice = np.random.randint(1,7,10) # simula jogada de dados
bins = [1,2,3,4,5,6,7]

plt.hist(dice, bins, rwidth= 0.9)
plt.show()

## Exercícios

### Questão 1
O arquivo [japan_birth.tab]() contém dados de quantos bebês nasceram no Japão em cada mês ao longo dos anos. A descrição de cada coluna se encontra a seguir:
1. ano
2. mês
3. número de nascimento

A partir destes dados, plote um gráfico que permita você consiguir verificar se existe algum mês que nascem mais bebês no Japão.

In [None]:
# Crie o seu código aqui:
import matplotlib.pyplot as plt
import numpy as np

f = open("japan_birth.tab", "r")
discardFirst = f.readline()
data = f.read()
data = data.split("\n")
store = {}
ord_year = []

for i in range(len(data)):
    row = data[i]
    year, month, birth = row.split("\t")
    if year not in store:
        store[year] = list(range(12))
        ord_year.append(year)
    store[year][int(month) - 1] = int(birth)

x = np.arange(1,13)

for year in ord_year:
    plt.plot(x,store[year], label=year)

plt.legend(ncol=2)
plt.show()


### Questão 2
Na aula 2, calculamos a média e desvio padrão de várias medidas de células do tumor de câncer considerados benignos (B) ou malignos (M). Construa um gráfico de barras onde você consiga comparar as médias das diferentes medidas do dois tipos de tumor. Quais destes parâmetros pode ser determinante para distinguir entre tumores benignos e malignos?

In [None]:
# Crie o seu código aqui:
result = '''column	M mean	M sd	B mean	B sd
col1	17.46	3.20	12.15	1.78
col2	21.60	3.78	17.91	4.00
col3	115.37	21.85	78.08	11.81
col5	0.10	0.01	0.09	0.01
col6	0.15	0.05	0.08	0.03
col7	0.16	0.08	0.05	0.04
col8	0.09	0.03	0.03	0.02
col9	0.19	0.03	0.17	0.02
col10	0.06	0.01	0.06	0.01
col11	0.61	0.35	0.28	0.11
col12	1.21	0.48	1.22	0.59
col13	4.32	2.57	2.00	0.77
col14	72.67	61.36	21.14	8.84
col15	0.01	0.00	0.01	0.00
col16	0.03	0.02	0.02	0.02
col17	0.04	0.02	0.03	0.03
col18	0.02	0.01	0.01	0.01
col19	0.02	0.01	0.02	0.01
col20	0.00	0.00	0.00	0.00
col21	21.13	4.28	13.38	1.98
col22	29.32	5.43	23.52	5.49
col23	141.37	29.46	87.01	13.53
col25	0.14	0.02	0.12	0.02
col26	0.37	0.17	0.18	0.09
col27	0.45	0.18	0.17	0.14
col28	0.18	0.05	0.07	0.04
col29	0.32	0.07	0.27	0.04
col30	0.09	0.02	0.08	0.01'''

data = result.split("\n")
xlabel = []
meanB = []
sdB = []
meanM = []
sdM = []

for i in range(1,len(data)):
    row = data[i]
    cells = row.split("\t")
    xlabel.append(cells[0])
    meanM.append(float(cells[1]))
    sdM.append(float(cells[2]))
    meanB.append(float(cells[3]))
    sdB.append(float(cells[4]))
    
x = np.arange(len(xlabel))

plt.bar(x*2,meanB, label="benigno")
plt.bar(x*2+0.8,meanM, label="maligno")
plt.xticks(x*2+0.4,xlabel, rotation=60) # recebe a posição da barrinha e o label das barrinhas
plt.legend()
plt.show()


**Extra**: Tente adicione a barra do desvio padrão em cada uma das barras. Consulte este [site](https://pythonforundergradengineers.com/python-matplotlib-error-bars.html)

In [None]:
# Crie o seu código aqui:
x = np.arange(len(xlabel))

plt.bar(x*2,meanB, yerr=sdB, label="benigno")
plt.bar(x*2+0.8,meanM, yerr=sdM, label="maligno")
plt.xticks(x*2+0.4,xlabel, rotation=60) # recebe a posição da barrinha e o label das barrinhas
plt.legend()
plt.show()



### Questão 3 
Crie um programa que simule jogadas de dois dados de 6 lados. Simule 1000 jogadas de dado e construa um histograma que ilustre o número de vezes que cada valor somado dos dados apareceu na simulação.

In [None]:
# Crie o seu código aqui:
dice1 = np.random.randint(1,7,1000)
dice2 = np.random.randint(1,7,1000)
diceSum = dice1+dice2
bins = range(1,14)

plt.hist(diceSum, bins, rwidth=0.9)
plt.show()
