# Prática 02 - Métodos de visualização gráfica em Python usando Matplotlib e Plotly

## Recapitulando

Na aula anterior, trabalhamos com métodos numéricos de descrição de dados e a descrição gráfica utilizando histograma. Nesta aula falaremos de diversos outros métodos de descrição gráfica.

As bibliotecas a seguir podem ser instaladas, após a ativação do ambiente, utilizando o comando `pip install`, no terminal linux.

In [None]:
import matplotlib.pyplot as plt
import altair as alt
import numpy as np
import random
import pandas as pd

## Box Plot

BoxPlot é um gráfico útil para vizualizar informações de mediana, quartis e outliers, além da possibilidade de comparar amostras em termos de sua localização e dispersão estatística. Podemos construir BoxPlots utilizando a biblioteca [`matplotlib`](https://matplotlib.org/gallery/pyplots/boxplot_demo_pyplot.html#sphx-glr-gallery-pyplots-boxplot-demo-pyplot-py):

In [None]:
# Random test data
np.random.seed(123)
all_data = [np.random.normal(0, std, 1000) for std in range(1, 4)]

fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(12, 6))

# rectangular box plot
bplot1 = axes[0].boxplot(all_data,
                         vert=True,   # vertical box aligmnent
                         patch_artist=True)   # fill with color

# notch shape box plot
bplot2 = axes[1].boxplot(all_data,
                         notch=True,  # notch shape
                         vert=True,   # vertical box aligmnent
                         patch_artist=True)   # fill with color

# fill with colors
colors = ['pink', 'lightblue', 'lightgreen']
for bplot in (bplot1, bplot2):
    for patch, color in zip(bplot['boxes'], colors):
        patch.set_facecolor(color)

# adding horizontal grid lines
for ax in axes:
    ax.yaxis.grid(True)
    ax.set_xticks([y+1 for y in range(len(all_data))], )
    ax.set_xlabel('xlabel')
    ax.set_ylabel('ylabel')

# add x-tick labels
plt.setp(axes, xticks=[y+1 for y in range(len(all_data))],
         xticklabels=['x1', 'x2', 'x3'])

plt.show()

Os dados para construção do boxPlot foram gerados aleatoriamente. Observe a diferença entre os dados. Agora, iremos exibir o boxPlot relativo aos dados da [Questão 01/ Lista 01](https://marcielbp.github.io/Statistics-and-Probability/listas/lista-01-est-descritiva/) em um boxPlot

In [None]:
data = [[9.2,10.8,10.6,11.1,12.1,9.6,11.2,8.4,12.9,12.1,14.4,11.1,11.1,9.7,8.4,12.3,10.7,12.9,9.1,12.8],
[12.5,18.5,21.3,14.3,18.5,19.0,10.8,23.1,17.4,10.7,14.3,16.3,18.0,7.1,12.8,14.7,11.3,8.2,13.8],
[21.3,28.7,15.8,24.0,13.7,18.1,12.6,14.6,6.1,19.8,22.3,15.7,16.3,18.2,15.7,6.6,9.3,1.3,19.0],
[13.7,8.6,14.9,10.2,14.0,10.5,15.0,5.2,10.0,11.7,18.7,9.3,7.9,6.5,11.5,12.0,8.3,8.3,9.8,4.7]]
    
fig, ax = plt.subplots(nrows=1, ncols=1, figsize=(8, 6))
red_square = dict(markerfacecolor='r', marker='s')
ax.boxplot(data, [1,2,3,4],vert=True,flierprops=red_square)

ax.set_title('Box Plot da altura de Espécie de árvore', fontsize=12)
ax.yaxis.grid(True)
plt.setp(ax,xticklabels=['Área A', 'Área B', 'Área C', 'Área D'])
fig.subplots_adjust(hspace=0.4)
plt.show()

### Exercício 1

Um exame para uma faculdade tem 80 questões, sendo 40 de português e 40 de matemática. Para os 20
melhores classificados, apresentamos o número de acertos em cada disciplina.

> Português: 35, 35, 34, 32, 31, 30, 26, 26, 24, 23, 23, 12, 11, 20, 17, 12, 14, 20, 8, 10

> Matemática: 31, 29, 27, 28, 28, 26, 30, 28, 25, 23, 21, 32, 31, 20, 21, 25, 20, 13, 23, 20

Construa um gráfico de caixa (box plot) para cada grupo (em um mesmo gráfico para comparação). Na legenda deve constar o nome da disciplina. Indique também a posição da média amostral usando o recurso `plt.plot([x1,x2],[y1, y2], 'k-', lw=2)`. Como descobrir os valores apropriados de `[x1,x2],[y1, y2]`?

In [None]:
# Respota Exercício 1

## BoxPlot interativo e espalhamento da amostra

A biblioteca [Plotly](https://plot.ly/python/reference/#box) permite a criação de gráficos interativos em HTML. A partir dela, vamos criar 

In [None]:
import plotly.graph_objects as go

fig = go.Figure()
names = ['Área A','Área B','Área C','Área D']
for i in range(0,4):
    fig.add_trace(go.Box(y=data[i],name=names[i]))
fig.show()

Observe que a exibição de outliers utilizando a biblioteca matplotlib foi diferente dos exibidos pela Plotly, para a mesma amostra. Você saberia dizer o porquê?

Podemos efetuar algumas mudanças no layout dos gráficos, a começar pela exibição dos pontos da amostra. Observe que a função `jitter` permite que a amostra seja exibida com um certo grau de aleatoriedade horizontal, cujo objetivo é apenas dar a ideia de variabilidade. Além disso, podemos definir cores customizadas para cada gráfico:

In [None]:
fig = go.Figure()
names = ['Área A','Área B','Área C','Área D']
colorNames = ['red','blue','orange','purple']
for i in range(0,4):
    fig.add_trace(go.Box(y=data[i],name=names[i],marker_color =colorNames[i]))
    fig.update_traces(boxpoints='all', jitter=0.1)
fig.update_layout(
    title='Box Plot da altura de Espécie de árvore')
fig.show()

Verifique também o uso do [Gráfico de Violino](https://plot.ly/python/violin/).

## Gráficos de Pizza

Graficos de pizza são eficazes para a exibição da proporção relatva de variáveis qualitativas **que se complementam**, ou seja, juntas representam algum universo. Gráficos de pizza não devem ser utilizados para representar muitas classes, mas são gráficos úteis para mostrar proporções de variáveis qualitativas, desde que suas proporções não sejam muito semelhantes. Utilize o gráfico de pizza para até 4 ou, no máximo, 5 classes.

In [None]:
labels = ['Oxigênio','Hidrogênio','Dioxido de Carbono','Nitrogênio']
values = [4500, 2500, 1053, 500]

Veja o exemplo de construção do gráfico de pizza usando a biblioteca matplotlib:

In [None]:
import matplotlib.pyplot as plt

explode = (0.05, 0, 0, 0)  # only "explode" the 2nd slice (i.e. 'Hogs')

fig1, ax1 = plt.subplots()
ax1.pie(values, explode=explode, labels=labels, autopct='%1.1f%%',
        shadow=True, startangle=90)
ax1.axis('equal')  # Equal aspect ratio ensures that pie is drawn as a circle.

plt.show()

Por sua vez, a biblioteca Plotly permite a visualização de forma interativa:

In [None]:
import plotly.graph_objects as go

fig = go.Figure(data=[go.Pie(labels=labels, values=values)])
fig.show()

Experimente usar o atributo `hole` na construção do [gráfico de pizza usando plotly](https://plot.ly/python/pie-charts/).

## Gráfico de Barras

O Gráfico de barras é útil para exigir quantidade ou proporção de variáveis qualitativas de maneira sequencial ou não. Por exemplo, vamos supor que desejamos construir um gráfico de evolução populacional nas regiões do Brasil para algum período de tempo. Observe os dados coletados do [Censo 2010 - IBGE](https://censo2010.ibge.gov.br/sinopse/index.php?dados=4&uf=00). Vamos construir um gráfico de barras da evolução populacional:

In [None]:
regioes = ['Norte', 'Nordeste', 'Sudeste', 'Sul','Centro-Oeste']
populacao = [[10257266,42470225,62660700,22117026,9412242], #População em 1991
             [12893561,47693253,72297351,25089783,11616745], #População em 2000
             [15864454,53081950,80364410,27386891,14058094]] #População em 2010

In [None]:
populacao[0]

In [None]:
fig, ax = plt.subplots(figsize=(14, 6))
x = np.arange(len(regioes))  # the label locations
width = 0.2  # the width of the bars
rects0 = ax.bar(x - width, populacao[0], width, label='1991')
rects1 = ax.bar(x, populacao[1], width, label='2000')
rects2 = ax.bar(x + width, populacao[2], width, label='2010')

# Add some text for labels, title and custom x-axis tick labels, etc.
ax.set_ylabel('População')
ax.set_title('População por Região')
ax.set_xticks(x)
ax.set_xticklabels(regioes)
ax.legend()

Observe que a população está em notação científica. Vamos realizar a formatação como segue:

In [None]:
import matplotlib.ticker as tick

def millions(x, pos):
    'The two args are the value and tick position'
    return '%1.1fM' % (x*1e-6)
    
fig, ax = plt.subplots(figsize=(14, 6))
ax.yaxis.set_major_formatter(tick.FuncFormatter(millions))
x = np.arange(len(regioes))  # the label locations
width = 0.2  # the width of the bars
rects0 = ax.bar(x - width, populacao[0], width, label='1991')
rects1 = ax.bar(x, populacao[1], width, label='2000')
rects2 = ax.bar(x + width, populacao[2], width, label='2010')

# Add some text for labels, title and custom x-axis tick labels, etc.
ax.set_ylabel('População')
ax.set_title('População por Região')
ax.set_xticks(x)
ax.set_xticklabels(regioes)
ax.legend()

Observe a utilização da biblioteca [Plotly](https://plot.ly/python/bar-charts/) para a construção de gráficos de barra:

In [None]:
import plotly.graph_objects as go

regioes = ['Norte', 'Nordeste', 'Sudeste', 'Sul','Centro-Oeste']
populacao = [[10257266,42470225,62660700,22117026,9412242], #População em 1991
             [12893561,47693253,72297351,25089783,11616745], #População em 2000
             [15864454,53081950,80364410,27386891,14058094]] #População em 2010


fig = go.Figure()
fig.add_trace(go.Bar(
    x=regioes,
    y=populacao[0],
    name='1991',
    marker_color='crimson'
))
fig.add_trace(go.Bar(
    x=regioes,
    y=populacao[1],
    name='2000',
    marker_color='orange'
))

fig.add_trace(go.Bar(
    x=regioes,
    y=populacao[2],
    name='2010',
    marker_color='purple'
))

# Here we modify the tickangle of the xaxis, resulting in rotated labels.
fig.update_layout(barmode='group', xaxis_tickangle=-45)
fig.show()

É comum exibimos os dados de forma empilhada, como a seguir:

In [None]:
import plotly.graph_objects as go

anos=['1991','2000','2010']
regioes = ['Norte', 'Nordeste', 'Sudeste', 'Sul','Centro-Oeste']
populacao = [[10257266,42470225,62660700,22117026,9412242], #População em 1991
             [12893561,47693253,72297351,25089783,11616745], #População em 2000
             [15864454,53081950,80364410,27386891,14058094]] #População em 2010
pop2 = np.transpose(populacao)


animals=['giraffes', 'orangutans', 'monkeys']

fig = go.Figure(data=[
    go.Bar(name=regioes[2], x=anos, y=pop2[2]),
    go.Bar(name=regioes[1], x=anos, y=pop2[1]),
    go.Bar(name=regioes[3], x=anos, y=pop2[3]),
    go.Bar(name=regioes[4], x=anos, y=pop2[4]),
    go.Bar(name=regioes[0], x=anos, y=pop2[0]),
])
# Change the bar mode
fig.update_layout(barmode='stack')
fig.show()

Você consegue dizer porque o vetor não segue a ordem `[0,1,2,3,4]`?

[Diagrama de Categorias paralelas](https://plot.ly/python/parallel-categories-diagram/)

In [None]:
import plotly.graph_objects as go

fig = go.Figure(go.Parcats(
    dimensions=[
        {'label': 'Hair',
         'values': ['Black', 'Brown', 'Brown', 'Brown', 'Red']},
        {'label': 'Eye',
         'values': ['Brown', 'Brown', 'Brown', 'Blue', 'Blue']},
        {'label': 'Sex',
         'values': ['Female', 'Male', 'Female', 'Male', 'Male']}],
    counts=[6, 10, 40, 23, 7]
))


fig.show()

In [None]:

## Gráfico de Radar
import plotly.graph_objects as go

fig = go.Figure(data=go.Scatterpolar(
  r=[2, 4, 2, 2, 3, 2],
  theta=['processing cost','mechanical properties','chemical stability', 'thermal stability',
           'device integration','processing cost'],
  fill='toself'
))

fig.update_layout(
  polar=dict(
    radialaxis=dict(
      visible=True
    ),
  ),
  showlegend=False
)

fig.show()