# Assignment 3 - Building a Custom Visualization

Nesta tarefa, você deve escolher __uma__ das opções apresentadas abaixo e enviar um visual, bem como seu código-fonte para avaliação por pares. Os detalhes de como você resolve a tarefa dependem de você, embora sua tarefa deva usar matplotlib para que seus colegas possam avaliar seu trabalho. As opções diferem no nível de desafio, mas não há notas associadas ao nível de desafio escolhido. No entanto, seus colegas serão solicitados a garantir que você tenha pelo menos uma qualidade mínima para uma determinada técnica para ser aprovado. Implemente a técnica totalmente (ou exceda-a!) e você poderá obter notas completas para a tarefa.

Ferreira, N., Fisher, D., & Konig, A. C. (2014, April). [Sample-oriented task-driven visualizations: allowing users to make better, more confident decisions.](https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/Ferreira_Fisher_Sample_Oriented_Tasks.pdf) 
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;In Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (pp. 571-580). ACM. ([video](https://www.youtube.com/watch?v=BI7GAs-va-Q))

Neste [paper](https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/Ferreira_Fisher_Sample_Oriented_Tasks.pdf) os autores descrevem os desafios que os usuários enfrentam ao tentar fazer julgamentos sobre dados probabilísticos gerados por meio de amostras. Como exemplo, eles olham para um gráfico de barras de quatro anos de dados (replicado abaixo na Figura 1). Cada ano tem um valor do eixo y, que é derivado de uma amostra de um conjunto de dados maior. Por exemplo, o primeiro valor pode ser o número de votos em um determinado distrito ou disputa para 1992, com a média em torno de 33.000. Além disso, é plotado o intervalo de confiança de 95% para a média (consulte as palestras do boxplot para obter mais informações e o parâmetro yerr dos gráficos de barras).

<br>
<img src="assets/Assignment3Fig1.png" alt="Figure 1" style="width: 400px;"/>
<h4 style="text-align: center;" markdown="1">  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Figure 1 from (Ferreira et al, 2014).</h4>

<br>

Um desafio que os usuários enfrentam é que, para um determinado valor do eixo y (por exemplo, 42.000), é difícil saber quais valores do eixo x têm maior probabilidade de serem representativos, porque os níveis de confiança se sobrepõem e suas distribuições são diferentes (os comprimentos das barras do intervalo de confiança são desiguais). Uma das soluções que os autores propõem para esse problema (Figura 2c) é permitir que os usuários indiquem o valor do eixo y de interesse (por exemplo, 42.000) e, em seguida, desenhem uma linha horizontal e barras coloridas com base nesse valor. Assim, as barras podem ser coloridas de vermelho se estiverem definitivamente acima desse valor (dado o intervalo de confiança), azuis se estiverem definitivamente abaixo desse valor ou brancas se contiverem esse valor.


<br>
<img src="assets/Assignment3Fig2c.png" alt="Figure 1" style="width: 400px;"/>
<h4 style="text-align: center;" markdown="1">  Figure 2c from (Ferreira et al. 2014). Note that the colorbar legend at the bottom as well as the arrows are not required in the assignment descriptions below.</h4>

<br>
<br>

**Opção mais fácil:** Implemente a coloração da barra conforme descrito acima - uma escala de cores com pelo menos três cores (por exemplo, azul, branco e vermelho). Suponha que o usuário forneça o valor do eixo y de interesse como um parâmetro ou variável.

**Opção mais difícil:** Implemente a coloração da barra conforme descrito no artigo, onde a cor da barra é realmente baseada na quantidade de dados cobertos (por exemplo, um gradiente variando de azul escuro para a distribuição certamente abaixo deste eixo y , para branco se o valor certamente estiver contido, para vermelho escuro se o valor certamente não estiver contido, pois a distribuição está acima do eixo).

**Opção ainda mais difícil:** Adicione interatividade à anterior, que permite ao usuário clicar no eixo y para definir o valor de interesse. As cores da barra devem mudar de acordo com o valor selecionado pelo usuário.

**Opção mais difícil:** permite que o usuário defina interativamente um intervalo de valores y nos quais esteja interessado e recolora com base nisso (por exemplo, uma faixa do eixo y, consulte o artigo para obter mais detalhes).

---

*Note: The data given for this assignment is not the same as the data used in the article and as a result the visualizations may look a little different.*

In [11]:
# Use the following data for this assignment:

import pandas as pd
import numpy as np

np.random.seed(12345)

df = pd.DataFrame([np.random.normal(32000,200000,3650), 
                   np.random.normal(43000,100000,3650), 
                   np.random.normal(43500,140000,3650), 
                   np.random.normal(48000,70000,3650)], 
                  index=[1992,1993,1994,1995])
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,3640,3641,3642,3643,3644,3645,3646,3647,3648,3649
1992,-8941.531897,127788.667612,-71887.743011,-79146.060869,425156.114501,310681.166595,50581.575349,88349.230566,185804.513522,281286.947277,...,171938.760289,150650.759924,203663.976475,-377877.158072,-197214.093861,24185.008589,-56826.729535,-67319.766489,113377.299342,-4494.878538
1993,-51896.094813,198350.518755,-123518.252821,-129916.759685,216119.147314,49845.883728,149135.648505,62807.672113,23365.577348,-109686.264981,...,-44566.520071,101032.122475,117648.199945,160475.622607,-13759.888342,-37333.493572,103019.841174,179746.127403,13455.49399,34442.898855
1994,152336.932066,192947.128056,389950.263156,-93006.152024,100818.575896,5529.230706,-32989.370488,223942.967178,-66721.580898,47826.269111,...,165085.80636,74735.17409,107329.726875,199250.734156,-36792.202754,-71861.846997,26375.113219,-29328.078384,65858.761714,-91542.001049
1995,-69708.439062,-13289.977022,-30178.390991,55052.181256,152883.621657,12930.835194,63700.461932,64148.489835,-29316.268556,59645.677367,...,-13901.388118,50173.686673,53965.990717,4128.990173,72202.595138,39937.199964,139472.114293,59386.186379,73362.22959,28705.082908


In [12]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as st
import matplotlib.colors as col
import matplotlib.cm as cm
import seaborn as sns

%matplotlib notebook

In [13]:
df_mean = df.mean(axis=1)
df_std = df.std(axis=1)

In [14]:
n = df.shape[1]
n

3650

In [15]:
y = np.mean(df_mean.values)
y

40602.70573182094

O erro padrão é uma medida de quão precisa é a estimativa da média. Quanto maior o erro padrão, menos preciso é a estimativa. O nível de confiança do intervalo de confiança é a probabilidade de que a verdadeira média do conjunto de dados esteja dentro do intervalo de confiança.

Para calcular o erro padrão `yerr` temos:

- `df_std` é o desvio padrão do conjunto de dados;
- `n` é o número de observações no conjunto de dados;
- `st.norm.ppf` é uma função que retorna o ponto percentil da distribuição padrão;
- `1 - 0.05 / 2` é o nível de confiança do intervalo de confiança. 

In [16]:
# Compute the 95% confidence intervals
yerr = df_std / np.sqrt(n) * st.norm.ppf(1 - 0.05 / 2)
conf_ints = [
    st.norm.interval(confidence=0.95, loc=mu, scale=se)
    for mu, se in zip(df_mean, df_std / np.sqrt(n))
]

In [17]:
conf_ints

[(26803.32910810163, 39820.88584298704),
 (38669.66388580649, 45054.05519634029),
 (34939.486333333836, 44047.12354946396),
 (45479.74082376381, 50007.36111477046)]

In [18]:
# Compute the probablility of the mean > y for each column
def compute_probs(y, conf_int):
    
    # Mínimo do intervalo maior que a média
    if y < np.min(conf_int): 
        result = 1.0
    # Máximo do intervalor menor que a média
    elif y > np.max(conf_int): 
        result = 0.0
    # Média contida no intervalo
    else: 
        result = (np.max(conf_int) - y) / (np.max(conf_int) - np.min(conf_int))
    
    return result

In [19]:
# Compute probabilities
probs = [compute_probs(y, ci) for ci in conf_ints]

In [20]:
# Setup the colormap
cc = ['seismic', 'bwr', 'coolwarm', 'RdBu', 'PRGn', 'PiYG']
cmap = cm.get_cmap(cc[5])
cpick = cm.ScalarMappable(cmap=cmap, norm=col.Normalize(vmin=0, vmax=1.0))
cpick.set_array([])

  cmap = cm.get_cmap(cc[5])


In [21]:
# Setup the plot
plt.figure()
bars = plt.bar(
    range(len(df)),
    df_mean,
    #                width=1,
    edgecolor='lightgray',
    yerr=yerr,
    alpha=0.8,
    color=cpick.to_rgba(probs),
    capsize=7)

# Add the colorbar
ax = plt.subplot(111)
cbar = plt.colorbar(cpick, ax=ax, orientation="vertical")

# Turn off some plot rectangle spines
[plt.gca().spines[loc].set_visible(False) for loc in ['top', 'right']]

# Add the horizontal line
hoz_line = plt.axhline(y=y, color='gray', linewidth=1, linestyle='--')

# Set ticks and labels
plt.title('Easiest option')

plt.xlabel('Year')
plt.ylabel('Value')

plt.xticks(range(len(df)), df.index)
yt_o = plt.gca().get_yticks()
yt = np.append(yt_o, y)
plt.gca().set_yticks(yt)
y_text = plt.text(-0.5, 50000, 'y = %d' % y, bbox=dict(fc='white', ec='k'))


<IPython.core.display.Javascript object>