# Awari - Data Science

## Projeto - Gráficos Interativos com Bokeh

## 1. Considerações iniciais
Usando os [microdados](http://portal.inep.gov.br/microdados) do Enen, o objetivo deste notebook é você exercitar o uso da biblioteca para uso em conjuntos de dados reais.

Ao final deste notebook, esperamos que você consiga:
- Transformar seus dados em visualizações usando Bokeh.
- Personalizar e organizar suas visualizações.
- Adicionar interatividade às suas visualizações.

### 1.1. Por que o Bokeh?

Bokeh é uma biblioteca Python para geração de gráficos interativos que podem ser exibidos em navegadores web. Ao contrário dos populares Matplotlib e Seaborn, o Bokeh renderiza seus gráficos usando HTML e JavaScript. Esta característica é o maior diferencial do Bokeh.

### 1.2. Prepare seu ambiente

O Bokeh também está disponível em R e Scala. Como o nosso foco é o Python, faça a instalação da biblioteca no seu sistema usando o gerenciador de pacotes da linguagem:
```
$ pip install bokeh
```

Ou caso esteja usando o Anaconda:
```
$ conda install bokeh
```

### 1.3. Conjunto de dados

Nossa o conjunto de dados serão os microdados do [ENEN 2018](http://download.inep.gov.br/microdados/microdados_enem2018.zip). Na verdade, utilizaremos uma versão menor deste conjunto, visto que o original é muito grande o objetivo desde notebook - o arquivo CSV original possui mais de 3Gb. Deste modo, iremos trabalhar com o arquivo [MICRODADOS_ENEM_2018.csv](MICRODADOS_ENEM_2018.csv) que representa uma parte dos dados e que já estão pré-processados.

#### 1.3.1. Descrição do dados

No arquivo [MICRODADOS_ENEM_2018.csv](MICRODADOS_ENEM_2018.csv), você encontrará as seguintes colunas:
- INSCRICAO: Número de inscrição.
- MUNICIPIO: Município de residência.
- UF: Unidade federativa (estado).
- IDADE: Idade.
- SEXO: Sexo.
- COR_RACA: Cor/raça.
- TIPO_ESCOLA: Tipo de escola. Caso 1 - não respondeu, 2 - pública, 3 - privada e 4 exterior.
- NOTA_MT: Nota da prova de Matemática
- NOTA_CN: Nota da prova de Ciências da Natureza
- NOTA_LC: Nota da prova de Linguagens e Códigos
- NOTA_CH: Nota da prova de Ciências Humanas

## 2. Procedimentos

Para a criação de visualizações no Bokeh, você pode seguir estes 6 passos:
1. **Prepare os dados** - Esta etapa envolve o uso de outras bibliotecas como o Pandas ou Numpy. 
2. **Defina a saída** - O Bokeh permite que o usuário escolha a saída da visualização. As opções são arquivos HTML, apresentação através do notebook ou em um servidor.
3. **Configure sua visualização** - A partir daqui, você montará seu gráfico, como se estivesse preparando uma tela. Nesta etapa, você pode personalizar tudo, desde os títulos às marcas de escala.
4. **Conecte-se e desenhe seus dados** - Em seguida, você tem a flexibilidade de desenhar seus dados do zero, usando as muitas opções disponíveis de marcador e forma, todas facilmente personalizáveis.
5. **Organize o layout** - O Bokeh não apenas oferece as opções de layout padrão de grade, mas também permite que você organize suas visualizações em um layout com guias em apenas algumas linhas de código.
6. **Visualize e salve sua visualização** - Finalmente, é hora de ver o que você criou. Seja no navegador, no notebook ou em um servidor.

### 2.1. Prepare seus dados
Na etapa inicial, você começa importando a biblioteca Pandas e carregando os dados em um dataframe.

### __TAREFA 01__
1. Importe o pandas
2. Leia o arquivo ['MICRODADOS_ENEM_2018.csv'](MICRODADOS_ENEM_2018.csv).
3. Visualize as primeiras linhas do dataframe.

**DICA**: Use o argumento *index_col=0* para que a coluna *INSCRICAO* vire o índice do dataframe.

In [1]:
# Insira sua resposta aqui
import pandas as pd

In [2]:
df = pd.read_csv('MICRODADOS_ENEM_2018.csv', index_col='INSCRICAO')
df.head()

Unnamed: 0_level_0,MUNICIPIO,UF,IDADE,SEXO,COR_RACA,TIPO_ESCOLA,NOTA_CN,NOTA_MT,NOTA_CH,NOTA_LC,NOTA_REDACAO
INSCRICAO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
180007197856,São João dos Patos,MA,23.0,F,3,1,521.0,480.3,568.7,513.1,280.0
180007239581,João Pessoa,PB,23.0,F,1,1,461.8,538.8,564.0,466.8,580.0
180008090447,Parnaíba,PI,39.0,M,3,1,499.3,733.8,663.2,605.2,680.0
180008257068,Fortaleza,CE,19.0,M,3,2,411.8,459.0,429.8,445.2,340.0
180008202044,Cuiabá,MT,25.0,F,3,1,469.4,525.4,650.2,606.6,740.0


### 2.2. Defina a saída

Com seus dados em mãos, agora é hora de definir onde sua visualização será renderizada. Para facilitar, vamos trabalhar com um arquivo em HTML.

### __TAREFA 02__
1. Importe a função da biblioteca Bokeh que renderiza a saída em HTML.
2. Salve a visualização no arquivo *grafico_vazio.html*.
2. Informe o título de "Gráfico Vazio" nesta saída.

**DICA**: As funções de saída do Bokeh ficam dentro de *bokeh.io*.

In [3]:
# Insira sua resposta aqui
from bokeh.io import output_file
output_file("grafico_vazio.html", title='Gráfico Vazio')

### 2.3. Configure sua visualização
Chegou o momento de montar sua figura.

### __TAREFA 03__
1. Importe a classe do Bokeh para criar uma figura.
2. Instancie um objeto chamado fig com a sua visualização.

**DICA**: O objeto para configurar uma visualização está dentro de *bokeh.plotting*.

In [4]:
# Insira sua resposta aqui
from bokeh.plotting import figure
fig = figure()

A partir deste ponto, você já pode conferir sua visualização, apesar de não ter plotado nenhum dado.

### __TAREFA 04__
1. Junte o código das tarefas 2 e 3.
2. Importe a função do Bokeh que apresente uma figura.
3. Plote uma visualização vazia.

In [5]:
# Insira seu código aqui
from bokeh.io import show
show(fig)



Uma nova aba com o nome "Gráfico Vazio do Bokeh" abrirá em seu navegador para apresentar seu gráfico vazio. Repare que a saída padrão vem pré-carregada com uma barra de ferramentas. Esta é uma prévia importante dos elementos interativos do Bokeh traz.

### __TAREFA 05__
1. Plote a mesma estrutura da Tarefa 04 no notebook.

In [6]:
# Insira seu código aqui
from bokeh.io import output_notebook

In [7]:
output_notebook()

In [8]:
fig2 = figure()
show(fig2)





Quando executou o comando, verificou que duas visualizações (sem dados) foram renderizadas? Uma em nova aba, similar à tarefa 04, outra no próprio notebook.

Isso aconteceu porque você definiu uma nova saída para a visualização, porém o Bokeh ainda não havia "esqueceu" a anterior. Esta  característica é ideal para quando você deseja renderizar visualizações em vários locais - HTML, notebook e/ou servidores. 

Para o nosso caso, se nós ficarmos definindo sempre novos locais para renderização a cada nova tarefa, provalvemente ficaremos com o notebook e navegador bem poluídos.

O Bokeh permite que a saida da visualização seja resetada a cada nova renderização.

### __TAREFA 06__
1. Importe a função que reseta a saída das visualizações.
2. Execute a função.

**DICA**: A função que reseta a saída das visualizações estão dentro de *bokeh.plotting*.

In [9]:
# Insira seu código aqui
from bokeh.plotting import reset_output
reset_output()

Lembre-se, ainda não passamos os nossos dados para gerar uma visualização completa. Até o momento, é como se você estivesse preparando a tela em que vai pintar.

Agora que você sabe como criar uma figura do Bokeh genérica em um HTML ou notebook, é hora de aprender mais sobre como configurar o objeto *figure()*. Vamos 
trabalhar neste elemento, que fornecerá muitos dos parâmetros que definirão a estética das nossas visualizações.

### __TAREFA 07__

1. Manipulando o elemento *figure*, plote uma figura com título "Gráfico Genérico".
2. Defina o nome do eixo x como "Eixo X".
3. Defina o nome do eixo y como "Eixo Y".
4. Defina a posição do título abaixo do gráfico.
5. Exiba o resultado no notebook.

**DICA**: Todos os parâmtros são configurados no momento em que você instancia o objeto *figure*.

In [10]:
# Insira seu código aqui
output_notebook()
fig = figure(title='Gráfico Genérico', x_axis_label='Eixo X', y_axis_label='Eixo Y', title_location='below')
show(fig)



Além de mudar título e nome dos eixos da visualizações, o objeto figure também possui vários outros parâmetros para cor, legenda, tamanho, faixa de valores, etc.

### 2.3. Conecte-se e desenhe seus dados

Finalmente chegou a hora de pintar! Com o objeto *figure* instanciado e configurado, você pode conectar-se ao objeto e desenhar seus dados. 

O elemento gráfico mais básico no Bokeh é o glifo. Um glifo é uma forma gráfica vetorial ou marcador usado para representar seus dados, como um círculo ou quadrado.

Para facilitar a visualização, vamos selecionar somente as 10 primeiras inscrições do nosso conjunto de dados e plotar glifos (pontos) no gráfico que representam as notas de matemática (eixo x) e redação (eixo y) dos nossos inscritos.

In [11]:
x = df['NOTA_MT'].head(10).reset_index(drop=True)
y = df['NOTA_REDACAO'].head(10).reset_index(drop=True)

### __TAREFA 08__

1. Crie uma figure com o título "Matemática X Redação"
2. Plote os glifos usando o vetores x e y
3. Defina a saída no notebook

**DICA**: Use a função *figure.circle()* para plotar os glifos.

In [12]:
# Insira seu código aqui
figura = figure(title='Matemática x Redação')
figura.circle(x, y)
output_notebook()
show(figura)

Ficou fácil não é verdade? Com o objeto figure instanciado, você se "conecta" a ele e repassa seus dados de forma muito simples. Acima, usamos o método *cicle()*, mas o Bokeh possui vários outros elementos. Também existem várias categorias de glifos, talvez você queira dar uma conferida na [documentação](https://bokeh.pydata.org/en/latest/docs/user_guide/plotting.html).

Vamos explorar um pouco mais nosso conjunto de dados. Vamos conferir como está a distribuição de inscrições por estado. Vamos contar quantas inscrições existem por *UF*. Para que você foque no processo do Bokeh, os dados já foram preparados:

In [13]:
contagem_x = list(df['UF'].value_counts().sort_index().index)
contagem_y = list(df['UF'].value_counts().sort_index().values)

### __TAREFA 09__
1. Crie uma figure com o título "Quantidade de Inscritos por UF"
2. Plote vetores x e y através de um gráfico de barras.
3. Define o nome do eixo x como "UF".
4. Define o nome do eixo y como "Inscritos".
3. Defina a saída no notebook


- **DICA 01**: Como a variável x é categórica, use o argumento *x_range* quando criar uma figura.
- **DICA 02**: O gráfico de barras é feito usando a função *figure.vbar()*.

In [20]:
# Insira seu código aqui
x_range = [str(c) for c in range(len(contagem_x))]
figura2= figure(title='Quantidade de Inscritos por UF', x_axis_label='UF', y_axis_label='Inscritos', 
                x_range=[str(c) for c in range(len(contagem_x))])
figura2.vbar(x=x_range, top=contagem_y, width=0.9)
output_notebook()
show(figura2)

Aproveite para experimentar os botôes do lado direito da visualização. Aproximar, salvar e recarregar são algumas opções que o Bokeh apresenta por padrão.

## 3. Conclusão
O Bokeh ainda possui uma vasta gama de customizações e opções que não foram exploradas neste notebook. Espero que o conceitos e as tarefas simples apresentadas tenham lhe dado motivação e base suficiente para continuar explorando o Bokeh.


### Awari -  <a href="https://awari.com.br/"> awari.com.br</a>