In [4]:
import pandas as pd 
import altair as alt 
from vega_datasets import data

Neste exemplo usaremos o *dataset* `iowa-eletricity` do repositório `vega_datasets`. Renomeamos as colunas, traduzindo as variávies para melhor compreensão da visualização.

In [21]:
# Insere o dataset 'iowa-electricity' do repositório vega_datasets
df = data.iowa_electricity()

#Renomeia as colunas, para traduzi-las
labels = ['ano', 'fonte', 'geracao_energ']
df.columns = labels
df.head()

Unnamed: 0,ano,fonte,geracao_energ
0,2001-01-01,Fossil Fuels,35361
1,2002-01-01,Fossil Fuels,35991
2,2003-01-01,Fossil Fuels,36234
3,2004-01-01,Fossil Fuels,36205
4,2005-01-01,Fossil Fuels,36883


Como apontado no decorrer nesso notebook, podemos alterar as especificações visuais de como queremos representar os dados. Vamos personalizar o canal de codificação `color`.

Podemos designar qualquer cor que esteja especificada como uma [cor tabelada do CSS](https://developer.mozilla.org/en-US/docs/Web/CSS/color_value). Fazemos isso definindo a uma escala de cor usando `Scale()`, atribuímos um domínio, `domain`, com os valores dos dados a serem diferenciados por cor, e um intervalo, `range`, com  as cores correspondentes, em ordem.

In [7]:
colors = alt.Scale(
    domain = ['Fossil Fuels', 'Nuclear Energy', 'Renewables'],
    range = ['darkslategrey', 'coral', 'mediumseagreen'],
)

Criamos então um gráfico de barras com a contribuição enegética total de cada fonte durante o período de 17 anos, para isso usamos `'sum(geracao_energ):Q'`.

Para usarmos a nova escala de cores, definimos o atributo `scale` de `alt.Color()` como abaixo:

In [8]:
alt.Chart(df).mark_bar().encode(
    alt.X('sum(geracao_energ):Q', title='geracao_energ total'),
    alt.Y('fonte:N'),
    alt.Color('fonte', scale=colors),
)

Podemos analisar também a geração de energia, `geracao_energ`, de cada `fonte` ao longo dos anos. Para isso, criamos um gráfico de linhas como abaixo:

In [19]:
fontes_chart = alt.Chart(df).mark_line().encode(
    alt.X('ano:T'),
    alt.Y('geracao_energ:Q'),
    alt.Color('fonte:N', scale=colors),
)

fontes_chart

Essa visualização fornece informações mais palpáveis de comparação entre as diferentes fontes de energia. Por exemplo, notamos que a geração de energia de fontes renováveis foi crescente a partir de 2008, enquanto a de combustíveis fósseis teve um decréscimo expressivo a partir de 2010.

Podemos brincar com os dados e outros tipos de visualização. Abaixo criamos um novo *data  frame* com a geração total de energia no ano.

In [23]:
df_ano = df.groupby('ano')['geracao_energ'].sum().reset_index()
df_ano.head()

Unnamed: 0,ano,geracao_energ
0,2001-01-01,40651
1,2002-01-01,42528
2,2003-01-01,42107
3,2004-01-01,43236
4,2005-01-01,44145


Vamos então plotar um gráfico de barras com a geração total de energia por ano, somando todas as fontes.

In [56]:
ano_chart = alt.Chart(df_ano).mark_bar().encode(
    alt.X('ano', timeUnit='year'),
    alt.Y('geracao_energ'),
    color=alt.value('lightgray'),
).properties(
    # width=400, # define a largura do gráfico para 400 pixels
    height=100 # define a altura do gráfico para 50 pixels
)

ano_chart

A partir disso, podemos gerar uma visualização com os dois gráficos que criamos. Para obtermos uma perspectiva geral da geração de energia anual total e o comportamento de cada fonte. 

In [54]:
ano_chart & fontes_chart