In [1]:
import pandas as pd
import altair as alt

antibiotics = 'https://cdn.jsdelivr.net/npm/vega-datasets@1/data/burtin.json'

pd.read_json(antibiotics)

Unnamed: 0,Bacteria,Penicillin,Streptomycin,Neomycin,Gram_Staining,Genus
0,Aerobacter aerogenes,870.0,1.0,1.6,negative,other
1,Bacillus anthracis,0.001,0.01,0.007,positive,other
2,Brucella abortus,1.0,2.0,0.02,negative,other
3,Diplococcus pneumoniae,0.005,11.0,10.0,positive,other
4,Escherichia coli,100.0,0.4,0.1,negative,other
5,Klebsiella pneumoniae,850.0,1.2,1.0,negative,other
6,Mycobacterium tuberculosis,800.0,5.0,2.0,negative,other
7,Proteus vulgaris,3.0,0.1,0.1,negative,other
8,Pseudomonas aeruginosa,850.0,2.0,0.4,negative,other
9,Salmonella (Eberthella) typhosa,1.0,0.4,0.008,negative,Salmonella


### Comparando antibióticos: ajustando linhas de grade, contagem de ticks e dimensionamento

Primeiramente, vamos começar com a seguinte pergunta: _Como é que a neomicina se compara a outros antibióticos, como a estreptomicina e a penicilina?_

Para começar a responder a essa pergunta, podemos criar gráficos de dispersão, adicionando uma codificação do eixo y para outro antibiótico (estreptomicina) que espelha o design do nosso eixo x para neomicina.

In [2]:
alt.Chart(antibiotics).mark_circle().encode(
    alt.X('Neomycin:Q',
          sort='descending',
          scale=alt.Scale(type='log'),
          title='Neomycin MIC (μg/ml, reverse log scale)'),
    alt.Y('Streptomycin:Q',
          sort='descending',
          scale=alt.Scale(type='log'),
          title='Streptomycin MIC (μg/ml, reverse log scale)')
)

_Podemos ver que a neomicina e a estreptomicina parecem estar altamente correlacionadas, uma vez que as cepas bacterianas respondem de forma semelhante a ambos os antibióticos._

Agora vamos comparar com a penicilina:

In [3]:
alt.Chart(antibiotics).mark_circle().encode(
    alt.X('Neomycin:Q',
          sort='descending',
          scale=alt.Scale(type='log'),
          title='Neomycin MIC (μg/ml, reverse log scale)'),
    alt.Y('Penicillin:Q',
          sort='descending',
          scale=alt.Scale(type='log'),
          title='Penicillin MIC (μg/ml, reverse log scale)')
)

_Olhando para o gráfico acima, podemos observar uma resposta mais diferenciada: algumas bactérias respondem bem à neomicina mas não à penicilina, e vice-versa!_

Embora este gráfico seja útil, podemos melhorá-lo. Os eixos x e y usam as mesmas unidades, mas têm extensões diferentes (a largura do gráfico é maior que a altura) e domínios diferentes (0,001 a 100 para o eixo x e 0,001 a 1.000 para o eixo y).

Desta forma, vamos ajustar os eixos: podemos adicionar definições explícitas de largura (`width`) e altura (`height`) para o gráfico e especificar domínios correspondentes utilizando a propriedade de escala `domain`.

In [4]:
alt.Chart(antibiotics).mark_circle().encode(
    alt.X('Neomycin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          title='Neomycin MIC (μg/ml, reverse log scale)'),
    alt.Y('Penicillin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          title='Penicillin MIC (μg/ml, reverse log scale)')
).properties(width=250, height=250)

_A trama resultante fica mais equilibrada e menos sujeita a erros de interpretação sutis!_

No entanto, as linhas de grade agora são bastante densas. Se quisermos remover completamente as linhas de grade, podemos adicionar `grid=False` ao atributo do eixo (`axis`). Mas e se, em vez disso, quisermos reduzir o número de marcas de seleção, por exemplo, incluindo apenas linhas de grade para cada ordem de grandeza?

Para alterar o número de ticks, podemos especificar uma propriedade `tickCount` de destino para um objeto `Axis`. A propriedade `tickCount` é tratada como uma _sugestão_ para o Altair, a ser considerada juntamente com outros aspectos, como a utilização de intervalos agradáveis e de fácil utilização. Podemos não obter _exatamente_ o número de marcas de escala que solicitamos, mas devemos obter algo próximo.

In [5]:
alt.Chart(antibiotics).mark_circle().encode(
    alt.X('Neomycin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          axis=alt.Axis(tickCount=5),
          title='Neomycin MIC (μg/ml, reverse log scale)'),
    alt.Y('Penicillin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          axis=alt.Axis(tickCount=5),
          title='Penicillin MIC (μg/ml, reverse log scale)')
).properties(width=250, height=250)

Ao definir o `tickCount` para 5, obtemos o efeito pretendido.

Os pontos do nosso gráfico de dispersão parecem um pouco pequenos. Vamos alterar o tamanho definindo a propriedade `size` dentro da marca circular (`mark_circle`). Este valor de tamanho é a _área_ da marca em pixéis.

In [6]:
alt.Chart(antibiotics).mark_circle(size=80).encode(
    alt.X('Neomycin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          axis=alt.Axis(tickCount=5),
          title='Neomycin MIC (μg/ml, reverse log scale)'),
    alt.Y('Penicillin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          axis=alt.Axis(tickCount=5),
          title='Penicillin MIC (μg/ml, reverse log scale)'),
).properties(width=250, height=250)

Neste caso, definimos a área da marca circular para 80 píxeis. _Ajuste o valor como achar melhor!_

## Configurando legendas de cores

### Cor pela coloração de Gram

_Vimos acima que a neomicina é mais eficaz para algumas bactérias, enquanto a penicilina é mais eficaz para outras. Mas como é que podemos saber qual o antibiótico utilizar se não conhecermos as espécies específicas de bactérias? A coloração de Gram serve como um diagnóstico para discriminar as classes de bactérias!_

Vamos codificar a coloração de Gram (`Gram_Staining`) no canal de cor (`Color`) como um tipo de dados nominal:

In [7]:
alt.Chart(antibiotics).mark_circle(size=80).encode(
    alt.X('Neomycin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          axis=alt.Axis(tickCount=5),
          title='Neomycin MIC (μg/ml, reverse log scale)'),
    alt.Y('Penicillin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          axis=alt.Axis(tickCount=5),
          title='Penicillin MIC (μg/ml, reverse log scale)'),
    alt.Color('Gram_Staining:N')
).properties(width=250, height=250)

_Podemos ver que as bactérias Gram-positivas parecem ser mais suscetíveis à penicilina, enquanto a neomicina é mais eficaz para as bactérias Gram-negativas!_

O esquema de cores acima foi escolhido automaticamente para fornecer cores visualmente distinguíveis para comparações nominais (iguais ou não iguais). No entanto, podemos querer personalizar as cores utilizadas. Neste caso, a coloração de Gram resulta em [colorações físicas distintas: rosa para Gram-negativos e roxo para Gram-positivos](https://en.wikipedia.org/wiki/Gram_stain#/media/File:Gram_stain_01.jpg).

Vamos utilizar essas cores especificando um mapeamento de escala explícito do domínio (`domain`) de dados para o intervalo (`range`) de cores:

In [8]:
alt.Chart(antibiotics).mark_circle(size=80).encode(
    alt.X('Neomycin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          axis=alt.Axis(tickCount=5),
          title='Neomycin MIC (μg/ml, reverse log scale)'),
    alt.Y('Penicillin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          axis=alt.Axis(tickCount=5),
          title='Penicillin MIC (μg/ml, reverse log scale)'),
    alt.Color('Gram_Staining:N',
          scale=alt.Scale(domain=['negative', 'positive'], range=['hotpink', 'purple'])
    )
).properties(width=250, height=250)

Por padrão, as legendas são colocadas no lado direito do gráfico. Semelhante aos eixos, podemos mudar a orientação da legenda usando o parâmetro `orient`:

In [9]:
alt.Chart(antibiotics).mark_circle(size=80).encode(
    alt.X('Neomycin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          axis=alt.Axis(tickCount=5),
          title='Neomycin MIC (μg/ml, reverse log scale)'),
    alt.Y('Penicillin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          axis=alt.Axis(tickCount=5),
          title='Penicillin MIC (μg/ml, reverse log scale)'),
    alt.Color('Gram_Staining:N',
          scale=alt.Scale(domain=['negative', 'positive'], range=['hotpink', 'purple']),
          legend=alt.Legend(orient='left')
    )
).properties(width=250, height=250)

Também podemos remover uma legenda completamente especificando `legend=None`:

In [10]:
alt.Chart(antibiotics).mark_circle(size=80).encode(
    alt.X('Neomycin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          axis=alt.Axis(tickCount=5),
          title='Neomycin MIC (μg/ml, reverse log scale)'),
    alt.Y('Penicillin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          axis=alt.Axis(tickCount=5),
          title='Penicillin MIC (μg/ml, reverse log scale)'),
    alt.Color('Gram_Staining:N',
          scale=alt.Scale(domain=['negative', 'positive'], range=['hotpink', 'purple']),
          legend=None
    )
).properties(width=250, height=250)