알테어를 활용한 탐색적 데이터 시각화
===

(Explorative Data Visualization with Altair)
===

![altair](https://user-images.githubusercontent.com/10287629/138803189-907e3229-ba81-49c1-be97-0df36a01f013.png)

<div style="page-break-after: always;"></div>

# 4장. 눈금, 축 및 범례

- 데이터 시각화에서 핵심은 시각적 인코딩이다.
  - 시각적 인코딩이란 데이터를 (위치, 크기, 모양 및 색상과 같은) 시각적 변수에 매핑하는 것이다. 
  - 실제로 이러한 매핑을 담당하는 일꾼은 *눈금의 축척*(*scale*)이다. 
  - 눈금 축척, 즉 스케일이란 데이터 값을 입력하면 (픽셀 위치나 RGB 색상과 같은) 시각적 값을 반환하는 함수이다. 
    이를 *스케일 도메인*(*sclae domain*)을 입력하면 *스케일 범위*(*scale range*)를 반환하는 함수라고 표현한다. 
- 전달하려는 의미를 파악할 수 없는 시각화라면 쓸모가 없다. 
  - 차트에는 그래픽적인 마크와는 별도로 아래 사항이 필요하며, 독자는 이들을 활용하여 그래픽을 해석한다.  
    - 참조할 수 있는 요소 
    - 해석에 관한 지침      
  - 다음과 같은 지침은 효과적인 데이터 시각화를 위한 불성실한 영웅들이다.
    - (공간적 범위로 눈금을 시각화하는) 축
    - (색상, 크기 또는 모양의 범위로 스케일을 시각화하는) 법례 
- 본 장에서는 다음과 같은 알테어 옵션들을 (항생제 약품의 효과성과 관련하여) 살펴보자. 
  - 스케일 매핑 
  - 축
  - 범례

- _이 노트북은 [data visualization curriculum](https://github.com/uwdata/visualization-curriculum)의 일부이다._

In [1]:
import pandas as pd
import altair as alt

## 1. 항생제 데이터

- 제2차 세계 대전 이후 항생제(antibiotics)는 "경이로운 약품"으로 간주되었는데,  
  이전까지는 다루기 힘든 병을 쉽게 치료할 수 있었기 때문이다. 
- 어떤 약품이 어느 세균(bacteria) 감염에 가장 효과적인지를 알기 위하여,  
  16 종 세균에 대한 가장 인기 높은 3 종 항생제의 효능 데이터가 수집되어 있다. 

- [vega-datasets collection](https://github.com/vega/vega-datasets)에서 제공되는 항생제 데이터 세트를 사용할 예정이다.  
  아래 예제에서는 데이터에 관한 URL을 알테어에 직접 전달할 것이다. 

In [2]:
from vega_datasets import data
antibiotics = data.burtin.url

- 데이터 집합 전체를 보고 사용 가능한 필드를 파악하기 위하여  
  우선 데이터를 판다스 데이터프레임으로 적재해 보자.

In [3]:
pd.read_json(antibiotics)

Unnamed: 0,Bacteria,Penicillin,Streptomycin,Neomycin,Gram_Staining,Genus
0,Aerobacter aerogenes,870.0,1.0,1.6,negative,other
1,Bacillus anthracis,0.001,0.01,0.007,positive,other
2,Brucella abortus,1.0,2.0,0.02,negative,other
3,Diplococcus pneumoniae,0.005,11.0,10.0,positive,other
4,Escherichia coli,100.0,0.4,0.1,negative,other
5,Klebsiella pneumoniae,850.0,1.2,1.0,negative,other
6,Mycobacterium tuberculosis,800.0,5.0,2.0,negative,other
7,Proteus vulgaris,3.0,0.1,0.1,negative,other
8,Pseudomonas aeruginosa,850.0,2.0,0.4,negative,other
9,Salmonella (Eberthella) typhosa,1.0,0.4,0.008,negative,Salmonella


- 표에 보이는 수치 값은 최소 억제 농도([minimum inhibitory concentration (MIC)](https://m.blog.naver.com/sanigen/221216744260))이다.  
  - 제약에서 항균력을 측정하는 가장 기초적인 지표로서 단위는 밀리미터당 마이크로그램이다.  
  - MIC 수치는 세균의 가시적 성장을 방지하는 화학물질의 최소 농도를 의미하며,  
    특정 약품에 대한 이 수치가 작을수록 효능이 좋다고 볼 수 있다. 
- 그람 염색([Gram staining](https://ko.wikipedia.org/wiki/%EA%B7%B8%EB%9E%8C_%EC%97%BC%EC%83%89))에 관한 세균의 반응에 따라서 세균을 분류할 수 있다. 그람 염색에 의하여,   
  - 보라색으로 염색되는 세균은 (페니실린으로 치료가 가능한) 그람 양성(positive)균이라 부르고,  
  - 붉은색으로 염색되는 세균은 (페니실린으로 치료가 어려운) 그람 음성(negative)균으로 부른다. 
- 이 데이터 세트의 다양한 시각화를 검토할 때 스스로에게 물어보라:  
  - 항생제의 상대적 효과에 대해 무엇을 배울 수 있을까? 
  - 세균의 항생제 반응을 바탕으로 세균의 종(species)에 대해 무엇을 배울 수 있을까? 

## 2. 눈금 및 축 설정

### 2.1 항생제 내성 시각화: 눈금 유형 조정

- 네오마이신(Neomycin)에 대한 MIC 수치로 간단한 점 플롯을 시각화해 보자.

In [4]:
alt.Chart(antibiotics).mark_circle().encode(
    alt.X('Neomycin:Q')
)

- _네오마이신의 MIC 수치가 대부분 왼쪽에 모여 있는데, 일부 이상치가 오른쪽에 보인다._ 
- 기본적으로 알테어는 도메인 값(MIC)과 범위 값(픽셀) 사이에서 선형 매핑(`linear` mapping)을 사용한다.  
  데이터에 대한 개요를 더 잘 파악하기 위해서 다른 척도 변환(scale transformation)을 적용할 수 있다.

- 눈금 유형을 변경하려면,  
  `alt.Scale` 메소드와 `type` 인자를 사용하여 `scale` 속성을 설정한다. 
- 다음은 제곱근(`sqrt`) 척도 유형을 사용한 결과이다.  
  픽셀 범위의 거리는 데이터 도메인 거리의 제곱근으로 처리된다. 

In [5]:
alt.Chart(antibiotics).mark_circle().encode(
    alt.X('Neomycin:Q',
          scale=alt.Scale(type='sqrt'))
)

- x-축의 눈금 간격이 등간격이 아니고,  
  제곱근 간격으로 처리된 축척으로 변경되었다.  
  _왼쪽의 점들에 대한 구별이 쉬워졌기는 했지만,  
  여전히 우측으로 긴 꼬리를 형성하고 있다._ 

- 제곱근 축척 눈금을 로그 축척 눈금([logarithmic scale](https://en.wikipedia.org/wiki/Logarithmic_scale))인 `log`로 변경해 보자. 

In [6]:
alt.Chart(antibiotics).mark_circle().encode(
    alt.X('Neomycin:Q',
          scale=alt.Scale(type='log'))
)

- 눈금 간격은 1/1000, 1/100, 1/10, 1, 10, 100 등의 눈금이  
  등간격으로 처리되는 로그 눈금으로 처리되었다.  
- 데이터들이 훨씬 더 고르게 분포되고,  
  세균마다 필요한 농도가 크게 다르다는 것을 확인할 수 있다.

- 표준적인 선형 축척에서는,  
  데이터 도메인에서의 10단위 차이가 시각적 픽셀 거리 10단위와 일치한다. 
- 로그 변환에서는 `log(u) + log(v) = log(u*v)`와 같은 방식으로  
  곱셈과 덧셈 간에 대응이 가능하다. 
  - 결과적으로 (대수의 밑이 10인) 로그 눈금에서는  
    시각적인 10단위의 거리는 데이터 도메인에서 10배 단위로 처리된다. 
  - `log` 스케일에서는 기본적으로 대수의 밑을 10으로 적용하지만,  
    스케일에 대한 `base` 인자를 통해 변경이 가능하다. 

### 2.2 축 스타일 지정

- 낮은 복용량은 더 높은 효과를 나타낸다. 
  - 그러나 일부 사람들은 차트 내에서 "더 나은" 값이 "오른쪽 상단"이 될 것으로 기대할 수 있다. 
  - 이 관습에 부합하고 싶다면 축을 반전시켜 "효과성"을 역 MIC 척도로 인코딩할 수 있다.
  - 이렇게 하기 위하여, `sort` 속성을 `'descending'`으로 인코딩한다. 

In [7]:
alt.Chart(antibiotics).mark_circle().encode(
    alt.X('Neomycin:Q',
          sort='descending',                  # 작은 값이 x-축 오른쪽에 위치하도록 
          scale=alt.Scale(type='log'))
)

- _불행히도 축은 약간 혼란스러워지기 시작하고 있다:  
  로그 척도와 역방향 데이터 플롯을 동시에 적용하고 있으며, 단위가 무엇인지 명확하게 나타내고 있지 않다!_
- 보다 유익한 축 제목을 추가하자.  
  원하는 제목 텍스트를 제공하기 위해 인코딩의 제목 `title` 속성을 사용할 것이다.

In [8]:
alt.Chart(antibiotics).mark_circle().encode(
    alt.X('Neomycin:Q',
          sort='descending',
          scale=alt.Scale(type='log'),
          title='Neomycin MIC (μg/ml, reverse log scale)')  # 축 제목 
)

- 훨씬 나아졌다!
- 기본적으로 알테어는 차트 하단을 따라 x축을 배치한다.  
  이러한 기본값을 변경하려면 `orient='top`으로 축 속성을 추가할 수 있다.

In [9]:
alt.Chart(antibiotics).mark_circle().encode(
    alt.X('Neomycin:Q',
          sort='descending',
          scale=alt.Scale(type='log'),
          axis=alt.Axis(orient='top'),                      # x-축을 상단으로 이동
          title='Neomycin MIC (μg/ml, reverse log scale)')
)

- 이와 유사하게 y축은 좌측 `'left'`에 존재하지만 우측 `'right'`로 설정할 수 있다.


### 2.3 항생제 비교: 그리드 라인, 눈금 개수 및 크기 조절

- _네오마이신은 스트렙토마이신과 페니실린과 같은 다른 항생제와 비교하여 어떤가?_
- 네오마이신에 대한 x축 설계와 동일한 방식으로   
  또 다른 하나의 항생제에 대해서 y축 인코딩을 추가하면,  
  다음과 같은 산점도를 만들 수 있다.

In [10]:
alt.Chart(antibiotics).mark_circle().encode(
    alt.X('Neomycin:Q',
          sort='descending',
          scale=alt.Scale(type='log'),
          title='Neomycin MIC (μg/ml, reverse log scale)'),
    alt.Y('Streptomycin:Q',
          sort='descending',
          scale=alt.Scale(type='log'),
          title='Streptomycin MIC (μg/ml, reverse log scale)')
)

- 네오마이신과 스트렙토마이신은 강력한 상관관계(highly correlated)가 있어 보인다.  
  박테리아 변종이 두 항생제에 유사하게 반응하기 때문이다. 
- 이번에는 네오마이신과 페니실린을 비교해보자

In [11]:
alt.Chart(antibiotics).mark_circle().encode(
    alt.X('Neomycin:Q',
          sort='descending',
          scale=alt.Scale(type='log'),
          title='Neomycin MIC (μg/ml, reverse log scale)'),
    alt.Y('Penicillin:Q',
          sort='descending',
          scale=alt.Scale(type='log'),
          title='Penicillin MIC (μg/ml, reverse log scale)')
)

- _이번에는 더 차별화된 반응을 볼 수 있다:  
  어떤 박테리아는 네오마이신에 잘 반응하지만 페니실린에는 반응하지 않으며, 그 반대의 경우도 마찬가지다!_
- 이 시각화가 유용하지만, 더 좋게 만들 수 있다.  
  - x축과 y축은 동일한 단위를 사용하지만, 
  - 범위(도표 폭이 높이보다 크다)가 다르고
  - 도메인(x축의 경우 0.001 ~ 100, y축의 경우 0.001 ~ 1,000)이 다르다.
- 축을 통일하자: 
  - 차트에 대해 명시적인 폭 `width`와 높이 `height`를 설정하고,  
  - 스케일에 대한 `domain` 속성을 사용하여 대응되는 도메인을 지정할 수 있다.

In [12]:
alt.Chart(antibiotics).mark_circle().encode(
    alt.X('Neomycin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),  # 도메인 설정
          title='Neomycin MIC (μg/ml, reverse log scale)'),
    alt.Y('Penicillin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),  # 도메인 설정
          title='Penicillin MIC (μg/ml, reverse log scale)')
).properties(width=250, height=250)                           # 차트의 폭과 높이 설정

- _시각화 결과는 균형이 개선되었고, 미묘한 오해를 줄여준다!_
- 그렇지만, 격자선의 밀도는 다소 높다. 
  - 그리드 선을 모두 제거하려면 축 `axis` 속성에 `grid=False`을 추가할 수 있다.
  - 대신 눈금 마크의 수를 줄인다면 어떨까? 예를 들어, 10배에 해당하는 그리드 라인만 포함하면 어떨까?
- 눈금의 수를 변경하려면 축 `Axis` 객체에 대한 `tickCount` 속성을 지정한다. 
  - `tickCount`는 알테어에 대한 *제안*으로 취급되어, 다른 측면과 함께 종합적으로 고려된다. 
  - 우리가 요청한 눈금 마크 수를 정확하게 얻어 내지는 못할 수도 있지만, 가까이 접근해야 한다.

In [13]:
alt.Chart(antibiotics).mark_circle().encode(
    alt.X('Neomycin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          axis=alt.Axis(tickCount=5),                         # 눈금 수를 제안
          title='Neomycin MIC (μg/ml, reverse log scale)'),
    alt.Y('Penicillin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          axis=alt.Axis(tickCount=5),                         # 눈금 수를 제안
          title='Penicillin MIC (μg/ml, reverse log scale)')
).properties(width=250, height=250)

- `tickCount`를 5로 설정하여 원하는 효과를 얻었다.

- 산점도에서 점이 약간 작게 느껴진다. 
  - 원 마크의 크기 `size` 속성을 설정하여 기본 크기를 변경하자. 
  - 이 크기 값은 픽셀 단위로 지정하는 마크의 *면적*이다. 

In [14]:
alt.Chart(antibiotics).mark_circle(size=80).encode(            # circle 마크의 면적을 size로 지정    
    alt.X('Neomycin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          axis=alt.Axis(tickCount=5),
          title='Neomycin MIC (μg/ml, reverse log scale)'),
    alt.Y('Penicillin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          axis=alt.Axis(tickCount=5),
          title='Penicillin MIC (μg/ml, reverse log scale)'), 
).properties(width=250, height=250)

- 여기서는 원(circle) 마크의 영역을 80 픽셀로 설정했다. _적합한지 확인하면서 값을 더 조정해 보라!_


## 3. 색상 범례 설정

### 3.1 그람 염색에 따른 색상

- 위에서는 네오마이신이 어떤 세균에는 더 효과적인 반면, 페니실린은 다른 세균에 더 효과적이라는 것을 보았다. 
- 하지만 어느 세균 종인지 모른다면 어떤 항생제를 사용할지 알기 어렵다. 
- 그램 염색은 세균의 종류를 진단하는 역할을 한다!
- 색상 `color` 채널에서 그람 염색 `Gram_Staining`을 명목 데이터 유형으로 인코딩하자.

In [15]:
alt.Chart(antibiotics).mark_circle(size=80).encode(
    alt.X('Neomycin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          axis=alt.Axis(tickCount=5),
          title='Neomycin MIC (μg/ml, reverse log scale)'),
    alt.Y('Penicillin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          axis=alt.Axis(tickCount=5),
          title='Penicillin MIC (μg/ml, reverse log scale)'),
    alt.Color('Gram_Staining:N')                               # `Gram_Staining` 필드를 color로 인코딩
).properties(width=250, height=250)

- _그람 양성 세균은 페니실린에 가장 취약해 보이는 반면,  
  네오마이신은 그람 음성 세균에 더 효과적이라는 것을 알 수 있다!_

- 위에서 색상 구성표는 자동적으로 선택되었는데, 명목형 값을 쉽게 식별할 수 있는 색상으로 구성되었다.  
  - 하지만, 색상을 맞춤형으로 정의하고 싶을 수도 있다. 
  - 그람 염색 검사법에서 그람 음성은 분홍색으로, 그람 양성은 보라색으로 표시된다.
    <img src="https://upload.wikimedia.org/wikipedia/commons/thumb/8/8f/Gram_stain_01.jpg/1024px-Gram_stain_01.jpg" width="25%">
    출처: https://en.wikipedia.org/wiki/Gram_stain
- 색상을 위와 같이 처리하려면,  
  `color` 채널을 `Gram_Staining`으로 인코딩할 때,  
  `scale` 인수를 써서 데이터 `domain`을 색상의 `range`로 연결한다.  

In [16]:
alt.Chart(antibiotics).mark_circle(size=80).encode(
    alt.X('Neomycin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          axis=alt.Axis(tickCount=5),
          title='Neomycin MIC (μg/ml, reverse log scale)'),
    alt.Y('Penicillin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          axis=alt.Axis(tickCount=5),
          title='Penicillin MIC (μg/ml, reverse log scale)'),
    alt.Color('Gram_Staining:N',
          scale=alt.Scale(domain=['negative', 'positive'], range=['hotpink', 'purple'])  # 색상 맞춤형 지정
    )
).properties(width=250, height=250)

- 기본적으로 범례는 차트의 오른쪽에 배치된다.  
  축과 유사하게, 우리는 `orient` 인수를 사용하여 범례 위치를 변경할 수 있다.

In [17]:
alt.Chart(antibiotics).mark_circle(size=80).encode(
    alt.X('Neomycin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          axis=alt.Axis(tickCount=5),
          title='Neomycin MIC (μg/ml, reverse log scale)'),
    alt.Y('Penicillin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          axis=alt.Axis(tickCount=5),
          title='Penicillin MIC (μg/ml, reverse log scale)'),
    alt.Color('Gram_Staining:N',
          scale=alt.Scale(domain=['negative', 'positive'], range=['hotpink', 'purple']),
          legend=alt.Legend(orient='left')                                                 # 범례 위치 지정
    )
).properties(width=250, height=250)

- 범례를 아예 없애려면, `legend=None`으로 지정할 수 있다. 

In [18]:
alt.Chart(antibiotics).mark_circle(size=80).encode(
    alt.X('Neomycin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          axis=alt.Axis(tickCount=5),
          title='Neomycin MIC (μg/ml, reverse log scale)'),
    alt.Y('Penicillin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          axis=alt.Axis(tickCount=5),
          title='Penicillin MIC (μg/ml, reverse log scale)'),
    alt.Color('Gram_Staining:N',
          scale=alt.Scale(domain=['negative', 'positive'], range=['hotpink', 'purple']),
          legend=None                                                                     # 범례 삭제
    )
).properties(width=250, height=250)

### 3.2 종에 따른 색상
  
- 항생제 반응에 대한 산점도에서 각 점이 어떤 세균인지 확인하고 싶다. 
- `color` 채널을 사용하여 명목형인 `Bacteria` 필드를 인코딩하자.

In [19]:
alt.Chart(antibiotics).mark_circle(size=80).encode(
    alt.X('Neomycin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          axis=alt.Axis(tickCount=5),
          title='Neomycin MIC (μg/ml, reverse log scale)'),
    alt.Y('Penicillin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          axis=alt.Axis(tickCount=5),
          title='Penicillin MIC (μg/ml, reverse log scale)'),
    alt.Color('Bacteria:N')                                    # `Bacteria` 필드를 color 채널로 인코드
).properties(width=250, height=250)

- 결과는 다소 혼란스럽다.  
  세균 종의 개수가 (알테어가 명목형 값에 대하여 기본으로 제공하는)  
  10개 색상보다 많기 때문에, 같은 색상이 반복된다. 
- 맞춤형 색상을 사용하기 위해서는 색상 인코딩 `scale` 속성을 변경해야 한다.  
  - 한 가지 선택사항은 그람 염색에 대해 앞에서 처리한 바와 같이,  
    데이터 값마다 정확한 색상을 매핑하기 위해서  
    명시적인 척도의 `domain`과 `range` 값을 지정하는 것이다. 
  - 또 다른 선택사항은 대체 색상표를 사용하는 것이다. 알테어에는 내장 색상 구성표가 다양하게 제공된다.
    전체적인 목록은 [Vega color scheme documentation](https://vega.github.io/vega/docs/schemes/#reference)에서 확인하라. 
- 여기서는 내장된 20-색상표 `tableau20`를 `color` 채널의 `scale` 인자에 대하여 `scheme` 값으로 지정하자. 

In [20]:
alt.Chart(antibiotics).mark_circle(size=80).encode(
    alt.X('Neomycin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          axis=alt.Axis(tickCount=5),
          title='Neomycin MIC (μg/ml, reverse log scale)'),
    alt.Y('Penicillin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          axis=alt.Axis(tickCount=5),
          title='Penicillin MIC (μg/ml, reverse log scale)'),
    alt.Color('Bacteria:N',
          scale=alt.Scale(scheme='tableau20'))                 # color 채널의 scale 인자에 대하여 scheme 값을 설정
).properties(width=250, height=250)

- 각각의 박테리아에 대해 독특한 색깔로 시각화 했지만, 차트는 여전히 엉망이다. 
  - 무엇보다도 동일한 속에 속하는 박테리아에 대하여 전혀 고려하지 않고 있다. 
  - 위 차트에서 두 개의 다른 살모넬라 변종은 생물학적 사촌임에도 불구하고 매우 다른 색조(암청색과 분홍색)를 가지고 있다.
- 다른 색상표를 시도하기 위해, 데이터 유형을 명목형에서 서수형으로 변경할 수도 있다.  
  기본 서수형 색상표는 밝음에서 어둠으로 확대되는 파란색 음영을 사용한다.


In [21]:
alt.Chart(antibiotics).mark_circle(size=80).encode(
    alt.X('Neomycin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          axis=alt.Axis(tickCount=5),
          title='Neomycin MIC (μg/ml, reverse log scale)'),
    alt.Y('Penicillin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          axis=alt.Axis(tickCount=5),
          title='Penicillin MIC (μg/ml, reverse log scale)'),
    alt.Color('Bacteria:O')                                    # 서수형으로 변경
).properties(width=250, height=250)

- 그런데 이러한 파란색 음영의 일부는 구별이 쉽지 않다.  
- 좀 더 차별화된 색채를 위해 기본 `blues`의 대안을 실험할 수 있다.  
  `viridis` 색상표는 색조와 휘도를 모두 서서히 증가시킨다.


In [22]:
alt.Chart(antibiotics).mark_circle(size=80).encode(
    alt.X('Neomycin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          axis=alt.Axis(tickCount=5),
          title='Neomycin MIC (μg/ml, reverse log scale)'),
    alt.Y('Penicillin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          axis=alt.Axis(tickCount=5),
          title='Penicillin MIC (μg/ml, reverse log scale)'),
    alt.Color('Bacteria:O',
          scale=alt.Scale(scheme='viridis'))                    # viridis 색상표
).properties(width=250, height=250)

- 이전에 비하면, 같은 속 세균이 비슷한 색상을 가지게 되었지만 차트는 여전히 혼란스럽다. 
  - 많은 색깔이 있고, 범례에서 이들을 정확하게 찾아보기 어렵다. 
  - 두 세균이 비슷한 색깔을 가지고 있지만, 속(genus)이 다를 수 있다.

### 3.3 속에 따른 색상

- 세균 대신 속을 따라 색상을 지정해보도록 하자.
  - 미생물에 대한 이명법 규칙에 따르면, 세균 이름은 "속명 + 종명"의 형태이다. 
  - 세균 이름을 단어로 분할하여 배열에 저장한 후, 첫 번째 단어를 취하는 `calculate` 변환을 추가한다. 
  - 그런 다음 `tableau20` 색상표를 사용하여 결과적인 속 `Genus` 필드를 인코딩할 수 있다.
  - 항생제 데이터 세트에는 미리 계산된 `Genus` 필드가 포함되어 있지만,  
    알테어의 데이터 변환을 더 탐구하기 위해 여기서는 이를 무시한다.

In [23]:
pd.read_json(antibiotics).sample(10)

Unnamed: 0,Bacteria,Penicillin,Streptomycin,Neomycin,Gram_Staining,Genus
1,Bacillus anthracis,0.001,0.01,0.007,positive,other
10,Salmonella schottmuelleri,10.0,0.8,0.09,negative,Salmonella
5,Klebsiella pneumoniae,850.0,1.2,1.0,negative,other
2,Brucella abortus,1.0,2.0,0.02,negative,other
8,Pseudomonas aeruginosa,850.0,2.0,0.4,negative,other
12,Staphylococcus aureus,0.03,0.03,0.001,positive,Staphylococcus
6,Mycobacterium tuberculosis,800.0,5.0,2.0,negative,other
3,Diplococcus pneumoniae,0.005,11.0,10.0,positive,other
11,Staphylococcus albus,0.007,0.1,0.001,positive,Staphylococcus
0,Aerobacter aerogenes,870.0,1.0,1.6,negative,other


In [24]:
alt.Chart(antibiotics).mark_circle(size=80).transform_calculate(  # 계산 변환을 추가
    Genus='split(datum.Bacteria, " ")[0]'                         # 세균 이름에서 앞의 단어를 속으로 처리
).encode(
    alt.X('Neomycin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          axis=alt.Axis(tickCount=5),
          title='Neomycin MIC (μg/ml, reverse log scale)'),
    alt.Y('Penicillin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          axis=alt.Axis(tickCount=5),
          title='Penicillin MIC (μg/ml, reverse log scale)'),
    alt.Color('Genus:N',                                          # Genus 필드를 color로 인코딩
          scale=alt.Scale(scheme='tableau20'))                    # 색상표 지정
).properties(width=250, height=250)

- 데이터가 속별로 더 잘 분리되어 있지만, 색상의 불협화음이 거슬린다.
  - 이 차트를 자세히 살펴보면, 살모넬라균, 포도상구균, 스트렙토코쿠스 등처럼 속이 같은 세균이 극소수에 불과하다. 
  - 집중적인 비교를 위하여, 속이 중복되는 값에 대해서만 색을 추가할 수 있다.
- 다른 `calculate`  변환을 하나 더 추가하여  
  속 이름이 앞서 언급한 3개 속에 해당되면 속 이름을 그대로 유지하되, 아니면 모두 "Other" 값으로 처리해 버리자. 
- 그리고 맞춤형 색상 인코딩을 추가하고, 색상 인코딩의 `scale` 인수를 사용하여  
  앞서 언급한 3개 속과 "Other" 값의 `domain`에 대하여  
  명시적 색상 `range`를 지정하자. 

In [25]:
alt.Chart(antibiotics).mark_circle(size=80).transform_calculate(
  Split='split(datum.Bacteria, " ")[0]'                                                                         # 속 이름 추출
).transform_calculate(
  Genus='indexof(["Salmonella", "Staphylococcus", "Streptococcus"], datum.Split) >= 0 ? datum.Split : "Other"'  # 4개 속으로 정리
).encode(
    alt.X('Neomycin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          axis=alt.Axis(tickCount=5),
          title='Neomycin MIC (μg/ml, reverse log scale)'),
    alt.Y('Penicillin:Q',
          sort='descending',
          scale=alt.Scale(type='log', domain=[0.001, 1000]),
          axis=alt.Axis(tickCount=5),
          title='Penicillin MIC (μg/ml, reverse log scale)'),
    alt.Color('Genus:N',
          scale=alt.Scale(
            domain=['Salmonella', 'Staphylococcus', 'Streptococcus', 'Other'],                                  # 4개 속 domain 
            range=['rgb(76,120,168)', 'rgb(84,162,75)', 'rgb(228,87,86)', 'rgb(121,112,110)']                   # 4개 색상 range
          ))
).properties(width=250, height=250)

- 축과 범례에 대한 맞춤형 설정을 통하여, 효과적으로 정보를 전달하는 시각화 결과를 완성하였다.  
  눈길을 끄는 그룹이 있는가?
- 좌측상단 지역에 붉은색 스트렙토코쿠스 세균 군집이 보이는데, 그 옆에는 회색 기타 세균이 보인다.  
  또한 붉은색 스트렙토코쿠스 세균이 우측중단에 그의 "사촌"들과는 멀리 떨어져서 보인다.  
  (유전적으로 유사할 것으로 보이는) 같은 속으로 분류된 세균들이 더 가깝게 그룹화될 것으로 기대할 수 있을까? 
- 이 데이터 세트에는 일부 오류가 포함되어 있다.  
  - 이 데이터 세트에 사용된 종 분류는 1950년대 초반의 연구 결과를 따른 것인데, 이후 과학적 합의가 뒤집혔다. 
  - 좌측상단에 보이는 회색 점이 현재는 (붉은색) 스트렙토코쿠스로 여겨지고 있다. 
  - 그리고 우측중단의 붉은색 점은 더이상 스트렙토코쿠스로 인정되지 않고 있다. 
- 물론 이 데이터 세트에서 이러한 재분류가 완전히 옳다고 할 수는 없다.  
  일부 오류에도 불구하고 여기에는 지난 수십년간 간과되었던 귀중한 생물학적 단서들이 포함되어 있다.  
  시각화는 (적절하게 숙련되고 지적인 열망을 가진) 분석가를 위한 *강력한 탐색 도구*가 될 수 있다. 
- 이 예제는 또한 중요한 교훈을 되새겨 준다:  
  **_언제나 당신의 데이터를 의심해야 한다!_**


### 3.4 항생제 반응에 따른 색상

- 정량적 수치를 인코드하기 위해서도 `color` 채널을 사용할 수 있다.  
  하지만 정량적인 값을 전달하는데 있어서, 색상은 위치나 크기 인코딩만큼 적합하지는 않다. 
- 여기에 각 세균에 대한 페니실린 MIC 값을 열지도(heatmap)으로 시각화한 결과를 제시한다.  
  `rect`마크를 사용하고, MIC 값의 내림차순으로 세균을 정렬하여  
  가장 강력한 세균부터 가장 약한 세균까지를 차례대로 보여 준다. 

In [26]:
alt.Chart(antibiotics).mark_rect().encode(
    alt.Y('Bacteria:N',                                                             # y-축에 세균을 
      sort=alt.EncodingSortField(field='Penicillin', op='max', order='descending')  # 내성이 강한 세균부터 역순으로 인코딩
    ),
    alt.Color('Penicillin:Q')                                                       # 색상을 페니실린에 대한 MIC 값으로 인코딩  
)

- 지금까지 살펴 본 특징들을 결합하여 이 차트를 더욱 개선할 수 있다.  
  - 로그-변환 척도
  - 축 방향의 변경
  - 맞춤형 색상표(`plasma`)
  - 눈금 수 조정
  - 맞춤형 제목 텍스트
  - 축 제목 위치
  - 범례 제목 정렬

In [27]:
alt.Chart(antibiotics).mark_rect().encode(
    alt.Y('Bacteria:N',
      sort=alt.EncodingSortField(field='Penicillin', op='max', order='descending'),  
      axis=alt.Axis(
        orient='right',     # 축 방향(축을 차트의 오른쪽으로)
        titleX=7,           # 축 제목의 x-위치(차트의 오른쪽 7 픽셀)
        titleY=-2,          # 축 제목의 y-위치(차트의 위쪽 2 픽셀)
        titleAlign='left',  # 축 제목 텍스트 정렬
        titleAngle=0        # 제목 (기본) 회전 취소
      )
    ),
    alt.Color('Penicillin:Q',
      scale=alt.Scale(type='log', scheme='plasma', nice=True),  # 로그-변환 척도, 색상표, 반올림(nice)
      legend=alt.Legend(titleOrient='right', tickCount=5),      # 범례 제목 정렬, 눈금 수
      title='Penicillin MIC (μg/ml)'                            # 범례 제목 텍스트 
    )
)

- 또는 축 제목을 모두 제거하고,  
  최상위 수준의 `title` 속성을 사용하여 전체 차트에 대한 제목을 추가할 수 있다.

In [28]:
alt.Chart(antibiotics, title='세균성 균주의 페니실린 저항성').mark_rect().encode(  # 차트 전체 제목
    alt.Y('Bacteria:N',
      sort=alt.EncodingSortField(field='Penicillin', op='max', order='descending'),
      axis=alt.Axis(orient='right', title=None)                 # y-축 제목 삭제                                
    ),
    alt.Color('Penicillin:Q',
      scale=alt.Scale(type='log', scheme='plasma', nice=True),  
      legend=alt.Legend(titleOrient='right', tickCount=5),      # 범례 제목
      title='페니실린 MIC (μg/ml)'
    )
).configure_title(                                              # 차트 제목 설정
  anchor='start', # 제목을 고정하여 좌측 정렬
  offset=5        # 차트로부터 제목까지 오프셋
)

## 4. 요약

- 지금까지 배운 인코딩, 데이터 변환 및 맞춤형 설정을 통합하면,  
  다양한 통계 그래픽을 만들 준비가 되어 있어야 한다.  
  이제 데이터를 탐색하고 의사소통하기 위해 알테어를 일상적으로 사용할 수 있다!
- 이러한 주제에 대하여 흥미를 느끼고 있는가?
  - 알테어 맞춤형 시각화 문서 [Customizing Visualizations](https://altair-viz.github.io/user_guide/customization.html)로 시작하라.
  - 척도 매핑에 관한 보충 자료로서 ["Introducing d3-scale"](https://medium.com/@mbostock/introducing-d3-scale-61980c51545f)를 참고하라. 
  - (알테어와 베가-라이트의 엔진이라 할 수 있는) 베가 라이브러리에서  
    축과 범례의 스타일 지정에 관한 깊이 있는 자료로는  
    ["A Guide to Guides: Axes & Legends in Vega"](https://beta.observablehq.com/@jheer/a-guide-to-guides-axes-legends-in-vega)를 참고하라. 
  - 항생제 데이터 세트의 매력적인 역사에 관해서는  
    [Wainer &amp; Lysen's "That's Funny..."](https://www.americanscientist.org/article/thats-funny)를 참고하라. 