알테어를 활용한 탐색적 데이터 시각화
===

(Explorative Data Visualization with Altair)
===

![altair](https://user-images.githubusercontent.com/10287629/138803189-907e3229-ba81-49c1-be97-0df36a01f013.png)

<div style="page-break-after: always;"></div> 

# 과정 소개

- 명칭: 탐색적 데이터 시각화
- 원저 및 저작권
    - [Visualization Curriculum](https://uwdata.github.io/visualization-curriculum)  
      by Jeffrey Heer, Dominik Moritz, Jake VanderPlas, and Brock Craft © Copyright 2020
    - [https://altair-viz.github.io/altair-tutorial](https://altair-viz.github.io/altair-tutorial)  
      by Jake Vanderplas and Eitan Lees © Copyright 2020
- 편저: [신해웅](mailto://logistex@hywoman.ac.kr)
- 내용
  - Vega-Lite 및 Altair를 사용하는 대화형 노트북 데이터 시각화 커리큘럼이다.
  - [Vega-Lite](https://vega.github.io/vega-lite/)는 상호작용식 데이터 시각화 엔진으로서, JSON 문법을 지원한다.
  - [Altair](https://altair-viz.github.io/)는 파이썬을 위한 선언적 데이터 시각화 라이브러리로서, 베가-라이트를 엔진으로 사용한다.  
- 라이브러리 설치
```shell
$ conda install -c conda-forge altair vega_datasets
```  

<div style="page-break-after: always;"></div> 

## 과정 목차

1. Vega-Lite 및 Altair 소개
2. 자료형, 그래픽 마크 및 시각적 인코딩 채널
3. 데이터 변환
4. 축척, 축 및 범례
5. 다중 뷰 구성
6. 상호작용
7. 지도 시각화
8. Altair 디버깅 지침
<div style="page-break-after: always;"></div> 

# 동기 유발을 위한 데모 (자동차 데이터셋 탐색)
---


- 학습 동기 유발을 위한 데모 튜토리얼이다.  
  - 의도적으로 다양한 개념을 빠르게 소개할 예정이다.  
    예를 들자면,  
    데이터, 표식(mark), 인코딩, 집계(aggregation), 자료형, 선택, ... 등의 개념이다. 
  - 데모 튜토리얼 이후에  
    이들 개념을 개별적으로 상세하게 설명할 예정이다. 
<div style="page-break-after: always;"></div>     

## 1. 수입 및 데이터

- 먼저 [알테어(Altair) 패키지](http://altair-viz.github.io/)를 수입하자: 

In [1]:
import altair as alt

- [베가(vega)_데이터셋 패키지](https://github.com/altair-viz/vega_datasets) 수입을 통해 예제 데이터를 적재하자: 

In [2]:
from vega_datasets import data

cars = data.cars()  # 
cars.sample(10)

Unnamed: 0,Name,Miles_per_Gallon,Cylinders,Displacement,Horsepower,Weight_in_lbs,Acceleration,Year,Origin
69,chevrolet impala,13.0,8,350.0,165.0,4274,12.0,1972-01-01,USA
188,honda civic cvcc,33.0,4,91.0,53.0,1795,17.5,1975-01-01,Japan
63,plymouth cricket,26.0,4,91.0,70.0,1955,20.5,1971-01-01,USA
100,plymouth fury gran sedan,14.0,8,318.0,150.0,4237,14.5,1973-01-01,USA
394,buick century limited,25.0,6,181.0,110.0,2945,16.4,1982-01-01,USA
12,ford torino (sw),,8,351.0,153.0,4034,11.0,1970-01-01,USA
37,toyota corona,25.0,4,113.0,95.0,2228,14.0,1971-01-01,Japan
73,amc ambassador sst,17.0,8,304.0,150.0,3672,11.5,1972-01-01,USA
220,chevy c10,13.0,8,350.0,145.0,4055,12.0,1976-01-01,USA
358,ford escort 4w,34.4,4,98.0,65.0,2045,16.2,1982-01-01,USA


- 모양이 (406, 9)인 데이터프레임이다. 
  - 9개 변수가 열로 기록되어 있다. 
    1. Name: 자동차 명칭
    1. Miles_per_Gallon: 연비 
    1. Cylinders: 엔진 실린더 수, 기통 수
    1. Displacement: (세제곱 인치 단위로 측정한) 엔진 배기량 
    1. Horsepower: 마력 수
    1. Weight_in_lbs: (파운드 단위로 측정한) 무게 
    1. Acceleration: 가속 성능(정지 상태에서 시속 60 마일에 도달할 때까지 걸리는 시간)
    1. Year: 출시 연도
    1. Origin: 원산지
  - 406개 차종이 행으로 등록되어 있다. 
    - 미국산: 62.6%
    - 일본산: 19.5%
    - 유럽산: 18.0%
- 이 [자동차 데이터셋에 대한 탐색 자료](https://deepnote.com/@deepnote/Chart-blocks-cars-dataset-exploration-XZQe1w4QSZiOjU2_O0wjDw)가 꽤 볼 만하다.  
<div style="page-break-after: always;"></div> 

## 2. 다차원 차트

- 알테어를 써서 이 데이터를 탐색할 수 있다. 
- 가장 기본적인 차트는  
  점(point)을 표시(mark)하는 `mark_point()` 메소드로  
  전체 데이터셋의 행을 시각화하는 것이다: 

In [3]:
alt.Chart(cars).mark_point()

- 총 406개 점이 모두 같은 좌표에 표시되는 엉성한 차트로 시각화 된다. 

- 의미있는 시각화를 위해서는,  
  데이터셋의 특정 열을 플롯(plot)의 특정 시각적 요소로 인코드(encode) 해주어야 한다.  
  - 예를 들어서,  
    x 축, y 축, 표식 유형/크기/색상, ... 등을  
    데이터 셋의 어느 열로 처리할 것인지 지정해야 한다. 
  - `encode()` 메소드를 사용해서  
    연비(miles per gallon)를 x 축에 인코드 하자:   

In [4]:
alt.Chart(cars).mark_point().encode(
    x='Miles_per_Gallon'
)

- 조금은 나아졌지만,  
  위와 같은 1차원 차트에 대하여  
  `point` 마커가 최선이라고 할 수는 없다. 
- 대신에 `tick` 마커를 시도해 보자.  
  `mark_point()`를 `mark_tick()`으로 수정하자: 

In [5]:
alt.Chart(cars).mark_tick().encode(
    x='Miles_per_Gallon'
)

- 이번에는 2차원 차트로 확장해 보자.  
  - 이를 위해서는 y 축에 인코드할 열을 지정해야 한다.  
    `Horsepower` 열을 y 축 값으로 지정하자. 
  - 그리고 표식자(marker)를 다시 `point`로 변경하자.  

In [6]:
alt.Chart(cars).mark_point().encode(
    x='Miles_per_Gallon',
    y='Horsepower'
)

<div style="page-break-after: always;"></div> 

## 3 단순한 상호작용 기능

- 알테어 상호작용 기능은 알테어 라이브러리의 가장 멋진 기능 중의 하나이다.  
- 상호작용 기능 중에서 가장 단순한 형태는 차트 이동 및 배율 조정 기능이다. 
- 상호작용 기능을 적용하려면, `interactive()` 메소드를 호출한다. 

In [7]:
alt.Chart(cars).mark_point().encode(
    x='Miles_per_Gallon',
    y='Horsepower'
).interactive()

- 상호작용 기능을 활성화시키면 다음과 같이 사용할 수 있다:  
  - 차트를 클릭하고 드래그하여, 차트 이동이 가능하다. 
  - 배율을 조정하여 차트를 확대/축소 가능하다. 
- 상호작용의 다른 기능에 대해서는 나중에 다시 공부하자.  

<div style="page-break-after: always;"></div> 

## 4. 세번째 차원: 색상

- 2차원 플롯에서는 데이터를 2개 차원으로 인코드 할 수 있다.  
  - 세번째 차원으로 마커 색상을 활용할 수 있다. 
  - 원산지마다 색상을 달리 표시해 보자. 

In [8]:
alt.Chart(cars).mark_point().encode(
    x='Miles_per_Gallon',
    y='Horsepower',
    color='Origin'
)

- 범주형 데이터 값에 대하여 색상을 사용하면, 알테어가 자동적으로 적절한 색상 맵을 지정하여 준다.
- `가속시간`을 `color` 요소로 지정해서,  
  연속형 데이터 값에 대해서는 어떻게 되는지 알아보자.  
  

In [9]:
alt.Chart(cars).mark_point().encode(
    x='Miles_per_Gallon',
    y='Horsepower',
    color='Acceleration'
)

- 연속형 데이터 값을 색상 요소로 지정하면, 단일 색상의 강도로 값을 표시합니다. 

- `기통` 열은 정수인데, 이를 순서가 지정된 범주형 데이터로 해석할 수 있다.  
  이런 경우는 어떻게 처리될까?

In [10]:
alt.Chart(cars).mark_point().encode(
    x='Miles_per_Gallon',
    y='Horsepower',
    color='Cylinders'
)

- `기통` 열에 저장된 값이 정수이기는 하지만, 여전히 수치이므로 연속형 색상으로 처리된다. 

- 이러한 처리 방식을 개선하기 위하여 순서가 지정된(ordinal) 이산형 값으로 처리하도록 지정할 수 있다;  
  "순서 지정된(ordinal)" 또는 "순서 지정된 범주(ordered categories)"라는 의미에서  
  인코드 내역에 `":O"`를 추가 지정한다. 


In [11]:
alt.Chart(cars).mark_point().encode(
    x='Miles_per_Gallon',
    y='Horsepower',
    color='Cylinders:O'                   # 대문자 "O", 소문자는 오류 유발
)

- 순서 지정된 색상 맵으로 이산형 범례가 표시된다. 

<div style="page-break-after: always;"></div> 

## 5. 구간 분할 및 집계

- 구간을 분할(binning)하여 집계(aggregation)하는 작업은 통계에서 자주 사용하는 방식이다.  
  예를 들어서, 연령에 따라서 10대, 20대, ... 등으로 구분하여 집계하는 방식이다.
- `연비`에 대한 1차원 차트로 돌아가 보자: 

In [12]:
alt.Chart(cars).mark_tick().encode(
    x='Miles_per_Gallon',
)

- 이 데이터를 시각화하는 다른 방식은 도수분포도(histogram)이다:  
  - x 축에는 연비를 구간으로 분할하여 표시한다. 
  - y 축에는 연비 구간에 대한 도수(count)를 표시한다.
- 대부분의 시각화 라이브러리에서 이 작업은 `hist()` 메소드로 세부적 처리 방법을 명세해야 한다. 
- 알테어에서는 이러한 구간 분할과 집계 작업을 **선언적(declarative) API**로 처리한다.  
  - `bar` 마커를 사용한다. 
  - x 인코딩을 `alt.X(열이름, bin=True)`로 지정한다.   
  - y 인코딩을 `'count()'`로 지정한다. 

In [13]:
alt.Chart(cars).mark_bar().encode(
    x=alt.X('Miles_per_Gallon', bin=True),
    y='count()'
)

- 구간 분할 방식을 조절하려면, `alt.Bin`을 써서 구간 매개변수를 조정한다. 

In [14]:
alt.Chart(cars).mark_bar().encode(
    x=alt.X('Miles_per_Gallon', bin=alt.Bin(maxbins=30)),  # 최대 구간을 30개로 지정
    y='count()'
)

- `alt.Bin(extent, step)`을 써서 구간 분할 방식을 마음대로 조절할 수도 있다. 

In [15]:
alt.Chart(cars).mark_bar().encode(
    x=alt.X('Miles_per_Gallon', bin=alt.Bin(extent=[8,48], step=1)),  # 최대 구간을 30개로 지정
    y='count()'
)

- (`color`와 같은) 다른 인코딩을 지정하면, 각 구간마다 데이터가 자동적으로 그룹화된다:

In [16]:
alt.Chart(cars).mark_bar().encode(
    x=alt.X('Miles_per_Gallon', bin=alt.Bin(maxbins=30)),
    y='count()',
    color='Origin'
)

- 범주마다 개별적인 플롯으로 복합 차트를 작성하려면, `column` 인코딩을 쓸 수 있다:

In [17]:
alt.Chart(cars).mark_bar().encode(
    x=alt.X('Miles_per_Gallon', bin=alt.Bin(maxbins=30)),
    y='count()',
    color='Origin',
    column='Origin'
)

- 구간 분할 및 집계는 2차원 시각화에서도 사용할 수 있다. 
  - `rect` 마커를 사용한다. 
  - 도수를 시각화하기 위하여, 색상을 사용한다.

In [18]:
alt.Chart(cars).mark_rect().encode(
    x=alt.X('Miles_per_Gallon', bin=True),
    y=alt.Y('Horsepower', bin=True),
    color='count()'
)

- 도수가 아닌 다른 방식으로도 집계가 가능하다.   
  각 구간마다 차량 중량(Weight_in_lbs)의 평균값으로 색상을 표시해 보자:  

In [19]:
alt.Chart(cars).mark_rect().encode(
    x=alt.X('Miles_per_Gallon', bin=True),
    y=alt.Y('Horsepower', bin=True),
    color='mean(Weight_in_lbs)'
)

- 시각화 결과를 다음과 같이 해석할 수 있다. 
  - 연비가 높고, 마력이 작을수록 중량이 가벼운 경향이 있다. 
  - 연비가 낮고, 마력이 클수록 중량이 무거운 경향이 있다. 

<div style="page-break-after: always;"></div> 

## 6. 시계열 및 중첩

- 지금까지는 `date` 열을 무시했는데,  
  시간 흐름에 따른 (연비 특성의) 경향을 파악하는 것이 흥미로울 수 있다. 

In [20]:
alt.Chart(cars).mark_point().encode(
    x='Year',                         
    y='Miles_per_Gallon'
)

- 연도마다 다수 차량이 데이터에 포함되어 있고, 데이터 포인트가 겹치는 현상이 심각하다.  
  개별 x 값마다 평균 값을 꺽은선 `line` 마커로 시각화함으로써 이를 해결할 수 있다. 

In [21]:
alt.Chart(cars).mark_line().encode(
    x='Year',
    y='mean(Miles_per_Gallon)',
)

- 최근 연도일수록 연비 평균값이 추세적으로 개선되는 경향을 확인할 수 있다. 

- 평균값 추정의 신뢰구간(confidence interval)을 오차범위(error band)로 시각화 할 수 있다.
  - `mark_line()`과 `mark_errorband()`를 중첩 시각화
  - `extent='ci'` 옵션을 사용

In [22]:
line = alt.Chart(cars).mark_line().encode(
    x='Year',
    y='mean(Miles_per_Gallon)'
)

band = alt.Chart(cars).mark_errorband(extent='ci').encode(
    x='Year',
    y=alt.Y('Miles_per_Gallon'),
)

band + line

- 신뢰구간의 개념
  ![confidence_interval](https://user-images.githubusercontent.com/10287629/136641626-4ecb987c-b39c-4889-ade6-9a9d748f4de9.png)
  - 90% 신뢰 수준인 경우, z = 1.645
  - 95% 신뢰 수준인 경우, z = 1.96

In [23]:
band + line

- `mark_area()`로 신뢰구간을 면적 차트로 처리해 보자: 
  - 원산지에 따른 색상 구분, 투명 효과
  - 차트 폭 확장, 간결한 축 제목

In [24]:
alt.Chart(cars).mark_area(opacity=0.3).encode(
    x=alt.X('Year', timeUnit='year'),
    y=alt.Y('ci0(Miles_per_Gallon)', axis=alt.Axis(title='Miles per Gallon')),
    y2='ci1(Miles_per_Gallon)',
    color='Origin'
).properties(
    width=800
)

- 통계적 표현의 의미
  - "오차 범위 내에서 앞선다." 
  - "오차 범위 밖에서 뒤진다." 

- 축 제목을 한글로 변경해 보자.

In [25]:
alt.Chart(cars).mark_area(opacity=0.3).encode(
    x=alt.X('Year', timeUnit='year', axis=alt.Axis(title='연도')),
    y=alt.Y('ci0(Miles_per_Gallon)', axis=alt.Axis(title='연비 [마일/갤런]')),
    y2='ci1(Miles_per_Gallon)',
    color=alt.Color('Origin', legend=alt.Legend(title='원산지'))
).properties(
    width=800
)

- 최종적으로, 알테어의 중첩(layering) API를 써서  
  신뢰구간 면적 차트 위에 평균치를 꺽은선 차트로 중첩 시각화 하여 보자.

In [26]:
spread = alt.Chart(cars).mark_area(opacity=0.3).encode(
    x=alt.X('Year', timeUnit='year', axis=alt.Axis(title='연도')),
    y=alt.Y('ci0(Miles_per_Gallon)', axis=alt.Axis(title='연비 [마일/갤런]')),
    y2='ci1(Miles_per_Gallon)',
    color=alt.Color('Origin', legend=alt.Legend(title='원산지'))
).properties(
    width=800
)

lines = alt.Chart(cars).mark_line().encode(
    x=alt.X('Year', timeUnit='year'),
    y='mean(Miles_per_Gallon)',
    color='Origin'
).properties(
    width=800
)

spread + lines

<div style="page-break-after: always;"></div> 

## 7. 상호작용: 선택

- 산점도로 돌아가서 알테어가 제공하는 다른 유형의 상호작용 기능을 살펴보자. 

In [27]:
alt.Chart(cars).mark_point().encode(
    x='Miles_per_Gallon',
    y='Horsepower',
    color='Origin'
)

- 차트 작성 코드 맨 뒤에 `interactive()`를 추가하여 기본적인 상호작용 기능을 활성화 할 수 있었다. 

In [28]:
alt.Chart(cars).mark_point().encode(
    x='Miles_per_Gallon',
    y='Horsepower',
    color='Origin'
).interactive()

- 알테어는 상호작용형 시각화를 위하여 일반적인 `선택(selection)` API를 제공하는데, 여기서는 구간 선택 기능을 활성화 해 보자. 

In [29]:
interval = alt.selection_interval()   # 구간 선택으로 설정

alt.Chart(cars).mark_point().encode(
    x='Miles_per_Gallon',
    y='Horsepower',
    color='Origin'
).add_selection(                      # 선택 기능 활성화  
    interval
)

- 현재로서는 이 선택 기능이 아무 동작도 하지 않고 있는데,  
  선택 여부에 따라서 색상을 조건에 따라 조절할 수 있다. 

In [30]:
interval = alt.selection_interval()

alt.Chart(cars).mark_point().encode(
    x='Miles_per_Gallon',
    y='Horsepower',
    color=alt.condition(interval, 'Origin', alt.value('lightgray'))  # (선택, 선택된 색상, 제외된 색상)
).add_selection(
    interval
)

- 이 선택 기능의 멋진 점은 복합 차트의 어디를 선택하든 *자동적으로 연계*된다는 점이다. 
  - 아래 복합 차트는 두 차트를 수평 배치한 것이다. 
  - 왼쪽이나 오른쪽에서 특정 구간을 선택하면, 다른 쪽도 연계되어 자동 선택된다. 
- 아래 차트에는 툴팁 기능도 활성화 되었다. 

In [31]:
interval = alt.selection_interval()

base = alt.Chart(cars).mark_point().encode(
    y='Horsepower',
    color=alt.condition(interval, 'Origin', alt.value('lightgray')),
    tooltip='Name'
).add_selection(
    interval
)

base.encode(x='Miles_per_Gallon') | base.encode(x='Acceleration')  # 수평 복합 차트

- 선택 기능을 활용하여 더 복잡한 상호작용을 구현할 수 있다.  
  - (수평 배치된) 복합 산점도와 원산지별 도수분포도를 수직 배치한 복합 시각화가 가능하다.  
  - 상단에서 선택된 구간에 연동되어, 도수분포도를 상호작용 방식으로 보여줄 수 있다.  

In [32]:
interval = alt.selection_interval()

base = alt.Chart(cars).mark_point().encode(                                  # 상단 산점도(X 축은 아래에서 별도로 지정)
    y='Horsepower',
    color=alt.condition(interval, 'Origin', alt.value('lightgray')),  
    tooltip='Name'
).properties(
    width=300
).add_selection(
    interval
)

hist = alt.Chart(cars).mark_bar().encode(                                    # 하단 도수분포도
    x='count()',
    y='Origin',
    color='Origin'
).properties(
    width=660,
    height=80
).transform_filter(                                                          # 수직 연동
    interval
)

scatter = base.encode(x='Miles_per_Gallon') | base.encode(x='Acceleration')  # 상단에 수평 배치

scatter & hist                                                               # 하단에 배치

- 선택 기능을 활용하여 더 복잡한 상호작용을 구현할 수 있다.  
  - (수평 배치된) 복합 산점도와 원산지별 도수분포도를 수직 배치한 복합 시각화가 가능하다.  
  - 상단에서 선택된 구간에 연동되어, 도수분포도를 상호작용 방식으로 보여줄 수 있다.  

In [33]:
scatter & hist                                                               # 하단에 배치

- 이번 장에서는 알테어 라이브러리가 제공하는 다양한 기능을 빠르게 살펴 보았다. 
- 다음 장에서는 알테어 라이브러리가 제공하는 다양한 기능을 체계적으로 공부해 보자. 