알테어를 활용한 탐색적 데이터 시각화
===

(Explorative Data Visualization with Altair)
===

- 원저 및 저작권
    - [Visualization Curriculum](https://uwdata.github.io/visualization-curriculum)  
      by Jeffrey Heer, Dominik Moritz, Jake VanderPlas, and Brock Craft © Copyright 2020
    - [https://altair-viz.github.io/altair-tutorial](https://altair-viz.github.io/altair-tutorial)  
      by Jake Vanderplas and Eitan Lees © Copyright 2020
- 편저: [신해웅](mailto://logistex@hywoman.ac.kr)

![altair](https://user-images.githubusercontent.com/10287629/138803189-907e3229-ba81-49c1-be97-0df36a01f013.png)

<div style="page-break-after: always;"></div>

# 1장. Altair 소개

- [Altair](https://altair-viz.github.io/)는 파이썬을 위한 *선언적* 통계 시각화 라이브러리이다.  
  Altair는 광범위한 통계 그래픽을 신속하게 구축할 수 있는  
  강력하고 간결한 시각화 문법을 제공한다.
  
- _이 노트북은 [data visualization curriculum](https://github.com/uwdata/visualization-curriculum)의 일부이다._  

- *선언*은 사용자가 데이터, 그래픽 마크 및 인코딩 채널에 무엇을 포함할지를 지정한다는 의미이다.  
  - "어떻게"라는 시각화 방법을 지정할 필요 없이,  
    "무엇"에 해당하는 *데이터*, *그래픽 마크* 및 *인코딩 채널*만 지정하면 된다.  
  - 핵심 아이디어는 x축, y축, 색상 등과 같은  
    시각적 인코딩 채널과 데이터 필드 간의 링크를 선언하는 것이다. 
  - 플롯의 나머지 세부 정보는 자동적으로 처리된다. 
  - 선언적 플롯 아이디어를 바탕으로  
    간결한 문법을 사용하여 단순하고 정교한 시각화를 만들 수 있다.

- Altair는 [Vega-Lite](https://vega.github.io/vega-lite/)의 대화형 그래픽 고급 문법에 기반을 두고 있다.  
  - Altair는 [JSON(JavaScript Object Notation)](https://en.wikipedia.org/wiki/JSON) 형식으로 Vega-Lite 사양을 생성하는  
    파이썬 [API(Application Programming Interface)](https://en.wikipedia.org/wiki/Application_programming_interface)를 제공한다. 
  - 주피터 노트북, 주피터랩, 코랩과 같은 환경은  
    이 사양을 통하여 웹 브라우저에 직접 렌더링할 수 있다. 
  - Altair와 Vega-Lite의 동기 및 기본 개념에 대해 자세히 알아보려면  
    [OpenVisConf 2017의 Vega-Lite 프레젠테이션 비디오](https://www.youtube.com/watch?v=9uaHRWj04D4)를 참조하라.

- 이 노트북은 Altair에서 시각화를 수행하는 기본적 절차를 안내한다.  
  - 먼저 Altair 패키지와 그 종속성이 설치되어 있는지 확인해야 한다.
  - 자세한 내용은 [Altair 설치 설명서](https://altair-viz.github.io/getting_started/installation.html)를 참조하라. 
  - 아래와 같이 라이브러리와 데이터 세트를 여러분의 가상환경에 설치할 수 있다.
  ```shell
  $ conda install -c conda-forge altair vega_datasets vega
  ```
 <div style="page-break-after: always;"></div> 

## 1. 라이브러리 수입

- 시작하기 위해서,  
  필요한 라이브러리인 데이터프레임용 판다스와  
  시각화를 위한 Altair를 수입해야 한다.

In [1]:
import pandas as pd
import altair as alt

<div style="page-break-after: always;"></div>

## 2. 렌더러

- 프로그래밍 환경에 따라 특정 [Altair를 위한 renderer](https://altair-viz.github.io/user_guide/renderers.html)를 지정해야 할 수도 있다.
  - 직접적으로 인터넷에 연결된 상태에서  
    *Jupyter Notebook*, *JupyterLab*, *Google Colab*을 사용하는 경우라면,  
    아무 작업도 수행할 필요가 없다(기본적으로 올바른 렌더러가 활성화된다).
  - 다른 상황이라면, [Displaying Altair Charts](https://altair-viz.github.io/user_guide/display_frontends.html) 자료를 참고해야 한다.

<div style="page-break-after: always;"></div>

## 3. 데이터

- Altair 데이터는 판다스 데이터프레임을 중심으로 작성된다.  
  - 데이터프레임의 열(column)을 데이터 필드(field)라고 부른다.
  - 데이터프레임에서 열 이름은 Altair 시각화에서 필수적인 부분이다.
- Altair를 사용할 때, 데이터 세트는 다음 3 종으로 처리된다. 
  - 판다스 데이터프레임  
  - 인터넷에서 접근 가능한 데이터 세트의 URL  
  - [vega-datasets](https://github.com/vega/vega-datasets) 저장소에서 제공되는 데이터 세트

In [2]:
from vega_datasets import data  # 베가 데이터 세트를 수입
cars = data.cars()              # 자동차 데이터를 판다스 데이터프레임으로 적재
cars.head()                     

Unnamed: 0,Name,Miles_per_Gallon,Cylinders,Displacement,Horsepower,Weight_in_lbs,Acceleration,Year,Origin
0,chevrolet chevelle malibu,18.0,8,307.0,130.0,3504,12.0,1970-01-01,USA
1,buick skylark 320,15.0,8,350.0,165.0,3693,11.5,1970-01-01,USA
2,plymouth satellite,18.0,8,318.0,150.0,3436,11.0,1970-01-01,USA
3,amc rebel sst,16.0,8,304.0,150.0,3433,12.0,1970-01-01,USA
4,ford torino,17.0,8,302.0,140.0,3449,10.5,1970-01-01,USA


- 베가-데이터셋 저장소에서 제공되는 데이터 세트는 URL도 함께 제공한다. 

In [3]:
data.cars.url

'https://cdn.jsdelivr.net/npm/vega-datasets@v1.29.0/data/cars.json'

- 데이터 세트 URL을 Altair에게 직접 전달할 수 있다.  
  - JSON 및 [CSV](https://en.wikipedia.org/wiki/Comma-separated_values) 형식으로 전달할 수 있다. 
  - 아니면 판다스 데이터프레임 등으로 적재할 수 있다. 

In [4]:
pd.read_json(data.cars.url).head() # URL로부터 JSON 데이터를 읽어서, 데이터프레임으로 적재

Unnamed: 0,Name,Miles_per_Gallon,Cylinders,Displacement,Horsepower,Weight_in_lbs,Acceleration,Year,Origin
0,chevrolet chevelle malibu,18.0,8,307.0,130.0,3504,12.0,1970-01-01,USA
1,buick skylark 320,15.0,8,350.0,165.0,3693,11.5,1970-01-01,USA
2,plymouth satellite,18.0,8,318.0,150.0,3436,11.0,1970-01-01,USA
3,amc rebel sst,16.0,8,304.0,150.0,3433,12.0,1970-01-01,USA
4,ford torino,17.0,8,302.0,140.0,3449,10.5,1970-01-01,USA


- [Specifying Data with Altair documentation](https://altair-viz.github.io/user_guide/data.html)에서  
  Altair에게 데이터를 전달하는 방법을 상세히 파악할 수 있다. 
  - 판다스 데이터프레임으로 적재한 데이터를 Altair에게 전달하는 방법
  - 판다스 데이터프레임으로 적재한 데이터를 적절하게 변환하는 방법
- Altair에서 데이터는 ["tidy"](http://vita.had.co.nz/papers/tidy-data.html) 데이터프레임이어야 한다.
  - [좋은 시각화를 위한 깔끔한 데이터](https://brunch.co.kr/@data/12)
  - [깔끔한 데이터(Tidy data)](https://partrita.github.io/posts/tidy-data/)

- 날씨 데이터를 예제로 활용하자. 
  - 'city': 도시
  - 'month': 월
  - 'precip': 평균 강수량(precipitation)

In [5]:
df = pd.DataFrame({
    'city': ['Seattle', 'Seattle', 'Seattle', 'New York', 'New York', 'New York', 'Chicago', 'Chicago', 'Chicago'],
    'month': ['Apr', 'Aug', 'Dec', 'Apr', 'Aug', 'Dec', 'Apr', 'Aug', 'Dec'],
    'precip': [2.68, 0.87, 5.31, 3.94, 4.13, 3.58, 3.62, 3.98, 2.56]
})

df

Unnamed: 0,city,month,precip
0,Seattle,Apr,2.68
1,Seattle,Aug,0.87
2,Seattle,Dec,5.31
3,New York,Apr,3.94
4,New York,Aug,4.13
5,New York,Dec,3.58
6,Chicago,Apr,3.62
7,Chicago,Aug,3.98
8,Chicago,Dec,2.56


<div style="page-break-after: always;"></div>

## 4. 차트 객체

- Altair에서 `Chart`는 근원적인 객체이다.  
  이 객체는 단일 데이터프레임을 유일한 인수로 지정하여 생성한다. 

In [6]:
chart = alt.Chart(df)

- 방금 데이터프레임 `df`를 전달하여 `Chart` 객체를 생성하였다.  
  차트 객체에게 데이터로 *무엇을 하라*는 것인지는 아직 지정하지 않은 상태이다. 

<div style="page-break-after: always;"></div>

## 5. 마크와 인코딩

- 차트 객체를 활용하여, 데이터를 어떤 모습으로 시각화할 것인지 명세할 수 있다. 
  - 사용할 그래픽 마크(mark)의 종류를 기하학적인 모양으로 지정할 수 있다. 
  - 차트 객체의 `mark` 속성을 `Chart.mark_*` 메소드로 지정한다. 
  - 예를 들자면, 데이터를 점 모양의 마크로 표시하기 위하여,  
    `Chart.mark_point()` 메소드를 호출한다. 

In [7]:
alt.Chart(df).mark_point()  # 또는 chart.mark_point()

- 현재 시각화 결과는 데이터 세트의 한 행마다 하나의 점으로 구성된 상태이다.  
  이들 점을 어느 위치에 표시할 것인지를 지정하지 않았으므로,  
  모든 점은 동일한 위치에 중첩되어 한 점으로 보이는 상태이다. 

- 이 점들을 시각적으로 분리하여 적절한 위치에 표시하려면,  
  적당한 *데이터 필드*를 다양하게 준비되어 있는 *인코딩 채널(encoding channel)*과   
  *연결*해주어야 한다.  
  - 인코딩 채널을 짧게 줄여서 (그냥) 채널이라고 부른다.
  - 예를 들자면, `city` 데이터 필드를 `y` 채널로 지정할 수 있다.  
    점(point) 마크의 y-축 위치를 도시로 처리한다는 의미이다. 
  - `encode()` 메소드로 필드와 채널의 연결 관계를 지정한다. 

In [8]:
alt.Chart(df).mark_point().encode(
  y='city',                         # 매개 변수 값을 지정하는 `=` 앞뒤에는 공백 없이
)

- `encode()` 메소드는 인코딩 채널과 데이터 필드를 키-값 매핑으로 구성한다. 
  - 사용 가능한 인코딩 채널에는 `x`, `y`, `color`, `shape`, `size` 등이 있다. 
  - 데이터 필드의 데이터 유형은 Altair가 자동적으로 식별한다. 
    - `city` 필드의 데이터 유형은 명목형이다. 
    - 명목형이란 순서를 지정할 수 없는 범주형 값을 의미한다. 

- `y='city'`라는 인코딩으로 점들을 분리했지만,  
  여전히 특정 도시마다 많은 점들이 겹쳐서 표시되어 있는 상태이다.
- `x` 인코딩 채널을 강수량 필드 `'precip'`과 연결하여 추가적으로 점을 분리해 보자:

In [9]:
alt.Chart(df).mark_point().encode(
    x='precip',
    y='city',
)

- 9개 행에 대응하는 모든 점이 (겹치지 않도록) 분리되었다. 
  - 시애틀은 강수량이 가장 적은 달과 가장 많은 달을 모두 가지고 있다.  
  - `'precip'` 필드의 데이터 유형은 Altair에 의하여 자동적으로 식별되었다. 
    - 이번에는 *정량형(quantitative)*인데, 이는 실수형 수치라는 의미이다.
    - x-축에 눈금에 맞는 그리드 선이 표시되었고, 축 제목이 필드 이름으로 표시되었다. 

- `x='precip'`라는 코드에서, 키워드 매개변수를 써서 키-값 쌍을 지정하였다. 
  - 이 코드를 `alt.X('precip')`라는 대체 문법으로 지정할 수도 있다. 
  - 대체 문법은 더 많은 매개변수를 지정할 때 유용하며, 나중에 배울 예정이다. 

In [10]:
alt.Chart(df).mark_point().encode(
    alt.X('precip'),                # x='precip' 표현에 대한 대체 문법
    alt.Y('city'),                  # y='city' 표현에 대한 대체 문법
)

- 인코딩을 명세하는 두 형식을 혼용할 수 있다:  
  ```python
  encode(
      alt.Y('city'), 
      x='precip', 
  )
  ```

- 필드의 데이터 유형은 판다스 데이터프레임에  
  저장된 값의 자료형에 따라서 자동적으로 결정된다.  
  필드 이름 뒤에 데이터 유형을 명시적으로 지정할 수도 있다. 
  - `'f:N'` *명목형(nominal)* (순서 없는, 범주형 데이터),
  - `'f:O'` *서수형(ordinal)* (순서 있는, 크기는 의미가 없는 데이터)
  - `'f:Q'` *정량형(quantitative)* (크기가 의미를 가지는 수치형 데이터)
  - `'f:T'` *시간형(temporal)* (날짜/시간 데이터)
- 데이터 유형에 대한 명시적 지정은 다음 경우에 필수적이다.  
  - (판다스 데이터프레임에 적재하지 않고)  
    Vega-Lite에 의하여 데이터가 외부 URL로부터 직접적으로 적재되는 경우
  - 자동적으로 지정되는 데이터 유형과는 다르게 데이터 유형을 지정하고 싶은 경우
- 만일 정량형인 `precip` 필드를 명목형이나 서수형으로 지정하면 어떻게 될까?  
  _위 코드를 수정해서 확인해 보라!_
- 다음 장에서 데이터 유형 및 인코딩 채널에 대해서 자세히 공부할 예정이다. 

<div style="page-break-after: always;"></div>

## 6. 데이터 변환: 집계

- 유연한 데이터 시각화를 위하여,  
  알테어는 데이터 *집계(aggregation)* 문법을 제공한다.  
  - 집계 함수에 필드 이름을 전달하여 데이터 집계 결과를 시각화에서 처리할 수 있다. 
  - `x='average(precip)'` 코드처럼 사용할 수 있다. 
  - 집계 기능이 제공되지 않는 대부분의 전통적 시각화 라이브러리에서는  
    판다스 데이터프레임에서 집계 처리를 마친 후 시각화해야 한다. 
  - 알테어에서는 '깔끔한 데이터' 상태에서 시각화를 하면서 집계를 수행하면 된다.  

In [11]:
alt.Chart(df).mark_point().encode(
    x='average(precip)',
    y='city'
)

- 이제 y-축의 각 범주(즉, 도시)마다 단 하나의 점만 표시된다.  
  이 점은 각 도시별 평균 강수량을 표시한다. 
- 이 시각화 결과를 보면서, 다음과 같은 점에 대하여 성찰해 보라. 
  - 시애틀의 평균 강수량이 세 도시 중에서 가장 낮다는 점을 어떻게 받아들여야 하는가?
  - 이런 시각화 결과가 잘못된 상황 판단을 유도할 수 있다는 가능성에 대하여 생각해 보라. 
  - 평균치만으로 상황을 이해할 수 있는가?
- 알테어는 다양한 집계 함수를 제공한다.  
  - `count`(도수), `min`(최소값), `max`(최대값), `average`(평균값), `median`(중앙값) 및 `stdev`(표준편차)
  - 다양한 데이터 변환 방법을 나중에 공부할 예정이다: 
    - 집계(aggregation)
    - 정렬(sorting) 
    - 필터링(filtering)
    - 계산 공식으로 새롭게 계산된 필드
    
  <div style="page-break-after: always;"></div>  

## 7. 마크 유형의 변경

- 집계된 값을 원형 점이 아니라 막대 모양으로 변경하여 시각화할 수 있다.  
   `Chart.mark_point`를 `Chart.mark_bar`로 변경한다: 

In [12]:
alt.Chart(df).mark_bar().encode(
    x='average(precip)',
    y='city'
)

- 명목형 필드가 y-축으로 지정되어 있기 때문에, *수평* 막대 그래프로 시각화되었다. 

- 명목형 필드를 x-축으로 지정하면 *수직* 막대 그래프로 시각화 가능하다. 

In [13]:
alt.Chart(df).mark_bar().encode(
    x='city',
    y='average(precip)'
)

<div style="page-break-after: always;"></div>

## 8. 맞춤형 시각화

- 알테어 및 베가-라이트에서 일부 시각화 속성 값은 적당한 기본값으로 지정되어 있다.  
  맞춤형 시각화를 위하여 이들 속성 값을 수정할 수 있다. 예를 들어서,  
    - 채널 클래스의 `axis` 속성 값을 이용하여 축 제목을 맞춤형으로 지정할 수 있다. 
    - `scale` 속성을 활용하여 축척을 변경할 수 있다. 
    - `Chart.mark_*` 메소드의 `color` 인수를 이용하여  
      마킹 색상을 [CSS color string](https://developer.mozilla.org/en-US/docs/Web/CSS/color_value)으로 지정할 수 있다. 

In [14]:
alt.Chart(df).mark_point(color='firebrick').encode(
  alt.X('precip', scale=alt.Scale(type='log'), axis=alt.Axis(title='Log-Scaled Values')),
  alt.Y('city', axis=alt.Axis(title='Category')),
)

- 한글도 사용 가능하다. 

In [15]:
alt.Chart(df).mark_point(color='darkslateblue').encode(
  alt.X('precip', scale=alt.Scale(type='log'), axis=alt.Axis(title='로그 스케일 값')),
  alt.Y('city', axis=alt.Axis(title='도시')),
)

- 향후 4장에서는 맞춤형 차트를 작성하기 위한  
  스케일, 축 및 범례에 대하여 자세히 공부할 예정이다. 

<div style="page-break-after: always;"></div>

## 9. 다중 뷰

- 앞서 살펴본 바와 같이,  
  알테어 `Chart` 객체는 마크를 단일 유형으로 표시한다.  
  - 다중 차트나 다중 레이어를 가지는 더 복잡한 다이어그램은 어떨까?
  - *뷰 구성* 연산자 집합을 사용하면,  
    알테어에서 다중 차트 정의가 가능하며,  
    이들을 결합하여 더 복잡한 뷰를 생성할 수 있다. 
- 자동차 데이터 세트를 꺽은선 차트로 시각화하여  
  평균 연비를 연도별로 표현하는 작업부터 시작하자: 

In [16]:
cars = data.cars()              # 자동차 데이터를 판다스 데이터프레임으로 적재
cars.head()   

Unnamed: 0,Name,Miles_per_Gallon,Cylinders,Displacement,Horsepower,Weight_in_lbs,Acceleration,Year,Origin
0,chevrolet chevelle malibu,18.0,8,307.0,130.0,3504,12.0,1970-01-01,USA
1,buick skylark 320,15.0,8,350.0,165.0,3693,11.5,1970-01-01,USA
2,plymouth satellite,18.0,8,318.0,150.0,3436,11.0,1970-01-01,USA
3,amc rebel sst,16.0,8,304.0,150.0,3433,12.0,1970-01-01,USA
4,ford torino,17.0,8,302.0,140.0,3449,10.5,1970-01-01,USA


- 일단 갤런당 마일(miles per gallon) 단위를  
  익숙한 리터당 킬로미터(km per liter) 단위로 변환하자. 

In [17]:
cars['km_per_liter'] = (cars['Miles_per_Gallon'] * 0.425).round(1)
cars.sample(10)

Unnamed: 0,Name,Miles_per_Gallon,Cylinders,Displacement,Horsepower,Weight_in_lbs,Acceleration,Year,Origin,km_per_liter
135,chevrolet nova,15.0,6,250.0,100.0,3336,17.0,1974-01-01,USA,6.4
239,ford thunderbird,16.0,8,351.0,149.0,4335,14.5,1977-01-01,USA,6.8
255,honda civic cvcc,36.1,4,91.0,60.0,1800,16.4,1978-01-01,Japan,15.3
120,mercury capri v6,21.0,6,155.0,107.0,2472,14.0,1973-01-01,USA,8.9
334,audi 5000s (diesel),36.4,5,121.0,67.0,2950,19.9,1980-01-01,Europe,15.5
339,vokswagen rabbit,29.8,4,89.0,62.0,1845,15.3,1980-01-01,Europe,12.7
102,buick electra 225 custom,12.0,8,455.0,225.0,4951,11.0,1973-01-01,USA,5.1
250,mazda rx-4,21.5,3,80.0,110.0,2720,13.5,1977-01-01,Japan,9.1
87,ford pinto (sw),22.0,4,122.0,86.0,2395,16.0,1972-01-01,USA,9.4
61,datsun 1200,35.0,4,72.0,69.0,1613,18.0,1971-01-01,Japan,14.9


- 이 데이터세트에서 연도별 연비를 꺽은선 차트로 시각화 하자.
  - 데이터프레임은 cars 
  - 마크는 line 
  - x 축에 인코드 할 데이터 필드는 `Year`
  - y 축에 인코드 할 데이터 필드는 `average(km_per_liter)`

In [18]:
alt.Chart(cars).mark_line().encode(
    alt.X('Year'),
    alt.Y('average(km_per_liter)')
)

- 이 플롯을 보강하기 위하여, 각 평균치 데이터 포인트마다 `circle` 마크를 추가하자.  
  `circle` 마크는 빈 원 모양인 `point` 마크 내부를 채운 원 모양이다. 
- 차트를 개별적으로 정의하여 합치는 방식으로 처리해 보자: 
  - 우선 꺽은선 차트를 정의하고, 이어서 산점도를 정의한다. 
  - 이들 개별 차트를 `layer` 연산자로 결합하여 겹쳐진 차트를 시각화한다. 
  - 레이어로 겹치기 위하여 `+` 연산자를 사용한다. 

In [19]:
line = alt.Chart(cars).mark_line().encode(
    alt.X('Year'),
    alt.Y('average(km_per_liter)')
)

circle = alt.Chart(cars).mark_circle().encode(
    alt.X('Year'),
    alt.Y('average(km_per_liter)')
)

line + circle

- 이전 차트를 *재사용* 및 *수정*하여 이 차트를 작성할 수도 있다.  
  - 앞서 작성했던 차트를 처음부터 다시 작성하는 대신에,  
  - 앞서 작성했던 꺽은선 차트를 `line` 변수로 참조하여  
  - `line.mark_circle()` 메소드의 반환값을  
  - 레이어로 결합하여 원하는 결과를 얻을 수도 있다. 

In [20]:
line = alt.Chart(cars).mark_line().encode(
    alt.X('Year'),
    alt.Y('average(km_per_liter)')
)

line + line.mark_circle()

- <em>꺽은선 차트에 점을 추가하는 시각화 방식은 매우 일상적인 것이라서,  
    `mark_line()` 메소드에는 새로운 레이어를 추가하는 간편한 방법이 별도로 제공된다.  
    `point=True`라는 매개변수를 `mark_line()` 메소드에 추가적으로 지정할 수 있다.</em>

In [21]:
alt.Chart(cars).mark_line(point=True).encode(
    alt.X('Year'),
    alt.Y('average(km_per_liter)')
)

- 이제 두 차트를 나란히 비교하여 보고싶은 경우를 살펴보자.  
  예를 들자면, 연비와 마력에 관한 차트를 나란히 놓고 비교하는 것이다. 
  - *병합(concatenation)* 연산자를 활용하여 다수 차트를  
    수평 방향이나 수직 방향으로 나란히 배치할 수 있다. 
  - 여기서는 `|`라는 파이프(pipe) 연산자를 써서 두 차트를 수평 병합하자. 

In [22]:
hp = alt.Chart(cars).mark_line().encode(
    alt.X('Year'),
    alt.Y('average(Horsepower)')
)

(line + line.mark_circle()) | (hp + hp.mark_circle())

- 이 작업을 통하여, 1970년대와 1980년대 초반에 걸쳐서  
  평균 연비는 상승하는 추세였지만,  
  평균 마력은 하락하는 추세라는 점을 확인할 수 있다. 
- 강좌의 후반부에서 *뷰 병합(vew composition)*에 관하여 자세히 살펴볼 예정이다. 
  - 차트의 레이어링 및 병합
  - `facet`(면) 연산자를 활용한 서브-플롯 시각화
  - `repeat`(반복) 연산자를 활용하여 축소 병합된 차트를 템플릿으로부터 작성하는 방법 
  
<div style="page-break-after: always;"></div>  

## 10. 상호작용성

- 기본적인 플롯팅 및 뷰 병합 기능 외에도,  
  상호작용성을 알테어 및 베가-라이트의 가장 멋진 기능으로 꼽을 수 있다. 
- 패닝(panning) 및 주밍(zooming)을 지원하는 단순 상호작용이 가능한 플롯을 만들려면,  
  `Chart` 객체의 `interactive()` 메소드를 호출하면 된다.
  - 패닝: 마우스를 클릭한 후, 떼지 않고 계속적으로 드래그하는 움직임
  - 주밍: 마우스 스크롤 휠 등을 이용하여 화면을 확대/축소하는 움직임

In [23]:
alt.Chart(cars).mark_point().encode(
    x='Horsepower',
    y='km_per_liter',
    color='Origin',
).interactive()

- 마력과 연비가 반비례 관계라는 점을 인식하라.
  - 마력이 강해지면 연비가 낮아진다. 
  - 마력이 약해지면 연비가 높아진다. 

- 마우스 호버(hover)에 대한 반응을 제공하기 위하여,  
  인코딩 채널에 대한 `tooltip` 옵션을 지정할 수 있다: 

In [24]:
alt.Chart(cars).mark_point().encode(
    x='Horsepower',
    y='km_per_liter',
    color='Origin',
    tooltip=['Name', 'Origin']  # 툴팁으로 이름과 원산지를 보여주기
).interactive()

- 더 복잡한 상호작용으로 다음과 같은 방식이 가능하다:
  - 서로 연동되는 다중 차트
  - 서로 연동되는 필터링 
- 알테어는 *선택*(*selection*) 방법을 제공하는데,  
  상호작용 방식으로 특정 대상을 선택할 수 있으며,  
  이렇게 선택된 결과를 차트의 구성 요소에 *연동*시킬 수 있다. 
- 아래는 다소 복잡한 예제이다. 
  - 상단 도수분포도(histogram)는 연도별로 데이터 세트에 포함된 자동차 도수를 보여준다.   
  - 하단 산점도(scatter plot)는 마력-연비의 상관성을 보여준다. 
  - 상단 차트에서 연도 구간을 선택하면, 하단 차트에는 이러한 선택에 연동되어 대응되는 산점도를 보여준다. 
  - 상단에서 선택한 내용과 하단에 보이는 내용이 연동된다. 
- 아래 코드에서 부분적으로 이해가 가지 않아도 걱정하지 말라.  
  - 나중에 자세하게 공부할 예정이다.  
  - 일단은 이러한 상호작용성이 가능하다는 점에 주목하라. 

In [25]:
# x-축 인코딩에 대한 선택 구간 생성하여 브러쉬로 정의
brush = alt.selection_interval(encodings=['x'])

# 브러쉬에 해당하면 진하게, 브러시에서 벗어나면 연하게
opacity = alt.condition(brush, alt.value(0.9), alt.value(0.1))

# 연도별 자동차 도수를 개괄하는 도수분포도
# 연도별 자동차 도수를 선택하는 상호작용적 구간 브러쉬 추가
overview = alt.Chart(cars).mark_bar().encode(
    alt.X('Year:O', timeUnit='year',             # 연도를 추출하고 서수형으로 지정
          axis=alt.Axis(title=None, labelAngle=0)  # 축 제목 생략, 축 눈금 레이블 각도 생략
    ),
    alt.Y('count()', title=None),                # 도수, 축 제목 생략
    opacity=opacity
).add_selection(
    brush                                        # 차트에 대한 구간 브러쉬 선택 추가
).properties(
    width=400,                                   # 차트   폭 400 픽셀로 설정
    height=50                                    # 차트 높이  50 픽셀로 설정
)

# 개괄 도수분포도에 대응하는 상세 마력-연비 산점도
# 브러쉬 선택에 대응하는 산점도 내부 점의 투명도 조절 
detail = alt.Chart(cars).mark_point().encode(
    alt.X('Horsepower'),
    alt.Y('km_per_liter'),
    opacity=opacity                              # 브러쉬 선택에 대응하여 투명도 조절
).properties(width=400)                          # 차트 폭을 상단 차트와 동일하게 설정

# '&' 연산자로 차트 수직 병합 
interlinked = overview & detail
interlinked

In [26]:
interlinked

<div style="page-break-after: always;"></div>

## 11. JSON 출력 검토

- 베가-라이트에 대한 파이썬 API로서,  
  알테어의 핵심 목표는 플롯에 대한 명세를 JSON 문자열로 변환하는 것이다.  
  - 이 JSON 문자열은 베가-라이트 스키마에 부합한다. 
  - `Chart.to_json()` 메소드를 쓰면  
    알테어가 산출해서 베가-라이트에 전달하는 JSON 명세를 확인할 수 있다. 

In [27]:
chart = alt.Chart(df).mark_bar().encode(
    x='average(precip)',
    y='city',
)
print(chart.to_json())

{
  "$schema": "https://vega.github.io/schema/vega-lite/v4.8.1.json",
  "config": {
    "view": {
      "continuousHeight": 300,
      "continuousWidth": 400
    }
  },
  "data": {
    "name": "data-fdfbb22e8e0e89f6556d8a3b434b0c97"
  },
  "datasets": {
    "data-fdfbb22e8e0e89f6556d8a3b434b0c97": [
      {
        "city": "Seattle",
        "month": "Apr",
        "precip": 2.68
      },
      {
        "city": "Seattle",
        "month": "Aug",
        "precip": 0.87
      },
      {
        "city": "Seattle",
        "month": "Dec",
        "precip": 5.31
      },
      {
        "city": "New York",
        "month": "Apr",
        "precip": 3.94
      },
      {
        "city": "New York",
        "month": "Aug",
        "precip": 4.13
      },
      {
        "city": "New York",
        "month": "Dec",
        "precip": 3.58
      },
      {
        "city": "Chicago",
        "month": "Apr",
        "precip": 3.62
      },
      {
        "city": "Chicago",
        "month": "Aug",


- 직전 코드에서 `encode(x='average(precip)')` 부분이 다음과 같은 JSON 구조로 확장되었다. 
  - `field` 이름
  - 데이터에 대한 `type`
  - `aggregate` 필드  
- 직전 코드에서 `encode(y='city')`부분도 유사하게 확장되었다. 
```
  "encoding": {
    "x": {
      "aggregate": "average",
      "field": "precip",
      "type": "quantitative"
    },
    "y": {
      "field": "city",
      "type": "nominal"
    }
  },
```

- 알테어에서는 필드 유형을 다음과 같이 강제 지정할 수 있다. 

In [28]:
x = alt.X('average(precip):Q')
print(x.to_json())

{
  "aggregate": "average",
  "field": "precip",
  "type": "quantitative"
}


- 이런 축약적 표현은 다음과 동일한 표현이다. 

In [29]:
x = alt.X(aggregate='average', field='precip', type='quantitative')
print(x.to_json())

{
  "aggregate": "average",
  "field": "precip",
  "type": "quantitative"
}


<div style="page-break-after: always;"></div>

## 12. 시각화 결과 배포

- 일단 데이터 시각화를 완성했으면, 이를 웹에 게시하고 싶어질 것이다.  
  이 작업은 [vega-embed JavaScript package](https://github.com/vega/vega-embed)를 통해 가능하다.  
  독립적 HTML 문서의 간단한 예제는 `Chart.save()` 메소드를 써서 만들 수 있다. 

```python
chart = alt.Chart(df).mark_bar().encode(
    x='average(precip)',
    y='city',
)
chart.save('chart.html')
```

In [30]:
chart = alt.Chart(df).mark_bar().encode(
    x='average(precip)',
    y='city',
)
chart.save('chart.html')  

# 폴더에 저장된 HTML 파일을 확인하라. 

- 기본 HTML 템플릿이 아래와 같은 결과를 산출한다.  
  `Chart.to_json()`이 만들어 낸 플롯의 JSON 명세를 `spec` 자바스크립트 변수에 저장해야 한다. 
- `Chart.save()` 메소드를 쓰면 이러한 HTML 출력을 쉽게 파일로 저장할 수 있다.  
  알테어/베가-라이트 임베딩에 관한 더 자세한 정보는 [documentation of the vega-embed project](https://github.com/vega/vega-embed)에서 볼 수 있다. 
  

```html
<!DOCTYPE html>
<html>
  <head>
    <script src="https://cdn.jsdelivr.net/npm/vega@5"></script>
    <script src="https://cdn.jsdelivr.net/npm/vega-lite@3"></script>
    <script src="https://cdn.jsdelivr.net/npm/vega-embed@4"></script>
  </head>
  <body>
    <div id="vis"></div>
    <script type="text/javascript">
        var spec = {};                                       /* JSON output for your chart's specification */
        var opt = {"renderer": "canvas", "actions": false};  /* Options for the embedding */
        vegaEmbed("#vis", spec, opt);
    </script>
  </body>
</html>
 ```

- 파이썬 장고 웹 프레임에서 알테어 시각화를 처리하는 방법을 구체적으로 소개한다.  

```python
# chart/urls.py

from django.urls import path

from .views import *

app_name = 'chart'

urlpatterns = [
    path('', home, name='chart_home'),
    path('ticket-class/1/',
         ticket_class_view_1, name='ticket_class_view_1'),
    path('ticket-class/2/',
         ticket_class_view_2, name='ticket_class_view_2'),
    path('ticket-class/3/',
         ticket_class_view_3, name='ticket_class_view_3'),
    path('world-population/',
         world_population, name='world_population'),  # !!!
    path('json-example/', json_example, name='json_example'),
    path('json-example/data/', chart_data, name='chart_data'),
    # path('covid19/', covid19_view, name='covid19'),
    path('covid19new/', covid19_view_new, name='covid19new'),
    # alt_django 추가
    path('alt-django/',
         alt_django, name='alt_django'),
    path('alt-interactive/',
         alt_interactive, name='alt_interactive'),
]
```

```python
# views.py 

def alt_django(request):
    domain = ['Europe', 'Japan', 'USA']
    range_ = ['red', 'green', 'blue']

    cars = data.cars()
    chart_json = alt.Chart(cars).mark_circle().encode(
        alt.X('Miles_per_Gallon', axis=alt.Axis(title='연비 [단위: 갤론 당 마일]')),
        alt.Y('Horsepower', axis=alt.Axis(title='마력')),
        alt.Color('Origin',
                  legend=alt.Legend(title='원산지'),
                  scale=alt.Scale(domain=domain, range=range_)
        ),
    ).properties(
        width=800,
        height=400,
        title={
            'text': ['', '자동차 연비-마력 산점도', ''],
            'subtitle': ['기간: 1970~1982년', '원산지: 미국/유럽/일본'],
        },
    ).to_json()
    return render(request, 'chart/alt_chart.html', {'chart_json': chart_json})
```

```python
# views.py

def alt_interactive(request):
    domain = ['Europe', 'Japan', 'USA']
    range_ = ['red', 'green', 'blue']

    cars = data.cars()
    # x-축 인코딩에 대한 선택 구간 생성하여 브러쉬로 정의
    brush = alt.selection_interval(encodings=['x'])

    # 브러쉬에 해당하면 진하게, 브러시에서 벗어나면 연하게
    opacity = alt.condition(brush, alt.value(0.9), alt.value(0.1))

    # 연도별 자동차 도수를 개괄하는 도수분포도
    # 연도별 자동차 도수를 선택하는 상호작용적 구간 브러쉬 추가
    overview = alt.Chart(cars).mark_bar().encode(
        alt.X('Year:O', timeUnit='year',  # 연도를 추출하고 서수형으로 지정
              axis=alt.Axis(title=None, labelAngle=0)  # 축 제목 생략, 축 눈금 레이블 각도 생략
              ),
        alt.Y('count()', title=None),  # 도수, 축 제목 생략
        opacity=opacity
    ).add_selection(
        brush  # 차트에 대한 구간 브러쉬 선택 추가
    ).properties(
        width=800,  # 차트   폭 400 픽셀로 설정
        height=150,  # 차트 높이  50 픽셀로 설정
        title = {
            'text': ['', '알테어 상호작용성', ''],
            'subtitle': ['자동차 히스토그램'],
        },
    )

    # 개괄 도수분포도에 대응하는 상세 마력-연비 산점도
    # 브러쉬 선택에 대응하는 산점도 내부 점의 투명도 조절
    detail = alt.Chart(cars).mark_circle().encode(
        alt.X('Miles_per_Gallon', axis=alt.Axis(title='연비 [단위: 갤론 당 마일]')),
        alt.Y('Horsepower', axis=alt.Axis(title='마력')),
        alt.Color('Origin',
                  legend=alt.Legend(
                      title='원산지',
                      orient='none',
                      legendX=820,
                      legendY=230,
                  ),
                  scale=alt.Scale(domain=domain, range=range_)
        ),
        opacity=opacity  # 브러쉬 선택에 대응하여 투명도 조절
    ).properties(
        width=800,  # 차트 폭을 상단 차트와 동일하게 설정
        height=500,
        title={
            'text': [''],
            'subtitle': ['연비-마력 산점도']
        },
    )

    # '&' 연산자로 차트 수직 병합
    interlinked = overview & detail
    interlinked_json = interlinked.to_json()
    return render(request, 'chart/alt_interactive.html', {'interlinked_json': interlinked_json})
```

```python
# chart/templates/chart/alt_chart.html

{% extends 'chart_home.html' %}

{% block title %}- 차트 - 알테어{% endblock %}
{% block head %}
    <script src="https://cdn.jsdelivr.net/npm/vega@5"></script>
    <script src="https://cdn.jsdelivr.net/npm/vega-lite@3"></script>
    <script src="https://cdn.jsdelivr.net/npm/vega-embed@4"></script>
{% endblock %}

{% block content %}
    <div id="vis"></div>
    <script type="text/javascript">
        var spec = {{ chart_json|safe }};  /* JSON output for your chart's specification */
        var opt = {"renderer": "canvas", "actions": false};  /* Options for the embedding */
        vegaEmbed("#vis", spec, opt);
    </script>
    <div>
        <p>연비-마력 산점도를 통하여, 연비와 마력의 반비례 상관성을 확인할 수 있습니다.</p>
    </div>
{% endblock content %}
```

```python
# chart/templates/chart/alt_interactive.html

{% extends 'chart_home.html' %}

{% block title %}- 차트 - 알테어{% endblock %}
{% block head %}
    <script src="https://cdn.jsdelivr.net/npm/vega@5"></script>
    <script src="https://cdn.jsdelivr.net/npm/vega-lite@3"></script>
    <script src="https://cdn.jsdelivr.net/npm/vega-embed@4"></script>
{% endblock %}

{% block content %}
    <div id="vis"></div>
    <script type="text/javascript">
        var spec = {{ chart_json|safe }};  /* JSON output for your chart's specification */
        var opt = {"renderer": "canvas", "actions": false};  /* Options for the embedding */
        vegaEmbed("#vis", spec, opt);
    </script>
    <div>
        <p>연비-마력 산점도를 통하여, 연비와 마력의 반비례 상관성을 확인할 수 있습니다.</p>
    </div>
{% endblock content %}
```

<div style="page-break-after: always;"></div>

## 13. 마무리

 

- 🎉 축하! 알테어 소개에 관한 공부를 마쳤다. 
- 다음 장에서는 알테어 모델을 통한 시각화 생성 방법을 공부할 예정이다. 
  - 데이터 유형
  - 그래픽 마크
  - 인코딩 채널