알테어를 활용한 탐색적 데이터 시각화
===

(Explorative Data Visualization with Altair)
===

![altair](https://user-images.githubusercontent.com/10287629/138803189-907e3229-ba81-49c1-be97-0df36a01f013.png)

<div style="page-break-after: always;"></div>

# 5장. 다중 뷰 구성

- 다수 필드로 구성된 데이터의 시각화에 대하여 생각해 보자.   
  - (`x`, `y`, `color`, `size`, `shape` 등과 같은) 시각적 인코딩 채널을 최대한 많이 사용하고 싶을 수 있다. 
  - 하지만 인코딩 채널의 수가 증가할수록 차트는 복잡하고 이해하기 어려워진다. 
  - 단일 차트에 "과부하"를 거는 방식보다는,  
    _다중 차트로 구성_하여 비교하기 좋도록 만드는 방식이 좋다. 
- 본 장에서는 _다중 뷰 구성_을 위한 다양한 방법을 공부한다. 
  - _층(layer)_: 호환되는 차트를 서로 겹쳐서 층을 구성
  - _면(facet)_: 데이터를 다수 차트로 구성하여 행이나 열을 구성
  - _병합(concatenate)_: 단일 공유 레이아웃 내부에 임의 차트가 위치하도록 구성
  - _반복(repeat)_: 기본 차트 명세를 다수 데이터 필드에 적용
- 이러한 작업을 처리하는 _뷰 구성 연산자_ 사용법을 살펴 볼 예정이다.  
  복잡한 다중 뷰 구성을 만드는 연산의 수행 방법을 공부하자. 
- _이 노트북은 [data visualization curriculum](https://github.com/uwdata/visualization-curriculum)의 일부이다._

In [1]:
import pandas as pd
import altair as alt

- 월 이름 등을 우리나라 로케일에 맞게 출력하려면, 아래와 같이 로케일을 설정해야 한다.  

In [2]:
# from urllib import request
# import json

# # 한국 로케일 형식을 가져와서 활성화
# with request.urlopen('https://raw.githubusercontent.com/d3/d3-format/master/locale/ko-KR.json') as f:
#   ko_format = json.load(f)
# with request.urlopen('https://raw.githubusercontent.com/d3/d3-time-format/master/locale/ko-KR.json') as f:
#   ko_time_format = json.load(f)
# alt.renderers.set_embed_options(formatLocale=ko_format, timeFormatLocale=ko_time_format)

## 1. 기상 데이터

- 시애틀과 뉴욕에 대한 기상 통계를 시각화할 것이다.데이터 세트를 적재하고 처음 및 마지막 10 행을 살펴보자.

In [3]:
weather = 'https://vega.github.io/vega-datasets/data/weather.csv'

In [4]:
df = pd.read_csv(weather)
df.head(10)

Unnamed: 0,location,date,precipitation,temp_max,temp_min,wind,weather
0,Seattle,2012-01-01,0.0,12.8,5.0,4.7,drizzle
1,Seattle,2012-01-02,10.9,10.6,2.8,4.5,rain
2,Seattle,2012-01-03,0.8,11.7,7.2,2.3,rain
3,Seattle,2012-01-04,20.3,12.2,5.6,4.7,rain
4,Seattle,2012-01-05,1.3,8.9,2.8,6.1,rain
5,Seattle,2012-01-06,2.5,4.4,2.2,2.2,rain
6,Seattle,2012-01-07,0.0,7.2,2.8,2.3,rain
7,Seattle,2012-01-08,0.0,10.0,2.8,2.0,sun
8,Seattle,2012-01-09,4.3,9.4,5.0,3.4,rain
9,Seattle,2012-01-10,1.0,6.1,0.6,3.4,rain


In [5]:
df.tail(10)

Unnamed: 0,location,date,precipitation,temp_max,temp_min,wind,weather
2912,New York,2015-12-22,4.8,15.6,11.1,3.8,rain
2913,New York,2015-12-23,29.5,17.2,8.9,4.5,rain
2914,New York,2015-12-24,0.5,20.6,13.9,4.9,rain
2915,New York,2015-12-25,2.5,17.8,11.1,0.9,rain
2916,New York,2015-12-26,0.3,15.6,9.4,4.8,rain
2917,New York,2015-12-27,2.0,17.2,8.9,5.5,rain
2918,New York,2015-12-28,1.3,8.9,1.7,6.3,snow
2919,New York,2015-12-29,16.8,9.4,1.1,5.3,rain
2920,New York,2015-12-30,9.4,10.6,5.0,3.0,rain
2921,New York,2015-12-31,1.5,11.1,6.1,5.5,rain


- location: 시애틀 또는 뉴욕
- date: (2012-01-01 ~ 2015-12-31) 1,461 일
- precipitation: 강수량
- temp_max, temp_min: 일별 최저 기온 및 최고 기온 
- wind: 풍속
- weather: 날씨를 묘사하는 단어

In [6]:
df.describe(include='all')

Unnamed: 0,location,date,precipitation,temp_max,temp_min,wind,weather
count,2922,2922,2922.0,2922.0,2922.0,2922.0,2922
unique,2,1461,,,,,5
top,Seattle,2012-01-01,,,,,sun
freq,1461,2,,,,,1466
mean,,,2.944764,16.769131,8.61232,4.101129,
std,,,7.695286,8.644596,7.511776,1.880791,
min,,,0.0,-7.7,-16.0,0.4,
25%,,,0.0,10.0,3.3,2.7,
50%,,,0.0,16.1,8.9,3.8,
75%,,,1.8,23.9,13.9,5.1,


- 두 도시의 기상에 대한 단독 및 교차 시각화를 다중 뷰로 만들어 보자. 

## 2. 레이어

- 여러 차트를 결합하는 가장 일반적인 방법 중 하나는 *층(layer)* 마크를 겹쳐서 결합하는 것이다.  
  - 차트들의 스케일 도메인이 호환된다면, 병합하여 _공유 축_ 구성이 가능하다. 
  - `x` 또는 `y` 인코딩 중 하나라도 호환되지 않는다면,  
    별도의 스케일과 축을 사용하여 마크를 겹치는 _이중-축(dual-axis) 차트_ 생성이 가능하다.

### 2.1 축 공유

- 우선 월별로 평균 기온의 최소값과 최대값을 시각화 해 보자. 

In [7]:
alt.Chart(weather).mark_area().encode(
  alt.X('month(date):T'),
  alt.Y('average(temp_max):Q'),  # 월별 기온 최대값      
  alt.Y2('average(temp_min):Q')  # 월별 기온 최소값
)

- 시각화 결과를 통하여 전체 데이터의 월별 온도 범위를 알 수 있다.  
  하지만 이 온도 범위는 시애틀(미국의 서쪽 끝)과 뉴욕(미국의 동쪽 끝) 데이터를  
  섞어서 집계한 결과이므로 오해를 유도할 가능성이 있다.
  ![seattle2NY](https://user-images.githubusercontent.com/10287629/137833161-578faf70-ed66-426e-a2a4-6ad27bff937e.png)
- 색상 인코딩을 사용하여 도시 별로 데이터를 분할하고,  
  겹치는 영역을 수용하기 위해 마크 투명도를 조정하자.

In [8]:
alt.Chart(weather).mark_area(opacity=0.3).encode(
  alt.X('month(date):T'),
  alt.Y('average(temp_max):Q'),
  alt.Y2('average(temp_min):Q'),  
  alt.Color('location:N')         # 도시 별로 색상 구분 
)

- 시애틀이 더 온화하다: 겨울에는 따듯하고, 여름에는 시원하다. 
- 이는 레이어드 차트(layered chart)로 시각화 한 경우이다.  
  - 영역(area) 마크를 색상으로 구분하였을 뿐이다. 
  - 도시별 기온 범위를 보여주되, 중첩되는 영역을 강조하였다. 

- 도시별로 최소/최대 기온의 중간점을 보여주는 꺽은선 차트를 만들어 보자.  
  최소 기온과 최대 기온의 평균값을 계산하기 위해 `calculate` 변환을 사용한다.

In [9]:
alt.Chart(weather).mark_line().transform_calculate(   # calculate 변환
  temp_mid='(+datum.temp_min + +datum.temp_max) / 2'  # 일별 중간 기온 계산
).encode(
  alt.X('month(date):T'),
  alt.Y('average(temp_mid):Q'),                       # 일별 중간 기온의 평균치 집계 
  alt.Color('location:N')
)

- 계산 변환 내에서 `+datum.temp_min`의 사용에 주목하라.  
  - 특별한 파싱 명령 없이 데이터를 직접 적재할 때,  
    기온 값은 내부적으로 (수치가 아닌) 문자열 값으로 적재될 수 있다.  
  - 값 앞에 `+`를 더하면 수치로 취급된다.

- 이제 범위 영역과 중간점 꺽은선을 겹쳐서 이 차트를 결합하고 싶다.  
  `chart1 + chart2`라는 문법을 사용하여,  
  `chart1`을 첫번째 층에 표시하고, `chart2`를 두번째 층으로 상단에 표시할 수 있다. 

In [10]:
tempMinMax = alt.Chart(weather).mark_area(opacity=0.3).encode(  # 영역 마크
  alt.X('month(date):T'),
  alt.Y('average(temp_max):Q'),
  alt.Y2('average(temp_min):Q'),
  alt.Color('location:N')
)

tempMid = alt.Chart(weather).mark_line().transform_calculate(  # 꺽은선 마크
  temp_mid='(+datum.temp_min + +datum.temp_max) / 2'
).encode(
  alt.X('month(date):T'),
  alt.Y('average(temp_mid):Q'),
  alt.Color('location:N')
)

tempMinMax + tempMid                                           # `+` 연산자로 다중 뷰 구성 

- 다층 플롯을 완성했다! 그러나 y축 제목은 좀 길고 어설프다...
- 결과를 정리하기 위해 축을 맞춤화하자.  
  여러 층 중의 하나에서 맞춤형 축 제목을 설정하면, 자동적으로 모든 층에 대하여 공유된다.

In [11]:
tempMinMax = alt.Chart(weather).mark_area(opacity=0.3).encode(
  alt.X('month(date):T', title=None, axis=alt.Axis(format='%b')),  # x-축 및 눈금 제목 설정 
  alt.Y('average(temp_max):Q', title='평균 기온 (°C)'),            # y-축 제목 설정 
  alt.Y2('average(temp_min):Q'),
  alt.Color('location:N')
)

tempMid = alt.Chart(weather).mark_line().transform_calculate(
  temp_mid='(+datum.temp_min + +datum.temp_max) / 2'
).encode(
  alt.X('month(date):T'),
  alt.Y('average(temp_mid):Q'),
  alt.Color('location:N')
)

tempMinMax + tempMid

- 위 차트에서 두 층 모두에 맞춤형 축 제목을 지정하면 어떻게 될까? (코드 셀 다음에 답이 있다.)

In [12]:
tempMinMax = alt.Chart(weather).mark_area(opacity=0.3).encode(
#   alt.X('month(date):T', title=None, axis=alt.Axis(format='%b')),  # x-축 및 눈금 제목 설정 
  alt.X('month(date):T', title='month', axis=alt.Axis(format='%b')),  # x-축 및 눈금 제목 설정 
  alt.Y('average(temp_max):Q', title='평균 기온 (°C)'),               # y-축 제목 설정 
  alt.Y2('average(temp_min):Q'),
  alt.Color('location:N')
)

tempMid = alt.Chart(weather).mark_line().transform_calculate(
  temp_mid='(+datum.temp_min + +datum.temp_max) / 2'
).encode(
#   alt.X('month(date):T', title='월', axis=alt.Axis(format='%b')),     # x-축 및 눈금 제목 설정
  alt.X('month(date):T', title=None, axis=alt.Axis(format='%b')),     # x-축 및 눈금 제목 설정
  alt.Y('average(temp_mid):Q', title='average temperature (°C)'),     # y-축 제목 설정 
  alt.Color('location:N')
)

tempMinMax + tempMid

- 다층으로 겹쳐지는 차트에서 축 제목을 층마다 각기 지정하면, 
  - 각 층의 제목이 쉼표로 구분되어 모두 표시된다. 
  - 어느 한 층이라도 `title=None`으로 지정하면, 제목이 표시되지 않는다.  

- 앞에서 `+` 연산자를 써서 두 차트를 다층으로 겹치는 방법을 공부했다.  
  이 `+` 연산자는 알테어 `layer` 메소드에 대한 약식 표기법을 제공한다. 

In [13]:
alt.layer(tempMinMax, tempMid)

- 다층으로 겹치는 방식에서는 나중에 지정한 층이 이전 층 위에 겹쳐지므로 순서가 중요하다.  
  앞의 다층 차트에서 층을 지정하는 순서를 변경해보라. (힌트: `line` 마크의 색상을 자세히 살펴보라.)

In [14]:
tempMinMax = alt.Chart(weather).mark_area(opacity=0.9).encode(     # 투명도를 약하게 조절
  alt.X('month(date):T', title=None, axis=alt.Axis(format='%b')),   
  alt.Y('average(temp_max):Q', title='평균 기온 (°C)'),             
  alt.Y2('average(temp_min):Q'),
  alt.Color('location:N')
)

tempMid = alt.Chart(weather).mark_line().transform_calculate(
  temp_mid='(+datum.temp_min + +datum.temp_max) / 2'
).encode(
  alt.X('month(date):T'),
  alt.Y('average(temp_mid):Q'),
  alt.Color('location:N')
)

tempMid + tempMinMax                                               # 층 지정 순서를 변경 

### 2.2 이중-축 차트

- 시애틀은 비오는 도시라는 평판을 가지고 있다. 실제로 그럴까?
- 이번에는 강수량을 살펴보자. 먼저 시애틀의 월 평균 강수량을 시각화하자. 

In [15]:
alt.Chart(weather).transform_filter(                      # 시애틀만 필터링
  'datum.location == "Seattle"'
).mark_line(
  interpolate='monotone',                                 # 보간법 옵션
  stroke='grey'                                           # 선 색상 
).encode(
  alt.X('month(date):T', title=None),
  alt.Y('average(precipitation):Q', title='평균 강수량')  
)

- 기온 데이터와 쉽게 비교할 수 있도록, 강수량 차트를 새로운 층으로 추가하자.   
  기온 차트와 강수량 차트를 층으로 단순하게 겹치면 아래처럼 된다.  

In [16]:
tempMinMax = alt.Chart(weather).transform_filter(                  # 기온 차트
  'datum.location == "Seattle"'
).mark_area(opacity=0.3).encode(
  alt.X('month(date):T', title=None, axis=alt.Axis(format='%b')),
  alt.Y('average(temp_max):Q', title='평균 기온 °C'),
  alt.Y2('average(temp_min):Q')
)

precip = alt.Chart(weather).transform_filter(                      # 강수량 차트
  'datum.location == "Seattle"'
).mark_line(
  interpolate='monotone',
  stroke='grey'
).encode(
  alt.X('month(date):T'),
  alt.Y('average(precipitation):Q', title='평균 강수량')
)

alt.layer(tempMinMax, precip)                                      # 다층 결합

- 강수량 값은 y-축의 아래 영역에만 그려진다. 
- 기본적으로, 겹쳐진 다층 차트는 *공유 도메인(shared domain)* 방식을 사용한다.  
  - 단일 범위를 공유할 수 있도록,  
    x-축과 y-축의 데이터 값들은 모든 층에 대하여 결합된다.  
  - 이러한 기본적 처리 방식에서 층별 데이터 값은 *공통 단위*로 간주된다. 
  - 이 예제에서 이러한 기본적 처리 방식은 적절하지 않다.  
    기온은 섭씨 단위로, 강수량은 인치 단위로 측정되었다. 
- y-축 단위가 데이터 층마다 다르므로,  
  데이터 층마다 차별적인 축 처리 방법이 필요하다.  
  - 이 경우에 y-축 `scale` 도메인은 공용 `shared` 도메인이 아니라  
    독립적인 `independent`인 도메인으로 처리되어야 한다. 
  - 층 연산자에 의하여 다층으로 겹쳐지는  
    `Chart` 객체는 `resolve_scale` 메소드를 제공하는데, 이를 활용해야 한다. 

In [17]:
alt.layer(tempMinMax, precip).resolve_scale(y='independent')  # 다층 결합, 독립적인 이중 축       

- 시애틀의 가을은 비가 많은 시기이고 11월이 피크인데, 여름은 건조하다는 것을 알게 되었다. 
- 위 시각화 코드에는 약간의 중복성이 존재한다. 
  - 기온 시각화나 강수량 시각화에서 동일한 데이터 세트와 필터를 사용하고 있다. 
  - 원한다면 코드에서 데이터와 필터 변환을 최상위 층 차트에 제공하여 중복을 제거할 수 있다. 
  - 개별 층에서 (해당 층에서만 사용하는 별도 데이터가 없다면) 이 데이터를 상속받아 처리할 수 있다. 

In [18]:
tempMinMax = alt.Chart().mark_area(opacity=0.3).encode(            # 데이터 지정 생략
  alt.X('month(date):T', title=None, axis=alt.Axis(format='%b')),
  alt.Y('average(temp_max):Q', title='Avg. Temperature °C'),
  alt.Y2('average(temp_min):Q')
)

precip = alt.Chart().mark_line(                                    # 데이터 지정 생략
  interpolate='monotone',
  stroke='grey'
).encode(
  alt.X('month(date):T'),
  alt.Y('average(precipitation):Q', title='Precipitation')
)

alt.layer(tempMinMax, precip, data=weather).transform_filter(      # layer()에서 데이터 지정 및 필터링
  'datum.location == "Seattle"'
).resolve_scale(y='independent')

- 이중-축(dual-axis) 차트가 유용하긴 하지만,  
  상이한 단위와 축 스케일이 어룰리지 못하고 잘못 해석되는 경향이 있다.  
  - 상이한 데이터 필드들이 공통된 단위를 가지도록 변환하는 방법도 생각해 볼 수 있다.  
  - 예를 들어서 [분위수](https://bioinformaticsandme.tistory.com/246) 또는 상대적 백분율로 변경하여 시각화 할 수도 있다. 

## 3. 다면 구성

- *다면 구성*(*faceting*)은 데이터 세트를 분할하여 그룹으로 구성하고,  
  각 그룹별로 개별적인 플롯을 작성하는 방법이다. 
  - 지난 2 장에서 `row` 및 `column` 인코딩 채널을 사용한 다면 구성 차트 작성법을 공부한 바 있다. 
  - 먼저 이들 채널을 검토하고,  
    이들이 어떻게 더욱 일반적인 `facet` 연산자의 사례가 될 수 있는지를 설명한다.  
- 시애틀 데이터에서 최고 기온에 관한 기본적인 막대그래프(histogram)로 시작해보자. 

In [19]:
alt.Chart(weather).mark_bar().transform_filter(
  'datum.location == "Seattle"'
).encode(
  alt.X('temp_max:Q', bin=True, title='Temperature (°C)'),
  alt.Y('count():Q')
)

- (이슬비, 안개, 비, 눈, 해)로 구분된 날씨 `weather` 필드 값에 따라서 기온 프로필을 어떻게 변경할 수 있을까?  
  - `column` 인코딩 채널을 사용해서, 데이터를 날씨 유형에 따라서 다면적으로 구성(facet)할 수 있다.  
  - 또한 `color`를 중복된 인코딩으로 사용하는데, 맞춤형 색상 범위를 지정한다.  

In [20]:
colors = alt.Scale(
  domain=['drizzle', 'fog', 'rain', 'snow', 'sun'],              # (이슬비, 안개, 비, 눈, 해) 색상 도메인 
  range=['#aec7e8', '#c7c7c7', '#1f77b4', '#9467bd', '#e7ba52']  # 색상 범위
)

facet = alt.Chart(weather).mark_bar().transform_filter(
  'datum.location == "Seattle"'
).encode(
  alt.X('temp_max:Q', bin=True, title='일별 최고 기온 (°C)'),
  alt.Y('count():Q'),
  alt.Color('weather:N', scale=colors),                          # 색상 인코딩 채널
  alt.Column('weather:N')                                        # 다면 구성 인코딩 채널
).properties(
  width=150,
  height=150
)
facet

In [21]:
facet

- 눈 내리는 날은 매우 드믄 편인데, 가장 추운 날씨에만 집중되어 있다.  
- 비가 오거나 안개가 끼는 날은 기온이 다소 낮은 수준이다.  
- 해가 나는 날은 따듯한 날인 경우가 많다. 시애틀의 고정관념과는 달리 해가 나는 날이 꽤나 많다.  
- 이슬비는 기온에 상관없이, 가끔 내리는 것 같다.

- `row` 및 `column` 인코딩 채널을 쓰지 않고도, 다면 구성을 처리할 수 있다.  
  차트 정의는 기본적으로 처리하되,  
  명시적인 `facet()` 메소드에서 `colums` 인자를 통해서 다면 구성이 가능하다. 
- 앞서 작성한 차트를 다시 만들어 보는데, 이번에는 `facet()` 메소드를 써 보자. 
  - 동일한 기본적인 막대그래프(histogram) 정의로 시작하는데,  
    데이터 원천, 필터 변환 및 `column` 채널은 지정하지 않는다. 
  - 이어서 `facet()` 메소드를 호출하는데,  
    `data=weather`와 `column='weather:N'`으로 인수를 지정한다.  
    - 'weather:N' 값에 따라서 열별로 다면을 구성한다. 
    - 행별로 구성하려면 `row` 인수를 쓴다. 
    - `column`과 `row` 인수를 동시에 지정하면, 이차원 그리드 형태로 다면 구성이 가능하다. 
- 마지막으로 필터 변환을 추가하여, 다면 구성된 최상위 수준의 차트에 적용한다.  
  - 필터 변환을 앞 부분에서 막대그래프를 정의할 때 처리할 수도 있었는데,  
    이렇게 하면 다소 비효율적이다. 
  - 이렇게 하면 구성된 각각의 다면 셀마다 매번 필터링을 처리하게 된다.  
  - 다면 구성이 완성된 차트에 대해서 필터링을 지정하면,  
    베가-라이트가 다면 분할 작업을 수행하기 이전에 처음부터 필터링을 처리해 준다. 

In [22]:
colors = alt.Scale(
  domain=['drizzle', 'fog', 'rain', 'snow', 'sun'],
  range=['#aec7e8', '#c7c7c7', '#1f77b4', '#9467bd', '#e7ba52']
)

alt.Chart().mark_bar().encode(                              # 데이터 원천, 필터 변환, column 채널 지정 생략
  alt.X('temp_max:Q', bin=True, title='Temperature (°C)'),
  alt.Y('count():Q'),
  alt.Color('weather:N', scale=colors)
).properties(
  width=150,
  height=150
).facet(                                                    # facet() 메소드에서 data와 column 인수 지정
  data=weather,
  column='weather:N'
).transform_filter(                                         # 필터 변환을 마지막에 처리 
  'datum.location == "Seattle"'
)

- 명시적으로 `facet()` 메소드를 호출하려는 이유는 무엇일까?  
  - 기본적인 차트라면, `column` 및 `row` 인코딩 채널을 쓰는 편이 훨씬 간편하다. 
  - 겹쳐진 다층 차트 같은 뷰를 다면 구성하려는 경우라면,  
    `facet()` 메소드를 명시적으로 호출하는 편이 더 유리하다. 
- 앞서 작성했던 최소/최대 기온과 중간 기온을 겹쳐서 만들었던 다층 차트에 대해 다시 생각해 보자.
  - 뉴욕과 시애틀을 단일 차트로 시각화하는 대신에, 분리된 다면 차트로 구성할 수 있다. 
  - 개별적인 차트 정의는 앞선 경우와 거의 유사하게,  
    최소/최대 기온 면적 차트와 중간 기온 꺽은선 차트를 겹쳐서 작성할 것이다. 
  - 달라져야 할 점은 차트 생성자에게 데이터를 직접 전달하지 말아야 한다는 것이다.
  - `facet()` 연산자 호출 단계에서 데이터를 전달해야 한다.
  - 앞서와 같은 방법으로 차트를 다층으로 겹치고,  
    겹쳐진 차트 객체에 대하여 `facet()` 메소드를 호출하면서  
    `column='location:N'`으로 인수를 지정하여 다면 구성을 처리한다.  

In [23]:
tempMinMax = alt.Chart().mark_area(opacity=0.3).encode(            # 최소/최대 기온 면적 차트 정의(데이터 전달 생략)
  alt.X('month(date):T', title=None, axis=alt.Axis(format='%b')),
  alt.Y('average(temp_max):Q', title='Avg. Temperature (°C)'),
  alt.Y2('average(temp_min):Q'),
  alt.Color('location:N')
)

tempMid = alt.Chart().mark_line().transform_calculate(             # 중간 기온 꺽은선 차트 정의(데이터 전달 생략)
  temp_mid='(+datum.temp_min + +datum.temp_max) / 2'
).encode(
  alt.X('month(date):T'),
  alt.Y('average(temp_mid):Q'),
  alt.Color('location:N')
)

alt.layer(tempMinMax, tempMid).facet(                              # 다층 구성 및 다면 구성
  data=weather,
  column='location:N'
)

- 지금까지 공부한 다면 구성 차트는 모든 다면 셀에 대하여 동일한 축 스케일 도메인을 사용했다.
  - 기본값에 의하여 *공용* 스케일과 축을 사용하는 것이 값의 정확한 비교에 도움이 되었다. 
  - 하지만 어떤 경우에는 각 차트마다 독립적인 스케일과 축을 원할 수도 있다.  
    특히 다면 셀마다 값의 범위가 많이 다른 경우에는 그럴 수 있다. 
- 다층으로 겹쳐진 차트와 유사하게, 다면 구성 차트에서도 차트마다 독립적인 스케일이나 축을 쓸 수 있다.  
  `resolve_axis()` 메소드에서 독립적인 `independent` y-축을 요청하면 어떻게 될까? 

In [24]:
tempMinMax = alt.Chart().mark_area(opacity=0.3).encode(
  alt.X('month(date):T', title=None, axis=alt.Axis(format='%b')),
  alt.Y('average(temp_max):Q', title='Avg. Temperature (°C)'),
  alt.Y2('average(temp_min):Q'),
  alt.Color('location:N')
)

tempMid = alt.Chart().mark_line().transform_calculate(
  temp_mid='(+datum.temp_min + +datum.temp_max) / 2'
).encode(
  alt.X('month(date):T'),
  alt.Y('average(temp_mid):Q'),
  alt.Color('location:N')
)

alt.layer(tempMinMax, tempMid).facet(
  data=weather,
  column='location:N'
).resolve_axis(y='independent')                                      # 독립적 y-축                               

- 위 차트는 이전 차트와 비슷해보이지만, `resolve_axis()` 호출로 인하여 시애틀 차트에 독자적인 축을 가진다. 

- 스케일 도메인을 독립적으로 처리하기 위하여, `resolve_scale()` 메소드를 사용하면 어떻게 될까?

In [25]:
tempMinMax = alt.Chart().mark_area(opacity=0.3).encode(
  alt.X('month(date):T', title=None, axis=alt.Axis(format='%b')),
  alt.Y('average(temp_max):Q', title='Avg. Temperature (°C)'),
  alt.Y2('average(temp_min):Q'),
  alt.Color('location:N')
)

tempMid = alt.Chart().mark_line().transform_calculate(
  temp_mid='(+datum.temp_min + +datum.temp_max) / 2'
).encode(
  alt.X('month(date):T'),
  alt.Y('average(temp_mid):Q'),
  alt.Color('location:N')
)

bc = alt.layer(tempMinMax, tempMid).facet(
  data=weather,
  column='location:N'
).resolve_scale(y='independent')                                      # 독립적 스케일

bc

In [26]:
bc

- 두 차트가 서로 다른 축 스케일 도메인으로 시각화 되었다. 
  - 이 경우에 독립적 스케일을 쓰는 것이 적절하지는 않아 보인다. 
  - 두 도메인이 크게 다르지는 않다.  
    오히려 독립적 스케일로 인하여 뉴욕과 시애틀의 온도 차이가 얼마 되지 않는다고 착각하기 쉽다. 
- 할 수 있다고, 모두 해도 되는 것은 아니다!

## 4. 병합

- 다면 구성은 데이터를 분할하여 다수의 작은 [small multiple](https://en.wikipedia.org/wiki/Small_multiple) 플롯을 만들어 낸다. 
- 하지만 다른 관점에서 다중 뷰 시각화를 만들고 싶을 수 있다. 
  - *같은* 데이터 세트의 상이한 뷰로 다중 뷰 시각화
  - *다른* 데이터 세트에 관련된 뷰로 다중 뷰 시각화
- *병합*(*concatenation*) 연산자를 써서 임의의 차트들을 단일 차트로 구성할 수 있다.  
  - `hconcat()` 메소드 또는 `|` 연산자로 수평 병합
  - `vconcat()` 메소드 또는 `&` 연산자로 수직 병합

- 뉴욕과 시애틀에 대하여 일별 최고 기온의 월별 평균치를 보여주는 기본적인 꺽은선 차트에서 시작하자. 

In [27]:
alt.Chart(weather).mark_line().encode(
  alt.X('month(date):T', title=None),
  alt.Y('average(temp_max):Q'),
  color='location:N'
)

- 시간에 따른 기온의 비교와 함께, 강수량과 풍속에 대해서도 두 도시를 비교하고 싶다고 가정하자. 
  - (기온, 강수량, 풍속에 관한) 3개 플롯으로 구성된 병합 차트를 만들려고 한다. 
  - "기본(base)" 차트 정의 작성부터 시작해야 하는데, 기본 차트에는 3개 플롯에서 공용으로 사용할 내용을 정의한다. 
  - 이어서 정의된 기본 차트를 수정해서,   
    세 필드 `temp_max`, `precipitation` 및 `wind`에 대한 개별적인 y-축 인코딩을 지정한다. 
  - 마지막으로 3개 플롯을 병합한다. 

In [28]:
base = alt.Chart(weather).mark_line().encode(            # 기본 차트에 공통적인 내용을 정의
  alt.X('month(date):T', title=None),
  color='location:N'
).properties(
  width=240,
  height=180
)

temp = base.encode(alt.Y('average(temp_max):Q'))         # 기본 차트에 y-축 인코딩 지정
precip = base.encode(alt.Y('average(precipitation):Q'))  # 기본 차트에 y-축 인코딩 지정
wind = base.encode(alt.Y('average(wind):Q'))             # 기본 차트에 y-축 인코딩 지정

temp | precip | wind                                     # 병합

- 파이프 `|` 연산자대신에, 더욱 명시적인 `alt.hconcat()` 메소드를 사용할 수 있다. 

In [29]:
alt.hconcat(temp, precip, wind)

- 수직 병합도 수평 병합과 유사하다. `&` 연산자 또는 `alt.vconcat` 메소드를 사용할 수 있다.

In [30]:
temp & precip & wind

- 마지막으로, 수평 및 수직 병합을 결합할 수 있다. 

In [31]:
(temp | precip) & wind

- 괄호의 중요성을 명심하라. 직전 코드에서 괄호를 제거하면 어떻게 되는가?  
  - 이들 연산자는 원래의 기능을 상속받아서 재정의(overload)되었는데,  
    여전히 [파이썬 연산자 우선순위](https://dojang.io/mod/page/view.php?id=2461) 규칙을 적용받는다. 
  - 따라서 수직 병합 `&` 연산이 수평 병합 `|` 연산보다 우선순위가 높다. 
- 나중에 다시 설명할 예정이지만, 병합 기능을 활용하면 어떤 차트이든지 가리지 않고,   
  모든 차트를 하나의 다중-뷰 대시보드(dashboard)로 구성할 수 있다. 

In [32]:
temp | precip & wind

## 5. 반복

- 병합 작업은 상당히 일반적이므로, 어떠한 차트라도 구성할 수 있다.  
  - 그럼에도 불구하고, 앞선 예제는 다소 복잡하다. 
  - 유사한 3개 차트를 개별적으로 정의한 후, 병합했다. 
- 단지 변수 한개 혹은 두개가 바뀌는 경우라면, 반복 `repeat` 연산자를 써서 다중 차트를 쉽게 만들 수 있다. 
  일부 자유 변수를 가지는 *템플릿*(*template*) 명세를 지정하면,  
  반복 연산자가 이 자유 변수에 대한 반복적 대입을 통하여 차트를 만들어 낸다.
- 앞선 병합 예제를 `repeat` 연산자로 처리해 보자.  
  - 차트마다 달라져야 하는 부분은 `y` 인코딩 채널에 대한 데이터 필드의 선택일 뿐이다. 
  - 템플릿 명세를 작성하기 위하여,  
    *반복자 변수*(*repeater variable*) `alt.repeat('column')`를 y-축 필드로 사용할 수 있다. 
  - 이 반복자 변수에 대한 코드는, `column` 반복자에 대입되는 변수를 사용할 것이라는 표현이다.  
    - 이렇게 지정하여 반복적인 차트를 열 방향으로 구성한다. 
    - 반복자는 단지 필드 이름만 제공하기 때문에, 필드 데이터 유형을 별도로 `type='quantitative'`라고 명시한다. 
  - 최종적으로 `repeat()` 메소드를 호출하면서, 각 column에 대한 데이터 필드 이름을 전달한다. 

In [33]:
alt.Chart(weather).mark_line().encode(
  alt.X('month(date):T',title=None),
  alt.Y(alt.repeat('column'), aggregate='average', type='quantitative'),  # 반복자 변수 column을 지정, 필드 유형 별도 지정
  color='location:N'
).properties(
  width=240,
  height=180
).repeat(                                                                 # 변수 column에 대하여 반복할 데이터 필드 지정
  column=['temp_max', 'precipitation', 'wind']
)

- 반복은 `row`에 대해서도 (행 방향으로) 처리 가능하다. 

In [34]:
alt.Chart(weather).mark_line().encode(
  alt.X('month(date):T',title=None),
  alt.Y(alt.repeat('row'), aggregate='average', type='quantitative'),  # 반복자 변수 row를 지정, 필드 유형 별도 지정
  color='location:N'
).properties(
  width=240,
  height=180
).repeat(                                                              # 변수 row에 대하여 반복할 데이터 필드 지정
  row=['temp_max', 'precipitation', 'wind']
)

- `row` 및 `column` 반복을 함께 사용할 수 있다.  
  - 탐색적 데이터 분석(exploratory data analysis)을 위한 시각화에서  
    산점도 행렬([scatter plot matrix (or SPLOM)](https://en.wikipedia.org/wiki/Scatter_plot#Scatterplot_matrices))은 자주 사용된다. 
  - 검토할 변수 컬렉션이 주어진 상황에서,  
    SPLOM은 이들 변수들의 모든 순서쌍에 대한 플롯을 그리드 형태로 제공함으로써,  
    숨겨진 상관성을 찾아내도록 도와준다. 
- `repeat` 메소드를 써서 `temp_max`, `precipitation` 및 `wind` 필드에 대한 SPLOM을 시각화해 보자. 
  - 먼저 템플릿 명세를 만드는데, x-축 및 y-축 데이터 필드 모두에 대한 반복자 변수를 지정해야 한다. 
  - `repeat` 메소드를 호출하면서 `row`와 `column`으로 사용할 필드 이름의 배열을 전달한다. 
  - 이렇게 하면,  
    알테어가 크로스 곱 또는 카티션 곱 [cross product (or, Cartesian product)](https://en.wikipedia.org/wiki/Cartesian_product)을 생성하여 반복되는 차트 행렬을 시각화한다. 

In [35]:
SPLOM = alt.Chart().mark_point(filled=True, size=15, opacity=0.5).encode(
  alt.X(alt.repeat('column'), type='quantitative'),                # x-축 반복자 필드 column 지정
  alt.Y(alt.repeat('row'), type='quantitative')                    # y-축 반복자 필드 row 지정
).properties(
  width=150,
  height=150
).repeat(                                           
  data=weather,
  row=['temp_max', 'precipitation', 'wind'],                       # row 반복 필드의 배열
  column=['wind', 'precipitation', 'temp_max']                     # column 반복 필드의 배열
).transform_filter(
  'datum.location == "Seattle"'
)

SPLOM

- 강수량(precipitation)과 바람(wind) 간의 강한 상관성은 확인하기 어렵다.  
  하지만 강풍과 폭우가 비슷한 기온 범위 (5-15° C)에서 발생한다.  
  그렇지만 이러한 관찰이 특별히 놀라울 것도 없다.  
  다면 구성에 관한 시작 부분에서 작성했던 기온에 관한 막대그래프를 보면, 최고 기온이 5-15° C 범위에 있는 날이 매우 일상적이다. 

In [36]:
SPLOM

- 차트 반복을 더 잘 이해하기 위해서 위 코드를 수정하자.  
  - SPLOM에 변수 `temp_min`를 추가해 보자. 
  - `repeat` 메소드에 대한 `row` 또는 `column` 인자의 필드이름 순서를 조정해 보자. 

In [37]:
SPLOM = alt.Chart().mark_point(filled=True, size=15, opacity=0.5).encode(
  alt.X(alt.repeat('column'), type='quantitative'),                # x-축 반복자 필드 column 지정
  alt.Y(alt.repeat('row'), type='quantitative')                    # y-축 반복자 필드 row 지정
).properties(
  width=150,
  height=150
).repeat(                                           
  data=weather,
  row=['temp_max', 'temp_min', 'precipitation', 'wind'],           # row 반복 필드의 배열
  column=['wind', 'precipitation', 'temp_min', 'temp_max']         # column 반복 필드의 배열
).transform_filter(
  'datum.location == "Seattle"'
)

SPLOM

- 최소 기온과 최대 기온 간의 강력한 상관성을 확인할 수 있다. 

In [38]:
SPLOM

- 마지막으로, `repeat` 메소드의 기능을 제대로 이해하기 위하여,  
  단지 `hconcat`과 `vconcat`만으로 SPLOM을 시각화하려면 어떻게 해야 하는지를 고민해 보라. 

## 6. 뷰 구성 연산자

- 구성 메소드 `layer`, `facet`, `concat` 및 `repeat`를 조합하면 다양한 다중 뷰 시각화가 가능하다. 
- 예를 들기 위하여, 기본적 차트 두 개로 시작하자: 
  - 최고 기온의 평균값을 월별로 보여주는 막대그래프 
  - 단일 `rule` 마크로 최고 기온의 전체 평균을 보여주는 단순 꺽은선 차트

In [39]:
basic1 = alt.Chart(weather).transform_filter(  
  'datum.location == "Seattle"'
).mark_bar().encode(                           # 막대그래프
  alt.X('month(date):O'),
  alt.Y('average(temp_max):Q')
)

basic2 = alt.Chart(weather).transform_filter(
  'datum.location == "Seattle"'
).mark_rule(stroke='firebrick').encode(        # 꺽은선 차트  
  alt.Y('average(temp_max):Q')
)

basic1 | basic2

- 이제 이 두 차트를 `layer` 메소드로 결합하고,  
  막대그래프 위에 전체 평균 기온 라인을 겹처서 표시한 차트를  
  `['temp_max', 'precipitation', 'wind']`에 대하여 `repeat` 메소드로 다면 구성하자.  

In [40]:
faces = alt.layer(                                                                 # 다층으로 겹친 기본 템플릿
  alt.Chart().mark_bar().encode(
    alt.X('month(date):O', title='Month'),
    alt.Y(alt.repeat('column'), aggregate='average', type='quantitative')      # column 필드의 월별 평균 막대
  ),
  alt.Chart().mark_rule(stroke='firebrick').encode(
    alt.Y(alt.repeat('column'), aggregate='average', type='quantitative')      # column 필드의 전체 평균 수평선
  )
).properties(                
  width=200,
  height=150
).repeat(                                                                  # 반복   
  data=weather,
  column=['temp_max', 'precipitation', 'wind']                                 # column에 반복될 필드
).transform_filter(
  'datum.location == "Seattle"'
)
faces 

- 다중-뷰 구성 메소드에만 집중하자면, 앞의 시각화를 위한 모델은 다음과 같다. 
```
repeat(column=[...])
|- layer
   |- basic1
   |- basic2
```

In [41]:
faces 

- 이제 시애틀 날씨를 개괄하는 최종적인 대시보드 [dashboard](https://en.wikipedia.org/wiki/Dashboard_%28business%29) 내부에서  
  이 모든 메소드를 어떻게 적용해야 하는지 궁리해 보자.  
- 세 종류 차트를 종합하는 대시보드를 만들자. 
  - 앞에서 작성했던 SPLOM (3x3 종)
  - 직전에 작성한 다면 구성 겹침 차트 3 종
  - 다면 구성에서 작성했던 기온 차트 5 종

In [42]:
splom = alt.Chart().mark_point(filled=True, size=15, opacity=0.5).encode(  # SPLOM 3x3 종
  alt.X(alt.repeat('column'), type='quantitative'),
  alt.Y(alt.repeat('row'), type='quantitative')
).properties(
  width=125,
  height=125
).repeat(
  row=['temp_max', 'precipitation', 'wind'],
  column=['wind', 'precipitation', 'temp_max']
)

layeredHist = alt.layer(                                                      # 겹침 차트 3 종
  alt.Chart().mark_bar().encode(
    alt.X('month(date):O', title='Month'),
    alt.Y(alt.repeat('row'), aggregate='average', type='quantitative')
  ),
  alt.Chart().mark_rule(stroke='firebrick').encode(
    alt.Y(alt.repeat('row'), aggregate='average', type='quantitative')
  )
).properties(
  width=175,
  height=125
).repeat(
  row=['temp_max', 'precipitation', 'wind']
)

tempHist = alt.Chart(weather).mark_bar().encode(                              # 기온 차트 5 종
  alt.X('temp_max:Q', bin=True, title='Temperature (°C)'),
  alt.Y('count():Q'),
  alt.Color('weather:N', scale=alt.Scale(
    domain=['drizzle', 'fog', 'rain', 'snow', 'sun'],
    range=['#aec7e8', '#c7c7c7', '#1f77b4', '#9467bd', '#e7ba52']
  ))
).properties(
  width=115,
  height=100
).facet(
  column='weather:N'
)

alt.vconcat(
  alt.hconcat(splom, layeredHist),    # (SPLOM | layeredHist)
  tempHist,                           # (SPLOM | layeredHist) & tempHist
  data=weather,
  title='Seattle Weather Dashboard'   # 차트 전체 제목
).transform_filter(
  'datum.location == "Seattle"'
).resolve_legend(
  color='independent'
).configure_axis(
  labelAngle=0
)

- 이 대시보드를 위한 전체적인 구성 모형은 다음과 같다. 

```
vconcat
|- hconcat
|  |- repeat(row=[...], column=[...])
|  |  |- splom base chart
|  |- repeat(row=[...])
|     |- layer
|        |- layeredHist base chart 1
|        |- layeredHist base chart 2
|- facet(column='weather')
   |- tempHist base chart
```
- 대시보드에는 레이아웃을 개선하기 위한 약간의 맞춤형 설정이 포함되었다.
  - 차트 `width`와 `height` 속성을 조절하여, 정렬을 맞추었고, 전체 화면 크기에 맞추었다. 
  - `resolve_legend(color='independent')`를 추가하여, 하단의 온도 막대그래프에 대한 색상 범례로 처리하였다.  
    이렇게 하지 않으면, 범례가 대시보드 전체에 대한 것이 될 것이다. 
  - `configure_axis(labelAngle=0)`를 추가하여, 모든 축에서 레이블 회전을 방지하였다.  
    이렇게 해야 SPLOM 내부의 산점도와 우측의 월별 막대그래프가 적절하게 정렬된다. 
- 이렇게 조절한 사항들을 제거하거나 수정하여 대시보드 레이아웃이 어덯게 변하는지 살펴보라. 
- 이 대시보드는 다른 도시에 관한 데이터를 보여주기 위하여 재사용 가능하다.  
  시애틀 대신에 뉴욕의 기상 패턴을 보여주는 대시보드로 수정해 보라. 

## 7. 요약

- 하위 플롯의 간격 및 헤더 레이블 등에 관한 조정을 포함하는  
  다중-뷰 구성에 관한 더 상세한 내용에 대해서는 [Altair Compound Charts documentation](https://altair-viz.github.io/user_guide/compound_charts.html) 자료를 참고하라. 
- 지금까지 다중 뷰 구성 방법을 공부하였다.  
  - 통계적 데이터 시각화 기법과 함께 사용된다면, 다중 뷰를 통하여 상호작용적 다차원 탐색을 수행할 수 있다.
  - 예를 들어서 _연동되는 선택_(_linked selections_)을 활용하여,  
    어느 한쪽 뷰에서 데이터 점들을 선택하여 강조할 때,  
    다른 뷰에서 대응되는 데이터 점들이 실시간으로 연동되어 강조되는 시각화를 완성할 수 있다.
- 6장에서는 개별적인 플롯이나 다중-뷰 구성에서  
  *상호작용적 선택*(*interactive selections*)을 가능하게 해주는 시각화 기법을 공부하자. 