# 데이터의 유형, 시각 기호, 인코딩 채널

시각화는 _시각 기호_(막대, 선, 점 등)의 집합을 사용하여 데이터를 나타냅니다. 기호의 위치, 모양, 크기 또는 색상과 같은 속성은 데이터 값을 인코딩할 수 있는 _채널_ 역할을 합니다.

In [1]:
import pandas as pd
import altair as alt

## Global Development 데이터


1955년부터 2005년까지 여러 국가의 글로벌 건강 및 인구 데이터를 시각화할 예정입니다. 

먼저 [vega-datasets](https://github.com/vega/vega-datasets) 컬렉션의 데이터셋을 판다스 데이터 프레임에 로드해 보겠습니다.

In [2]:
from vega_datasets import data as vega_data
data = vega_data.gapminder()

데이터를 살펴보겠습니다

In [3]:
data.shape

(693, 6)

In [4]:
data.head(5)

Unnamed: 0,year,country,cluster,pop,life_expect,fertility
0,1955,Afghanistan,0,8891209,30.332,7.7
1,1960,Afghanistan,0,9829450,31.997,7.7
2,1965,Afghanistan,0,10997885,34.02,7.7
3,1970,Afghanistan,0,12430623,36.088,7.7
4,1975,Afghanistan,0,14132019,38.438,7.7


2000년에 해당하는 값으로만 필터링된 더 작은 데이터 프레임을 만들어 보겠습니다:

In [5]:
data2000 = data.loc[data['year'] == 2000]

In [6]:
data2000.head(5)

Unnamed: 0,year,country,cluster,pop,life_expect,fertility
9,2000,Afghanistan,0,23898198,42.129,7.4792
20,2000,Argentina,3,37497728,74.34,2.35
31,2000,Aruba,3,69539,73.451,2.124
42,2000,Australia,4,19164620,80.37,1.756
53,2000,Austria,1,8113413,78.98,1.382


## 데이터의 유형


효과적인 비주얼리제이션의 첫 번째 요소는 입력 데이터입니다. 데이터 값은 다양한 형태의 측정값을 나타낼 수 있습니다. 이러한 측정값은 어떤 종류의 비교를 지원합니까? 그리고 어떤 종류의 시각적 인코딩이 이러한 비교를 지원할까요?

먼저 Altair가 시각적 인코딩 선택에 사용하는 기본 데이터 유형을 살펴보겠습니다. 이러한 데이터 유형은 우리가 할 수 있는 비교의 종류를 결정하며, 이를 통해 시각화 디자인 결정을 내릴 수 있도록 안내합니다.

### 명목형 데이터(N)

*명목형 데이터*(범주형 데이터라고도 함)는 범주 이름으로 구성됩니다. 

명목 데이터를 사용하면 값의 동일성을 비교할 수 있습니다: *값 A가 값 B와 같습니까, 다른가요? (A = B)*, "A는 B와 같다" 또는 "A는 B와 같지 않다"와 같은 
위의 데이터 집합에서 '국가' 필드는 명목형입니다.

명목 데이터를 시각화할 때는 값이 같은지 다른지 쉽게 확인할 수 있어야 합니다. 위치, 색조(파란색, 빨간색, 녹색, *등*), 모양이 도움이 될 수 있습니다. 그러나 크기 채널을 사용하여 명목 데이터를 인코딩하면 존재하지 않는 값의 순위나 크기 차이를 암시하여 오해의 소지가 있을 수 있습니다!

### 순서형 데이터(O)

*순서형 데이터*는 특정 순서를 가진 값으로 구성됩니다.

순서형 데이터를 사용하면 값의 순위 순서를 비교할 수 있습니다: *값 A가 값 B보다 앞에 오나요, 뒤에 오나요? (A < B)*, "A는 B보다 작다" 또는 "A는 B보다 크다"와 같은 진술을 뒷받침합니다.
위의 데이터 집합에서 'year' 필드를 서수로 처리할 수 있습니다.

서수 데이터를 시각화할 때는 서열을 인식해야 합니다. 위치, 크기 또는 색상 값(밝기)이 적절할 수 있지만, 지각적으로 순서가 정해져 있지 않은 색상 색조는 적절하지 않을 수 있습니다.

### 정량적 데이터(Q)

*정량적 데이터*를 사용하면 값 간의 수치적 차이를 측정할 수 있습니다. 정량적 데이터에는 여러 하위 유형이 있습니다:

*간격 데이터*의 경우 점 사이의 거리(간격)를 측정할 수 있습니다: *값 A에서 값 B까지의 거리는 얼마입니까? (A - B)*, "A는 B에서 12단위 떨어져 있습니다."와 같은 문장을 뒷받침할 수 있습니다.

*비율* 데이터의 경우 영점이 의미가 있으므로 비율 또는 척도 계수를 측정할 수도 있습니다: *값 A는 값 B의 몇 퍼센트입니까? (A/B)*, "A는 B의 10%입니다." 또는 "B는 A보다 7배 큽니다."와 같은 진술을 사용할 수 있습니다.

위의 데이터 집합에서 'year'는 정량적 간격 필드(연도 '0'의 값은 주관적임)이고, 'fertility'와 'life_expect'는 정량적 비율 필드(비율을 계산할 때 0이 의미 있음)입니다.

정량적 값은 다른 채널 중에서도 위치, 크기 또는 색상 값 등을 사용하여 시각화할 수 있습니다. 기준선이 0인 축은 비율 값의 비례 비교에 필수적이지만, 구간 비교의 경우 생략해도 됩니다.

### 시간 데이터(T)

*시간 데이터*는 시점 또는 간격을 측정합니다.

시간 값의 예로는 `"2019-01-04"` 및 `"Jan 04 2019"`와 같은 날짜 문자열과 [ISO 날짜-시간 형식](https://en.wikipedia.org/wiki/ISO_8601)과 같은 표준화된 날짜-시간이 포함됩니다: `“2019-01-04T17:50:35.643Z”`.

## 인코딩 채널

Altair의 핵심은 데이터 필드(지정된 데이터 유형)를 선택한 *기호* 유형의 사용 가능한 *채널*에 바인딩하는 *인코딩*을 사용하는 것입니다.

- `x`: 가로 축
- `y`: 세로 축
- `size`: 시각 기호의 크기
- `color`: 시각 기호의 색
- `opacity`: 시각 기호의 불투명도 (0은 완전 투명, 1은 완전 불투명)
- `tooltip`: 마우스를 올렸을 때 나타나는 설명
- `column`: 시각화 여러개를 가로로 병치
- `row`: 시각화 여러개를 세로로 병치

### X

In [7]:
alt.Chart(data2000).mark_point().encode(
    alt.X('fertility:Q')
)

### Y

In [8]:
alt.Chart(data2000).mark_point().encode(
    alt.X('fertility:Q'),
    alt.Y('cluster:O')
)

In [9]:
alt.Chart(data2000).mark_point().encode(
    alt.X('fertility:Q'),
    alt.Y('life_expect:Q')
)

### 크기

In [11]:
alt.Chart(data2000).mark_point().encode(
    alt.X('fertility:Q'),
    alt.Y('life_expect:Q'),
    alt.Size('pop:Q')
)

### 색과 불투명도

In [13]:
alt.Chart(data2000).mark_point().encode(
    alt.X('fertility:Q'),
    alt.Y('life_expect:Q'),
    alt.Size('pop:Q'),
    alt.Color('cluster:N')
)

In [14]:
alt.Chart(data2000).mark_point(filled=True).encode(
    alt.X('fertility:Q'),
    alt.Y('life_expect:Q'),
    alt.Size('pop:Q'),
    alt.Color('cluster:N')
)

In [15]:
alt.Chart(data2000).mark_point(filled=True).encode(
    alt.X('fertility:Q'),
    alt.Y('life_expect:Q'),
    alt.Size('pop:Q'),
    alt.Color('cluster:N'),
    alt.OpacityValue(0.5)
)

### 모양

In [16]:
alt.Chart(data2000).mark_point(filled=True).encode(
    alt.X('fertility:Q'),
    alt.Y('life_expect:Q'),
    alt.Size('pop:Q'),
    alt.Color('cluster:N'),
    alt.OpacityValue(0.5),
    alt.Shape('cluster:N')
)

### 툴팁

In [17]:
alt.Chart(data2000).mark_point(filled=True).encode(
    alt.X('fertility:Q'),
    alt.Y('life_expect:Q'),
    alt.Size('pop:Q'),
    alt.Color('cluster:N'),
    alt.OpacityValue(0.5),
    alt.Tooltip('country')
)

In [19]:
alt.Chart(data2000).mark_point(filled=True).encode(
    alt.X('fertility:Q'),
    alt.Y('life_expect:Q'),
    alt.Size('pop:Q'),
    alt.Color('cluster:N'),
    alt.OpacityValue(0.5),
    tooltip = [
        alt.Tooltip('country:N'),
        alt.Tooltip('fertility:Q'),
        alt.Tooltip('life_expect:Q')
    ]   
)

### 가로와 세로 병치

In [20]:
alt.Chart(data2000).mark_point(filled=True).encode(
    alt.X('fertility:Q'),
    alt.Y('life_expect:Q'),
    alt.Size('pop:Q'),
    alt.Color('cluster:N'),
    alt.OpacityValue(0.5),
    alt.Tooltip('country:N'),
    alt.Column('cluster:N')
)

In [None]:
alt.Chart(data2000).mark_point(filled=True).encode(
    alt.X('fertility:Q'),
    alt.Y('life_expect:Q'),
    alt.Size('pop:Q', legend=alt.Legend(orient='bottom', titleOrient='left')),
    alt.Color('cluster:N', legend=None),
    alt.OpacityValue(0.5),
    alt.Tooltip('country:N'),
    alt.Column('cluster:N')
).properties(width=135, height=135)

## 시각 기호

위의 인코딩 채널에 대한 탐색에서는 데이터를 시각화하기 위해 '포인트' 마크만 사용했습니다. 그러나 '포인트' 마크 유형은 데이터를 시각적으로 표현하는 데 사용할 수 있는 많은 기하학적 모양 중 하나에 불과합니다. Altair에는 다음과 같은 여러 가지 기본 제공 마크 유형이 포함되어 있습니다:

- `mark_area()` - 선과 축으로 둘러쌓인 영역
- `mark_bar()` -	막대
- `mark_line()` - 선
- `mark_point()` - 점
- `mark_rect()` - 사각형
- `mark_rule()` - 축을 포함한 직선
- `mark_tick()` - 가로 혹은 세로의 얇은 선 (Tick)

### 점 기호

In [23]:
alt.Chart(data2000).mark_point().encode(
    alt.X('fertility:Q'),
    alt.Y('cluster:N'),
    alt.Shape('cluster:N')
)

In [24]:
alt.Chart(data2000).mark_point(filled=True, size=100).encode(
    alt.X('fertility:Q'),
    alt.Y('cluster:N'),
    alt.Shape('cluster:N')
)

### Tick 기호

In [27]:
alt.Chart(data2000).mark_tick().encode(
    alt.X('fertility:Q'),
    alt.Y('cluster:N'),
    alt.Shape('cluster:N')
)

### 막대 기호

In [28]:
alt.Chart(data2000).mark_bar().encode(
    alt.X('country:N'),
    alt.Y('pop:Q')
)

막대를 쌓아서 쌓인 막대 그래프 (Stacked Bar Chart)를 만들 수도 있습니다.

In [29]:
alt.Chart(data2000).mark_bar().encode(
    alt.X('cluster:N'),
    alt.Y('pop:Q'),
    alt.Color('country:N', legend=None),
    alt.Tooltip('country:N')
)

막대의 끝값이 아니라 시작값을 전달할 수도 있습니다.

In [30]:
alt.Chart(data2000).mark_bar().encode(
    alt.X('min(life_expect):Q'),
    alt.X2('max(life_expect):Q'),
    alt.Y('cluster:N')
)

### 선 기호

In [31]:
alt.Chart(data).mark_line().encode(
    alt.X('year:O'),
    alt.Y('fertility:Q'),
    alt.Color('country:N', legend=None),
    alt.Tooltip('country:N')
).properties(
    width=400
)

In [32]:
alt.Chart(data).mark_line(
    strokeWidth=3,
    opacity=0.5,
    interpolate='monotone'
).encode(
    alt.X('year:O'),
    alt.Y('fertility:Q'),
    alt.Color('country:N', legend=None),
    alt.Tooltip('country:N')
).properties(
    width=400
)

### 영역 기호

In [34]:
dataUS = data.loc[data['country'] == 'United States']

alt.Chart(dataUS).mark_area().encode(
    alt.X('year:O'),
    alt.Y('fertility:Q')
)

In [35]:
alt.Chart(dataUS).mark_area(interpolate='monotone').encode(
    alt.X('year:O'),
    alt.Y('fertility:Q')
)

`bar` 처럼 `area`도 쌓을 수 있습니다 (Stacked Area)

In [36]:
dataNA = data.loc[
    (data['country'] == 'United States') |
    (data['country'] == 'Canada') |
    (data['country'] == 'Mexico')
]

alt.Chart(dataNA).mark_area().encode(
    alt.X('year:O'),
    alt.Y('pop:Q'),
    alt.Color('country:N')
)

쌓지 않고 중첩할 수도 있습니다

In [38]:
alt.Chart(dataNA).mark_area(opacity=0.5).encode(
    alt.X('year:O'),
    alt.Y('pop:Q', stack=None),
    alt.Color('country:N')
)

영억 기호는 최대 최소 등을 동시에 표현할 때 용이합니다

In [40]:
alt.Chart(dataNA).mark_area().encode(
    alt.Y('year:O'),
    alt.X('min(fertility):Q'),
    alt.X2('max(fertility):Q')
).properties(
    width={"step": 40}
)