(communicate-plots)=
# 소통을 위한 그래픽

## 소개

이 장에서는 시각화를 사용하여 소통하는 방법에 대해 배웁니다.

{ref}`exploratory-data-analysis`에서는 플롯을 *탐색* 도구로 사용하는 방법을 배웠습니다.
탐색적 플롯을 만들 때, 보기 전에도 플롯에 어떤 변수가 표시될지 알고 있습니다.
각 플롯을 특정 목적으로 만들고, 빠르게 살펴본 다음 다음 플롯으로 넘어갔습니다.
대부분의 분석 과정에서 수십 또는 수백 개의 플롯을 생성하며, 그중 대부분은 즉시 버려집니다.

이제 데이터를 이해했으므로 다른 사람에게 이해한 내용을 *전달*해야 합니다.
청중은 여러분의 배경 지식을 공유하지 않을 가능성이 높으며 데이터에 깊이 관여하지 않을 것입니다. 다른 사람들이 데이터에 대한 좋은 정신 모델을 빠르게 구축하도록 돕기 위해서는 플롯을 최대한 자명하게 만드는 데 상당한 노력을 기울여야 합니다. 이 장에서는 **lets-plot**이 차트에 스토리를 전달하기 위해 제공하는 몇 가지 도구를 배웁니다.

### 전제 조건

항상 그렇듯이 코드를 사용한 데이터 시각화에는 수많은 옵션(및 패키지)이 있습니다. 여기서는 **lets-plot**을 사용하는 선언적 "그래픽 문법" 접근 방식에 중점을 두고 있지만, 더 복잡한 그래픽을 찾는 고급 사용자는 훌륭한 **matplotlib**과 같은 명령형 라이브러리를 사용하고 싶을 수 있습니다. **lets-plot**과 **pandas**를 모두 설치해야 합니다. 설치한 후에는 다음과 같이 가져옵니다.

In [None]:
# 셀 제거
import matplotlib.pyplot as plt
import matplotlib_inline.backend_inline

# 플롯 설정
plt.style.use("https://github.com/aeturrell/python4DS/raw/main/plot_style.txt")
matplotlib_inline.backend_inline.set_matplotlib_formats("svg")

In [None]:
import numpy as np
import pandas as pd
from lets_plot import *

LetsPlot.setup_html()

## 레이블, 제목 및 기타 상황 정보

탐색적 그래픽을 설명적 그래픽으로 전환할 때 가장 쉽게 시작할 수 있는 부분은 좋은 레이블을 사용하는 것입니다. 1999년부터 2008년까지 38개 인기 자동차 모델의 연비를 다루는 MPG(갤런당 마일) 데이터를 사용한 예를 살펴보겠습니다.

In [None]:
# 데이터 로드
mpg = pd.read_csv(
    "https://vincentarelbundock.github.io/Rdatasets/csv/ggplot2/mpg.csv", index_col=0
)

고속도로에서의 연비가 엔진 배기량(리터)에 따라 어떻게 변하는지 보여주고자 합니다. 이러한 변수로 수행할 수 있는 가장 기본적인 차트는 다음과 같습니다.

In [None]:
(ggplot(mpg, aes(x="displ", y="hwy")) + geom_point())

이제 차트를 더 좋게 만들 유용한 추가 정보를 많이 추가할 것입니다. 플롯 제목의 목적은 주요 결과를 요약하는 것입니다.
플롯이 무엇인지 설명하는 제목(예: "엔진 배기량 대 연비 산점도")은 피하십시오.

다음을 수행할 것입니다.

- 시청자가 가져가기를 원하는 주요 결과를 요약하는 제목 추가 (단순히 명백한 것을 설명하는 제목과 반대)
- y축에 대한 추가 정보를 제공하는 부제목 추가 및 x 레이블을 더 이해하기 쉽게 만들기
- 보기 불편한 각도의 y축 레이블 제거
- 데이터 출처가 있는 캡션 추가

이 모든 것을 종합하면 다음과 같습니다.

In [None]:
(
    ggplot(mpg, aes(x="displ", y="hwy"))
    + geom_point(aes(colour="class"))
    + geom_smooth(se=False, method="loess", size=1)
    + labs(
        title="연비는 일반적으로 엔진 크기에 따라 감소합니다.",
        subtitle="고속도로 연비 (갤런당 마일)",
        caption="출처: fueleconomy.gov",
        y="",
        x="엔진 배기량 (리터)",
    )
)

이것은 훨씬 명확합니다. 읽기 쉽고, 데이터 출처를 알 수 있으며, 왜 보여주는지도 알 수 있습니다.

하지만 다른 메시지를 원할 수도 있습니다. 필요에 따라 유연하게 조정할 수 있으며, 일부 사람들은 부제목이 더 많은 컨텍스트를 제공할 수 있도록 y축을 회전시키는 것을 선호합니다.

In [None]:
(
    ggplot(mpg, aes(x="displ", y="hwy"))
    + geom_point(aes(colour="class"))
    + geom_smooth(se=False, method="loess", size=1)
    + labs(
        x="엔진 배기량 (L)",
        y="고속도로 연비 (mpg)",
        colour="차종",
        title="연비는 일반적으로 엔진 크기에 따라 감소합니다.",
        subtitle="2인승(스포츠카)은 가벼운 무게 때문에 예외입니다.",
        caption="출처: fueleconomy.gov",
    )
)

### 연습

1. 사용자 정의된 `title`, `subtitle`, `caption`, `x`, `y` 및 `color` 레이블을 사용하여 연비 데이터에 대한 플롯 하나를 만듭니다.

2. 연비 데이터를 사용하여 다음 플롯을 다시 만듭니다.
    점의 색상과 모양은 구동 방식 유형에 따라 다릅니다.

In [None]:
(
    ggplot(mpg, aes(x="cty", y="hwy", color="drv", shape="drv"))
    + geom_point()
    + labs(
        x="도시 MPG",
        y="고속도로 MPG",
        shape="구동 방식\n유형",
        color="구동 방식\n유형",
    )
)

3. 지난 달에 만든 탐색적 그래픽을 가져와 다른 사람이 이해하기 쉽도록 유익한 제목을 추가합니다.

## 주석

플롯의 주요 구성 요소에 레이블을 지정하는 것 외에도 개별 관찰 또는 관찰 그룹에 레이블을 지정하는 것이 종종 유용합니다.
가장 먼저 사용할 수 있는 도구는 `geom_text()`입니다.
`geom_text()`는 `geom_point()`와 유사하지만 `label`이라는 추가 미학이 있습니다.
이를 통해 플롯에 텍스트 레이블을 추가할 수 있습니다.

레이블의 가능한 출처는 두 가지입니다. 데이터의 일부인 레이블은 `geom_text()`를 사용하여 추가하고, `geom_label()`을 사용하여 주석으로 직접 수동으로 추가하는 레이블입니다.

첫 번째 경우 레이블이 포함된 데이터 프레임이 있을 수 있습니다.
다음 플롯에서는 각 구동 유형에서 엔진 크기가 가장 큰 자동차를 추출하고 해당 정보를 `label_info`라는 새 데이터 프레임으로 저장합니다. 이를 만들 때 레이블을 지정할 지점으로 "drv"별 "hwy"의 평균값을 선택하지만 차트에서 잘 작동할 것이라고 생각되는 모든 집계를 수행할 수 있습니다.

In [None]:
mapping = {
    "4": "4륜 구동",
    "f": "전륜 구동",
    "r": "후륜 구동",
}
label_info = (
    mpg.groupby("drv")
    .agg({"hwy": "mean", "displ": "mean"})
    .reset_index()
    .assign(drive_type=lambda x: x["drv"].map(mapping))
    .round(2)
)
label_info

그런 다음 이 새 데이터 프레임을 사용하여 세 그룹에 직접 레이블을 지정하여 범례를 플롯에 직접 배치된 레이블로 바꿉니다. fontface 및 size 인수를 사용하여 텍스트 레이블의 모양을 사용자 정의할 수 있습니다. 플롯의 나머지 텍스트보다 크고 굵게 표시됩니다. (`theme(legend.position = "none")`은 모든 범례를 끕니다. 이에 대해서는 곧 자세히 설명하겠습니다.)

In [None]:
(
    ggplot(mpg, aes(x="displ", y="hwy", color="drv"))
    + geom_point(alpha=0.5)
    + geom_smooth(se=False, method="loess")
    + geom_text(
        aes(x="displ", y="hwy", label="drive_type"),
        data=label_info,
        fontface="bold",
        size=8,
        hjust="left",
        vjust="bottom",
    )
    + theme(legend_position="none")
)

`hjust`(가로 정렬) 및 `vjust`(세로 정렬)를 사용하여 레이블 정렬을 제어하는 데 유의하십시오.


살펴보고 있는 두 가지 방법 중 두 번째는 `geom_label()`입니다. 이것은 두 가지 모드가 있습니다. 첫 번째 모드에서는 `geom_text()`처럼 작동하지만 텍스트 주위에 상자가 있습니다. 다음과 같습니다.

In [None]:
potential_outliers = mpg.query("hwy > 40 | (hwy > 20 & displ > 5)")
(
    ggplot(mpg, aes(x="displ", y="hwy"))
    + geom_point(color="black")
    + geom_smooth(se=False, method="loess", color="black")
    + geom_point(
        data=potential_outliers,
        color="red",
    )
    + geom_label(
        aes(label="model"),
        data=potential_outliers,
        color="red",
        position=position_jitter(),
        fontface="bold",
        size=5,
        hjust="left",
        vjust="bottom",
    )
    + theme(legend_position="none")
)

두 번째 방법은 일반적으로 플롯에 단일 또는 여러 주석을 추가하는 데 유용합니다. 다음과 같습니다.

In [None]:
import textwrap

# 텍스트를 여러 줄로 줄 바꿈합니다.
trend_text = textwrap.fill("엔진 크기가 클수록 연비가 낮아지는 경향이 있습니다.", 30)
trend_text

In [None]:
(
    ggplot(mpg, aes(x="displ", y="hwy"))
    + geom_point()
    + geom_label(x=3.5, y=38, label=trend_text, hjust="left", color="red")
    + geom_segment(x=2, y=40, xend=5, yend=25, arrow=arrow(type="closed"), color="red")
)

주석은 시각화의 주요 내용과 흥미로운 특징을 전달하는 강력한 도구입니다. 유일한 한계는 상상력(그리고 미학적으로 만족스러운 주석을 배치하는 인내심)입니다!

`geom_text()` 및 `geom_label()` 외에도 플롯에 주석을 추가하는 데 도움이 되는 **lets-plot**의 다른 많은 지오메트리가 있습니다.
몇 가지 아이디어:

-   `geom_hline()` 및 `geom_vline()`을 사용하여 참조선을 추가합니다.
    종종 두껍게(`size = 2`) 회색(`color = gray`)으로 만들고 기본 데이터 계층 아래에 그립니다.
    이렇게 하면 데이터에서 주의를 끌지 않고 쉽게 볼 수 있습니다.

-   `geom_rect()`를 사용하여 관심 지점 주위에 사각형을 그립니다.
    사각형의 경계는 미학 `xmin`, `xmax`, `ymin`, `ymax`로 정의됩니다.

-   화살표로 지점에 주의를 끌기 위해 `arrow` 인수가 있는 `geom_segment()`를 사용하는 것을 이미 보았습니다.
    미학 `x` 및 `y`를 사용하여 시작 위치를 정의하고 `xend` 및 `yend`를 사용하여 끝 위치를 정의합니다.


### 연습

1. 무한 위치와 함께 `geom_text()`를 사용하여 플롯의 네 모서리에 텍스트를 배치합니다.

2. 데이터 프레임을 만들지 않고 마지막 플롯 중간에 점 지오메트리를 추가하려면 `geom_label()`을 사용합니다.
    점의 모양, 크기 또는 색상을 사용자 정의합니다.

3. `geom_text()`가 있는 레이블은 패싯과 어떻게 상호 작용합니까?
    단일 패싯에 레이블을 추가하려면 어떻게 해야 합니까?
    각 패싯에 다른 레이블을 넣으려면 어떻게 해야 합니까?
    (힌트: `geom_text()`에 전달되는 데이터 세트에 대해 생각해 보십시오.)

4. `geom_label()`의 어떤 인수가 배경 상자의 모양을 제어합니까?

5. `arrow()`의 네 가지 인수는 무엇입니까?
    어떻게 작동합니까?
    가장 중요한 옵션을 보여주는 일련의 플롯을 만듭니다.


## 스케일

플롯을 더 잘 전달하기 위해 할 수 있는 또 다른 방법은 스케일을 조정하는 것입니다.
스케일은 미적 매핑이 시각적으로 어떻게 나타나는지 제어합니다.

### 기본 스케일

일반적으로 **lets-plot**은 자동으로 스케일을 추가하므로 걱정할 필요가 없습니다. 예를 들어 다음과 같이 입력하면 됩니다.

```파이썬
(
    ggplot(mpg, aes(x="displ", y="hwy")) +
    geom_point(aes(color="class"))
)
```

**lets-plot**은 자동으로 이 작업을 백그라운드에서 수행합니다.

```파이썬
(
    ggplot(mpg, aes(x="displ", y="hwy")) +
    geom_point(aes(color="class")) +
    scale_x_continous() +
    scale_y_continuous() +
    scale_color_discrete()
)
```

스케일의 명명 규칙에 유의하십시오. `scale_` 다음에 미학 이름, 그 다음에 `_`, 그 다음에 스케일 이름이 옵니다.
기본 스케일은 정렬되는 변수 유형(연속형, 이산형, 날짜/시간형 또는 날짜형)에 따라 이름이 지정됩니다.
`scale_x_continuous()`는 `displ`의 숫자 값을 x축의 연속 숫자 선에 배치하고, `scale_color_discrete()`는 자동차의 각 `class`에 대한 색상을 선택하는 등의 작업을 수행합니다.
아래에서 배울 기본이 아닌 스케일이 많이 있습니다.

기본 스케일은 광범위한 입력에 대해 잘 작동하도록 신중하게 선택되었습니다.
그럼에도 불구하고 두 가지 이유로 기본값을 재정의하고 싶을 수 있습니다.

-   기본 스케일의 일부 매개변수를 조정하고 싶을 수 있습니다.
    이를 통해 축의 눈금이나 범례의 키 레이블을 변경하는 등의 작업을 수행할 수 있습니다.

-   스케일을 완전히 바꾸고 완전히 다른 알고리즘을 사용하고 싶을 수 있습니다.
    데이터에 대해 더 많이 알고 있기 때문에 종종 기본값보다 더 잘할 수 있습니다.


### 축 눈금 및 범례 키

축과 범례를 통칭하여 **lets-plot**에서는 다소 혼란스러운 이름인 **가이드**라고 합니다. 축은 x 및 y 미학에 사용되고 범례는 다른 모든 것에 사용됩니다.

축의 눈금과 범례의 키 모양에 영향을 미치는 두 가지 주요 인수는 `breaks`와 `labels`입니다.
Breaks는 눈금의 위치 또는 키와 관련된 값을 제어합니다. 원한다면 breaks가 눈금 *입니다*.
Labels는 각 눈금/키와 관련된 텍스트 레이블을 제어합니다. 이를 *눈금 레이블*이라고 더 정확하게 부를 수 있습니다.
`breaks`의 가장 일반적인 용도는 기본 선택을 재정의하는 것입니다.

In [None]:
(
    ggplot(mpg, aes(x="displ", y="hwy", color="drv"))
    + geom_point()
    + scale_y_continuous(breaks=np.arange(15, 40, step=5))
)

동일한 방식으로 `labels`를 사용할 수 있습니다(즉, `breaks`와 동일한 길이의 문자열 배열 또는 목록 전달). 이를 완전히 제거하려면 나중에 다시 다룰 주제인 테마를 사용해야 합니다.
범례 모양을 제어하기 위해 `breaks`와 `labels`를 사용할 수도 있습니다.
범주형 변수에 대한 이산 스케일의 경우 `labels`는 기존 수준 이름과 원하는 레이블의 명명된 목록이 될 수 있습니다.


In [None]:
(
    ggplot(mpg, aes(x="displ", y="hwy", color="drv"))
    + geom_point()
    + scale_color_discrete(labels=["4륜", "전륜", "후륜"])
)

눈금 레이블의 서식을 변경하려면 `format=` 키워드 인수를 사용합니다. 이는 통화, 백분율 등을 렌더링하는 데 유용하지만 독자가 축 레이블에서 이 기호를 한 번만 보는 것이 더 쉬운 경우가 많습니다.

아래 예에서는 `diamonds` 데이터 세트를 읽어온 다음 `format="$.2s"` 명령으로 서식을 지정합니다. 이를 분석해 보겠습니다.

- 달러 기호는 모든 숫자 앞에 달러 기호를 넣으라는 의미입니다.
- .2는 유효 숫자 두 자리를 사용하라는 의미입니다.
- s는 국제 단위계(SI)를 사용하라는 의미입니다.

서식 지정에는 다양한 대체 옵션이 있습니다. 자세한 내용은 **lets-plot** 설명서의 [서식 지정에 대한 유용한 페이지](https://lets-plot.org/pages/formats.html)를 사용하는 것이 가장 좋습니다.

In [None]:
diamonds = pd.read_csv(
    "https://vincentarelbundock.github.io/Rdatasets/csv/ggplot2/diamonds.csv",
    index_col=0,
)
diamonds["cut"] = diamonds["cut"].astype(
    pd.CategoricalDtype(
        categories=["Fair", "Good", "Very Good", "Premium", "Ideal"], ordered=True
    )
)
diamonds["color"] = diamonds["color"].astype(
    pd.CategoricalDtype(categories=["D", "E", "F", "G", "H", "I", "J"], ordered=True)
)

In [None]:
(
    ggplot(diamonds, aes(x="cut", y="price"))
    + geom_boxplot()
    + coord_flip()
    + scale_y_continuous(format="$.2s", breaks=np.arange(0, 19000, step=6000))
)

breaks의 또 다른 용도는 데이터 포인트가 비교적 적고 관찰이 발생하는 위치를 정확하게 강조 표시하려는 경우입니다. 예를 들어 각 미국 대통령이 임기를 시작하고 끝낸 시기를 보여주는 이 플롯을 살펴보십시오.

In [None]:
presidential = pd.read_csv(
    "https://vincentarelbundock.github.io/Rdatasets/csv/ggplot2/presidential.csv",
    index_col=0,
)
presidential = presidential.astype({"start": "datetime64[ns]", "end": "datetime64[ns]"})
presidential["id"] = 33 + presidential.index
presidential.head()

In [None]:
(
    ggplot(presidential, aes(x="start", y="id"))
    + geom_point()
    + geom_segment(aes(xend="end", yend="id"))
    + scale_x_datetime()
)

### 범례 레이아웃

축을 조정하기 위해 `breaks`와 `labels`를 가장 자주 사용할 것입니다.
둘 다 범례에도 작동하지만 더 자주 사용할 몇 가지 다른 기술이 있습니다.

범례의 전체 위치를 제어하려면 `theme()` 설정을 사용해야 합니다.
이 장의 끝에서 테마로 돌아올 것이지만 간단히 말해서 플롯의 비데이터 부분을 제어합니다.
테마 설정 `legend.position`은 범례가 그려지는 위치를 제어하며 이를 설명하기 위해 `gggrid()`를 사용하여 모든 플롯을 정렬합니다.

In [None]:
base = ggplot(mpg, aes(x="displ", y="hwy")) + geom_point(aes(color="class"))

p1 = base + theme(legend_position="right")  # 기본값
p2 = base + theme(legend_position="left")
p3 = base + theme(legend_position="top") + guides(color=guide_legend(nrow=3))
p4 = base + theme(legend_position="bottom") + guides(color=guide_legend(nrow=3))

gggrid([p1, p2, p3, p4], ncol=2)

플롯이 짧고 넓으면 범례를 위나 아래에 배치하고, 길고 좁으면 범례를 왼쪽이나 오른쪽에 배치합니다. `legend_position = "none"`을 사용하여 범례 표시를 완전히 억제할 수도 있습니다.

개별 범례 표시를 제어하려면 `guide_legend()` 또는 `guide_colorbar()`와 함께 `guides()`를 사용합니다.


### 스케일 바꾸기

세부 정보를 약간 조정하는 대신 스케일을 완전히 바꿀 수 있습니다.
가장 자주 바꾸고 싶은 스케일 유형은 연속 위치 스케일과 색상 스케일 두 가지입니다.
다행히 다른 모든 미학에도 동일한 원칙이 적용되므로 위치와 색상을 마스터하면 다른 스케일 교체를 빠르게 익힐 수 있습니다.

변수의 변환을 플로팅하는 것은 매우 유용합니다.
예를 들어 `carat`과 `price`를 로그 변환하면 둘 사이의 정확한 관계를 더 쉽게 볼 수 있습니다. 이를 수행하는 방법은 `ggplot`으로 전송되는 데이터에 `apply()` 함수를 사용하는 것입니다.

In [None]:
(
    ggplot(
        diamonds.apply({"carat": np.log10, "price": np.log10}),
        aes(x="carat", y="price"),
    )
    + geom_bin2d()
)

그러나 이 변환의 단점은 축이 이제 원래 값으로 잘못 레이블 지정되어 플롯을 해석하기 어렵다는 것입니다. 미적 매핑에서 변환을 수행하는 대신 스케일로 변환을 수행할 수 있습니다. 축이 원래 데이터 스케일로 레이블 지정된다는 점을 제외하고는 시각적으로 동일합니다.

In [None]:
(
    ggplot(diamonds, aes(x="carat", y="price"))
    + geom_bin2d()
    + scale_x_log10()
    + scale_y_log10()
)

자주 사용자 정의되는 또 다른 스케일은 색상입니다. 기본 범주형 스케일은 색상환 주위에 고르게 분포된 색상을 선택합니다. 유용한 대안은 일반적인 유형의 색맹인 사람들에게 더 잘 작동하도록 수동으로 조정된 ColorBrewer 스케일입니다. 아래 두 플롯은 비슷해 보이지만 빨간색과 녹색 음영에 충분한 차이가 있어 오른쪽 점은 적록 색맹인 사람도 구분할 수 있습니다.

In [None]:
(ggplot(mpg, aes(x="displ", y="hwy")) + geom_point(aes(color="drv")))

In [None]:
(
    ggplot(mpg, aes(x="displ", y="hwy"))
    + geom_point(aes(color="drv"))
    + scale_color_brewer(palette="Set1")
)

접근성을 향상시키는 더 간단한 기술을 잊지 마십시오.
색상이 몇 개만 있는 경우 중복 모양 매핑을 추가할 수 있습니다.
이렇게 하면 플롯이 흑백으로도 해석될 수 있도록 하는 데 도움이 됩니다.

ColorBrewer 스케일은 <https://colorbrewer2.org/>에서 온라인으로 문서화되어 있습니다. 순차적(상단) 및 발산형(하단) 팔레트는 범주형 값이 정렬되어 있거나 "중간"이 있는 경우 특히 유용합니다. 이는 연속 변수를 범주형 변수로 만들기 위해 `pd.cut()`을 사용한 경우 종종 발생합니다.

In [None]:
# 입력 제거
cmaps = [
    (
        "지각적으로 균일한 순차",
        ["viridis", "plasma", "inferno", "magma", "cividis"],
    ),
    (
        "순차",
        [
            "Blues",
            "BuGn",
            "BuPu",
            "GnBu",
            "Greens",
            "Greys",
            "Oranges",
            "OrRd",
            "PuBu",
            "PuBuGn",
            "PuRd",
            "Purples",
            "RdPu",
            "Reds",
            "YlGn",
            "YlGnBu",
            "YlOrBr",
            "YlOrRd",
        ],
    ),
    (
        "발산형",
        [
            "BrBG",
            "PiYG",
            "PRGn",
            "PuOr",
            "RdBu",
            "RdGy",
            "RdYlBu",
            "RdYlGn",
        ],
    ),
    (
        "정성적",
        [
            "Pastel1",
            "Pastel2",
            "Paired",
            "Accent",
            "Dark2",
            "Set1",
            "Set2",
            "Set3",
            "tab10",
            "tab20",
            "tab20b",
            "tab20c",
        ],
    ),
]


gradient = np.linspace(0, 1, 256)
gradient = np.vstack((gradient, gradient))


def plot_color_gradients(cmap_category, cmap_list):
    # 그림을 만들고 그림 높이를 색상 맵 수에 맞게 조정합니다.
    nrows = len(cmap_list)
    figh = 0.35 + 0.15 + (nrows + (nrows - 1) * 0.1) * 0.22
    fig, axs = plt.subplots(nrows=nrows, figsize=(6.4, figh))
    fig.subplots_adjust(top=1 - 0.35 / figh, bottom=0.15 / figh, left=0.2, right=0.99)

    axs[0].set_title(cmap_category + " 색상 맵", fontsize=14)

    for ax, name in zip(axs, cmap_list):
        ax.imshow(gradient, aspect="auto", cmap=plt.get_cmap(name))
        ax.text(
            -0.01,
            0.5,
            name,
            va="center",
            ha="right",
            fontsize=10,
            transform=ax.transAxes,
        )

    # 색상 맵이 있는 것뿐만 아니라 *모든* 눈금 및 스파인을 끕니다.
    for ax in axs:
        ax.set_axis_off()


for cmap_category, cmap_list in cmaps[1:2]:
    plot_color_gradients(cmap_category, cmap_list)

plt.show()

In [None]:
# 입력 제거
for cmap_category, cmap_list in cmaps[3:4]:
    plot_color_gradients(cmap_category, cmap_list)

In [None]:
# 입력 제거
for cmap_category, cmap_list in cmaps[2:3]:
    plot_color_gradients(cmap_category, cmap_list)

값과 색상 간에 미리 정의된 매핑이 있는 경우 `scale_color_manual()`을 사용합니다. 예를 들어 대통령 정당을 색상에 매핑하는 경우 공화당은 빨간색, 민주당은 파란색의 표준 매핑을 사용하려고 합니다. 이러한 색상을 할당하는 한 가지 방법은 16진수 색상 코드를 사용하는 것입니다.

In [None]:
mini_presid = presidential.iloc[5:, :]

(
    ggplot(mini_presid, aes(x="start", y="id", color="party"))
    + geom_point(size=3)
    + geom_segment(aes(xend="end", yend="id"), size=1)
    + scale_x_datetime(breaks=mini_presid["start"], format="%Y")
    + scale_color_manual(values=["#00AEF3", "#E81B23"], name="party")
)

"빨간색" 및 "파란색"과 같은 일반적인 색상 이름을 사용할 수도 있습니다.

연속 색상의 경우 내장된 `scale_color_gradient()` 또는 `scale_fill_gradient()`를 사용할 수 있습니다.
발산형 스케일이 있는 경우 `scale_color_gradient2()`를 사용할 수 있습니다. 이를 통해 예를 들어 양수 값과 음수 값에 다른 색상을 지정할 수 있습니다. 이는 평균보다 높거나 낮은 점을 구분하려는 경우에도 유용합니다.

또 다른 옵션은 매우 강력한 명령형 파이썬 플로팅 패키지 **[matplotlib](https://matplotlib.org/)**용으로 개발된 viridis, magma, inferno 및 plasma 색상 스케일을 사용하는 것입니다. 디자이너인 Nathaniel Smith와 Stéfan van der Walt는 다양한 형태의 색맹인 사람들도 인지할 수 있고 색상과 흑백 모두에서 지각적으로 균일한 연속 색상 구성표를 신중하게 조정했습니다. 이러한 스케일은 *lets-plot*에서 팔레트로 사용할 수 있습니다. 다음은 viridis의 연속 버전을 사용한 예입니다(먼저 임의의 데이터를 생성합니다).

In [None]:
prng = np.random.default_rng(1837)  # prng=확률적 난수 생성기
df_rnd = pd.DataFrame(prng.standard_normal((1000, 2)), columns=["x", "y"])
(
    ggplot(df_rnd, aes(x="x", y="y"))
    + geom_bin2d()
    + coord_fixed()
    + scale_fill_viridis(option="plasma")
    + labs(title="플라즈마, 연속형")
)

### 확대/축소

플롯 제한을 제어하는 세 가지 방법이 있습니다.

1. 플로팅되는 데이터를 조정합니다.
2. 각 스케일에서 제한을 설정합니다.
3. `coord_cartesian()`에서 `xlim` 및 `ylim`을 설정합니다.

일련의 플롯에서 이러한 옵션을 보여 드리겠습니다.
첫 번째 플롯은 엔진 크기와 연비 간의 관계를 보여주며 구동 방식 유형별로 색상이 지정됩니다.
두 번째 플롯은 동일한 변수를 보여주지만 플로팅되는 데이터의 하위 집합을 보여줍니다.
데이터의 하위 집합을 만드는 것은 x 및 y 스케일과 부드러운 곡선에 영향을 미쳤습니다.


In [None]:
(
    ggplot(mpg, aes(x="displ", y="hwy"))
    + geom_point(aes(color="drv"))
    + geom_smooth(method="loess")
)

In [None]:
mpg_condition = (
    (mpg["displ"] >= 5) & (mpg["displ"] <= 6) & (mpg["hwy"] >= 10) & (mpg["hwy"] <= 25)
)

(
    ggplot(mpg.loc[mpg_condition], aes(x="displ", y="hwy"))
    + geom_point(aes(color="drv"))
    + geom_smooth(method="loess")
)

첫 번째 플롯이 개별 스케일에서 `limits`를 설정하고 두 번째 플롯이 `coord_cartesian()`에서 설정하는 아래 두 플롯과 비교해 보겠습니다.
제한을 줄이는 것은 데이터를 하위 집합으로 만드는 것과 같습니다.
따라서 플롯의 영역을 확대하려면 일반적으로 `coord_cartesian()`을 사용하는 것이 가장 좋습니다.

In [None]:
(
    ggplot(mpg, aes(x="displ", y="hwy"))
    + geom_point(aes(color="drv"))
    + geom_smooth(method="loess")
    + scale_x_continuous(limits=(5, 6))
    + scale_y_continuous(limits=(10, 25))
)

In [None]:
(
    ggplot(mpg, aes(x="displ", y="hwy"))
    + geom_point(aes(color="drv"))
    + geom_smooth(method="loess")
    + coord_cartesian(xlim=(5, 6), ylim=(10, 25))
)

반면에 개별 스케일에서 `limits`를 설정하는 것은 예를 들어 다른 플롯에서 스케일을 일치시키는 등 제한을 *확장*하려는 경우 일반적으로 더 유용합니다.
예를 들어 두 가지 자동차 클래스를 추출하여 별도로 플로팅하면 세 가지 스케일(x축, y축 및 색상 미학)이 모두 다른 범위를 갖기 때문에 플롯을 비교하기가 어렵습니다.

In [None]:
suv = mpg.loc[mpg["class"] == "suv"]
compact = mpg.loc[mpg["class"] == "compact"]
(ggplot(suv, aes(x="displ", y="hwy", color="drv")) + geom_point())

In [None]:
(ggplot(compact, aes(x="displ", y="hwy", color="drv")) + geom_point())

이 문제를 해결하는 한 가지 방법은 전체 데이터의 `limits`로 스케일을 학습하여 여러 플롯에서 스케일을 공유하는 것입니다.


In [None]:
x_scale = scale_x_continuous(limits=mpg["displ"].agg(["max", "min"]).tolist())
y_scale = scale_y_continuous(limits=mpg["hwy"].agg(["max", "min"]).tolist())
col_scale = scale_color_discrete(limits=mpg["drv"].unique())

In [None]:
(
    ggplot(suv, aes(x="displ", y="hwy", color="drv"))
    + geom_point()
    + x_scale
    + y_scale
    + col_scale
)

In [None]:
(
    ggplot(compact, aes(x="displ", y="hwy", color="drv"))
    + geom_point()
    + x_scale
    + y_scale
    + col_scale
)

이 특정 경우에는 단순히 패싯을 사용할 수도 있었지만, 예를 들어 보고서의 여러 페이지에 플롯을 분산시키려는 경우 이 기술은 더 일반적으로 유용합니다.


### 연습

1. 모든 스케일의 첫 번째 인수는 무엇입니까?
    `labs()`와 어떻게 비교됩니까?

2. 다음을 통해 대통령 임기 표시를 변경합니다.

    a. 색상과 x축 눈금을 사용자 정의하는 두 가지 변형을 결합합니다.
    b. y축 표시를 개선합니다.
    c. 각 임기를 대통령 이름으로 레이블을 지정합니다.
    d. 유익한 플롯 레이블을 추가합니다.
    e. 4년마다 눈금을 배치합니다(생각보다 까다롭습니다!).


## 테마

마지막으로 테마를 사용하여 플롯의 비데이터 요소를 사용자 정의할 수 있습니다.


In [None]:
(
    ggplot(mpg, aes(x="displ", y="hwy"))
    + geom_point(aes(color="class"))
    + geom_smooth(se=False)
    + theme_grey()
)

**lets-plot**에는 [여기](https://lets-plot.org/pages/api.html#predefined-themes)에서 찾을 수 있는 여러 내장 테마가 포함되어 있습니다. 특정 기업 또는 저널 스타일과 일치시키려는 경우 자신만의 테마를 만들 수도 있습니다.

다음은 여러 `theme()` 설정을 변경하는 예입니다.

In [None]:
(
    ggplot(mpg, aes(x="displ", color="drv"))
    + geom_density(size=2)
    + ggtitle("드라이브 밀도")
    + theme(
        axis_line=element_line(size=4),
        axis_ticks_length=10,
        axis_title_y="blank",
        legend_position=[1, 1],
        legend_justification=[1, 1],
        panel_background=element_rect(color="black", fill="#eeeeee", size=2),
        panel_grid=element_line(color="black", size=1),
    )
)

### 연습

1. 플롯의 축 레이블을 파란색과 굵게 만듭니다.


## 레이아웃

지금까지 단일 플롯을 만들고 수정하는 방법에 대해 이야기했습니다.
특정 방식으로 레이아웃하려는 여러 플롯이 있는 경우 어떻게 해야 할까요? 그렇게 할 수 있습니다. 두 플롯을 나란히 배치하려면 목록에 넣고 목록에서 `gggrid()`를 호출하면 됩니다. 먼저 플롯을 만들고 객체로 저장해야 합니다(다음 예에서는 `p1` 및 `p2`라고 함).


In [None]:
p1 = ggplot(mpg, aes(x="displ", y="hwy")) + geom_point() + labs(title="플롯 1")
p2 = ggplot(mpg, aes(x="drv", y="hwy")) + geom_boxplot() + labs(title="플롯 2")
gggrid([p1, p2])

## 플롯을 파일로 저장

파일을 저장할 수 있는 다양한 출력 옵션이 있습니다. 그래픽의 경우 *벡터 형식*이 일반적으로 *래스터 형식*보다 낫다는 것을 기억하십시오. 실제로는 jpg 또는 png 파일 형식보다 svg 또는 pdf 형식으로 플롯을 저장하는 것을 의미합니다. svg 형식은 Microsoft Word를 포함한 많은 컨텍스트에서 작동하며 좋은 기본값입니다. 형식 간에 선택하려면 파일 확장자를 제공하기만 하면 파일 형식이 자동으로 변경됩니다(예: svg의 경우 "chart.svg", png의 경우 "chart.png". 단, 래스터 형식에는 인치당 도트 수와 같은 추가 옵션이 있는 경우가 많습니다).

이전 연습에서 만든 그림인 `p1`을 사용하여 이를 시도해 보겠습니다. `path="."`는 현재 디렉터리에 파일을 놓습니다.

In [None]:
ggsave(p1, "chart.svg", path=".")

이것이 작동했는지 다시 확인하려면 터미널을 사용합니다. 디렉터리의 모든 것을 나열하는 `ls` 명령과 `ls`에서 반환된 것에서 `.svg`로 끝나는 모든 파일을 가져오는 `grep *.svg`를 시도합니다. 이들은 `|`로 명령으로 함께 연결됩니다. (아래의 선행 느낌표는 이 책을 빌드하는 소프트웨어에 터미널을 사용하도록 지시합니다.)

In [None]:
!ls | grep *.svg

In [None]:
# 셀 제거
import os

os.remove("chart.svg")

## 요약

이 장에서는 제목, 부제목, 캡션과 같은 플롯 레이블을 추가하고 기본 축 레이블을 수정하고, 주석을 사용하여 플롯에 정보 텍스트를 추가하거나 특정 데이터 포인트를 강조 표시하고, 축 스케일을 사용자 정의하고, 플롯 테마를 변경하는 방법에 대해 배웠습니다.
또한 간단하고 복잡한 플롯 레이아웃을 모두 사용하여 단일 그래프에 여러 플롯을 결합하는 방법에 대해서도 배웠습니다.

지금까지 다양한 유형의 플롯을 만들고 다양한 기술을 사용하여 사용자 정의하는 방법에 대해 배웠지만 **lets-plot**으로 만들 수 있는 것의 극히 일부만 다루었습니다.

자세한 내용은 [**lets-plot** 설명서](https://lets-plot.org/)를 참조하는 것이 가장 좋습니다.