## 🧭 Python Plotly 시각화 실습

실습목표: Python의 강력한 시각화 라이브러리인 Plotly를 사용하여 인터랙티브하고 아름다운 그래프를 만드는 방법을 안내합니다. 데이터 분석의 첫걸음을 내딛는 분들이 Plotly의 매력을 느끼고, 실제 데이터에 적용할 수 있도록 돕는 것을 목표로 합니다.

### 1️⃣ Plotly 소개 및 설치

#### Plotly란 무엇인가? 📊

Plotly는 웹 기반의 인터랙티브한 시각화를 만들 수 있는 파이썬 라이브러리입니다. 정적인 그래프를 넘어 사용자와 상호작용(줌, 패닝, 특정 데이터 포인트 정보 확인 등)이 가능한 동적인 그래프를 손쉽게 제작할 수 있게 해줍니다. Plotly로 만들어진 그래프는 웹 브라우저에서 완벽하게 작동하며, Jupyter Notebook 환경에서도 훌륭하게 통합됩니다. 과학, 금융, 엔지니어링 등 다양한 분야에서 복잡한 데이터를 효과적으로 표현하고 탐색하는 데 사용됩니다.

#### Plotly의 주요 구성 요소

Plotly Python 라이브러리는 크게 세 가지 주요 고수준 인터페이스로 구성됩니다.

1.  **Plotly Express (`plotly.express`)**:

      * 가장 쉽고 빠르게 다양한 종류의 그래프를 만들 수 있는 모듈입니다.
      * `px`라는 별칭으로 주로 사용되며, 적은 양의 코드로 강력한 시각화를 생성할 수 있어 초보자에게 매우 유용합니다.
      * 데이터프레임(주로 Pandas DataFrame)을 입력으로 받아 직관적인 문법으로 그래프를 그립니다.

2.  **그래프 객체 (`plotly.graph_objects`)**:

      * `go`라는 별칭으로 사용되며, 더 세밀하고 복잡한 커스터마이징이 필요할 때 사용합니다.
      * 그래프의 각 요소(예: 트레이스, 레이아웃, 축 등)를 객체로 다루어 정교한 제어가 가능합니다.
      * Plotly Express로 만든 그래프도 내부적으로는 그래프 객체로 구성됩니다.

3.  **Dash (`dash`)**:

      * Plotly 그래프를 기반으로 분석적인 웹 애플리케이션을 구축할 수 있는 프레임워크입니다.
      * Python만으로 데이터 시각화 대시보드나 인터랙티브 리포트를 만들 수 있게 해줍니다. (이 튜토리얼에서는 간단히 맛보기만 다룹니다.)

#### 설치 방법 및 기본 사용 준비

Plotly를 사용하기 위해서는 먼저 파이썬 환경에 라이브러리를 설치해야 합니다. 터미널이나 Anaconda Prompt에서 다음 명령어를 실행하여 설치할 수 있습니다.


In [None]:
!pip install plotly pandas kaleido # Docker 이미지에 포함되어 있습니다. 설치 필요 없음


  * `plotly`: Plotly 라이브러리 본체입니다.
  * `pandas`: Plotly Express는 Pandas DataFrame과 매우 잘 연동됩니다.
  * `kaleido`: Plotly 그래프를 정적 이미지 파일(png, jpg, svg 등)로 저장하기 위해 필요한 엔진입니다. `fig.write_image("figure.png")`와 같이 사용됩니다.

설치가 완료되면, Python 스크립트나 Jupyter Notebook에서 다음과 같이 Plotly Express를 임포트하여 사용할 준비를 합니다.

In [60]:
import plotly
import plotly.express as px # 그래프 생성
import plotly.graph_objects as go # 그래프 객체 생성
import pandas as pd
from plotly.subplots import make_subplots # 서브플롯 생성

print(f"Plotly 버전: {plotly.__version__}")

이제 Plotly를 사용하여 멋진 시각화를 만들 준비가 되었습니다\!

-----

### 2️⃣ Plotly Express로 시작하기

Plotly Express는 복잡한 그래프를 단 몇 줄의 코드로 생성할 수 있게 해주는 Plotly의 고수준 API입니다. 간결함과 강력함을 동시에 갖추고 있어 데이터 시각화 작업을 매우 효율적으로 만들어줍니다.

#### `plotly.express`의 특징과 간단한 문법

  * **간결한 문법**: `px.그래프종류(data_frame=df, x='x축컬럼', y='y축컬럼', color='색상구분컬럼', ...)` 형태로 사용됩니다.
  * **다양한 차트 지원**: 산점도, 선 그래프, 막대 그래프, 히스토그램, 파이 차트 등 대부분의 표준 차트를 지원합니다.
  * **자동 범례 및 색상 할당**: 데이터를 기반으로 범례와 색상을 자동으로 생성하고 할당해줍니다.
  * **인터랙션 기본 제공**: 확대/축소, 데이터 포인트 정보(hover) 등의 인터랙티브 기능이 기본적으로 활성화됩니다.

#### 기본 데이터 불러오기

Plotly Express는 내장된 샘플 데이터셋을 제공하여 쉽게 연습해볼 수 있습니다. 대표적인 데이터셋으로는 `gapminder`, `tips`, `iris` 등이 있습니다.

In [5]:
# Gapminder 데이터셋: 전 세계 국가들의 연도별 인구, GDP, 기대수명 등의 정보를 담고 있습니다.
gapminder_df = px.data.gapminder()
print("--- Gapminder 데이터셋 샘플 ---")
gapminder_df.head()

In [6]:
# Tips 데이터셋: 레스토랑에서 팁을 지불한 사람들의 정보를 담고 있습니다.
tips_df = px.data.tips()
print("\n--- Tips 데이터셋 샘플 ---")
tips_df.head()

In [7]:
# Iris 데이터셋: 붓꽃의 종류별 꽃잎, 꽃받침의 길이와 너비 정보를 담고 있습니다.
iris_df = px.data.iris()
print("\n--- Iris 데이터셋 샘플 ---")
iris_df.head()

#### 시각화 기본 구조 (`fig = px.chart(); fig.show()`)

Plotly Express를 사용하여 그래프를 그리는 기본적인 구조는 다음과 같습니다.

1.  `plotly.express` (보통 `px`로 임포트)를 사용하여 원하는 차트 함수를 호출합니다. 이때 데이터프레임과 주요 매핑(x축, y축, 색상 등)을 인자로 전달합니다.
2.  함수는 Figure 객체(`fig`)를 반환합니다.
3.  `fig.show()` 메서드를 호출하여 그래프를 화면에 표시합니다. Jupyter Notebook 환경에서는 이 메서드가 자동으로 그래프를 렌더링합니다.

예를 들어, `iris` 데이터셋을 사용하여 간단한 산점도를 그려보겠습니다.

In [8]:
# Iris 데이터셋으로 산점도 그리기
fig_iris_scatter = px.scatter(iris_df,
                              x="sepal_width",
                              y="sepal_length",
                              color="species",
                              title="Iris 데이터셋의 꽃받침 너비와 길이에 따른 종 분포")
fig_iris_scatter.show()

위 코드를 실행하면 x축에는 꽃받침 너비(`sepal_width`), y축에는 꽃받침 길이(`sepal_length`)가 표시되고, 각 점의 색상은 붓꽃의 종(`species`)에 따라 다르게 표현되는 인터랙티브한 산점도가 나타납니다.

### 🎨 Plotly 색상

Plotly에서는 다양한 색상 팔레트(컬러 스케일)를 제공하여, 시각화의 가독성과 미적 요소를 높일 수 있습니다. 색상 팔레트는 데이터의 구분, 연속형 값의 강도 표현, 범주형 데이터의 그룹 구분 등에 활용됩니다.

#### Plotly 내장 색상 팔레트 소개

Plotly는 시각화를 위해 다양한 내장 색상 팔레트(컬러스케일)를 제공합니다.

- **연속형(Sequential)**: 값의 크기나 농도 등 연속적인 수치를 시각화할 때 사용합니다. 대표적으로 `Viridis`, `Cividis`, `Blues`, `Greens`, `Plasma` 등이 있습니다.
- **이산형(Categorical/Qualitative)**: 그룹, 클래스 등 범주형 데이터를 구분할 때 사용합니다. 대표적으로 `Plotly`, `Pastel`, `Dark2`, `Set1` 등이 있습니다.
- **발산형(Diverging)**: 중심값을 기준으로 양쪽으로 값이 퍼지는 데이터를 표현할 때 사용합니다. 대표적으로 `RdBu`, `BrBG`, `PiYG` 등이 있습니다.

Plotly Express의 차트 함수에서 `color_continuous_scale`(연속형), `color_discrete_sequence`(이산형) 인자를 통해 원하는 팔레트를 지정할 수 있습니다.

내장 색상 팔레트의 전체 목록은 아래와 같이 확인할 수 있습니다.

In [12]:
from textwrap import wrap

named_colorscales = px.colors.named_colorscales()
print("\n".join(wrap("".join('{:<12}'.format(c) for c in named_colorscales), 96)))


#### 1. 색상 팔레트 종류

- **연속형(Sequential)**: 값의 크고 작음, 강도, 농도 등 연속적인 수치를 표현할 때 사용합니다.  
  예시: `Viridis`, `Cividis`, `Blues`, `Greens`, `Plasma` 등

- **이산형(Categorical/Qualitative)**: 범주형 데이터(그룹, 클래스 등)를 구분할 때 사용합니다.  
  예시: `Plotly`, `Pastel`, `Dark2`, `Set1` 등

- **발산형(Diverging)**: 중심값을 기준으로 양쪽으로 값이 퍼지는 데이터를 표현할 때 사용합니다.  
  예시: `RdBu`, `BrBG`, `PiYG` 등

#### 2. 색상 팔레트 사용 방법

In [23]:
px.colors.sequential.swatches_continuous()
# px.colors.diverging.swatches_continuous()


-----

### 3️⃣ 기본 그래프 실습

Plotly Express를 사용하면 다양한 기본 그래프를 손쉽게 만들 수 있습니다. 각 그래프의 특징과 사용법을 예제와 함께 살펴보겠습니다.

#### 산점도 (Scatter Plot)

산점도는 두 변수 간의 관계를 점으로 표현하는 그래프입니다. 데이터의 분포, 군집, 상관관계를 파악하는 데 유용합니다.

  * **주요 인자**: `x`, `y`, `color` (색상 구분), `size` (점 크기 구분), `symbol` (점 모양 구분), `hover_name` (마우스 오버 시 표시될 이름), `title` (그래프 제목)

<!-- end list -->

In [29]:
gapminder_2007.head()

In [24]:
# Gapminder 데이터셋으로 2007년 국가별 GDP와 기대수명 산점도
gapminder_2007 = gapminder_df.query("year == 2007")

fig_scatter_gdp_lifeExp = px.scatter(gapminder_2007,
                                   x="gdpPercap",
                                   y="lifeExp",
                                   color="continent",  # 대륙별 색상 구분
                                   size="pop",         # 인구 크기에 따른 점 크기
                                   hover_name="country", # 마우스 오버 시 국가 이름 표시
                                   log_x=True,         # x축을 로그 스케일로
                                   size_max=60,        # 최대 점 크기 조절
                                   title="2007년 국가별 GDP와 기대수명 (인구 크기 반영)")
fig_scatter_gdp_lifeExp.show()


# jupyter notebook 환경에서는 하나의 캔버스를 랜더링할 경우, .show()를 사용하지 않아도 랜더링이 됩니다. 복수개일 경우는 .show()를 사용해야 합니다.

#### 선 그래프 (Line Plot)

선 그래프는 시간의 흐름에 따른 데이터의 변화나 순서가 있는 데이터 포인트 간의 관계를 선으로 연결하여 표현합니다. 추세 분석에 주로 사용됩니다.

  * **주요 인자**: `x`, `y`, `color` (선 색상 구분), `line_group` (그룹별로 선 연결), `markers` (데이터 포인트에 마커 표시 여부)

<!-- end list -->

In [39]:
# Gapminder 데이터셋에서 특정 국가(예: 한국)의 연도별 GDP 변화 선 그래프
korea_df = gapminder_df.query("country == 'Korea, Rep.'")
korea_df.head()


In [40]:
px.line(korea_df,
    x="year",
    y="gdpPercap",
    title="한국의 연도별 1인당 GDP 변화",
    markers=True) # 데이터 포인트에 마커 표시

In [33]:
# 여러 국가 비교 (미국, 중국, 한국)
countries_comp_df = gapminder_df.query("country in ['United States', 'China', 'Korea, Rep.']")
countries_comp_df.head()

In [41]:
px.line(countries_comp_df,
    x="year",
    y="lifeExp",
    color="country", # 국가별로 다른 색상의 선
    title="미국, 중국, 한국의 연도별 기대수명 변화",
    markers=True)

#### 막대 그래프 (Bar Plot)

막대 그래프는 범주형 데이터의 값을 막대의 길이로 표현하여 항목 간의 크기를 비교하는 데 사용됩니다.

  * **주요 인자**: `x`, `y`, `color` (막대 색상 구분), `barmode` ('group', 'stack', 'relative'), `orientation` ('v' 또는 'h'로 수직/수평 막대)

<!-- end list -->

In [36]:
# Tips 데이터셋에서 요일별 평균 팁 금액 막대 그래프
avg_tip_by_day = tips_df.groupby('day', as_index=False)['tip'].mean()
avg_tip_by_day.head()

In [38]:
px.bar(avg_tip_by_day,
    x="day",
    y="tip",
    color="day",
    title="요일별 평균 팁 금액",
    labels={'tip': '평균 팁 ($)', 'day': '요일'})


In [42]:
# Tips 데이터셋에서 성별에 따른 식사 시간대별 지불 총액 (그룹 막대)
px.bar(tips_df,
    x="sex",
    y="total_bill",
    color="time",       # 식사 시간대별 색상
    barmode="group",    # 그룹 막대
    title="성별 및 식사 시간대별 총 지불액")

#### 파이 차트 (Pie Plot)

파이 차트는 전체에 대한 각 부분의 비율을 부채꼴 모양으로 나타내는 그래프입니다. 범주별 구성비를 시각적으로 표현할 때 유용합니다.

  * **주요 인자**: `names` (각 조각의 이름이 될 컬럼), `values` (각 조각의 크기가 될 컬럼), `hole` (도넛 차트 만들기)

<!-- end list -->

In [43]:
# Iris 데이터셋의 종별 샘플 수 파이 차트
species_counts = iris_df['species'].value_counts().reset_index()
species_counts.columns = ['species', 'count']
species_counts.head()

In [44]:
fig_pie_iris_species = px.pie(species_counts,
                              names="species",
                              values="count",
                              title="Iris 데이터셋의 종별 샘플 수 비율")
fig_pie_iris_species.show()

# 도넛 차트 만들기 (hole 사용)
fig_donut_iris_species = px.pie(species_counts,
                                names="species",
                                values="count",
                                title="Iris 데이터셋의 종별 샘플 수 비율 (도넛)",
                                hole=0.4) # 가운데 구멍 크기 (0 ~ 1)
fig_donut_iris_species.show()

#### 히스토그램 / 박스플롯 / 바이올린 플롯

이들은 단일 변수의 분포를 시각화하는 데 사용되는 그래프들입니다.

  * **히스토그램 (`px.histogram`)**: 데이터의 빈도 분포를 막대 형태로 보여줍니다. 데이터가 어떤 값 주위에 집중되어 있는지, 얼마나 퍼져있는지 등을 파악할 수 있습니다.

      * **주요 인자**: `x` (또는 `y`), `nbins` (막대 개수), `color` (그룹별 히스토그램), `marginal` ('rug', 'box', 'violin' 등 주변부 그래프 추가)

In [45]:
# Tips 데이터셋의 총 지불액 분포 히스토그램
px.histogram(tips_df,
    x="total_bill",
    nbins=30,
    title="총 지불액 분포 (히스토그램)",
    marginal="rug") # 데이터 포인트 위치를 러그 플롯으로 표시

* **박스플롯 (`px.box`)**: 데이터의 사분위수(최솟값, 1사분위수(Q1), 중앙값(Q2), 3사분위수(Q3), 최댓값)를 상자 그림으로 나타냅니다. 이상치 탐지에도 유용합니다.

  * **주요 인자**: `x` (또는 `y`), `color` (그룹별 박스플롯), `notched` (중앙값 신뢰구간 표시)

In [46]:
# Tips 데이터셋에서 요일별 총 지불액 박스플롯
px.box(tips_df,
    x="day",
    y="total_bill",
    color="smoker", # 흡연 여부에 따라 색상 구분
    title="요일별 총 지불액 분포 (박스플롯)")

* **바이올린 플롯 (`px.violin`)**: 박스플롯과 커널 밀도 추정(KDE)을 결합한 형태로, 데이터의 분포 모양을 더 자세히 보여줍니다.

    * **주요 인자**: `x` (또는 `y`), `color`, `box` (내부에 박스플롯 표시 여부), `points` ('all', 'outliers', False 등 데이터 포인트 표시 옵션)
    * KDE : 커널 밀도 추정(Kernel Density Estimation)은 데이터의 분포를 추정하는 통계 기법으로, 데이터가 어떤 값 주위에 집중되어 있는지, 얼마나 퍼져있는지 등을 파악할 수 있습니다.
    * 박스플롯 : 데이터의 사분위수(최솟값, 1사분위수(Q1), 중앙값(Q2), 3사분위수(Q3), 최댓값)를 상자 그림으로 나타냅니다. 이상치 탐지에도 유용합니다.

In [47]:
# Tips 데이터셋에서 요일별 팁 금액 바이올린 플롯
px.violin(tips_df,
    y="tip",
    x="day",
    color="sex", # 성별에 따라 색상 구분
    box=True,    # 바이올린 내부에 박스플롯 표시
    points="all", # 모든 데이터 포인트 표시
    title="요일별 팁 금액 분포 (바이올린 플롯)")

-----

### 📝 연습문제 1: Plotly Express 기본 그래프 그리기

**1-1. `tips` 데이터셋을 사용하여 다음 조건에 맞는 산점도를 그려보세요.**

  * x축: `total_bill` (총 지불액)
  * y축: `tip` (팁)
  * 색상: `smoker` (흡연 여부)
  * 점 크기: `size` (테이블 인원수)
  * 마우스 오버 시 `day` (요일) 정보가 나타나도록 하세요.
  * 그래프 제목: "총 지불액과 팁의 관계 (흡연여부 및 테이블 크기별)"

<!-- end list -->

In [None]:
# [1-1] 코드 작성 셀 (학생이 채움)
fig_tips_scatter = px.scatter(tips_df,
                              x= # YOUR CODE HERE,
                              y= # YOUR CODE HERE,
                              color= # YOUR CODE HERE,
                              size= # YOUR CODE HERE,
                              hover_data=[ # YOUR CODE HERE ],
                              title="총 지불액과 팁의 관계 (흡연여부 및 테이블 크기별)")
fig_tips_scatter.show()

**1-2. `gapminder` 데이터셋에서 'Canada'의 연도별 `lifeExp` (기대수명) 변화를 선 그래프로 그려보세요.**

  * 데이터 포인트에 마커를 표시하세요.
  * 그래프 제목: "캐나다의 연도별 기대수명 변화"

<!-- end list -->

In [None]:
# [1-2] 코드 작성 셀
canada_df = gapminder_df.query( # YOUR CODE HERE )
fig_canada_life_exp = px.line(canada_df,
                               x= # YOUR CODE HERE,
                               y= # YOUR CODE HERE,
                               markers= # YOUR CODE HERE,
                               title="캐나다의 연도별 기대수명 변화")
fig_canada_life_exp.show()

**1-3. `titanic` 데이터셋을 사용하여 `pclass` (객실 등급) 별 승객 수를 나타내는 막대 그래프를 그려보세요.**

  * 각 막대의 색상은 `pclass` 별로 다르게 표현하세요.
  * 그래프 제목: "타이타닉 호 객실 등급별 승객 수"

<!-- end list -->

In [None]:
# [1-3] 코드 작성 셀
pclass_counts = titanic_df['pclass'].value_counts().reset_index()
pclass_counts.columns = ['pclass', 'count'] # 컬럼명 변경 필요
fig_titanic_pclass_bar = px.bar(pclass_counts,
                                 x= # YOUR CODE HERE,
                                 y= # YOUR CODE HERE,
                                 color= # YOUR CODE HERE,
                                 title="타이타닉 호 객실 등급별 승객 수",
                                 labels={'pclass':'객실 등급', 'count':'승객 수'})
fig_titanic_pclass_bar.show()

**1-4. `iris` 데이터셋에서 각 `species` (종)의 비율을 나타내는 파이 차트(도넛 형태)를 그려보세요.**

  * 도넛의 구멍 크기는 0.3으로 설정하세요.
  * 그래프 제목: "Iris 데이터셋 종별 비율 (도넛 차트)"

<!-- end list -->

In [None]:
# [1-4] 코드 작성 셀
species_counts_iris = iris_df['species'].value_counts().reset_index()
species_counts_iris.columns = ['species', 'count']
fig_iris_donut = px.pie(species_counts_iris,
                        names= # YOUR CODE HERE,
                        values= # YOUR CODE HERE,
                        hole= # YOUR CODE HERE,
                        title="Iris 데이터셋 종별 비율 (도넛 차트)")
fig_iris_donut.show()

-----

### 4️⃣ 대화형 기능 익히기

Plotly의 가장 큰 장점 중 하나는 바로 **대화형(Interactive)** 기능입니다. 사용자는 그래프 위에서 마우스를 움직이거나 클릭하는 등의 행동을 통해 더 많은 정보를 얻거나 그래프의 표현 방식을 바꿀 수 있습니다.

#### Hover 정보와 Tooltip 커스터마이징

마우스를 데이터 포인트 위에 올렸을 때 나타나는 정보 상자를 **툴팁(Tooltip)** 또는 \*\*호버 정보(Hover Information)\*\*라고 합니다. Plotly는 기본적으로 유용한 정보를 보여주지만, 이를 사용자가 원하는 대로 변경할 수 있습니다.

  * `hover_name`: 각 데이터 포인트의 주요 식별자로 사용될 컬럼을 지정합니다. 툴팁 상단에 굵게 표시됩니다.
  * `hover_data`: 툴팁에 추가적으로 표시할 컬럼 리스트를 지정합니다. `{'컬럼명': False}` 형태로 특정 컬럼을 숨길 수도 있고, `{'컬럼명': ':.2f'}` 형태로 포맷팅도 가능합니다.
  * `fig.update_traces(hovertemplate="...")`: 툴팁의 내용을 HTML과 유사한 템플릿 문자열로 완전히 재구성할 수 있습니다.
      * `%{x}`, `%{y}`: x, y축 값
      * `%{customdata[i]}`: `hover_data`나 `custom_data`로 전달된 데이터의 i번째 요소
      * `%{text}`: `text` 인자로 전달된 값
      * `<extra></extra>`: 불필요한 추가 정보(trace 이름 등)를 숨깁니다.

<!-- end list -->

In [48]:
# Gapminder 데이터셋 (2007년) 사용
gapminder_2007 = px.data.gapminder().query("year == 2007")
gapminder_2007.head()

In [49]:
# 기본 hover 정보
px.scatter(gapminder_2007,
    x="gdpPercap",
    y="lifeExp",
    color="continent",
    size="pop",
    hover_name="country", # 국가 이름 강조
    title="기본 Hover 정보")

In [50]:
# hover_data로 추가 정보 표시 및 일부 정보 숨기기
px.scatter(gapminder_2007,
    x="gdpPercap",
    y="lifeExp",
    color="continent",
    size="pop",
    hover_name="country",
    # pop은 이미 size로 표현되므로 툴팁에서는 간단히, gdpPercap은 소수점 없이
    hover_data={'pop': ':,d', 'gdpPercap': ':.0f', 'continent': True, 'iso_alpha': False},
    title="hover_data 사용 예시")

In [51]:
# hovertemplate으로 툴팁 완전히 커스터마이징
fig_hovertemplate_custom = px.scatter(gapminder_2007,
                                     x="gdpPercap",
                                     y="lifeExp",
                                     color="continent",
                                     size="pop",
                                     hover_name="country", # 여전히 중요
                                     custom_data=['iso_alpha', 'pop'] # custom_data로 값 전달
                                    )

fig_hovertemplate_custom.update_traces(
    hovertemplate="<br>".join([
        "<b>%{hovertext}</b> (%{customdata[0]})", # hover_name은 %{hovertext}로 접근
        "GDP/Capita: $%{x:,.0f}",
        "Life Expectancy: %{y:.1f} years",
        "Population: %{customdata[1]:,d}",
        "<extra></extra>" # 추가 정보(trace 이름) 숨기기
    ])
)
fig_hovertemplate_custom.update_layout(title_text="hovertemplate을 사용한 완전한 툴팁 커스터마이징")
fig_hovertemplate_custom.show()

#### 슬라이더, 애니메이션 (`animation_frame`, `animation_group`)

Plotly Express를 사용하면 시간의 흐름이나 특정 변수의 변화에 따른 데이터의 동적인 변화를 애니메이션으로 쉽게 표현할 수 있습니다.

  * `animation_frame`: 애니메이션의 각 프레임을 구분하는 컬럼을 지정합니다. (예: 연도)
  * `animation_group`: 각 프레임에서 동일한 개체로 인식되어 부드럽게 전환될 데이터 포인트를 지정합니다. (예: 국가 이름)
  * 애니메이션이 적용된 그래프에는 자동으로 재생/일시정지 버튼과 슬라이더가 추가됩니다.

<!-- end list -->

In [52]:
# Gapminder 전체 데이터셋으로 애니메이션 산점도 만들기
px.scatter(px.data.gapminder(),
    x="gdpPercap",
    y="lifeExp",
    animation_frame="year",    # 연도별로 애니메이션 프레임
    animation_group="country", # 국가별로 추적
    size="pop",
    color="continent",
    hover_name="country",
    log_x=True,
    size_max=55,
    range_y=[20, 90],
    title="연도별 국가별 GDP, 기대수명, 인구 변화 (애니메이션)")

위 그래프에서는 연도별로 각 국가의 GDP, 기대수명, 인구가 어떻게 변하는지 동적으로 확인할 수 있습니다. 슬라이더를 조작하여 특정 연도의 데이터만 볼 수도 있습니다.


#### 사용자 정의 색상, 스타일 적용

Plotly는 다양한 내장 색상 팔레트와 템플릿을 제공하며, 사용자가 직접 색상이나 그래프 스타일을 지정할 수도 있습니다.

  * **색상 관련 인자**:

      * `color_discrete_sequence`: 범주형 데이터에 대한 색상 순서 리스트. (예: `['red', 'blue', 'green']`)
      * `color_discrete_map`: 특정 값에 특정 색상을 매핑. (예: `{'setosa': 'red', 'versicolor': 'blue'}`)
      * `color_continuous_scale`: 연속형 데이터에 대한 색상 스케일. (예: `px.colors.sequential.Viridis`)
      * `color_continuous_midpoint`: 연속형 색상 스케일의 중간점 값 지정 (Diverging scale 사용 시).

In [53]:
# Iris 데이터셋으로 사용자 정의 색상 적용
px.scatter(iris_df,
    x="sepal_width",
    y="sepal_length",
    color="species",
    # 종별로 특정 색상 지정
    color_discrete_map={
        "setosa": "rgb(255,0,0)",      # 빨강
        "versicolor": "rgba(0,255,0,0.7)", # 녹색 (투명도 0.7)
        "virginica": "blue"            # 파랑
    },
    title="Iris 데이터셋 - 사용자 정의 색상 (color_discrete_map)")

  * **템플릿 (`template`)**: 그래프의 전반적인 스타일(배경색, 폰트, 색상 등)을 미리 정의된 세트로 변경합니다.

      * 사용 가능한 템플릿: `'plotly'`, `'plotly_white'`, `'plotly_dark'`, `'ggplot2'`, `'seaborn'`, `'simple_white'`, `'none'` 등.
      * `fig.update_layout(template="plotly_dark")`와 같이 사용합니다.

  * **레이아웃 업데이트 (`fig.update_layout`)**: 그래프 제목, 축 제목, 범례 위치, 폰트 크기 등 거의 모든 시각적 요소를 세밀하게 조정할 수 있습니다.

<!-- end list -->

In [None]:
# Tips 데이터셋에 템플릿 및 레이아웃 업데이트 적용
fig_template_layout = px.histogram(tips_df,
                                   x="total_bill",
                                   color="sex",
                                   title="총 지불액 분포 - 다크 템플릿 및 레이아웃 수정")

fig_template_layout.update_layout(
    template="plotly_dark", # 다크 템플릿 적용
    bargap=0.1,             # 막대 사이 간격
    xaxis_title_text="총 지불액 ($)", # x축 제목 변경
    yaxis_title_text="빈도수",       # y축 제목 변경
    legend_title_text="성별",       # 범례 제목 변경
    title_font_size=20      # 전체 제목 폰트 크기
)
# fig_template_layout.show()

-----

### 📝 연습문제 2: 대화형 기능 및 커스터마이징

**2-1. `gapminder` 데이터셋에서 2007년도 데이터를 사용하여 다음 조건의 산점도를 만들고, 툴팁을 커스터마이징 해보세요.**

  * x축: `gdpPercap` (로그 스케일)
  * y축: `lifeExp`
  * 색상: `continent`
  * 점 크기: `pop` (최대 크기 60)
  * 툴팁 내용:
      * 국가명 (굵게)
      * 대륙명
      * 1인당 GDP: $ 값 (소수점 없이, 천 단위 콤마)
      * 기대 수명: 값 years (소수점 한 자리)
      * 인구: 값 명 (천 단위 콤마)
      * 불필요한 trace 정보는 숨기세요.
  * 그래프 제목: "2007년 국가별 GDP와 기대수명 (커스텀 툴팁)"

<!-- end list -->

In [None]:
# [2-1] 코드 작성 셀
gapminder_2007 = gapminder_df.query("year == 2007")
fig_custom_tooltip = px.scatter(gapminder_2007,
                                x="gdpPercap",
                                y="lifeExp",
                                color="continent",
                                size="pop",
                                hover_name="country",
                                log_x=True,
                                size_max=60,
                                custom_data=['continent', 'pop'], # 필요시 custom_data 활용
                                title="2007년 국가별 GDP와 기대수명 (커스텀 툴팁)")

fig_custom_tooltip.update_traces(
    hovertemplate= # YOUR CODE HERE (HTML 유사 문자열 사용)
)
fig_custom_tooltip.show()

**2-2. `gapminder` 데이터셋 전체를 사용하여, 대륙(`continent`)별로 연도(`year`)에 따른 평균 `gdpPercap` 변화를 애니메이션 선 그래프로 그려보세요.**

  * `animation_group`을 `continent`로 설정하여 각 대륙의 선이 부드럽게 이어지도록 하세요.
  * y축 범위는 0부터 40000까지로 설정하세요.
  * 그래프 제목: "대륙별 연간 평균 GDP 변화 (애니메이션)"

<!-- end list -->

In [None]:
# [2-2] 코드 작성 셀
# 먼저 대륙별, 연도별 평균 gdpPercap 계산
continent_yearly_gdp = gapminder_df.groupby(['continent', 'year'], as_index=False)['gdpPercap'].mean()

fig_animated_line_gdp = px.line(continent_yearly_gdp,
                                x='year',
                                y='gdpPercap',
                                color='continent',
                                animation_frame='year',
                                animation_group='continent', # 각 대륙의 선이 이어지도록
                                range_y=[0, 40000],
                                title="대륙별 연간 평균 GDP 변화 (애니메이션)")
fig_animated_line_gdp.show()

**2-3. `tips` 데이터셋을 사용하여 요일(`day`)별 평균 팁(`tip`)을 나타내는 막대 그래프를 그리고, `plotly_dark` 템플릿을 적용한 후, x축과 y축의 제목을 각각 "요일", "평균 팁 ($)"으로 변경하세요.**

  * 막대 색상은 `px.colors.qualitative.Pastel` 을 사용하세요.

<!-- end list -->

-----

### 5️⃣ 심화 시각화

Plotly Express는 기본 차트 외에도 다양한 고급 시각화 기법을 지원합니다. 이러한 차트들은 다차원적이거나 계층적인 데이터를 효과적으로 표현하는 데 유용합니다.

#### 계층형 차트 (Treemap, Sunburst)

계층 구조를 가진 데이터를 시각화하는 데 적합합니다.

  * **트리맵 (`px.treemap`)**: 사각형의 크기와 색상을 사용하여 계층 구조 내의 각 항목의 값과 그룹을 표현합니다. 공간 활용도가 높습니다.

      * **주요 인자**: `path` (계층 경로를 나타내는 컬럼 리스트), `values` (사각형 크기 결정 컬럼), `color` (사각형 색상 결정 컬럼).

  * **선버스트 (`px.sunburst`)**: 트리맵과 유사하지만, 방사형 레이아웃을 사용합니다. 중심에서 바깥으로 퍼져나가는 형태로 계층을 표현합니다.

      * **주요 인자**: `path`, `values`, `color`.

In [56]:
# Gapminder 데이터셋 (2007년)으로 대륙-국가 계층 트리맵 (인구 기준)
gapminder_2007 = px.data.gapminder().query("year == 2007")
px.treemap(gapminder_2007,
    path=[px.Constant("World"), 'continent', 'country'], # 계층: World -> continent -> country
    values='pop',          # 인구수로 크기 결정
    color='lifeExp',       # 기대수명으로 색상 결정
    hover_data=['iso_alpha'],
    color_continuous_scale='RdBu',
    title='2007년 전 세계 국가별 인구 트리맵 (기대수명으로 색상 구분)')

  * **선버스트 (`px.sunburst`)**: 트리맵과 유사하지만, 방사형 레이아웃을 사용합니다. 중심에서 바깥으로 퍼져나가는 형태로 계층을 표현합니다.

      * **주요 인자**: `path`, `values`, `color`.

In [57]:
# Tips 데이터셋으로 요일-시간-성별에 따른 팁 금액 선버스트 차트
tips_df = px.data.tips()
px.sunburst(tips_df,
    path=['day', 'time', 'sex'], # 계층: 요일 -> 시간 -> 성별
    values='tip',               # 팁 금액으로 크기 결정
    color='total_bill',         # 총 지불액으로 색상 결정
    title='요일/시간/성별에 따른 팁 금액 선버스트')

#### 다차원 차트 (Scatter Matrix, Parallel Coordinates)

여러 변수 간의 관계를 동시에 탐색하는 데 사용됩니다.

  * **산점도 행렬 (`px.scatter_matrix`)**: 데이터프레임의 지정된 숫자형 변수들에 대해 모든 쌍의 산점도를 행렬 형태로 보여줍니다. 대각선에는 각 변수의 히스토그램이나 KDE 플롯을 표시할 수 있습니다.

      * **주요 인자**: `dimensions` (포함할 변수 리스트), `color` (점 색상 구분).

In [None]:
# Iris 데이터셋으로 산점도 행렬
iris_df = px.data.iris()
px.scatter_matrix(iris_df,
    dimensions=["sepal_width", "sepal_length", "petal_width", "petal_length"],
    color="species",
    title="Iris 데이터셋 변수 간 산점도 행렬")

  * **평행 좌표계 (`px.parallel_coordinates`)**: 각 변수를 평행한 수직축으로 나타내고, 각 데이터 포인트를 이 축들을 가로지르는 선으로 연결합니다. 다차원 데이터의 패턴이나 군집을 파악하는 데 도움이 됩니다.

      * **주요 인자**: `dimensions`, `color` (선 색상 구분).

In [None]:
# Iris 데이터셋으로 평행 좌표계
px.parallel_coordinates(iris_df,
    color="species_id", # 숫자형 ID로 색상 구분
    dimensions=['sepal_width', 'sepal_length', 'petal_width', 'petal_length'],
    color_continuous_scale=px.colors.diverging.Tealrose,
    title="Iris 데이터셋 평행 좌표계")

#### 시계열 시각화 (Line + Slider, Candlestick)

시간에 따라 변하는 데이터를 시각화합니다.

  * **선 그래프와 슬라이더**: 앞서 애니메이션에서 본 것처럼, `px.line`과 `animation_frame`을 결합하거나, `plotly.graph_objects`를 사용하여 레인지 슬라이더를 추가할 수 있습니다.

In [63]:
# Plotly 내장 주식 데이터 사용 (Apple)
df_stocks = px.data.stocks()
df_stocks.head()

In [64]:
# Apple 주식 데이터 선 그래프 (간단한 시계열)
fig_line_apple_stock = px.line(df_stocks, x='date', y='AAPL', title='Apple 주가 변동 (선 그래프)')
fig_line_apple_stock.update_xaxes(rangeslider_visible=True) # x축에 레인지 슬라이더 추가
# fig_line_apple_stock.show()


* **캔들스틱 차트 (`go.Candlestick`)**: 주가 데이터와 같이 시가, 고가, 저가, 종가를 표현하는 데 특화된 차트입니다. Plotly Express에는 직접적인 캔들스틱 함수가 없지만, `plotly.graph_objects`를 사용하면 쉽게 만들 수 있습니다.

In [62]:
# 캔들스틱 차트 (plotly.graph_objects 사용)
# GOOG (Google) 주식에 대한 캔들스틱
fig_candlestick_goog = go.Figure(data=[go.Candlestick(x=df_stocks['date'],
                                                   open=df_stocks['GOOG'],
                                                   high=df_stocks['GOOG'] * 1.05, # 임의로 고가 설정 (데이터 없으므로)
                                                   low=df_stocks['GOOG'] * 0.95,  # 임의로 저가 설정
                                                   close=df_stocks['GOOG'] + (df_stocks['GOOG'].diff()), # 종가는 시가 + 변화량 (임의)
                                                   name="GOOG")])
fig_candlestick_goog.update_layout(title='Google 주가 (캔들스틱 차트 - 임의 데이터)',
                                 xaxis_title='날짜',
                                 yaxis_title='주가 ($)',
                                 xaxis_rangeslider_visible=False) # 캔들스틱은 자체 레인지 슬라이더 있음
# fig_candlestick_goog.show()

*주의: `px.data.stocks()`에는 시/고/저/종가 정보가 모두 있지는 않아 위 예제에서는 임의로 값을 생성했습니다. 실제 캔들스틱 차트를 그릴 때는 해당 정보가 포함된 데이터셋을 사용해야 합니다.*

#### 지리 시각화 (Choropleth, Scattergeo)

지리적 위치와 관련된 데이터를 지도 위에 표현합니다.

  * **단계 구분도 (`px.choropleth`)**: 특정 지역(국가, 주, 도시 등)을 값에 따라 다른 색상으로 채워 표현합니다.

      * **주요 인자**: `locations` (지역 이름 또는 코드), `locationmode` (지역명의 종류, 예: 'ISO-3', 'USA-states'), `geojson` (사용자 정의 지역 경계 파일), `color` (색상 결정 컬럼), `scope` (지도 범위, 예: 'world', 'usa', 'europe').

In [65]:
# Gapminder 데이터셋 (2007년)으로 국가별 기대수명 단계 구분도
gapminder_2007 = px.data.gapminder().query("year == 2007")
gapminder_2007.head()

In [66]:
px.choropleth(gapminder_2007,
    locations="iso_alpha",    # 국가 ISO 알파-3 코드
    color="lifeExp",          # 기대수명으로 색상 결정
    hover_name="country",     # 마우스 오버 시 국가 이름
    color_continuous_scale=px.colors.sequential.Plasma,
    title="2007년 국가별 기대수명 단계 구분도")

  * **지리 산점도 (`px.scatter_geo`)**: 지도 위에 위도/경도 좌표를 사용하여 점으로 데이터를 표시합니다. 점의 크기나 색상으로 추가 정보를 나타낼 수 있습니다.

      * **주요 인자**: `lat` (위도 컬럼), `lon` (경도 컬럼), `locations` (점 대신 지역 ID로 매핑 시), `color`, `size`.


In [67]:
# (예시) 미국 도시 인구 데이터 (임의 생성)
us_cities_data = {
    'city': ['New York', 'Los Angeles', 'Chicago', 'Houston', 'Phoenix'],
    'lat': [40.7128, 34.0522, 41.8781, 29.7604, 33.4484],
    'lon': [-74.0060, -118.2437, -87.6298, -95.3698, -112.0740],
    'population': [8399000, 3990000, 2706000, 2320000, 1680000]
}
df_us_cities = pd.DataFrame(us_cities_data)
df_us_cities.head()

In [69]:
px.scatter_geo(df_us_cities,
    lat='lat',
    lon='lon',
    size='population',
    color='population',
    hover_name='city',
    projection="albers usa",  # 미국 지도 투영법 (projection_type이 아니라 projection을 사용)
    title="미국 주요 도시 인구 지리 산점도"
)

-----

### 6️⃣ 3D 시각화 실습

Plotly는 2D 그래프뿐만 아니라 3차원 공간에 데이터를 시각화하는 기능도 강력하게 지원합니다. 이를 통해 데이터의 또 다른 차원을 탐색할 수 있습니다. `plotly.express`와 `plotly.graph_objects` 모두 3D 시각화를 지원합니다.

#### 3D 산점도 (`px.scatter_3d`)

세 개의 변수 간의 관계를 3차원 공간에 점으로 표현합니다. 점의 색상이나 크기를 사용하여 네 번째, 다섯 번째 변수까지도 나타낼 수 있습니다.

  * **주요 인자**: `x`, `y`, `z`, `color`, `size`, `symbol`, `hover_name`.

<!-- end list -->

In [70]:
# Iris 데이터셋으로 3D 산점도
iris_df = px.data.iris()
iris_df.head()


In [None]:
fig_3d_scatter = px.scatter_3d(iris_df,
                               x='sepal_length',
                               y='sepal_width',
                               z='petal_width',
                               color='species',      # 종별로 색상 구분
                               size='petal_length',  # 꽃잎 길이로 점 크기 구분
                               symbol='species',     # 종별로 점 모양 구분
                               title="Iris 데이터셋 3D 산점도 (꽃받침 길이/너비, 꽃잎 너비)")
fig_3d_scatter.update_layout(
    scene=dict(
        xaxis_title='꽃받침 길이 (Sepal Length)',
        yaxis_title='꽃받침 너비 (Sepal Width)',
        zaxis_title='꽃잎 너비 (Petal Width)'
    ),
    width=1000,    #  가로 크기
    height=800     # 세로 크기
)
# fig_3d_scatter.show()

그래프를 마우스로 드래그하여 회전시키거나 휠을 사용하여 확대/축소할 수 있습니다.


#### 3D 표면 그래프 (`go.Surface`)

3차원 표면을 그려 (x, y) 좌표에 대한 z값의 변화를 시각화합니다. 주로 함수 $z = f(x, y)$를 표현하거나, 그리드 형태의 3D 데이터를 시각화하는 데 사용됩니다. 

Plotly Express에는 직접적인 `surface` 함수가 없으므로, `plotly.graph_objects`를 사용합니다.

  * **주요 인자**: `x`, `y`, `z` (2D 배열 형태의 z값), `colorscale` (색상 맵).

<!-- end list -->

In [76]:
import numpy as np

# 샘플 3D 표면 데이터 생성
x_surf = np.linspace(-5, 5, 50)
y_surf = np.linspace(-5, 5, 50)
X_surf, Y_surf = np.meshgrid(x_surf, y_surf)
Z_surf = np.sin(np.sqrt(X_surf**2 + Y_surf**2)) # z = sin(sqrt(x^2 + y^2))

fig_3d_surface = go.Figure(data=[go.Surface(z=Z_surf, x=X_surf, y=Y_surf, colorscale='Viridis')])
fig_3d_surface.update_layout(
    title='3D 표면 그래프 (z = sin(sqrt(x^2 + y^2)))',
    scene=dict(
        xaxis_title='X축',
        yaxis_title='Y축',
        zaxis_title='Z축 (sin 값)'),
    width=1000,
    height=800
)
fig_3d_surface.show()

#### 3D Mesh 및 Volume (`go.Mesh3d`, `go.Volume`)

  * **3D Mesh (`go.Mesh3d`)**: 3차원 공간에서 정점(vertices)과 이 정점들을 연결하는 면(faces)으로 구성된 객체를 표현합니다. CAD 모델, 지형 데이터 등을 시각화할 수 있습니다.

In [78]:
# 3D Mesh 예시 (간단한 정육면체)
# plotly.graph_objects를 사용합니다.
fig_mesh_cube = go.Figure(data=[
    go.Mesh3d(
        # 정점 좌표
        x=[0, 0, 1, 1, 0, 0, 1, 1],
        y=[0, 1, 1, 0, 0, 1, 1, 0],
        z=[0, 0, 0, 0, 1, 1, 1, 1],
        # 면을 구성하는 정점 인덱스 (삼각형으로 분할)
        i = [7, 0, 0, 0, 4, 4, 6, 6, 4, 0, 3, 2],
        j = [3, 4, 1, 2, 5, 6, 5, 2, 0, 1, 6, 3],
        k = [0, 7, 2, 3, 6, 7, 2, 5, 1, 2, 7, 5],
        opacity=0.6,
        color='cyan',
        flatshading = True # 면을 평평하게 렌더링
    )
])
fig_mesh_cube.update_layout(
    title="3D Mesh 예시: 정육면체",
    scene=dict(xaxis_title="X", yaxis_title="Y", zaxis_title="Z"),
    width=1000,
    height=800
)
# fig_mesh_cube.show()

  * **Volume Rendering (`go.Volume`)**: 3차원 스칼라 필드(예: 의료 영상 데이터 MRI, CT 스캔)의 내부 구조를 시각화합니다. 밀도에 따라 다른 색상과 투명도를 부여하여 표현합니다.

이들은 다소 고급 주제이며, 특정 형식의 데이터(정점, 면 정보 또는 3D 그리드 볼륨 데이터)를 필요로 합니다. 여기서는 간단한 개념만 소개합니다.

In [79]:
# 3D Volume Rendering 예시 (랜덤 데이터)
# plotly.graph_objects를 사용합니다.
X_vol, Y_vol, Z_vol = np.mgrid[-2:2:20j, -2:2:20j, -2:2:20j] # 20x20x20 그리드
values_vol = np.sin(X_vol*Y_vol*Z_vol) / (X_vol*Y_vol*Z_vol) # 볼륨 데이터

fig_volume = go.Figure(data=go.Volume(
    x=X_vol.flatten(),
    y=Y_vol.flatten(),
    z=Z_vol.flatten(),
    value=values_vol.flatten(),
    isomin=0.1,         # 표시할 최소 표면 값
    isomax=0.8,         # 표시할 최대 표면 값
    opacity=0.1,        # 전체적인 불투명도
    surface_count=17,   # 표면 개수 (렌더링 품질)
    colorscale='RdBu'
    ))
fig_volume.update_layout(title="3D Volume Rendering 예시 (랜덤 데이터)",
                       scene_xaxis_showticklabels=False,
                       scene_yaxis_showticklabels=False,
                       scene_zaxis_showticklabels=False)
fig_volume.show()

#### 피카츄 3D 시각화
- 3d 모델 파일을 불러오서 3d 그래프로 시각화
- 모델 파일은 3d 모델 파일을 불러오는 라이브러리인 trimesh를 사용하여 불러올 수 있습니다.
- 3D 모델 제공 사이트 : Sketchfab ( https://sketchfab.com/3d-models/popular )

In [None]:
!pip install trimesh

In [118]:
import trimesh
mesh = trimesh.load('datasets/Pikachu.obj', force='mesh')   
x, y, z = mesh.vertices.T
i, j, k = mesh.faces.T
fig = go.Figure(go.Mesh3d(x=x, y=y, z=z, i=i, j=j, k=k,
                          color='yellow', flatshading=True))
fig.update_layout(scene_aspectmode='data', height=800, width=1000).show()

In [None]:
avg_tip_by_day_tips = tips_df.groupby('day', as_index=False)['tip'].mean()
# 요일 순서 정렬 (선택 사항이지만 권장)
day_order = ["Thur", "Fri", "Sat", "Sun"]
avg_tip_by_day_tips['day'] = pd.Categorical(avg_tip_by_day_tips['day'], categories=day_order, ordered=True)
avg_tip_by_day_tips = avg_tip_by_day_tips.sort_values('day')


fig_custom_style_bar = px.bar(avg_tip_by_day_tips,
                              x='day',
                              y='tip',
                              title="요일별 평균 팁 (다크 템플릿, 커스텀 스타일)",
                              color_discrete_sequence=px.colors.qualitative.Pastel # 색상 지정
                             )

fig_custom_style_bar.update_layout(
    template= # YOUR CODE HERE,
    xaxis_title_text= # YOUR CODE HERE,
    yaxis_title_text= # YOUR CODE HERE
)
fig_custom_style_bar.show()


-----

### 7️⃣ 서브플롯과 복합 레이아웃

때로는 여러 그래프를 한 화면에 함께 배치하여 비교하거나, 하나의 그래프 내에 다양한 정보를 복합적으로 표현해야 할 필요가 있습니다. Plotly는 `make_subplots` 함수와 `Figure` 객체의 다양한 레이아웃 옵션을 통해 이러한 요구사항을 충족시켜 줍니다.

#### 여러 그래프를 한 화면에 (`make_subplots`)

`plotly.subplots.make_subplots` 함수를 사용하면 그리드(행과 열) 형태의 레이아웃을 만들고 각 셀에 다른 종류의 그래프(트레이스)를 추가할 수 있습니다.

  * **주요 인자**:
      * `rows`, `cols`: 서브플롯 그리드의 행과 열 개수.
      * `subplot_titles`: 각 서브플롯의 제목 리스트.
      * `specs`: 각 서브플롯의 유형을 지정 (예: 3D, 지도, 보조 y축 등).
        `[[{"type": "xy"}, {"type": "polar"}], [{"type": "domain"}, {"type": "scene"}]]`
      * `shared_xaxes`, `shared_yaxes`: 축 공유 여부.
  * `fig.add_trace(trace, row=r, col=c)`: 생성된 Figure 객체에 트레이스를 추가하면서 위치(행, 열)를 지정합니다.

<!-- end list -->

In [119]:
# Iris 데이터셋 사용
iris_df = px.data.iris()
setosa = iris_df[iris_df['species'] == 'setosa']
versicolor = iris_df[iris_df['species'] == 'versicolor']
virginica = iris_df[iris_df['species'] == 'virginica']

# 2x2 서브플롯 생성
fig_subplots = make_subplots(rows=2, cols=2,
                             subplot_titles=("Sepal Length vs Sepal Width (Setosa)",
                                             "Petal Length vs Petal Width (All)",
                                             "Species Count (Pie)",
                                             "Sepal Length Distribution (Versicolor)"),
                             specs=[[{"type": "scatter"}, {"type": "scatter"}], # 1행: 둘 다 일반 산점도
                                    [{"type": "domain"}, {"type": "histogram"}]]) # 2행: 파이차트, 히스토그램

# 첫 번째 서브플롯 (1행 1열): Setosa 산점도
fig_subplots.add_trace(go.Scatter(x=setosa['sepal_length'], y=setosa['sepal_width'], mode='markers', name='Setosa'),
                       row=1, col=1)

# 두 번째 서브플롯 (1행 2열): 전체 종에 대한 꽃잎 산점도 (Plotly Express 사용 불가, go 사용)
for species, color in zip(iris_df['species'].unique(), px.colors.qualitative.Plotly):
    species_df = iris_df[iris_df['species'] == species]
    fig_subplots.add_trace(go.Scatter(x=species_df['petal_length'], y=species_df['petal_width'],
                                      mode='markers', name=species, marker_color=color, legendgroup='g1'),
                           row=1, col=2)


# 세 번째 서브플롯 (2행 1열): 종별 개수 파이 차트
species_counts = iris_df['species'].value_counts()
fig_subplots.add_trace(go.Pie(labels=species_counts.index, values=species_counts.values, name='Species Dist.'),
                       row=2, col=1)

# 네 번째 서브플롯 (2행 2열): Versicolor 꽃받침 길이 히스토그램
fig_subplots.add_trace(go.Histogram(x=versicolor['sepal_length'], name='Versicolor Sepal Length', marker_color='green'),
                       row=2, col=2)

# 전체 레이아웃 업데이트
fig_subplots.update_layout(height=700, title_text="Iris 데이터셋 복합 서브플롯", showlegend=False)
fig_subplots.show()

#### 보조 Y축, Faceting, Layout 설정

  * **보조 Y축 (`secondary_y`)**: 하나의 x축에 대해 서로 다른 스케일을 가진 두 개의 y축을 표시할 때 유용합니다. `make_subplots`의 `specs` 인자에서 `{"secondary_y": True}`로 설정하고, 트레이스를 추가할 때 `secondary_y=True` 옵션을 사용합니다.

In [125]:
# 보조 Y축 예시: 주가와 거래량
df_stocks = px.data.stocks(indexed=True) # 날짜를 인덱스로
df_stocks.head()


In [127]:
fig_secondary_y = make_subplots(specs=[[{"secondary_y": True}]])

# GOOG 주가 (기본 Y축)
fig_secondary_y.add_trace(
    go.Scatter(x=df_stocks.index, y=df_stocks['GOOG'], name="GOOG 주가"),
    secondary_y=False,
)
# AMZN 거래량 (보조 Y축) - 거래량 데이터는 없으므로 주가로 대체하여 스케일만 다르게 표현
fig_secondary_y.add_trace(
    go.Bar(
        x=df_stocks.index, 
        y=df_stocks['AMZN']*10000, 
        name="AMZN 거래량 (임의)", 
        opacity=0.5  # 투명도 적용
    ), 
    secondary_y=True,
)
fig_secondary_y.update_layout(title_text="주가와 거래량 (보조 Y축 예시)")
fig_secondary_y.update_yaxes(title_text="<b>기본 Y축</b> 주가 ($)", secondary_y=False)
fig_secondary_y.update_yaxes(title_text="<b>보조 Y축</b> 거래량", secondary_y=True, range=[0, df_stocks['AMZN'].max()*15000]) # 범위 조정
fig_secondary_y.show()


  * **Faceting (`facet_row`, `facet_col`)**: Plotly Express에서 범주형 변수의 각 값에 대해 별도의 서브플롯을 자동으로 생성하는 기능입니다.

      * `facet_row`: 지정된 컬럼의 고유값마다 새로운 행에 서브플롯을 만듭니다.
      * `facet_col`: 지정된 컬럼의 고유값마다 새로운 열에 서브플롯을 만듭니다.
      * `facet_col_wrap`: `facet_col` 사용 시 한 행에 표시할 최대 서브플롯 개수를 지정합니다.

  * **Layout 설정 (`fig.update_layout()`)**: 서브플롯을 사용할 때도 `update_layout`을 통해 전체 제목, 각 축의 제목, 범례, 폰트, 색상, 간격 등을 세밀하게 조정할 수 있습니다.

      * 특정 축을 지정할 때는 `xaxis_title`, `yaxis2_title` (보조 y축의 경우 `yaxis2`), `xaxis3_title` (다른 서브플롯의 x축) 등과 같이 번호를 붙여 접근합니다.

<!-- end list -->

In [123]:
# Faceting 예시: Tips 데이터셋
tips_df = px.data.tips()
tips_df.head()


In [124]:
fig_facet = px.scatter(tips_df,
                       x="total_bill", y="tip",
                       color="smoker",
                       facet_col="day",        # 요일별로 열에 서브플롯
                       facet_col_wrap=2,     # 한 행에 최대 2개 서브플롯
                       facet_row="time",       # 식사 시간별로 행에 서브플롯
                       title="요일 및 식사 시간별 팁과 총 지불액 (Faceting)")
fig_facet.show()

#### 반응형 레이아웃 및 테마 설정

  * **반응형 레이아웃**: Plotly 그래프는 기본적으로 웹 브라우저 크기에 반응하여 크기가 조절됩니다. `fig.update_layout(autosize=True)` (기본값)

In [128]:
# 테마 변경 예시
fig_theme_example = px.bar(tips_df, x="day", y="total_bill", color="sex", barmode="group",
                           title="요일별/성별 총 지불액 (ggplot2 테마)")
fig_theme_example.update_layout(template="ggplot2") # ggplot2 스타일 테마 적용
fig_theme_example.show()

* **테마 설정**: 앞서 "사용자 정의 색상, 스타일 적용" 섹션에서 다룬 `template` 인자를 사용하여 그래프의 전반적인 모양과 느낌(테마)을 쉽게 변경할 수 있습니다.
      * 예: `fig.update_layout(template="plotly_dark")`

<!-- end list -->

In [130]:
# Plotly에서 지원하는 테마(템플릿) 리스트 출력
import plotly.io as pio

print("Plotly 지원 테마(템플릿) 목록:")
for template in pio.templates:
    print("-", template)


In [129]:
fig_theme_example_seaborn = px.scatter(iris_df, x="sepal_width", y="sepal_length", color="species",
                                     title="붓꽃 데이터 (seaborn 테마)")
fig_theme_example_seaborn.update_layout(template="seaborn") # seaborn 스타일 테마 적용
fig_theme_example_seaborn.show()

-----

### 📝 연습문제 3: 심화 시각화 및 서브플롯

**3-1. `gapminder` 데이터셋에서 2007년도 데이터를 사용하여, 대륙(`continent`)과 국가(`country`) 계층을 가지는 트리맵을 그려보세요.**

  * 사각형의 크기는 인구(`pop`)로, 색상은 `lifeExp` (기대수명)으로 결정하세요.
  * `color_continuous_scale`은 'viridis'를 사용하세요.
  * 그래프 제목: "2007년 대륙-국가별 인구 트리맵 (기대수명으로 색상 표시)"

<!-- end list -->

In [None]:
# [3-1] 코드 작성 셀
gapminder_2007_treemap = gapminder_df.query("year == 2007")
fig_treemap_pop_lifeexp = px.treemap(gapminder_2007_treemap,
                                   path=[px.Constant("World"), # YOUR CODE HERE (continent, country) ],
                                   values= # YOUR CODE HERE,
                                   color= # YOUR CODE HERE,
                                   color_continuous_scale= # YOUR CODE HERE,
                                   title="2007년 대륙-국가별 인구 트리맵 (기대수명으로 색상 표시)")
fig_treemap_pop_lifeexp.show()

**3-2. `iris` 데이터셋의 4가지 수치형 특성(`sepal_length`, `sepal_width`, `petal_length`, `petal_width`)에 대한 산점도 행렬을 그려보세요.**

  * 점의 색상은 `species` (종)에 따라 구분하세요.
  * 그래프 제목: "Iris 데이터셋 특성 간 산점도 행렬"

<!-- end list -->

In [None]:
# [3-2] 코드 작성 셀
fig_iris_scatter_matrix = px.scatter_matrix(iris_df,
                                            dimensions=[ # YOUR CODE HERE (4개 특성) ],
                                            color= # YOUR CODE HERE,
                                            title="Iris 데이터셋 특성 간 산점도 행렬")
fig_iris_scatter_matrix.show()

**3-3. `make_subplots`를 사용하여 1행 2열의 서브플롯을 만드세요.**

  * 첫 번째 서브플롯 (1행 1열): `tips` 데이터셋에서 `total_bill`의 히스토그램 (색상은 `sex`로 구분)
  * 두 번째 서브플롯 (1행 2열): `tips` 데이터셋에서 `day`별 `tip`의 박스플롯 (색상은 `time`으로 구분)
  * 전체 그래프 제목: "Tips 데이터 분석: 총 지불액 분포와 요일/시간별 팁"
  * 각 서브플롯의 제목도 적절히 설정하세요.

<!-- end list -->

In [None]:
# [3-3] 코드 작성 셀
fig_tips_subplots = make_subplots(rows=1, cols=2,
                                  subplot_titles=( # YOUR CODE HERE , # YOUR CODE HERE )
                                 )

# 첫 번째 서브플롯: total_bill 히스토그램
# Plotly Express로 Figure 생성 후 trace만 가져와서 추가하는 방식도 가능
# 또는 go.Histogram 사용
hist_male = go.Histogram(x=tips_df[tips_df['sex']=='Male']['total_bill'], name='Male', marker_color='blue', opacity=0.7)
hist_female = go.Histogram(x=tips_df[tips_df['sex']=='Female']['total_bill'], name='Female', marker_color='red', opacity=0.7)

fig_tips_subplots.add_trace(hist_male, row=1, col=1)
fig_tips_subplots.add_trace(hist_female, row=1, col=1)
fig_tips_subplots.update_xaxes(title_text="Total Bill ($)", row=1, col=1)
fig_tips_subplots.update_yaxes(title_text="Frequency", row=1, col=1)
fig_tips_subplots.update_layout(barmode='overlay', legend_title_text='Sex') # 히스토그램 겹치기


# 두 번째 서브플롯: day별 tip 박스플롯
# Plotly Express로 Figure 생성 후 trace만 가져와서 추가하는 방식도 가능
# 또는 go.Box 사용
# 예시: time별로 box trace 생성 후 추가
for t in tips_df['time'].unique():
    df_time = tips_df[tips_df['time'] == t]
    fig_tips_subplots.add_trace(go.Box(y=df_time['tip'], x=df_time['day'], name=t, legendgroup='time'), row=1, col=2)

fig_tips_subplots.update_xaxes(title_text="Day", row=1, col=2)
fig_tips_subplots.update_yaxes(title_text="Tip ($)", row=1, col=2)


# 전체 레이아웃 업데이트
fig_tips_subplots.update_layout(height=500, title_text="Tips 데이터 분석: 총 지불액 분포와 요일/시간별 팁", showlegend=True)
fig_tips_subplots.show()