# Seaborn

- Visual Python: Visualization > Seaborn

# Load file

In [None]:
# Visual Python: Data Analysis > Import
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns

In [None]:
# Visual Python: Data Analysis > File
df_iris = pd.read_csv('./data/iris.csv')
df_iris

In [None]:
# Visual Python: Data Analysis > File
df_titanic = pd.read_csv('./data/titanic.csv')
df_titanic

In [None]:
# Visual Python: Data Analysis > File
df_economics = pd.read_csv('./data/economics.csv')
df_economics

# 한글 표현을 위한 글꼴 설정
- Visual Python: Visualization > Chart Style

In [None]:
# Visual Python: Visualization > Chart Style
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
plt.rc('figure', figsize=(6, 4))

from matplotlib import rcParams
rcParams['font.family'] = 'New Gulim'
rcParams['font.size'] = 10
rcParams['axes.unicode_minus'] = False

# 1. Scatter plot - 산점도
- 산점도에서 파악할 수 있는 것
    - 데이터 밀도
    - 두 변수 간 관계성
    - 데이터 분포
    - 이상치
- 한계
    - 대량의 데이터
    - 선형 관계의 파악에 한정됨

#### `variety`를 기준으로 `sepal_length`의 분포 확인

In [None]:
# Visual Python: Visualization > Seaborn
sns.scatterplot(data=df_iris, x='sepal_length', y=df_iris.index, hue='variety')
plt.show()

#### `variety`를 기준으로 `sepal_length`와 `petal_length`의 상관관계 확인

In [None]:
# Visual Python: Visualization > Seaborn
sns.scatterplot(data=df_iris, x='sepal_length', y='petal_length', hue='variety')
plt.show()

# 2. Line plot - 선 그래프
- 시간이나 데이터의 변화에 따른 추세를 시각적으로 표현하는 데 유용함

#### iris 데이터의 데이터별 추세 확인

In [None]:
# Visual Python: Visualization > Seaborn
sns.lineplot(data=df_iris)
plt.show()

#### economics 데이터의 시간 변화에 따른 값 변화 확인

In [None]:
# Visual Python: Data Analysis > Frame
df_economics = df_economics.astype({'date': 'datetime64[ns]'})
df_economics

In [None]:
# Visual Python: Visualization > Seaborn
sns.lineplot(data=df_economics, x='date', y='pop')
plt.xticks(rotation=45)
plt.show()

# 3. Hist plot - 히스토그램
- 데이터의 분포를 시각적으로 표현하는 간단한 시각화 방법

#### 단순한 히스토그램으로 `petal_length`의 데이터 분포 확인

In [None]:
# Visual Python: Visualization > Seaborn
sns.histplot(data=df_iris, x='petal_length')
plt.show()

#### `hue`와 `bins`옵션을 활용해 세부적인 분포 확인
- hue : 범주
- bins : 나눌 구간의 수

In [None]:
# Visual Python: Visualization > Seaborn
sns.histplot(data=df_iris, x='petal_length', hue='variety', bins=15)
plt.show()

# 4. KDE plot
- 커널 밀도 추정(Kernel Density Estimation, KDE)
- 데이터의 분포를 연속적인 곡선으로 표현함
- 단, 데이터의 양이 많아지면 부하가 커질 수 있음

In [None]:
# Visual Python: Visualization > Seaborn
sns.kdeplot(data=df_iris)
plt.show()

# 5. Rug plot
- 데이터의 분포를 확인할 수 있음
- 데이터의 각 포인트를 축 위에 작은 선분으로 표시함

In [None]:
# Visual Python: Visualization > Seaborn
sns.rugplot(data=df_iris, x='sepal_length', y='petal_length', hue='variety')
plt.show()

# 6. Strip plot
- 데이터 포인트를 점으로 나타내는 방식
- 수직 방향으로 정확한 위치에 표시

In [None]:
# Visual Python: Visualization > Seaborn
sns.stripplot(data=df_iris)
plt.show()

# 7. Swarm plot
- 데이터 포인트를 점으로 나타내는 방식
- 데이터 포인트를 가로로 나열하고, 겹치지 않도록 작은 조정을 가하여 데이터를 시각적으로 분리함
- Stripplot보다 비교적 큰 데이터에도 활용할 수 있음

In [None]:
# Visual Python: Data Analysis > Pandas Option
import warnings
warnings.simplefilter(action='ignore', category=Warning)

In [None]:
# Visual Python: Visualization > Seaborn
sns.swarmplot(data=df_iris)
plt.show()

# 8. Box plot
- 이상치를 감지하고 데이터의 중심 경향을 파악하는 데 활용함
- 확인할 수 있는 요소:
    - 중앙값
    - 사분위수
    - 분포의 범위
    - 이상치 : 박스 플롯 위 아래의 포인트로 표시됨

#### iris 데이터의 각 컬럼별 분포

In [None]:
# Visual Python: Visualization > Seaborn
sns.boxplot(data=df_iris)
plt.show()

# 9. Violin plot
- 커널 밀도 추정(kernel density estimation)을 사용하여 데이터 분포의 모양과 밀도를 더 자세히 이해하고 비교하는 데에 사용함
- 확인할 수 있는 요소:
    - 중앙값
    - 사분위수
    - 분포의 범위
    - 분포의 너비 : violinplot의 너비가 데이터의 밀도임
    - 비대칭성 : 분포의 너비를 활용해 분포의 비대칭성을 확인할 수 있음

#### iris 데이터의 각 컬럼별 분포와 밀도

In [None]:
# Visual Python: Visualization > Seaborn
sns.violinplot(data=df_iris)
plt.show()

# 10. Point plot
- 하나 이상의 범주형 변수에 따라 연속형 데이터 간의 관계를 확인할 수 있음

#### iris 데이터의 `variety`와 `sepal_length` 데이터의 관계

In [None]:
# Visual Python: Visualization > Seaborn
sns.pointplot(data=df_iris, x='variety', y='sepal_length')
plt.show()

In [None]:
# Visual Python: Visualization > Seaborn
sns.pointplot(data=df_iris, x='sepal_width', y='petal_width', hue='variety')
plt.show()

# 11. Bar plot
- 주로 범주형 데이터를 시각적으로 표현할 때 사용함

In [None]:
# Visual Python: Visualization > Seaborn
def vp_seaborn_show_values(axs, precision=1, space=0.01):
    pstr = '{:.' + str(precision) + 'f}'
    
    def _single(ax):
        # check orient
        orient = 'v'
        if len(ax.patches) == 1:
            # check if 0
            if ax.patches[0].get_x() == 0:
                orient = 'h'
        else:
            # compare 0, 1 patches
            p0 = ax.patches[0]
            p1 = ax.patches[1]
            if p0.get_x() == p1.get_x():
                orient = 'h'
                
        if orient == 'v':
            for p in ax.patches:
                _x = p.get_x() + p.get_width() / 2
                _y = p.get_y() + p.get_height() + (p.get_height()*space)
                if not np.isnan(_x) and not np.isnan(_y):
                    value = pstr.format(p.get_height())
                    ax.text(_x, _y, value, ha='center') 
        elif orient == 'h':
            for p in ax.patches:
                _x = p.get_x() + p.get_width() + (space - 0.01)
                _y = p.get_y() + p.get_height() / 2
                if not np.isnan(_x) and not np.isnan(_y):
                    value = pstr.format(p.get_width())
                    ax.text(_x, _y, value, ha='left')

    if isinstance(axs, np.ndarray):
        for idx, ax in np.ndenumerate(axs):
            _single(ax)
    else:
        _single(axs)

#### titanic 데이터의 `Pclass` 기준으로 탑승비 비교 (`Sex` 범주로 구분)

In [None]:
# Visual Python: Visualization > Seaborn
ax = sns.barplot(data=df_titanic, x='Pclass', y='Fare', hue='Sex', errorbar=None)
vp_seaborn_show_values(ax)
plt.show()

# 12. Count plot
- 주로 범주형 데이터의 빈도를 시각화할 때 사용함

#### titanic 데이터의 `Pclass`별 데이터 빈도 확인

In [None]:
# Visual Python: Visualization > Seaborn
ax = sns.countplot(data=df_titanic, x='Pclass', order=df_titanic['Pclass'].value_counts(ascending=False).index)
vp_seaborn_show_values(ax)
plt.show()

# 13. Heatmap - 히트맵
- 데이터의 패턴, 상관 관계 및 분포를 시각적으로 표현함
- 특히 히트맵은 데이터의 상관 관계를 시각적으로 분석할 때 사용하기 때문에, 상관계수와 함께 사용하는 경우가 많음

In [None]:
corr_iris = df_iris.corr(numeric_only=True)

In [None]:
# Visual Python: Visualization > Seaborn
sns.heatmap(data=corr_iris)
plt.show()

# 14. 기타 시각화 기능

## 14.1. title, label, legend
- title : 타이틀 추가
- xlabel : x축 라벨 추가
- ylabel : y축 라벨 추가
- legend : 범주 박스의 위치 설정

In [None]:
# Visual Python: Visualization > Seaborn
sns.scatterplot(data=df_iris, x='sepal_width', y='petal_width', hue='variety')
plt.legend(loc='lower left')
plt.title('iris의 산점도')
plt.xlabel('꽃받침 너비')
plt.ylabel('꽃잎 너비')
plt.show()

## 14.2. limit, ticks
- xlim : x축의 시작, 종료값 제한
- ylim : x축의 시작, 종료값 제한
- xticks : x축의 포인트 라벨 제어
- yticks : y축의 포인트 라벨 제어

In [None]:
# Visual Python: Visualization > Seaborn
sns.lineplot(data=df_iris)
plt.xlim((20, 120))
plt.ylim((0, 6))
plt.xticks(rotation=45)
plt.yticks(rotation=45)
plt.show()

## 14.3. color, marker, grid
- color : 선이나 점의 색상 변경
- marker : 포인트의 모양 변경
- grid : 그래프를 가로지르는 격자선 추가/제거 및 색상 제어

In [None]:
# Visual Python: Visualization > Seaborn
sns.lineplot(data=df_iris, x='petal_length', y='sepal_length', color='#fe95f5', marker='D')
plt.grid(True, color='#c9c9c9')
plt.show()

---

# [실습] 직접 해보기

# 실습 1. economics 데이터로 시각화하기

#### Q. `date`를 x축으로 `pce`의 변화를 시각화하세요.
- 단, `연도별 pce 변화`를 타이틀로 표시해 주세요.

In [None]:
# Visual Python: Visualization > Seaborn
sns.lineplot(data=df_economics, x='date', y='pce')
plt.title('연도별 pce 변화')
plt.show()

#### Q. 산점도를 이용해 `pce` 컬럼과 `pop` 컬럼의 관계를 파악하세요.

In [None]:
# Visual Python: Visualization > Seaborn
sns.lineplot(data=df_economics, x='pce', y='pop')
plt.show()

#### Q. `pop` 컬럼의 데이터 분포를 다양한 시각화 방식을 활용해 확인하세요.
- histplot
- kdeplot
- rugplot

In [None]:
# Visual Python: Visualization > Seaborn
sns.histplot(data=df_economics, x='pop')
plt.show()

In [None]:
# Visual Python: Visualization > Seaborn
sns.kdeplot(data=df_economics, x='pop')
plt.show()

In [None]:
# Visual Python: Visualization > Seaborn
sns.rugplot(data=df_economics, x='pop')
plt.show()

---

In [None]:
# End of file