## 모듈 Import

In [None]:
from IPython.display import Image
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

warnings.filterwarnings('ignore')

# Unicode warning 제거 (폰트 관련 경고메시지)
plt.rcParams['axes.unicode_minus']=False

# 한글 폰트 설정
plt.rcParams['font.family'] = "NanumGothic"

# 그래프 출력 사이즈 설정
plt.rcParams["figure.figsize"] = (12, 8)

# Seaborn

seaborn은 matplotlib을 더 사용하기 쉽게 해주는 라이브러리입니다.

* [seaborn 공식 도큐먼트 살펴보기](https://seaborn.pydata.org/)

### 샘플 데이터셋 로드

In [None]:
tips = sns.load_dataset("tips")

### 왜 Seaborn 인가요?

matplotlib으로 대부분의 시각화는 가능합니다. 하지만, 다음과 같은 이유로 `seaborn`을 많은 사람들이 선호합니다.

- 쉬운 사용성 (1줄 완성 그래프)
- seaborn 에서만 제공되는 **통계 기반 plot**
- 아름다운 스타일링
- Pandas의 데이터프레임과 높은 호환성

### 아름다운 스타일링

seaborn의 최대 장점 중 하나인, 아름다운 컬러팔레트입니다.

제가 최대 장점으로 꼽은 이유는, 

`matplotlib`의 기본 컬러 색상보다 `seaborn`은 스타일링에 크게 신경을 쓰지 않아도 **default 컬러가 예쁘게 조합**해 줍니다.

In [None]:
fig, axes = plt.subplots(1, 2)
fig.set_size_inches(12, 6)

axes[0].bar(tips['day'], tips['total_bill'])
axes[0].set_title('matplotlib')
sns.barplot(x="day", y="total_bill", data=tips, palette='Set1', ax=axes[1])
axes[1].set_title('seaborn')
plt.show()

### 컬러 팔레트

자세한 컬러팔레트는 **공식 도큐먼트**를 참고하세요

- [Seaborn의 컬러팔레트](https://chrisalbon.com/python/data_visualization/seaborn_color_palettes/)
- [컬러팔레트 종류](https://teddylee777.github.io/visualization/matplotlib-colorcode)

In [None]:
sns.color_palette()

#### Light

In [None]:
sns.light_palette("seagreen", n_colors=10)

#### Dark

In [None]:
sns.dark_palette("#69d", n_colors=10)

#### Diverging

In [None]:
sns.color_palette('vlag', n_colors=10)

In [None]:
sns.diverging_palette(220, 20, n=10)

#### Custom

In [None]:
sns.cubehelix_palette(10, start=9.9)

#### 다양한 예시

In [None]:
sns.palplot(sns.light_palette((210, 90, 60), input="husl"))
sns.palplot(sns.dark_palette("muted purple", input="xkcd"))
sns.palplot(sns.color_palette("BrBG", 10))
sns.palplot(sns.color_palette("BrBG_r", 10))
sns.palplot(sns.color_palette("coolwarm", 10))
sns.palplot(sns.diverging_palette(255, 133, l=60, n=10, center="dark"))

In [None]:
sns.barplot(x="tip", y="total_bill", data=tips, palette='coolwarm')

In [None]:
sns.barplot(x="tip", y="total_bill", data=tips, palette='Reds')

# Seaborn 그래프

## Scatterplot

### x, y, colors, area 설정

* colors 는 임의 값을 color 값으로 변환합니다.
* area는 점의 넓이를 나타냅니다. 값이 커지면 당연히 넓이도 커집니다.

In [None]:
# 샘플데이터 생성
x = np.random.rand(50)
y = np.random.rand(50)
colors = np.arange(50)
area = x * y * 250

* seaborn 에서는 `size`와 `sizes`를 동시에 지정해줍니다.
* `sizes` 옵션에서는 사이즈의 min, max를 명시해 줍니다.
* `hue`는 컬러 옵션입니다.
* `palette`를 통해 seaborn이 제공하는 아름다운 palette 를 이용하시면 됩니다.

In [None]:
sns.scatterplot(x=x, y=y, size=area, sizes=(area.min(), area.max()), hue=area, palette='icefire')

### cmap과 alpha 설정

* cmap에 컬러를 지정하면, 컬러 값을 모두 같게 가져갈 수도 있습니다.
* alpha값은 투명도를 나타내며 0 ~ 1 사이의 값을 지정해 줄 수 있으며, 0에 가까울 수록 투명한 값을 가집니다.

In [None]:
sns.scatterplot(x=x, y=y, size=area, sizes=(area.min(), area.max()), hue=area, alpha=0.3, palette='icefire')

## Barplot, Barhplot

1개의 canvas 안에 다중 그래프 그리기

### 기본 Barplot 그리기

샘플데이터를 생성합니다.

In [None]:
score = pd.DataFrame({
    'subject': ['Math', 'Programming', 'Data Science', 'Art', 'English', 'Physics'], 
    'score': [66, 80, 60, 50, 80, 10]
})
score

bar그래프 생성

In [None]:
sns.barplot(x='subject', y='score', data=score, alpha=0.8, palette='YlGnBu')

### 기본 Barhplot 그리기

barh 함수에서는 **xticks로 설정**했던 부분을 **yticks로 변경**합니다.

In [None]:
sns.barplot(y='subject', x='score', data=score, alpha=0.8, palette='YlGnBu')

### Barplot에서 비교 그래프 그리기

seaborn 에서는 `hue` 옵션으로 매우 쉽게 비교 **barplot**을 그릴 수 있습니다.

In [None]:
# 샘플 데이터셋 로드
titanic = sns.load_dataset('titanic')
titanic.head(2)

`hue` 옵션에 분할 조건이 되는 컬럼명을 지정합니다.

In [None]:
sns.barplot(x='sex', y='survived', hue='pclass', data=titanic, palette="muted")

## Line Plot

In [None]:
# 샘플 데이터셋 생성
x = np.arange(0, 10, 0.1)
y_1 = 1 + np.sin(x)
y_2 = 1 + np.cos(x)

* color: 컬러 옵션
* alpha: 투명도 옵션

In [None]:
# lineplot 생성
sns.lineplot(x=x, y=y_1, label='1+sin', color='navy', alpha=0.3)
sns.lineplot(x=x, y=y_2, label='1+cos', color='red', alpha=0.7)

### 마커 스타일링

* marker: 마커 옵션

In [None]:
# lineplot 생성
sns.lineplot(x=x, y=y_1, label='1+sin', color='navy', alpha=0.3, marker='o')
sns.lineplot(x=x, y=y_2, label='1+cos', color='red', alpha=0.7, marker='+')

### 라인 스타일 변경하기

* linestyle: 라인 스타일 변경 옵션

In [None]:
sns.lineplot(x=x, y=y_1, label='1+sin', color='blue', linestyle=':')
sns.lineplot(x=x, y=y_2, label='1+cos', color='red', linestyle='-.')

## Histogram

In [None]:
# 샘플데이터 생성
N = 100000
bins = 30

x = np.random.randn(N)

In [None]:
sns.histplot(x, bins=bins, kde=False, color='g')
# 구 버전
# sns.distplot(x, bins=bins, kde=False, color='g')

`kde`을 **True**로 설정해주면, **Density**가 Y축에 표기 됩니다.

In [None]:
sns.histplot(x, bins=bins, kde=True, color='g')
# 구 버전
# sns.distplot(x, bins=bins, kde=True, color='g')

### 분포표, 누적분포표

In [None]:
# 샘플 데이터셋 생성
x = np.random.randn(100)

In [None]:
fig, axes = plt.subplots(1, 2, tight_layout=True)
fig.set_size_inches(12, 4)

# 히스토그램 생성
sns.histplot(x=x, bins=bins, ax=axes[0])
sns.histplot(x=x, bins=bins, cumulative=True, ax=axes[1])

# 구버전
# sns.displot(x=x, bins=bins)
# sns.displot(x=x, bins=bins, cumulative=True)

## Box Plot

샘플 데이터를 생성합니다.

In [None]:
titanic = sns.load_dataset('titanic')

seaborn에서 boxplot을 그릴 때는DataFrame을 가지고 그릴 때 주로 활용합니다. 

seaborn 에서는 `hue` 옵션으로 매우 쉽게 비교 **boxplot**을 그릴 수 있습니다.

In [None]:
sns.boxplot(x='pclass', y='age', hue='survived', data=titanic)