In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings(action='ignore')

In [2]:
# 한글 폰트 지원
import platform
from matplotlib import font_manager, rc

plt.rcParams['axes.unicode_minus'] = False
if platform.system() == 'Darwin':  # 맥OS 
    rc('font', family='AppleGothic')
elif platform.system() == 'Windows':  # 윈도우
    path = "c:/Windows/Fonts/malgun.ttf"
    font_name = font_manager.FontProperties(fname=path).get_name()
    rc('font', family=font_name)
else:
    print('Unknown system...  sorry~~~')

# Seaborn

- https://seaborn.pydata.org/
- matplotlib의 기능에 스타일을 확장한 파이썬 시각화 도구
- high-level interface
- 패키지는 설치해야 함(pip install seaborn)
    - 아나콘다에 seaborn 패키지 포함되어 있으므로 이미 설치되어 있음
- seaborn을 사용하기 위해서는 matplotlib가 import 되어 있어야 함

![image.png](attachment:image.png)

- https://seaborn.pydata.org/examples/index.html
- https://seaborn.pydata.org/tutorial.html

## 패키지 임포트

## 지원되는 플롯 유형

- Relational plots
- Distribution plots
- Categorical plots
- Regression plots
- Multi-plot grids
- Figure theming
- Color palettes

![image.png](https://seaborn.pydata.org/_images/function_overview_8_0.png)

------------------------

# 시각화의 목적에 따른 플롯

- 데이터 분포 파악
- 데이터 관계 파악
- 집단간 비교
- 시간에 따른 변화

---

## 1. 데이터 분포(distribution) 파악

- 데이터의 중심(대표), 산포(퍼짐), 왜도, 첨도 등의 분포 특징을 파악하기 위해 사용


- 히스토그램(histogram)
    - matplotlib.pyplot.hist()
    - seaborn.displot(kind='hist')
    - seaborn.histplot()
    - DataFrame.plot(kind='hist')
    - DataFrame.plot.hist()
    

- 박스플롯(boxplot)
    - matplotlib.pyplot.boxplot()
    - seaborn.boxplot()
    - DataFrame.plot(kind='box')
    - DataFrame.plot.box()
    - DataFrame.boxplot()
    

- 커널 밀도 곡선(Kernel Density Estimation plot)
    - seaborn.displot(kind='kde')
    - seaborn.kdeplot()
    - DataFrame.plot(kind='kde')
    - DataFrame.plot.kde()

#### 예제 데이터. iris dataset

### 1) 히스토그램(histogram)

- 표로 되어 있는 도수 분포를 그림으로 나타낸 것
- 계급구간, 계급값, 빈도, 상대빈도

### ① matplotlib.pyplot.hist()

- 형식 : hist(x, bins=None, range=None, density=False, cumultive=False, ...)

### ② pandas.DataFrame.hist()

### ③ seaborn의 히스토그램 함수

- 형식1.
    - seaborn.histplot(data, x, y, hue, weights, stat, bins, binwidth, kde, ...)
    - 반환 : ax
    - https://seaborn.pydata.org/generated/seaborn.histplot.html#seaborn.histplot


- 형식2.
    - displot(kind='hist', x, y, data, hue,...)
    - https://seaborn.pydata.org/generated/seaborn.displot.html#seaborn.displot

### sns.histplot()

#### sns.histplot()의 stat인수

- stat='count' : 각 빈의 관측값수
- stat='frequency' : 각 빈의 너비로 나눈 관측값수
- stat='probability' or 'proportion' : 막대 높이의 합이 1이 되도록 정규화
- stat='percent' : 막대 높이 합이 100이 되도록 정규화
- stat='density' : 히스토그램의 전체 면적이 1이 되도록 정규화

#### sns.histplot(kde=True) 사용하여 커널 밀도 함수 곡선 그리기 
- 커널밀도곡선(Kernel Density Estimation curve)을 히스토그램 위에 그림

#### sns.histplot()의 cumulative인수

#### sns의 histplot()의 data인수만 지정할 경우
- 수치형 데이터들에 대한 히스토그램을 모두 그림

#### sns의 histplot()의 hue인수에 범주형 데이터를 지정할 경우
- 범주형 변수의 그룹별로 히스토그램을 그려 분포 비교 가능

#### sns의 histplot()의 element 인수 사용

- element = 'step' : 계단모양으로 그림
- element = 'poly' : 다각형으로 그림

#### sns.histplot()의 multiple인수

두 변수가 지정된 경우만 사용

- multiple='layer'
- multiple='dodge'
- multiple='stack'
- multiple='fill'

### sns.displot(kind='hist',) 

### 2) 박스플롯(boxplot)

- '상자 수염 그림'(box-and-whisker plot) 또는 '상자 그림'(box plot, boxplot)이라 부름
- 수치적 자료를 표현하는 그래프
- 자료로부터 얻어낸 통계량인 5가지 요약 수치(five-number summary)를 가지고 그린다
    - 최소값
    - 제1사분위(Q1, lower quartile)
    - 제2사분위(Q2, median)
    - 제3사분위(Q3, upper quartile)
    - 최대값
    
- 이상치 확인
- 분포의 비대칭 확인

### ① matplotlib.pyplot의 박스플롯 함수

- 형식 : boxplot(x, notch, sym, vert, whis, widths, ...)

---------------------------------------------

### ② seaborn의 박스플롯 함수

- 형식1.
    - boxplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None, orient=None, color=None, palette=None, saturation=0.75, width=0.8, dodge=True, fliersize=5, linewidth=None, whis=1.5, ... )

    - 반환값 : ax (matplotlib Axes)
    
    
- 형식2.
    - catplot(kind='box', x=None, y=None, hue=None, data=None, ... )

#### sns.boxplot()의 data, x, y 인수
- x : 범주(수치)형 변수
- y : 수치(범주)형 변수
- data : x,y에 지정한 변수를 가진 데이터프레임

#### sns.boxplot()의 order인수로 박스플롯 순서 변경

#### sns.boxplot()의 orient인수로 박스플롯 방향 변경
- orient = 'h' | 'v'

### 3) 이변량 분포(bivariate distribution)

- 이변량 자료 : 두 변수로 이루어진 분포

### seaborn의 histplot()

### seaborn의 displot()

- 형식 : displot(x, y, data, ...)
- https://seaborn.pydata.org/generated/seaborn.displot.html#seaborn.displot

#### 참고. seaborn.ecdfplot()

----

## 2. 데이터의 관계 파악

- 변수간 상관성(선형성) 파악
- 변수들간의 관계성 파악

- 산점도(scatter plot)
    - matplotlib.pyplot.scatter()
    - matplotlib.pyplot.plot()
    - seaborn.scatterplot()
    - seaborn.relplot(kind='scatter')
    - seaborn.regplot()
    - DataFrame.plot(kind='scatter')
    - DataFrame.plot.scatter()

- 버블플롯(bubble plot)
    - matplotlib.pyplot.scatter(, s= ,)
    - seaborn.scatterplot(, size= ,)
    - seaborn.relplot(kind='scatter', size= ,)

    

- 산점도행렬(scatterplot matrix)
    - seaborn.pariplot()
    - pandas.plotting.scatter_matrix()

### 1) 산점도(scatter plot)

- 두 변수간의 선형성 파악
- 두 변수는 수치형 데이터

### ① matplotlib.pyplot의 산점도 함수

- 형식.
    - scatter(x, y, s=None, c=None, marker=None, cmap=None, norm=None, vmin=None, vmax=None, alpha=None, linewidths=None, *, edgecolors=None, plotnonfinite=False, data=None,...)

### ② pandas의 plot.scatter() 함수이용하여 산점도 그리기

### ② seaborn의 산점도 함수

- 형식1.
    - scatterplot(x=None, y=None, hue=None, style=None, size=None, data=None, palette=None, hue_order=None, hue_norm=None, sizes=None, size_order=None, size_norm=None, markers=True, ... )
    - https://seaborn.pydata.org/generated/seaborn.scatterplot.html#seaborn.scatterplot

    
- 형식2.
    - relplot(kind='scatter', x=None, y=None, hue=None, size=None, data=None, ... )
    - https://seaborn.pydata.org/generated/seaborn.relplot.html#seaborn.relplot
    
    
- 형식3.
    - regplot(x=None, y=None, data=None, x_estimator=None, x_bins=None, x_ci='ci', scatter=True, fit_reg=True, ci=95,...)
    - https://seaborn.pydata.org/generated/seaborn.regplot.html#seaborn.regplot

### sns.scatterplot()

#### sns.scatterplot()의 hue 인수
- 범주형 변수의 범주에 따라 다른 색상으로 표시

#### sns.scatterplot()의 style 인수
- 범주형 변수의 범주에 따라 마커 모양을 다르게 표현

#### sns.scatterplot()의 s인수로 마커 크기 변경

#### scatterplot()함수의 alpha 인수를 이용하여 스타일 변경

### sns.relplot(kind='scatter')

#### sns.scatterplot()의 palette 인수

- seaborn에서 제공되는 팔레트 : https://seaborn.pydata.org/tutorial/color_palettes.html

- relplot()의 col인수

### regplot()함수를 이용하여 산점도 그리기
- 선형회귀 적합 선을 포함시키지 않으려면 fit_reg=False

- regplot()의 fit_reg=True

### 2) 산점도 행렬(scatter plot matrix) 그리기

- 여러 개의 연속형 변수에 대해서 두 변수씩 쌍을 이루는 산점도를 그려 한꺼번에 변수 간 관계를 일목요연하게 볼 수 있음

###  ① seaborn.pairplot()을 이용한 산점도 행렬

- 형식 : pairplot(data, hue=None, hue_order=None, palette=None, vars=None, x_vars=None, y_vars=None, kind='scatter', diag_kind='auto', markers=None, height=2.5, aspect=1, corner=False, dropna=False, plot_kws=None, diag_kws=None, grid_kws=None, size=None)


- https://seaborn.pydata.org/generated/seaborn.pairplot.html#seaborn.pairplot

#### pairplot()의 인수를 이용한 산점도 행렬1
- diag_kind='hist'를 설정하여 대각원소 자리에 각 변수별 히스토그램 그리기

#### pairplot()의 인수를 이용한 산점도 행렬2
- diag_kind='kde' : 각 변수별 커널밀도추정곡선 그림
- hue='species' : 'species'(setosa, versicolor, virginica) 별로 색깔을 다르게 표시
- 색깔은 palette 에 'bright', 'pastel', 'deep', 'muted', 'colorblind', 'dark' 중에서 가독성이 좋고 선호하는 색상으로 선택 

### ② pandas.plotting 의 scatter_matrix() 함수를 사용하여 산점도 행렬

- 형식 : scatter_matrix(frame, alpha=0.5, figsize=None, ax=None, grid=False, diagonal='hist', marker='.', density_kwds=None, hist_kwds=None, range_padding=0.05, **kwargs)


- https://pandas.pydata.org/docs/reference/api/pandas.plotting.scatter_matrix.html

### 3) 버블 플롯

- 산점도에서 x, y이외의 다른 변수를 포인트의 크기로 매핑하여 변수들간의 관계를 파악하게 함

### ① matplotlib.pyplot의 scatter()를 이용한 버블플롯 

- scatter()의 s 인수 사용

### ② seaborn의 산점도 함수를 이용한 버블 플롯

- sns.scatterplot() 또는 relplot()의 size인수 사용

------