# short discussions on KDE plot

- 본 md 파일은 [pega님의 블로그](https://jehyunlee.github.io/2022/05/27/Python-DS-102-kdeplot/)를 보고, KDE plot이 가지는 의미 그리고 한계점을 다시 한번 정리하고자 작성하였습니다.  

## 0. 시작

- 현대 대한민국의 가장 큰 화두 중 하나는 `공정`입니다.   
- 기회의 공정, 결과의 공정, 또는 떨어질 때 떨어지더라도 이유라도 알자는 의미의 공정.
- 다 방면에서 서로 다른 의미로 공정이라는 단어가 오르내리고 있으며 공정과 함께 자주 나오는 키워드는 `부모찬스`입니다.
- 이와 관련해서 [경향신문](https://www.khan.co.kr/national/national-general/article/202205250600005)과 [언더스코어](http://underscore.kr/)에서는 의미있는 분석을 시도하였습니다.  

![IMAGE](./img/kde_plot_img1.png)

## 1. KDE plot

> Kernel Density Estimation

- 설문 결과 분포를 표현하기 위해 기사에서 사용된 시각화 기법을 `KDE plot`이라고 합니다.   
- Kernel Density Plot의 약자이며, 히스토그램이 가지고 있는 단점을 보완하기 위해 제안된 방식입니다. 

__히스토그램 vs KDE plot__ 

- 히스토그램 : 구간별 데이터 수를 bar plot 형식으로 표현

- KDE plot : 각 데이터로 밀도 분포를 추정하여 합산하는 방식

![IMAGE](./img/kde_plot_img2.png)

## 2. seaborn histogram vs kdeplot 

### 2.1 예제 데이터 

- seaborn에서 제공하는 Penguin dataset을 사용합니다. 
- 펭귄들의 체중 데이터를 그림으로 그려보겠습니다. 

In [1]:
%matplotlib inline 

import matplotlib.pyplot as plt 
import seaborn as sns 

sns.set_style("ticks")
sns.set_context("talk")
sns.set_palette("colorblind")

# penguins dataset 불러오기 
df_peng = sns.load_dataset("penguins")
df_peng.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female


### 2.2 histogram vs KDE plot 

- histogram과 KDE plot을 차례로 그려 비교해봅니다.
- histogram은 구간(bins) 수에 따라 모양이 변합니다. 
- 이 글은 KDE plot의 특징에 집중하기에 코드는 따로 설명 하지 않습니다.

In [None]:
from matplotlib.patches import Circle

vmin, vmax = df_peng['body_mass_g'].min(), df_peng['body_mass_g'].max()

fig,axes = plt.subplots(ncols =3, figsize=[10,3.5], constrained_layout = True)

for i,ax in enumerate(axes,1):
    sns.histplot(x = "body_mass_g",data = df_peng, bins = 10*i,ax = ax)
    ax.set_title(f"bins = {10*i}",pad=12, color = "gray")
    ymin, ymax = ax.get_ylim()

    # Changes
    circle0 = Circle((0.5,0.5),0.17,fc = "none", ec = "r", lw = 3, alpha =0.5, transform = ax.transAxes)
    circle1 = Circle((0.8,0.27),0.17,fc = "none", ec = "r", lw = 3, alpha =0.5, transform = ax.transAxes)
    ax.add_patch(circle0)
    ax.add_patch(circle1)  

    # data min, max
    ax.axvline(vmin, c = "orange",lw =3, alpha =0.5)
    ax.axvline(vmax, c = "orange",lw =3, alpha =0.5)
