## 실습에 필요한 데이터 파일 다운로드

In [None]:
from teddynote import dataset

dataset.download('민간아파트분양')

## 기본 import

In [None]:
from IPython.display import Image
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import warnings

warnings.filterwarnings('ignore')

# Unicode warning 제거 (폰트 관련 경고메시지)
plt.rcParams['axes.unicode_minus']=False

# 한글 폰트 설정
plt.rcParams['font.family'] = "NanumGothic"

# 그래프 출력 사이즈 설정
plt.rcParams["figure.figsize"] = (12, 8)

## 데이터셋 로드

- 주택도시보증공사_전국 신규 민간 아파트 분양가격 동향
- 출처: 공공데이터 포털(https://www.data.go.kr/)

In [None]:
df = pd.read_csv('data/house_price.csv')
df.head()

## DataFrame을 활용한 시각화

kind 옵션:
* line: 선그래프
* bar: 바 그래프
* barh: 수평 바 그래프
* hist: 히스토그램
* kde: 커널 밀도 그래프
* hexbin: 고밀도 산점도 그래프
* box: 박스 플롯
* area: 면적 그래프
* pie: 파이 그래프
* scatter: 산점도 그래프


### line 그래프

* line 그래프는 데이터가 연속적인 경우 사용하기 적절합니다. (예를 들면, 주가 데이터)

In [None]:
df['분양가'].plot(kind='line')

서울 지역으로 필터링

In [None]:
df_seoul = df.loc[df['지역'] == '서울']
df_seoul

연도별 분양가의 평균 값을 출력

In [None]:
df_seoul_year = df_seoul.groupby('연도')[['분양가']].mean()
df_seoul_year

In [None]:
df_seoul_year['분양가'].plot(kind='line')

## bar 그래프

bar 그래프는 그룹별로 비교할 때 유용합니다.

In [None]:
df.groupby('지역')['분양가'].mean()

In [None]:
df.groupby('지역')['분양가'].mean().plot(kind='bar')

In [None]:
df.groupby('지역')['분양가'].mean().plot(kind='barh')

### 히스토그램 (hist)

히스토그램은 **분포-빈도 를 시각화**하여 보여줍니다

가로축에는 분포를, 세로축에는 빈도가 시각화되어 보여집니다.

In [None]:
df['분양가'].plot(kind='hist')

### 커널 밀도 그래프

* 히스토그램과 유사하게 밀도를 보여주는 그래프입니다.
* 히스토그램과 유사한 모양새를 갖추고 있습니다. 
* 부드러운 라인을 가지고 있습니다.

In [None]:
df['분양가'].plot(kind='kde')

### Hexbin

* hexbin은 고밀도 산점도 그래프입니다.
* x와 y 키 값을 넣어 주어야 합니다.
* x, y 값 모두 numeric 한 값을 넣어 주어야합니다.
* 데이터의 밀도를 추정합니다.

In [None]:
df.plot(kind='hexbin', x='분양가', y='연도', gridsize=20)

### 박스 플롯(box)

In [None]:
df_seoul = df.loc[df['지역'] == '서울']

In [None]:
df_seoul['분양가'].plot(kind='box')

In [None]:
from IPython.display import Image

# image source : https://justinsighting.com/how-to-interpret-box-plots/
Image(url='https://justinsighting.com/wp-content/uploads/2016/12/boxplot-description.png')

IQR은 Inter Quantile Range의 약어로써, (3Q - 1Q) * 1.5 값입니다.

### Pie 그래프

In [None]:
df.groupby('연도')['분양가'].count().plot(kind='pie')

### scatter plot (산점도 그래프)

* 점으로 데이터를 표기해 줍니다
* x, y 값을 넣어주어야합니다 (hexbin과 유사)
* x축과 y축을 지정해주면 그에 맞는 데이터 분포도를 볼 수 있습니다.
* 역시 numeric 한 column 만 지정할 수 있습니다

In [None]:
df.head()

In [None]:
df.plot(x='월', y='분양가', kind='scatter')