# 데이터 시각화

In [None]:
import os
import pandas as pd
import numpy as np
from plt_rce import *

In [None]:
os.getcwd()

In [None]:
os.chdir('../../data')

In [None]:
sorted(os.listdir())

In [None]:
apt = pd.read_csv(
    'APT_Data_Prep.csv',
    parse_dates=['계약일자'],
    low_memory=False
)

In [None]:
apt.head()

In [None]:
apt.info()

In [None]:
apt.describe(include=[int, float]).round(2)

In [None]:
apt.describe(include=object)

## matplotlib & seaborn

- 시각화 코드는 하나의 셀에 여러 줄을 입력
- 맨 마지막 코드 오른쪽 끝에 세미콜론을 추가하면 그래프만 출력
    - 또는 맨 마지막 줄에 plt.show() 추가

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm

### 원하는 폰트 리스트 확인

In [None]:
font_list = fm.findSystemFonts(fontext='ttf')
font_path = [font for font in font_list if 'Gowun' in font]
font_path
# ['/Users/taehyunan/Library/Fonts/GowunBatang-Bold.ttf',
#  '/Users/taehyunan/Library/Fonts/GowunBatang-Regular.ttf',
#  '/Users/taehyunan/Library/Fonts/GowunDodum-Regular.ttf']

### 폰트가 설치되어 있는 이름 확인

In [None]:
for font in font_path:
    print(fm.FontProperties(fname=font).get_name())
# Gowun Dodum
# Gowun Batang
# Gowun Batang

### matplotlib 캐시 삭제

In [None]:
# matplotlib 캐시 삭제
fm._load_fontmanager(try_read_cache=False)

### rc로 폰트 설정
- rc : runtime configuration, matplotlib이 동작하는 중에 환경 설정하는 코드

In [None]:
plt.rc(group='font', family='Gowun Batang', size=10)
plt.rc(group='figure', figsize=(8, 4), dpi=120)
plt.rc(group='axes', unicode_minus=False)
plt.rc(group='legend', frameon=True, fc='0.9', ec='0.9')

In [None]:
sns.histplot(data=apt, x='거래금액');

In [None]:
sns.histplot(data=apt, x='거래금액', binwidth=2, facecolor='1', edgecolor='0');

### 히스토그램 계급 추가

In [None]:
apt['거래금액'].agg(func=['min', 'max'])
# min      0.62
# max    220.00
# Name: 거래금액, dtype: float64

In [None]:
sns.histplot(
    data=apt, 
    x='거래금액', 
    binwidth=2,
    binrange=(0, 60),
    facecolor='1', 
    edgecolor='0'
);

In [None]:
# png 파일로 저장
plt.savefig('test.png', bbox_inches='tight', pad_inches=0.1)

In [None]:
from IPython.display import Image

Image('test.png')
os.remove('test.png')

In [None]:
sns.histplot(
    data=apt, 
    x='거래금액', 
    binwidth=2,
    binrange=(0, 60),
    hue='재건축', 
    ec='0'
);

In [None]:
sns.histplot(
    data=apt, 
    x='거래금액', 
    binwidth=2,
    binrange=(0, 60),
    hue='재건축', 
    ec='0',
    palette='Set1'
);

### 컬러맵 목록

In [None]:
dir(plt.cm)

In [None]:
plt.cm.Accent

In [None]:
plt.cm.Accent_r

- 연속형 범주에 사용

In [None]:
plt.cm.Grays

- 극단 범주

In [None]:
plt.cm.Spectral

- 범주형

In [None]:
plt.cm.Set1

### 팔레트 설정

In [None]:
# 기본 팔레트 확인
sns.color_palette()

In [None]:
# 기본값 변경
sns.set_palette('Set1')

In [None]:
sns.color_palette()

In [None]:
sns.histplot(
    data=apt, 
    x='거래금액', 
    binwidth=2,
    binrange=(0, 60),
    hue='재건축', 
    ec='0'
);

In [None]:
apt['재건축'].head()
# 0    부족
# 1    부족
# 2    충족
# 3    부족
# 4    충족
# Name: 재건축, dtype: object

In [None]:
apt1 = apt.sort_values('재건축', ascending=False)
apt1['재건축'].head()
# 140335    충족
# 98022     충족
# 98020     충족
# 174035    충족
# 98018     충족
# Name: 재건축, dtype: object

In [None]:
sns.histplot(
    data=apt1, 
    x='거래금액', 
    binwidth=2,
    binrange=(0, 60),
    hue='재건축', 
    ec='0'
);

- hue_order : 범례 순서 변경

In [None]:
sns.histplot(
    data=apt, 
    x='거래금액', 
    binwidth=2,
    binrange=(0, 60),
    hue='재건축', 
    ec='0',
    hue_order=['충족', '부족']
);

### 사용자 팔레트 생성

In [None]:
mypal = ['lightgray', 'royalblue', 'orangered']
sns.color_palette(mypal)

In [None]:
sns.histplot(
    data=apt, 
    x='거래금액', 
    binwidth=2,
    binrange=(0, 60),
    hue='재건축', 
    ec='0',
    palette=mypal
);

In [None]:
sns.histplot(
    data=apt, 
    x='거래금액', 
    binwidth=2,
    binrange=(0, 60),
    hue='재건축', 
    ec='0',
    palette={
        '부족': 'lightgray',
        '충족': 'royalblue'
    }
);

### 제목 및 축이름

In [None]:
sns.histplot(
    data=apt, 
    x='거래금액', 
    binwidth=2,
    binrange=(0, 60),
    hue='재건축', 
    ec='0',
    palette=mypal
)

plt.title('아파트 거래금액 분포', size=16, fontweight='bold', color='red')
plt.xlabel('거래금액(억)')
plt.ylabel('거래건수(건)');

### 커널 밀도 추정 곡선 추가

In [None]:
sns.histplot(
    data=apt, 
    x='거래금액', 
    binwidth=2,
    binrange=(0, 60),
    fc='1',
    ec='0.8',
    kde=True,
    color='red'
)

plt.xlim(-3, 63);

In [None]:
sns.histplot(
    data=apt, 
    x='거래금액', 
    binwidth=2,
    binrange=(0, 60),
    fc='1',
    ec='0.8',
    stat='density'
)

sns.kdeplot(
    data=apt, 
    x='거래금액',
    color='red',
    linewidth=1,
    linestyle='--'
)

plt.xlim(-3, 63);

### 관심 지역 선택

In [None]:
cond = apt['시군구'].str.contains(pat='강[남동북]구')
sub = apt.loc[cond, :]

sub.groupby('시군구')['거래금액'].agg(func=['count', 'mean', 'std'])
# count	mean	std
# 시군구			
# 강남구	12291	20.857690	12.250572
# 강동구	11958	9.412720	4.219959
# 강북구	4875	5.881168	2.092242dd

### 히스토그램 겹쳐서 그리기

In [None]:
sns.histplot(
    data=sub,
    x='거래금액',
    binwidth=2,
    binrange=(0, 60),
    hue='시군구',
    ec='0',
    palette=mypal
);

In [None]:
sns.kdeplot(
    data=sub,
    x='거래금액',
    hue='시군구',
    palette=mypal,
    fill=True
)
plt.xlim(-3, 63);

### 상자 그림

In [None]:
sns.boxplot(
    data=apt,
    y='거래금액',
    # color='0.8',
    # linewidth=0.5
    boxprops={
        'facecolor': 'pink',
        'edgecolor': 'red'
    },
    medianprops={
        'color': 'green'
    }
);

### 이상치 관련 속성 설정

In [None]:
out_prop = {
    'marker': '*',
    'markersize': 5,
    'markeredgecolor': 'red',
    'markeredgewidth': 0.5
}

sns.boxplot(
    data=apt,
    y='거래금액',
    color='0.8',
    linewidth=0.5,
    flierprops=out_prop
);

### 이변량 상자 그림

- order : 범주형 정렬

In [None]:
grp = apt.groupby('시군구')['거래금액'].median().sort_values()
grp.head()
# 시군구
# 도봉구    4.9
# 금천구    5.4
# 노원구    5.5
# 중랑구    5.7
# 강북구    6.0
# Name: 거래금액, dtype: float64

In [None]:
sns.boxplot(
    data=apt,
    x='시군구',
    y='거래금액',
    color='0.8',
    linewidth=0.5,
    flierprops=out_prop,
    order=grp.index
)

plt.axhline(y=apt['거래금액'].median(), color='red', linewidth=1, linestyle='--')

plt.xticks(size=8, rotation=90)

plt.xlim(-1, 25);

### 막대 그래프

In [None]:
grp = apt['시군구'].value_counts()

#### 특정 부분만 포인트 추가
- 사용자 팔레트를 추가하려면 hue 매개변수에 x 축 변수명을 지정해야함
- order 매개변수로 x축 눈금명 순서를 변경했다면 hue_order를 추가해야 함

In [None]:
mypal2 = ['red'] + ['silver'] * 24

In [None]:
plt.figure(figsize=(12, 4)) # 현재 셀에만 적용되는 환경 설정 함수

sns.countplot(
    data=apt,
    x='시군구',
    color='0.8',
    order=grp.index,
    hue='시군구',
    hue_order=grp.index,
    palette=mypal2
)

# 모든 막대에 값 추가
for i, v in enumerate(grp):
    plt.text(x=i, y=v + 200, s=f'{v:,}', ha='center', va='bottom', size=8, color='blue', fontweight='bold')

plt.ylim(0, 22500)

plt.xlim(-1, 25)

plt.xticks(rotation=90, size=8);

### 가로막대 그래프 그리기

In [None]:
plt.figure(figsize=(8, 6)) 

sns.countplot(
    data=apt,
    y='시군구',
    color='0.8',
    order=grp.index,
    hue='시군구',
    hue_order=grp.index,
    palette=mypal2
)

for i, v in enumerate(grp):
    plt.text(
        x=v + 200,
        y=i,
        s=f'{v:,}',
        ha='left',
        va='center',
        color='blue',
        size=8,
        fontweight='bold'
    )

plt.ylim(25, -1)

plt.xlim(0, 22500);

### 파이차트 그리기
- 파이차트는 범주 개수가 3~5개 정도일 때 그리면 좋음

In [None]:
grp = sub['시군구'].value_counts().sort_index()
# 시군구
# 강남구    12291
# 강동구    11958
# 강북구     4875
# Name: count, dtype: int64

In [None]:
_, _, pcts = plt.pie(
    x=grp,
    labels=grp.index,
    colors=mypal,
    autopct='%.1f%%',
    explode=[0, 0, 0.1], # 강조
    textprops={ # 글자 굵기 지정
        'fontweight': 'bold'
    },
    wedgeprops=dict(ec='1', lw=1) # 쐐기의 테두리 색과 선의 두께를 지정
)

pcts[1].set_color('white')

plt.show()

### 이변량 막대 그래프 그리기

In [None]:
grp = apt.groupby('시군구')['거래금액'].mean().sort_values()

In [None]:
plt.figure(figsize=(12, 4))

sns.barplot(
    data=apt,
    x='시군구',
    y='거래금액',
    color='0.8',
    estimator='mean', # 집계 함수 지정
    errorbar=None, # 오차막대 설정 (기본값: ('ci), 95) = 95% 신뢰구간
    order=grp.index
)

plt.xticks(rotation=90, size=8)
plt.xlim(-1, 25)
plt.ylim(0, 25)

for i, v in enumerate(grp):
    plt.text(
        x=i, y=v, s=f'{v:.1f}억',
        ha='center', va='bottom',
        color='blue', fontweight='bold', size=8
    )

plt.show()

### 열이름 세로로 변경

In [None]:
grp.index.str.split(pat = '')[0:5]
# Index([['', '도', '봉', '구', ''], ['', '금', '천', '구', ''],
#        ['', '중', '랑', '구', ''], ['', '노', '원', '구', ''],
#        ['', '강', '북', '구', '']],
#       dtype='object', name='시군구')

In [None]:
sigg = pd.Series(data = grp.index.str.split(pat = ''))
sigg = sigg.apply(func = lambda x: '\n'.join(x).strip())
sigg.head()
# 0    도\n봉\n구
# 1    금\n천\n구
# 2    중\n랑\n구
# 3    노\n원\n구
# 4    강\n북\n구
# Name: 시군구, dtype: object

In [None]:
plt.figure(figsize = (12, 4))
sns.countplot(data = apt, x = '시군구', color = '0.8', order = grp.index)
plt.xticks(ticks = range(25), labels = sigg);

### 이변량 막대 그래프 채우기 색 변경

In [None]:
sns.barplot(
    x=grp.index,
    y=grp.values,
    hue=grp.values,
    palette='Blues',
    edgecolor='0.8',
    legend=False
)

plt.xticks(rotation=90, size=8)
plt.xlim(-1, 25)
plt.ylim(0, 22.5)

plt.show()

### 선 그래프
- x축에 수치형 변수를 사용하면 간격이 자동 계산 됨

In [None]:
sns.lineplot(
    data=apt,
    x='계약월', y='거래금액',
    errorbar=None,
    estimator='mean'
)

plt.xticks(
    ticks=range(1, 13),
    labels=[f'{i}월' for i in range(1, 13)]
)

plt.show()

- 선 그래프는 order가 없어서 추가로 정렬 필요

In [None]:
apt1['계약월'] = apt1['계약월'].astype(str)
apt1 = apt1.sort_values('계약일자')

In [None]:
sns.lineplot(
    data=apt1,
    x='계약월', y='거래금액',
    errorbar=None,
    estimator='mean'
)

# plt.xticks(
#     ticks=range(1, 13),
#     labels=[f'{i}월' for i in range(1, 13)]
# )

plt.show()

### 선 그래프에 점 추가

In [None]:
sns.lineplot(
    data=apt,
    x='계약월', y='거래금액',
    errorbar=None,
    estimator='mean',
    marker='o'
)

plt.xticks(
    ticks=range(1, 13),
    labels=[f'{i}월' for i in range(1, 13)]
)

plt.show()

In [None]:
sns.lineplot(
    data=apt,
    x='계약월', y='거래금액', hue='계약년도',
    errorbar=None,
    estimator='mean',
    marker='o'
)

plt.xticks(
    ticks=range(1, 13),
    labels=[f'{i}월' for i in range(1, 13)]
)

plt.show()

In [None]:
sns.lineplot(
    data=apt,
    x='계약월', y='거래금액', hue='계약년도',
    errorbar=None,
    estimator='mean',
    style='계약년도', markers=True, dashes=True # 지정한 범주별 마커와 선 모양 다르게
)

plt.xticks(
    ticks=range(1, 13),
    labels=[f'{i}월' for i in range(1, 13)]
)

plt.show()

### 범례 위치 지정

In [None]:
sns.lineplot(
    data=apt,
    x='계약월', y='거래금액', hue='계약년도',
    errorbar=None,
    estimator='mean',
    style='계약년도', markers=True, dashes=True
)

plt.xticks(
    ticks=range(1, 13),
    labels=[f'{i}월' for i in range(1, 13)]
)

plt.legend(
    loc='center left'
)

plt.show()

In [None]:
sns.lineplot(
    data=apt,
    x='계약월', y='거래금액', hue='계약년도',
    errorbar=None,
    estimator='mean',
    style='계약년도', markers=True, dashes=True
)

plt.xticks(
    ticks=range(1, 13),
    labels=[f'{i}월' for i in range(1, 13)]
)

plt.legend(
    loc='center left',
    bbox_to_anchor=(1, 0.5)
)

plt.show()

In [None]:
sns.lineplot(
    data=apt,
    x='계약월', y='거래금액', hue='계약년도',
    errorbar=None,
    estimator='mean',
    style='계약년도', markers=True, dashes=True
)

plt.xticks(
    ticks=range(1, 13),
    labels=[f'{i}월' for i in range(1, 13)]
)

plt.legend(
    loc='upper center',
    bbox_to_anchor=(0.5, -0.15),
    ncol=5
)

plt.show()

### 산점도

In [None]:
sns.scatterplot(
    data=apt,
    x='전용면적', y='거래금액',
    fc='0.9', 
    ec='0.8', 
    s=10, # 점의 크기
    alpha=0.5 # 투명도
)

plt.show()

In [None]:
apt = apt.sort_values('세대수')

In [None]:
sns.scatterplot(
    data=apt,
    x='전용면적', y='거래금액',
    hue='세대수', 
    palette='Greys',
    ec='0.8', 
    s=10,
    alpha=0.5
)

plt.show()

In [None]:
apt = apt.sort_values('세대수')
cond = apt['시군구'].eq('강남구')
gng = apt.loc[cond, :]

In [None]:
sns.scatterplot(
    data=gng,
    x='전용면적', y='거래금액',
    hue='세대수', 
    palette='Greys',
    ec='0.8', 
    s=10,
    alpha=0.5
)

plt.show()

### 산점도에 회귀직선 추가

In [None]:
point_prop = dict(fc='0.9', ec='0.8', s=10, alpha=0.5)
line_prop = dict(color='red', lw=1.5)

In [None]:
sns.regplot(
    data=gng,
    x='전용면적', y='거래금액',
    ci=None,
    scatter_kws=point_prop,
    line_kws=line_prop
)