## 데이터 시각화

### 관련 라이브러리 호출

In [None]:
# 관련 라이브러리를 호출합니다.
import os
import joblib
import numpy as np
import pandas as pd

### 작업 경로 확인 및 변경

In [None]:
# 현재 작업 경로를 확인합니다.
os.getcwd()

In [None]:
# data 폴더로 작업 경로를 변경합니다.
os.chdir(path = '../data')

In [None]:
# 현재 작업 경로에 있는 폴더명과 파일명을 출력합니다.
os.listdir()

### 실습 데이터셋 준비

In [None]:
# z 파일을 호출하고 데이터프레임 apt에 할당합니다.
apt = joblib.load(filename = 'APT_Merged_Seoul_2022.z')

In [None]:
# apt의 정보를 확인합니다.
apt.info()

In [None]:
# apt의 처음 5행을 출력합니다.
apt.head()

### 시각화 라이브러리 호출

In [None]:
# 관련 라이브러리를 호출합니다.
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm

In [None]:
# 테스트용 그래프를 그립니다.
sns.histplot(data = apt, x = '거래금액')
plt.title(label = '아파트 거래금액 분포');

### [참고] 스타일시트 설정

In [None]:
# matplotlib 라이브러리에서 사용할 수 있는 스타일시트 목록을 확인합니다.
plt.style.available

In [None]:
# 스타일시트를 설정합니다.
plt.style.use(style = 'fast')

### 한글폰트명 탐색

In [None]:
# 현재 사용 중인 컴퓨터에 설치한 전체 폰트 파일명을 리스트로 반환합니다.
fontList = fm.findSystemFonts(fontext = 'ttf')
fontList

In [None]:
# 리스트에서 특정 문자열(폰트명)을 포함하는 파일명만 선택합니다.
fontPath = [font for font in fontList if 'Gowun' in font]
fontPath

In [None]:
# 반복문으로 컴퓨터에 설치된 폰트명을 출력합니다.
for font in fontPath:
    print(fm.FontProperties(fname = font).get_name())

### 그래픽 파라미터 설정

In [None]:
# 한글폰트와 글자 크기를 설정합니다.
plt.rc(group = 'font', family = 'Gowun Dodum', size = 10)

In [None]:
# 그래프 크기와 해상도를 설정합니다.
plt.rc(group = 'figure', figsize = (8, 4), dpi = 150)

In [None]:
# 축에 유니코드 마이너스를 출력하지 않도록 설정합니다.
plt.rc(group = 'axes', unicode_minus = False)

In [None]:
# 범례에 채우기 색과 테두리 색을 추가합니다.
plt.rc(group = 'legend', frameon = True, fc = '1', ec = '0')

### 시각화 설정 모듈 생성

### [참고] Python 파일 탐색 경로 확인

### [참고] 한글을 네모로 출력하는 문제 해결

### 히스토그램 그리기

In [None]:
# 거래금액으로 히스토그램을 그립니다.
sns.histplot(data = apt, x = '거래금액');

In [None]:
# 히스토그램의 막대 개수를 75로 지정합니다.
sns.histplot(data = apt, x = '거래금액', bins = 75, fc = '1', ec = '0');

In [None]:
# 히스토그램의 막대 너비를 2로 지정합니다.
sns.histplot(data = apt, x = '거래금액', binwidth = 2, fc = '1', ec = '0');

### 히스토그램에 계급 추가

In [None]:
# 거래금액 최솟값을 확인합니다.
apt['거래금액'].min()

In [None]:
# 거래금액 최댓값을 확인합니다.
apt['거래금액'].max()

In [None]:
# 히스토그램에 막대 개수와 범위(막대 경계)로 계급을 지정합니다.
sns.histplot(data = apt, x = '거래금액', bins = 75, binrange = (0, 150), 
             fc = '1', ec = '0');

### [참고] 색상 목록

In [None]:
# 관련 모듈을 호출합니다.
import matplotlib.colors as mcl

In [None]:
# 148가지 색이름과 Hex Code를 딕셔너리로 출력합니다.
mcl.CSS4_COLORS

### 히스토그램 막대 채우기 색 변경

In [None]:
# 금액구간(범주형 변수)에 따라 채우기 색을 다르게 설정합니다.
sns.histplot(data = apt, x = '거래금액', bins = 75, binrange = (0, 150), 
             hue = '금액구간', ec = '0');

In [None]:
# 채우기 색 배합을 범주형 변수에 맞는 팔레트로 변경합니다.
sns.histplot(data = apt, x = '거래금액', bins = 75, binrange = (0, 150), 
             hue = '금액구간', ec = '0', palette = 'Set1');

### [참고] 팔레트 탐색: Color Brewer

In [None]:
# Color Brewer Palettet를 탐색합니다.
sns.choose_colorbrewer_palette(data_type = 'qualitative');

### [참고] 팔레트 설정

In [None]:
# 기본 팔레트 색을 출력합니다.
sns.color_palette()

In [None]:
# Color Brewer에서 탐색한 팔레트 색을 출력합니다.
sns.color_palette(palette = 'Set1', n_colors = 9)

In [None]:
# 기본 팔레트를 변경합니다.
sns.set_palette(palette = 'Set1', n_colors = 9)

In [None]:
# 새로 설정한 기본 팔레트 색을 확인합니다.
sns.color_palette()

### [참고] 사용자 팔레트 생성

In [None]:
# 원하는 색이름을 원소로 갖는 리스트(사용자 팔레트)를 생성합니다.
myPal = ['silver', 'red']

In [None]:
# 기존 그래프에 사용자 팔레트를 적용합니다.
sns.histplot(data = apt, x = '거래금액', bins = 75, binrange = (0, 150), 
             hue = '금액구간', ec = '0', palette = myPal, 
             hue_order = ['5천 미만', '5천 이상']);

### 히스토그램에 제목 및 축이름 추가

In [None]:
# 히스토그램에 제목, x축이름 및 y축이름을 추가합니다.
sns.histplot(data = apt, x = '거래금액', bins = 75, binrange = (0, 150), 
             hue = '금액구간', ec = '0', palette = myPal, 
             hue_order = ['5천 미만', '5천 이상'])
plt.title(label = '거래금액의 분포')
plt.xlabel(xlabel = '매매가격')
plt.ylabel(ylabel = '매매건수');

### 히스토그램에 커널 밀도 추정 곡선 추가

In [None]:
# 히스토그램의 y축을 빈도수 대신 밀도로 변경합니다.
sns.histplot(data = apt, x = '거래금액', bins = 75, binrange = (0, 150),
             fc = '1', ec = '0.8', stat = 'density')

# 히스토그램에 커널 밀도 추정 곡선을 추가합니다.
sns.kdeplot(data = apt, x = '거래금액', c = 'red', lw = 0.5, ls = '-');

### 관심 지역 선택

In [None]:
# apt에서 관심 지역을 선택하고 sub에 할당합니다.
sub = apt[apt['구'].str.contains(pat = '강[남동]')]

In [None]:
# sub의 구별 빈도수, 거래금액 평균 및 표준편차를 확인합니다.
pd.pivot_table(data = sub, 
               values = '거래금액', 
               index = '구', 
               aggfunc = [np.size, np.mean, np.std])

### 히스토그램을 겹쳐서 그리기

In [None]:
# 구별 히스토그램을 겹쳐서 그립니다.
sns.histplot(data = sub, x = '거래금액', bins = 75, binrange = (0, 150),
             hue = '구', ec = '0', palette = myPal, 
             hue_order = ['강동구', '강남구']);

In [None]:
# 커널 밀도 추정 곡선을 겹쳐서 그리는 것이 더 낫습니다.
sns.kdeplot(data = sub, x = '거래금액', hue = '구', 
            palette = myPal, fill = True, 
            hue_order = ['강동구', '강남구']);

### 히스토그램을 나눠서 그리기

In [None]:
# 구별 히스토그램을 열(가로) 방향으로 나눠서 그립니다.
sns.displot(data = sub, x = '거래금액', bins = 75, binrange = (0, 150),
            hue = '구', col = '구', legend = False, 
            height = 3.5, aspect = 0.8);

### 일변량 상자 수염 그림 그리기

In [None]:
# 거래금액으로 상자 수염 그림을 그립니다.
sns.boxplot(data = apt, y = '거래금액', color = '1', linewidth = 0.5);

In [None]:
# 이상치 관련 속성으로 딕셔너리를 생성하고 상자 수염 그림에 추가합니다.
outProps = {'marker': 'o', 
            'markersize': 3, 
            'markerfacecolor': 'pink',
            'markeredgecolor': 'red', 
            'markeredgewidth': 0.2}

sns.boxplot(data = apt, y = '거래금액', color = '1', linewidth = 0.5, 
            flierprops = outProps);

### 이변량 상자 수염 그림 그리기

In [None]:
# apt의 구별 거래금액 중위수를 오름차순 정렬한 grp를 생성합니다.
grp = apt.groupby(by = ['구'])['거래금액'].median().sort_values()
grp.head()

In [None]:
# x축에 구, y축에 거래금액을 지정하고 이변량 상자 수염 그림을 그립니다.
sns.boxplot(data = apt, x = '구', y = '거래금액', linewidth = 0.5, 
            flierprops = outProps, order = grp.index)
plt.axhline(y = apt['거래금액'].median(), c = 'red', lw = 0.5)
plt.xticks(rotation = 90);

### 일변량 막대 그래프 그리기

In [None]:
# apt의 구별 거래금액 빈도수를 내림차순 정렬한 grp를 생성합니다.
grp = apt.groupby(by = ['구'])['거래금액'].count().sort_values()
grp.head()

In [None]:
# 구별 빈도수로 일변량 막대 그래프를 그립니다.
sns.countplot(data = apt, x = '구', order = grp.index)
plt.ylim(0, 14000)
plt.xticks(rotation = 90)

# 막대 위에 구별 빈도수를 텍스트로 추가합니다.
for i, v in enumerate(grp):
    plt.text(x = i, y = v, s = f'{v:,}', 
             ha = 'center', va = 'bottom', 
             c = 'black', fontsize = 8, 
             fontweight = 'bold')

In [None]:
# 가로 막대 그래프를 그리고 막대 오른쪽에 빈도수를 출력합니다.
plt.figure(figsize = (8, 6))
sns.countplot(data = apt, y = '구', order = grp.index)
plt.xlim(0, 14000)
for i, v in enumerate(grp):
    plt.text(x = v, y = i, s = f'{v:,}', 
             ha = 'left', va = 'center', 
             c = 'black', fontsize = 8, 
             fontweight = 'bold')

### [참고] 파이 차트 그리기

In [None]:
# sub의 구별 빈도수를 내림차순 정렬한 grp를 생성합니다.
grp = sub['구'].value_counts()
grp.head()

In [None]:
# grp로 파이 차트를 그립니다.
plt.pie(x = grp.values, 
        explode = [0, 0], 
        labels = grp.index, 
        autopct = '%.1f%%');

In [None]:
# 파이 차트의 다양한 그래픽 요소를 변경합니다.
plt.pie(x = grp.values, explode = [0, 0], 
        labels = grp.index, autopct = '%.1f%%', 
        colors = ['white', 'orange'], 
        startangle = 90, 
        counterclock = False,
        textprops = dict(c = '0', size = 12),
        wedgeprops = dict(ec = '0', lw = 0.5));

### 이변량 막대 그래프 그리기

In [None]:
# apt의 구별 거래금액 평균을 내림차순 정렬한 grp를 생성합니다.
grp = apt.groupby(by = ['구'])['거래금액'].mean().sort_values()
grp.head()

In [None]:
# 구별 거래금액 평균으로 이변량 막대 그래프를 그립니다.
sns.barplot(data = apt, x = '구', y = '거래금액', order = grp.index, 
            estimator = np.mean, errorbar = None)
plt.ylim(0, 21)
plt.xticks(rotation = 90)

# 막대 위에 거래금액 평균을 텍스트로 추가합니다.
for i, v in enumerate(grp):
    plt.text(x = i, y = v, s = f'{v:.1f}', 
             ha = 'center', va = 'bottom',
             c = 'black', fontsize = 8, 
             fontweight = 'bold')

### [참고] 묶음 막대 그래프 그리기

In [None]:
# sub의 구와 금액구간별 거래금액 평균으로 grp를 생성합니다.
grp = sub.groupby(by = ['구', '금액구간'])[['거래금액']].mean()
grp.head()

In [None]:
# 이변량 막대 그래프의 x축에 범주형 변수를 추가한 묶음 막대 그래프를 그립니다.
sns.barplot(data = sub, x = '구', y = '거래금액', hue = '금액구간', 
            order = grp.index.levels[0], hue_order = grp.index.levels[1],
            estimator = np.mean, errorbar = None)
plt.ylim(0, 25)

# 묶음 막대 위에 거래금액 평균을 텍스트로 추가합니다.
for i, v in enumerate(grp['거래금액']):
    if i % 2 == 0:
        i = i/2 - 0.2
    else:
        i = (i-1)/2 + 0.2
    plt.text(x = i, y = v, s = f'{v:.1f}', 
             ha = 'center', va = 'bottom',
             c = 'black', fontsize = 8, 
             fontweight = 'bold')

### 선 그래프 그리기

In [None]:
# apt를 거래월로 오름차순 정렬하고 apt에 재할당합니다.
apt = apt.sort_values(by = ['거래월'])

In [None]:
# 거래월별 거래금액 평균으로 선 그래프를 그립니다.
sns.lineplot(data = apt, x = '거래월', y = '거래금액', c = 'red', 
             estimator = np.mean, errorbar = None);

In [None]:
# 선 그래프에 점을 추가합니다.
sns.lineplot(data = apt, x = '거래월', y = '거래금액', c = 'red', 
             estimator = np.mean, errorbar = None, marker = 'o');

### 선 그래프를 겹쳐서 그리기

In [None]:
# 거래년도별로 선 그래프를 겹쳐서 그립니다.
sns.lineplot(data = apt, x = '거래월', y = '거래금액', hue = '거래년도', 
             estimator = np.mean, errorbar = None, marker = 'o');

In [None]:
# 거래년도별로 점과 선 모양을 다르게 설정합니다.
sns.lineplot(data = apt, x = '거래월', y = '거래금액', hue = '거래년도', 
             estimator = np.mean, errorbar = None, markers = True, 
             style = '거래년도');

### 막대 그래프와 선 그래프 그리기

In [None]:
# 월별 거래건수를 막대 그래프, 거래금액 건수를 선 그래프로 그립니다.
fig = plt.figure()
ax1 = fig.add_subplot()
sns.barplot(data = apt, x = '거래월', y = '거래금액', 
            estimator = np.size, ax = ax1)
ax2 = ax1.twinx()
sns.lineplot(data = apt, x = '거래월', y = '거래금액', 
             estimator = np.mean, errorbar = None, ax = ax2);

### 산점도 그리기

In [None]:
# 전용면적과 거래금액으로 산점도를 그립니다.
sns.scatterplot(data = apt, x = '전용면적', y = '거래금액', 
                fc = '0.3', ec = '0.8', s = 15, alpha = 0.2);

### 점의 채우기 색 변경

In [None]:
# apt를 세대수로 오름차순 정렬하고 apt에 재할당합니다.
apt = apt.sort_values(by = ['세대수'])

In [None]:
# 세대수(연속형 변수)에 따라 채우기 색을 다르게 설정합니다.
sns.scatterplot(data = apt, x = '전용면적', y = '거래금액', 
                hue = '세대수', palette = 'RdYlGn', 
                ec = '0.8', s = 15, alpha = 0.2);

### 강남구 데이터로 산점도 그리기

In [None]:
# apt에서 강남구만 선택하고 gng에 할당합니다.
gng = apt[apt['구'].eq('강남구')]

In [None]:
# gng로 산점도를 그립니다.
sns.scatterplot(data = gng, x = '전용면적', y = '거래금액', 
                hue = '세대수', palette = 'RdYlGn', 
                ec = '0.8', s = 15, alpha = 0.2);

### 산점도에 회귀직선, 수직선 및 수평선 추가

In [None]:
# 점과 회귀직선 관련 그래픽 요소를 딕셔너리로 생성합니다.
scatterProps = dict(fc = '0.3', ec = '0.8', s = 15, alpha = 0.2)
reglineProps = dict(color = 'red', lw = 1.5)

In [None]:
# 산점도에 회귀직선, 수직선(x 평균) 및 수평선(y 평균)을 추가합니다.
sns.regplot(data = gng, x = '전용면적', y = '거래금액', ci = None, 
            scatter_kws = scatterProps, line_kws = reglineProps)
plt.axvline(x = gng['전용면적'].mean(), c = 'red', lw = 0.5, ls = '--')
plt.axhline(y = gng['거래금액'].mean(), c = 'red', lw = 0.5, ls = '--');

### 산점도 행렬 그리기

In [None]:
# 산점도 행렬을 그릴 일부 변수명으로 리스트를 생성합니다.
cols = ['거래금액', '전용면적', '층', '세대수']

In [None]:
# 선택한 변수로 산점도 행렬을 그립니다.
sns.pairplot(data = gng[cols], plot_kws = scatterProps);

In [None]:
# x축에 입력변수, y축에 목표변수를 지정하면 산점도 행렬을 간결하게 그립니다.
sns.pairplot(data = gng, 
             x_vars = ['전용면적', '층', '세대수'], 
             y_vars = ['거래금액'], 
             kind = 'reg', 
             plot_kws = dict(scatter_kws = scatterProps,
                             line_kws = reglineProps));

## End of Document