## 데이터 시각화

### 관련 라이브러리 호출

In [None]:
# 관련 라이브러리를 호출합니다.
import os
import chardet
import numpy as np
import pandas as pd
import joblib

### 작업 경로 확인 및 변경

In [None]:
# 현재 작업 경로를 확인합니다.
os.getcwd()

In [None]:
# data 폴더로 작업 경로를 변경합니다.
os.chdir(path = '../data')

In [None]:
# 현재 작업 경로에 있는 폴더명과 파일명을 출력합니다.
os.listdir()

### 실습 데이터셋 준비: csv 파일

In [None]:
# csv 파일명을 재사용할 수 있도록 변수에 할당합니다.
file = 'APT_List_Seoul_2021.csv'

In [None]:
# csv 파일을 바이너리 모드로 읽습니다.
raw = open(file = file, mode = 'rb').read()

In [None]:
# csv 파일의 문자 인코딩 방식을 확인합니다.
chardet.detect(raw[:100])

In [None]:
# csv 파일을 읽고 데이터프레임을 생성합니다.
apt = pd.read_csv(filepath_or_buffer = file, parse_dates = ['거래일'])

### 실습 데이터셋 준비: z 파일

In [None]:
# z 파일을 호출하고 데이터프레임 apt에 할당합니다.
apt = joblib.load(filename = 'APT_List_Seoul_2021.z')

In [None]:
# apt의 정보를 확인합니다.
apt.info()

In [None]:
# apt의 처음 5행을 출력합니다.
apt.head()

### 시각화 설정: 스타일시트

In [None]:
# 관련 라이브러리를 호출합니다.
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm

In [None]:
# matplotlib 라이브러리에서 사용할 수 있는 스타일시트 목록을 확인합니다.
plt.style.available

In [None]:
# 그래프에 적용할 스타일시트를 지정합니다.
plt.style.use(style = 'seaborn-white')

### 시각화 설정: 한글폰트

In [None]:
# 현재 사용 중인 컴퓨터에 설치된 전체 폰트 파일명을 리스트로 반환합니다.
fontList = fm.findSystemFonts(fontext = 'ttf')

In [None]:
# 특정 문자열을 갖는 파일명을 남깁니다.
fontPath = [font for font in fontList if 'Gamja' in font]

In [None]:
# fontPath를 오름차순 정렬합니다.
fontPath.sort()

In [None]:
# 반복문으로 폰트명을 출력합니다.
for font in fontPath:
    print(fm.FontProperties(fname = font).get_name())

### 시각화 설정: 그래픽 파라미터

In [None]:
# 그래프 크기 및 해상도를 설정합니다.
plt.rc(group = 'figure', figsize = (12, 6), dpi = 100)

In [None]:
# 한글폰트와 글자 크기를 설정합니다.
plt.rc(group = 'font', family = 'Gamja Flower', size = 10)

In [None]:
# 유니코드 마이너스를 축에 출력하지 않도록 설정합니다.
plt.rc(group = 'axes', unicode_minus = False)

In [None]:
# 범례에 채우기 색과 테두리 색을 추가합니다.
plt.rc(group = 'legend', frameon = True, fc = '1', ec = '0')

### [참고] 한글을 네모로 출력하는 문제 해결 방법

### [참고] 그래픽 파라미터 설정 관련 모듈 생성

### [참고] Python 파일 탐색 경로 확인

### 히스토그램 그리기

In [None]:
# 평당금액으로 히스토그램을 그립니다.
sns.histplot(data = apt, x = '평당금액');

In [None]:
# 히스토그램에 그래픽 요소를 추가하고, 막대 개수를 50으로 지정합니다.
sns.histplot(data = apt, x = '평당금액', bins = 50, 
             color = '1', edgecolor = '0');

In [None]:
# 히스토그램에 그래픽 요소를 추가하고, 막대 너비를 500으로 지정합니다.
sns.histplot(data = apt, x = '평당금액', binwidth = 500, 
             color = '1', edgecolor = '0');

### [참고] 색상 목록

In [None]:
# 관련 라이브러리를 호출합니다.
import matplotlib.colors as mcolors

In [None]:
# 148가지 색이름과 Hex Code를 딕셔너리로 출력합니다.
mcolors.CSS4_COLORS

### 히스토그램 계급 설정

In [None]:
# 평당금액 최솟값과 최댓값을 확인합니다.
apt['평당금액'].describe()[['min', 'max']]

In [None]:
# 히스토그램 계급(막대 경계)을 설정합니다.
bins = np.arange(start = 500, stop = 17501, step = 500)
bins

In [None]:
# 히스토그램에 계급을 추가합니다.
sns.histplot(data = apt, x = '평당금액', bins = bins, 
             color = '1', edgecolor = '0');

### 히스토그램 막대 채우기 색 변경

In [None]:
# 금액구분(범주형 변수)에 따라 채우기 색을 다르게 설정합니다.
sns.histplot(data = apt, x = '평당금액', bins = bins, 
             hue = '금액구분', edgecolor = '0');

In [None]:
# 채우기 색 배합을 범주형 변수에 적합한 팔레트로 변경합니다.
sns.histplot(data = apt, x = '평당금액', bins = bins, 
             hue = '금액구분', edgecolor = '0', palette = 'Set1');

### [참고] 팔레트 탐색: Color Brewer

In [None]:
# Color Brewer Palette를 탐색합니다.
sns.choose_colorbrewer_palette(data_type = 'sequential')

### [참고] 팔레트 설정

In [None]:
# 기본 팔레트 색을 출력합니다.
sns.color_palette()

In [None]:
# Color Brewer에서 탐색한 팔레트 색을 출력합니다.
sns.color_palette(palette = 'Set1', n_colors = 9)

In [None]:
# 기본 팔레트를 변경합니다.
sns.set_palette(palette = 'Set1', n_colors = 9)

In [None]:
# 새로 설정한 기본 팔레트 색을 확인합니다.
sns.color_palette()

### [참고] 사용자 팔레트 생성

In [None]:
# 원하는 색이름을 원소로 갖는 리스트(사용자 팔레트)를 생성합니다.
myPal = ['skyblue', 'orange']

In [None]:
# 기존 그래프에 사용자 팔레트를 적용합니다.
sns.histplot(data = apt, x = '평당금액', bins = bins, 
             hue = '금액구분', edgecolor = '0', palette = myPal, 
             hue_order = ['5천 미만', '5천 이상']);

### 히스토그램에 제목 및 축이름 추가

In [None]:
# 히스토그램에 제목을 추가합니다.
sns.histplot(data = apt, x = '평당금액', bins = bins, 
             hue = '금액구분', edgecolor = '0', palette = myPal, 
             hue_order = ['5천 미만', '5천 이상'])
plt.title(label = '평당금액의 분포')
plt.xlabel(xlabel = '평당금액')
plt.ylabel(ylabel = '거래건수');

In [None]:
# 히스토그램에 제목을 추가합니다.
sns.histplot(data = apt, x = '평당금액', bins = bins, 
             hue = '금액구분', edgecolor = '0', palette = myPal, 
             hue_order = ['5천 미만', '5천 이상'])
plt.title(label = '평당금액의 분포')
plt.xlabel(xlabel = '평당금액')
plt.ylabel(ylabel = '거래건수');

### 히스토그램에 커널 밀도 추정 곡선 추가

In [None]:
# 히스토그램의 y축을 빈도수 대신 밀도로 변경합니다.
sns.histplot(data = apt, x = '평당금액', bins = bins, 
             color = '1', edgecolor = '0', 
             stat = 'density')

# 히스토그램에 커널 밀도 추정 곡선을 추가합니다.
sns.kdeplot(data = apt, x = '평당금액', color = 'red', 
            linewidth = 1.5, linestyle = '--');

### 관심 있는 자치구 선택

In [None]:
# apt에서 관심 있는 자치구를 선택하고 sub에 할당합니다.
sub = apt[apt['자치구'].str.contains(pat = '강[남동북]')].copy()

In [None]:
# 자치구별 평당금액 평균(분포의 중심)을 확인합니다.
sub.groupby(by = ['자치구']).mean()['평당금액']

In [None]:
# 평당금액 최솟값과 최댓값을 확인합니다.
sub['평당금액'].describe()[['min', 'max']]

In [None]:
# 히스토그램의 계급을 다시 설정합니다.
bins = np.arange(start = 500, stop = 15001, step = 250)

### 히스토그램을 겹쳐서 그리기

In [None]:
# 자치구별 히스토그램을 겹쳐서 그립니다.
sns.histplot(data = sub, x = '평당금액', bins = bins, 
             hue = '자치구', palette = 'Set1');

In [None]:
# 커널 밀도 추정 곡선을 겹쳐서 그리는 것이 더 낫습니다.
sns.kdeplot(data = sub, x = '평당금액', shade = True,
            hue = '자치구', palette = 'Set1');

### 히스토그램을 나눠서 그리기

In [None]:
# 자치구별 히스토그램을 열(가로) 방향으로 나눠서 그립니다.
sns.displot(data = sub, x = '평당금액', bins = bins, 
            hue = '자치구', palette = 'Set1', 
            col = '자치구', legend = False, 
            height = 3, aspect = 1.2);

### 일변량 상자 수염 그림 그리기

In [None]:
# 이상치 요소를 딕셔너리로 생성합니다.
flierprops = {'marker': 'o', 
              'markersize': 5, 
              'markerfacecolor': 'pink',
              'markeredgecolor': 'red'}

In [None]:
# 평당금액으로 상자 수염 그림을 그립니다.
sns.boxplot(data = apt, y = '평당금액', 
            color = '0.8', flierprops = flierprops);

### 이변량 상자 수염 그림 그리기

In [None]:
# apt의 자치구별 평당금액 중위수를 오름차순 정렬한 grp를 생성합니다.
grp = apt.groupby(by = ['자치구']).median()['평당금액']
grp = grp.sort_values()
grp.head()

In [None]:
# x축에 자치구, y축에 평당금액을 지정하고 이변량 상자 수염 그림을 그립니다.
sns.boxplot(data = apt, x = '자치구', y = '평당금액', 
            flierprops = flierprops, order = grp.index)
plt.xticks(rotation = 30);

### 일변량 막대그래프 그리기

In [None]:
# apt의 자치구별 평당금액 빈도수를 내림차순 정렬한 grp를 생성합니다.
grp = apt.groupby(by = ['자치구']).count()['평당금액']
grp = grp.sort_values(ascending = False)
grp.head()

In [None]:
# 자치구별 빈도수로 일변량 막대그래프를 그립니다.
sns.countplot(data = apt, x = '자치구', order = grp.index)
plt.ylim(0, 4000)
plt.xticks(rotation = 30)

# 막대 위에 자치구별 빈도수를 텍스트로 추가합니다.
for i, v in enumerate(grp):
    plt.text(x = i, y = v, s = v, ha = 'center', va = 'bottom', 
             color = 'black', fontsize = 12, fontweight = 'bold')

### [참고] 파이 차트 그리기

In [None]:
# 자치구별 빈도수로 파이차트를 그립니다.
plt.figure(figsize = (8, 8), dpi = 100)
pal = sns.color_palette(palette = 'Greys', n_colors = 40)[:25]
plt.pie(x = grp.values, labels = grp.index, colors = pal, 
        autopct = '%.1f%%', pctdistance = 0.95, labeldistance = 1,
        startangle = 90, counterclock = False, rotatelabels = True, 
        wedgeprops = dict(edgecolor = '0.8', linestyle = '--'));

### 이변량 막대그래프 그리기

In [None]:
# apt의 자치구별 평당금액 평균을 내림차순 정렬한 grp를 생성합니다.
grp = apt.groupby(by = ['자치구']).mean()['평당금액']
grp = grp.sort_values(ascending = False).round(0).astype('int')
grp.head()

In [None]:
# 자치구별 평당금액 평균으로 이변량 막대그래프를 그립니다.
sns.barplot(data = apt, x = '자치구', y = '평당금액', order = grp.index, 
            estimator = np.mean, ci = None)
plt.ylim(0, 8000)
plt.xticks(rotation = 30)

# 막대 위에 평당금액 평균을 텍스트로 추가합니다.
for i, v in enumerate(grp):
    plt.text(x = i, y = v, s = v, ha = 'center', va = 'bottom',
             color = 'black', fontsize = 12, fontweight = 'bold')

### [참고] 묶음 막대그래프 그리기

In [None]:
# sub의 자치구와 금액구분별 평당금액 평균으로 grp를 생성합니다.
grp = sub.groupby(by = ['자치구', '금액구분']).mean()['평당금액']
grp = grp.round(0).astype('int')
grp.head()

In [None]:
# 이변량 막대그래프의 x축에 범주형 변수를 추가한 묶음 막대그래프를 그립니다.
sns.barplot(data = sub, x = '자치구', y = '평당금액', hue = '금액구분', 
            order = grp.index.levels[0], hue_order = grp.index.levels[1],
            estimator = np.mean, ci = None, palette = myPal)

# 묶음 막대 위에 평당금액 평균을 텍스트로 추가합니다.
for i, v in enumerate(grp):
    if i % 2 == 0:
        i = i/2 - 0.2
    else:
        i = (i-1)/2 + 0.2
    plt.text(x = i, y = v, s = v, ha = 'center', va = 'bottom')

### 선그래프 그리기

In [None]:
# apt에 거래월을 추가합니다.
apt['거래월'] = apt['거래일'].dt.month
apt.head()

In [None]:
# 거래월별 평당금액 평균으로 선그래프를 그립니다.
sns.lineplot(data = apt, x = '거래월', y = '평당금액', color = 'red', 
             markers = True, style = 1, legend = False, 
             estimator = np.mean, ci = None);

### [참고] x축 눈금명 변경

In [None]:
# 선그래프에 추가할 x축 눈금명을 생성합니다.
months = [f'{str(i)}월' for i in range(1, 13)]
months

In [None]:
# 선그래프에 x축 눈금 위치와 눈금명을 지정합니다.
sns.lineplot(data = apt, x = '거래월', y = '평당금액', color = 'red', 
             markers = True, style = 1, legend = False, 
             estimator = np.mean, ci = None)
plt.xticks(ticks = range(1, 13), labels = months);

### 선그래프를 겹쳐서 그리기

In [None]:
# sub에 거래월을 추가합니다.
sub['거래월'] = sub['거래일'].dt.month

In [None]:
# 자치구별 선그래프를 겹쳐서 그립니다.
sns.lineplot(data = sub, x = '거래월', y = '평당금액', hue = '자치구', 
             markers = True, style = '자치구', 
             estimator = np.mean, ci = None)
plt.xticks(ticks = range(1, 13), labels = months);

### 산점도 그리기

In [None]:
# 전용면적과 거래금액으로 산점도를 그립니다.
sns.scatterplot(data = apt, x = '전용면적', y = '거래금액', 
                color = '0.3', edgecolor = '0.9', 
                linewidth = 0.5, alpha = 0.5);

In [None]:
# 세대수(연속형 변수)에 따라 채우기 색을 다르게 설정합니다.
sns.scatterplot(data = apt, x = '전용면적', y = '거래금액', 
                hue = '세대수', palette = 'RdYlGn', edgecolor = '0.9', 
                linewidth = 0.5, alpha = 0.5);

### 강남구 데이터로 산점도 그리기

In [None]:
# apt에서 강남구만 선택하고 gng에 할당합니다.
gng = apt[apt['자치구'].eq('강남구')].copy()

In [None]:
# gng로 산점도를 그립니다.
sns.scatterplot(data = gng, x = '전용면적', y = '거래금액', 
                color = '0.3', edgecolor = '0.9', 
                linewidth = 0.5, alpha = 0.5);

### 산점도에 회귀직선, 수직선 및 수평선 추가

In [None]:
# 산점도에 회귀직선, 수직선(x 평균) 및 수평선(y 평균)을 추가합니다.
sns.regplot(data = gng, x = '전용면적', y = '거래금액', 
            scatter_kws = dict(color = '0.3', ec = '0.9', alpha = 0.5),  
            line_kws = dict(color = 'red', lw = 1.5), ci = None)

plt.axvline(x = gng['전용면적'].mean(), color = 'red', linestyle = '--')
plt.axhline(y = gng['거래금액'].mean(), color = 'red', linestyle = '--');

### 산점도 행렬 그리기

In [None]:
# 산점도 행렬에 추가할 변수명으로 리스트를 생성합니다.(4~5개가 적당)
cols = ['거래금액', '전용면적', '층', '세대수', '경도']

In [None]:
# 산점도 행렬을 그립니다.
sns.pairplot(data = sub[cols], plot_kws = dict(color = '0.8', ec = '1'));

### 산점도 행렬을 간결하게 그리기

In [None]:
# x축에 입력변수, y축에 목표변수를 산점도 행렬을 간결하게 그립니다.
sns.pairplot(data = sub, 
             x_vars = ['전용면적', '층', '세대수', '경도'], 
             y_vars = '거래금액', 
             kind = 'reg', 
             plot_kws = dict(scatter_kws = dict(color = '0.8', ec = '1'),
                             line_kws = dict(color = 'red', lw = 1.5)));

## End of Document