# 데이터 시각화

### 실습 데이터셋 준비

In [None]:
# 관련 라이브러리를 호출합니다.
import os, chardet
import numpy as np
import pandas as pd

In [None]:
# 현잭 작업경로를 확인합니다.
os.getcwd()

In [None]:
# data 폴더로 작업경로를 변경합니다.
os.chdir(path = '../data')

In [None]:
# 현재 작업경로에 저장된 폴더명과 파일명을 출력합니다.
os.listdir()

In [None]:
# csv 파일명을 fileName에 할당합니다.
fileName = 'APT_List_Seoul_2020.csv'

In [None]:
# csv 파일을 바이너리로 읽습니다.
raw = open(file = fileName, mode = 'rb').read()

In [None]:
# 텍스트 파일의 문자 인코딩 방식을 확인합니다.
chardet.detect(raw[:100])

In [None]:
# csv 파일을 읽고 데이터프레임을 생성합니다.
apt = pd.read_csv(filepath_or_buffer = fileName, parse_dates = ['거래일'])

In [None]:
# apt의 처음 5행을 출력합니다.
apt.head()

In [None]:
# apt의 정보를 확인합니다.
apt.info()

### 관련 라이브러리 호출 및 그래픽 옵션 설정

In [None]:
# 관련 라이브러리를 호출합니다.
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm
%matplotlib inline

In [None]:
# 그래프의 크기 및 해상도를 설정합니다.
plt.rc(group = 'figure', figsize = (6, 6), dpi = 100)

In [None]:
# 선 굵기 및 스타일을 설정합니다.
plt.rc(group = 'lines', linewidth = 0.5, linestyle = '-')

In [None]:
# 한글폰트 및 글자 크기를 설정합니다.
plt.rc(group = 'font', family = 'Gamja Flower', size = 10)

In [None]:
# 한글폰트에 마이너스 기호가 없으므로, 축에 출력되지 않도록 설정합니다.
plt.rc(group = 'axes', unicode_minus = False)

### [참고] 한글폰트명 찾는 법

In [None]:
# 현재 사용 중인 컴퓨터에 설치된 폰트 파일을 탐색하고 리스트로 반환합니다.
fontList = fm.findSystemFonts(fontext = 'ttf')

In [None]:
# 폰트명으로 한글폰트 파일을 선택합니다.
fontPath = [font for font in fontList if 'Gamja' in font]

In [None]:
# 한글폰트 파일을 원소로 갖는 리스트를 오름차순으로 정렬합니다.
fontPath.sort()

In [None]:
# 반복문으로 한글폰트명을 출력하고, 마음에 드는 폰트명을 선택합니다.
for i in range(len(fontPath)):
    print(fm.FontProperties(fname = fontPath[i]).get_name())

### [참고] 한글이 네모로 출력되는 에러 해결 방법

### 그래픽 파라미터 설정 관련 모듈 생성

In [None]:
# 관련 모듈을 호출합니다.
from GraphicSetting import *

### 히스토그램 그리기

In [None]:
# 거래금액의 최솟값과 최댓값을 확인합니다.
apt['거래금액'].describe()[['min', 'max']]

In [None]:
# 히스토그램 계급(막대의 경계)을 설정합니다.
bins = np.arange(start = 0, stop = 80, step = 2)

In [None]:
# 히스토그램 계급을 출력합니다.
bins

In [None]:
# 히스토그램은 일변량 연속형 변수의 분포를 시각화한 것입니다.
sns.histplot(data = apt, x = '거래금액', bins = bins, color = '0.5');

### 히스토그램에 KDE 밀도 곡선 추가

In [None]:
# 히스토그램의 y축을 빈도수 대신 밀도로 변경합니다.
sns.histplot(data = apt, x = '거래금액', bins = bins, color = '1', stat = 'density')

# 히스토그램에 KDE 밀도 곡선을 추가합니다.
sns.kdeplot(data = apt, x = '거래금액', color = 'red', linewidth = 1.5);

### [참고] matplotlib CSS Colors

In [None]:
# 관련 라이브러리를 호출합니다.
import matplotlib.colors as mcolors

In [None]:
# CSS Color 목록을 출력합니다.
mcolors.CSS4_COLORS

### 히스토그램을 겹쳐서 그리기

In [None]:
# 관심 있는 자치구 3개를 선택하여 top3를 생성합니다.
top3 = apt[apt['자치구'].str.contains(pat = '강남|서초|송파')].copy()

In [None]:
# 거래금액의 최솟값과 최댓값을 확인합니다.
top3['거래금액'].describe()[['min', 'max']]

In [None]:
# 히스토그램 계급을 설정합니다.
bins = np.arange(start = 0, stop = 68, step = 1)

In [None]:
# 특정 변수의 값에 따라 히스토그램의 색을 다르게 겹쳐서 그립니다.
sns.histplot(data = top3, x = '거래금액', bins = bins, 
             hue = '자치구', palette = 'Dark2');

### 히스토그램을 나눠서 그리기

In [None]:
# 특정 변수의 값에 따라 히스토그램을 가로 방향으로 나눠서 그립니다.
sns.displot(data = top3, x = '거래금액', bins = bins, hue = '자치구', 
            palette = 'Dark2', col = '자치구', legend = False);

In [None]:
# 특정 변수의 값에 따라 히스토그램을 세로 방향으로 나눠서 그립니다.
sns.displot(data = top3, x = '거래금액', bins = bins, hue = '자치구', 
            palette = 'Dark2', row = '자치구', legend = False);

### [참고] 컬러맵(팔레트) 목록 및 색상 확인

In [None]:
# pyplot 모듈에서 제공되는 컬러맵 목록을 출력합니다.
dir(plt.cm)

In [None]:
# 기본 팔레트의 색을 출력합니다.
sns.color_palette(palette = 'tab10')

In [None]:
# 관심 있는 팔레트의 색을 출력합니다.
sns.color_palette(palette = 'Spectral')

In [None]:
# 출력할 색의 개수를 설정합니다.
sns.color_palette(palette = 'Spectral', n_colors = 10)

### [참고] 사용자 팔레트 생성

In [None]:
# 색이름을 리스트로 생성합니다.
colors = ['skyblue', 'orange', 'purple']

In [None]:
# 색이름 리스트로 사용자 팔레트를 생성합니다.
myPal = sns.set_palette(palette = colors)

In [None]:
# 기존 그래프에 사용자 팔레트를 적용합니다.
sns.displot(data = top3, x = '거래금액', bins = bins, hue = '자치구', 
            palette = myPal, col = '자치구', legend = False);

### 상자 수염 그림 그리기

In [None]:
# 일변량 연속형 변수인 거래금액으로 상자 수염 그림을 그립니다.
sns.boxplot(data = apt, y = '거래금액', color = 'gold', fliersize = 4)
plt.title(label = '거래금액 상자 수염 그림');

### 집단별 상자 수염 그림 그리기

In [None]:
# 자치구를 x축, 거래금액을 y축에 놓고 집단별 상자 수염 그림을 그립니다.
sns.boxplot(data = apt, x = '자치구', y = '거래금액')
plt.xticks(rotation = 45);

In [None]:
# 자치구별 거래금액의 중위수를 오름차순으로 정렬한 sigg를 생성합니다.
sigg = apt.groupby(by = ['자치구']).median()['거래금액'].sort_values()

In [None]:
# 집단별 상자 수염 그림의 순서를 sigg의 인덱스로 지정합니다.
sns.boxplot(data = apt, x = '자치구', y = '거래금액', order = sigg.index)
plt.xticks(rotation = 45);

### 일변량 막대그래프 그리기

In [None]:
# 일변량 막대그래프는 범주형 변수의 빈도수를 막대로 시각화한 것입니다.
sns.countplot(data = apt, x = '자치구')
plt.xticks(rotation = 45);

In [None]:
# 금액구분 기준으로 자치구별 빈도수를 계산하여 막대그래프를 그립니다.
sns.countplot(data = apt, x = '자치구', hue = '금액구분')
plt.xticks(rotation = 45);

### 이변량 막대그래프용 데이터프레임 생성

In [None]:
# 집계함수로 자치구별 평균 거래금액을 데이터프레임으로 생성합니다.
siggAvg = apt.groupby(by = ['자치구']).mean()[['거래금액']]
siggAvg.columns = ['평균금액']
siggAvg['평균금액'] = siggAvg['평균금액'].round(1)
siggAvg = siggAvg.sort_values(by = ['평균금액'], ascending = False)
siggAvg = siggAvg.reset_index()
siggAvg.head()

### 이변량 막대그래프 그리기

In [None]:
# 이변량 막대그래프는 범주형 변수에 따라 연속형 변수의 크기를 표현합니다.
sns.barplot(data = siggAvg, x = '자치구', y = '평균금액')
plt.ylim(0, 20)
plt.xticks(rotation = 45);

In [None]:
# 막대그래프 위에 숫자를 텍스트로 추가합니다.
sns.barplot(data = siggAvg, x = '자치구', y = '평균금액')

for index, row in siggAvg.iterrows():
    plt.text(x = index, y = row['평균금액'] + 0.2, s = row['평균금액'], 
             fontsize = 10, ha = 'center', va = 'bottom', c = 'black')

plt.ylim(0, 20)
plt.xticks(rotation = 45);

### 선그래프 그리기

In [None]:
R

In [None]:
# apt의 처음 5행을 출력합니다.
apt.head()

In [None]:
# 선그래프는 주로 시간의 흐름에 따라 연속형 변수의 변화를 시각화한 것입니다.
sns.lineplot(data = apt, x = '거래월', y = '거래금액', ci = None);

In [None]:
# 점을 추가한 선그래프를 그립니다.
sns.pointplot(data = apt, x = '거래월', y = '거래금액', ci = None);

### [참고] x축 눈금명 변경

In [None]:
# x축 눈금명을 생성합니다.
months = [f'{str(i)}월' for i in range(1, 13)]
months

In [None]:
# 선그래프에 x축 눈금 위치와 눈금명을 지정합니다.
sns.lineplot(data = apt, x = '거래월', y = '거래금액', ci = None)
plt.xticks(ticks = range(1, 13), labels = months);

In [None]:
# 점을 추가한 선그래프는 눈금 시작 위치가 다릅니다.
sns.pointplot(data = apt, x = '거래월', y = '거래금액', ci = None)
plt.xticks(ticks = range(0, 12), labels = months);

### 선그래프를 겹쳐서 그리기

In [None]:
# top3에 거래월을 추가합니다.
top3['거래월'] = top3['거래일'].dt.month

In [None]:
# 선그래프를 겹쳐서 그립니다.
sns.lineplot(data = top3, x = '거래월', y = '거래금액', ci = None, 
             hue = '자치구', palette = 'Dark2')
plt.xticks(ticks = range(1, 13), labels = months);

### 선그래프를 나눠서 그리기

In [None]:
# 특정 변수의 값에 따라 선그래프를 나눠서 그립니다.
sns.relplot(data = top3, x = '거래월', y = '거래금액', ci = None, 
            hue = '자치구', palette = 'Dark2', legend = False, 
            col = '자치구', kind = 'line')
plt.xticks(ticks = range(1, 13), labels = months);

### 산점도 그리기

In [None]:
# 산점도는 이변량 연속형 변수 간 상관관계를 시각화한 것입니다.
sns.scatterplot(data = apt, x = '전용면적', y = '거래금액', 
                color = '0.8', edgecolor = 'black', linewidth = 0.5);

In [None]:
# 산점도에 회귀직선을 추가한 그래프를 그립니다.
sns.regplot(data = apt, x = '전용면적', y = '거래금액', 
            scatter_kws = {'color': '0.8', 'edgecolor': 'black'},  
            line_kws = {'color': 'red', 'linewidth': 1.5});

### 산점도를 겹쳐서 또는 나눠서 그리기

In [None]:
# 특정 변수의 값에 따라 산점도를 겹쳐서 그립니다.
sns.scatterplot(data = top3, x = '전용면적', y = '거래금액', 
                edgecolor = 'white', linewidth = 0.5, 
                hue = '자치구', palette = 'Dark2');

In [None]:
# 특정 변수의 값에 따라 산점도를 나눠서 그립니다.
sns.relplot(data = top3, x = '전용면적', y = '거래금액', 
            hue = '자치구', palette = 'Dark2', legend = False, 
            col = '자치구', kind = 'scatter');

### 산점도 행렬 그리기

In [None]:
# 산점도 행렬에 포함할 숫자 변수명을 리스트로 생성합니다.(4~5개가 적당)
cols = ['자치구', '거래금액', '전용면적', '층', '세대수']

In [None]:
# 산점도 행렬을 그립니다.
sns.pairplot(data = top3[cols], hue = '자치구', palette = 'Dark2');

In [None]:
# x축 변수와 y축 변수를 설정하면 산점도 행렬이 간결해집니다.
sns.pairplot(
    data = top3, 
    x_vars = ['전용면적', '층', '세대수'], 
    y_vars = ['거래금액'], 
    hue = '자치구', 
    palette = 'Dark2'
);

## End of Document