<p style="font-family:verdana;font-size:200%;text-align:center;">Python Data Analysis Day 4</p>

## 데이터 시각화

### 실습 데이터셋 준비

In [None]:
# 관련 라이브러리를 호출합니다.
import os
import numpy as np
import pandas as pd

In [None]:
# 작업경로를 data 폴더로 변경합니다.
os.chdir('../data')

In [None]:
# 현재 작업경로에 포함된 폴더명과 파일명을 출력합니다.
os.listdir()

In [None]:
# 실습할 csv 파일명을 fileName에 할당합니다.
fileName = 'APT_List_Seoul_2020.xlsx'

In [None]:
# 아파트 csv 파일을 읽고 데이터프레임을 생성합니다.
apt = pd.read_excel(fileName)

### 관련 라이브러리 호출 및 기본 설정

In [None]:
# 관련 라이브러리를 호출합니다.
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm

In [None]:
# 그래프의 크기와 해상도를 설정합니다.
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['figure.dpi'] = 100

### 한글폰트 설정

In [None]:
# 한글폰트가 설치된 경로를 찾습니다.
fontList = fm.findSystemFonts(fontext = 'ttf')

In [None]:
# 한글폰트명으로 검색합니다.
[font for font in fontList if 'Nanum' in font]

In [None]:
# 한글폰트 경로를 설정합니다.
fontPath = '/Library/Fonts/NanumGothic.ttf'

In [None]:
# 한글폰트 정보를 저장합니다.
fontProp = fm.FontProperties(fname = fontPath)

In [None]:
# 한글폰트를 설정합니다.
plt.rcParams['font.family'] = fontProp.get_name()
plt.rcParams['font.size'] = 14

In [None]:
# [참고] 그래프에서 한글이 네모로 출력되는 에러를 해결하는 방법을 소개합니다.
import matplotlib as mpl
mpl.get_cachedir()

In [None]:
# 위 코드를 실행해서 출력되는 폴더에 포함된 파일을 확인합니다.
os.listdir('/Users/drkevin/.matplotlib')

In [None]:
# 위 폴더에 포함된 파일을 삭제합니다.
os.remove('/Users/drkevin/.matplotlib/fontlist-v330.json')

# 주피터 노트북을 재실행하면 한글폰트가 제대로 설정됩니다.

### 도수분포표

In [None]:
# 계급을 설정하기 위해 데이터의 최소값과 최대값을 미리 확인합니다.
apt['거래금액'].describe()

In [None]:
# 도수분포표의 계급을 설정합니다.
bins = np.arange(0, 79, 2)

In [None]:
# 계급을 출력합니다. (이상, 미만)
bins

In [None]:
# 계급별 빈도수를 반환합니다.
freq, edge = np.histogram(apt['거래금액'], bins)

In [None]:
# 상대도수를 계산합니다.
prop = (freq / len(apt['거래금액'])).round(4)

In [None]:
# 도수분포표를 데이터프레임으로 생성하여 출력합니다.
pd.DataFrame([bins, freq, prop], index = ['계급', '도수', '상대도수']).T

### 히스토그램 그리기

In [None]:
# 히스토그램은 일변량 연속형 데이터의 분포(도수분포표)를 시각화한 것입니다.
sns.histplot(data = apt, 
             x = '거래금액', 
             bins = bins,
             color = '0.5')
plt.title('거래금액 히스토그램')
plt.show()

In [None]:
# 관심 있는 3개 시군구만 선택하여 top3를 생성합니다.
top3 = apt.loc[apt['시군구'].str.contains('강남|강동|강북')]
top3.info()

In [None]:
# 새로 생성한 top3의 거래금액 컬럼의 최소값과 최대값을 확인합니다.
top3['거래금액'].describe()

In [None]:
# 새로 생성한 top3의 거래금액 컬럼에 대한 계급을 설정합니다.
bins = np.arange(0, 69, 1)
bins

In [None]:
# 특정 컬럼의 값에 따라 히스토그램을 여러 개 겹쳐서 그릴 수 있습니다.
sns.histplot(data = top3, 
             x = '거래금액', 
             hue = '시군구', 
             palette = 'Dark2',
             bins = bins)
plt.show()

### 색상 팔레트 설정

In [None]:
# pyplot 모듈에서 제공되는 컬러맵 목록을 출력합니다.
dir(plt.cm)

In [None]:
# 기본 팔레트의 색상을 출력합니다.
sns.color_palette('deep')

In [None]:
# 관심 있는 팔레트에 포함된 색상을 출력합니다.
sns.color_palette('Dark2')

In [None]:
# 출력할 색상의 개수를 설정합니다.
sns.color_palette('Dark2', 10)

In [None]:
# 관심 있는 컬러맵을 출력합니다.
sns.color_palette('Spectral', 10)

In [None]:
# 특정 컬럼의 값에 따라 히스토그램을 나누어서 그릴 수 있습니다.
sns.displot(data = top3, 
            x = '거래금액', 
            col = '시군구', 
            bins = bins,
            color = 'blue')
plt.show()

### 상자수염그림 그리기

In [None]:
# 상자수염그림은 연속형 데이터의 사분위수와 이상치를 시각화한 것입니다.
sns.boxplot(data = apt, 
            y = '거래금액', 
            color = 'gold',
            fliersize = 4)
sns.despine(bottom = True)
plt.show()

In [None]:
# 집단별 상자수염그림을 그리면 여러 집단의 분포를 한 눈에 비교할 수 있습니다.
sns.boxplot(data = apt, 
            x = '시군구', 
            y = '거래금액', 
            fliersize = 4)
plt.xticks(rotation = 30)
plt.show()

### 일변량 막대그래프 그리기

In [None]:
# 일변량 막대그래프는 명목형 데이터의 빈도수를 막대로 시각화한 것입니다.
sns.countplot(data = apt, 
              x = '시군구', 
              hue = '금액구분',
              palette = 'CMRmap')
plt.xticks(rotation = 30)
plt.show()

### 이변량 막대그래프 그리기

In [None]:
# 집계함수를 이용하여 시군구별 거래건수를 확인합니다.
siggCnt = apt.groupby('시군구').count()[['거래금액']]
siggCnt['시군구'] = siggCnt.index
siggCnt = siggCnt.rename(columns = {'거래금액':'거래건수'})
siggCnt = siggCnt.sort_values('거래건수', ascending = False)
siggCnt = siggCnt.reset_index(drop = True)
siggCnt.head()

In [None]:
# 이변량 막대그래프는 명목형 데이터에 따라 연속형 데이터의 크기를 표현합니다.
sns.barplot(data = siggCnt,
            x = '시군구', 
            y = '거래건수')
plt.xticks(rotation = 30)
plt.show()

In [None]:
# 막대그래프 위에 숫자를 텍스트로 추가합니다.
sns.barplot(data = siggCnt, x = '시군구', y = '거래건수')

for index, row in siggCnt.iterrows():
    plt.text(x = index, y = row['거래건수'] + 100, s = row['거래건수'], 
             fontsize = 12, ha = 'center', va = 'bottom', c = 'black')

plt.xticks(rotation = 30)
plt.ylim(0, 8500)
plt.show()

### 선그래프 그리기

In [None]:
# apt에 거래월 컬럼을 정수형 시리즈로 생성합니다.
apt['거래월'] = apt['거래일'].dt.month

In [None]:
# 월별 거래금액의 평균을 선그래프로 그립니다.
sns.lineplot(data = apt, x = '거래월', y = '거래금액')
plt.show()

In [None]:
# 선그래프에 점을 추가한 그래프를 그립니다.
sns.pointplot(data = apt, x = '거래월', y = '거래금액')
plt.show()

In [None]:
# 관심 있는 4개 자치구를 선택하고, 거래월 컬럼을 생성합니다.
top4 = apt.loc[apt['시군구'].str.contains('강남|서초|용산|송파')]
top4['거래월'] = top4['거래일'].dt.month

In [None]:
# 선그래프를 겹쳐서 그립니다.
sns.lineplot(data = top4, x = '거래월', y = '거래금액', 
             hue = '시군구', palette = 'Dark2', ci = None)
plt.show()

### 산점도 그리기

In [None]:
# 산점도는 이변량 연속형 데이터 간 상관관계를 시각화한 것입니다.
sns.scatterplot(data = apt, x = '전용면적', y = '거래금액', 
                hue = '금액구분', palette = 'Dark2', 
                edgecolor = 'black', linewidth = 0.5)
plt.show()

In [None]:
# 특정 컬럼의 값에 따라 산점도를 겹쳐서 그릴 수 있습니다.
sns.scatterplot(data = top3, x = '전용면적', y = '거래금액', 
                hue = '시군구', palette = 'Dark2',
                edgecolor = 'white', linewidth = 0.5)
plt.show()

### 산점도 행렬 그리기

In [None]:
# 산점도 행렬을 그릴 일부 숫자 컬럼을 선택합니다. (5~6개가 적당합니다.)
top3 = top3.loc[:, ['시군구', '거래금액', '전용면적', '층', '세대수']]

In [None]:
# 선택한 숫자 컬럼으로 산점도 행렬을 그립니다.
sns.pairplot(data = top3, hue = '시군구', palette = 'Dark2')
plt.show()

<p style="font-family:verdana;font-size:200%;text-align:center;">End of Document</p>