In [None]:
# ============================================
# 한글 폰트 설치 (최초 1회 수행 > 세선 다시 실행)
# ============================================
# !sudo apt-get install -y fonts-nanum
# !sudo fc-cache -fv
# !rm ~/.cache/matplotlib -rf

# !apt-get update -qq
# !apt-get install fonts-nanum* -qq

In [None]:
# ============================================
# 요구사항
# ============================================
# Python을 이용한 보스턴 주택 가격 데이터 분석 및 시각화 (R 소스코드 변환, 한글 보고서)

# ============================================
# 라이브러리
# ============================================
import glob
import os
import pandas as pd
from datetime import datetime
import matplotlib.pyplot as plt
import seaborn as sns

# ============================================
# 보조
# ============================================

# ============================================
# 주요
# ============================================
# 그림 설정
plt.rcParams['font.family'] = 'NanumGothic'
plt.rcParams['axes.unicode_minus'] = False
serviceName = 'LSH0553'

# 데이터 읽기
inpFile = '{}/{}'.format(serviceName, 'BostonHousing(original)-1.xls')
fileList = sorted(glob.glob(inpFile))
print(f'[CHECK] fileList : {fileList}')

data = pd.read_excel(fileList[0])
print(f'[CHECK] data : {data}')

# 2. 기초통계량
# 평균, 중앙값, 사분위수, 사분위수 범위, 범위, 표준편차, 분산
mean = data.mean().to_frame().T
print(f'[CHECK] mean : {mean}')

median = data.median().to_frame().T
print(f'[CHECK] median : {median}')

quart = data.quantile([0.25, 0.5, 0.75]).T
print(f'[CHECK] quart : {quart}')

range = (data.max() - data.min()).to_frame().T
print(f'[CHECK] range : {range}')

std = data.std().to_frame().T
print(f'[CHECK] std : {std}')

var = data.var().to_frame().T
print(f'[CHECK] var : {var}')

# 3. BOX-PLOT
# 각 변수별 Q1, Q2, Q3를 통해 데이터의 밀집 정도 이상점을 파악할 수 있도록 BOX도표를 그린다.
plt.figure(figsize=(10, 8))
sns.boxplot(data=data)
plt.title('변수 간의 상자그림')
plt.xticks(rotation=45)
plt.show()

# 4. 변수들 간의 상관관계
corData = data.corr()
print(f'[CHECK] corData : {corData}')

plt.figure(figsize=(10, 8))
sns.heatmap(corData, annot=True, fmt=".2f")
plt.title("변수 간의 상관관계")
plt.show()

# 가장 강한 양의 상관관계
sns.regplot(x='TAX', y='RAD', data=data, line_kws={"color": "red"})
plt.show()

sns.regplot(x='TAX', y='MEDV', data=data, line_kws={"color": "red"})
plt.show()

sns.regplot(x='RAD', y='MEDV', data=data, line_kws={"color": "red"})
plt.show()

# 가장 강한 음의 상관관계
sns.regplot(x='DIS', y='NOX', data=data, line_kws={"color": "red"})
plt.show()

sns.regplot(x='NOX', y='MEDV', data=data, line_kws={"color": "red"})
plt.show()

sns.regplot(x='DIS', y='MEDV', data=data, line_kws={"color": "red"})
plt.show()

# 상관관계 없음
sns.regplot(x='RAD', y='CHAS', data=data, line_kws={"color": "red"})
plt.show()