## 탐색적 데이터 분석

### 관련 라이브러리 호출

In [None]:
# 관련 라이브러리를 호출합니다.
import os
import joblib
import numpy as np
import pandas as pd

In [None]:
# 시각화 관련 라이브러리를 호출합니다.
import seaborn as sns
import matplotlib.pyplot as plt

### 그래픽 파라미터 설정

In [None]:
# 한글폰트와 글자 크기를 설정합니다.
plt.rc(group = 'font', family = 'Gowun Dodum', size = 10)

In [None]:
# 그래프 크기와 해상도를 설정합니다.
plt.rc(group = 'figure', figsize = (4, 4), dpi = 150)

In [None]:
# 축에 유니코드 마이너스를 출력하지 않도록 설정합니다.
plt.rc(group = 'axes', unicode_minus = False)

In [None]:
# 범례에 채우기 색과 테두리 색을 추가합니다.
plt.rc(group = 'legend', frameon = True, fc = '1', ec = '0')

### 시각화 함수 모듈 제공

In [None]:
# 시각화 설정 모듈을 호출합니다.
from GraphicSetting import *

In [None]:
# 통계 분석 및 머신러닝 관련 모듈을 호출합니다.
import HelloDataScience as hds

### 작업 경로 확인 및 변경

In [None]:
# 현재 작업 경로를 확인합니다.
os.getcwd()

In [None]:
# data 폴더로 작업 경로를 변경합니다.
os.chdir(path = '../data')

In [None]:
# 현재 작업 경로에 있는 폴더명과 파일명을 출력합니다.
os.listdir()

### 실습 데이터셋 준비

In [None]:
# xlsx 파일을 읽고 데이터프레임 df를 생성합니다.
df = pd.read_excel(io = 'Used_Cars_Price.xlsx')

In [None]:
# df의 열별 자료형을 출력합니다.
df.dtypes

In [None]:
# z 파일을 읽고 데이터프레임 df를 생성합니다.
df = joblib.load(filename = 'Used_Cars_Price.z')

In [None]:
# df의 열별 자료형을 출력합니다.
df.dtypes

### 목표변수 분포 확인

In [None]:
# 목표변수의 최솟값과 최댓값을 확인합니다.
df['Price'].describe()[['min', 'max']]

In [None]:
# 히스토그램을 그립니다.
sns.histplot(data = df, x = 'Price', binwidth = 1000, 
             binrange = (4000, 16000), color = '0.8')
plt.title(label = '중고차 가격 분포');

In [None]:
# 커널 밀도 추정 곡선을 그립니다.
sns.kdeplot(data = df, x = 'Price', color = '0.8', fill = True)
plt.axvline(x = df['Price'].mean(), color = 'red', lw = 1, ls = '-')
plt.axvline(x = df['Price'].median(), color = 'red', lw = 1, ls = '--')
plt.title(label = '중고차 가격 분포');

### 연속형 입력변수와 관계 파악

In [None]:
# Age와 Price의 산점도를 그립니다.
hds.plot_regression(data = df, x = 'Age', y = 'Price')

In [None]:
# KM와 Price의 산점도를 그립니다.
hds.plot_regression(data = df, x = 'KM', y = 'Price')

In [None]:
# HP와 Price의 산점도를 그립니다.
hds.plot_regression(data = df, x = 'HP', y = 'Price')

In [None]:
# CC와 Price의 산점도를 그립니다.
hds.plot_regression(data = df, x = 'CC', y = 'Price')

In [None]:
# Doors와 Price의 산점도를 그립니다.
hds.plot_regression(data = df, x = 'Doors', y = 'Price')

In [None]:
# Doors 원소별 빈도수를 확인합니다.
df['Doors'].value_counts().sort_index()

In [None]:
# Weight와 Price의 산점도를 그립니다.
hds.plot_regression(data = df, x = 'Weight', y = 'Price')

# 세로선을 추가합니다.
plt.axvline(x = 1250, color = 'red', lw = 0.5, ls = '--');

### 범주형 입력변수와 관계 파악

In [None]:
# FuelType 범주별 Price의 상자 수염 그림을 그립니다.
hds.plot_box_group(data = df, x = 'FuelType', y = 'Price', pal = 'Pastel1')

In [None]:
# MetColor 범주별 Price의 상자 수염 그림을 그립니다.
hds.plot_box_group(data = df, x = 'MetColor', y = 'Price', pal = 'Pastel1')

In [None]:
# Automatic 범주별 Price의 상자 수염 그림을 그립니다.
hds.plot_box_group(data = df, x = 'Automatic', y = 'Price', pal = 'Pastel1')

### 불필요한 행 삭제

In [None]:
# 시각화 결과 불필요하다고 판단하는 일부 행을 삭제합니다.
df = df[df['Doors'].ne(2) & df['Weight'].le(1250)]

In [None]:
# df의 행이름을 초기화합니다.
df = df.reset_index(drop = True)

In [None]:
# df의 행 개수를 확인합니다.
df.shape[0]

### 외부 파일로 저장

In [None]:
# df를 z 파일로 저장합니다.
joblib.dump(value = df, filename = 'Used_Cars_Price.z')

## End of Document