## 탐색적 데이터 분석

### 실습 데이터셋 준비

In [None]:
# 관련 라이브러리를 호출합니다.
import os
import joblib
import numpy as np
import pandas as pd

In [None]:
# 인터넷으로 공유 중인 텍스트 데이터를 읽고 데이터프레임 df를 생성합니다.
df = pd.read_csv(filepath_or_buffer = 'https://bit.ly/Used_Cars_Price')

In [None]:
# df의 정보를 확인합니다.
df.info()

In [None]:
# df의 처음 5행을 출력합니다.
df.head()

In [None]:
# 일부 정수형 변수를 문자형으로 변환합니다.
cols = ['MetColor', 'Automatic']
df[cols] = df[cols].astype('str')

### 관련 라이브러리 호출

In [None]:
# 관련 라이브러리를 호출합니다.
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm

In [None]:
# 테스트용 그래프를 그립니다.
sns.histplot(data = df, x = 'Price')
plt.title(label = '중고차 가격 분포');

### 한글폰트명 탐색

In [None]:
# 현재 사용 중인 컴퓨터에 설치된 전체 폰트 파일명을 리스트로 반환합니다.
fontList = fm.findSystemFonts(fontext = 'ttf')

In [None]:
# 특정 문자열을 갖는 파일명을 남깁니다.
fontPath = [font for font in fontList if 'Gamja' in font]

In [None]:
# fontPath를 오름차순 정렬합니다.
fontPath.sort()

In [None]:
# 반복문으로 폰트명을 출력합니다.
for font in fontPath:
    print(fm.FontProperties(fname = font).get_name())

### 그래픽 파라미터 설정

In [None]:
# 그래프 크기와 해상도를 설정합니다.
plt.rc(group = 'figure', figsize = (4, 4), dpi = 150)

In [None]:
# 한글폰트와 글자 크기를 설정합니다.
plt.rc(group = 'font', family = 'Gamja Flower', size = 10)

In [None]:
# 유니코드 마이너스를 축에 출력하지 않도록 설정합니다.
plt.rc(group = 'axes', unicode_minus = False)

In [None]:
# 범례에 채우기 색과 테두리 색을 추가합니다.
plt.rc(group = 'legend', frameon = True, fc = '1', ec = '0')

### [참고] 그래픽 파라미터 설정 관련 모듈 생성

### [참고] Python 파일 탐색 경로 확인

### [참고] 시각화 함수 모듈 제공

In [None]:
# 시각화 함수 모듈을 호출합니다.
import HelloDataScience as hds

### 목표변수 분포 확인

In [None]:
# 목표변수 최솟값과 최댓값을 확인합니다.
df['Price'].describe()[['min', 'max']]

In [None]:
# 히스토그램 계급을 설정합니다.
bins = np.arange(start = 4000, stop = 16001, step = 1000)

In [None]:
# 히스토그램을 그리고 목표변수 분포를 확인합니다.
sns.histplot(data = df, x = 'Price', bins = bins, color = '0.8')
plt.title(label = '중고차 가격 히스토그램');

In [None]:
# 상자 수염 그림을 그리고 목표변수 분포를 확인합니다.
sns.boxplot(data = df, y = 'Price', color = '0.8')
plt.title(label = '중고차 가격 상자 수염 그림');

### 연속형 입력변수와 관계 파악

In [None]:
# Age와 Price의 산점도를 그립니다.
hds.plot_regression(data = df, x = 'Age', y = 'Price')

In [None]:
# KM와 Price의 산점도를 그립니다.
hds.plot_regression(data = df, x = 'KM', y = 'Price')

In [None]:
# HP와 Price의 산점도를 그립니다.
hds.plot_regression(data = df, x = 'HP', y = 'Price')

In [None]:
# CC와 Price의 산점도를 그립니다.
hds.plot_regression(data = df, x = 'CC', y = 'Price')

In [None]:
# Doors와 Price의 산점도를 그립니다.
hds.plot_regression(data = df, x = 'Doors', y = 'Price')

In [None]:
# Doors 범주별 빈도수를 확인합니다.
df['Doors'].value_counts().sort_index()

In [None]:
# Weight와 Price의 산점도를 그립니다.
hds.plot_regression(data = df, x = 'Weight', y = 'Price')

# 세로선을 추가합니다.
plt.axvline(x = 1250, color = 'red');

### 범주형 입력변수와 관계 파악

In [None]:
# FuelType 범주별 Price의 상자 수염 그림을 그립니다.
hds.plot_box_group(
    data = df, 
    x = 'FuelType', 
    y = 'Price', 
    pal = ['skyblue', 'orange', 'yellow']
)

In [None]:
# MetColor 범주별 Price의 상자 수염 그림을 그립니다.
hds.plot_box_group(
    data = df, 
    x = 'MetColor', 
    y = 'Price',
    pal = ['skyblue', 'orange']
)

In [None]:
# Automatic 범주별 Price의 상자 수염 그림을 그립니다.
hds.plot_box_group(
    data = df, 
    x = 'Automatic', 
    y = 'Price',
    pal = ['skyblue', 'orange']
)

### 불필요한 행 삭제 및 z 파일로 저장

In [None]:
# 시각화 결과 불필요하다고 판단하는 일부 행을 삭제합니다.
df = df.loc[df['Doors'].ge(3) & df['Weight'].le(1250)]

In [None]:
# 현재 작업 경로를 확인합니다.
os.getcwd()

In [None]:
# data 폴더로 작업 경로를 변경합니다.
os.chdir(path = '../data')

In [None]:
# df를 z 파일로 저장합니다.
joblib.dump(value = df, filename = 'Used_Cars_Price.z')

## End of Document