# 탐색적 데이터 분석

### 실습 데이터셋 준비

In [None]:
# 관련 라이브러리를 호출합니다.
import os
import numpy as np
import pandas as pd

In [None]:
# 인터넷으로 공유 중인 텍스트 데이터를 읽고 데이터프레임 df를 생성합니다.
df = pd.read_csv(filepath_or_buffer = 'https://bit.ly/Used_Cars_Price')

In [None]:
# df의 처음 5행을 출력합니다.
df.head()

In [None]:
# df의 정보를 확인합니다.
df.info()

### 관련 라이브러리 호출 및 그래프 옵션 설정

In [None]:
# 관련 라이브러리를 호출합니다.
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm
%matplotlib inline

In [None]:
# 그래프의 크기 및 해상도를 설정합니다.
plt.rc(group = 'figure', figsize = (6, 6), dpi = 100)

In [None]:
# 선 굵기 및 스타일을 설정합니다.
plt.rc(group = 'lines', linewidth = 0.5, linestyle = '-')

In [None]:
# 한글폰트 및 글자 크기를 설정합니다.
plt.rc(group = 'font', family = 'Gamja Flower', size = 10)

In [None]:
# 한글폰트에 마이너스 기호가 없으므로, 축에 출력되지 않도록 설정합니다.
plt.rc(group = 'axes', unicode_minus = False)

### [참고] 한글폰트명 찾는 법

In [None]:
# 현재 사용 중인 컴퓨터에 설치된 폰트 파일을 탐색하고 리스트로 반환합니다.
fontList = fm.findSystemFonts(fontext = 'ttf')

In [None]:
# 폰트명으로 한글폰트 파일을 선택합니다.
fontPath = [font for font in fontList if 'Gamja' in font]

In [None]:
# 한글폰트 파일을 원소로 갖는 리스트를 오름차순으로 정렬합니다.
fontPath.sort()

In [None]:
# 반복문으로 한글폰트명을 출력하고, 마음에 드는 폰트명을 선택합니다.
for i in range(len(fontPath)):
    print(fm.FontProperties(fname = fontPath[i]).get_name())

### [참고] 한글이 네모로 출력되는 에러 해결 방법

### [참고] 그래픽 파라미터 설정 관련 모듈 생성

In [None]:
# 관련 모듈을 호출합니다.
from GraphicSetting import *
import HelloDataScience as hds

### 목표변수 분포 확인

In [None]:
# 목표변수의 최솟값과 최댓값을 확인합니다.
df['Price'].describe()[['min', 'max']]

In [None]:
# 히스토그램의 계급을 설정합니다.
bins = np.arange(start = 4000, stop = 16001, step = 1000)

In [None]:
# 목표변수의 분포를 히스토그램으로 시각화합니다.
sns.histplot(data = df, x = 'Price', bins = bins, color = 'orange');

In [None]:
# 목표변수의 분포를 상자 수염 그림으로 시각화합니다.
sns.boxplot(data = df, y = 'Price', color = 'orange');

### 연속형 입력변수와 관계 파악

In [None]:
# Age와 Price의 관계를 산점도로 시각화합니다.
hds.plot_regression(data = df, x = 'Age', y = 'Price')

In [None]:
# KM와 Price의 관계를 산점도로 시각화합니다.
hds.plot_regression(data = df, x = 'KM', y = 'Price')

In [None]:
# HP와 Price의 관계를 산점도로 시각화합니다.
hds.plot_regression(data = df, x = 'HP', y = 'Price')

In [None]:
# CC와 Price의 관계를 산점도로 시각화합니다.
hds.plot_regression(data = df, x = 'CC', y = 'Price')

In [None]:
# Doors와 Price의 관계를 산점도로 시각화합니다.
hds.plot_regression(data = df, x = 'Doors', y = 'Price')

In [None]:
# Doors의 범주별 빈도수를 확인합니다.
df['Doors'].value_counts().sort_index()

In [None]:
# Weight와 Price의 관계를 산점도로 시각화합니다.
hds.plot_regression(data = df, x = 'Weight', y = 'Price')

# 세로선을 추가합니다.
plt.axvline(x = 1250, color = 'red');

### 범주형 입력변수와 관계 파악

In [None]:
# FuelType의 범주별 Price의 분포를 상자 수염 그림으로 시각화합니다.
hds.plot_box_group(data = df, x = 'FuelType', y = 'Price')

In [None]:
# MetColor의 범주별 Price의 분포를 상자 수염 그림으로 시각화합니다.
hds.plot_box_group(data = df, x = 'MetColor', y = 'Price')

In [None]:
# Automatic의 범주별 Price의 분포를 상자 수염 그림으로 시각화합니다.
hds.plot_box_group(data = df, x = 'Automatic', y = 'Price')

### 불필요한 행 삭제 및 xlsx 파일로 저장

In [None]:
# 시각화 결과 불필요하다고 판단되는 행을 삭제합니다.
df = df.loc[df['Doors'].ge(3) & df['Weight'].le(1250)]

In [None]:
# 현재 작업경로를 확인합니다.
os.getcwd()

In [None]:
# xlsx 파일을 저장할 data 폴더로 작업경로를 변경합니다.
os.chdir(path = '../data')

In [None]:
# df를 xlsx 파일로 저장합니다.
df.to_excel(excel_writer = 'Used_Cars_Price.xlsx', index = False)

## End of Document