# 탐색적 데이터 분석

## 탐색적 데이터 분석

![image.png](attachment:image.png)

## 실습 데이터셋 소개

![image.png](attachment:image.png)

## 관련 라이브러리 호출

### ● 관련 라이브러리를 호출합니다

In [2]:
import os
import joblib
import numpy as np
import pandas as pd

In [3]:
%precision 3
pd.options.display.precision=3

In [47]:
import os #[참고] 라이브러리를 콤마로 나열할 수 있지만 가독성 측면에는 좋지 않습니다.
import joblib
import numpy as np
import pandas as pd

### ● 실수를 출력할 소수점 자리수를 설정합니다

In [48]:
%precision 3 # 실수를 출력할 소수점 자리수를 설정합니다.
pd.options.display.precision=3 # pandas 옵션에서 실수를 출력할 소수점 자리수를 3으로 설정합니다.

ValueError: Precision must be int or format string, not '3 # 실수를 출력할 소수점 자리수를 설정합니다.'

## 작업 경로 확인 및 변경

### ● 현재 작업 경로를 확인합니다

In [None]:
os.getcwd()

### ● data 폴더로 작업 경로를 변경합니다

In [None]:
os.chdir(path = '../data')

### ● 현재 작업 경로에 있는 폴더명과 파일명을 출력합니다

In [None]:
os.listdir()

## 실습 데이터셋 준비

### ● 인터넷에 공유 중인 텍스트 데이터를 읽고 데이터프레임 df를 생성합니다

In [None]:
df = pd.read_csv(filepath_or_buffer = 'https://bit.ly/Used_Cars_Price')

### ● df의 정보를 확인합니다

In [None]:
df.info() # 행 개수, 열 개수, 열이름, 자료형, 열별 결측값 아닌 개수 및 자료형을 차례대로 확인합니다.

### ● df의 처음 5행을 출력합니다

In [None]:
df.head() # [참고] n 매개변수에 전달하는 인수의 기본값은 5입니다.

## 실습 데이터셋 전처리

### ● 범주형으로 변환할 열이름으로 리스트를 생성합니다

In [None]:
cols = ['MetColor', 'Automatic']

### ● 지정한 변수를 문자형으로 일괄 변환합니다

In [None]:
df[cols] = df[cols].astype(str)

### ● 열별 자료형을 확인합니다

In [None]:
df.dtypes # MetColor와 Automatic의 자료형이 object로 바뀌었습니다.

### ● 실수 및 정수형 변수의 기술통계량을 확인합니다

In [None]:
df.describe() # 실수 및 정수형 변수의 결측값 아닌 개수, 평균, 표준편차, 최솟값, 사분위수 및 최댇값을 확인합니다.
# 여기서 평균이랑 중위수를 봐야함. 이상치가 평균 큰값 쪽에 있음

### ● df를 KM로 오름차순 정렬하고 처음 5행을 출력합니다

In [None]:
df.sort_values(by = ['KM']).head()

### ● df에서 KM가 1보다 큰 행을 선택하고 행이름을 초기화합니다

In [None]:
df = df[df['KM'].gt(1)].reset_index(drop = True) # gt : greater than

### ● df의 행 개수를 확인합니다

In [None]:
df.shape # 행, 열이 다 나옴

In [None]:
# df의 행 개수를 확인합니다.
df.shape[0] # 행만 출력

### ● 범주형 변수의 기술통계량을 확인합니다

In [None]:
df.describe(include = object) # 문자형 변수의 결측값 아닌 개수, 중복 제거한 원소 개수, 최빈값 및 최빈값의 빈도수를 확인합니다.

### ● 범주형 변수의 범주별 빈도수를 출력합니다.

In [None]:
df['FuelType'].value_counts()#.sort_index() # FuelType의 범주별 빈도수를 출력합니다.

In [None]:
df['MetColor'].value_counts()#.sort_index() # MetColor의 범주별 빈도수를 출력합니다.

In [None]:
df['Automatic'].value_counts()#.sort_index() # Automatic의 범주별 빈도수를 출력합니다.

### ● 범주형 변수의 범주별 상대도수를 출력합니다

In [None]:
df['FuelType'].value_counts(normalize = True)#.sort_index() # FuelType의 범주별 상대도수를 출력합니다.

In [None]:
df['MetColor'].value_counts(normalize = True)#.sort_index() # MetColor의 범주별 상대도수를 출력합니다.

In [None]:
df['Automatic'].value_counts(normalize = True)#.sort_index() # Automatic의 범주별 상대도수를 출력합니다.

## 시각화 설정: 라이브러리 호출

### ● 관련 라이브러리를 호출합니다

In [None]:
import seaborn as sns # 고급 시각화 함수를 포함하는 라이브러리입니다.
import matplotlib.pyplot as plt # 그래프 크기, 제목, 축이름 등을 지정할 때 사용합니다.
import matplotlib.font_manager as fm # 한글폰트를 지정할 떄 사용합니다

### ● 테스트용 그래프를 그립니다

In [None]:
sns.histplot(data = df, x = 'Price')
plt.title(label = '중고차 가격 분포'); #[참고] 시각화 코드 마지막에 추가한 세미콜론(;)은 plt.show() 함수와 같은 기능을 실행합니다.
# 위 코드를 실행하면 한글을 네모로 출력하므로 한글폰트를 설정해야 합니다.
# [참고] 한글폰트 외 그래프 크기 및 해상도 등 다양한 그래픽 파라미터를 설정할 수 있습니다.

In [None]:
from GraphicSetting Import *

In [None]:
df['Price'].describe()[['min','max']]

In [None]:
sns.histplot(data=df, x='Price', color='orange',
             binrange=(4000,16000), binwidth=1000)
plt.title(label='중고차 가격 분포');

In [None]:
sns.boxplot(data=df, y='Price', color='orange')
plt.title(label='중고차 가격 분포')

## 시각화 설정: 한글폰트명 탐색

### ● 현재 사용 중인 컴퓨터에 설치한 전체 폰트 파일명을 리스트로 반환합니다

In [None]:
fontList = fm.findSystemFonts(fontext = 'ttf')
fontList

### ● 리스트에서 특정 문자열(폰트명)을 포함하는 파일명만 선택합니다

In [None]:
fontPath = [font for font in fontList if 'Gamja' in font]
fontPath

### ● 반복문으로 컴퓨터에 설치된 폰트명을 출력합니다

In [None]:
for font in fontPath:
    print(fm.FontProperties(fname = font).get_name())
# 반복문을 실행한 결과에서 마음에 드는 폰트명을 선택하고 plt.rc() 함수에 지정합니다.
# [참고] rc는 runtime configuration를 의미하며, pyplot을 실행하는 환경을 의미합니다.

## 시각화 설정: 그래픽 파라미터 설정

### ● 그래프 크기와 해상도를 설정합니다

In [None]:
plt.rc(group = 'figure', figsize = (4, 4), dpi = 150)

### ● 한글폰트와 글자 크기를 설정합니다

In [None]:
plt.rc(group = 'font', family = 'Gamja Flower', size = 10)

### ● 축에 유니코드 마이너스를 출력하지 않도록 설정합니다

In [None]:
plt.rc(group = 'axes', unicode_minus = False) # [참고] 왼쪽 코드를 설정하지 않으면 음수 앞에 ' '를 출력합니다

### ● 범례에 채우기 색과 테두리 색을 추가합니다

In [None]:
plt.rc(group = 'legend', frameon = True, fc = '1', ec = '0')

## [참고] 그래픽 파라미터 설정 관련 모듈 생성

![image.png](attachment:image.png)

### ● 시각화 설정 모듈을 호출합니다

## [참고] Python 파일 탐색 경로 확인

![image.png](attachment:image.png)

### ● Python 파일 탐색 경로를 확인합니다

In [None]:
import sys # 관련 라이브러리를 호출합니다.

In [None]:
sys.path # Python 파일 탐색 경로를 모두 출력합니다. 많은 경로 중 한 곳(마지막 경로 추천)에 py 파일을 저장하면 해당 모듈을 -
# 항상 호출할 수 있습니다

## [참고] 시각화 함수 모듈 제공

![image.png](attachment:image.png)

## 목표변수 분포 확인

### ● 목표번수의 최솟값과 최댓값을 확인합니다

In [None]:
df['Price'].describe()[['min', 'max']]

### ● 히스토그램을 그립니다

In [None]:
sns.histplot(data = df, x = 'Price', binwidth = 1000, 
             binrange = (4000, 16000), color = 'orange')
plt.title(label = '중고차 가격');

### ● 상자 수염 그림을 그립니다

In [None]:
sns.boxplot(data = df, y = 'Price', color = 'orange')
plt.title(label = '중고차 가격');

## 연속형 입력변수와 관계 파악 : Age

![image.png](attachment:image.png)

## 연속형 입력변수와 관계 파악 : KM

![image.png](attachment:image.png)

## 연속형 입력변수와 관계 파악 : HP

![image.png](attachment:image.png)

## 연속형 입력변수와 관계 파악 : CC

![image.png](attachment:image.png)

## 연속형 입력변수와 관계 파악 : Doors

![image.png](attachment:image.png)

## 연속형 입력변수와 관계 파악 : Weight

![image.png](attachment:image.png)

## 범주형 입력변수와 관계 파악 : FuelType

![image.png](attachment:image.png)

## 범주형 입력변수와 관계 파악 : MetColor

![image.png](attachment:image.png)

## 범주형 입력변수와 관계 파악 : Automatic

![image.png](attachment:image.png)

## 불필요한 행 삭제

### ● 시각화 결과 불필요하다고 판단하는 일부 행을 삭제합니다

In [None]:
df = df[df['Doors'].ne(2) & df['Weight'].le(1250)] # ne:not equal 

### ● df의 행이름을 초기화합니다

In [None]:
df = df.reset_index(drop = True)

### ● df의 행 개수를 확인합니다

In [None]:
df.shape[0]

### ● 열별 기술통계량을 확인합니다

In [None]:
df.describe()

## 외부 파일로 저장

### ● df를 xlsx 파일로 저장합니다

In [None]:
df.to_excel('Used_Cars_Price.xlsx', index = None)
# excel은 속도가 느리다(치명적인 단점) 

### ● df를 csv 파일로 저장합니다

In [None]:
df.to_csv('Used_Cars_Price.csv', index = None)

### ● df를 z 파일로 저장합니다

In [None]:
joblib.dump(value = df, filename = 'Used_Cars_Price.z')

In [None]:
os.listdir()

## End of Document