## 기술통계 분석

### 관련 라이브러리 호출

In [None]:
# 관련 라이브러리를 호출합니다.
import os
import joblib
import numpy as np
import pandas as pd
from scipy import stats
from statsmodels import robust

### 실습 데이터셋 준비

In [None]:
# 인터넷에 공유 중인 텍스트 데이터를 읽고 데이터프레임을 생성합니다.
df = pd.read_csv(filepath_or_buffer = 'https://bit.ly/UsedCarsPrice')

In [None]:
# df의 정보를 확인합니다.
df.info()

In [None]:
# df의 처음 5행을 출력합니다.
df.head()

### 실습 데이터셋 전처리

In [None]:
# df의 열이름을 출력합니다.
df.columns

In [None]:
# 범주형으로 변환할 열이름으로 리스트를 생성합니다.
cols = ['MetColor', 'Automatic']

In [None]:
# 지정한 변수를 범주형으로 일괄 변환합니다.
df[cols] = df[cols].astype(str)

In [None]:
# 열별 자료형을 확인합니다.
df.dtypes

### 평균

In [None]:
# 연속형 변수의 평균을 반환합니다.
df['Price'].mean()

In [None]:
# 결측값을 포함하는 시리즈를 생성합니다.
# [참고] nums의 1번 인덱스(두 번째) 원소가 결측값입니다.
nums = pd.Series(data = [1, np.nan, 2])
nums

In [None]:
# nums의 평균을 반환합니다.
nums.mean()

### 절사평균

In [None]:
# 연속형 변수의 10% 절사평균을 반환합니다.
stats.trim_mean(a = df['Price'], proportiontocut = 0.1)

### 중위수

In [None]:
# 연속형 변수의 중위수를 반환합니다.
df['Price'].median()

### 최빈값

In [None]:
# 범주형 변수의 최빈값을 반환합니다.
df['FuelType'].mode()

In [None]:
# 범주형 변수의 빈도수를 내림차순 정렬한 결과를 반환합니다.
df['FuelType'].value_counts()

In [None]:
# 범주형 변수의 빈도수를 인덱스로 오름차순 정렬한 결과를 반환합니다. 
df['FuelType'].value_counts().sort_index()

In [None]:
# 범주형 변수의 상대도수를 내림차순 정렬한 결과를 반환합니다.
df['FuelType'].value_counts(normalize = True)

### 분위수와 사분위수

In [None]:
# 전체 데이터를 100 등분하는 경계값인 백분위수를 반환합니다.
df['Price'].quantile(q = np.linspace(start = 0, stop = 1, num = 100 + 1))

In [None]:
# 전체 데이터를 10 등분하는 경계값인 십분위수를 반환합니다.
df['Price'].quantile(q = np.linspace(start = 0, stop = 1, num = 10 + 1))

In [None]:
# 전체 데이터를 4 등분하는 경계값인 사분위수를 반환합니다.
df['Price'].quantile(q = np.linspace(start = 0, stop = 1, num = 4 + 1))

### 범위와 사분범위

In [None]:
# 연속형 변수의 범위(최댓값과 최솟값의 간격)를 반환합니다.
df['Price'].max() - df['Price'].min()

In [None]:
# diff()는 인접한 원소 간 차이를 반환합니다.(최댓값 - 최솟값)
df['Price'].quantile(q = [0, 1]).diff().iloc[-1]

In [None]:
# 연속형 변수의 사분범위(3사분위수와 1사분위수의 간격)를 반환합니다.
df['Price'].quantile(q = [0.25, 0.75]).diff().iloc[-1]

### 분산

In [None]:
# 연속형 변수의 분산을 반환합니다.
df['Price'].var()

### 표준편차

In [None]:
# 연속형 변수의 표준편차를 반환합니다.
df['Price'].std()

### 중위수절대편차

In [None]:
# 연속형 변수의 중위수절대편차를 반환합니다.
robust.mad(a = df['Price'])

### 여러 열의 기술통계량 확인

In [None]:
# df의 연속형 변수별 기술통계량을 반환합니다.
df.describe()

In [None]:
# df의 범주형 변수별 기술통계량을 반환합니다.
df.describe(include = object)

### 실습 데이터셋 전처리

In [None]:
# df를 KM로 오름차순 정렬하고 처음 5행을 출력합니다.
df.sort_values(by = ['KM']).head()

In [None]:
# df에서 KM가 1보다 큰 행을 선택합니다.
df = df[df['KM'].gt(1)]

In [None]:
# df의 행이름을 초기화합니다.
df = df.reset_index(drop = True)

In [None]:
# df의 행 개수를 확인합니다.
df.shape[0]

### 작업 경로 확인 및 변경

In [None]:
# 현재 작업 경로를 확인합니다.
os.getcwd()

In [None]:
# 파일을 저장할 폴더명을 현재 작업 경로와 형제 관계로 설정합니다.
folder_path = '../data'

In [None]:
# data 폴더가 없으면 새로 만듭니다.
if not os.path.exists(path = folder_path):
    os.mkdir(path = folder_path)

In [None]:
# data 폴더로 작업 경로를 변경합니다.
os.chdir(path = folder_path)

### 외부 파일로 저장

In [None]:
# df를 xlsx 파일로 저장합니다.
df.to_excel(excel_writer = 'Used_Cars_Price.xlsx', index = False)

In [None]:
# df를 csv 파일로 저장합니다.
df.to_csv(path_or_buf = 'Used_Cars_Price.csv', index = False)

In [None]:
# df를 z 파일로 저장합니다.
joblib.dump(value = df, filename = 'Used_Cars_Price.z')

In [None]:
# 현재 작업 경로에 있는 폴더명과 파일명을 출력합니다.
os.listdir()

## End of Document