# 기술통계 분석

### 실습 데이터셋 준비

In [None]:
# 관련 라이브러리를 호출합니다.
import os, joblib
import numpy as np
import pandas as pd
from scipy import stats

In [None]:
# 현재 작업 경로를 확인합니다.
os.getcwd()

In [None]:
# data 폴더로 작업 경로를 변경합니다.
os.chdir('../data')

In [None]:
# 현재 작업 경로에 포함된 폴더명과 파일명을 출력합니다.
os.listdir()

In [None]:
# 압축 파일을 읽고 데이터프레임 df를 생성합니다.
df = joblib.load(filename = 'Used_Cars_Price.z')

In [None]:
# df의 정보를 확인합니다.
df.info()

In [None]:
# df의 처음 5행을 출력합니다.
df.head()

### 평균

In [None]:
# 연속형 변수의 평균을 반환합니다.
df['Price'].mean()

In [None]:
# 정수 1~3으로 시리즈를 생성합니다.
nums = pd.Series(data = [1, 2, 3])

In [None]:
# nums의 1번 인덱스 원소를 결측값으로 변경합니다.
nums.iloc[1] = np.nan

In [None]:
# nums의 평균을 반환합니다.
nums.mean()

### 절사평균

In [None]:
# 연속형 변수의 10% 절사평균을 반환합니다.
stats.trim_mean(df['Price'], 0.1)

### 중위수

In [None]:
# 연속형 변수의 중위수를 반환합니다.
df['Price'].median()

In [None]:
# [주의] 원소 개수가 홀수명 중위수, 짝수면 결측값을 반환합니다.
stats.trim_mean(df['Price'], 0.5)

### 분위수

In [None]:
# 백분위수를 반환합니다.
df['Price'].quantile(q = np.linspace(start = 0, stop = 1, num = 101))

In [None]:
# 십분위수를 반환합니다.
df['Price'].quantile(q = np.linspace(start = 0, stop = 1, num = 11))

In [None]:
# 사분위수를 반환합니다.
df['Price'].quantile(q = np.linspace(start = 0, stop = 1, num = 5))

### 범위와 사분범위

In [None]:
# 연속형 변수의 범위(최댓값과 최솟값의 간격)를 반환합니다.
df['Price'].max() - df['Price'].min()

In [None]:
# 연속형 변수의 범위(최댓값과 최솟값의 간격)를 반환합니다.
df['Price'].quantile(q = [0, 1]).diff().iloc[1]

In [None]:
# 연속형 변수의 사분범위(3사분위수와 1사분위수의 간격)를 반환합니다.
df['Price'].quantile(q = [0.25, 0.75]).diff().iloc[1]

### 최빈값

In [None]:
# 범주형 변수의 최빈값을 반환합니다.
df['FuelType'].mode()

In [None]:
# 범주형 변수의 빈도수를 내림차순 정렬한 결과를 반환합니다.
df['FuelType'].value_counts()

In [None]:
# 빈도수 대신 인덱스명으로 오름차순 정렬한 결과를 반환합니다. 
df['FuelType'].value_counts().sort_index()

In [None]:
# 빈도수 대신 상대도수를 반환합니다.
df['FuelType'].value_counts(normalize = True).sort_index().round(4) * 100

### 분산

In [None]:
# 연속형 변수의 분산을 반환합니다.
df['Price'].var()

### 표준편차

In [None]:
# 연속형 변수의 표준편차를 반환합니다.
df['Price'].std()

### 중위수절대편차

In [None]:
# 관련 라이브러리를 호출합니다.
from statsmodels import robust

In [None]:
# 연속형 변수의 중위수절대편차를 반환합니다.
robust.mad(df['Price'])

### 여러 열의 기술통계량 확인

In [None]:
# 여러 연속형 변수의 평균을 반환합니다.
df.apply(func = 'mean', numeric_only = True)

In [None]:
# 여러 연속형 변수의 표준편차를 반환합니다.
df.apply(func = 'std', numeric_only = True)

In [None]:
# 여러 연속형 변수의 중위수를 반환합니다.
df.apply(func = 'median', numeric_only = True)

In [None]:
# 여러 연속형 변수의 기술통계량을 반환합니다.
df.describe()

In [None]:
# 여러 범주형 변수의 기술통계량을 반환합니다.
df.describe(include = 'object')

## End of Document