## 기술통계 분석

### 관련 라이브러리 호출

In [1]:
# 관련 라이브러리를 호출합니다.
import os
import joblib
import numpy as np
import pandas as pd

In [2]:
# 통계 관련 라이브러리를 호출합니다.
from scipy import stats
from statsmodels import robust

In [3]:
# 실수를 출력할 소수점 자릿수를 설정합니다.
%precision 3
pd.set_option('display.float_format', lambda x: f'{x:.3f}')

### 실습 데이터셋 준비

In [4]:
# 인터넷에 공유 중인 텍스트 데이터를 읽고 데이터프레임을 생성합니다.
df = pd.read_csv(filepath_or_buffer = 'https://bit.ly/UsedCarsPrice')

In [5]:
# df의 정보를 확인합니다.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1275 entries, 0 to 1274
Data columns (total 10 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Price      1275 non-null   int64 
 1   Age        1275 non-null   int64 
 2   KM         1275 non-null   int64 
 3   FuelType   1275 non-null   object
 4   HP         1275 non-null   int64 
 5   MetColor   1275 non-null   int64 
 6   Automatic  1275 non-null   int64 
 7   CC         1275 non-null   int64 
 8   Doors      1275 non-null   int64 
 9   Weight     1275 non-null   int64 
dtypes: int64(9), object(1)
memory usage: 99.7+ KB


In [6]:
# df의 처음 5행을 출력합니다.
df.head()

Unnamed: 0,Price,Age,KM,FuelType,HP,MetColor,Automatic,CC,Doors,Weight
0,13500,23,46986,Diesel,90,1,0,2000,3,1165
1,13750,23,72937,Diesel,90,1,0,2000,3,1165
2,13950,24,41711,Diesel,90,1,0,2000,3,1165
3,14950,26,48000,Diesel,90,0,0,2000,3,1165
4,13750,30,38500,Diesel,90,0,0,2000,3,1170


### 실습 데이터셋 전처리

In [7]:
# df의 열이름을 출력합니다.
df.columns

Index(['Price', 'Age', 'KM', 'FuelType', 'HP', 'MetColor', 'Automatic', 'CC',
       'Doors', 'Weight'],
      dtype='object')

In [8]:
# 범주형으로 변환할 열이름으로 리스트를 생성합니다.
cols = ['MetColor', 'Automatic']

In [9]:
# 지정한 변수를 범주형으로 일괄 변환합니다.
df[cols] = df[cols].astype(str)

In [10]:
# 열별 자료형을 확인합니다.
df.dtypes

Price         int64
Age           int64
KM            int64
FuelType     object
HP            int64
MetColor     object
Automatic    object
CC            int64
Doors         int64
Weight        int64
dtype: object

### 평균

In [11]:
# 연속형 변수의 평균을 반환합니다.
df['Price'].mean()

9690.233

In [12]:
# 결측값을 포함하는 시리즈를 생성합니다.
# [참고] nums의 1번 인덱스(두 번째) 원소가 결측값입니다.
nums = pd.Series(data = [1, np.nan, 2])
nums

0   1.000
1     NaN
2   2.000
dtype: float64

In [13]:
# nums의 평균을 반환합니다.
nums.mean()

1.500

### 절사평균

In [14]:
# 연속형 변수의 10% 절사평균을 반환합니다.
stats.trim_mean(df['Price'], 0.1)

9584.380

### 중위수

In [15]:
# 연속형 변수의 중위수를 반환합니다.
df['Price'].median()

9450.000

In [16]:
# [참고] 50% 절사평균을 계산하면 원소 개수가 홀수일 때 중위수, 
# 짝수일 때 결측값을 반환합니다.
stats.trim_mean(df['Price'], 0.5)

9450.000

### 최빈값

In [17]:
# 범주형 변수의 최빈값을 반환합니다.
df['FuelType'].mode()

0    Petrol
Name: FuelType, dtype: object

In [18]:
# 범주형 변수의 빈도수를 내림차순 정렬한 결과를 반환합니다.
df['FuelType'].value_counts()

Petrol    1129
Diesel     129
CNG         17
Name: FuelType, dtype: int64

In [19]:
# 범주형 변수의 빈도수를 인덱스로 오름차순 정렬한 결과를 반환합니다. 
df['FuelType'].value_counts().sort_index()

CNG         17
Diesel     129
Petrol    1129
Name: FuelType, dtype: int64

In [20]:
# 범주형 변수의 상대도수를 내림차순 정렬한 결과를 반환합니다.
df['FuelType'].value_counts(normalize = True)

Petrol   0.885
Diesel   0.101
CNG      0.013
Name: FuelType, dtype: float64

### 분위수와 사분위수

In [21]:
# 전체 데이터를 100 등분하는 경계값인 백분위수를 반환합니다.
df['Price'].quantile(q = np.linspace(start = 0, stop = 1, num = 100 + 1))

0.000    4350.000
0.010    5833.300
0.020    5950.000
0.030    6496.100
0.040    6650.000
           ...   
0.960   13510.000
0.970   13950.000
0.980   14179.600
0.990   14950.000
1.000   15950.000
Name: Price, Length: 101, dtype: float64

In [22]:
# 전체 데이터를 10 등분하는 경계값인 십분위수를 반환합니다.
df['Price'].quantile(q = np.linspace(start = 0, stop = 1, num = 10 + 1))

0.000    4350.000
0.100    7250.000
0.200    7950.000
0.300    8500.000
0.400    8950.000
0.500    9450.000
0.600    9950.000
0.700   10500.000
0.800   11456.000
0.900   12500.000
1.000   15950.000
Name: Price, dtype: float64

In [23]:
# 전체 데이터를 4 등분하는 경계값인 사분위수를 반환합니다.
df['Price'].quantile(q = np.linspace(start = 0, stop = 1, num = 4 + 1))

0.000    4350.000
0.250    8250.000
0.500    9450.000
0.750   10950.000
1.000   15950.000
Name: Price, dtype: float64

### 범위와 사분범위

In [24]:
# 연속형 변수의 범위(최댓값과 최솟값의 간격)를 반환합니다.
df['Price'].max() - df['Price'].min()

11600

In [25]:
# diff() 함수는 원소 간 차이를 반환합니다.(최댓값 - 최솟값)
df['Price'].quantile(q = [0, 1]).diff().iloc[-1]

11600.000

In [26]:
# 연속형 변수의 사분범위(3사분위수와 1사분위수의 간격)를 반환합니다.
df['Price'].quantile(q = [0.25, 0.75]).diff().iloc[-1]

2700.000

### 분산

In [27]:
# 연속형 변수의 분산을 반환합니다.
df['Price'].var()

4120265.326

### 표준편차

In [28]:
# 연속형 변수의 표준편차를 반환합니다.
df['Price'].std()

2029.844

### 중위수절대편차

In [29]:
# 연속형 변수의 중위수절대편차를 반환합니다.
robust.mad(a = df['Price'])

2223.903

### 여러 열의 기술통계량 확인

In [30]:
# 연속형 변수의 기술통계량을 반환합니다.
df.describe()

Unnamed: 0,Price,Age,KM,HP,CC,Doors,Weight
count,1275.0,1275.0,1275.0,1275.0,1275.0,1275.0,1275.0
mean,9690.233,60.603,73692.409,100.397,1559.513,3.998,1062.692
std,2029.844,13.694,35949.783,13.111,184.69,0.951,39.79
min,4350.0,19.0,1.0,69.0,1300.0,2.0,1000.0
25%,8250.0,51.0,48948.5,86.0,1400.0,3.0,1035.0
50%,9450.0,63.0,67451.0,110.0,1600.0,4.0,1060.0
75%,10950.0,71.5,90325.0,110.0,1600.0,5.0,1075.0
max,15950.0,80.0,243000.0,116.0,2000.0,5.0,1615.0


In [31]:
# 범주형 변수의 기술통계량을 반환합니다.
df.describe(include = object)

Unnamed: 0,FuelType,MetColor,Automatic
count,1275,1275,1275
unique,3,2,2
top,Petrol,1,0
freq,1129,843,1205


### 실습 데이터셋 전처리

In [32]:
# df를 KM로 오름차순 정렬하고 처음 5행을 출력합니다.
df.sort_values(by = ['KM']).head()

Unnamed: 0,Price,Age,KM,FuelType,HP,MetColor,Automatic,CC,Doors,Weight
433,7500,50,1,Diesel,90,1,0,2000,3,1260
1267,6950,76,1,Petrol,110,0,0,1600,5,1114
432,11250,47,5309,Petrol,110,1,1,1600,3,1070
18,14900,30,7000,Petrol,97,1,0,1400,5,1100
7,12950,29,9750,Petrol,97,1,0,1400,3,1100


In [33]:
# df에서 KM가 1보다 큰 행을 선택하고 행이름을 초기화합니다.
df = df[df['KM'].gt(1)].reset_index(drop = True)

In [34]:
# df의 행 개수를 확인합니다.
df.shape[0]

1273

### 작업 경로 확인 및 변경

In [35]:
# 현재 작업 경로를 확인합니다.
os.getcwd()

'/Users/hdsceokevin/Documents/Lectures/PythonDataAnalysis2/code'

In [36]:
# data 폴더로 작업 경로를 변경합니다.
os.chdir('../data')

In [37]:
# 현재 작업 경로에 있는 폴더명과 파일명을 출력합니다.
sorted(os.listdir())

['APT_Price_GangNam_2020.xlsx',
 'KBO_Hitter_2022.z',
 'Seafood_Trade_Prep.z',
 'Used_Cars_Price.csv',
 'Used_Cars_Price.xlsx',
 'Used_Cars_Price.z',
 'Used_Cars_Price_Prep.z']

### 외부 파일로 저장

In [38]:
# df를 xlsx 파일로 저장합니다.
df.to_excel(excel_writer = 'Used_Cars_Price.xlsx', index = False)

In [39]:
# df를 csv 파일로 저장합니다.
df.to_csv(path_or_buf = 'Used_Cars_Price.csv', index = False)

In [40]:
# df를 z 파일로 저장합니다.
joblib.dump(value = df, filename = 'Used_Cars_Price.z')

['Used_Cars_Price.z']

## End of Document