## 기술통계 분석

### 관련 라이브러리 호출

In [1]:
# 관련 라이브러리를 호출합니다.
import os
import joblib
import numpy as np
import pandas as pd

In [2]:
# 통계 관련 라이브러리를 호출합니다.
from scipy import stats
from statsmodels import robust

### 실습 데이터셋 준비

In [3]:
# 인터넷에 공유 중인 텍스트 데이터를 읽고 데이터프레임을 생성합니다.
df = pd.read_csv(filepath_or_buffer = 'https://bit.ly/Used_Cars_Price')

In [4]:
# df의 정보를 확인합니다.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1275 entries, 0 to 1274
Data columns (total 10 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Price      1275 non-null   int64 
 1   Age        1275 non-null   int64 
 2   KM         1275 non-null   int64 
 3   FuelType   1275 non-null   object
 4   HP         1275 non-null   int64 
 5   MetColor   1275 non-null   int64 
 6   Automatic  1275 non-null   int64 
 7   CC         1275 non-null   int64 
 8   Doors      1275 non-null   int64 
 9   Weight     1275 non-null   int64 
dtypes: int64(9), object(1)
memory usage: 99.7+ KB


In [5]:
# df의 처음 5행을 출력합니다.
df.head()

Unnamed: 0,Price,Age,KM,FuelType,HP,MetColor,Automatic,CC,Doors,Weight
0,13500,23,46986,Diesel,90,1,0,2000,3,1165
1,13750,23,72937,Diesel,90,1,0,2000,3,1165
2,13950,24,41711,Diesel,90,1,0,2000,3,1165
3,14950,26,48000,Diesel,90,0,0,2000,3,1165
4,13750,30,38500,Diesel,90,0,0,2000,3,1170


### 실습 데이터셋 전처리

In [6]:
# df의 열이름을 출력합니다.
df.columns

Index(['Price', 'Age', 'KM', 'FuelType', 'HP', 'MetColor', 'Automatic', 'CC',
       'Doors', 'Weight'],
      dtype='object')

In [7]:
# 범주형으로 변환할 열이름으로 리스트를 생성합니다.
cols = ['MetColor', 'Automatic']

In [8]:
# 지정한 변수를 문자형으로 일괄 변환합니다.
df[cols] = df[cols].astype(str)

In [9]:
# 열별 자료형을 확인합니다.
df.dtypes

Price         int64
Age           int64
KM            int64
FuelType     object
HP            int64
MetColor     object
Automatic    object
CC            int64
Doors         int64
Weight        int64
dtype: object

### 평균

In [10]:
# 연속형 변수의 평균을 반환합니다.
df['Price'].mean()

9690.232941176471

In [11]:
# 결측값을 포함하는 시리즈를 생성합니다.
# [참고] nums의 1번 인덱스(두 번째) 원소를 결측값입니다.
nums = pd.Series(data = [1, np.nan, 2])
nums

0    1.0
1    NaN
2    2.0
dtype: float64

In [12]:
# nums의 평균을 반환합니다.
nums.mean()

1.5

### 절사평균

In [13]:
# 연속형 변수의 10% 절사평균을 반환합니다.
stats.trim_mean(df['Price'], 0.1)

9584.380019588638

### 중위수

In [14]:
# 연속형 변수의 중위수를 반환합니다.
df['Price'].median()

9450.0

In [15]:
# [참고] 50% 절사평균을 계산하면 원소 개수가 홀수일 때 중위수, 
# 짝수일 때 결측값을 반환합니다.
stats.trim_mean(df['Price'], 0.5)

9450.0

### 최빈값

In [16]:
# 범주형 변수의 최빈값을 반환합니다.
df['FuelType'].mode()

0    Petrol
Name: FuelType, dtype: object

In [17]:
# 범주형 변수의 빈도수를 내림차순 정렬한 결과를 반환합니다.
df['FuelType'].value_counts()

Petrol    1129
Diesel     129
CNG         17
Name: FuelType, dtype: int64

In [18]:
# 범주형 변수의 빈도수를 인덱스로 오름차순 정렬한 결과를 반환합니다. 
df['FuelType'].value_counts().sort_index()

CNG         17
Diesel     129
Petrol    1129
Name: FuelType, dtype: int64

In [19]:
# 범주형 변수의 빈도수 대신 상대도수를 내림차순 정렬한 결과를 반환합니다.
df['FuelType'].value_counts(normalize = True)

Petrol    0.885490
Diesel    0.101176
CNG       0.013333
Name: FuelType, dtype: float64

### 분위수와 사분위수

In [20]:
# 전체 데이터를 100 등분하는 경계값인 백분위수를 반환합니다.
df['Price'].quantile(q = np.linspace(start = 0, stop = 1, num = 100+1))

0.00     4350.0
0.01     5833.3
0.02     5950.0
0.03     6496.1
0.04     6650.0
         ...   
0.96    13510.0
0.97    13950.0
0.98    14179.6
0.99    14950.0
1.00    15950.0
Name: Price, Length: 101, dtype: float64

In [21]:
# 전체 데이터를 10 등분하는 경계값인 십분위수를 반환합니다.
df['Price'].quantile(q = np.linspace(start = 0, stop = 1, num = 10+1))

0.0     4350.0
0.1     7250.0
0.2     7950.0
0.3     8500.0
0.4     8950.0
0.5     9450.0
0.6     9950.0
0.7    10500.0
0.8    11456.0
0.9    12500.0
1.0    15950.0
Name: Price, dtype: float64

In [22]:
# 전체 데이터를 4 등분하는 경계값인 사분위수를 반환합니다.
df['Price'].quantile(q = np.linspace(start = 0, stop = 1, num = 4+1))

0.00     4350.0
0.25     8250.0
0.50     9450.0
0.75    10950.0
1.00    15950.0
Name: Price, dtype: float64

### 범위와 사분범위

In [23]:
# 연속형 변수의 범위(최댓값과 최솟값의 간격)를 반환합니다.
df['Price'].max() - df['Price'].min()

11600

In [24]:
# diff() 함수는 원소간 차이를 반환합니다.(최댓값 - 최솟값)
df['Price'].quantile(q = [0, 1]).diff().iloc[-1]

11600.0

In [25]:
# 연속형 변수의 사분범위(3사분위수와 1사분위수의 간격)를 반환합니다.
df['Price'].quantile(q = [0.25, 0.75]).diff().iloc[-1]

2700.0

### 분산

In [26]:
# 연속형 변수의 분산을 반환합니다.
df['Price'].var()

4120265.326386555

### 표준편차

In [27]:
# 연속형 변수의 표준편차를 반환합니다.
df['Price'].std()

2029.8436704304484

### 중위수절대편차

In [28]:
# 연속형 변수의 중위수절대편차를 반환합니다.
robust.mad(a = df['Price'])

2223.903327758403

### 여러 열의 기술통계량 확인

In [29]:
# 연속형 변수의 기술통계량을 반환합니다.
df.describe()

Unnamed: 0,Price,Age,KM,HP,CC,Doors,Weight
count,1275.0,1275.0,1275.0,1275.0,1275.0,1275.0,1275.0
mean,9690.232941,60.603137,73692.409412,100.396863,1559.512941,3.997647,1062.691765
std,2029.84367,13.694445,35949.782756,13.110902,184.689868,0.951324,39.790462
min,4350.0,19.0,1.0,69.0,1300.0,2.0,1000.0
25%,8250.0,51.0,48948.5,86.0,1400.0,3.0,1035.0
50%,9450.0,63.0,67451.0,110.0,1600.0,4.0,1060.0
75%,10950.0,71.5,90325.0,110.0,1600.0,5.0,1075.0
max,15950.0,80.0,243000.0,116.0,2000.0,5.0,1615.0


In [30]:
# 범주형 변수의 기술통계량을 반환합니다.
df.describe(include = object)

Unnamed: 0,FuelType,MetColor,Automatic
count,1275,1275,1275
unique,3,2,2
top,Petrol,1,0
freq,1129,843,1205


### 실습 데이터셋 전처리

In [31]:
# df를 KM로 오름차순 정렬하고 처음 5행을 출력합니다.
df.sort_values(by = ['KM']).head()

Unnamed: 0,Price,Age,KM,FuelType,HP,MetColor,Automatic,CC,Doors,Weight
433,7500,50,1,Diesel,90,1,0,2000,3,1260
1267,6950,76,1,Petrol,110,0,0,1600,5,1114
432,11250,47,5309,Petrol,110,1,1,1600,3,1070
18,14900,30,7000,Petrol,97,1,0,1400,5,1100
7,12950,29,9750,Petrol,97,1,0,1400,3,1100


In [32]:
# df에서 KM가 1보다 큰 행을 선택하고 행이름을 초기화합니다.
df = df[df['KM'].gt(1)].reset_index(drop = True)

In [33]:
# df의 행 개수를 확인합니다.
df.shape[0]

1273

### 작업 경로 확인 및 변경

In [34]:
# 현재 작업 경로를 확인합니다.
os.getcwd()

'/Users/hdsceokevin/Documents/Lectures/PythonAdvanced/code'

In [35]:
# data 폴더로 작업 경로를 변경합니다.
os.chdir('../data')

In [36]:
# 현재 작업 경로에 있는 폴더명과 파일명을 출력합니다.
os.listdir()

['Used_Cars_Price.z',
 'Used_Cars_Price.xlsx',
 'Seafood_Trade_Prep.z',
 'Used_Cars_Price_Prep.z',
 'Used_Cars_Price.csv']

### 외부 파일로 저장

In [37]:
# df를 xlsx 파일로 저장합니다.
df.to_excel(excel_writer = 'Used_Cars_Price.xlsx', index = None)

In [38]:
# df를 csv 파일로 저장합니다.
df.to_csv(path_or_buf = 'Used_Cars_Price.csv', index = None)

In [39]:
# df를 z 파일로 저장합니다.
joblib.dump(value = df, filename = 'Used_Cars_Price.z')

['Used_Cars_Price.z']

## End of Document