## 데이터 전처리

### 실습 데이터셋 안내

- 2022년 1~12월 간 lg.com의 마케팅 실적 데이터입니다.<br><br>
- 변수(열)에 대한 간단한 설명입니다.

| 열이름 | 설명 | 특징 |
| :----- | :--- | :--- |
| country | 국가 코드 | au: 호주, br: 브라질, de: 독일, fr: 프랑스, it: 이탈리아, <br> uk: 영국 |
| date | 웹 행동 발생 일자 | 2022.01.01~2022.12.31 |
| product_category | 제품 대분류 | HE, HA, BS(LG전자 사업부별 분류) |
| product_subcategory | 제품 소분류 | 13개 카테고리(제품별 분류) |
| product_detail_page | 제품 상세 페이지 유입 수 | 수치형 |
| add_to_cart | 장바구니 추가 클릭 수 | 수치형 |
| sales_amt | 판매대수 | 수치형(대) |
| sales_usd | 판매금액 | 수치형(USD) |

- 실습 데이터인 csv 파일은 data 폴더에 있습니다.
  - 구분자는 콤마(,)이고 인코딩 방식은 **ASCII**입니다.

### 관련 라이브러리 호출

In [1]:
# 관련 라이브러리를 호출합니다.
import os
import chardet
import numpy as np
import pandas as pd
import joblib

In [2]:
# Jupyter Notebook에서 실수를 소수점 셋째 자리까지 출력하도록 설정합니다.
%precision 3

'%.3f'

In [3]:
# pandas 객체에서 실수를 소수점 셋째 자리까지 출력하도록 설정합니다.
pd.options.display.precision = 3

### 작업 경로 확인 및 변경

In [4]:
# 현재 작업 경로를 확인합니다.
os.getcwd()

'C:\\Users\\hdsce\\Documents\\PythonDataAnalysis1\\project'

In [5]:
# data 폴더로 작업 경로를 변경합니다.
os.chdir('../data')

In [6]:
# 작업 경로에 있는 폴더명과 파일명을 출력합니다.
os.listdir()

['APT_Detail_Seoul_2022.csv',
 'APT_Detail_Seoul_2022.xlsx',
 'APT_Merged_Seoul_2022.txt',
 'APT_Merged_Seoul_2022.xlsx',
 'APT_Merged_Seoul_2022.z',
 'APT_Price_Seoul_2020_2022.csv',
 'APT_Price_Seoul_2020_2022.xlsx',
 'APT_Price_Seoul_2020_2022.z',
 'Frequency.xlsx',
 'NA_Sample.xlsx',
 'online_mall.csv']

### 인코딩 방식 확인

In [7]:
# csv 파일명을 변수에 할당합니다. 여러 번 재사용하기 위함입니다.
fileName = 'online_mall.csv'

In [8]:
# csv 파일을 bytes 문자열로 읽고 text에 할당합니다.
# [힌트] open(), read() 함수를 사용하세요.
text = open(file = fileName, mode = 'rb').read()

In [9]:
text[:100]

b',country,date,product_category,product_subcategory,product_detail_page,add_to_cart,sales_amt,sales_u'

In [10]:
# 바이너리 텍스트의 인코딩 방식을 확인합니다.
# [힌트] chardet.detect() 함수를 사용하세요.
chardet.detect(text)

{'encoding': 'ascii', 'confidence': 1.000, 'language': ''}

### 실습 데이터셋 준비

In [11]:
# csv 파일을 읽고 데이터프레임 rawdat를 생성합니다.
# [힌트] pd.read_csv() 함수를 사용하세요.
# [참고] EUC-KR은 CP949의 부분집합입니다.
rawdat = pd.read_csv(fileName)

In [12]:
# rawdat의 정보를 확인합니다.
# [힌트] info() 함수를 사용하세요.
rawdat.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13908 entries, 0 to 13907
Data columns (total 9 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Unnamed: 0           13908 non-null  int64  
 1   country              13908 non-null  object 
 2   date                 13908 non-null  int64  
 3   product_category     13908 non-null  object 
 4   product_subcategory  13908 non-null  object 
 5   product_detail_page  13908 non-null  int64  
 6   add_to_cart          13908 non-null  int64  
 7   sales_amt            13908 non-null  int64  
 8   sales_usd            13908 non-null  float64
dtypes: float64(1), int64(5), object(3)
memory usage: 978.0+ KB


In [13]:
# rawdat의 처음 5행을 출력합니다.
# [힌트] head() 함수를 사용하세요.
rawdat.head()

Unnamed: 0.1,Unnamed: 0,country,date,product_category,product_subcategory,product_detail_page,add_to_cart,sales_amt,sales_usd
0,0,au,20220101,HE,TV,4485,17,10,398.96
1,1,au,20220102,HA,Refrigerator,3419,20,2,1212.33
2,2,au,20220102,HE,TV,4676,14,3,113.99
3,3,au,20220103,HA,Cooking_Appliance,546,3,2,279.17
4,4,au,20220103,HA,Refrigerator,3691,7,5,106.26


In [14]:
# rawdat의 마지막 5행을 출력합니다.
# [힌트] tail() 함수를 사용하세요.
rawdat.tail()

Unnamed: 0.1,Unnamed: 0,country,date,product_category,product_subcategory,product_detail_page,add_to_cart,sales_amt,sales_usd
13903,13903,uk,20221231,HA,Refrigerator,756,13,6,12919.57
13904,13904,uk,20221231,HA,Washer,579,21,7,6977.92
13905,13905,uk,20221231,HA,Washer_Dryer,278,10,4,3722.52
13906,13906,uk,20221231,HE,Audio_CAV,1939,32,11,496.18
13907,13907,uk,20221231,HE,TV,8393,157,7,10802.75


### 실습 데이터셋 전처리

In [15]:
rawdat.columns

Index(['Unnamed: 0', 'country', 'date', 'product_category',
       'product_subcategory', 'product_detail_page', 'add_to_cart',
       'sales_amt', 'sales_usd'],
      dtype='object')

In [16]:
# 불필요한 열을 삭제합니다.
# [힌트] drop() 함수를 실행한 결과를 데이터프레임에 재할당해야 합니다.
rawdat = rawdat.drop(columns = ['Unnamed: 0'])

In [17]:
# rawdat의 처음 5행을 출력합니다.
rawdat.head()

Unnamed: 0,country,date,product_category,product_subcategory,product_detail_page,add_to_cart,sales_amt,sales_usd
0,au,20220101,HE,TV,4485,17,10,398.96
1,au,20220102,HA,Refrigerator,3419,20,2,1212.33
2,au,20220102,HE,TV,4676,14,3,113.99
3,au,20220103,HA,Cooking_Appliance,546,3,2,279.17
4,au,20220103,HA,Refrigerator,3691,7,5,106.26


In [18]:
# rawdat의 열이름을 출력합니다.
rawdat.columns

Index(['country', 'date', 'product_category', 'product_subcategory',
       'product_detail_page', 'add_to_cart', 'sales_amt', 'sales_usd'],
      dtype='object')

In [19]:
# rawdat의 열이름에서 'product_'를 삭제한 결과를 출력합니다.
rawdat.columns.str.replace(pat = 'product_', repl = '')

Index(['country', 'date', 'category', 'subcategory', 'detail_page',
       'add_to_cart', 'sales_amt', 'sales_usd'],
      dtype='object')

In [20]:
# 위 코드 실행 결과를 rawdat 열이름에 할당하여 변경합니다.
rawdat.columns = rawdat.columns.str.replace(pat = 'product_', repl = '')

In [21]:
# rawdat의 처음 5행을 출력합니다.
rawdat.head()

Unnamed: 0,country,date,category,subcategory,detail_page,add_to_cart,sales_amt,sales_usd
0,au,20220101,HE,TV,4485,17,10,398.96
1,au,20220102,HA,Refrigerator,3419,20,2,1212.33
2,au,20220102,HE,TV,4676,14,3,113.99
3,au,20220103,HA,Cooking_Appliance,546,3,2,279.17
4,au,20220103,HA,Refrigerator,3691,7,5,106.26


In [22]:
# rawdat의 열별 자료형을 확인합니다.
rawdat.dtypes

country         object
date             int64
category        object
subcategory     object
detail_page      int64
add_to_cart      int64
sales_amt        int64
sales_usd      float64
dtype: object

In [23]:
rawdat['date'].astype(str).astype(np.datetime64)

0       2022-01-01
1       2022-01-02
2       2022-01-02
3       2022-01-03
4       2022-01-03
           ...    
13903   2022-12-31
13904   2022-12-31
13905   2022-12-31
13906   2022-12-31
13907   2022-12-31
Name: date, Length: 13908, dtype: datetime64[ns]

In [24]:
# date를 날짜시간형(np.datetime64)으로 변환합니다.
# [주의] 날짜시간형으로 변환하려면 정수를 문자열로 먼저 변환해야 합니다.
rawdat['date'] = rawdat['date'].astype(str).astype(np.datetime64)

In [25]:
# date에서 월(month)을 정수로 추출하여 새로운 열로 추가합니다.
rawdat['month'] = rawdat['date'].dt.month

In [26]:
# date에서 월을 정수 대신 숫자(문자열)로 추출할 수 있습니다.
# [힌트] dt.strftime() 함수를 사용하세요.
rawdat['date'].dt.strftime('%m')

0        01
1        01
2        01
3        01
4        01
         ..
13903    12
13904    12
13905    12
13906    12
13907    12
Name: date, Length: 13908, dtype: object

In [27]:
# date에서 월을 정수 대신 영문자(문자열)로 추출할 수 있습니다.
# [힌트] dt.strftime() 함수를 사용하세요.
rawdat['date'].dt.strftime('%b')

0        Jan
1        Jan
2        Jan
3        Jan
4        Jan
        ... 
13903    Dec
13904    Dec
13905    Dec
13906    Dec
13907    Dec
Name: date, Length: 13908, dtype: object

In [28]:
rawdat['date'].dt.strftime('%B')

0         January
1         January
2         January
3         January
4         January
           ...   
13903    December
13904    December
13905    December
13906    December
13907    December
Name: date, Length: 13908, dtype: object

### 기술통계량 확인

In [29]:
# rawdat의 수치(정수 또는 실수)형 변수의 기술통계량을 확인합니다.
# [힌트] describe() 함수를 사용하세요.
rawdat.describe()

Unnamed: 0,detail_page,add_to_cart,sales_amt,sales_usd,month
count,13908.0,13908.0,13908.0,13908.0,13908.0
mean,2492.035,66.264,6.843,5490.174,6.748
std,4015.041,98.457,10.85,10454.946,3.437
min,2.0,0.0,1.0,0.01,1.0
25%,611.0,14.0,2.0,1056.89,4.0
50%,1479.5,33.0,3.0,2355.245,7.0
75%,3226.0,81.0,7.0,5823.302,10.0
max,171985.0,2558.0,383.0,397796.97,12.0


In [30]:
# rawdat의 범주형 변수의 기술통계량을 확인합니다.
# [힌트] describe() 함수의 include 매개변수에 자료형을 지정하세요.
rawdat.describe(include = object)

Unnamed: 0,country,category,subcategory
count,13908,13908,13908
unique,6,3,14
top,br,HA,TV
freq,2694,6809,2064


In [31]:
# country의 빈도수를 확인합니다.
# [힌트] value_counts() 함수를 사용하세요.
rawdat['country'].value_counts()

br    2694
it    2527
uk    2443
au    2337
de    2017
fr    1890
Name: country, dtype: int64

In [32]:
# country의 상대도수를 확인합니다.
# [힌트] value_counts() 함수에 normalize 매개변수를 추가하세요.
rawdat['country'].value_counts(normalize = True) * 100

br    19.370
it    18.169
uk    17.565
au    16.803
de    14.502
fr    13.589
Name: country, dtype: float64

In [33]:
# category와 subcategory로 리스트 cols를 생성합니다.
cols = ['category', 'subcategory']

In [34]:
# category와 subcategory의 빈도수를 인덱스로 정렬하여 출력합니다.
# [힌트] value_counts(), sort_index() 함수를 사용하세요.
rawdat[cols].value_counts()

category  subcategory      
HE        TV                   2064
BS        IT_Monitor           1892
HA        Washer               1679
          Refrigerator         1667
HE        Audio_CAV            1531
BS        IT_Laptop            1005
HA        Cooking_Appliance     863
          Washer_Dryer          779
          Dryer                 730
          Vacuum_Cleaner        371
          Air_Conditioner       370
BS        Monitor               359
HA        Dishwasher            350
BS        IT_Projector          241
HE        Monitor                 7
dtype: int64

In [35]:
rawdat[cols].value_counts().sort_index()

category  subcategory      
BS        IT_Laptop            1005
          IT_Monitor           1892
          IT_Projector          241
          Monitor               359
HA        Air_Conditioner       370
          Cooking_Appliance     863
          Dishwasher            350
          Dryer                 730
          Refrigerator         1667
          Vacuum_Cleaner        371
          Washer               1679
          Washer_Dryer          779
HE        Audio_CAV            1531
          Monitor                 7
          TV                   2064
dtype: int64

In [36]:
# category와 subcategory의 상대도수를 인덱스로 정렬하여 출력합니다.
rawdat[cols].value_counts(normalize = True).sort_index()

category  subcategory      
BS        IT_Laptop            7.226e-02
          IT_Monitor           1.360e-01
          IT_Projector         1.733e-02
          Monitor              2.581e-02
HA        Air_Conditioner      2.660e-02
          Cooking_Appliance    6.205e-02
          Dishwasher           2.517e-02
          Dryer                5.249e-02
          Refrigerator         1.199e-01
          Vacuum_Cleaner       2.668e-02
          Washer               1.207e-01
          Washer_Dryer         5.601e-02
HE        Audio_CAV            1.101e-01
          Monitor              5.033e-04
          TV                   1.484e-01
dtype: float64

In [37]:
# rawdat에서 빈도수 100 미만인 HE & Monitor 행을 삭제합니다.
# [힌트] 비트 연산자 &와 ~를 사용하세요.
rawdat = rawdat[~(rawdat['category'].eq('HE') & rawdat['subcategory'].eq('Monitor'))]

In [38]:
# rawdat의 행 개수를 출력합니다.
# [힌트] shape 속성 결과에 0번 인덱스 원소를 선택하세요.
rawdat.shape[0]

13901

### 국가별 페이지 유입, 장바구니 담기 및 구매 건수 확인

In [39]:
# 아래 조건을 만족하는 피벗 테이블을 funnel_nat에 할당합니다.
# [힌트] pd.pivot_table() 함수를 사용하세요.
# 데이터(data)는 rawdat, 
# 값(values)은 detail_page, add_to_cart와 sales_amt, 
# 행이름(index)은 country, 
# 열이름(columns)은 생략, 
# 집계함수(aggfunc)에 np.sum을 지정하세요.
funnel_nat = pd.pivot_table(
    data = rawdat,
    values = ['detail_page', 'add_to_cart', 'sales_amt'],
    index = 'country', 
    columns = None, 
    aggfunc = np.sum
)

In [40]:
# funnel_nat을 출력합니다.
funnel_nat

Unnamed: 0_level_0,add_to_cart,detail_page,sales_amt
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
au,65025,4948335,14196
br,277913,9570438,28686
de,115232,5374084,14553
fr,130028,3862534,9084
it,199293,5727970,12930
uk,134093,5175668,15706


In [42]:
# funnel_nat의 열이름이 자동으로 정렬되었습니다.
# 열의 순서를 변경하기 위해 열이름으로 cols를 생성합니다.
cols = ['detail_page', 'add_to_cart', 'sales_amt']

In [43]:
# funnel_nat에 cols로 열의 순서를 변경한 결과를 출력합니다.
funnel_nat[cols]

Unnamed: 0_level_0,detail_page,add_to_cart,sales_amt
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
au,4948335,65025,14196
br,9570438,277913,28686
de,5374084,115232,14553
fr,3862534,130028,9084
it,5727970,199293,12930
uk,5175668,134093,15706


In [44]:
# funnel_nat에 cols로 열의 순서를 변경한 결과를 funnel_nat에 재할당합니다.
funnel_nat = funnel_nat[cols]

In [45]:
# add_to_cart를 detail_page로 나누고 100을 곱한 cart_rate를 생성합니다.
funnel_nat['cart_rate'] = funnel_nat['add_to_cart'] / funnel_nat['detail_page'] * 100

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  funnel_nat['cart_rate'] = funnel_nat['add_to_cart'] / funnel_nat['detail_page'] * 100


In [47]:
# sales_amt를 add_to_cart로 나누고 100을 곱한 buy_rate1을 생성합니다.
funnel_nat['buy_rate1'] = funnel_nat['sales_amt'] / funnel_nat['add_to_cart'] * 100

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  funnel_nat['buy_rate1'] = funnel_nat['sales_amt'] / funnel_nat['add_to_cart'] * 100


In [48]:
# sales_amt를 detail_page로 나누고 100을 곱한 buy_rate2를 생성합니다.
funnel_nat['buy_rate2'] = funnel_nat['sales_amt'] / funnel_nat['detail_page'] * 100

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  funnel_nat['buy_rate2'] = funnel_nat['sales_amt'] / funnel_nat['detail_page'] * 100


In [49]:
# funnel_nat을 출력합니다.
funnel_nat

Unnamed: 0_level_0,detail_page,add_to_cart,sales_amt,cart_rate,buy_rate1,buy_rate2
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
au,4948335,65025,14196,1.314,21.832,0.287
br,9570438,277913,28686,2.904,10.322,0.3
de,5374084,115232,14553,2.144,12.629,0.271
fr,3862534,130028,9084,3.366,6.986,0.235
it,5727970,199293,12930,3.479,6.488,0.226
uk,5175668,134093,15706,2.591,11.713,0.303


In [51]:
# funnel_nat을 cart_rate로 내림차순 정렬한 결과를 출력합니다.
funnel_nat.sort_values(by = ['cart_rate'], ascending = False)

Unnamed: 0_level_0,detail_page,add_to_cart,sales_amt,cart_rate,buy_rate1,buy_rate2
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
it,5727970,199293,12930,3.479,6.488,0.226
fr,3862534,130028,9084,3.366,6.986,0.235
br,9570438,277913,28686,2.904,10.322,0.3
uk,5175668,134093,15706,2.591,11.713,0.303
de,5374084,115232,14553,2.144,12.629,0.271
au,4948335,65025,14196,1.314,21.832,0.287


In [52]:
# funnel_nat을 buy_rate1으로 내림차순 정렬한 결과를 출력합니다.
funnel_nat.sort_values(by = ['buy_rate1'], ascending = False)

Unnamed: 0_level_0,detail_page,add_to_cart,sales_amt,cart_rate,buy_rate1,buy_rate2
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
au,4948335,65025,14196,1.314,21.832,0.287
de,5374084,115232,14553,2.144,12.629,0.271
uk,5175668,134093,15706,2.591,11.713,0.303
br,9570438,277913,28686,2.904,10.322,0.3
fr,3862534,130028,9084,3.366,6.986,0.235
it,5727970,199293,12930,3.479,6.488,0.226


In [53]:
# funnel_nat을 buy_rate2로 내림차순 정렬한 결과를 출력합니다.
funnel_nat.sort_values(by = ['buy_rate2'], ascending = False)

Unnamed: 0_level_0,detail_page,add_to_cart,sales_amt,cart_rate,buy_rate1,buy_rate2
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
uk,5175668,134093,15706,2.591,11.713,0.303
br,9570438,277913,28686,2.904,10.322,0.3
au,4948335,65025,14196,1.314,21.832,0.287
de,5374084,115232,14553,2.144,12.629,0.271
fr,3862534,130028,9084,3.366,6.986,0.235
it,5727970,199293,12930,3.479,6.488,0.226


### 제품별 페이지 유입, 장바구니 담기 및 구매 건수 확인

In [54]:
# 아래 조건을 만족하는 피벗 테이블을 funnel_prd에 할당합니다.
# [힌트] pd.pivot_table() 함수를 사용하세요.
# 데이터(data)는 rawdat, 
# 값(values)은 detail_page, add_to_cart와 sales_amt, 
# 행이름(index)은 category, subcategory, 
# 열이름(columns)은 생략, 
# 집계함수(aggfunc)에 np.sum, 
# 정렬(sort)에 False를 지정하세요.
funnel_prd = pd.pivot_table(
    data = rawdat,
    values = ['detail_page', 'add_to_cart', 'sales_amt'],
    index = ['category', 'subcategory'],
    columns = None,
    aggfunc = np.sum, 
    sort = False
)

In [55]:
# funnel_prd을 출력합니다.
funnel_prd

Unnamed: 0_level_0,Unnamed: 1_level_0,detail_page,add_to_cart,sales_amt
category,subcategory,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
HE,TV,14050004,404417,33582
HA,Refrigerator,5455927,115179,7961
HA,Cooking_Appliance,593693,16584,3319
HE,Audio_CAV,3502572,83959,8347
HA,Dishwasher,124291,3385,836
HA,Washer,3308513,98899,11023
HA,Washer_Dryer,563739,16284,1949
HA,Dryer,340903,18038,2814
HA,Vacuum_Cleaner,272622,7293,1239
BS,Monitor,379783,6228,1762


In [56]:
# add_to_cart를 detail_page로 나누고 100을 곱한 cart_rate를 생성합니다.
funnel_prd['cart_rate'] = funnel_prd['add_to_cart'] / funnel_prd['detail_page'] * 100

In [57]:
# sales_amt를 add_to_cart로 나누고 100을 곱한 buy_rate1을 생성합니다.
funnel_prd['buy_rate1'] = funnel_prd['sales_amt'] / funnel_prd['add_to_cart'] * 100

In [58]:
# sales_amt를 detail_page로 나누고 100을 곱한 buy_rate2를 생성합니다.
funnel_prd['buy_rate2'] = funnel_prd['sales_amt'] / funnel_prd['detail_page'] * 100

In [59]:
# funnel_prd을 출력합니다.
funnel_prd

Unnamed: 0_level_0,Unnamed: 1_level_0,detail_page,add_to_cart,sales_amt,cart_rate,buy_rate1,buy_rate2
category,subcategory,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
HE,TV,14050004,404417,33582,2.878,8.304,0.239
HA,Refrigerator,5455927,115179,7961,2.111,6.912,0.146
HA,Cooking_Appliance,593693,16584,3319,2.793,20.013,0.559
HE,Audio_CAV,3502572,83959,8347,2.397,9.942,0.238
HA,Dishwasher,124291,3385,836,2.723,24.697,0.673
HA,Washer,3308513,98899,11023,2.989,11.146,0.333
HA,Washer_Dryer,563739,16284,1949,2.889,11.969,0.346
HA,Dryer,340903,18038,2814,5.291,15.6,0.825
HA,Vacuum_Cleaner,272622,7293,1239,2.675,16.989,0.454
BS,Monitor,379783,6228,1762,1.64,28.292,0.464


In [60]:
# funnel_prd을 cart_rate로 내림차순 정렬한 결과를 출력합니다.
funnel_prd.sort_values(by = ['cart_rate'], ascending = False)

Unnamed: 0_level_0,Unnamed: 1_level_0,detail_page,add_to_cart,sales_amt,cart_rate,buy_rate1,buy_rate2
category,subcategory,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
HA,Dryer,340903,18038,2814,5.291,15.6,0.825
BS,IT_Laptop,471336,22462,3572,4.766,15.902,0.758
BS,IT_Projector,52158,2423,552,4.646,22.782,1.058
HA,Washer,3308513,98899,11023,2.989,11.146,0.333
HA,Washer_Dryer,563739,16284,1949,2.889,11.969,0.346
HE,TV,14050004,404417,33582,2.878,8.304,0.239
HA,Cooking_Appliance,593693,16584,3319,2.793,20.013,0.559
HA,Dishwasher,124291,3385,836,2.723,24.697,0.673
HA,Vacuum_Cleaner,272622,7293,1239,2.675,16.989,0.454
BS,IT_Monitor,3489645,90001,16489,2.579,18.321,0.473


In [61]:
# funnel_prd을 buy_rate1으로 내림차순 정렬한 결과를 출력합니다.
funnel_prd.sort_values(by = ['buy_rate1'], ascending = False)

Unnamed: 0_level_0,Unnamed: 1_level_0,detail_page,add_to_cart,sales_amt,cart_rate,buy_rate1,buy_rate2
category,subcategory,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
BS,Monitor,379783,6228,1762,1.64,28.292,0.464
HA,Dishwasher,124291,3385,836,2.723,24.697,0.673
BS,IT_Projector,52158,2423,552,4.646,22.782,1.058
HA,Cooking_Appliance,593693,16584,3319,2.793,20.013,0.559
BS,IT_Monitor,3489645,90001,16489,2.579,18.321,0.473
HA,Vacuum_Cleaner,272622,7293,1239,2.675,16.989,0.454
BS,IT_Laptop,471336,22462,3572,4.766,15.902,0.758
HA,Dryer,340903,18038,2814,5.291,15.6,0.825
HA,Washer_Dryer,563739,16284,1949,2.889,11.969,0.346
HA,Washer,3308513,98899,11023,2.989,11.146,0.333


In [62]:
# funnel_prd을 buy_rate2로 내림차순 정렬한 결과를 출력합니다.
funnel_prd.sort_values(by = ['buy_rate2'], ascending = False)

Unnamed: 0_level_0,Unnamed: 1_level_0,detail_page,add_to_cart,sales_amt,cart_rate,buy_rate1,buy_rate2
category,subcategory,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
BS,IT_Projector,52158,2423,552,4.646,22.782,1.058
HA,Dryer,340903,18038,2814,5.291,15.6,0.825
BS,IT_Laptop,471336,22462,3572,4.766,15.902,0.758
HA,Dishwasher,124291,3385,836,2.723,24.697,0.673
HA,Cooking_Appliance,593693,16584,3319,2.793,20.013,0.559
BS,IT_Monitor,3489645,90001,16489,2.579,18.321,0.473
BS,Monitor,379783,6228,1762,1.64,28.292,0.464
HA,Vacuum_Cleaner,272622,7293,1239,2.675,16.989,0.454
HA,Washer_Dryer,563739,16284,1949,2.889,11.969,0.346
HA,Washer,3308513,98899,11023,2.989,11.146,0.333


### 국가별 판매대수와 판매금액 합계 계산

In [63]:
# 아래 조건을 만족하는 피벗 테이블을 price_nat에 할당합니다.
# [힌트] pd.pivot_table() 함수를 사용하세요.
# 데이터(data)는 rawdat, 
# 값(values)은 sales_amt와 sales_usd, 
# 행이름(index)은 country, 
# 열이름(columns)은 생략, 
# 집계함수(aggfunc)에 np.sum을 지정하세요.
price_nat = pd.pivot_table(
    data = rawdat, 
    values = ['sales_amt', 'sales_usd'], 
    index = 'country', 
    columns = None, 
    aggfunc = np.sum
)

In [64]:
# price_nat을 출력합니다.
price_nat

Unnamed: 0_level_0,sales_amt,sales_usd
country,Unnamed: 1_level_1,Unnamed: 2_level_1
au,14196,7555000.0
br,28686,22100000.0
de,14553,12320000.0
fr,9084,8166000.0
it,12930,10990000.0
uk,15706,15220000.0


In [65]:
# sales_usd를 sales_amt로 나눈 avg_price를 생성합니다.
price_nat['avg_price'] = price_nat['sales_usd'] / price_nat['sales_amt']

In [66]:
# price_nat을 sales_amt로 내림차순 정렬한 결과를 출력합니다.
price_nat.sort_values(by = ['sales_amt'], ascending = False)

Unnamed: 0_level_0,sales_amt,sales_usd,avg_price
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
br,28686,22100000.0,770.46
uk,15706,15220000.0,969.006
de,14553,12320000.0,846.429
au,14196,7555000.0,532.198
it,12930,10990000.0,850.177
fr,9084,8166000.0,898.983


In [67]:
# price_nat을 sales_usd로 내림차순 정렬한 결과를 출력합니다.
price_nat.sort_values(by = ['sales_usd'], ascending = False)

Unnamed: 0_level_0,sales_amt,sales_usd,avg_price
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
br,28686,22100000.0,770.46
uk,15706,15220000.0,969.006
de,14553,12320000.0,846.429
it,12930,10990000.0,850.177
fr,9084,8166000.0,898.983
au,14196,7555000.0,532.198


In [68]:
# price_nat을 avg_price로 내림차순 정렬한 결과를 출력합니다.
price_nat.sort_values(by = ['avg_price'], ascending = False)

Unnamed: 0_level_0,sales_amt,sales_usd,avg_price
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
uk,15706,15220000.0,969.006
fr,9084,8166000.0,898.983
it,12930,10990000.0,850.177
de,14553,12320000.0,846.429
br,28686,22100000.0,770.46
au,14196,7555000.0,532.198


### 제품별 판매대수와 판매금액 합계 계산

In [69]:
# 아래 조건을 만족하는 피벗 테이블을 price_prd에 할당합니다.
# [힌트] pd.pivot_table() 함수를 사용하세요.
# 데이터(data)는 rawdat에서 country가 'au'인 행을 선택, 
# 값(values)은 sales_amt와 sales_usd, 
# 행이름(index)은 category와 subcategory, 
# 열이름(columns)은 생략, 
# 집계함수(aggfunc)에 np.sum을 지정하세요.
price_prd = pd.pivot_table(
    data = rawdat[rawdat['country'].eq('au')],
    values = ['sales_amt', 'sales_usd'], 
    index = ['category', 'subcategory'], 
    columns = None, 
    aggfunc = np.sum
)

In [70]:
# price_prd의 처음 5행을 출력합니다.
price_prd.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,sales_amt,sales_usd
category,subcategory,Unnamed: 2_level_1,Unnamed: 3_level_1
BS,IT_Laptop,107,120568.37
BS,IT_Monitor,707,357615.1
BS,Monitor,262,78368.61
HA,Cooking_Appliance,717,130168.31
HA,Dishwasher,386,237703.44


In [71]:
# price_prd의 행 개수를 출력합니다.
# [힌트] shape 속성 결과에 0번 인덱스 원소를 선택하세요.
price_prd.shape[0]

12

In [72]:
# price_prd의 열별 결측값 개수를 확인합니다.
# [힌트] isna() 함수를 사용하세요.
price_prd.isna().sum()

sales_amt    0
sales_usd    0
dtype: int64

In [73]:
# price_prd에 있는 결측값을 0으로 대체하고 price_prd에 재할당합니다.
# [힌트] fillna() 함수를 사용하세요.
price_prd = price_prd.fillna(value = 0)

In [74]:
# sales_usd를 sales_amt로 나눈 avg_price를 생성합니다.
price_prd['avg_price'] = price_prd['sales_usd'] / price_prd['sales_amt']

In [75]:
# price_prd를 avg_price로 내림차순 정렬하고 price_prd에 재할당합니다.
# [힌트] sort_values() 함수를 사용하세요.
price_prd = price_prd.sort_values(by = ['avg_price'], ascending = False)

In [76]:
# price_prd를 출력합니다.
price_prd

Unnamed: 0_level_0,Unnamed: 1_level_0,sales_amt,sales_usd,avg_price
category,subcategory,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
BS,IT_Laptop,107,120600.0,1126.807
HA,Dryer,567,447500.0,789.268
HA,Refrigerator,2320,1705000.0,735.114
HA,Washer,1248,847000.0,678.646
HA,Dishwasher,386,237700.0,615.812
HA,Washer_Dryer,182,104200.0,572.673
BS,IT_Monitor,707,357600.0,505.821
HE,TV,6240,3071000.0,492.149
HE,Audio_CAV,628,207600.0,330.507
BS,Monitor,262,78370.0,299.117


In [77]:
# price_prd의 행이름을 초기화한 결과를 출력합니다.
# [힌트] reset_index() 함수를 사용하세요.
# [참고] 기존 행이름을 맨 처음 열로 추가합니다.
# [참고] drop = True를 추가하면 기존 행이름을 삭제합니다.
price_prd.reset_index()

Unnamed: 0,category,subcategory,sales_amt,sales_usd,avg_price
0,BS,IT_Laptop,107,120600.0,1126.807
1,HA,Dryer,567,447500.0,789.268
2,HA,Refrigerator,2320,1705000.0,735.114
3,HA,Washer,1248,847000.0,678.646
4,HA,Dishwasher,386,237700.0,615.812
5,HA,Washer_Dryer,182,104200.0,572.673
6,BS,IT_Monitor,707,357600.0,505.821
7,HE,TV,6240,3071000.0,492.149
8,HE,Audio_CAV,628,207600.0,330.507
9,BS,Monitor,262,78370.0,299.117


In [78]:
# price_prd의 행이름을 초기화하고 price_prd에 재할당합니다.
price_prd = price_prd.reset_index()

In [79]:
# price_prd의 처음 7행을 출력합니다.(평균 가격 상위 7개)
price_prd.head(n = 7)

Unnamed: 0,category,subcategory,sales_amt,sales_usd,avg_price
0,BS,IT_Laptop,107,120600.0,1126.807
1,HA,Dryer,567,447500.0,789.268
2,HA,Refrigerator,2320,1705000.0,735.114
3,HA,Washer,1248,847000.0,678.646
4,HA,Dishwasher,386,237700.0,615.812
5,HA,Washer_Dryer,182,104200.0,572.673
6,BS,IT_Monitor,707,357600.0,505.821


In [80]:
# price_prd의 마지막 7행을 출력합니다.(평균 가격 하위 7개)
price_prd.tail(n = 7)

Unnamed: 0,category,subcategory,sales_amt,sales_usd,avg_price
5,HA,Washer_Dryer,182,104200.0,572.673
6,BS,IT_Monitor,707,357600.0,505.821
7,HE,TV,6240,3071000.0,492.149
8,HE,Audio_CAV,628,207600.0,330.507
9,BS,Monitor,262,78370.0,299.117
10,HA,Vacuum_Cleaner,832,247900.0,298.003
11,HA,Cooking_Appliance,717,130200.0,181.546


### 지정한 국가의 제품별 평균 가격을 반환하는 함수 생성

In [81]:
# 국가명을 지정하면 수산물품목별 무역수지를 반환하는 함수를 생성합니다.
def getAvgPrice(nation):
    
    # rawdat에서 contry가 nation인 행을 선택한 다음
    # 피벗 테이블을 생성하고 price_prd에 할당합니다.
    price_prd = pd.pivot_table(
        data = rawdat[rawdat['country'].eq(nation)],
        values = ['sales_amt', 'sales_usd'], 
        index = ['category', 'subcategory'], 
        columns = None, 
        aggfunc = np.sum
    )
    
    # price_prd에 있는 결측값을 0으로 대체하고 price_prd에 재할당합니다.
    price_prd = price_prd.fillna(value = 0)
    
    # sales_usd를 sales_amt로 나눈 avg_price를 생성합니다.
    price_prd['avg_price'] = price_prd['sales_usd'] / price_prd['sales_amt']
    
    # price_prd를 avg_price로 내림차순 정렬하고 price_prd에 재할당합니다.
    # [힌트] sort_values() 함수를 사용하세요.
    price_prd = price_prd.sort_values(by = ['avg_price'], ascending = False)
    
    # price_prd의 행이름을 초기화하고 price_prd에 재할당합니다.
    price_prd = price_prd.reset_index()

    # 결과를 반환합니다.
    return price_prd

In [82]:
# 호주의 제품별 평균 가격을 출력합니다.
getAvgPrice(nation = 'au')

Unnamed: 0,category,subcategory,sales_amt,sales_usd,avg_price
0,BS,IT_Laptop,107,120600.0,1126.807
1,HA,Dryer,567,447500.0,789.268
2,HA,Refrigerator,2320,1705000.0,735.114
3,HA,Washer,1248,847000.0,678.646
4,HA,Dishwasher,386,237700.0,615.812
5,HA,Washer_Dryer,182,104200.0,572.673
6,BS,IT_Monitor,707,357600.0,505.821
7,HE,TV,6240,3071000.0,492.149
8,HE,Audio_CAV,628,207600.0,330.507
9,BS,Monitor,262,78370.0,299.117


In [83]:
# 브라질의 제품별 평균 가격을 출력합니다.
getAvgPrice(nation = 'br')

Unnamed: 0,category,subcategory,sales_amt,sales_usd,avg_price
0,HA,Refrigerator,746,1761000.0,2360.557
1,HA,Washer_Dryer,223,497500.0,2230.826
2,BS,IT_Laptop,631,663400.0,1051.393
3,HA,Washer,5506,4996000.0,907.343
4,HE,TV,13974,11630000.0,832.114
5,BS,IT_Projector,333,197300.0,592.546
6,HA,Air_Conditioner,1575,894700.0,568.054
7,BS,IT_Monitor,1774,588200.0,331.562
8,HE,Audio_CAV,2423,678300.0,279.957
9,HA,Cooking_Appliance,1501,197200.0,131.392


In [84]:
# 독일의 제품별 평균 가격을 출력합니다.
getAvgPrice(nation = 'de')

Unnamed: 0,category,subcategory,sales_amt,sales_usd,avg_price
0,HE,TV,2745,4563000.0,1662.176
1,BS,IT_Projector,99,152600.0,1541.818
2,BS,IT_Laptop,961,1127000.0,1172.297
3,HA,Washer_Dryer,234,252800.0,1080.418
4,HA,Refrigerator,730,730500.0,1000.687
5,HA,Dryer,206,145900.0,708.474
6,BS,Monitor,1212,789800.0,651.655
7,BS,IT_Monitor,6430,3934000.0,611.773
8,HA,Air_Conditioner,44,24670.0,560.771
9,HA,Washer,611,336800.0,551.198


In [85]:
# 프랑스의 제품별 평균 가격을 출력합니다.
getAvgPrice(nation = 'fr')

Unnamed: 0,category,subcategory,sales_amt,sales_usd,avg_price
0,BS,IT_Projector,64,112700.0,1761.166
1,HE,TV,2976,4018000.0,1350.125
2,HA,Refrigerator,541,693700.0,1282.165
3,BS,IT_Laptop,785,981200.0,1249.921
4,HA,Washer_Dryer,201,196000.0,975.074
5,HA,Dryer,100,82570.0,825.729
6,HA,Washer,377,305700.0,810.946
7,HA,Dishwasher,141,100000.0,709.531
8,BS,IT_Monitor,2339,1201000.0,513.633
9,BS,Monitor,38,16640.0,437.815


In [86]:
# 이탈리아의 제품별 평균 가격을 출력합니다.
getAvgPrice(nation = 'it')

Unnamed: 0,category,subcategory,sales_amt,sales_usd,avg_price
0,HE,TV,3167,4564000.0,1441.088
1,HA,Refrigerator,2082,2532000.0,1215.957
2,BS,IT_Laptop,181,172400.0,952.378
3,HA,Air_Conditioner,91,78010.0,857.236
4,HA,Washer_Dryer,440,340700.0,774.314
5,BS,IT_Projector,8,6193.0,774.145
6,HA,Dryer,1433,941300.0,656.889
7,HA,Dishwasher,269,167600.0,623.196
8,HA,Washer,1976,1227000.0,621.037
9,HA,Vacuum_Cleaner,290,136300.0,470.04


In [87]:
# 영국의 제품별 평균 가격을 출력합니다.
getAvgPrice(nation = 'uk')

Unnamed: 0,category,subcategory,sales_amt,sales_usd,avg_price
0,HA,Refrigerator,1542,2851000.0,1848.933
1,BS,IT_Projector,48,77130.0,1606.898
2,HE,TV,4480,6078000.0,1356.766
3,HA,Dryer,508,617200.0,1214.91
4,HA,Dishwasher,40,42630.0,1065.841
5,BS,IT_Laptop,907,963000.0,1061.79
6,HA,Washer_Dryer,669,690200.0,1031.681
7,HA,Washer,1305,1208000.0,925.608
8,BS,Monitor,46,34220.0,743.961
9,BS,IT_Monitor,3569,2043000.0,572.367


### 데이터 병합

In [88]:
# rawdat에서 category와 subcategory의 빈도수를 계산하여 merged에 할당합니다.
merged = rawdat[['category', 'subcategory']].value_counts()

In [89]:
# merged를 출력합니다.
merged

category  subcategory      
HE        TV                   2064
BS        IT_Monitor           1892
HA        Washer               1679
          Refrigerator         1667
HE        Audio_CAV            1531
BS        IT_Laptop            1005
HA        Cooking_Appliance     863
          Washer_Dryer          779
          Dryer                 730
          Vacuum_Cleaner        371
          Air_Conditioner       370
BS        Monitor               359
HA        Dishwasher            350
BS        IT_Projector          241
dtype: int64

In [90]:
# merged의 행이름을 초기화한 결과를 출력합니다.
# [참고] 시리즈의 행이름을 초기화하면 데이터프레임을 반환합니다.
merged.reset_index()

Unnamed: 0,category,subcategory,0
0,HE,TV,2064
1,BS,IT_Monitor,1892
2,HA,Washer,1679
3,HA,Refrigerator,1667
4,HE,Audio_CAV,1531
5,BS,IT_Laptop,1005
6,HA,Cooking_Appliance,863
7,HA,Washer_Dryer,779
8,HA,Dryer,730
9,HA,Vacuum_Cleaner,371


In [91]:
# merged의 행이름을 초기화한 결과를 merged에 재할당합니다.
merged = merged.reset_index()

In [92]:
# merged에서 정수 0인 열이름을 삭제합니다.
merged = merged.drop(columns = [0])

In [93]:
merged

Unnamed: 0,category,subcategory
0,HE,TV
1,BS,IT_Monitor
2,HA,Washer
3,HA,Refrigerator
4,HE,Audio_CAV
5,BS,IT_Laptop
6,HA,Cooking_Appliance
7,HA,Washer_Dryer
8,HA,Dryer
9,HA,Vacuum_Cleaner


In [94]:
# 호주의 국가명을 nation에 할당합니다.
nation = 'au'

In [95]:
# 호주의 제품별 평균 가격 데이터를 price_prd로 생성합니다.
price_prd = getAvgPrice(nation)

In [96]:
# price_prd를 출력합니다.
price_prd

Unnamed: 0,category,subcategory,sales_amt,sales_usd,avg_price
0,BS,IT_Laptop,107,120600.0,1126.807
1,HA,Dryer,567,447500.0,789.268
2,HA,Refrigerator,2320,1705000.0,735.114
3,HA,Washer,1248,847000.0,678.646
4,HA,Dishwasher,386,237700.0,615.812
5,HA,Washer_Dryer,182,104200.0,572.673
6,BS,IT_Monitor,707,357600.0,505.821
7,HE,TV,6240,3071000.0,492.149
8,HE,Audio_CAV,628,207600.0,330.507
9,BS,Monitor,262,78370.0,299.117


In [97]:
# price_prd의 일부 열이름을 아래와 같이 변경합니다.
# sales_amt -> amt_au
# sales_usd -> usd_au
# avg_price -> avg_au
# [힌트] rename() 함수와 f-문자열을 사용하세요.
price_prd = price_prd.rename(columns = {
    'sales_amt': f'amt_{nation}',
    'sales_usd': f'usd_{nation}',
    'avg_price': f'avg_{nation}'
})

In [98]:
price_prd

Unnamed: 0,category,subcategory,amt_au,usd_au,avg_au
0,BS,IT_Laptop,107,120600.0,1126.807
1,HA,Dryer,567,447500.0,789.268
2,HA,Refrigerator,2320,1705000.0,735.114
3,HA,Washer,1248,847000.0,678.646
4,HA,Dishwasher,386,237700.0,615.812
5,HA,Washer_Dryer,182,104200.0,572.673
6,BS,IT_Monitor,707,357600.0,505.821
7,HE,TV,6240,3071000.0,492.149
8,HE,Audio_CAV,628,207600.0,330.507
9,BS,Monitor,262,78370.0,299.117


In [99]:
# merged와 price_prd의 제품별 평균 가격 데이터를 외부병합합니다.
# [참고] 결측값(NaN)은 해당 국가에 관련 데이터가 없다는 것을 의미합니다.
pd.merge(left = merged, 
         right = price_prd, 
         how = 'outer', 
         on = ['category', 'subcategory'])

Unnamed: 0,category,subcategory,amt_au,usd_au,avg_au
0,HE,TV,6240.0,3071000.0,492.149
1,BS,IT_Monitor,707.0,357600.0,505.821
2,HA,Washer,1248.0,847000.0,678.646
3,HA,Refrigerator,2320.0,1705000.0,735.114
4,HE,Audio_CAV,628.0,207600.0,330.507
5,BS,IT_Laptop,107.0,120600.0,1126.807
6,HA,Cooking_Appliance,717.0,130200.0,181.546
7,HA,Washer_Dryer,182.0,104200.0,572.673
8,HA,Dryer,567.0,447500.0,789.268
9,HA,Vacuum_Cleaner,832.0,247900.0,298.003


In [100]:
# 반복문을 실행할 범위(국가명 리스트)를 nations에 할당합니다.
# [힌트] unique() 함수를 사용하세요.
nations = rawdat['country'].unique()

In [101]:
# nations을 출력합니다.
nations

array(['au', 'br', 'de', 'fr', 'it', 'uk'], dtype=object)

In [102]:
# nations의 원소를 출력하는 for 반복문을 실행합니다.
for nation in nations:
    print(nation)

au
br
de
fr
it
uk


In [103]:
# nations의 원소를 바꿔가면서 merged에 병합합니다.
for nation in nations:
    
    # nation의 제품별 평균 가격 데이터를 price_prd로 생성합니다.
    price_prd = getAvgPrice(nation)
    
    # price_prd의 일부 열이름을 변경합니다.
    price_prd = price_prd.rename(columns = {
        'sales_amt': f'amt_{nation}',
        'sales_usd': f'usd_{nation}',
        'avg_price': f'avg_{nation}'
    })
    
    # merged와 price_prd의 제품별 평균 가격 데이터를 외부병합합니다.
    merged = pd.merge(
        left = merged, 
        right = price_prd, 
        how = 'outer', 
        on = ['category', 'subcategory']
    )

In [104]:
# merged를 출력합니다.
merged

Unnamed: 0,category,subcategory,amt_au,usd_au,avg_au,amt_br,usd_br,avg_br,amt_de,usd_de,avg_de,amt_fr,usd_fr,avg_fr,amt_it,usd_it,avg_it,amt_uk,usd_uk,avg_uk
0,HE,TV,6240.0,3071000.0,492.149,13974.0,11630000.0,832.114,2745.0,4563000.0,1662.176,2976.0,4018000.0,1350.125,3167,4564000.0,1441.088,4480.0,6078000.0,1356.766
1,BS,IT_Monitor,707.0,357600.0,505.821,1774.0,588200.0,331.562,6430.0,3934000.0,611.773,2339.0,1201000.0,513.633,1670,530000.0,317.386,3569.0,2043000.0,572.367
2,HA,Washer,1248.0,847000.0,678.646,5506.0,4996000.0,907.343,611.0,336800.0,551.198,377.0,305700.0,810.946,1976,1227000.0,621.037,1305.0,1208000.0,925.608
3,HA,Refrigerator,2320.0,1705000.0,735.114,746.0,1761000.0,2360.557,730.0,730500.0,1000.687,541.0,693700.0,1282.165,2082,2532000.0,1215.957,1542.0,2851000.0,1848.933
4,HE,Audio_CAV,628.0,207600.0,330.507,2423.0,678300.0,279.957,895.0,220200.0,246.082,1233.0,377600.0,306.226,576,171600.0,298.001,2592.0,614800.0,237.172
5,BS,IT_Laptop,107.0,120600.0,1126.807,631.0,663400.0,1051.393,961.0,1127000.0,1172.297,785.0,981200.0,1249.921,181,172400.0,952.378,907.0,963000.0,1061.79
6,HA,Cooking_Appliance,717.0,130200.0,181.546,1501.0,197200.0,131.392,362.0,28760.0,79.449,196.0,41750.0,212.998,543,78150.0,143.917,,,
7,HA,Washer_Dryer,182.0,104200.0,572.673,223.0,497500.0,2230.826,234.0,252800.0,1080.418,201.0,196000.0,975.074,440,340700.0,774.314,669.0,690200.0,1031.681
8,HA,Dryer,567.0,447500.0,789.268,,,,206.0,145900.0,708.474,100.0,82570.0,825.729,1433,941300.0,656.889,508.0,617200.0,1214.91
9,HA,Vacuum_Cleaner,832.0,247900.0,298.003,,,,24.0,12970.0,540.307,93.0,39160.0,421.049,290,136300.0,470.04,,,


In [None]:
# merged에서 category와 subcategory를 인덱스로 설정합니다.
# [힌트] set_index() 함수를 사용하세요.
merged = 

In [None]:
# merged의 열이름을 출력합니다.


### 데이터 결합

In [None]:
# merged의 열이름에서 'amt'를 포함하는 원소만 남겨 col_amt에 할당합니다.
# [힌트] 리스트 컴프리헨션을 사용하세요.
col_amt = 

In [None]:
# col_amt를 출력합니다.
col_amt

In [None]:
# merged에서 열이름이 col_amt인 원소를 선택하여 merged_amt에 할당합니다.
merged_amt = 

In [None]:
# merged_amt를 출력합니다.
merged_amt

In [None]:
# merged의 열이름에서 'usd'를 포함하는 원소만 남겨 col_usd에 할당합니다.
# [힌트] 리스트 컴프리헨션을 사용하세요.
col_usd = 

In [None]:
# col_usd를 출력합니다.
col_usd

In [None]:
# merged에서 열이름이 col_usd인 원소를 선택하여 merged_usd에 할당합니다.
merged_usd = 

In [None]:
# merged_usd를 출력합니다.
merged_usd

In [None]:
# merged의 열이름에서 'avg'를 포함하는 원소만 남겨 col_avg에 할당합니다.
# [힌트] 리스트 컴프리헨션을 사용하세요.
col_avg = 

In [None]:
# col_avg를 출력합니다.
col_avg

In [None]:
# merged에서 열이름이 col_avg인 원소를 선택하여 merged_avg에 할당합니다.
merged_avg = 

In [None]:
# merged_avg를 출력합니다.
merged_avg

In [None]:
# merged_amt, merged_usd, merged_avg를 열 방향으로 결합하고 merged에 할당합니다.
# [힌트] pd.concat() 함수를 사용하세요.
# [주의] axis 매개변수의 기본값은 0(행)이므로 1(열)을 지정해야 합니다.
merged = 

In [None]:
# merged를 출력합니다.
merged

In [None]:
# merged를 인덱스로 오름차순 정렬한 결과를 출력합니다.


In [None]:
# merged를 인덱스로 오름차순 정렬한 결과를 merged에 재할당합니다.
merged = 

### 외부 파일로 저장

In [None]:
# 현재 작업 경로를 확인합니다.


In [None]:
# 여러 객체를 하나의 압축 파일로 저장합니다.
# 파일명은 'Online_Mall.z'으로 지정하세요.
# [힌트] joblib.dump() 함수를 사용하세요.
%time 

In [None]:
# rawdat를 xlsx 파일로 저장합니다.
# [참고] 데이터프레임의 인덱스를 추가하지 않도록 설정합니다.
%time 

In [None]:
# merged를 xlsx 파일로 저장합니다.
# [참고] 데이터프레임의 인덱스를 추가도록 설정합니다.
%time 

In [None]:
# 작업 경로에 있는 폴더명과 파일명을 출력합니다.


## End of Document