- 📚 데이터 사이언티스트의 실전노트, 이지영, [비제이퍼블릭](https://bjpublic.tistory.com/) 
- 🌟 [YouTube: 통계학 & 데이터과학](https://https://www.youtube.com/channel/UC2BreMMPUd0djRpA4UEaD3Q)
- 💻 [클래스101: 데이터 과학자 실무 프로젝트 (분석+예측모델 + AWS 자동화)](https://class101.page.link/MhG4)

# 2.2 데이터에서 확인해야 할 사항
## 2.2.2 데이터 값에 따른 종류 
데이터를 구분 예시 (Page 66)

In [1]:
# 필요한 라이브러리 불러오기
import numpy as np
import pandas as pd
import random

# 임의 숫자 시드 설정
random.seed(20) # 임의로 20 지정 
np.random.seed(21) # 임의로 21 지정

# 고객ID 배열 
# 100000과200000사이 랜덤한 정수 10개를 뽑아 배열로 반환한 것을 user_id라 지정
# 이때, 100000 포함하며 200000 포함하지 않음
user_id = np.random.randint(100000, 200000, 10)

# 구매 가격 리스트 
# 100에서 1000 사이 값에서 무작위로 10개를 뽑아 리스트로 반환 (1000 불포함)
price_list = random.sample(range(100, 1000), 10)
# 각 요소에 1000을 곱한 뒤 $를 붙여 문자열 리스트로 변환
price_list = ['$' + str(x*1000) for x in price_list]

# 할인 금액 리스트  
# 100에서 500 사이 값에서 무작위로 10개를 뽑아 리스트로 반환 (500 불포함)
reduce_price_list = random.sample(range(100, 500), 10)

# 각 요소에 10을 곱한 뒤 $를 붙여 문자열 리스트로 변환
reduce_price_list = ['$' + str(x*10) for x in reduce_price_list]

# VIP 여부 배열
# Y는 0.3의 뽑힐 확률로, N은 0.7의 뽑힐 확률로 10개의 Y와 N으로 구성된 배열 반환
vip_array = np.random.choice(["Y", "N"], size=10, p=[0.3, 0.7])

# 임의 데이터 만들기 
df = pd.DataFrame({
                    '고객ID': user_id, 
                    '구매날짜': pd.Timestamp('20210331'),
                    '구매가격': price_list,
                    '할인금액': reduce_price_list,
                    'VIP': vip_array
                  })
df


Unnamed: 0,고객ID,구매날짜,구매가격,할인금액,VIP
0,180841,2021-03-31,$840000,$2670,Y
1,170863,2021-03-31,$802000,$3930,N
2,171480,2021-03-31,$905000,$1860,N
3,108964,2021-03-31,$884000,$1130,N
4,181968,2021-03-31,$254000,$3100,Y
5,163856,2021-03-31,$366000,$3080,N
6,142104,2021-03-31,$790000,$1380,Y
7,188764,2021-03-31,$750000,$1520,N
8,145666,2021-03-31,$969000,$1640,N
9,196767,2021-03-31,$203000,$2630,N


In [2]:
# 구매가격과 할인금액 합산하기
df['구매가격'] + df['할인금액']


0    $840000$2670
1    $802000$3930
2    $905000$1860
3    $884000$1130
4    $254000$3100
5    $366000$3080
6    $790000$1380
7    $750000$1520
8    $969000$1640
9    $203000$2630
dtype: object

In [3]:
# 구매 가격 리스트 
price_list = random.sample(range(100, 1000), 10)
print('price_list:', price_list)

# 구매 가격 리스트에 $ 추가 
price_list = ['$' + str(x*1000) for x in price_list]
print('\nprice_list에 $ 추가:', price_list) # \n 한 줄 건너뛰기


price_list: [585, 694, 560, 521, 313, 304, 424, 740, 797, 443]

price_list에 $ 추가: ['$585000', '$694000', '$560000', '$521000', '$313000', '$304000', '$424000', '$740000', '$797000', '$443000']


In [4]:
# df 기본 정보 확인  
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   고객ID    10 non-null     int64         
 1   구매날짜    10 non-null     datetime64[ns]
 2   구매가격    10 non-null     object        
 3   할인금액    10 non-null     object        
 4   VIP     10 non-null     object        
dtypes: datetime64[ns](1), int64(1), object(3)
memory usage: 528.0+ bytes


In [5]:
# 구매가격 및 할인금액 데이터 타입 변환
# 구매가격/할인금액 열에서 행의 각 값마다 $를 ‘’로 변환해 지운 후 정수로 변환
df["구매가격"] = df["구매가격"].apply(lambda x: x.replace('$', '')).astype('int')
df['할인금액'] = df['할인금액'].apply(lambda x: x.replace('$', '')).astype('int')
df.head()


Unnamed: 0,고객ID,구매날짜,구매가격,할인금액,VIP
0,180841,2021-03-31,840000,2670,Y
1,170863,2021-03-31,802000,3930,N
2,171480,2021-03-31,905000,1860,N
3,108964,2021-03-31,884000,1130,N
4,181968,2021-03-31,254000,3100,Y


In [6]:
df["원래가격"] = df['구매가격'] + df['할인금액']
df


Unnamed: 0,고객ID,구매날짜,구매가격,할인금액,VIP,원래가격
0,180841,2021-03-31,840000,2670,Y,842670
1,170863,2021-03-31,802000,3930,N,805930
2,171480,2021-03-31,905000,1860,N,906860
3,108964,2021-03-31,884000,1130,N,885130
4,181968,2021-03-31,254000,3100,Y,257100
5,163856,2021-03-31,366000,3080,N,369080
6,142104,2021-03-31,790000,1380,Y,791380
7,188764,2021-03-31,750000,1520,N,751520
8,145666,2021-03-31,969000,1640,N,970640
9,196767,2021-03-31,203000,2630,N,205630


In [7]:
# VIP 데이터 타입 변환 
# VIP열에서 값이 Y일 때 True로, 그렇지 않은 경우 False로 변환
df["VIP"] = np.where(df["VIP"] == "Y", True, False)
df.head()


Unnamed: 0,고객ID,구매날짜,구매가격,할인금액,VIP,원래가격
0,180841,2021-03-31,840000,2670,True,842670
1,170863,2021-03-31,802000,3930,False,805930
2,171480,2021-03-31,905000,1860,False,906860
3,108964,2021-03-31,884000,1130,False,885130
4,181968,2021-03-31,254000,3100,True,257100


In [8]:
df.dtypes

고객ID             int64
구매날짜    datetime64[ns]
구매가격             int64
할인금액             int64
VIP               bool
원래가격             int64
dtype: object

In [9]:
df["원래가격"] = df['구매가격'] + df['할인금액']
df


Unnamed: 0,고객ID,구매날짜,구매가격,할인금액,VIP,원래가격
0,180841,2021-03-31,840000,2670,True,842670
1,170863,2021-03-31,802000,3930,False,805930
2,171480,2021-03-31,905000,1860,False,906860
3,108964,2021-03-31,884000,1130,False,885130
4,181968,2021-03-31,254000,3100,True,257100
5,163856,2021-03-31,366000,3080,False,369080
6,142104,2021-03-31,790000,1380,True,791380
7,188764,2021-03-31,750000,1520,False,751520
8,145666,2021-03-31,969000,1640,False,970640
9,196767,2021-03-31,203000,2630,False,205630


⚠ 저작권: Copyright 2022. (이지영) all rights reserved. 
본 자료는 저작권법에 의하여 보호받는 저작물로서 이에 대한 무단 복제 및 배포를 원칙적으로 금합니다. 협의 없이 배포하거나 무단으로 사용할 경우 저작권법 제136조, 137조, 138조 위반으로 사전 경고 없이 손해배상 청구 등 민,형사상의 책임과 처벌을 받을 수 있습니다.