In [1]:
import numpy as np
import pandas as pd 
import random 

# 임의의 숫자 시드 설정
random.seed(20) # 임의로 20지정
np.random.seed(21) # 임의로 21지정 

In [2]:
# 고객ID 배열 
# 100,000에서 200,000 사이 랜덤한 정수 10개를 뽑아 배열로 반환한 것을 user_id로 지정
# 이 때, 100,000 포함하며 200,000포함하지 않음
user_id = np.random.randint(100000, 200000, 10)

# 구매 가격 리스트
# 100에서 1000사이 값에서 무작위로 10개를 뽑아 리스트로 반환 (1000 불포함)
price_list = random.sample(range(100, 1000), 10)
# 각 요소에 1000을 곱한 뒤 $를 붙여 문자열 리스트로 변환
price_list = ['$' + str(x * 1000) for x in price_list]

# 할인금액 리스트
# 100에서 500 사이의 값에서 무작위로 10개를 뽑아 리스트로 반환 (500 불포함)
reduce_price_list = random.sample(range(100, 500), 10)
# 각 요소에 10을 곱한 뒤 $를 붙여 문자열 리스트로 반환
reduce_price_list = ['$' + str(x * 10) for x in reduce_price_list]

# VIP 여부 배열
# Y는 0.3의 뽑힐 확률로, N은 0.7의 뽑힐 확률로 10개의 Y와 N으로 구성된 배열 반환
vip_array = np.random.choice(["Y", "N"], size=10, p = [0.3, 0.7])

# 임의 데이터 만들기
df = pd.DataFrame({
    '고객ID' : user_id,
    '구매날짜' : pd.Timestamp('20210331'),
    '구매가격' : price_list,
    '할인금액' : reduce_price_list,
    'VIP' : vip_array
})
df

Unnamed: 0,고객ID,구매날짜,구매가격,할인금액,VIP
0,180841,2021-03-31,$840000,$2670,Y
1,170863,2021-03-31,$802000,$3930,N
2,171480,2021-03-31,$905000,$1860,N
3,108964,2021-03-31,$884000,$1130,N
4,181968,2021-03-31,$254000,$3100,Y
5,163856,2021-03-31,$366000,$3080,N
6,142104,2021-03-31,$790000,$1380,Y
7,188764,2021-03-31,$750000,$1520,N
8,145666,2021-03-31,$969000,$1640,N
9,196767,2021-03-31,$203000,$2630,N


In [6]:
# 구매가격과 할인금액 합산하기
df['구매가격'] + df['할인금액']

0    $840000$2670
1    $802000$3930
2    $905000$1860
3    $884000$1130
4    $254000$3100
5    $366000$3080
6    $790000$1380
7    $750000$1520
8    $969000$1640
9    $203000$2630
dtype: object

In [7]:
# 기본 정보 확인
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   고객ID    10 non-null     int64         
 1   구매날짜    10 non-null     datetime64[ns]
 2   구매가격    10 non-null     object        
 3   할인금액    10 non-null     object        
 4   VIP     10 non-null     object        
dtypes: datetime64[ns](1), int64(1), object(3)
memory usage: 528.0+ bytes


In [10]:
df['구매가격'] = df['구매가격'].apply(lambda x : x.replace('$', '')).astype(int)
df['할인금액'] = df['할인금액'].apply(lambda x : x.replace('$', '')).astype(int)

In [11]:
df.head()

Unnamed: 0,고객ID,구매날짜,구매가격,할인금액,VIP
0,180841,2021-03-31,840000,2670,Y
1,170863,2021-03-31,802000,3930,N
2,171480,2021-03-31,905000,1860,N
3,108964,2021-03-31,884000,1130,N
4,181968,2021-03-31,254000,3100,Y


In [13]:
# VIP 데이터 타입 변환
# VIP열에서 값이 Y일 때 True, 그렇지 않은 경우 False 변환
df['VIP'] = np.where(df['VIP']== "Y", True, False)
df.head()

Unnamed: 0,고객ID,구매날짜,구매가격,할인금액,VIP
0,180841,2021-03-31,840000,2670,True
1,170863,2021-03-31,802000,3930,False
2,171480,2021-03-31,905000,1860,False
3,108964,2021-03-31,884000,1130,False
4,181968,2021-03-31,254000,3100,True


In [14]:
df.dtypes

고객ID             int64
구매날짜    datetime64[ns]
구매가격             int64
할인금액             int64
VIP               bool
dtype: object

In [15]:
df['원래가격'] = df['구매가격'] + df['할인금액']
df

Unnamed: 0,고객ID,구매날짜,구매가격,할인금액,VIP,원래가격
0,180841,2021-03-31,840000,2670,True,842670
1,170863,2021-03-31,802000,3930,False,805930
2,171480,2021-03-31,905000,1860,False,906860
3,108964,2021-03-31,884000,1130,False,885130
4,181968,2021-03-31,254000,3100,True,257100
5,163856,2021-03-31,366000,3080,False,369080
6,142104,2021-03-31,790000,1380,True,791380
7,188764,2021-03-31,750000,1520,False,751520
8,145666,2021-03-31,969000,1640,False,970640
9,196767,2021-03-31,203000,2630,False,205630


In [16]:
x = np.nan 
print('np.nan 타입: ', type(x))

y = None 
print("None 타입: ", type(y))

np.nan 타입:  <class 'float'>
None 타입:  <class 'NoneType'>


In [17]:
print("x값에서 is, == 확인")
print(x is np.nan)
print(x == np.nan)
print('\ny값의 is, == 확인')
print(y is None)
print(y == None)

x값에서 is, == 확인
True
False

y값의 is, == 확인
True
True


In [18]:
# df_nan 데이터 프레임 만들기
df_nan = pd.DataFrame([1, 2, np.nan], columns=['A'])
print(df_nan.dtypes)
df_nan 

A    float64
dtype: object


Unnamed: 0,A
0,1.0
1,2.0
2,


In [19]:
# 비교 연산자를 통해 np.nan 제거 
df_nan[df_nan['A'] != np.nan]

Unnamed: 0,A
0,1.0
1,2.0
2,


In [20]:
# 결측치를 확인하는 함수를 통해 결측치 제거 
df_nan[~df_nan["A"].isnull()]

Unnamed: 0,A
0,1.0
1,2.0


In [23]:
# id_food_dict 딕셔너리 생성 
id_food_dict = {1 : '음료', 2: np.nan, 3: None}

print("Key 1 해당하는 value:", id_food_dict.get(1))
print("Key 2 해당하는 value:", id_food_dict.get(2))
print("Key 3 해당하는 value:", id_food_dict.get(3))
print("Key가 없는 경우:", id_food_dict.get(4))

Key 1 해당하는 value: 음료
Key 2 해당하는 value: nan
Key 3 해당하는 value: None
Key가 없는 경우: None


In [24]:
# 리스트에 있는 열마다 0.25만큼의 행을 샘플 인덱스를 추출해 해당 인덱스에 있는 값을 np.nan으로 변환
for col in ['구매날짜', '구매가격', '할인금액', 'VIP']:
    df.loc[df.sample(frac=0.25).index, col] = np.nan 
df

Unnamed: 0,고객ID,구매날짜,구매가격,할인금액,VIP,원래가격
0,180841,2021-03-31,840000.0,2670.0,1.0,842670
1,170863,NaT,,3930.0,0.0,805930
2,171480,2021-03-31,905000.0,1860.0,,906860
3,108964,2021-03-31,884000.0,,0.0,885130
4,181968,NaT,254000.0,3100.0,1.0,257100
5,163856,2021-03-31,366000.0,,0.0,369080
6,142104,2021-03-31,790000.0,1380.0,1.0,791380
7,188764,2021-03-31,,1520.0,,751520
8,145666,2021-03-31,969000.0,1640.0,0.0,970640
9,196767,2021-03-31,203000.0,2630.0,0.0,205630


In [25]:
df.dtypes

고객ID             int64
구매날짜    datetime64[ns]
구매가격           float64
할인금액           float64
VIP            float64
원래가격             int64
dtype: object

In [26]:
# 리스트에 있는 열마다 0.25만큼의 행을 샘플 인덱스를 추출해 해당 인덱스에 있는 값을 None으로 변환
for col in ['구매날짜', '구매가격', '할인금액', 'VIP']:
    df.loc[df.sample(frac=0.25).index, col] = None 
df

Unnamed: 0,고객ID,구매날짜,구매가격,할인금액,VIP,원래가격
0,180841,2021-03-31,840000.0,2670.0,1.0,842670
1,170863,NaT,,3930.0,0.0,805930
2,171480,2021-03-31,905000.0,1860.0,,906860
3,108964,NaT,884000.0,,0.0,885130
4,181968,NaT,254000.0,3100.0,1.0,257100
5,163856,NaT,366000.0,,,369080
6,142104,2021-03-31,,,,791380
7,188764,2021-03-31,,1520.0,,751520
8,145666,2021-03-31,969000.0,,0.0,970640
9,196767,2021-03-31,,2630.0,0.0,205630


In [27]:
df.isnull().sum()

고객ID    0
구매날짜    4
구매가격    4
할인금액    4
VIP     4
원래가격    0
dtype: int64

In [28]:
# df와 똑같은 데이터 프레임을 df_ex1에 저장 
df_ex1 = df.copy()

# 열마다 replace를 이용해 np.nan을 None값으로 변환 
for col in ['구매날짜', '구매가격', '할인금액', 'VIP']:
    df_ex1[col] = df_ex1[col].replace(np.nan, None)

df_ex1

Unnamed: 0,고객ID,구매날짜,구매가격,할인금액,VIP,원래가격
0,180841,2021-03-31,840000.0,2670.0,1.0,842670
1,170863,2021-03-31,840000.0,3930.0,0.0,805930
2,171480,2021-03-31,905000.0,1860.0,0.0,906860
3,108964,2021-03-31,884000.0,1860.0,0.0,885130
4,181968,2021-03-31,254000.0,3100.0,1.0,257100
5,163856,2021-03-31,366000.0,3100.0,1.0,369080
6,142104,2021-03-31,366000.0,3100.0,1.0,791380
7,188764,2021-03-31,366000.0,1520.0,1.0,751520
8,145666,2021-03-31,969000.0,1520.0,0.0,970640
9,196767,2021-03-31,969000.0,2630.0,0.0,205630


In [29]:
# df와 똑같은 데이터프레임을 df_ex2에 저장 
df_ex2 = df.copy()

# where 구문을 이용해 결측치를 None값으로 변환 
df_ex2 = df_ex2.where(pd.notnull(df_ex2), None)
df_ex2

Unnamed: 0,고객ID,구매날짜,구매가격,할인금액,VIP,원래가격
0,180841,2021-03-31,840000.0,2670.0,1.0,842670
1,170863,NaT,,3930.0,0.0,805930
2,171480,2021-03-31,905000.0,1860.0,,906860
3,108964,NaT,884000.0,,0.0,885130
4,181968,NaT,254000.0,3100.0,1.0,257100
5,163856,NaT,366000.0,,,369080
6,142104,2021-03-31,,,,791380
7,188764,2021-03-31,,1520.0,,751520
8,145666,2021-03-31,969000.0,,0.0,970640
9,196767,2021-03-31,,2630.0,0.0,205630
