In [None]:
# 필요한 라이브러리 불러오기
import numpy as np
import pandas as pd
import random

# 임의 숫자 시드 설정
random.seed(20) # 임의로 20 지정
np.random.seed(21) # 임의로 21 지정

# 고객ID 배열
# 100,000에서 200,000 사이 랜덤한 정수 10개를 뽑아 배열로 반환한 것을 user_id라 저장
# 이때, 100,000 포함하며 200,000 포함하지 않음
user_id = np.random.randint(100000, 200000, 10)

# 구매 가격 리스트
# 100에서 1000 사이 값에서 무작위로 10개를 뽑아 리스트로 반환 (1000 불포함)
price_list = random.sample(range(100, 1000), 10)
print('price_list:', price_list)

# 각 요소에 1000을 곱한 뒤 $를 붙여 문자열 리스트로 반환
price_list = ['$' + str(x*1000) for x in price_list]
print('\nprice_list에 $ 추가:', price_list) # \n 한 줄 건너뛰기

# 할인 금액 리스트
# 100에서 1000 사이 값에서 무작위로 10개를 뽑아 리스트로 반환 (500 불포함)
reduce_price_list = random.sample(range(100, 500), 10)
# 각 요소에 10을 곱한 뒤 $를 붙여 문자열 리스트로 변환
reduce_price_list = ['$' + str(x*10) for x in reduce_price_list]

# VIP 여부 배열
# Y는 0.3의 뽑힐 확률로, N은 0.7의 뽑힐 확률로 10개의 Y와 N으로 구성된 배열 반환
vip_array = np.random.choice(["Y", "N"], size=10, p=[0.3, 0.7])

# 임의 데이터 만들기
df = pd.DataFrame({
    '고객ID': user_id,
    '구매날짜': pd.Timestamp('20210331'),
    '구매가격': price_list,
    '할인금액': reduce_price_list,
    'VIP': vip_array
})


# 구매가격과 할인금액 합산하기
df['구매가격'] + df['할인금액']


price_list: [840, 802, 905, 884, 254, 366, 790, 750, 969, 203]

price_list에 $ 추가: ['$840000', '$802000', '$905000', '$884000', '$254000', '$366000', '$790000', '$750000', '$969000', '$203000']


0    $840000$2670
1    $802000$3930
2    $905000$1860
3    $884000$1130
4    $254000$3100
5    $366000$3080
6    $790000$1380
7    $750000$1520
8    $969000$1640
9    $203000$2630
dtype: object

In [None]:
# 구매가격 및 할인금액 데이터 타입 변환
# 구매가격/할인금액 열에서 행의 값마다 $를 ''로 변환해 지운 후 정수로 변환
df["구매가격"] = df["구매가격"].apply(lambda x: x.replace('$', '')).astype('int')
df["할인금액"] = df['할인금액'].apply(lambda x: x.replace('$', '')).astype('int')

df.head()

Unnamed: 0,고객ID,구매날짜,구매가격,할인금액,VIP
0,180841,2021-03-31,840000,2670,Y
1,170863,2021-03-31,802000,3930,N
2,171480,2021-03-31,905000,1860,N
3,108964,2021-03-31,884000,1130,N
4,181968,2021-03-31,254000,3100,Y


In [None]:
# VIP 데이터 타입 변환
# VIP열에서 값이 Y일 때 True로, 그렇지 않은 경우 False로 변환
df["VIP"] = np.where(df["VIP"] == "Y", True, False)
df.head()

Unnamed: 0,고객ID,구매날짜,구매가격,할인금액,VIP
0,180841,2021-03-31,840000,2670,True
1,170863,2021-03-31,802000,3930,False
2,171480,2021-03-31,905000,1860,False
3,108964,2021-03-31,884000,1130,False
4,181968,2021-03-31,254000,3100,True


In [None]:
df.dtypes

고객ID             int64
구매날짜    datetime64[ns]
구매가격             int64
할인금액             int64
VIP               bool
dtype: object

In [None]:
df["원래가격"] = df['구매가격'] + df['할인금액']
df

Unnamed: 0,고객ID,구매날짜,구매가격,할인금액,VIP,원래가격
0,180841,2021-03-31,840000,2670,True,842670
1,170863,2021-03-31,802000,3930,False,805930
2,171480,2021-03-31,905000,1860,False,906860
3,108964,2021-03-31,884000,1130,False,885130
4,181968,2021-03-31,254000,3100,True,257100
5,163856,2021-03-31,366000,3080,False,369080
6,142104,2021-03-31,790000,1380,True,791380
7,188764,2021-03-31,750000,1520,False,751520
8,145666,2021-03-31,969000,1640,False,970640
9,196767,2021-03-31,203000,2630,False,205630


In [None]:
# 판다스와 랜덤 라이브러리 불러오기
import pandas as pd
import random

# 임의 숫자 시드 설정
random.seed(20)
np.random.seed(21)

# 고객 ID 배열
# 100000(포함)에서 200000(불포함) 수 중 무작위 로 11개 정수값 추출

user_id = np.random.randint(100000, 200000, 11)
food_list = ['음료', '채소', '간식', 3, '과일', '', '캔', '도서', '-30%', '무료배송', None]

# 기존에 만든 user_id를 고객ID란 열로, food_list는 식품이란 열로 변환해 데이터프레임 생성
df = pd.DataFrame({
    '고객ID': user_id,
    '식품': food_list
})

df

Unnamed: 0,고객ID,식품
0,180841,음료
1,170863,채소
2,171480,간식
3,108964,3
4,181968,과일
5,163856,
6,142104,캔
7,188764,도서
8,145666,-30%
9,196767,무료배송


In [None]:
# df_nan 데이터프레임 만들기
df_nan = pd.DataFrame([1, 2, np.nan], columns=["A"])
print(df_nan.dtypes)
df_nan

A    float64
dtype: object


Unnamed: 0,A
0,1.0
1,2.0
2,


In [None]:
# 비교 연산자를 이용해 np.nan 제거하기
df_nan[df_nan["A"] != np.nan]

Unnamed: 0,A
0,1.0
1,2.0
2,


In [None]:
# 결측치를 확인하는 함수를 통해 결측치 제거하기
df_nan[~df_nan["A"].isnull()]

Unnamed: 0,A
0,1.0
1,2.0


In [None]:
# id_food_dict 딕셔너리 생성
id_food_dict = {1: '음료', 2: np.nan, 3: None}

print('key 1 해당하는 value:', id_food_dict.get(1))
print('key 2 해당하는 value:', id_food_dict.get(2))
print('key 3 해당하는 value:', id_food_dict.get(3))
print('key가 없는 경우:', id_food_dict.get(4))

key 1 해당하는 value: 음료
key 2 해당하는 value: nan
key 3 해당하는 value: None
key가 없는 경우: None


In [None]:
# def를 이용해 함수를 만들 때 return 값이 정의되지 않은 경우
def get_add(x, y):
  print("함수 시작")
  print(x+y)
  print("함수 끝")

print(get_add(3, 4))

함수 시작
7
함수 끝
None


In [None]:
def get_add(x, y):
  print("함수 시작")
  print(x+y)
  print("함수 끝")
  return x+y

print(get_add(3, 4))

함수 시작
7
함수 끝
7


In [None]:
# 필요한 라이브러리 불러오기
import numpy as np
import pandas as pd
import random

# 임의 숫자 시드 설정
random.seed(20) # 임의로 20 지정
np.random.seed(21) # 임의로 21 지정

# 고객ID 배열
# 100,000에서 200,000 사이 랜덤한 정수 10개를 뽑아 배열로 반환한 것을 user_id라 저장
# 이때, 100,000 포함하며 200,000 포함하지 않음
user_id = np.random.randint(100000, 200000, 10)

# 구매 가격 리스트
# 100에서 1000 사이 값에서 무작위로 10개를 뽑아 리스트로 반환 (1000 불포함)
price_list = random.sample(range(100, 1000), 10)
# print('price_list:', price_list)

# 각 요소에 1000을 곱한 뒤 $를 붙여 문자열 리스트로 반환
price_list = ['$' + str(x*1000) for x in price_list]
# print('\nprice_list에 $ 추가:', price_list) # \n 한 줄 건너뛰기

# 할인 금액 리스트
# 100에서 1000 사이 값에서 무작위로 10개를 뽑아 리스트로 반환 (500 불포함)
reduce_price_list = random.sample(range(100, 500), 10)
# 각 요소에 10을 곱한 뒤 $를 붙여 문자열 리스트로 변환
reduce_price_list = ['$' + str(x*10) for x in reduce_price_list]

# VIP 여부 배열
# Y는 0.3의 뽑힐 확률로, N은 0.7의 뽑힐 확률로 10개의 Y와 N으로 구성된 배열 반환
vip_array = np.random.choice(["Y", "N"], size=10, p=[0.3, 0.7])

# 임의 데이터 만들기
df = pd.DataFrame({
    '고객ID': user_id,
    '구매날짜': pd.Timestamp('20210331'),
    '구매가격': price_list,
    '할인금액': reduce_price_list,
    'VIP': vip_array
})

df["할인금액"] = df["할인금액"].str.replace("$", "").astype(int)
df

price_list: [840, 802, 905, 884, 254, 366, 790, 750, 969, 203]

price_list에 $ 추가: ['$840000', '$802000', '$905000', '$884000', '$254000', '$366000', '$790000', '$750000', '$969000', '$203000']


  df["할인금액"] = df["할인금액"].str.replace("$", "").astype(int)


Unnamed: 0,고객ID,구매날짜,구매가격,할인금액,VIP
0,180841,2021-03-31,$840000,2670,Y
1,170863,2021-03-31,$802000,3930,N
2,171480,2021-03-31,$905000,1860,N
3,108964,2021-03-31,$884000,1130,N
4,181968,2021-03-31,$254000,3100,Y
5,163856,2021-03-31,$366000,3080,N
6,142104,2021-03-31,$790000,1380,Y
7,188764,2021-03-31,$750000,1520,N
8,145666,2021-03-31,$969000,1640,N
9,196767,2021-03-31,$203000,2630,N


In [None]:
df.dtypes

고객ID             int64
구매날짜    datetime64[ns]
구매가격            object
할인금액             int64
VIP             object
dtype: object

In [None]:
# 리스트에 있는 열마다 0.25만큼의 행을 샘플 인덱스를 추출해 해당 인덱스에 있는 값을 np.nan으로 변환
for col in ['구매날짜', '구매가격', '할인금액', 'VIP']:
  df.loc[df.sample(frac=0.25).index, col] = np.nan
df

Unnamed: 0,고객ID,구매날짜,구매가격,할인금액,VIP
0,180841,2021-03-31,$840000,2670.0,Y
1,170863,NaT,,3930.0,N
2,171480,2021-03-31,$905000,1860.0,
3,108964,2021-03-31,$884000,,N
4,181968,NaT,$254000,3100.0,Y
5,163856,2021-03-31,$366000,,N
6,142104,2021-03-31,$790000,1380.0,Y
7,188764,2021-03-31,,1520.0,
8,145666,2021-03-31,$969000,1640.0,N
9,196767,2021-03-31,$203000,2630.0,N


In [None]:
df.dtypes

고객ID             int64
구매날짜    datetime64[ns]
구매가격            object
할인금액           float64
VIP             object
dtype: object

In [None]:
# 리스트에 있는 열마다 0.25만큼의 행을 샘플 인덱스를 추출해 해당 인덱스에 있는 값을 None으로 변환
for col in ['구매날짜', '구매가격', '할인금액', 'VIP']:
  df.loc[df.sample(frac=0.25).index, col] = None
df

Unnamed: 0,고객ID,구매날짜,구매가격,할인금액,VIP
0,180841,2021-03-31,$840000,2670.0,Y
1,170863,NaT,,3930.0,N
2,171480,2021-03-31,$905000,1860.0,
3,108964,NaT,$884000,,N
4,181968,NaT,$254000,3100.0,Y
5,163856,NaT,$366000,,
6,142104,2021-03-31,,,
7,188764,2021-03-31,,1520.0,
8,145666,2021-03-31,$969000,,N
9,196767,2021-03-31,,2630.0,N


In [None]:
df.isnull().sum()

고객ID    0
구매날짜    4
구매가격    4
할인금액    4
VIP     4
dtype: int64

In [None]:
# df와 똑같은 데이터프레임을 df_ex1에 저장
df_ex1 = df.copy()

# 열마다 replace를 이용해 np.nan을 None값으로 변환
for col in ["구매날짜", "구매가격", "할인금액", "VIP"]:
    df_ex1[col] = df_ex1[col].replace(np.nan, None)

df_ex1

Unnamed: 0,고객ID,구매날짜,구매가격,할인금액,VIP
0,180841,2021-03-31,$840000,2670.0,Y
1,170863,2021-03-31,$840000,3930.0,N
2,171480,2021-03-31,$905000,1860.0,N
3,108964,2021-03-31,$884000,1860.0,N
4,181968,2021-03-31,$254000,3100.0,Y
5,163856,2021-03-31,$366000,3100.0,Y
6,142104,2021-03-31,$366000,3100.0,Y
7,188764,2021-03-31,$366000,1520.0,Y
8,145666,2021-03-31,$969000,1520.0,N
9,196767,2021-03-31,$969000,2630.0,N


In [None]:
# df와 똑같은 데이터프레임을 df_ex2에 저장
df_ex2 = df.copy()

# where 구문을 이용해 결측치를 None 값으로 변환
df_ex2 = df_ex2.where(pd.notnull(df_ex2), None)
df_ex2

Unnamed: 0,고객ID,구매날짜,구매가격,할인금액,VIP
0,180841,2021-03-31,$840000,2670.0,Y
1,170863,NaT,,3930.0,N
2,171480,2021-03-31,$905000,1860.0,
3,108964,NaT,$884000,,N
4,181968,NaT,$254000,3100.0,Y
5,163856,NaT,$366000,,
6,142104,2021-03-31,,,
7,188764,2021-03-31,,1520.0,
8,145666,2021-03-31,$969000,,N
9,196767,2021-03-31,,2630.0,N


In [None]:
df_ex2.dtypes

고객ID             int64
구매날짜    datetime64[ns]
구매가격            object
할인금액           float64
VIP             object
dtype: object