In [121]:
import pandas as pd

customers = pd.read_csv('data/customers.csv', parse_dates=['signup_date'])
products = pd.read_csv('data/products.csv')
orders = pd.read_csv('data/orders.csv', parse_dates=['order_date'])


In [128]:
# 결측치 확인
print('=== orders 결측치 확인 ===')
print(orders.isna().sum())
print('=== products 결측치 확인 ===')
print(products.isna().sum())
print('=== customers 결측치 확인 ===')
print(customers.isna().sum())

=== orders 결측치 확인 ===
order_id      0
user_id       0
order_date    0
product_id    0
qty           0
unit_price    1
region        2
dtype: int64
=== products 결측치 확인 ===
product_id    0
category      1
brand         2
dtype: int64
=== customers 결측치 확인 ===
user_id        0
signup_date    0
gender         2
age_group      1
region         2
dtype: int64


In [130]:
dup_orders = orders.duplicated().sum()  # 중복확인 함수
print(f"중복등록된 주문 수 : {dup_orders}")

중복등록된 주문 수 : 0


In [133]:
print("=== 총 정리 ===")
print(f"customer 수 : {len(customers)}")
print(f"orders 수 : {len(orders)}")
print(f"products 수 : {len(products)}")

print(f"중복등록된 주문 수 : {dup_orders}")
print(f"orders의 결측치 수 : {orders.isna().sum().sum()}")

=== 총 정리 ===
customer 수 : 150
orders 수 : 2500
products 수 : 80
중복등록된 주문 수 : 0
orders의 결측치 수 : 3


In [139]:
# 결측치 처리
print("=== 고객 데이터 결측치 ===")
missing_cus = customers.isna().sum()
type(missing_cus)

for col in missing_cus.index:
  ratio = missing_cus[col] / len(customers) * 100
  print(f"{col} : {ratio:.1f}%" )

=== 고객 데이터 결측치 ===
user_id : 0.0%
signup_date : 0.0%
gender : 1.3%
age_group : 0.7%
region : 1.3%


In [145]:
# 결측치가 들어있는 행들을 보고 싶음
print(orders[orders.isna().any(axis=1)])
print(products[products.isna().any(axis=1)])
print(customers[customers.isna().any(axis=1)])

    order_id user_id order_date product_id  qty  unit_price region
13   o000014    u061 2024-05-10      p0002    3         NaN  Seoul
53   o000054    u034 2024-02-21      p0078    5     12000.0    NaN
103  o000104    u124 2024-05-20      p0017    1     12000.0    NaN
   product_id category brand
13      p0014     tool   NaN
33      p0034      NaN  Duro
73      p0074     food   NaN
    user_id signup_date gender age_group   region
10     u011  2023-07-12    NaN       40s  Incheon
11     u012  2023-12-23      F       NaN    Seoul
12     u013  2023-09-26      M       10s      NaN
48     u049  2023-09-05    NaN       10s  Gwangju
143    u144  2023-05-30      M       30s      NaN


In [152]:
# 고객의 성별 결측치 처리
gender_mode = customers['gender'].mode() # gender에 최대빈도
customers['gender'] = customers['gender'].fillna(gender_mode)

In [156]:
# 데이터 병합 : 주문 + 고객 + 상품데이터
df = orders.merge(
  customers[['user_id', 'region']], on='user_id'
)
df

Unnamed: 0,order_id,user_id,order_date,product_id,qty,unit_price,region_x,region_y
0,o000001,u066,2024-02-02,p0010,4,9000.0,Incheon,Seoul
1,o000002,u072,2024-04-10,p0013,4,9000.0,Incheon,Seoul
2,o000003,u112,2024-06-21,p0016,4,20000.0,Incheon,Seoul
3,o000004,u130,2024-06-19,p0008,4,20000.0,Seoul,Seoul
4,o000005,u079,2024-03-06,p0026,1,30000.0,Incheon,Gwangju
...,...,...,...,...,...,...,...,...
2495,o002496,u061,2024-02-04,p0039,4,15000.0,Incheon,Gwangju
2496,o002497,u050,2024-02-01,p0045,1,12000.0,Seoul,Daegu
2497,o002498,u080,2024-02-05,p0064,2,9000.0,Gwangju,Gwangju
2498,o002499,u081,2024-04-12,p0042,3,12000.0,Daegu,Daegu
