# Olist 데이터 전처리 파이프라인

## 목표
1. 불완전 기간 데이터 제외 (2016년 9-12월, 2018년 9월 이후)
2. 배송 시점 이상 데이터 제거
3. IQR 기준 이상치 제거 (PG사/물류사 책임구간)
4. 결측치 제거
5. 모든 데이터셋 통합

In [116]:
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')

DATA_PATH = 'Olist_DataSet/'

## 1. 데이터 로드 및 기간 필터링


In [117]:
orders = pd.read_csv(f'{DATA_PATH}olist_orders_dataset.csv')
order_items = pd.read_csv(f'{DATA_PATH}olist_order_items_dataset.csv')
sellers = pd.read_csv(f'{DATA_PATH}olist_sellers_dataset.csv')
products = pd.read_csv(f'{DATA_PATH}olist_products_dataset.csv')
reviews = pd.read_csv(f'{DATA_PATH}order_reviews.csv')
customers = pd.read_csv(f'{DATA_PATH}olist_customers_dataset.csv')
payments = pd.read_csv(f'{DATA_PATH}olist_order_payments_dataset.csv')
geolocation = pd.read_csv(f'{DATA_PATH}olist_geolocation_dataset.csv')
category_trans = pd.read_csv(f'{DATA_PATH}product_category_name_translation.csv')


In [118]:
# 날짜 컬럼 변환
date_cols = ['order_purchase_timestamp', 'order_approved_at', 
             'order_delivered_carrier_date', 'order_delivered_customer_date',
             'order_estimated_delivery_date']

for col in date_cols:
    orders[col] = pd.to_datetime(orders[col])


In [119]:
# 불완전 기간 데이터 제외 (2016년 9-12월, 2018년 9월 이후)
exclude_periods = (
    ((orders['order_purchase_timestamp'].dt.year == 2016) & 
     (orders['order_purchase_timestamp'].dt.month >= 9)) |
    ((orders['order_purchase_timestamp'].dt.year == 2018) & 
     (orders['order_purchase_timestamp'].dt.month >= 9))
)
orders = orders[~exclude_periods].copy()


In [120]:
# 이상 데이터 탐지
anomalies = {}

# 1. 운송업체 인수일 > 고객 배송 완료일
anomalies['1. 운송업체 인수일 > 고객 배송일'] = orders[
    (orders['order_delivered_carrier_date'].notna()) & 
    (orders['order_delivered_customer_date'].notna()) &
    (orders['order_delivered_carrier_date'] > orders['order_delivered_customer_date'])
]

# 2. 주문 승인일 > 운송업체 인수일
anomalies['2. 주문 승인일 > 운송업체 인수일'] = orders[
    (orders['order_approved_at'].notna()) & 
    (orders['order_delivered_carrier_date'].notna()) &
    (orders['order_approved_at'] > orders['order_delivered_carrier_date'])
]

# 3. 배송완료 상태인데 배송일 없음
anomalies['3. 배송완료 상태인데 배송일 없음'] = orders[
    (orders['order_status'] == 'delivered') & 
    (orders['order_delivered_customer_date'].isna())
]

# 4. 미배송 상태인데 배송일 존재
anomalies['4. 미배송 상태인데 배송일 존재'] = orders[
    (orders['order_status'] != 'delivered') & 
    (orders['order_delivered_customer_date'].notna())
]


## 2. 배송 시점 이상 데이터 제거


In [121]:
# 이상 데이터 제거
all_anomaly_ids = set()
for name, df in anomalies.items():
    all_anomaly_ids.update(df['order_id'].tolist())
orders = orders[~orders['order_id'].isin(all_anomaly_ids)].copy()

print(f"이상 데이터 제외 후 주문 수: {len(orders):,}건")


이상 데이터 제외 후 주문 수: 97,705건


## 3. IQR 기준 이상치 제거

- **PG사 책임구간**: `order_approved_at - order_purchase_timestamp`
- **물류사 책임구간**: `order_delivered_customer_date - order_delivered_carrier_date`
- **제거 조건**: 음수 또는 Q3 + 1.5*IQR 초과


In [122]:
# PG사 책임구간: order_approved_at - order_purchase_timestamp
# 물류사 책임구간: order_delivered_customer_date - order_delivered_carrier_date

# 시간 차이 계산 (일 단위)
orders['pg_time'] = (
    orders['order_approved_at'] - orders['order_purchase_timestamp']
).dt.total_seconds() / (24 * 60 * 60)

orders['logistics_time'] = (
    orders['order_delivered_customer_date'] - orders['order_delivered_carrier_date']
).dt.total_seconds() / (24 * 60 * 60)

# IQR 적용을 위한 추가 정보 조인

# 1. 결제수단 정보 조인 (PG사 책임구간용)
# 한 주문에 여러 결제수단이 있을 수 있으므로 대표 결제수단 선택 (첫 번째)
payment_type_df = payments.groupby('order_id')['payment_type'].first().reset_index()
orders = orders.merge(payment_type_df, on='order_id', how='left')

In [123]:
# 2. 카테고리 정보 조인 (물류사 책임구간용)
# order_items -> products 조인하여 카테고리 가져오기
order_category = order_items[['order_id', 'product_id']].drop_duplicates('order_id')
order_category = order_category.merge(products[['product_id', 'product_category_name']], on='product_id', how='left')
orders = orders.merge(order_category[['order_id', 'product_category_name']], on='order_id', how='left')


In [124]:
def remove_iqr_outliers_by_group(df, column, group_col):
    """그룹별 IQR 기준으로 이상치 제거 (음수 및 Q3+1.5*IQR 초과)"""
    keep_mask = pd.Series(True, index=df.index)
    
    for group_name, group_df in df.groupby(group_col):
        if pd.isna(group_name):
            continue
        valid_data = group_df[column].dropna()
        if len(valid_data) < 4:
            continue
        
        Q1, Q3 = valid_data.quantile(0.25), valid_data.quantile(0.75)
        upper_bound = Q3 + 1.5 * (Q3 - Q1)
        outlier_mask = (group_df[column] < 0) | (group_df[column] > upper_bound)
        keep_mask.loc[group_df.index] = ~outlier_mask | group_df[column].isna()
    
    return keep_mask


In [125]:
# PG사 책임구간 이상치 제거 (결제수단별 IQR)
pg_mask = remove_iqr_outliers_by_group(orders, 'pg_time', 'payment_type')
orders = orders[pg_mask].copy()

In [126]:
# 물류사 책임구간 이상치 제거 (카테고리별 IQR)
logistics_mask = remove_iqr_outliers_by_group(orders, 'logistics_time', 'product_category_name')
orders = orders[logistics_mask].copy()

In [127]:
# 임시 컬럼 제거 및 유효한 order_id 목록
orders = orders.drop(columns=['pg_time', 'logistics_time', 'payment_type', 'product_category_name'])
valid_order_ids = orders['order_id'].unique()


In [128]:
# 각 데이터셋 결측치 확인
datasets = {
    'orders': orders,
    'order_items': order_items,
    'sellers': sellers,
    'products': products,
    'reviews': reviews,
    'customers': customers,
    'payments': payments,
    'category_trans': category_trans
}

print("=" * 60)
print("각 데이터셋 결측치 현황")
print("=" * 60)

for name, df in datasets.items():
    null_count = df.isnull().sum().sum()
    null_rows = df.isnull().any(axis=1).sum()
    print(f"\n{name}:")
    print(f"  전체 행: {len(df):,}, 결측치 포함 행: {null_rows:,}")
    if null_count > 0:
        null_cols = df.isnull().sum()
        null_cols = null_cols[null_cols > 0]
        for col, cnt in null_cols.items():
            print(f"    - {col}: {cnt:,}건")


각 데이터셋 결측치 현황

orders:
  전체 행: 77,622, 결측치 포함 행: 2,360
    - order_approved_at: 135건
    - order_delivered_carrier_date: 1,421건
    - order_delivered_customer_date: 2,345건

order_items:
  전체 행: 112,650, 결측치 포함 행: 0

sellers:
  전체 행: 3,095, 결측치 포함 행: 0

products:
  전체 행: 32,951, 결측치 포함 행: 611
    - product_category_name: 610건
    - product_name_lenght: 610건
    - product_description_lenght: 610건
    - product_photos_qty: 610건
    - product_weight_g: 2건
    - product_length_cm: 2건
    - product_height_cm: 2건
    - product_width_cm: 2건

reviews:
  전체 행: 99,224, 결측치 포함 행: 56,518
    - review_comment_message: 56,518건

customers:
  전체 행: 99,441, 결측치 포함 행: 0

payments:
  전체 행: 103,886, 결측치 포함 행: 0

category_trans:
  전체 행: 73, 결측치 포함 행: 0


In [129]:
# 결측치 제거 (reviews는 제외 - review_score 활용)
orders = orders.dropna()
order_items = order_items.dropna()
sellers = sellers.dropna()
products = products.dropna()
customers = customers.dropna()
payments = payments.dropna()
category_trans = category_trans.dropna()


In [130]:
# 유효한 order_id로 필터링 (orders 기준)
valid_order_ids = orders['order_id'].unique()
order_items = order_items[order_items['order_id'].isin(valid_order_ids)].copy()
reviews = reviews[reviews['order_id'].isin(valid_order_ids)].copy()
payments = payments[payments['order_id'].isin(valid_order_ids)].copy()


## 5. 데이터셋 통합


In [131]:
# payments 집계 (한 주문에 여러 결제 수단이 있을 수 있음)
payments_agg = payments.groupby('order_id').agg({
    'payment_sequential': 'max',
    'payment_type': lambda x: ','.join(x.unique()),
    'payment_installments': 'max',
    'payment_value': 'sum'
}).reset_index()
payments_agg.columns = ['order_id', 'payment_sequential', 'payment_types', 
                        'payment_installments', 'payment_value_total']


In [132]:
# 데이터셋 통합
merged = orders.merge(order_items, on='order_id', how='left')
merged = merged.merge(products, on='product_id', how='left')
merged = merged.merge(category_trans, on='product_category_name', how='left')
merged['product_category_name_english'] = merged['product_category_name_english'].fillna('unknown')
merged = merged.merge(sellers, on='seller_id', how='left')
merged = merged.merge(reviews, on='order_id', how='left')
merged = merged.merge(customers, on='customer_id', how='left')
merged = merged.merge(payments_agg, on='order_id', how='left')


In [133]:
# 파생변수 생성

# 1. is_black_friday - 블랙 프라이데이 여부
# 브라질 블랙 프라이데이: 11월 마지막 금요일 (및 주변 기간)
# 2017: 11월 24일, 2018: 11월 23일
black_friday_dates = [
    ('2017-11-24', '2017-11-26'),  # 2017 블랙 프라이데이 ~ 일요일
    ('2018-11-23', '2018-11-25'),  # 2018 블랙 프라이데이 ~ 일요일
]

merged['is_black_friday'] = False
for start, end in black_friday_dates:
    mask = (merged['order_purchase_timestamp'] >= start) & (merged['order_purchase_timestamp'] <= end)
    merged.loc[mask, 'is_black_friday'] = True

# 2. is_carnival - 브라질 카니발 기간 여부
# 브라질 카니발: 부활절 전 40일경, 보통 2월 중순~3월 초
# 2017: 2월 24일~28일, 2018: 2월 9일~13일
carnival_dates = [
    ('2017-02-24', '2017-03-01'),  # 2017 카니발
    ('2018-02-09', '2018-02-14'),  # 2018 카니발
]

merged['is_carnival'] = False
for start, end in carnival_dates:
    mask = (merged['order_purchase_timestamp'] >= start) & (merged['order_purchase_timestamp'] <= end)
    merged.loc[mask, 'is_carnival'] = True

In [134]:
# 3. has_photos - 상품 사진 유무
merged['has_photos'] = merged['product_photos_qty'] > 0
print(f"3. has_photos: {merged['has_photos'].sum():,}건 ({merged['has_photos'].mean()*100:.2f}%)")

# 4. has_description - 상품 설명 유무
merged['has_description'] = merged['product_description_lenght'] > 0
print(f"4. has_description: {merged['has_description'].sum():,}건 ({merged['has_description'].mean()*100:.2f}%)")

# 5. description_length - 상품 설명 길이 (이미 존재하는 컬럼 활용)
merged['description_length'] = merged['product_description_lenght'].fillna(0).astype(int)
print(f"5. description_length: 평균 {merged['description_length'].mean():.1f}자, 최대 {merged['description_length'].max():,}자")


3. has_photos: 85,071건 (98.51%)
4. has_description: 85,071건 (98.51%)
5. description_length: 평균 769.2자, 최대 3,988자


In [135]:
# 7. has_text_review - 텍스트 리뷰 유무
merged['has_text_review'] = merged['review_comment_message'].notna() & (merged['review_comment_message'].str.len() > 0)

# 8. is_same_state - 판매자와 고객이 동일 주인지 여부
merged['is_same_state'] = merged['seller_state'] == merged['customer_state']

# 9. pg_processing_days - PG사 책임구간 (결제 승인까지 걸린 일수)
# order_approved_at - order_purchase_timestamp
merged['pg_processing_days'] = (
    (merged['order_approved_at'] - merged['order_purchase_timestamp']).dt.total_seconds() / (24 * 60 * 60)
).round(2)

# 10. seller_processing_days - 판매자 책임구간 (출고까지 걸린 일수)
# order_delivered_carrier_date - order_approved_at
merged['seller_processing_days'] = (
    (merged['order_delivered_carrier_date'] - merged['order_approved_at']).dt.total_seconds() / (24 * 60 * 60)
).round(2)

# 11. delivery_days - 물류사 책임구간 (배송까지 걸린 일수)
# order_delivered_customer_date - order_delivered_carrier_date
merged['delivery_days'] = (
    (merged['order_delivered_customer_date'] - merged['order_delivered_carrier_date']).dt.total_seconds() / (24 * 60 * 60)
).round(2)


## 6. 최종 데이터셋 검증


In [136]:
# 최종 결측치 확인
print("=" * 60)
print("최종 통합 데이터셋 결측치 현황")
print("=" * 60)

null_counts = merged.isnull().sum()
null_counts = null_counts[null_counts > 0].sort_values(ascending=False)

if len(null_counts) > 0:
    print(f"\n결측치가 있는 컬럼 ({len(null_counts)}개):")
    for col, cnt in null_counts.items():
        pct = cnt / len(merged) * 100
        print(f"  {col}: {cnt:,}건 ({pct:.2f}%)")
else:
    print("결측치 없음")


최종 통합 데이터셋 결측치 현황

결측치가 있는 컬럼 (10개):
  review_comment_message: 49,825건 (57.70%)
  product_category_name: 1,285건 (1.49%)
  product_name_lenght: 1,285건 (1.49%)
  product_description_lenght: 1,285건 (1.49%)
  product_photos_qty: 1,285건 (1.49%)
  product_weight_g: 1,285건 (1.49%)
  product_length_cm: 1,285건 (1.49%)
  product_height_cm: 1,285건 (1.49%)
  product_width_cm: 1,285건 (1.49%)
  review_score: 552건 (0.64%)


In [137]:
# 최종 결측치 제거 (통합 후 발생한 결측치)
# 예외: review 관련 컬럼, product 관련 컬럼은 결측치 허용

# 결측치 제거에서 예외로 할 컬럼
exclude_cols = [
    # review 관련
    'review_score', 'review_comment_message',
    # product 관련
    'product_id', 'product_category_name', 'product_name_lenght', 'product_description_lenght',
    'product_photos_qty', 'product_weight_g', 'product_length_cm', 'product_height_cm', 
    'product_width_cm', 'product_category_name_english'
]

# 예외 컬럼을 제외한 나머지 컬럼에서만 결측치 검사
check_cols = [col for col in merged.columns if col not in exclude_cols]

before = len(merged)
merged = merged.dropna(subset=check_cols)
print(f"\n최종 결측치 제거: {before:,} -> {len(merged):,} ({before - len(merged):,}건 제거)")
print(f"  (review/product 관련 컬럼 결측치는 허용)")

# 불필요한 컬럼 제거
# 1. zip_code_prefix (주/도시는 유지)
# 2. product_category_name (영문 버전 사용)
cols_to_drop = [
    # 주소 관련
    'seller_zip_code_prefix',
    'customer_zip_code_prefix',
    # 카테고리 (영문 버전 사용)
    'product_category_name'
]

# 실제 존재하는 컬럼만 제거
existing_cols = [col for col in cols_to_drop if col in merged.columns]
merged = merged.drop(columns=existing_cols)

print(f"\n불필요한 컬럼 제거: {len(existing_cols)}개")
print(f"  제거된 컬럼: {existing_cols}")



최종 결측치 제거: 86,356 -> 86,356 (0건 제거)
  (review/product 관련 컬럼 결측치는 허용)

불필요한 컬럼 제거: 3개
  제거된 컬럼: ['seller_zip_code_prefix', 'customer_zip_code_prefix', 'product_category_name']


In [138]:
# review_score 결측치 제거 (리뷰가 없는 주문 제거)
print("=" * 60)
print("리뷰 없는 주문 제거")
print("=" * 60)

before_count = len(merged)
merged = merged.dropna(subset=['review_score'])
after_count = len(merged)

print(f"\n제거 전: {before_count:,}건")
print(f"제거 후: {after_count:,}건")
print(f"제거된 행: {before_count - after_count:,}건 (리뷰가 작성되지 않은 주문)")


리뷰 없는 주문 제거

제거 전: 86,356건
제거 후: 85,804건
제거된 행: 552건 (리뷰가 작성되지 않은 주문)


In [139]:
# 최종 데이터셋 정보
print("=" * 60)
print("최종 통합 데이터셋 정보")
print("=" * 60)
print(f"\n행 수: {len(merged):,}")
print(f"컬럼 수: {len(merged.columns)}")
print(f"\n컬럼 목록:")
for i, col in enumerate(merged.columns, 1):
    print(f"  {i:2d}. {col}")


최종 통합 데이터셋 정보

행 수: 85,804
컬럼 수: 43

컬럼 목록:
   1. order_id
   2. customer_id
   3. order_status
   4. order_purchase_timestamp
   5. order_approved_at
   6. order_delivered_carrier_date
   7. order_delivered_customer_date
   8. order_estimated_delivery_date
   9. order_item_id
  10. product_id
  11. seller_id
  12. shipping_limit_date
  13. price
  14. freight_value
  15. product_name_lenght
  16. product_description_lenght
  17. product_photos_qty
  18. product_weight_g
  19. product_length_cm
  20. product_height_cm
  21. product_width_cm
  22. product_category_name_english
  23. seller_city
  24. seller_state
  25. review_score
  26. review_comment_message
  27. customer_unique_id
  28. customer_city
  29. customer_state
  30. payment_sequential
  31. payment_types
  32. payment_installments
  33. payment_value_total
  34. is_black_friday
  35. is_carnival
  36. has_photos
  37. has_description
  38. description_length
  39. has_text_review
  40. is_same_state
  41. pg_processing_da

In [140]:
# 데이터 타입 확인
print("\n" + "=" * 60)
print("데이터 타입")
print("=" * 60)
print(merged.dtypes)



데이터 타입
order_id                                 object
customer_id                              object
order_status                             object
order_purchase_timestamp         datetime64[ns]
order_approved_at                datetime64[ns]
order_delivered_carrier_date     datetime64[ns]
order_delivered_customer_date    datetime64[ns]
order_estimated_delivery_date    datetime64[ns]
order_item_id                             int64
product_id                               object
seller_id                                object
shipping_limit_date                      object
price                                   float64
freight_value                           float64
product_name_lenght                     float64
product_description_lenght              float64
product_photos_qty                      float64
product_weight_g                        float64
product_length_cm                       float64
product_height_cm                       float64
product_width_cm                

In [141]:
# 최종 데이터셋 샘플
print("\n" + "=" * 60)
print("최종 데이터셋 샘플")
print("=" * 60)
merged.head().T



최종 데이터셋 샘플


Unnamed: 0,0,1,2,3,4
order_id,e481f51cbdc54678b7cc49136f2d6af7,53cdb2fc8bc7dce0b6741e2150273451,47770eb9100c2d0c44946d9cf07ec65d,949d5b44dbf5de918fe9c16f97b45f8a,ad21c59c0840e6cb83a9ceb5573f8159
customer_id,9ef432eb6251297304e76186b10a928d,b0830fb4747a6c6d20dea0b8c802d7ef,41ce2a54c0b03bf3443c3d931a367089,f88197465ea7920adcdbec7375364d82,8ab97904e6daea8866dbdbc4fb7aad2c
order_status,delivered,delivered,delivered,delivered,delivered
order_purchase_timestamp,2017-10-02 10:56:33,2018-07-24 20:41:37,2018-08-08 08:38:49,2017-11-18 19:28:06,2018-02-13 21:18:39
order_approved_at,2017-10-02 11:07:15,2018-07-26 03:24:27,2018-08-08 08:55:23,2017-11-18 19:45:59,2018-02-13 22:20:29
order_delivered_carrier_date,2017-10-04 19:55:00,2018-07-26 14:31:00,2018-08-08 13:50:00,2017-11-22 13:39:59,2018-02-14 19:46:34
order_delivered_customer_date,2017-10-10 21:25:13,2018-08-07 15:27:45,2018-08-17 18:06:29,2017-12-02 00:28:42,2018-02-16 18:17:02
order_estimated_delivery_date,2017-10-18 00:00:00,2018-08-13 00:00:00,2018-09-04 00:00:00,2017-12-15 00:00:00,2018-02-26 00:00:00
order_item_id,1,1,1,1,1
product_id,87285b34884572647811a353c7ac498a,595fac2a385ac33a80bd5114aec74eb8,aa4383b373c6aca5d8797843e5594415,d0b61bfb1de832b15ba9d266ca96e5b0,65266b2da20d04dbe00c5c2d3bb7859e


In [142]:
# 최종 요약
print("\n" + "=" * 60)
print("전처리 완료 요약")
print("=" * 60)
print(f"\n최종 데이터셋 shape: {merged.shape}")
print(f"고유 주문 수: {merged['order_id'].nunique():,}")
print(f"고유 고객 수: {merged['customer_id'].nunique():,}")
print(f"고유 판매자 수: {merged['seller_id'].nunique():,}")
print(f"고유 상품 수: {merged['product_id'].nunique():,}")
print(f"\n결측치: {merged.isnull().sum().sum()}개")


전처리 완료 요약

최종 데이터셋 shape: (85804, 43)
고유 주문 수: 74,835
고유 고객 수: 74,835
고유 판매자 수: 2,817
고유 상품 수: 27,476

결측치: 58191개


In [143]:
merged_olist = merged

merged_olist.to_csv('merged_olist.csv', index=False)

In [144]:
# ML용 데이터셋 생성 - 필요한 컬럼만 선택
ml_columns = [
    'order_id',
    'order_approved_at',
    'order_delivered_carrier_date',
    'seller_id',
    'shipping_limit_date',
    'product_category_name_english',
    'review_score',
    'review_comment_message',
    'payment_types',
    'has_text_review',
    'seller_processing_days'
]

ML_olist = merged_olist[ml_columns].copy()

print("=" * 60)
print("ML용 데이터셋 생성 완료")
print("=" * 60)
print(f"\n선택된 컬럼 ({len(ml_columns)}개):")
for col in ml_columns:
    print(f"  - {col}")
print(f"\n데이터셋 shape: {ML_olist.shape}")
print(f"\n결측치 현황:")
print(ML_olist.isnull().sum())


ML용 데이터셋 생성 완료

선택된 컬럼 (11개):
  - order_id
  - order_approved_at
  - order_delivered_carrier_date
  - seller_id
  - shipping_limit_date
  - product_category_name_english
  - review_score
  - review_comment_message
  - payment_types
  - has_text_review
  - seller_processing_days

데이터셋 shape: (85804, 11)

결측치 현황:
order_id                             0
order_approved_at                    0
order_delivered_carrier_date         0
seller_id                            0
shipping_limit_date                  0
product_category_name_english        0
review_score                         0
review_comment_message           49273
payment_types                        0
has_text_review                      0
seller_processing_days               0
dtype: int64


In [145]:
# ML 데이터셋 샘플
print("\n" + "=" * 60)
print("ML 데이터셋 샘플")
print("=" * 60)
ML_olist.head().T



ML 데이터셋 샘플


Unnamed: 0,0,1,2,3,4
order_id,e481f51cbdc54678b7cc49136f2d6af7,53cdb2fc8bc7dce0b6741e2150273451,47770eb9100c2d0c44946d9cf07ec65d,949d5b44dbf5de918fe9c16f97b45f8a,ad21c59c0840e6cb83a9ceb5573f8159
order_approved_at,2017-10-02 11:07:15,2018-07-26 03:24:27,2018-08-08 08:55:23,2017-11-18 19:45:59,2018-02-13 22:20:29
order_delivered_carrier_date,2017-10-04 19:55:00,2018-07-26 14:31:00,2018-08-08 13:50:00,2017-11-22 13:39:59,2018-02-14 19:46:34
seller_id,3504c0cb71d7fa48d967e0e4c94d59d9,289cdb325fb7e7f891c38608bf9e0962,4869f7a5dfa277a7dca6462dcf3b52b2,66922902710d126a0e7d26b0e3805106,2c9e548be18521d1c43cde1c582c6de8
shipping_limit_date,2017-10-06 11:07:15,2018-07-30 03:24:27,2018-08-13 08:55:23,2017-11-23 19:45:59,2018-02-19 20:31:37
product_category_name_english,housewares,perfumery,auto,pet_shop,stationery
review_score,4.0,4.0,5.0,5.0,5.0
review_comment_message,"Não testei o produto ainda, mas ele veio corre...",Muito bom o produto.,,O produto foi exatamente o que eu esperava e e...,
payment_types,"credit_card,voucher",boleto,credit_card,credit_card,credit_card
has_text_review,True,True,False,True,False


In [146]:
ML_olist.to_csv(f'{DATA_PATH}ML_olist.csv', index=False)
print(f"\n저장 완료: {DATA_PATH}ML_olist.csv")


저장 완료: Olist_DataSet/ML_olist.csv
