In [1]:
import pandas as pd
from sqlalchemy.types import Integer, String, Text, DateTime, DECIMAL, SmallInteger
from sqlalchemy import create_engine
import numpy as np
import pymysql

In [None]:
file_path = r"C:\Users\color\Desktop\Online Retail\data\Online Retail.csv"

print(f"파일 경로: {file_path}")

# CSV 읽기
df = pd.read_csv(file_path, encoding='ISO-8859-1', low_memory=False)

print(f"\n원본 데이터: {len(df):,}행 x {len(df.columns)}열")
print(f"컬럼명: {df.columns.tolist()}")


#데이터 전처리
# 1. CustomerID: 빈 값 → NULL
df['CustomerID'] = pd.to_numeric(df['CustomerID'], errors='coerce')

# 2. InvoiceDate: 날짜 변환
df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'], errors='coerce')

# 3. Description: 빈 값 처리
df['Description'] = df['Description'].fillna('Unknown Product')

# 4. 총액 계산
df['TotalPrice'] = df['Quantity'] * df['UnitPrice']

# 5. 취소 거래 플래그
df['IsCancelled'] = df['InvoiceNo'].str.startswith('C', na=False).astype(int)


print(f"  - 최종 행 수: {len(df):,}")
print(f"  - 고유 고객 수: {df['CustomerID'].nunique():,}")
print(f"  - 고유 상품 수: {df['StockCode'].nunique():,}")
print(f"  - CustomerID NULL: {df['CustomerID'].isna().sum():,}개 ({df['CustomerID'].isna().sum()/len(df)*100:.1f}%)")
print(f"  - 취소 거래: {df['IsCancelled'].sum():,}개")
print(f"  - 날짜 범위: {df['InvoiceDate'].min()} ~ {df['InvoiceDate'].max()}")

print("\n 결측치 현황:")
print(df.isnull().sum())

print("\n 샘플 데이터 (처음 5행):")
print(df.head())

파일 경로: C:\Users\color\Desktop\Online Retail\data\Online Retail.csv

원본 데이터: 541,909행 x 8열
컬럼명: ['InvoiceNo', 'StockCode', 'Description', 'Quantity', 'InvoiceDate', 'UnitPrice', 'CustomerID', 'Country']
  - 최종 행 수: 541,909
  - 고유 고객 수: 4,372
  - 고유 상품 수: 4,070
  - CustomerID NULL: 135,080개 (24.9%)
  - 취소 거래: 9,288개
  - 날짜 범위: 2010-12-01 08:26:00 ~ 2011-12-09 12:50:00

 결측치 현황:
InvoiceNo           0
StockCode           0
Description         0
Quantity            0
InvoiceDate         0
UnitPrice           0
CustomerID     135080
Country             0
TotalPrice          0
IsCancelled         0
dtype: int64

 샘플 데이터 (처음 5행):
  InvoiceNo StockCode                          Description  Quantity  \
0    536365    85123A   WHITE HANGING HEART T-LIGHT HOLDER         6   
1    536365     71053                  WHITE METAL LANTERN         6   
2    536365    84406B       CREAM CUPID HEARTS COAT HANGER         8   
3    536365    84029G  KNITTED UNION FLAG HOT WATER BOTTLE         6   
4    53636

In [None]:
engine = create_engine('mysql+pymysql://root:Korea2025@localhost/ecommerce_db')

df.to_sql(
    'online_retail',
    con=engine,
    if_exists='replace',
    index=False,
    chunksize=5000,
    dtype={
        'InvoiceNo': String(20),
        'StockCode': String(20),
        'Description': Text,
        'Quantity': Integer,
        'InvoiceDate': DateTime,
        'UnitPrice': DECIMAL(10, 3),
        'CustomerID': Integer,
        'Country': String(100),
        'TotalPrice': DECIMAL(10, 2),
        'IsCancelled': SmallInteger
    },
    method='multi'
)
print(f"\n {len(df):,}행 MySQL 로드 완료!")


 541,909행 MySQL 로드 완료!


In [31]:
from sqlalchemy import text

with engine.connect() as conn:
    result = conn.execute(text("SELECT COUNT(*) FROM online_retail"))
    total_rows = result.fetchone()[0]
    print("MySQL 온라인 리테일 테이블 총 행 수:", total_rows)


MySQL 온라인 리테일 테이블 총 행 수: 541909
