# 가상의 데이터 생성 및 추가

In [2]:
import pandas as pd
import numpy as np
from sqlalchemy import create_engine, text
import time
from sqlalchemy import MetaData, Table, Column, Integer, String, DECIMAL, TIMESTAMP, Text, DATETIME

# --- 데이터베이스 연결 설정 ---
DB_URL = 'mysql+mysqlconnector://evan:123456@localhost:3306/de_etl_book'
TABLE_NAME = 'coffee_sales'

# --- 데이터 생성 설정 ---
# 약 100MB 데이터 생성을 위한 대략적인 레코드 수
NUM_RECORDS = 500000

# 데이터프레임 생성
print(f"Generating {NUM_RECORDS} records...")
start_time = time.time()

# 시계열 데이터 (2024년 1월 1일부터)
# FutureWarning 해결을 위해 'H' 대신 'h' 사용
dates = pd.to_datetime(pd.date_range(start='2024-01-01', periods=NUM_RECORDS, freq='h'))

# 랜덤 데이터 생성
stores = np.random.choice(['Store A', 'Store B', 'Store C', 'Store D'], NUM_RECORDS)
product_types = np.random.choice(['Espresso', 'Latte', 'Americano', 'Cappuccino'], NUM_RECORDS)
weathers = np.random.choice(['Sunny', 'Cloudy', 'Rainy', 'Snowy'], NUM_RECORDS)
# 온도는 계절에 따라 변화하도록 가정
temperatures = np.random.randint(-10, 35, NUM_RECORDS)
# 판매량은 날씨와 온도에 영향을 받는다고 가정 (예시)
sales = np.random.randint(50, 200, NUM_RECORDS) + (temperatures * 2)

# 데이터프레임으로 변환
df = pd.DataFrame({
    'sale_datetime': dates,
    'store_name': stores,
    'product_type': product_types,
    'weather': weathers,
    'temperature': temperatures,
    'sales_quantity': sales
})

generation_time = time.time() - start_time
print(f"Dataframe generated in {generation_time:.2f} seconds.")
print(f"Dataframe size in memory: {df.memory_usage(deep=True).sum() / (1024*1024):.2f} MB")

# --- 데이터베이스에 삽입 ---
print(f"Connecting to database and inserting data into '{TABLE_NAME}'...")
start_time = time.time()

try:
    engine = create_engine(DB_URL)
    
    # SQLAlchemy를 사용하여 테이블 스키마 정의 및 생성
    with engine.connect() as conn:
        # 수정된 부분: raw SQL을 text()로 감싸서 전달
        conn.execute(text(f'DROP TABLE IF EXISTS {TABLE_NAME};'))
        print(f"Table '{TABLE_NAME}' dropped if it existed.")
        
        # 새로운 테이블 스키마 정의
        meta = MetaData()
        sales_table = Table(
            TABLE_NAME, meta,
            Column('id', Integer, primary_key=True, autoincrement=True),
            Column('sale_datetime', DATETIME, nullable=False),
            Column('store_name', String(50), nullable=False),
            Column('product_type', String(50), nullable=False),
            Column('weather', String(20), nullable=False),
            Column('temperature', DECIMAL(5, 2), nullable=False),
            Column('sales_quantity', Integer, nullable=False)
        )
        
        # 테이블 생성
        meta.create_all(engine)
        print(f"Table '{TABLE_NAME}' created with defined schema.")

    # 데이터를 데이터베이스에 삽입 (chunksize를 사용하여 대용량 삽입 최적화)
    df.to_sql(TABLE_NAME, engine, if_exists='append', index=False, chunksize=10000)
    
    insert_time = time.time() - start_time
    print(f"Data successfully inserted in {insert_time:.2f} seconds.")
    
except Exception as e:
    print(f"An error occurred: {e}")

print("Script finished.")

Generating 500000 records...
Dataframe generated in 0.26 seconds.
Dataframe size in memory: 102.64 MB
Connecting to database and inserting data into 'coffee_sales'...
Table 'coffee_sales' dropped if it existed.
Table 'coffee_sales' created with defined schema.
Data successfully inserted in 7.01 seconds.
Script finished.
