In [1]:
import pandas as pd
import sqlite3

# CSV 파일 경로
csv_files = {
    "customers": "olist_customers_dataset.csv",
    "orders": "olist_orders_dataset.csv",
    "geolocation": "olist_geolocation_dataset.csv",
    "products": "olist_products_dataset.csv",
    "order_items": "olist_order_items_dataset.csv",
    "sellers": "olist_sellers_dataset.csv",
    "payments": "olist_order_payments_dataset.csv",
    "reviews": "olist_order_reviews_dataset.csv",
    "product_categories": "product_category_name_translation.csv"
}

In [2]:
# SQLite 데이터베이스 연결 생성
conn = sqlite3.connect('ecommerce.db')

# 각 CSV 파일을 읽고 데이터베이스에 테이블로 저장
for table_name, file_path in csv_files.items():
    # CSV 파일을 DataFrame으로 로드
    df = pd.read_csv(f"data/{file_path}")
    
    # DataFrame을 SQLite 데이터베이스의 테이블로 저장
    # if_exists='replace'는 테이블이 이미 존재하는 경우 대체함
    # index=False는 DataFrame 인덱스를 테이블에 저장하지 않음
    df.to_sql(table_name, conn, if_exists='replace', index=False)

In [3]:
# 모든 테이블 이름 조회
cursor = conn.execute("SELECT name FROM sqlite_master WHERE type='table'")
tables = cursor.fetchall()
tables

[('customers',),
 ('orders',),
 ('geolocation',),
 ('products',),
 ('order_items',),
 ('sellers',),
 ('payments',),
 ('reviews',),
 ('product_categories',)]

In [4]:
# 각 테이블의 스키마 조회 및 출력
for table in tables:
    table_name = table[0]
    print(f"\nSchema of '{table_name}' table:")
    cursor = conn.execute(f"PRAGMA table_info('{table_name}')")
    columns = cursor.fetchall()
    for column in columns:
        print(column)


Schema of 'customers' table:
(0, 'customer_id', 'TEXT', 0, None, 0)
(1, 'customer_unique_id', 'TEXT', 0, None, 0)
(2, 'customer_zip_code_prefix', 'INTEGER', 0, None, 0)
(3, 'customer_city', 'TEXT', 0, None, 0)
(4, 'customer_state', 'TEXT', 0, None, 0)

Schema of 'orders' table:
(0, 'order_id', 'TEXT', 0, None, 0)
(1, 'customer_id', 'TEXT', 0, None, 0)
(2, 'order_status', 'TEXT', 0, None, 0)
(3, 'order_purchase_timestamp', 'TEXT', 0, None, 0)
(4, 'order_approved_at', 'TEXT', 0, None, 0)
(5, 'order_delivered_carrier_date', 'TEXT', 0, None, 0)
(6, 'order_delivered_customer_date', 'TEXT', 0, None, 0)
(7, 'order_estimated_delivery_date', 'TEXT', 0, None, 0)

Schema of 'geolocation' table:
(0, 'geolocation_zip_code_prefix', 'INTEGER', 0, None, 0)
(1, 'geolocation_lat', 'REAL', 0, None, 0)
(2, 'geolocation_lng', 'REAL', 0, None, 0)
(3, 'geolocation_city', 'TEXT', 0, None, 0)
(4, 'geolocation_state', 'TEXT', 0, None, 0)

Schema of 'products' table:
(0, 'product_id', 'TEXT', 0, None, 0)
(1, 'p

In [5]:
# 데이터베이스 연결 종료
conn.close()