 环境配置与数据源连接
项目背景： 本项目旨在分析巴西 Olist 电商平台的物流效率与用户评价之间的关系。数据集包含 10 万余笔订单信息，存储于本地 MySQL 数据库中。

In [None]:
import pandas as pd 
import os
from sqlalchemy import create_engine
engine = create_engine('mysql+pymysql://root:xxxxxx@localhost:3306/olist_db')
folder_path = r"C:\Users\xxxxx

实现从本地指定路径到 MySQL 数据库的自动化数据迁移。
文件遍历： 扫描指定工作目录下的所有文件。
条件筛选： 自动识别后缀名为 .csv 的数据集。
动态映射： 提取文件名作为数据库表名，实现表结构与物理文件的对应。
批量写入： 利用 pandas 读取数据并结合 sqlalchemy 引擎，将数据全量写入数据库。

In [None]:
for filename in os.listdir(folder_path):
    if filename.endswith(".csv"): 
        full_path = os.path.join(folder_path, filename)
        table_name = filename.replace(".csv", "")
        df = pd.read_csv(full_path)
        df.to_sql(table_name, con=engine, if_exists='replace', index=False)


将原始产品数据中的葡萄牙语分类名称映射为英文名称，并处理缺失值，生成标准化的产品信息表。

In [None]:

df_products = pd.read_sql("SELECT * FROM olist_products_dataset", con=engine)
df_translation = pd.read_sql("SELECT * FROM product_category_name_translation", con=engine)
df_merged = pd.merge(df_products, df_translation, on='product_category_name', how='left')
df_merged['product_category_name_english'] = df_merged['product_category_name_english'].fillna('others')
df_cleaned = df_merged.drop('product_category_name', axis=1)
df_cleaned = df_cleaned.rename(columns={'product_category_name_english': 'product_category_name'})
df_cleaned.to_sql('products_cleaned', con=engine, if_exists='replace', index=False)

时间格式标准化与核心物流指标提取

In [None]:
df_orders = pd.read_sql("SELECT * FROM olist_orders_dataset", con=engine)
time_columns = [
    'order_purchase_timestamp', 
    'order_approved_at', 
    'order_delivered_carrier_date', 
    'order_delivered_customer_date', 
    'order_estimated_delivery_date'
]
for col in time_columns:
    df_orders[col] = pd.to_datetime(df_orders[col])
df_orders['delivery_days'] = (df_orders['order_delivered_customer_date'] - df_orders['order_purchase_timestamp']).dt.days
df_orders.to_sql('orders_cleaned', con=engine, if_exists='replace', index=False)
df_orders.to_sql('orders_cleaned', con=engine, if_exists='replace', index=False)