In [None]:
# Olist卖家分级分类分析

## 分析背景
基于Amazon Global Selling ESM (Existing Seller Management) 最佳实践，构建数据驱动的卖家分级管理体系。

## 业务目标
1. **精准分级**: 建立多维度卖家评估模型
2. **风险识别**: 提前发现问题卖家
3. **增长机会**: 识别高潜力卖家群体
4. **资源配置**: 为不同等级卖家制定差异化策略

## 模型方法
- **业务规则**: 基于行业经验的分级标准
- **机器学习**: K-means聚类发现数据模式
- **混合方法**: 结合规则和算法的最优方案


In [None]:
# 导入必要的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
import warnings
warnings.filterwarnings('ignore')

# 导入自定义模块
import sys
sys.path.append('../src')
from business_metrics import SellerMetricsFramework, TIER_STRATEGIES
from data_pipeline import OlistDataPipeline
from seller_segmentation import SellerSegmentationModel

# 设置显示
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS', 'SimHei']
plt.rcParams['axes.unicode_minus'] = False
pd.set_option('display.max_columns', None)


In [None]:
## 1. 数据准备与特征工程


In [None]:
# 运行数据处理管道
print("🔄 运行数据处理管道...")
pipeline = OlistDataPipeline()
pipeline_results = pipeline.run_full_pipeline(save_output=True)

# 获取处理后的卖家特征数据
seller_features = pipeline_results['seller_features']
print(f"\n📊 卖家特征数据: {seller_features.shape}")
print(f"🎯 活跃卖家数量: {(seller_features['total_orders'] > 0).sum():,}")

# 显示关键特征的描述统计
key_features = ['total_revenue', 'total_orders', 'avg_review_score', 'unique_products', 'positive_rate']
print(f"\n📋 关键特征描述统计:")
seller_features[key_features].describe().round(2)
