In [None]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go

from datetime import datetime, timedelta
import calendar

from scipy import stats
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
sns.set_style("whitegrid")
plt.style.use('seaborn-v0_8')

import warnings
warnings.filterwarnings('ignore')

print("环境准备完成！")

In [None]:
def generate_netease_music_data():
    """
    生成网易云音乐模拟数据集
    """
    np.random.seed(42)
    
    # 1. 生成用户基础信息
    n_users = 10000
    users_data = {
        'user_id': [f'user_{i:06d}' for i in range(1, n_users + 1)],
        'age': np.random.normal(25, 8, n_users).astype(int),
        'gender': np.random.choice(['M', 'F'], n_users, p=[0.52, 0.48]),
        'city': np.random.choice(['北京', '上海', '广州', '深圳', '杭州', '成都', '武汉', '西安'], 
                                n_users, p=[0.15, 0.12, 0.08, 0.08, 0.06, 0.06, 0.05, 0.4]),
        'vip_level': np.random.choice([0, 1, 2], n_users, p=[0.7, 0.25, 0.05]),
        'register_date': pd.date_range('2020-01-01', '2023-12-31', periods=n_users)
    }
    users_df = pd.DataFrame(users_data)
    
    # 2. 生成歌曲信息
    n_songs = 5000
    genres = ['流行', '摇滚', '民谣', '电子', '古典', '爵士', '说唱', '乡村']
    songs_data = {
        'song_id': [f'song_{i:06d}' for i in range(1, n_songs + 1)],
        'song_name': [f'歌曲_{i}' for i in range(1, n_songs + 1)],
        'artist': [f'艺术家_{np.random.randint(1, 1000)}' for _ in range(n_songs)],
        'genre': np.random.choice(genres, n_songs),
        'duration': np.random.normal(240, 60, n_songs).astype(int),  # 秒
        'release_year': np.random.randint(1990, 2024, n_songs)
    }
    songs_df = pd.DataFrame(songs_data)
    
    # 3. 生成听歌记录
    n_records = 500000
    listening_data = {
        'user_id': np.random.choice(users_df['user_id'], n_records),
        'song_id': np.random.choice(songs_df['song_id'], n_records),
        'play_time': pd.date_range('2023-01-01', '2023-12-31', periods=n_records),
        'listen_duration': np.random.exponential(180, n_records).astype(int),
                'skip_flag': np.random.choice([0, 1], n_records, p=[0.7, 0.3])
    }
    listening_df = pd.DataFrame(listening_data)
                    

def generate_netease_music_data():
    """
    生成网易云音乐模拟数据集
    """
    np.random.seed(42)
    
    # 1. 生成用户基础信息
    n_users = 10000
    users_data = {
        'user_id': [f'user_{i:06d}' for i in range(1, n_users + 1)],
        'age': np.random.normal(25, 8, n_users).astype(int),
        'gender': np.random.choice(['M', 'F'], n_users, p=[0.52, 0.48]),
        'city': np.random.choice(['北京', '上海', '广州', '深圳', '杭州', '成都', '武汉', '西安'], 
                                n_users, p=[0.15, 0.12, 0.08, 0.08, 0.06, 0.06, 0.05, 0.4]),
        'vip_level': np.random.choice([0, 1, 2], n_users, p=[0.7, 0.25, 0.05]),
        'register_date': pd.date_range('2020-01-01', '2023-12-31', periods=n_users)
    }
    users_df = pd.DataFrame(users_data)
    
    # 2. 生成歌曲信息
    n_songs = 5000
    genres = ['流行', '摇滚', '民谣', '电子', '古典', '爵士', '说唱', '乡村']
    songs_data = {
        'song_id': [f'song_{i:06d}' for i in range(1, n_songs + 1)],
        'song_name': [f'歌曲_{i}' for i in range(1, n_songs + 1)],
        'artist': [f'艺术家_{np.random.randint(1, 1000)}' for _ in range(n_songs)],
        'genre': np.random.choice(genres, n_songs),
        'duration': np.random.normal(240, 60, n_songs).astype(int),  # 秒
        'release_year': np.random.randint(1990, 2024, n_songs)
    }
    songs_df = pd.DataFrame(songs_data)
    
    # 3. 生成听歌记录
    n_records = 500000
    listening_data = {
        'user_id': np.random.choice(users_df['user_id'], n_records),
        'song_id': np.random.choice(songs_df['song_id'], n_records),
        'play_time': pd.date_range('2023-01-01', '2023-12-31', periods=n_records),
        'listen_duration': np.random.exponential(180, n_records).astype(int),
        'skip_flag': np.random.choice([0, 1], n_records, p=[0.7, 0.3])
    }
    listening_df = pd.DataFrame(listening_data)
    
    # 4. 生成用户互动数据
    n_interactions = 100000
    interaction_types = ['like', 'comment', 'share', 'collect']
    interactions_data = {
        'user_id': np.random.choice(users_df['user_id'], n_interactions),
        'song_id': np.random.choice(songs_df['song_id'], n_interactions),
        'action_type': np.random.choice(interaction_types, n_interactions, 
                                       p=[0.5, 0.2, 0.15, 0.15]),
        'timestamp': pd.date_range('2023-01-01', '2023-12-31', periods=n_interactions)
    }
    interactions_df = pd.DataFrame(interactions_data)
    
    # 5. 生成歌单数据
    n_playlist_items = 80000
    playlists_data = {
        'playlist_id': [f'playlist_{np.random.randint(1, 10000):06d}' for _ in range(n_playlist_items)],
        'user_id': np.random.choice(users_df['user_id'], n_playlist_items),
        'song_id': np.random.choice(songs_df['song_id'], n_playlist_items),
        'create_time': pd.date_range('2023-01-01', '2023-12-31', periods=n_playlist_items)
    }
    playlists_df = pd.DataFrame(playlists_data)
    
    return users_df, songs_df, listening_df, interactions_df, playlists_df

# 生成数据
users_df, songs_df, listening_df, interactions_df, playlists_df = generate_netease_music_data()

print("数据生成完成！")
print(f"用户数据: {users_df.shape}")
print(f"歌曲数据: {songs_df.shape}")
print(f"听歌记录: {listening_df.shape}")
print(f"互动数据: {interactions_df.shape}")
print(f"歌单数据: {playlists_df.shape}")

In [None]:
# 1. 查看各表的基本信息
def explore_data_basic_info():
    """
    探索数据基本信息
    """
    datasets = {
        '用户数据': users_df,
        '歌曲数据': songs_df,
        '听歌记录': listening_df,
        '互动数据': interactions_df,
        '歌单数据': playlists_df
    }
    
    for name, df in datasets.items():
        print(f"\n{'='*50}")
        print(f"{name} 基本信息:")
        print(f"{'='*50}")
        print(f"数据形状: {df.shape}")
        print(f"列名: {list(df.columns)}")
        print(f"数据类型:\n{df.dtypes}")
        print(f"缺失值:\n{df.isnull().sum()}")
        print(f"前5行数据:\n{df.head()}")

explore_data_basic_info()


# 2. 数据质量检查
def check_data_quality():
    """
    检查数据质量问题
    """
    print("数据质量检查报告")
    print("="*50)
    
    # 检查用户数据
    print("\n1. 用户数据质量:")
    print(f"   - 年龄范围: {users_df['age'].min()} - {users_df['age'].max()}")
    print(f"   - 异常年龄数量: {len(users_df[(users_df['age'] < 10) | (users_df['age'] > 80)])}")
    print(f"   - 重复用户ID: {users_df['user_id'].duplicated().sum()}")
    
    # 检查歌曲数据
    print("\n2. 歌曲数据质量:")
    print(f"   - 歌曲时长范围: {songs_df['duration'].min()} - {songs_df['duration'].max()} 秒")
    print(f"   - 异常时长数量: {len(songs_df[(songs_df['duration'] < 30) | (songs_df['duration'] > 600)])}")
    print(f"   - 重复歌曲ID: {songs_df['song_id'].duplicated().sum()}")
    
    # 检查听歌记录
    print("\n3. 听歌记录质量:")
    print(f"   - 听歌时长范围: {listening_df['listen_duration'].min()} - {listening_df['listen_duration'].max()} 秒")
    print(f"   - 异常听歌时长: {len(listening_df[listening_df['listen_duration'] < 0])}")
    print(f"   - 用户ID唯一值: {listening_df['user_id'].nunique()}")
    print(f"   - 歌曲ID唯一值: {listening_df['song_id'].nunique()}")

check_data_quality()


# 3. 数据清洗
def clean_data():
    """
    清洗数据
    """
    global users_df, songs_df, listening_df, interactions_df, playlists_df
    
    print("开始数据清洗...")
    
    # 清洗用户数据
    # 处理异常年龄
    users_df = users_df[(users_df['age'] >= 10) & (users_df['age'] <= 80)]
    
    # 清洗歌曲数据
    # 处理异常时长
    songs_df = songs_df[(songs_df['duration'] >= 30) & (songs_df['duration'] <= 600)]
    
    # 清洗听歌记录
    # 移除负数听歌时长
    listening_df = listening_df[listening_df['listen_duration'] >= 0]
    
    # 确保外键关系正确
    valid_users = set(users_df['user_id'])
    valid_songs = set(songs_df['song_id'])
    
    listening_df = listening_df[
        listening_df['user_id'].isin(valid_users) & 
        listening_df['song_id'].isin(valid_songs)
    ]
    
    interactions_df = interactions_df[
        interactions_df['user_id'].isin(valid_users) & 
        interactions_df['song_id'].isin(valid_songs)
    ]
    
    playlists_df = playlists_df[
        playlists_df['user_id'].isin(valid_users) & 
        playlists_df['song_id'].isin(valid_songs)
    ]
    
    print("数据清洗完成！")
    print(f"清洗后数据量:")
    print(f"  用户: {len(users_df)}")
    print(f"  歌曲: {len(songs_df)}")
    print(f"  听歌记录: {len(listening_df)}")
    print(f"  互动记录: {len(interactions_df)}")
    print(f"  歌单记录: {len(playlists_df)}")

clean_data()

In [None]:
# 1. 用户年龄分布分析
def analyze_user_demographics():
    """
    分析用户人口统计学特征
    """
    fig, axes = plt.subplots(2, 2, figsize=(15, 12))
    
    # 年龄分布
    axes[0, 0].hist(users_df['age'], bins=30, alpha=0.7, color='skyblue', edgecolor='black')
    axes[0, 0].set_title('用户年龄分布', fontsize=14, fontweight='bold')
    axes[0, 0].set_xlabel('年龄')
    axes[0, 0].set_ylabel('用户数量')
    axes[0, 0].axvline(users_df['age'].mean(), color='red', linestyle='--', 
                       label=f'平均年龄: {users_df["age"].mean():.1f}')
    axes[0, 0].legend()
    
    # 性别分布
    gender_counts = users_df['gender'].value_counts()
    axes[0, 1].pie(gender_counts.values, labels=['男性', '女性'], autopct='%1.1f%%',
                   colors=['lightblue', 'lightpink'])
    axes[0, 1].set_title('用户性别分布', fontsize=14, fontweight='bold')
    
    # 城市分布
    city_counts = users_df['city'].value_counts()
    axes[1, 0].bar(range(len(city_counts)), city_counts.values, color='lightgreen')
    axes[1, 0].set_title('用户城市分布', fontsize=14, fontweight='bold')
    axes[1, 0].set_xlabel('城市')
    axes[1, 0].set_ylabel('用户数量')
    axes[1, 0].set_xticks(range(len(city_counts)))
    axes[1, 0].set_xticklabels(city_counts.index, rotation=45)
    
    # VIP等级分布
    vip_counts = users_df['vip_level'].value_counts().sort_index()
    vip_labels = ['普通用户', 'VIP用户', '超级VIP']
    axes[1, 1].bar(range(len(vip_counts)), vip_counts.values, 
                   color=['gray', 'gold', 'purple'])
    axes[1, 1].set_title('用户VIP等级分布', fontsize=14, fontweight='bold')
    axes[1, 1].set_xlabel('VIP等级')
    axes[1, 1].set_ylabel('用户数量')
    axes[1, 1].set_xticks(range(len(vip_counts)))
    axes[1, 1].set_xticklabels(vip_labels)
    
    plt.tight_layout()
    plt.show()
    
    # 输出统计信息
    print("用户基础画像统计:")
    print(f"总用户数: {len(users_df):,}")
    print(f"平均年龄: {users_df['age'].mean():.1f} 岁")
    print(f"年龄中位数: {users_df['age'].median():.1f} 岁")
    print(f"男女比例: {users_df['gender'].value_counts()['M']/len(users_df):.1%} : {users_df['gender'].value_counts()['F']/len(users_df):.1%}")
    print(f"VIP用户占比: {(users_df['vip_level'] > 0).sum()/len(users_df):.1%}")

analyze_user_demographics()

In [None]:
# 2. 用户注册趋势分析
def analyze_user_registration_trend():
    """
    分析用户注册趋势
    """
    # 按月统计注册用户数
    users_df['register_month'] = users_df['register_date'].dt.to_period('M')
    monthly_registrations = users_df.groupby('register_month').size()
    
    # 按年统计注册用户数
    users_df['register_year'] = users_df['register_date'].dt.year
    yearly_registrations = users_df.groupby('register_year').size()
    
    fig, axes = plt.subplots(1, 2, figsize=(15, 6))
    
    # 月度注册趋势
    monthly_registrations.plot(kind='line', ax=axes[0], marker='o', linewidth=2)
    axes[0].set_title('月度用户注册趋势', fontsize=14, fontweight='bold')
    axes[0].set_xlabel('注册月份')
    axes[0].set_ylabel('注册用户数')
    axes[0].grid(True, alpha=0.3)
    
    # 年度注册趋势
    yearly_registrations.plot(kind='bar', ax=axes[1], color='lightcoral')
    axes[1].set_title('年度用户注册趋势', fontsize=14, fontweight='bold')
    axes[1].set_xlabel('注册年份')
    axes[1].set_ylabel('注册用户数')
    axes[1].tick_params(axis='x', rotation=0)
    
    plt.tight_layout()
    plt.show()
    
    print("用户注册趋势分析:")
    print(f"注册高峰年份: {yearly_registrations.idxmax()} ({yearly_registrations.max():,} 用户)")
    print(f"平均月注册量: {monthly_registrations.mean():.0f} 用户")
    print(f"最高月注册量: {monthly_registrations.max():,} 用户")

analyze_user_registration_trend()


# 3. 基于年龄和VIP等级的用户分群
def analyze_user_segments():
    """
    用户分群分析
    """
    # 创建年龄分组
    users_df['age_group'] = pd.cut(users_df['age'], 
                                   bins=[0, 18, 25, 35, 45, 100], 
                                   labels=['<18', '18-25', '26-35', '36-45', '45+'])
    
    # 创建用户分群透视表
    user_segments = pd.crosstab(users_df['age_group'], users_df['vip_level'], 
                                margins=True, margins_name='总计')
    
    print("用户分群分析 (年龄组 × VIP等级):")
    print(user_segments)
    
    # 计算各分群的比例
    user_segments_pct = pd.crosstab(users_df['age_group'], users_df['vip_level'], 
                                    normalize='index') * 100
    
    # 可视化用户分群
    fig, axes = plt.subplots(1, 2, figsize=(15, 6))
    
    # 绝对数量热力图
    sns.heatmap(user_segments.iloc[:-1, :-1], annot=True, fmt='d', 
                cmap='Blues', ax=axes[0])
    axes[0].set_title('用户分群数量分布', fontsize=14, fontweight='bold')
    axes[0].set_xlabel('VIP等级')
    axes[0].set_ylabel('年龄组')
    
    # 比例热力图
    sns.heatmap(user_segments_pct, annot=True, fmt='.1f', 
                cmap='Oranges', ax=axes[1])
    axes[1].set_title('用户分群比例分布 (%)', fontsize=14, fontweight='bold')
    axes[1].set_xlabel('VIP等级')
    axes[1].set_ylabel('年龄组')
    
    plt.tight_layout()
    plt.show()
    
    # 分析各年龄组的VIP转化率
    vip_conversion = users_df.groupby('age_group')['vip_level'].apply(
        lambda x: (x > 0).sum() / len(x) * 100
    )
    
    print("\n各年龄组VIP转化率:")
    for age_group, rate in vip_conversion.items():
        print(f"{age_group}: {rate:.1f}%")

analyze_user_segments()


# 1. 用户听歌时间模式分析
def analyze_listening_time_patterns():
    """
    分析用户听歌时间模式
    """
    # 提取时间特征
    listening_df['hour'] = listening_df['play_time'].dt.hour
    listening_df['day_of_week'] = listening_df['play_time'].dt.day_name()
    listening_df['month'] = listening_df['play_time'].dt.month
    listening_df['is_weekend'] = listening_df['play_time'].dt.weekday >= 5
    
    fig, axes = plt.subplots(2, 2, figsize=(16, 12))
    
    # 小时分布
    hourly_listening = listening_df.groupby('hour').size()
    axes[0, 0].plot(hourly_listening.index, hourly_listening.values, 
                    marker='o', linewidth=2, markersize=6)
    axes[0, 0].set_title('24小时听歌活跃度分布', fontsize=14, fontweight='bold')
    axes[0, 0].set_xlabel('小时')
    axes[0, 0].set_ylabel('播放次数')
    axes[0, 0].grid(True, alpha=0.3)
    axes[0, 0].axvline(x=hourly_listening.idxmax(), color='red', linestyle='--', 
                       label=f'峰值: {hourly_listening.idxmax()}点')
    axes[0, 0].legend()
    
    # 星期分布
    day_order = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
    day_chinese = ['周一', '周二', '周三', '周四', '周五', '周六', '周日']
    daily_listening = listening_df.groupby('day_of_week').size().reindex(day_order)
    
    axes[0, 1].bar(range(len(daily_listening)), daily_listening.values, 
                   color=['lightblue' if day in ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday'] 
                          else 'lightcoral' for day in day_order])
    axes[0, 1].set_title('一周听歌活跃度分布', fontsize=14, fontweight='bold')
    axes[0, 1].set_xlabel('星期')
    axes[0, 1].set_ylabel('播放次数')
    axes[0, 1].set_xticks(range(len(daily_listening)))
    axes[0, 1].set_xticklabels(day_chinese)
    
    # 月份分布
    monthly_listening = listening_df.groupby('month').size()
    axes[1, 0].bar(monthly_listening.index, monthly_listening.values, color='lightgreen')
    axes[1, 0].set_title('月度听歌活跃度分布', fontsize=14, fontweight='bold')
    axes[1, 0].set_xlabel('月份')
    axes[1, 0].set_ylabel('播放次数')
    
    # 工作日vs周末
    weekend_listening = listening_df.groupby('is_weekend').size()
    weekend_labels = ['工作日', '周末']
    axes[1, 1].pie(weekend_listening.values, labels=weekend_labels, autopct='%1.1f%%',
                   colors=['lightblue', 'lightcoral'])
    axes[1, 1].set_title('工作日vs周末听歌分布', fontsize=14, fontweight='bold')
    
    plt.tight_layout()
    plt.show()
    
    # 输出关键发现
    print("听歌时间模式分析结果:")
    print(f"最活跃时间: {hourly_listening.idxmax()}点 ({hourly_listening.max():,} 次播放)")
    print(f"最活跃日期: {day_chinese[day_order.index(daily_listening.idxmax())]} ({daily_listening.max():,} 次播放)")
    print(f"周末播放占比: {weekend_listening[True]/(weekend_listening[True]+weekend_listening[False]):.1%}")

analyze_listening_time_patterns()

# 2. 音乐偏好分析
def analyze_music_preferences():
    """
    分析用户音乐偏好
    """
    # 合并听歌记录和歌曲信息
    listening_with_songs = listening_df.merge(songs_df, on='song_id', how='left')
    
    # 分析流派偏好
    genre_popularity = listening_with_songs.groupby('genre').agg({
        'user_id': 'nunique',  # 听众数量
        'song_id': 'count',    # 播放次数
        'listen_duration': 'sum'  # 总听歌时长
    }).rename(columns={
        'user_id': '听众数量',
        'song_id': '播放次数', 
        'listen_duration': '总时长'
    })
    
    # 计算平均播放时长
    genre_popularity['平均时长'] = genre_popularity['总时长'] / genre_popularity['播放次数']
    
    # 按播放次数排序
    genre_popularity = genre_popularity.sort_values('播放次数', ascending=False)
    
    print("音乐流派受欢迎程度排行:")
    print(genre_popularity)
    
    # 可视化流派偏好
    fig, axes = plt.subplots(2, 2, figsize=(16, 12))
    
    # 流派播放次数
    top_genres = genre_popularity.head(8)
    axes[0, 0].barh(range(len(top_genres)), top_genres['播放次数'], color='skyblue')
    axes[0, 0].set_title('各流派播放次数排行', fontsize=14, fontweight='bold')
    axes[0, 0].set_xlabel('播放次数')
    axes[0, 0].set_yticks(range(len(top_genres)))
    axes[0, 0].set_yticklabels(top_genres.index)
    
    # 流派听众数量
    axes[0, 1].barh(range(len(top_genres)), top_genres['听众数量'], color='lightgreen')
    axes[0, 1].set_title('各流派听众数量排行', fontsize=14, fontweight='bold')
    axes[0, 1].set_xlabel('听众数量')
    axes[0, 1].set_yticks(range(len(top_genres)))
    axes[0, 1].set_yticklabels(top_genres.index)
    
    # 流派平均播放时长
    axes[1, 0].barh(range(len(top_genres)), top_genres['平均时长'], color='lightcoral')
    axes[1, 0].set_title('各流派平均播放时长', fontsize=14, fontweight='bold')
    axes[1, 0].set_xlabel('平均时长(秒)')
    axes[1, 0].set_yticks(range(len(top_genres)))
    axes[1, 0].set_yticklabels(top_genres.index)
    
    # 年代偏好分析
    decade_listening = listening_with_songs.copy()
    decade_listening['decade'] = (decade_listening['release_year'] // 10) * 10
    decade_popularity = decade_listening.groupby('decade').size().sort_values(ascending=False)
    
    axes[1, 1].bar(decade_popularity.index.astype(str) + 's', decade_popularity.values, 
                   color='gold')
    axes[1, 1].set_title('不同年代音乐受欢迎程度', fontsize=14, fontweight='bold')
    axes[1, 1].set_xlabel('年代')
    axes[1, 1].set_ylabel('播放次数')
    axes[1, 1].tick_params(axis='x', rotation=45)
    
    plt.tight_layout()
    plt.show()
    
    return genre_popularity

genre_stats = analyze_music_preferences()


# 3. 用户跳过行为分析
def analyze_skip_behavior():
    """
    分析用户跳过歌曲的行为模式
    """
    # 合并数据
    listening_with_songs = listening_df.merge(songs_df, on='song_id', how='left')
    
    # 计算跳过率
    overall_skip_rate = listening_df['skip_flag'].mean()
    
    # 按流派分析跳过率
    genre_skip_rate = listening_with_songs.groupby('genre').agg({
        'skip_flag': ['mean', 'count'],
        'listen_duration': 'mean',
        'duration': 'mean'
    }).round(3)
    
    genre_skip_rate.columns = ['跳过率', '总播放次数', '平均听歌时长', '歌曲平均时长']
    genre_skip_rate = genre_skip_rate.sort_values('跳过率')
    
    # 计算完整播放率
    genre_skip_rate['完整播放率'] = 1 - genre_skip_rate['跳过率']
    
    print(f"整体跳过率: {overall_skip_rate:.1%}")
    print("\n各流派跳过率分析:")
    print(genre_skip_rate)
    
    # 可视化跳过行为
    fig, axes = plt.subplots(2, 2, figsize=(16, 12))
    
    # 流派跳过率
    axes[0, 0].barh(range(len(genre_skip_rate)), genre_skip_rate['跳过率'], 
                    color='lightcoral')
    axes[0, 0].set_title('各流派跳过率', fontsize=14, fontweight='bold')
    axes[0, 0].set_xlabel('跳过率')
    axes[0, 0].set_yticks(range(len(genre_skip_rate)))
    axes[0, 0].set_yticklabels(genre_skip_rate.index)
    
    # 听歌时长 vs 跳过率散点图
    axes[0, 1].scatter(genre_skip_rate['平均听歌时长'], genre_skip_rate['跳过率'], 
                       s=100, alpha=0.7, color='blue')
    axes[0, 1].set_title('平均听歌时长 vs 跳过率', fontsize=14, fontweight='bold')
    axes[0, 1].set_xlabel('平均听歌时长(秒)')
    axes[0, 1].set_ylabel('跳过率')
    
    # 为每个点添加标签
    for i, genre in enumerate(genre_skip_rate.index):
        axes[0, 1].annotate(genre, 
                           (genre_skip_rate.loc[genre, '平均听歌时长'], 
                            genre_skip_rate.loc[genre, '跳过率']),
                           xytext=(5, 5), textcoords='offset points', fontsize=8)
    
    # 跳过 vs 不跳过的时长分布对比
    skip_duration = listening_df[listening_df['skip_flag'] == 1]['listen_duration']
    no_skip_duration = listening_df[listening_df['skip_flag'] == 0]['listen_duration']
    
    axes[1, 0].hist([skip_duration, no_skip_duration], bins=50, alpha=0.7, 
                    label=['跳过', '完整播放'], color=['red', 'green'])
    axes[1, 0].set_title('跳过 vs 完整播放的时长分布', fontsize=14, fontweight='bold')
    axes[1, 0].set_xlabel('听歌时长(秒)')
    axes[1, 0].set_ylabel('频次')
    axes[1, 0].legend()
    
    # 时间段跳过率
    listening_df['hour'] = listening_df['play_time'].dt.hour
    hourly_skip_rate = listening_df.groupby('hour')['skip_flag'].mean()
    
    axes[1, 1].plot(hourly_skip_rate.index, hourly_skip_rate.values, 
                    marker='o', linewidth=2, color='purple')
    axes[1, 1].set_title('24小时跳过率变化', fontsize=14, fontweight='bold')
    axes[1, 1].set_xlabel('小时')
    axes[1, 1].set_ylabel('跳过率')
    axes[1, 1].grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()
    
    # 关键发现
    print(f"\n关键发现:")
    print(f"跳过率最低的流派: {genre_skip_rate.index[0]} ({genre_skip_rate.iloc[0]['跳过率']:.1%})")
    print(f"跳过率最高的流派: {genre_skip_rate.index[-1]} ({genre_skip_rate.iloc[-1]['跳过率']:.1%})")
    print(f"跳过歌曲平均听歌时长: {skip_duration.mean():.1f}秒")
    print(f"完整播放歌曲平均听歌时长: {no_skip_duration.mean():.1f}秒")

analyze_skip_behavior()


# 1. 用户互动行为统计分析
def analyze_user_interactions():
    """
    分析用户互动行为
    """
    # 基本互动统计
    interaction_stats = interactions_df['action_type'].value_counts()
    interaction_pct = interactions_df['action_type'].value_counts(normalize=True) * 100
    
    print("用户互动行为统计:")
    print("="*40)
    for action, count in interaction_stats.items():
        pct = interaction_pct[action]
        print(f"{action}: {count:,} 次 ({pct:.1f}%)")
    
    # 每日互动趋势
    interactions_df['date'] = interactions_df['timestamp'].dt.date
    daily_interactions = interactions_df.groupby(['date', 'action_type']).size().unstack(fill_value=0)
    
    # 用户互动活跃度分析
    user_interaction_stats = interactions_df.groupby('user_id').agg({
        'action_type': 'count',
        'song_id': 'nunique'
    }).rename(columns={
        'action_type': '总互动次数',
        'song_id': '互动歌曲数'
    })
    
    # 计算用户互动多样性
    user_action_diversity = interactions_df.groupby('user_id')['action_type'].nunique()
    user_interaction_stats['互动类型数'] = user_action_diversity
    
    # 可视化
    fig, axes = plt.subplots(2, 2, figsize=(16, 12))
    
    # 互动类型分布饼图
    colors = ['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4']
    axes[0, 0].pie(interaction_stats.values, labels=interaction_stats.index, 
                   autopct='%1.1f%%', colors=colors)
    axes[0, 0].set_title('用户互动行为分布', fontsize=14, fontweight='bold')
    
    # 每日互动趋势
    daily_interactions.plot(ax=axes[0, 1], kind='line', marker='o')
    axes[0, 1].set_title('每日互动行为趋势', fontsize=14, fontweight='bold')
    axes[0, 1].set_xlabel('日期')
    axes[0, 1].set_ylabel('互动次数')
    axes[0, 1].legend(title='互动类型')
    axes[0, 1].tick_params(axis='x', rotation=45)
    
    # 用户互动活跃度分布
    axes[1, 0].hist(user_interaction_stats['总互动次数'], bins=50, alpha=0.7, color='skyblue')
    axes[1, 0].set_title('用户互动活跃度分布', fontsize=14, fontweight='bold')
    axes[1, 0].set_xlabel('总互动次数')
    axes[1, 0].set_ylabel('用户数量')
    axes[1, 0].axvline(user_interaction_stats['总互动次数'].mean(), 
                       color='red', linestyle='--', label='平均值')
    axes[1, 0].legend()
    
    # 互动多样性分析
    diversity_counts = user_action_diversity.value_counts().sort_index()
    axes[1, 1].bar(diversity_counts.index, diversity_counts.values, color='lightgreen')
    axes[1, 1].set_title('用户互动类型多样性分布', fontsize=14, fontweight='bold')
    axes[1, 1].set_xlabel('互动类型数量')
    axes[1, 1].set_ylabel('用户数量')
    
    plt.tight_layout()
    plt.show()
    
    # 输出关键指标
    print(f"\n关键互动指标:")
    print(f"总互动次数: {len(interactions_df):,}")
    print(f"活跃互动用户: {len(user_interaction_stats):,}")
    print(f"平均每用户互动次数: {user_interaction_stats['总互动次数'].mean():.1f}")
    print(f"互动用户占比: {len(user_interaction_stats)/len(users_df):.1%}")
    
    return user_interaction_stats

user_interaction_stats = analyze_user_interactions()


# 2. 高价值用户识别
def identify_high_value_users():
    """
    识别高价值用户
    """
    # 合并用户基础信息和互动数据
    user_value_metrics = users_df.merge(user_interaction_stats, 
                                        left_on='user_id', right_index=True, how='left')
    user_value_metrics = user_value_metrics.fillna(0)
    
    # 计算用户听歌活跃度
    user_listening_stats = listening_df.groupby('user_id').agg({
        'song_id': ['count', 'nunique'],
        'listen_duration': 'sum',
        'skip_flag': 'mean'
    })
    user_listening_stats.columns = ['总播放次数', '不重复歌曲数', '总听歌时长', '跳过率']
    
    # 合并听歌数据
    user_value_metrics = user_value_metrics.merge(user_listening_stats, 
                                                  left_on='user_id', right_index=True, how='left')
    user_value_metrics = user_value_metrics.fillna(0)
    
    # 计算用户价值得分
    # 标准化各项指标
    scaler = StandardScaler()
    metrics_to_scale = ['总互动次数', '总播放次数', '总听歌时长', '不重复歌曲数']
    user_value_metrics[metrics_to_scale] = scaler.fit_transform(user_value_metrics[metrics_to_scale])
    
    # 计算综合价值得分 (权重可调整)
    weights = {
        '总互动次数': 0.3,
        '总播放次数': 0.25,
        '总听歌时长': 0.25,
        '不重复歌曲数': 0.2
    }
    
    user_value_metrics['价值得分'] = sum(
        user_value_metrics[metric] * weight 
        for metric, weight in weights.items()
    )
    
    # 用户分层
    user_value_metrics['用户等级'] = pd.cut(
        user_value_metrics['价值得分'],
        bins=[-np.inf, -0.5, 0.5, 1.5, np.inf],
        labels=['低价值', '普通', '高价值', '超高价值']
    )
    
    # 统计各等级用户
    user_tier_stats = user_value_metrics['用户等级'].value_counts()
    print("用户价值分层统计:")
    print(user_tier_stats)
    
    # 各等级用户特征分析
    tier_analysis = user_value_metrics.groupby('用户等级').agg({
        'age': 'mean',
        'vip_level': 'mean',
        '总互动次数': 'mean',
        '总播放次数': 'mean',
        '总听歌时长': 'mean',
        '跳过率': 'mean'
    }).round(2)
    
    print("\n各等级用户特征对比:")
    print(tier_analysis)
    
    # 可视化用户价值分布
    fig, axes = plt.subplots(2, 2, figsize=(16, 12))
    
    # 用户等级分布
    user_tier_stats.plot(kind='bar', ax=axes[0, 0], color='skyblue')
    axes[0, 0].set_title('用户价值等级分布', fontsize=14, fontweight='bold')
    axes[0, 0].set_xlabel('用户等级')
    axes[0, 0].set_ylabel('用户数量')
    axes[0, 0].tick_params(axis='x', rotation=45)
    
    # 价值得分分布
    axes[0, 1].hist(user_value_metrics['价值得分'], bins=50, alpha=0.7, color='lightgreen')
    axes[0, 1].set_title('用户价值得分分布', fontsize=14, fontweight='bold')
    axes[0, 1].set_xlabel('价值得分')
    axes[0, 1].set_ylabel('用户数量')
    axes[0, 1].axvline(user_value_metrics['价值得分'].mean(), 
                       color='red', linestyle='--', label='平均值')
    axes[0, 1].legend()
    
    # VIP等级 vs 用户价值
    vip_value_cross = pd.crosstab(user_value_metrics['vip_level'], 
                                  user_value_metrics['用户等级'])
    sns.heatmap(vip_value_cross, annot=True, fmt='d', cmap='Blues', ax=axes[1, 0])
    axes[1, 0].set_title('VIP等级 vs 用户价值交叉分析', fontsize=14, fontweight='bold')
    axes[1, 0].set_xlabel('用户价值等级')
    axes[1, 0].set_ylabel('VIP等级')
    
    # 年龄 vs 价值得分散点图
    scatter = axes[1, 1].scatter(user_value_metrics['age'], user_value_metrics['价值得分'], 
                                alpha=0.6, c=user_value_metrics['vip_level'], cmap='viridis')
    axes[1, 1].set_title('年龄 vs 价值得分', fontsize=14, fontweight='bold')
    axes[1, 1].set_xlabel('年龄')
    axes[1, 1].set_ylabel('价值得分')
    plt.colorbar(scatter, ax=axes[1, 1], label='VIP等级')
    
    plt.tight_layout()
    plt.show()
    
    # 返回高价值用户列表
    high_value_users = user_value_metrics[
        user_value_metrics['用户等级'].isin(['高价值', '超高价值'])
    ].sort_values('价值得分', ascending=False)
    
    print(f"\n高价值用户数量: {len(high_value_users)}")
    print(f"高价值用户占比: {len(high_value_users)/len(user_value_metrics):.1%}")
    
    return user_value_metrics, high_value_users

user_value_metrics, high_value_users = identify_high_value_users()


# 1. 同期群留存分析
def cohort_retention_analysis():
    """
    同期群留存分析
    """
    # 准备数据：用户首次活动时间和注册时间
    user_first_activity = listening_df.groupby('user_id')['play_time'].min().reset_index()
    user_first_activity.columns = ['user_id', 'first_activity_date']
    
    # 合并用户注册信息
    cohort_data = users_df[['user_id', 'register_date']].merge(
        user_first_activity, on='user_id', how='left'
    )
    
    # 创建同期群：按注册月份分组
    cohort_data['register_month'] = cohort_data['register_date'].dt.to_period('M')
    cohort_data['activity_month'] = cohort_data['first_activity_date'].dt.to_period('M')
    
    # 为每个用户的每次活动创建记录
    user_activities = listening_df.groupby(['user_id', listening_df['play_time'].dt.to_period('M')]).size().reset_index()
    user_activities.columns = ['user_id', 'activity_period', 'activity_count']
    
    # 合并注册信息
    user_activities = user_activities.merge(
        users_df[['user_id', 'register_date']], on='user_id'
    )
    user_activities['register_period'] = user_activities['register_date'].dt.to_period('M')
    
    # 计算周期差
    user_activities['period_number'] = (
        user_activities['activity_period'] - user_activities['register_period']
    ).apply(attrgetter('n'))
    
    # 创建同期群表
    cohort_table = user_activities.pivot_table(
        index='register_period',
        columns='period_number',
        values='user_id',
        aggfunc='nunique'
    ).fillna(0)
    
    # 计算留存率
    cohort_sizes = cohort_table.iloc[:, 0]
    retention_table = cohort_table.divide(cohort_sizes, axis=0)
    
    print("同期群留存率表 (前12个月):")
    print(retention_table.iloc[:, :12].round(3))
    
    # 可视化留存热力图
    plt.figure(figsize=(15, 8))
    sns.heatmap(retention_table.iloc[:, :12], 
                annot=True, fmt='.2%', cmap='YlOrRd',
                cbar_kws={'label': '留存率'})
    plt.title('用户同期群留存率热力图', fontsize=16, fontweight='bold')
    plt.xlabel('注册后月数')
    plt.ylabel('注册月份')
    plt.tight_layout()
    plt.show()
    
    # 平均留存率曲线
    avg_retention = retention_table.mean()
    
    plt.figure(figsize=(12, 6))
    plt.plot(range(len(avg_retention[:12])), avg_retention[:12], 
             marker='o', linewidth=3, markersize=8)
    plt.title('平均用户留存率曲线', fontsize=16, fontweight='bold')
    plt.xlabel('注册后月数')
    plt.ylabel('留存率')
    plt.grid(True, alpha=0.3)
    plt.gca().yaxis.set_major_formatter(plt.FuncFormatter(lambda y, _: '{:.0%}'.format(y)))
    
    # 添加关键节点标注
    for i, rate in enumerate(avg_retention[:6]):
        plt.annotate(f'{rate:.1%}', 
                    (i, rate), 
                    textcoords="offset points", 
                    xytext=(0,10), 
                    ha='center')
    
    plt.tight_layout()
    plt.show()
    
    # 关键留存指标
    print(f"\n关键留存指标:")
    print(f"第1个月留存率: {avg_retention[1]:.1%}")
    print(f"第3个月留存率: {avg_retention[3]:.1%}")
    print(f"第6个月留存率: {avg_retention[6]:.1%}")
    print(f"第12个月留存率: {avg_retention[12] if len(avg_retention) > 12 else '数据不足'}")
    
    return retention_table

retention_table = cohort_retention_analysis()
                

# 2. 留存影响因素分析
def analyze_retention_factors():
    """
    分析影响用户留存的关键因素
    """
    # 定义留存用户（注册后30天内有活动的用户）
    user_register_activity = users_df.merge(
        listening_df.groupby('user_id')['play_time'].min().reset_index(),
        on='user_id', how='left'
    )
    user_register_activity.columns = ['user_id', 'age', 'gender', 'city', 'vip_level', 'register_date', 'first_activity']
    
    # 计算首次活动距离注册的天数
    user_register_activity['days_to_first_activity'] = (
        user_register_activity['first_activity'] - user_register_activity['register_date']
    ).dt.days
    
    # 定义30天留存
    user_register_activity['retained_30d'] = user_register_activity['days_to_first_activity'] <= 30
    user_register_activity['retained_30d'] = user_register_activity['retained_30d'].fillna(False)
    
    # 计算用户在注册后30天内的活跃度
    user_early_activity = listening_df[
        (listening_df['play_time'] <= listening_df.merge(users_df, on='user_id')['register_date'] + pd.Timedelta(days=30))
    ].groupby('user_id').agg({
        'song_id': 'count',
        'listen_duration': 'sum',
        'skip_flag': 'mean'
    }).rename(columns={
        'song_id': 'early_plays',
        'listen_duration': 'early_listen_time',
        'skip_flag': 'early_skip_rate'
    })
    
    # 合并数据
    retention_analysis = user_register_activity.merge(
        user_early_activity, left_on='user_id', right_index=True, how='left'
    ).fillna(0)
    
    # 按不同维度分析留存率
    print("不同用户群体的30天留存率:")
    print("="*50)
    
    # 年龄组留存率
    retention_analysis['age_group'] = pd.cut(retention_analysis['age'], 
                                           bins=[0, 20, 25, 30, 35, 100], 
                                           labels=['<20', '20-25', '26-30', '31-35', '35+'])
    age_retention = retention_analysis.groupby('age_group')['retained_30d'].mean()
    print("年龄组留存率:")
    for age_group, rate in age_retention.items():
        print(f"  {age_group}: {rate:.1%}")
    
    # 性别留存率
    gender_retention = retention_analysis.groupby('gender')['retained_30d'].mean()
    print(f"\n性别留存率:")
    print(f"  男性: {gender_retention['M']:.1%}")
    print(f"  女性: {gender_retention['F']:.1%}")
    
    # VIP等级留存率
    vip_retention = retention_analysis.groupby('vip_level')['retained_30d'].mean()
    print(f"\nVIP等级留存率:")
    for vip_level, rate in vip_retention.items():
        vip_name = ['普通用户', 'VIP用户', '超级VIP'][vip_level]
        print(f"  {vip_name}: {rate:.1%}")
    
    # 城市留存率
    city_retention = retention_analysis.groupby('city')['retained_30d'].mean().sort_values(ascending=False)
    print(f"\n城市留存率 (Top 5):")
    for city, rate in city_retention.head().items():
        print(f"  {city}: {rate:.1%}")
    
    # 可视化留存影响因素
    fig, axes = plt.subplots(2, 2, figsize=(16, 12))
    
    # 年龄组留存率
    age_retention.plot(kind='bar', ax=axes[0, 0], color='skyblue')
    axes[0, 0].set_title('不同年龄组30天留存率', fontsize=14, fontweight='bold')
    axes[0, 0].set_xlabel('年龄组')
    axes[0, 0].set_ylabel('留存率')
    axes[0, 0].tick_params(axis='x', rotation=45)
    axes[0, 0].yaxis.set_major_formatter(plt.FuncFormatter(lambda y, _: '{:.0%}'.format(y)))
    
    # VIP等级留存率
    vip_labels = ['普通用户', 'VIP用户', '超级VIP']
    axes[0, 1].bar(range(len(vip_retention)), vip_retention.values, 
                   color=['gray', 'gold', 'purple'])
    axes[0, 1].set_title('不同VIP等级30天留存率', fontsize=14, fontweight='bold')
    axes[0, 1].set_xlabel('VIP等级')
    axes[0, 1].set_ylabel('留存率')
    axes[0, 1].set_xticks(range(len(vip_retention)))
    axes[0, 1].set_xticklabels(vip_labels)
    axes[0, 1].yaxis.set_major_formatter(plt.FuncFormatter(lambda y, _: '{:.0%}'.format(y)))
    
    # 早期活跃度 vs 留存率
    retained_users = retention_analysis[retention_analysis['retained_30d'] == True]
    churned_users = retention_analysis[retention_analysis['retained_30d'] == False]
    
    axes[1, 0].hist([retained_users['early_plays'], churned_users['early_plays']], 
                    bins=30, alpha=0.7, label=['留存用户', '流失用户'], 
                    color=['green', 'red'])
    axes[1, 0].set_title('早期播放次数分布对比', fontsize=14, fontweight='bold')
    axes[1, 0].set_xlabel('注册后30天播放次数')
    axes[1, 0].set_ylabel('用户数量')
    axes[1, 0].legend()
    
    # 城市留存率
    city_retention.head(8).plot(kind='barh', ax=axes[1, 1], color='lightgreen')
    axes[1, 1].set_title('主要城市30天留存率', fontsize=14, fontweight='bold')
    axes[1, 1].set_xlabel('留存率')
    axes[1, 1].xaxis.set_major_formatter(plt.FuncFormatter(lambda y, _: '{:.0%}'.format(y)))
    
    plt.tight_layout()
    plt.show()
    
    # 留存预测特征重要性分析
    from sklearn.ensemble import RandomForestClassifier
    from sklearn.preprocessing import LabelEncoder
    
    # 准备特征
    feature_data = retention_analysis.copy()
    
    # 编码分类变量
    le_gender = LabelEncoder()
    le_city = LabelEncoder()
    
    feature_data['gender_encoded'] = le_gender.fit_transform(feature_data['gender'])
    feature_data['city_encoded'] = le_city.fit_transform(feature_data['city'])
    
    # 选择特征
    features = ['age', 'gender_encoded', 'city_encoded', 'vip_level', 
                'early_plays', 'early_listen_time', 'early_skip_rate']
    X = feature_data[features].fillna(0)
    y = feature_data['retained_30d']
    
    # 训练随机森林模型
    rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
    rf_model.fit(X, y)
    
    # 特征重要性
    feature_importance = pd.DataFrame({
        'feature': features,
        'importance': rf_model.feature_importances_
    }).sort_values('importance', ascending=False)
    
    print(f"\n留存预测特征重要性排序:")
    for _, row in feature_importance.iterrows():
        print(f"  {row['feature']}: {row['importance']:.3f}")
    
    # 可视化特征重要性
    plt.figure(figsize=(10, 6))
    plt.barh(range(len(feature_importance)), feature_importance['importance'], 
             color='lightcoral')
    plt.yticks(range(len(feature_importance)), feature_importance['feature'])
    plt.xlabel('特征重要性')
    plt.title('用户留存预测特征重要性', fontsize=14, fontweight='bold')
    plt.tight_layout()
    plt.show()
    
    return retention_analysis

retention_analysis = analyze_retention_factors()

In [None]:
# 1. 高级时间序列处理技巧
def advanced_time_series_processing():
    """
    演示高级时间序列数据处理技巧
    """
    print("高级时间序列处理技巧演示")
    print("="*50)
    
    # 1. 时间重采样和聚合
    print("\n1. 时间重采样和聚合:")
    
    # 按小时重采样
    hourly_plays = listening_df.set_index('play_time').resample('H').size()
    print(f"每小时播放次数统计 (前10个小时):")
    print(hourly_plays.head(10))
    
    # 按天重采样，计算多个指标
    daily_metrics = listening_df.set_index('play_time').resample('D').agg({
        'user_id': 'nunique',  # 日活跃用户数
        'song_id': 'count',    # 日播放次数
        'listen_duration': 'sum',  # 日总听歌时长
        'skip_flag': 'mean'    # 日跳过率
    }).rename(columns={
        'user_id': 'DAU',
        'song_id': '播放次数',
        'listen_duration': '总听歌时长',
        'skip_flag': '跳过率'
    })
    
    print(f"\n每日关键指标 (最近10天):")
    print(daily_metrics.tail(10))
    
    # 2. 滑动窗口计算
    print(f"\n2. 滑动窗口计算:")
    
    # 7天滑动平均
    daily_metrics['DAU_7d_avg'] = daily_metrics['DAU'].rolling(window=7, center=True).mean()
    daily_metrics['播放次数_7d_avg'] = daily_metrics['播放次数'].rolling(window=7, center=True).mean()
    
    print("7天滑动平均 (最近10天):")
    print(daily_metrics[['DAU', 'DAU_7d_avg', '播放次数', '播放次数_7d_avg']].tail(10))
    
    # 3. 时间差计算
    print(f"\n3. 用户行为时间间隔分析:")
    
    # 计算用户连续播放的时间间隔
    user_time_gaps = []
    for user_id in listening_df['user_id'].unique()[:100]:  # 取前100个用户作为示例
        user_plays = listening_df[listening_df['user_id'] == user_id]['play_time'].sort_values()
        if len(user_plays) > 1:
            time_gaps = user_plays.diff().dt.total_seconds() / 3600  # 转换为小时
            user_time_gaps.extend(time_gaps.dropna().tolist())
    
    time_gaps_df = pd.DataFrame({'time_gap_hours': user_time_gaps})
    
    print(f"用户播放时间间隔统计:")
    print(f"  平均间隔: {time_gaps_df['time_gap_hours'].mean():.2f} 小时")
    print(f"  中位数间隔: {time_gaps_df['time_gap_hours'].median():.2f} 小时")
    print(f"  最大间隔: {time_gaps_df['time_gap_hours'].max():.2f} 小时")
    
    # 4. 季节性分析
    print(f"\n4. 季节性和周期性分析:")
    
    # 添加时间特征
    daily_metrics['weekday'] = daily_metrics.index.dayofweek
    daily_metrics['month'] = daily_metrics.index.month
    daily_metrics['is_weekend'] = daily_metrics['weekday'] >= 5
    
    # 工作日vs周末对比
    weekend_comparison = daily_metrics.groupby('is_weekend')[['DAU', '播放次数', '总听歌时长']].mean()
    weekend_comparison.index = ['工作日', '周末']
    
    print("工作日vs周末平均指标对比:")
    print(weekend_comparison)
    
    # 月度季节性
    monthly_pattern = daily_metrics.groupby('month')[['DAU', '播放次数']].mean()
    print(f"\n月度季节性模式:")
    print(monthly_pattern)
    
    # 可视化时间序列
    fig, axes = plt.subplots(2, 2, figsize=(16, 12))
    
    # 日活跃用户趋势
    daily_metrics['DAU'].plot(ax=axes[0, 0], title='日活跃用户数趋势', color='blue')
    daily_metrics['DAU_7d_avg'].plot(ax=axes[0, 0], title='日活跃用户数趋势', 
                                     color='red', linestyle='--', alpha=0.7)
    axes[0, 0].legend(['实际值', '7天均值'])
    axes[0, 0].set_ylabel('用户数')
    
    # 播放次数趋势
    daily_metrics['播放次数'].plot(ax=axes[0, 1], title='日播放次数趋势', color='green')
    axes[0, 1].set_ylabel('播放次数')
    
    # 时间间隔分布
    axes[1, 0].hist(time_gaps_df['time_gap_hours'], bins=50, alpha=0.7, color='orange')
    axes[1, 0].set_title('用户播放时间间隔分布')
    axes[1, 0].set_xlabel('时间间隔(小时)')
    axes[1, 0].set_ylabel('频次')
    axes[1, 0].set_xlim(0, 48)  # 限制显示48小时内
    
    # 月度季节性
    monthly_pattern['DAU'].plot(kind='bar', ax=axes[1, 1], color='purple')
    axes[1, 1].set_title('月度DAU季节性模式')
    axes[1, 1].set_xlabel('月份')
    axes[1, 1].set_ylabel('平均DAU')
    axes[1, 1].tick_params(axis='x', rotation=0)
    
    plt.tight_layout()
    plt.show()
    
    return daily_metrics

daily_metrics = advanced_time_series_processing()


# 2. 复杂数据聚合与透视技巧
def advanced_aggregation_techniques():
    """
    演示复杂的数据聚合与透视技巧
    """
    print("复杂数据聚合与透视技巧演示")
    print("="*50)
    
    # 1. 多级分组聚合
    print("\n1. 多级分组聚合:")
    
    # 合并数据以便分析
    listening_with_user_song = listening_df.merge(users_df, on='user_id').merge(songs_df, on='song_id')
    
    # 多维度聚合分析
    multi_agg = listening_with_user_song.groupby(['city', 'genre', 'vip_level']).agg({
        'user_id': 'nunique',
        'song_id': 'count',
        'listen_duration': ['sum', 'mean'],
        'skip_flag': 'mean'
    })
    
    # 重命名列
    multi_agg.columns = ['用户数', '播放次数', '总时长', '平均时长', '跳过率']
    
    print("城市-流派-VIP等级多维聚合 (前10行):")
    print(multi_agg.head(10))
    
    # 2. 自定义聚合函数
    print(f"\n2. 自定义聚合函数:")
    
    def custom_stats(series):
        """自定义统计函数"""
        return pd.Series({
            '总数': len(series),
            '唯一值': series.nunique(),
            '众数': series.mode().iloc[0] if len(series.mode()) > 0 else None,
            '变异系数': series.std() / series.mean() if series.mean() != 0 else 0
        })
    
    # 应用自定义聚合
    user_listening_custom = listening_df.groupby('user_id')['listen_duration'].apply(custom_stats).unstack()
    
    print("用户听歌时长自定义统计 (前5个用户):")
    print(user_listening_custom.head())
    
    # 3. 复杂透视表
    print(f"\n3. 复杂透视表分析:")
    
    # 创建时间维度
    listening_with_user_song['hour'] = listening_with_user_song['play_time'].dt.hour
    listening_with_user_song['weekday'] = listening_with_user_song['play_time'].dt.day_name()
    
    # 多维透视表
    pivot_complex = pd.pivot_table(
        listening_with_user_song,
        values=['listen_duration', 'skip_flag'],
        index=['genre', 'weekday'],
        columns='hour',
        aggfunc={'listen_duration': 'mean', 'skip_flag': 'mean'},
        fill_value=0
    )
    
    print("流派-星期-小时多维透视表形状:", pivot_complex.shape)
    
    # 4. 条件聚合
    print(f"\n4. 条件聚合:")
    
    # 使用agg与lambda进行条件聚合
    conditional_agg = listening_with_user_song.groupby('genre').agg({
        'listen_duration': [
            ('短歌曲平均时长', lambda x: x[x <= 180].mean()),
            ('长歌曲平均时长', lambda x: x[x > 180].mean()),
            ('完整播放率', lambda x, skip=listening_with_user_song.loc[x.index, 'skip_flag']: 
             (skip == 0).mean())
        ],
        'user_id': [
            ('总用户数', 'nunique'),
            ('活跃用户数', lambda x: (listening_with_user_song.loc[x.index].groupby('user_id').size() >= 5).sum())
        ]
    })
    
    # 展平多级列名
    conditional_agg.columns = ['_'.join(col).strip() for col in conditional_agg.columns]
    
    print("各流派条件聚合结果:")
    print(conditional_agg)
    
    # 5. 滚动聚合
    print(f"\n5. 滚动聚合分析:")
    
    # 用户累计行为分析
    user_cumulative = listening_df.sort_values(['user_id', 'play_time']).groupby('user_id').apply(
        lambda x: x.assign(
            累计播放次数=range(1, len(x) + 1),
            累计听歌时长=x['listen_duration'].cumsum(),
            滚动跳过率=x['skip_flag'].rolling(window=10, min_periods=1).mean()
        )
    ).reset_index(drop=True)
    
    print("用户累计行为分析 (前10条记录):")
    print(user_cumulative[['user_id', 'play_time', '累计播放次数', '累计听歌时长', '滚动跳过率']].head(10))
    
    # 可视化聚合结果
    fig, axes = plt.subplots(2, 2, figsize=(16, 12))
    
    # 各流派用户数分布
    genre_users = multi_agg.groupby('genre')['用户数'].sum().sort_values(ascending=False)
    genre_users.plot(kind='bar', ax=axes[0, 0], color='skyblue')
    axes[0, 0].set_title('各流派用户数分布', fontsize=14, fontweight='bold')
    axes[0, 0].set_xlabel('音乐流派')
    axes[0, 0].set_ylabel('用户数')
    axes[0, 0].tick_params(axis='x', rotation=45)
    
    # VIP等级播放行为对比
    vip_behavior = multi_agg.groupby('vip_level')[['播放次数', '总时长']].sum()
    vip_behavior.plot(kind='bar', ax=axes[0, 1])
    axes[0, 1].set_title('不同VIP等级播放行为对比', fontsize=14, fontweight='bold')
    axes[0, 1].set_xlabel('VIP等级')
    axes[0, 1].legend(['播放次数', '总时长'])
    axes[0, 1].tick_params(axis='x', rotation=0)
    
    # 用户听歌时长变异系数分布
    axes[1, 0].hist(user_listening_custom['变异系数'].dropna(), bins=30, alpha=0.7, color='lightgreen')
    axes[1, 0].set_title('用户听歌时长变异系数分布', fontsize=14, fontweight='bold')
    axes[1, 0].set_xlabel('变异系数')
    axes[1, 0].set_ylabel('用户数')
    
    # 累计播放次数增长曲线（前5个用户）
    for user in user_cumulative['user_id'].unique()[:5]:
        user_data = user_cumulative[user_cumulative['user_id'] == user]
        axes[1, 1].plot(range(len(user_data)), user_data['累计播放次数'], 
                       alpha=0.7, linewidth=2)
    
    axes[1, 1].set_title('用户累计播放次数增长曲线', fontsize=14, fontweight='bold')
    axes[1, 1].set_xlabel('播放序号')
    axes[1, 1].set_ylabel('累计播放次数')
    
    plt.tight_layout()
    plt.show()
    
    return multi_agg, user_cumulative

multi_agg, user_cumulative = advanced_aggregation_techniques()


# 3. 数据质量监控与异常检测
def data_quality_monitoring():
    """
    数据质量监控与异常检测
    """
    print("数据质量监控与异常检测")
    print("="*50)
    
    # 1. 数据完整性检查
    print("\n1. 数据完整性检查:")
    
    def check_data_completeness(df, df_name):
        """检查数据完整性"""
        total_cells = df.shape[0] * df.shape[1]
        missing_cells = df.isnull().sum().sum()
        completeness = (total_cells - missing_cells) / total_cells
        
        print(f"\n{df_name} 数据完整性:")
        print(f"  总单元格数: {total_cells:,}")
        print(f"  缺失单元格数: {missing_cells:,}")
        print(f"  完整性: {completeness:.2%}")
        
        # 各列缺失情况
        missing_by_column = df.isnull().sum()
        if missing_by_column.sum() > 0:
            print(f"  各列缺失情况:")
            for col, missing in missing_by_column[missing_by_column > 0].items():
                print(f"    {col}: {missing:,} ({missing/len(df):.1%})")
        
        return completeness
    
    # 检查各表数据完整性
    datasets = {
        '用户数据': users_df,
        '歌曲数据': songs_df,
        '听歌记录': listening_df,
        '互动数据': interactions_df
    }
    
    for name, df in datasets.items():
        check_data_completeness(df, name)
    
    # 2. 数据一致性检查
    print(f"\n2. 数据一致性检查:")
    
    # 检查外键一致性
    users_in_listening = set(listening_df['user_id'])
    users_in_master = set(users_df['user_id'])
    songs_in_listening = set(listening_df['song_id'])
    songs_in_master = set(songs_df['song_id'])
    
    print(f"外键一致性检查:")
    print(f"  听歌记录中的用户ID都在用户表中: {users_in_listening.issubset(users_in_master)}")
    print(f"  听歌记录中的歌曲ID都在歌曲表中: {songs_in_listening.issubset(songs_in_master)}")
    print(f"  孤立用户数 (用户表中但无听歌记录): {len(users_in_master - users_in_listening)}")
    print(f"  孤立歌曲数 (歌曲表中但无播放记录): {len(songs_in_master - songs_in_listening)}")
    
    # 3. 异常值检测
    print(f"\n3. 异常值检测:")
    
    def detect_outliers_iqr(series, column_name):
        """使用IQR方法检测异常值"""
        Q1 = series.quantile(0.25)
        Q3 = series.quantile(0.75)
        IQR = Q3 - Q1
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR
        
        outliers = series[(series < lower_bound) | (series > upper_bound)]
        
        print(f"{column_name} 异常值检测:")
        print(f"  正常范围: [{lower_bound:.2f}, {upper_bound:.2f}]")
        print(f"  异常值数量: {len(outliers)} ({len(outliers)/len(series):.1%})")
        if len(outliers) > 0:
            print(f"  异常值范围: [{outliers.min():.2f}, {outliers.max():.2f}]")
        
        return outliers
    
    # 检测各种异常值
    age_outliers = detect_outliers_iqr(users_df['age'], '用户年龄')
    duration_outliers = detect_outliers_iqr(songs_df['duration'], '歌曲时长')
    listen_outliers = detect_outliers_iqr(listening_df['listen_duration'], '听歌时长')
    
    # 4. 业务逻辑异常检测
    print(f"\n4. 业务逻辑异常检测:")
    
    # 检测不合理的听歌时长（超过歌曲本身时长）
    listening_with_duration = listening_df.merge(songs_df[['song_id', 'duration']], on='song_id')
    invalid_duration = listening_with_duration[
        listening_with_duration['listen_duration'] > listening_with_duration['duration']
    ]
    
        print(f"听歌时长超过歌曲时长的记录: {len(invalid_duration)} ({len(invalid_duration)/len(listening_df):.1%})")
    
    # 检测异常的用户行为模式
    user_daily_plays = listening_df.groupby(['user_id', listening_df['play_time'].dt.date]).size()
    extreme_users = user_daily_plays[user_daily_plays > 1000]  # 单日播放超过1000次
    
    print(f"单日播放超过1000次的异常记录: {len(extreme_users)}")
    
    # 检测重复记录
    duplicate_listening = listening_df.duplicated(subset=['user_id', 'song_id', 'play_time']).sum()
    print(f"重复的听歌记录: {duplicate_listening}")
    
    # 5. 数据分布监控
    print(f"\n5. 数据分布监控:")
    
    # 监控关键指标的分布变化
    def monitor_distribution(series, metric_name):
        """监控数据分布"""
        stats = {
            '均值': series.mean(),
            '中位数': series.median(),
            '标准差': series.std(),
            '偏度': series.skew(),
            '峰度': series.kurtosis()
        }
        
        print(f"{metric_name} 分布统计:")
        for stat_name, value in stats.items():
            print(f"  {stat_name}: {value:.3f}")
        
        return stats
    
    # 监控各项指标分布
    age_stats = monitor_distribution(users_df['age'], '用户年龄')
    duration_stats = monitor_distribution(listening_df['listen_duration'], '听歌时长')
    
    # 可视化数据质量监控
    fig, axes = plt.subplots(2, 3, figsize=(18, 12))
    
    # 缺失值热力图
    missing_data = pd.DataFrame({
        '用户数据': users_df.isnull().sum(),
        '歌曲数据': songs_df.isnull().sum(),
        '听歌记录': listening_df.isnull().sum()[:len(users_df.columns)],  # 对齐长度
    }).fillna(0)
    
    sns.heatmap(missing_data, annot=True, fmt='d', cmap='Reds', ax=axes[0, 0])
    axes[0, 0].set_title('各表缺失值热力图', fontsize=14, fontweight='bold')
    
    # 异常值箱线图
    outlier_data = [users_df['age'], songs_df['duration']/60, listening_df['listen_duration']/60]
    outlier_labels = ['用户年龄', '歌曲时长(分钟)', '听歌时长(分钟)']
    
    axes[0, 1].boxplot(outlier_data, labels=outlier_labels)
    axes[0, 1].set_title('关键指标异常值检测', fontsize=14, fontweight='bold')
    axes[0, 1].tick_params(axis='x', rotation=45)
    
    # 数据分布对比
    axes[0, 2].hist(users_df['age'], bins=30, alpha=0.7, label='年龄分布', color='skyblue')
    axes[0, 2].axvline(users_df['age'].mean(), color='red', linestyle='--', label='均值')
    axes[0, 2].axvline(users_df['age'].median(), color='green', linestyle='--', label='中位数')
    axes[0, 2].set_title('用户年龄分布监控', fontsize=14, fontweight='bold')
    axes[0, 2].legend()
    
    # 时间序列数据质量
    daily_data_quality = listening_df.groupby(listening_df['play_time'].dt.date).agg({
        'user_id': 'count',
        'listen_duration': lambda x: (x < 0).sum(),  # 负值数量
        'skip_flag': lambda x: x.isnull().sum()      # 缺失值数量
    })
    daily_data_quality.columns = ['总记录数', '负值数量', '缺失值数量']
    
    daily_data_quality['总记录数'].plot(ax=axes[1, 0], color='blue')
    axes[1, 0].set_title('每日数据量监控', fontsize=14, fontweight='bold')
    axes[1, 0].set_ylabel('记录数')
    
    # 数据质量得分趋势
    daily_data_quality['质量得分'] = 1 - (daily_data_quality['负值数量'] + daily_data_quality['缺失值数量']) / daily_data_quality['总记录数']
    daily_data_quality['质量得分'].plot(ax=axes[1, 1], color='green', marker='o')
    axes[1, 1].set_title('每日数据质量得分', fontsize=14, fontweight='bold')
    axes[1, 1].set_ylabel('质量得分')
    axes[1, 1].set_ylim(0, 1)
    
    # 用户活跃度分布
    user_activity = listening_df.groupby('user_id').size()
    axes[1, 2].hist(user_activity, bins=50, alpha=0.7, color='orange')
    axes[1, 2].set_title('用户活跃度分布', fontsize=14, fontweight='bold')
    axes[1, 2].set_xlabel('播放次数')
    axes[1, 2].set_ylabel('用户数')
    axes[1, 2].set_xlim(0, user_activity.quantile(0.95))  # 显示95%分位数内的数据
    
    plt.tight_layout()
    plt.show()
    
    # 生成数据质量报告
    quality_report = {
        '数据完整性': {
            '用户数据完整性': check_data_completeness(users_df, '用户数据'),
            '歌曲数据完整性': check_data_completeness(songs_df, '歌曲数据'),
            '听歌记录完整性': check_data_completeness(listening_df, '听歌记录')
        },
        '数据一致性': {
            '外键一致性': users_in_listening.issubset(users_in_master) and songs_in_listening.issubset(songs_in_master),
            '孤立记录数': len(users_in_master - users_in_listening) + len(songs_in_master - songs_in_listening)
        },
        '异常值情况': {
            '年龄异常值占比': len(age_outliers) / len(users_df),
            '听歌时长异常值占比': len(listen_outliers) / len(listening_df),
            '业务逻辑异常占比': len(invalid_duration) / len(listening_df)
        }
    }
    
    print(f"\n数据质量综合报告:")
    print(f"="*50)
    for category, metrics in quality_report.items():
        print(f"\n{category}:")
        for metric, value in metrics.items():
            if isinstance(value, float):
                print(f"  {metric}: {value:.2%}")
            else:
                print(f"  {metric}: {value}")
    
    return quality_report

quality_report = data_quality_monitoring()