In [None]:
# 数据探索和分析
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import sys
sys.path.append('../src')

from data_processing.data_loader import DataLoader
from data_processing.data_cleaner import DataCleaner

# 加载数据
loader = DataLoader('../data/raw/')
cleaner = DataCleaner()

books = loader.load_books_data()
users = loader.load_users_data()
ratings = loader.load_ratings_data()

print("=== 数据基本信息 ===")
print(f"图书数量: {len(books)}")
print(f"用户数量: {len(users)}")
print(f"评分数量: {len(ratings)}")

# 数据清洗
books_clean = cleaner.clean_books_data(books)
users_clean = cleaner.clean_users_data(users)
ratings_clean = cleaner.clean_ratings_data(ratings)

print(f"\n=== 清洗后数据 ===")
print(f"有效图书数量: {len(books_clean)}")
print(f"有效用户数量: {len(users_clean)}")
print(f"有效评分数量: {len(ratings_clean)}")

# 评分分布分析
plt.figure(figsize=(15, 10))

plt.subplot(2, 3, 1)
ratings_clean['Book-Rating'].hist(bins=20, alpha=0.7)
plt.title('评分分布')
plt.xlabel('评分')
plt.ylabel('频次')

plt.subplot(2, 3, 2)
user_rating_counts = ratings_clean['User-ID'].value_counts()
user_rating_counts[user_rating_counts < 50].hist(bins=50, alpha=0.7)
plt.title('用户评分数量分布')
plt.xlabel('评分数量')
plt.ylabel('用户数量')

plt.subplot(2, 3, 3)
book_rating_counts = ratings_clean['ISBN'].value_counts()
book_rating_counts[book_rating_counts < 100].hist(bins=50, alpha=0.7)
plt.title('图书评分数量分布')
plt.xlabel('评分数量')
plt.ylabel('图书数量')

plt.subplot(2, 3, 4)
books_clean['Year-Of-Publication'].hist(bins=50, alpha=0.7)
plt.title('出版年份分布')
plt.xlabel('年份')
plt.ylabel('图书数量')

plt.subplot(2, 3, 5)
users_clean['Age'].hist(bins=30, alpha=0.7)
plt.title('用户年龄分布')
plt.xlabel('年龄')
plt.ylabel('用户数量')

plt.subplot(2, 3, 6)
# 热门作者
top_authors = books_clean['Book-Author'].value_counts().head(10)
top_authors.plot(kind='bar', alpha=0.7)
plt.title('热门作者')
plt.xticks(rotation=45)

plt.tight_layout()
plt.show()

# 数据质量报告
print("\n=== 数据质量报告 ===")
print(f"评分数据稀疏度: {1 - len(ratings_clean) / (len(users_clean) * len(books_clean)):.4f}")
print(f"平均每用户评分: {len(ratings_clean) / len(users_clean):.2f}")
print(f"平均每图书评分: {len(ratings_clean) / len(books_clean):.2f}")

# 保存清洗后的数据
books_clean.to_csv('../data/processed/books_clean.csv', index=False)
users_clean.to_csv('../data/processed/users_clean.csv', index=False)
ratings_clean.to_csv('../data/processed/ratings_clean.csv', index=False)