# 硬笔书法数据集探索性数据分析

本notebook用于探索和分析硬笔书法数据集的特征。

In [None]:
import sys
import os
import numpy as np
import matplotlib.pyplot as plt
import cv2

# 添加src目录到Python路径
sys.path.append('../src')

# 导入自定义模块
from data.dataset import ChineseCharacterDataset
from config import *

print('导入库完成')

In [None]:
# 加载数据集
dataset = ChineseCharacterDataset(root_dir=HWDB1_1_TRAIN)
print(f'数据集大小: {len(dataset)}')

In [None]:
# 显示一些样本图像
fig, axes = plt.subplots(2, 5, figsize=(15, 6))
axes = axes.flatten()

for i in range(10):
    # 获取样本
    image, label = dataset[i]
    
    # 显示图像
    axes[i].imshow(image, cmap='gray')
    axes[i].set_title(f'Label: {label}')
    axes[i].axis('off')

plt.tight_layout()
plt.show()

In [None]:
# 分析标签分布
labels = [dataset[i][1] for i in range(len(dataset))]
unique_labels, counts = np.unique(labels, return_counts=True)

print(f'唯一标签数: {len(unique_labels)}')
print(f'标签分布 - 最小: {np.min(counts)}, 最大: {np.max(counts)}, 平均: {np.mean(counts):.2f}')

# 绘制标签分布直方图
plt.figure(figsize=(12, 6))
plt.hist(counts, bins=50)
plt.xlabel('每个类别的样本数')
plt.ylabel('类别数')
plt.title('标签分布')
plt.show()

In [None]:
# 分析图像尺寸
image_sizes = []
for i in range(min(1000, len(dataset))):  # 仅分析前1000个样本以节省时间
    sample = dataset.samples[i]
    image_sizes.append((sample['width'], sample['height']))

widths, heights = zip(*image_sizes)

print(f'图像尺寸分析:')
print(f'宽度 - 最小: {np.min(widths)}, 最大: {np.max(widths)}, 平均: {np.mean(widths):.2f}')
print(f'高度 - 最小: {np.min(heights)}, 最大: {np.max(heights)}, 平均: {np.mean(heights):.2f}')

# 绘制图像尺寸分布
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 5))

ax1.hist(widths, bins=30)
ax1.set_xlabel('宽度')
ax1.set_ylabel('频率')
ax1.set_title('图像宽度分布')

ax2.hist(heights, bins=30)
ax2.set_xlabel('高度')
ax2.set_ylabel('频率')
ax2.set_title('图像高度分布')

plt.tight_layout()
plt.show()