# 步骤 1.3: 数据质量检查

根据 `plan1.md` 的规划，本 Notebook 将执行数据质量检查，包括：

1.  **数据完整性检查**：识别查询文件中的缺失值。
2.  **数据一致性检查**：确保查询引用的所有 `item_id` 都有对应的图片。
3.  **异常数据检查**：
    *   检查过长或过短的查询文本。
    *   检查图像尺寸是否一致（尽管 `DataLoader` 会自动调整，但我们仍将验证原始尺寸的一致性）。

## 1. 环境准备

首先，我们导入必要的库并设置 `DataLoader`。

In [1]:
import os
import sys
import pandas as pd
from tqdm import tqdm

# 将 data_loader.py 的路径添加到系统路径中
module_path = os.path.abspath(os.path.join('.'))
if module_path not in sys.path:
    sys.path.append(module_path)

from data_loader import DataLoader

# 初始化 DataLoader
loader = DataLoader()
print("DataLoader 初始化完成。")

2025-11-04 14:20:22,860 - INFO - 初始化数据加载器，数据目录: /mnt/d/forCoding_data/Tianchi_MUGE/originalData/Multimodal_Retrieval


DataLoader 初始化完成。


## 2. 数据完整性检查

我们将检查训练集和验证集的查询文件中是否存在缺失值，例如空的 `query_text`。

In [2]:
def check_missing_values(split):
    print(f"--- 检查 {split} 集的缺失值 ---")
    queries_df = loader.load_queries(split=split)
    
    if queries_df.empty:
        print(f"{split} 集查询数据为空，跳过检查。")
        return
    
    # 检查 query_text 是否有缺失值
    missing_text = queries_df['query_text'].isnull().sum()
    empty_text = (queries_df['query_text'] == '').sum()
    
    print(f"查询总数: {len(queries_df)}")
    print(f"缺失的 query_text (NaN): {missing_text}")
    print(f"空的 query_text (空字符串): {empty_text}")
    
    if 'item_ids' in queries_df.columns:
        missing_items = queries_df['item_ids'].isnull().sum()
        print(f"缺失的 item_ids: {missing_items}")

check_missing_values('train')
check_missing_values('valid')

2025-11-04 14:20:30,142 - INFO - 加载train查询数据: /mnt/d/forCoding_data/Tianchi_MUGE/originalData/Multimodal_Retrieval/MR_train_queries.jsonl


--- 检查 train 集的缺失值 ---


加载train查询数据: 248786it [00:00, 303593.37it/s]
2025-11-04 14:20:31,046 - INFO - 成功加载train查询数据，共248786条
2025-11-04 14:20:31,085 - INFO - 加载valid查询数据: /mnt/d/forCoding_data/Tianchi_MUGE/originalData/Multimodal_Retrieval/MR_valid_queries.jsonl


查询总数: 248786
缺失的 query_text (NaN): 0
空的 query_text (空字符串): 0
缺失的 item_ids: 0
--- 检查 valid 集的缺失值 ---


加载valid查询数据: 5008it [00:00, 344509.27it/s]
2025-11-04 14:20:31,104 - INFO - 成功加载valid查询数据，共5008条


查询总数: 5008
缺失的 query_text (NaN): 0
空的 query_text (空字符串): 0
缺失的 item_ids: 0


## 3. 数据一致性检查

我们将使用 `DataLoader` 中内置的 `validate_data_consistency` 方法来验证查询引用的 `item_id` 是否都存在于图片数据中。

In [3]:
def check_consistency(split):
    print(f"--- 检查 {split} 集的数据一致性 ---")
    consistency_result = loader.validate_data_consistency(split=split)
    
    if consistency_result:
        print(f"总图片ID数: {consistency_result['total_image_ids']}")
        print(f"总 item 引用数: {consistency_result['total_item_references']}")
        print(f"缺失的图片ID数: {consistency_result['missing_image_ids_count']}")
        print(f"一致性比率: {consistency_result['consistency_rate']:.4f}")
        if consistency_result['missing_image_ids_count'] > 0:
            print(f"缺失ID示例: {consistency_result['missing_image_ids_sample']}")

check_consistency('train')
check_consistency('valid')

2025-11-04 14:20:36,697 - INFO - 验证train数据集一致性


--- 检查 train 集的数据一致性 ---


收集图片ID: 129380it [00:11, 11559.54it/s]
2025-11-04 14:20:47,897 - INFO - 加载train查询数据: /mnt/d/forCoding_data/Tianchi_MUGE/originalData/Multimodal_Retrieval/MR_train_queries.jsonl
加载train查询数据: 248786it [00:00, 324457.88it/s]
2025-11-04 14:20:48,730 - INFO - 成功加载train查询数据，共248786条
验证查询引用: 100%|██████████████████████████████████████████████████████████| 248786/248786 [00:03<00:00, 69067.86it/s]
2025-11-04 14:20:52,343 - INFO - train数据集一致性检查结果: {'total_image_ids': 129380, 'total_item_references': 250314, 'missing_image_ids_count': 0, 'missing_image_ids_sample': [], 'consistency_rate': 1.0}
2025-11-04 14:20:52,362 - INFO - 验证valid数据集一致性


总图片ID数: 129380
总 item 引用数: 250314
缺失的图片ID数: 0
一致性比率: 1.0000
--- 检查 valid 集的数据一致性 ---


收集图片ID: 29806it [00:02, 10228.43it/s]
2025-11-04 14:20:55,282 - INFO - 加载valid查询数据: /mnt/d/forCoding_data/Tianchi_MUGE/originalData/Multimodal_Retrieval/MR_valid_queries.jsonl
加载valid查询数据: 5008it [00:00, 145309.53it/s]
2025-11-04 14:20:55,320 - INFO - 成功加载valid查询数据，共5008条
验证查询引用: 100%|██████████████████████████████████████████████████████████████| 5008/5008 [00:00<00:00, 67186.78it/s]
2025-11-04 14:20:55,397 - INFO - valid数据集一致性检查结果: {'total_image_ids': 29806, 'total_item_references': 30588, 'missing_image_ids_count': 0, 'missing_image_ids_sample': [], 'consistency_rate': 1.0}


总图片ID数: 29806
总 item 引用数: 30588
缺失的图片ID数: 0
一致性比率: 1.0000


## 4. 异常数据检查

### 4.1 查询文本长度异常检测

我们将识别长度过长或过短的查询文本。

In [4]:
def check_abnormal_text_length(split, min_len=2, max_len=50):
    print(f"--- 检查 {split} 集的异常文本长度 ---")
    queries_df = loader.load_queries(split=split)
    
    if queries_df.empty:
        return
        
    queries_df['query_length'] = queries_df['query_text'].str.len()
    
    short_queries = queries_df[queries_df['query_length'] < min_len]
    long_queries = queries_df[queries_df['query_length'] > max_len]
    
    print(f"文本长度 < {min_len} 的查询数: {len(short_queries)}")
    if not short_queries.empty:
        print(f"示例: {short_queries['query_text'].tolist()[:5]}")
        
    print(f"文本长度 > {max_len} 的查询数: {len(long_queries)}")
    if not long_queries.empty:
        print(f"示例: {long_queries['query_text'].tolist()[:5]}")

check_abnormal_text_length('train')
check_abnormal_text_length('valid')

2025-11-04 14:21:07,585 - INFO - 加载train查询数据: /mnt/d/forCoding_data/Tianchi_MUGE/originalData/Multimodal_Retrieval/MR_train_queries.jsonl


--- 检查 train 集的异常文本长度 ---


加载train查询数据: 248786it [00:00, 322418.75it/s]
2025-11-04 14:21:08,423 - INFO - 成功加载train查询数据，共248786条
2025-11-04 14:21:08,465 - INFO - 加载valid查询数据: /mnt/d/forCoding_data/Tianchi_MUGE/originalData/Multimodal_Retrieval/MR_valid_queries.jsonl


文本长度 < 2 的查询数: 4
示例: ['钳', '罐', '垫', '之']
文本长度 > 50 的查询数: 0
--- 检查 valid 集的异常文本长度 ---


加载valid查询数据: 5008it [00:00, 189703.18it/s]
2025-11-04 14:21:08,497 - INFO - 成功加载valid查询数据，共5008条


文本长度 < 2 的查询数: 0
文本长度 > 50 的查询数: 0


### 4.2 图像尺寸异常检测

尽管 `DataLoader` 会将所有图片调整为 `(224, 224)`，但我们仍可以检查原始图片的尺寸分布，以识别是否存在异常尺寸的图片。由于加载所有图片会消耗大量内存，我们只抽样检查一部分图片。

In [6]:
from PIL import Image
from io import BytesIO
import base64

def check_image_dimensions(split, sample_size=100):
    print(f"--- 抽样检查 {split} 集的原始图片尺寸 (样本数={sample_size}) ---")
    img_file_path = loader.file_paths[f'{split}_imgs']
    
    if not os.path.exists(img_file_path):
        print(f"图片文件不存在: {img_file_path}")
        return
        
    dimensions = []
    count = 0
    with open(img_file_path, 'r', encoding='utf-8') as f:
        for line in tqdm(f, desc=f"抽样检查 {split} 图片", total=sample_size):
            if count >= sample_size:
                break
            try:
                _, base64_data = line.strip().split('\t')
                img_data = base64.urlsafe_b64decode(base64_data)
                img = Image.open(BytesIO(img_data))
                dimensions.append(img.size)
                count += 1
            except Exception as e:
                # 忽略解码失败的图片
                pass
    
    if dimensions:
        dim_df = pd.DataFrame(dimensions, columns=['width', 'height'])
        print("图片尺寸统计:")
        print(dim_df.describe())
        
        # 检查非标准尺寸
        non_standard = dim_df[(dim_df['width'] < 100) | (dim_df['height'] < 100) | (dim_df['width'] > 1000) | (dim_df['height'] > 1000)]
        print(f"发现 {len(non_standard)} 张尺寸可能异常的图片 (例如，小于100x100或大于1000x1000)。")
        if not non_standard.empty:
            print("异常尺寸示例:")
            print(non_standard.head())

check_image_dimensions('valid', sample_size=200)

--- 抽样检查 valid 集的原始图片尺寸 (样本数=200) ---


抽样检查 valid 图片: 100%|██████████████████████████████████████████████████████████| 200/200 [00:00<00:00, 4425.61it/s]

图片尺寸统计:
       width  height
count  200.0   200.0
mean   224.0   224.0
std      0.0     0.0
min    224.0   224.0
25%    224.0   224.0
50%    224.0   224.0
75%    224.0   224.0
max    224.0   224.0
发现 0 张尺寸可能异常的图片 (例如，小于100x100或大于1000x1000)。





## 5. 总结

根据以上检查，总结数据质量如下：

- **完整性**：查询数据中是否存在大量缺失值。
- **一致性**：查询引用的图片ID是否都能在图片数据中找到。
- **异常数据**：是否存在过长/过短的文本或尺寸异常的图片。

这些发现将为后续的数据预处理和模型构建提供指导。