In [3]:
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# データのパス
data_path = '/workspace/data/raw/'
# フォルダ構造の確認
folds = [f for f in os.listdir(data_path) if f.startswith('Fold')]
print(f"利用可能なフォルド: {folds}")

# 各フォルドのファイル確認
for fold in folds:
    fold_path = os.path.join(data_path, fold)
    files = os.listdir(fold_path)
    print(f"{fold}内のファイル: {files}")


利用可能なフォルド: ['Fold1', 'Fold2', 'Fold3', 'Fold4', 'Fold5']
Fold1内のファイル: ['test.txt', 'train.txt', 'vali.txt']
Fold2内のファイル: ['test.txt', 'train.txt', 'vali.txt']
Fold3内のファイル: ['test.txt', 'train.txt', 'vali.txt']
Fold4内のファイル: ['test.txt', 'train.txt', 'vali.txt']
Fold5内のファイル: ['test.txt', 'train.txt', 'vali.txt']


In [6]:
# MSLR-WEB10Kのデータ形式を確認
fold1_train_path = os.path.join(data_path, 'Fold1', 'train.txt')
fold1_vali_path = os.path.join(data_path, 'Fold1', 'vali.txt')
fold1_test_path = os.path.join(data_path, 'Fold1', 'test.txt')

def read_mslr_data(file_path, nrows=5):
    """MSLRデータを読み込む関数"""
    with open(file_path, 'r') as f:
        lines = []
        for i, line in enumerate(f):
            if i >= nrows:
                break
            lines.append(line.strip())
    return lines

# 最初の数行を表示
sample_data_train = read_mslr_data(fold1_train_path)
sample_data_vali = read_mslr_data(fold1_vali_path)
sample_data_test = read_mslr_data(fold1_test_path)

print("train.txtのデータ形式のサンプル:")
for i, line in enumerate(sample_data_train):
    print(f"行 {i+1}: {line[:100]}...")

print("vali.txtのデータ形式のサンプル:")
for i, line in enumerate(sample_data_vali):
    print(f"行 {i+1}: {line[:100]}...")

print("test.txtのデータ形式のサンプル:")
for i, line in enumerate(sample_data_test):
    print(f"行 {i+1}: {line[:100]}...")


train.txtのデータ形式のサンプル:
行 1: 2 qid:1 1:3 2:3 3:0 4:0 5:3 6:1 7:1 8:0 9:0 10:1 11:156 12:4 13:0 14:7 15:167 16:6.931275 17:22.0769...
行 2: 2 qid:1 1:3 2:0 3:3 4:0 5:3 6:1 7:0 8:1 9:0 10:1 11:406 12:0 13:5 14:5 15:416 16:6.931275 17:22.0769...
行 3: 0 qid:1 1:3 2:0 3:2 4:0 5:3 6:1 7:0 8:0.666667 9:0 10:1 11:146 12:0 13:3 14:7 15:156 16:6.931275 17:...
行 4: 2 qid:1 1:3 2:0 3:3 4:0 5:3 6:1 7:0 8:1 9:0 10:1 11:287 12:1 13:4 14:7 15:299 16:6.931275 17:22.0769...
行 5: 1 qid:1 1:3 2:0 3:3 4:0 5:3 6:1 7:0 8:1 9:0 10:1 11:2009 12:2 13:4 14:7 15:2022 16:6.931275 17:22.07...
vali.txtのデータ形式のサンプル:
行 1: 0 qid:10 1:2 2:0 3:0 4:0 5:2 6:0.666667 7:0 8:0 9:0 10:0.666667 11:835 12:0 13:8 14:10 15:853 16:8.1...
行 2: 0 qid:10 1:1 2:0 3:1 4:3 5:3 6:0.333333 7:0 8:0.333333 9:1 10:1 11:10 12:0 13:9 14:11 15:30 16:8.198...
行 3: 1 qid:10 1:3 2:0 3:3 4:0 5:3 6:1 7:0 8:1 9:0 10:1 11:557 12:0 13:7 14:11 15:575 16:8.198216 17:22.24...
行 4: 0 qid:10 1:3 2:0 3:2 4:0 5:3 6:1 7:0 8:0.666667 9:0 10:1 11:522 12:0 13:6 14:8 1

In [7]:
# ファイルサイズと行数の確認
def count_lines(file_path):
    """ファイルの行数をカウントする関数"""
    with open(file_path, 'r') as f:
        return sum(1 for _ in f)

# 各フォルドのファイルサイズと行数を確認
file_stats = []
for fold in folds:
    for file_name in ['train.txt', 'vali.txt', 'test.txt']:
        file_path = os.path.join(data_path, fold, file_name)
        if os.path.exists(file_path):
            size_mb = os.path.getsize(file_path) / (1024 * 1024)  # バイト→MB
            lines = count_lines(file_path)
            file_stats.append({
                'フォルド': fold,
                'ファイル': file_name,
                'サイズ(MB)': round(size_mb, 2),
                '行数': lines
            })

# 結果をデータフレームで表示
stats_df = pd.DataFrame(file_stats)
stats_df


Unnamed: 0,フォルド,ファイル,サイズ(MB),行数
0,Fold1,train.txt,799.19,723412
1,Fold1,vali.txt,260.12,235259
2,Fold1,test.txt,266.32,241521
3,Fold2,train.txt,791.6,716683
4,Fold2,vali.txt,266.32,241521
5,Fold2,test.txt,267.71,241988
6,Fold3,train.txt,794.13,719111
7,Fold3,vali.txt,267.71,241988
8,Fold3,test.txt,263.79,239093
9,Fold4,train.txt,794.15,718768


In [None]:
# MSLR-WEB10Kデータセットの特徴ベクトルのユニーク数を調査
import numpy as np
import hashlib

# 正しいファイルパス
test_file_path = '/workspace/data/raw/mslr-web/Fold1/test.txt'
print(f"データファイル: {test_file_path}")

# 最初の行を読み込んで特徴量の次元数を確認
with open(test_file_path, 'r') as f:
    first_line = f.readline().strip()
    parts = first_line.split()
    # 特徴量のIDを抽出（1:値、2:値...の形式から特徴量IDを取得）
    feature_ids = [int(part.split(':')[0]) for part in parts[2:]]
    print(f"特徴量の次元数: {max(feature_ids)}")
    print(f"特徴量ID一覧: {sorted(set(feature_ids))}")

# 特徴ベクトルの一意性を確認するためのハッシュ関数
def count_unique_feature_vectors(file_path, max_lines=None):
    unique_vectors = set()
    line_count = 0
    
    with open(file_path, 'r') as f:
        for line in f:
            parts = line.strip().split()
            # 特徴量部分だけを抽出（ラベルとqid以外）
            feature_str = ' '.join(parts[2:])
            # ハッシュ化して重複を排除
            feature_hash = hashlib.md5(feature_str.encode()).hexdigest()
            unique_vectors.add(feature_hash)
            
            line_count += 1
            if max_lines and line_count >= max_lines:
                break
            
            # 進捗表示
            if line_count % 50000 == 0:
                print(f"{line_count}行処理完了、現在のユニーク数: {len(unique_vectors)}")
    
    return len(unique_vectors), line_count

# ユニークな特徴ベクトルの数を計算（処理時間短縮のため最初の10万行のみ）
print("\n最初の100,000行でユニークベクトル数を計算しています...")
unique_count, total_count = count_unique_feature_vectors(test_file_path, max_lines=100000)

print(f"\n結果:")
print(f"処理した行数: {total_count}")
print(f"ユニークな特徴ベクトルの数: {unique_count}")
print(f"重複率: {(1 - unique_count/total_count)*100:.2f}%")


In [3]:
# test.txtデータの特徴ベクトルのユニーク数を調査
import numpy as np

# MSLRデータを読み込む関数
def load_mslr_data(file_path):
    """MSLRフォーマットのデータを読み込む関数"""
    labels = []
    qids = []
    features = []
    
    with open(file_path, 'r') as f:
        for line in f:
            parts = line.strip().split()
            label = int(parts[0])
            qid = int(parts[1].split(':')[1])
            
            # 特徴量の抽出（1:値 2:値...の形式）
            feature_vector = []
            for i in range(2, len(parts)):
                fid, fval = parts[i].split(':')
                feature_id = int(fid)
                # 特徴量IDが前回より小さい場合、新しい行が始まっている可能性がある
                if i > 2 and feature_id <= int(parts[i-1].split(':')[0]):
                    break
                feature_vector.append(float(fval))
            
            labels.append(label)
            qids.append(qid)
            features.append(feature_vector)
    
    return np.array(labels), np.array(qids), np.array(features)

# Fold1/test.txtを読み込み
test_file_path = '/workspace/data/raw/mslr-web/Fold1/vali.txt'
print(f"データを読み込み中: {test_file_path}")

# 最初の10行だけ読み込んで特徴量の次元を確認
with open(test_file_path, 'r') as f:
    for i, line in enumerate(f):
        if i == 0:
            parts = line.strip().split()
            # 特徴量のIDを抽出
            features_ids = [int(part.split(':')[0]) for part in parts[2:]]
            print(f"特徴量の次元数: {max(features_ids)}")
            print(f"特徴量のID例: {features_ids[:10]}...")
        if i >= 10:
            break

# 特徴ベクトルの一意性を確認するため、ハッシュを使用
import hashlib

def count_unique_feature_vectors(file_path, max_lines=None):
    unique_vectors = set()
    line_count = 0
    
    with open(file_path, 'r') as f:
        for line in f:
            parts = line.strip().split()
            # 特徴量部分だけを抽出（ラベルとqidを除く）
            feature_str = ' '.join(parts[2:])
            # ハッシュ化して重複を排除
            feature_hash = hashlib.md5(feature_str.encode()).hexdigest()
            unique_vectors.add(feature_hash)
            
            line_count += 1
            if max_lines and line_count >= max_lines:
                break
            
            # 進捗表示
            if line_count % 50000 == 0:
                print(f"{line_count}行処理完了、現在のユニーク数: {len(unique_vectors)}")
    
    return len(unique_vectors), line_count

# ユニークな特徴ベクトルの数を計算
unique_count, total_count = count_unique_feature_vectors(test_file_path)
print(f"\n結果:")
print(f"処理した総行数: {total_count}")
print(f"ユニークな特徴ベクトルの数: {unique_count}")
print(f"重複率: {(1 - unique_count/total_count)*100:.2f}%")


データを読み込み中: /workspace/data/raw/mslr-web/Fold1/vali.txt
特徴量の次元数: 136
特徴量のID例: [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]...
50000行処理完了、現在のユニーク数: 49980
100000行処理完了、現在のユニーク数: 99930
150000行処理完了、現在のユニーク数: 149828
200000行処理完了、現在のユニーク数: 199697

結果:
処理した総行数: 235259
ユニークな特徴ベクトルの数: 234899
重複率: 0.15%
