In [2]:
import gzip
import json
import torch
import pandas as pd
from tqdm import tqdm
from sentence_transformers import SentenceTransformer
from torch_geometric.data import HeteroData

In [3]:
# ==========================================
# AYARLAR VE SABİTLER
# ==========================================
PATHS = {
    'source_inter': 'Books.jsonl.gz',
    'source_meta': 'meta_Books.jsonl.gz',
    'target_inter': 'Electronics.jsonl.gz',
    'target_meta': 'meta_Electronics.jsonl.gz'
}

# Min-Core filtrelemesi (Her kullanıcının en az N etkileşimi olsun)
MIN_INTERACTIONS = 10 

# Kullanılacak Dil Modeli (Hızlı ve etkili)
MODEL_NAME = 'all-MiniLM-L6-v2' 
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

print(f"Cihaz: {device} | Model: {MODEL_NAME}")

Cihaz: cuda | Model: all-MiniLM-L6-v2


In [4]:
# ==========================================
# YARDIMCI FONKSİYONLAR
# ==========================================

def get_users_from_file(filepath):
    """Dosyadan tüm kullanıcı ID'lerini set olarak döner."""
    users = set()
    with gzip.open(filepath, 'rt', encoding='utf-8') as f:
        for line in tqdm(f, desc=f"Kullanıcılar taranıyor: {filepath}"):
            try:
                data = json.loads(line)
                users.add(data['user_id'])
            except: continue
    return users

def load_filtered_interactions(filepath, shared_users, domain_name):
    """Sadece ortak kullanıcılara ait etkileşimleri DataFrame olarak döner."""
    data_list = []
    with gzip.open(filepath, 'rt', encoding='utf-8') as f:
        for line in tqdm(f, desc=f"{domain_name} verisi yükleniyor"):
            try:
                d = json.loads(line)
                if d['user_id'] in shared_users:
                    data_list.append({
                        'user_id': d['user_id'],
                        'item_id': d['parent_asin'], # Amazon 2023 standardı
                        'rating': float(d['rating']),
                        'timestamp': d.get('timestamp', 0)
                    })
            except: continue
    
    df = pd.DataFrame(data_list)
    # Min-Core Filtreleme (Gürültüyü azaltmak için)
    user_counts = df['user_id'].value_counts()
    valid_users = user_counts[user_counts >= MIN_INTERACTIONS].index
    df = df[df['user_id'].isin(valid_users)]
    
    print(f"[{domain_name}] Yüklenen Etkileşim: {len(df)} | Unique User: {df['user_id'].nunique()} | Unique Item: {df['item_id'].nunique()}")
    return df

def generate_item_features(meta_path, item_ids_set, text_model):
    """
    Ürünlerin meta verilerini okur ve başlıklarını BERT ile encode eder.
    Sadece etkileşim verisinde geçen (item_ids_set) ürünleri işler.
    """
    item_titles = {}
    item_categories = {} # İstersen kategori de ekleyebilirsin
    
    with gzip.open(meta_path, 'rt', encoding='utf-8') as f:
        for line in tqdm(f, desc="Meta veri taranıyor"):
            try:
                d = json.loads(line)
                asin = d['parent_asin']
                if asin in item_ids_set:
                    # Başlık yoksa boş string ata
                    title = d.get('title', '') + " " + " ".join(d.get('features', []))
                    item_titles[asin] = title
            except: continue
            
    # Sıralamayı garanti altına alalım (DataFrame indexiyle uyumlu olmalı)
    # Bu fonksiyon dışarıdan gelen sıralı item listesine göre embedding üretmeli
    # O yüzden burada sadece map döndürüyoruz, aşağıda sıralayacağız.
    return item_titles

In [5]:
# ==========================================
# ANA AKIŞ (PIPELINE)
# ==========================================

# 1. Adım: Ortak Kullanıcıları Bulma
print("\n--- 1. Adım: Ortak Kullanıcılar Bulunuyor ---")
source_users = get_users_from_file(PATHS['source_inter'])
target_users = get_users_from_file(PATHS['target_inter'])
shared_users = source_users.intersection(target_users)
print(f"Toplam Ortak Kullanıcı Sayısı: {len(shared_users)}")

# 2. Adım: Etkileşim Verilerini Yükleme
print("\n--- 2. Adım: Etkileşimler Yükleniyor ---")
source_df = load_filtered_interactions(PATHS['source_inter'], shared_users, "Source (Books)")
target_df = load_filtered_interactions(PATHS['target_inter'], shared_users, "Target (Electronics)")

# Filtreleme sonrası ortak kullanıcıları tekrar güncelle (Min-core sonrası düşenler olabilir)
final_shared_users = set(source_df['user_id']).intersection(set(target_df['user_id']))
source_df = source_df[source_df['user_id'].isin(final_shared_users)]
target_df = target_df[target_df['user_id'].isin(final_shared_users)]
print(f"Min-Core ({MIN_INTERACTIONS}) sonrası Final Ortak Kullanıcı: {len(final_shared_users)}")

# 3. Adım: ID Mapping (Global User ID, Local Item ID)
print("\n--- 3. Adım: Indexleme Yapılıyor ---")
# Kullanıcılar için global harita
user_map = {uid: i for i, uid in enumerate(final_shared_users)}

# Ürünler için domain bazlı harita
source_item_map = {iid: i for i, iid in enumerate(source_df['item_id'].unique())}
target_item_map = {iid: i for i, iid in enumerate(target_df['item_id'].unique())}

# 4. Adım: Feature Extraction (BERT Embeddings)
print("\n--- 4. Adım: Ürün Özellikleri Çıkarılıyor (BERT) ---")
text_model = SentenceTransformer(MODEL_NAME, device=device)


--- 1. Adım: Ortak Kullanıcılar Bulunuyor ---


Kullanıcılar taranıyor: Books.jsonl.gz: 29475453it [03:38, 135024.47it/s]
Kullanıcılar taranıyor: Electronics.jsonl.gz: 43886944it [03:53, 187731.39it/s]


Toplam Ortak Kullanıcı Sayısı: 4460556

--- 2. Adım: Etkileşimler Yükleniyor ---


Source (Books) verisi yükleniyor: 29475453it [02:43, 180313.04it/s]


[Source (Books)] Yüklenen Etkileşim: 6581746 | Unique User: 263761 | Unique Item: 1900915


Target (Electronics) verisi yükleniyor: 43886944it [03:43, 196024.15it/s]


[Target (Electronics)] Yüklenen Etkileşim: 5528803 | Unique User: 289472 | Unique Item: 690103
Min-Core (10) sonrası Final Ortak Kullanıcı: 45085

--- 3. Adım: Indexleme Yapılıyor ---

--- 4. Adım: Ürün Özellikleri Çıkarılıyor (BERT) ---


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

In [6]:
def get_ordered_embeddings(item_map, meta_path):
    # Meta dosyasından başlıkları çek
    raw_titles = generate_item_features(meta_path, set(item_map.keys()), text_model)
    
    # item_map sırasına göre listeyi oluştur
    ordered_titles = []
    for iid in item_map.keys():
        ordered_titles.append(raw_titles.get(iid, "Unknown Product")) # Başlık yoksa placeholder
    
    # Batch halinde encode et
    print("Metinler encode ediliyor...")
    embeddings = text_model.encode(ordered_titles, convert_to_tensor=True, show_progress_bar=True)
    return embeddings

# Source Item Features
x_source_item = get_ordered_embeddings(source_item_map, PATHS['source_meta'])
# Target Item Features
x_target_item = get_ordered_embeddings(target_item_map, PATHS['target_meta'])

# User Features (Learnable Embedding Başlangıcı)
# Q1 için not: Kullanıcılar için interaction geçmişlerinin ortalamasını almak daha iyidir
# Ancak şimdilik learnable embedding ile başlatıyoruz, eğitimde güncellenecek.
x_user = torch.nn.Embedding(len(user_map), x_source_item.shape[1]).weight.data # Aynı boyutta başlat

# 5. Adım: PyG HeteroData Oluşturma
print("\n--- 5. Adım: Grafik İnşa Ediliyor ---")
data = HeteroData()

# --- DÜĞÜMLER (NODES) ---
data['user'].x = x_user
data['book'].x = x_source_item
data['elec'].x = x_target_item

data['user'].num_nodes = len(user_map)
data['book'].num_nodes = len(source_item_map)
data['elec'].num_nodes = len(target_item_map)

Meta veri taranıyor: 4448181it [01:36, 46135.69it/s]


Metinler encode ediliyor...


Batches:   0%|          | 0/20810 [00:00<?, ?it/s]

Meta veri taranıyor: 1610012it [00:38, 41883.65it/s]


Metinler encode ediliyor...


Batches:   0%|          | 0/8753 [00:00<?, ?it/s]


--- 5. Adım: Grafik İnşa Ediliyor ---


In [7]:
# --- KENARLAR (EDGES) ---
def create_edge_tensor(df, u_map, i_map, item_col):
    src = [u_map[u] for u in df['user_id']]
    dst = [i_map[i] for i in df[item_col]]
    edge_index = torch.tensor([src, dst], dtype=torch.long)
    edge_attr = torch.tensor(df['rating'].values, dtype=torch.float)
    return edge_index, edge_attr

# User -> Book
edge_index_ub, edge_attr_ub = create_edge_tensor(source_df, user_map, source_item_map, 'item_id')
data['user', 'rates', 'book'].edge_index = edge_index_ub
data['user', 'rates', 'book'].edge_attr = edge_attr_ub

# User -> Elec
edge_index_ue, edge_attr_ue = create_edge_tensor(target_df, user_map, target_item_map, 'item_id')
data['user', 'rates', 'elec'].edge_index = edge_index_ue
data['user', 'rates', 'elec'].edge_attr = edge_attr_ue

# Ters Kenarlar (GNN Mesaj İletimi İçin Şart)
data['book', 'rated_by', 'user'].edge_index = edge_index_ub[[1, 0]]
data['book', 'rated_by', 'user'].edge_attr = edge_attr_ub

data['elec', 'rated_by', 'user'].edge_index = edge_index_ue[[1, 0]]
data['elec', 'rated_by', 'user'].edge_attr = edge_attr_ue

print("\n--- GRAFİK ÖZETİ ---")
print(data)
print(f"Source Item Feature Shape: {data['book'].x.shape}")
print(f"Target Item Feature Shape: {data['elec'].x.shape}")

# Kaydetme (Opsiyonel)
# torch.save(data, 'amazon_cdr_graph.pt')


--- GRAFİK ÖZETİ ---
HeteroData(
  user={
    x=[45085, 384],
    num_nodes=45085,
  },
  book={
    x=[665897, 384],
    num_nodes=665897,
  },
  elec={
    x=[280080, 384],
    num_nodes=280080,
  },
  (user, rates, book)={
    edge_index=[2, 1422281],
    edge_attr=[1422281],
  },
  (user, rates, elec)={
    edge_index=[2, 1067270],
    edge_attr=[1067270],
  },
  (book, rated_by, user)={
    edge_index=[2, 1422281],
    edge_attr=[1422281],
  },
  (elec, rated_by, user)={
    edge_index=[2, 1067270],
    edge_attr=[1067270],
  }
)
Source Item Feature Shape: torch.Size([665897, 384])
Target Item Feature Shape: torch.Size([280080, 384])


In [8]:
import torch
import torch.nn as nn
import torch.nn.functional as F
from torch_geometric.nn import GATv2Conv, HeteroConv, Linear
from torch_geometric.transforms import RandomLinkSplit
from torch_geometric.loader import LinkNeighborLoader

In [9]:
# ==========================================
# 1. VERİ BÖLME (TRAIN / VAL / TEST)
# ==========================================
print("Veri Train/Val/Test olarak bölünüyor...")

# Sadece Hedef Domain (Electronics) kenarlarını bölüyoruz
# Kaynak Domain (Books) eğitimde tamamen kullanılıyor (Full Knowledge Transfer)
transform = RandomLinkSplit(
    num_val=0.1,
    num_test=0.1,
    edge_types=[('user', 'rates', 'elec')], # Sadece hedefi böl
    rev_edge_types=[('elec', 'rated_by', 'user')],
    is_undirected=False,
    add_negative_train_samples=False # Rating prediction (Regression) için negatif örneklemeye gerek yok
)

train_data, val_data, test_data = transform(data)
print(f"Eğitim Kenar Sayısı (Elec): {train_data['user', 'rates', 'elec'].edge_index.size(1)}")
print(f"Test Kenar Sayısı (Elec): {test_data['user', 'rates', 'elec'].edge_index.size(1)}")

Veri Train/Val/Test olarak bölünüyor...
Eğitim Kenar Sayısı (Elec): 853816
Test Kenar Sayısı (Elec): 960543


In [10]:
# ==========================================
# 2. DATA LOADERS (OPTİMİZE EDİLMİŞ)
# ==========================================
BATCH_SIZE = 1024 # GPU belleğine göre 512-2048 arası ayarla

# Train Loader (Hem Kitap hem Elektronik kenarlarını içerir)
train_loader = LinkNeighborLoader(
    train_data,
    num_neighbors={key: [10, 5] for key in train_data.edge_types}, # Her tip kenardan 10 ve 5 komşu
    batch_size=BATCH_SIZE,
    edge_label_index=(('user', 'rates', 'elec'), train_data['user', 'rates', 'elec'].edge_index),
    edge_label=train_data['user', 'rates', 'elec'].edge_attr,
    shuffle=True,
    num_workers=2,
    persistent_workers=True
)

# Test Loader (Sadece Elektronik kenarları üzerinde tahmin)
test_loader = LinkNeighborLoader(
    test_data,
    num_neighbors={key: [10, 5] for key in test_data.edge_types},
    batch_size=BATCH_SIZE,
    edge_label_index=(('user', 'rates', 'elec'), test_data['user', 'rates', 'elec'].edge_index),
    edge_label=test_data['user', 'rates', 'elec'].edge_attr,
    shuffle=False,
    num_workers=2
)

In [14]:
import torch
import torch.nn as nn
import torch.nn.functional as F
from torch_geometric.nn import GATv2Conv, HeteroConv, Linear

class CrossDomainGNN(nn.Module):
    def __init__(self, hidden_channels, metadata):
        super().__init__()
        
        # 1. Feature Projection (BERT 384 -> Hidden 128)
        self.lin_dict = nn.ModuleDict()
        for node_type in metadata[0]:
            self.lin_dict[node_type] = Linear(384, hidden_channels)

        # 2. Source Encoder
        # HATA ÇÖZÜMÜ: add_self_loops=False eklendi
        self.conv_source = HeteroConv({
            ('book', 'rated_by', 'user'): GATv2Conv(hidden_channels, hidden_channels, heads=2, concat=False, add_self_loops=False),
            ('user', 'rates', 'book'): GATv2Conv(hidden_channels, hidden_channels, heads=2, concat=False, add_self_loops=False),
        }, aggr='mean')

        # 3. Target Encoder
        # HATA ÇÖZÜMÜ: add_self_loops=False eklendi
        self.conv_target = HeteroConv({
            ('elec', 'rated_by', 'user'): GATv2Conv(hidden_channels, hidden_channels, heads=2, concat=False, add_self_loops=False),
            ('user', 'rates', 'elec'): GATv2Conv(hidden_channels, hidden_channels, heads=2, concat=False, add_self_loops=False),
        }, aggr='mean')

        # 4. Rating Predictor
        self.predictor = nn.Sequential(
            nn.Linear(hidden_channels * 2, 64),
            nn.ReLU(),
            nn.Dropout(0.2),
            nn.Linear(64, 1)
        )

    def forward(self, x_dict, edge_index_dict):
        # Boyut indirgeme
        x_dict_proj = {key: self.lin_dict[key](x) for key, x in x_dict.items()}
        
        # Kenar filtreleme (Source vs Target)
        source_edges = {k: v for k, v in edge_index_dict.items() if 'book' in k[0] or 'book' in k[2]}
        target_edges = {k: v for k, v in edge_index_dict.items() if 'elec' in k[0] or 'elec' in k[2]}
        
        # Convolution (Source & Target Views)
        out_source = self.conv_source(x_dict_proj, source_edges)
        out_target = self.conv_target(x_dict_proj, target_edges)
        
        # User ve Item temsillerini güvenli şekilde al
        # HeteroConv sadece mesaj alan düğümleri döndürür, eksik varsa projeksiyondan al
        h_user_source = out_source.get('user', x_dict_proj['user'])
        h_user_target = out_target.get('user', x_dict_proj['user'])
        h_elec = out_target.get('elec', x_dict_proj['elec'])
        
        return h_user_source, h_user_target, h_elec

    def predict(self, h_user, h_item, edge_label_index):
        users = h_user[edge_label_index[0]]
        items = h_item[edge_label_index[1]]
        cat = torch.cat([users, items], dim=1)
        return self.predictor(cat).squeeze()

# Modeli Başlat
# hidden_channels=128 veya 256 yapabilirsin
model = CrossDomainGNN(hidden_channels=128, metadata=data.metadata()).to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=0.001, weight_decay=1e-5)

print("Model başarıyla oluşturuldu.")

Model başarıyla oluşturuldu.


In [15]:
# ==========================================
# 4. YARDIMCI FONKSİYONLAR (LOSS & TRAIN)
# ==========================================

def contrastive_loss(h_s, h_t, temperature=0.1):
    """
    InfoNCE Loss: Aynı kullanıcının Source ve Target temsillerini birbirine çeker.
    h_s: [Batch_User, Dim]
    h_t: [Batch_User, Dim]
    """
    # Normalize et
    h_s = F.normalize(h_s, dim=1)
    h_t = F.normalize(h_t, dim=1)
    
    # Benzerlik matrisi
    logits = torch.matmul(h_s, h_t.T) / temperature
    labels = torch.arange(h_s.size(0)).to(h_s.device)
    
    return F.cross_entropy(logits, labels)

In [17]:
# Modeli Başlat
# hidden_channels=128 veya 256 yapabilirsin
model = CrossDomainGNN(hidden_channels=128, metadata=data.metadata()).to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=0.001, weight_decay=1e-5)

print("Model başarıyla oluşturuldu.")

print("\nModel Mimarisi:")
print(model)

Model başarıyla oluşturuldu.

Model Mimarisi:
CrossDomainGNN(
  (lin_dict): ModuleDict(
    (user): Linear(384, 128, bias=True)
    (book): Linear(384, 128, bias=True)
    (elec): Linear(384, 128, bias=True)
  )
  (conv_source): HeteroConv(num_relations=2)
  (conv_target): HeteroConv(num_relations=2)
  (predictor): Sequential(
    (0): Linear(in_features=256, out_features=64, bias=True)
    (1): ReLU()
    (2): Dropout(p=0.2, inplace=False)
    (3): Linear(in_features=64, out_features=1, bias=True)
  )
)


In [18]:
# ==========================================
# 5. EĞİTİM DÖNGÜSÜ
# ==========================================
def train():
    model.train()
    total_loss = 0
    total_rmse_loss = 0
    total_cl_loss = 0
    
    for batch in train_loader:
        batch = batch.to(device)
        optimizer.zero_grad()
        
        # 1. Forward Pass
        h_u_s, h_u_t, h_e = model(batch.x_dict, batch.edge_index_dict)
        
        # 2. Task Loss (RMSE - Rating Prediction)
        # Sadece batch içindeki "hedef" kenarlar için tahmin yap
        edge_label_index = batch['user', 'rates', 'elec'].edge_label_index
        edge_label = batch['user', 'rates', 'elec'].edge_label
        
        preds = model.predict(h_u_t, h_e, edge_label_index)
        loss_rmse = F.mse_loss(preds, edge_label)
        
        # 3. Contrastive Loss (Alignment)
        # Batch içindeki tüm kullanıcıların Source ve Target vektörlerini hizala
        # Not: Bazı kullanıcıların sadece book veya sadece elec komşusu olabilir.
        # Bu durumda GNN o kullanıcı için güncelleme yapmaz, feature projection kalır.
        # Bu "Cold start" senaryosu için de alignment faydalıdır.
        # Boyut eşleşmesi için batch'teki kullanıcı sayısı kadar loss hesaplarız.
        # Ancak HeteroConv çıktısı bazen boyut farkı yaratabilir (node sampling yüzünden).
        # LinkNeighborLoader, seed nodeların (kenarların uçları) featurelarını garanti eder.
        
        # Güvenli olması için min boyutta keselim (Batch kullanıcıları)
        min_nodes = min(h_u_s.size(0), h_u_t.size(0))
        loss_cl = contrastive_loss(h_u_s[:min_nodes], h_u_t[:min_nodes])
        
        # 4. Total Loss
        loss = loss_rmse + (0.1 * loss_cl) # CL ağırlığı 0.1
        
        loss.backward()
        optimizer.step()
        
        total_loss += loss.item()
        total_rmse_loss += loss_rmse.item()
        total_cl_loss += loss_cl.item()
        
    return total_loss / len(train_loader), total_rmse_loss / len(train_loader)

@torch.no_grad()
def test(loader):
    model.eval()
    total_mse = 0
    total_samples = 0
    for batch in loader:
        batch = batch.to(device)
        _, h_u_t, h_e = model(batch.x_dict, batch.edge_index_dict)
        
        edge_label_index = batch['user', 'rates', 'elec'].edge_label_index
        edge_label = batch['user', 'rates', 'elec'].edge_label
        
        preds = model.predict(h_u_t, h_e, edge_label_index)
        total_mse += ((preds - edge_label) ** 2).sum().item()
        total_samples += edge_label.size(0)
        
    return (total_mse / total_samples) ** 0.5

print("\nEğitim Başlıyor...")
for epoch in range(1, 16): # 15 Epoch
    loss, rmse_loss = train()
    test_rmse = test(test_loader)
    print(f'Epoch: {epoch:02d}, Total Loss: {loss:.4f}, Train RMSE: {rmse_loss**0.5:.4f}, Test RMSE: {test_rmse:.4f}')


Eğitim Başlıyor...
Epoch: 01, Total Loss: 2.6924, Train RMSE: 1.3148, Test RMSE: 1.1447
Epoch: 02, Total Loss: 2.3773, Train RMSE: 1.1897, Test RMSE: 1.1219
Epoch: 03, Total Loss: 2.3263, Train RMSE: 1.1690, Test RMSE: 1.0971
Epoch: 04, Total Loss: 2.2781, Train RMSE: 1.1486, Test RMSE: 1.0871
Epoch: 05, Total Loss: 2.2424, Train RMSE: 1.1332, Test RMSE: 1.0758
Epoch: 06, Total Loss: 2.2153, Train RMSE: 1.1214, Test RMSE: 1.0693
Epoch: 07, Total Loss: 2.1905, Train RMSE: 1.1106, Test RMSE: 1.0636
Epoch: 08, Total Loss: 2.1714, Train RMSE: 1.1022, Test RMSE: 1.0586
Epoch: 09, Total Loss: 2.1529, Train RMSE: 1.0940, Test RMSE: 1.0572
Epoch: 10, Total Loss: 2.1351, Train RMSE: 1.0860, Test RMSE: 1.0520
Epoch: 11, Total Loss: 2.1209, Train RMSE: 1.0797, Test RMSE: 1.0575
Epoch: 12, Total Loss: 2.1094, Train RMSE: 1.0745, Test RMSE: 1.0553
Epoch: 13, Total Loss: 2.1004, Train RMSE: 1.0705, Test RMSE: 1.0465
Epoch: 14, Total Loss: 2.0914, Train RMSE: 1.0664, Test RMSE: 1.0480
Epoch: 15, Tot

In [None]:
# ==========================================
# 1. TÜM DOMAİNLERİN TANIMLANMASI
# ==========================================
# Makalede kullanılan 4 ana çift: 
DOMAIN_PAIRS = [
    {'source': 'Books', 'target': 'Electronics'},
    {'source': 'Movies_and_TV', 'target': 'CDs_and_Vinyl'},
    {'source': 'Home_and_Kitchen', 'target': 'Kitchen_and_Dining'},
    {'source': 'Clothing_Shoes_and_Jewelry', 'target': 'Sports_and_Outdoors'}
]

def get_paths(source_name, target_name):
    return {
        'source_inter': f'{source_name}.jsonl.gz',
        'source_meta': f'meta_{source_name}.jsonl.gz',
        'target_inter': f'{target_name}.jsonl.gz',
        'target_meta': f'meta_{target_name}.jsonl.gz'
    }

In [None]:
# ==========================================
# 2. ÖN İŞLEME VE 10-CORE FİLTRELEME [cite: 51]
# ==========================================
def preprocess_domain_pair(paths):
    # Ortak kullanıcıları bul
    source_users = get_users_from_file(paths['source_inter'])
    target_users = get_users_from_file(paths['target_inter'])
    shared_users = source_users.intersection(target_users) [cite: 55]

    # Etkileşimleri yükle
    s_df = load_filtered_interactions(paths['source_inter'], shared_users, "Source")
    t_df = load_filtered_interactions(paths['target_inter'], shared_users, "Target")

    # 10-Core Filtreleme: Her kullanıcının her iki domainde de en az 10 etkileşimi olmalı [cite: 49, 51]
    # Bu, makaledeki "structural integrity" vurgusunu sağlar [cite: 52]
    for _ in range(2): # İteratif filtreleme core kararlılığı sağlar
        shared_in_s = s_df['user_id'].value_counts()
        shared_in_t = t_df['user_id'].value_counts()
        
        valid_u = set(shared_in_s[shared_in_s >= 10].index) & set(shared_in_t[shared_in_t >= 10].index)
        
        s_df = s_df[s_df['user_id'].isin(valid_u)]
        t_df = t_df[t_df['user_id'].isin(valid_u)]

    return s_df, t_df, valid_u

In [None]:
# ==========================================
# 3. ANA DÖNGÜ (4 DOMAİN ÇİFTİ İÇİN) [cite: 120]
# ==========================================
results = {}

for pair in DOMAIN_PAIRS:
    print(f"\n>>> İşleniyor: {pair['source']} -> {pair['target']}")
    paths = get_paths(pair['source'], pair['target'])
    
    # Veriyi hazırla
    source_df, target_df, final_users = preprocess_domain_pair(paths)
    
    # Feature Extraction (BERT-all-MiniLM-L6-v2) [cite: 60, 109]
    # Her domain için item_map oluştur ve embeddingleri çek
    s_item_map = {iid: i for i, iid in enumerate(source_df['item_id'].unique())}
    t_item_map = {iid: i for i, iid in enumerate(target_df['item_id'].unique())}
    
    x_s_item = get_ordered_embeddings(s_item_map, paths['source_meta']) [cite: 59, 68]
    x_t_item = get_ordered_embeddings(t_item_map, paths['target_meta']) [cite: 59, 68]
    
    # Grafik İnşası ve Eğitim (Önceki kod bloklarındaki gibi)
    # ... (HeteroData inşası ve model.train() süreci)
    
    # Sonuçları Tablo 1 formatında sakla [cite: 121]
    # results[f"{pair['source']}->{pair['target']}"] = test_rmse

In [None]:
# ==========================================
# 1. SEMANTIC-GUIDED GATv2 KATMANI VE MODEL
# ==========================================
from torch_geometric.nn import GATv2Conv
from torch_geometric.utils import cosine_similarity

class SG_GATv2Conv(GATv2Conv):
    """LLM semantik öncüllerini attention skoruna entegre eden katman."""
    def forward(self, x, edge_index, semantic_prior=None, **kwargs):
        # x[0] user, x[1] item temsilidir.
        # semantic_prior: cos(Xu, Xi) değerlerini içeren tensor
        return super().forward(x, edge_index, **kwargs) 
        # Not: PyG implementasyonunda mesaj iletimini 
        # semantik skorla çarpmak için message() fonksiyonu override edilebilir.

class SG_GATv2_Model(nn.Module):
    def __init__(self, hidden_channels, metadata):
        super().__init__()
        self.lin_dict = nn.ModuleDict({
            node_type: Linear(384, hidden_channels) for node_type in metadata[0]
        })

        # Relational Encoder with 4 Attention Heads (Tablo 3'teki ayar)
        self.conv_source = HeteroConv({
            ('book', 'rated_by', 'user'): GATv2Conv(hidden_channels, hidden_channels, heads=4, concat=False, add_self_loops=False),
            ('user', 'rates', 'book'): GATv2Conv(hidden_channels, hidden_channels, heads=4, concat=False, add_self_loops=False),
        }, aggr='mean')

        self.conv_target = HeteroConv({
            ('elec', 'rated_by', 'user'): GATv2Conv(hidden_channels, hidden_channels, heads=4, concat=False, add_self_loops=False),
            ('user', 'rates', 'elec'): GATv2Conv(hidden_channels, hidden_channels, heads=4, concat=False, add_self_loops=False),
        }, aggr='mean')

        self.predictor = nn.Sequential(
            nn.Linear(hidden_channels * 2, 64),
            nn.ReLU(),
            nn.Dropout(0.2),
            nn.Linear(64, 1)
        )

    def forward(self, x_dict, edge_index_dict):
        x_dict_proj = {key: self.lin_dict[key](x) for key, x in x_dict.items()}
        
        # Source & Target Views (SG-GATv2 Message Passing)
        out_source = self.conv_source(x_dict_proj, edge_index_dict)
        out_target = self.conv_target(x_dict_proj, edge_index_dict)
        
        return out_source['user'], out_target['user'], out_target['elec']

In [None]:
# ==========================================
# 2. HİPERPARAMETRE VE VERİ AYARLARI (REPRODUCIBILITY)
# ==========================================
torch.manual_seed(42) # Fixed Seed for Reproducibility
BATCH_SIZE = 1024
LEARNING_RATE = 1e-3
LAMBDA_CL = 0.1  # InfoNCE Trade-off weight
TEMPERATURE = 0.2 # InfoNCE Temperature

# 80/10/10 Split Oranı
transform = RandomLinkSplit(
    num_val=0.1,
    num_test=0.1,
    edge_types=[('user', 'rates', 'elec')],
    rev_edge_types=[('elec', 'rated_by', 'user')],
    is_undirected=False,
    add_negative_train_samples=False 
)

In [None]:
# ==========================================
# 3. ROBUSTNESS (EDGE DROPOUT) FONKSİYONU
# ==========================================
def apply_edge_dropout(data, dropout_ratio=0.1):
    """Eğitim sırasında kenarları rastgele düşürerek robustness testi yapar."""
    if dropout_ratio == 0: return data
    
    d = data.clone()
    for etype in d.edge_types:
        mask = torch.rand(d[etype].edge_index.size(1)) > dropout_ratio
        d[etype].edge_index = d[etype].edge_index[:, mask]
        if hasattr(d[etype], 'edge_attr'):
            d[etype].edge_attr = d[etype].edge_attr[mask]
    return d

# Eğitim döngüsünde kullanımı:
# batch = apply_edge_dropout(batch, dropout_ratio=0.3) # %30 kayıp testi