In [1]:
# --------------------------------------------------------------------------
# | БЛОК 1: Импорт необходимых библиотек                                   |
# --------------------------------------------------------------------------

import pandas as pd
import numpy as np
import torch
import torch.nn as nn
from torch.optim import Adam
from tqdm import tqdm
import gc 

In [2]:
# --------------------------------------------------------------------------
# | БЛОК 2: Конфигурация проекта                                           |
# --------------------------------------------------------------------------

VER = 4
CONFIG = {
    'train_path': f'C:/Users/Николай/PycharmProjects/FlightRank_2025/mydata/1/1_train.parquet',
    'test_path': f'C:/Users/Николай/PycharmProjects/FlightRank_2025/mydata/1/1_test.parquet',
    'sample_submission_path': f'C:/Users/Николай/PycharmProjects/FlightRank_2025/data/sample_submission.parquet',

    'DEVICE': 'cuda' if torch.cuda.is_available() else 'cpu', 
    'SEED': 42,
    'BATCH_SIZE': 8192*4, 
    'LR': 0.001, 
    'EPOCHS': 2, 
    'WEIGHT_DECAY': 1e-5, 

    'embedding_dims': {},
    'dropout_rate': 0.1, 
    'mlp_dims': [1024, 512, 256], 
    'num_cross_layers': 4,
    'output_dim': 1 
}

np.random.seed(CONFIG['SEED'])
torch.manual_seed(CONFIG['SEED'])
if torch.cuda.is_available():
    torch.cuda.manual_seed_all(CONFIG['SEED'])

In [3]:
# --------------------------------------------------------------------------
# | БЛОК 3: Загрузка данных и определение размеров эмбеддингов             |
# --------------------------------------------------------------------------

train_df = pd.read_parquet(CONFIG['train_path'], engine='pyarrow')
test_df = pd.read_parquet(CONFIG['test_path'], engine='pyarrow')

data_cols= [
    'legs0_arrivalAt', 'legs0_departureAt', 'legs1_arrivalAt', 'legs1_departureAt', 'requestDate'
]

num_cols = [
    'legs0_duration', 'legs0_segments0_duration', 'legs0_segments1_duration', 'legs0_segments2_duration', 'legs0_segments3_duration', 'legs1_duration', 'legs1_segments0_duration', 'legs1_segments1_duration', 'legs1_segments2_duration', 'legs1_segments3_duration', 'miniRules0_monetaryAmount', 'miniRules1_monetaryAmount', 'taxes', 'totalPrice', 
]

bool_cols = ['isAccess3D', 'isVip', 'sex']

cat_cols = [col for col in train_df.columns if col not in data_cols and col not in num_cols and col not in bool_cols and col not in  ['ranker_id', 'selected', 'frequentFlyer']]

frequentFlyer_col = 'frequentFlyer'

ranker_id_col = 'ranker_id'

selected_col = 'selected'


for col in cat_cols:
    num_unique_values = train_df[col].nunique() + 1
    embedding_dim = int(np.sqrt(num_unique_values))
    CONFIG['embedding_dims'][col] = (num_unique_values, embedding_dim)
    

# 1.1 Создание словаря для frequentFlyer и обновление конфига
all_ff_codes = train_df[frequentFlyer_col].str.split('/').explode().dropna().unique()
ff_code_to_idx = {code: i for i, code in enumerate(all_ff_codes)}
ff_unknown_idx = len(ff_code_to_idx)
ff_embedding_dim = int(np.sqrt(len(all_ff_codes) + 1))
CONFIG['embedding_dims'][frequentFlyer_col] = (len(ff_code_to_idx) + 1, ff_embedding_dim)

In [4]:
# --------------------------------------------------------------------------
# | БЛОК 4: Определение модели (Архитектура: Cross-сеть -> Deep-сеть)      |
# --------------------------------------------------------------------------

class FlightRankModel(nn.Module):
    def __init__(self, config, num_cols, cat_cols, bool_cols, data_cols, frequentFlyer_col):
        super().__init__()
        # Сохраняем все параметры
        self.config = config
        self.num_cols = num_cols
        self.cat_cols = cat_cols
        self.bool_cols = bool_cols
        self.data_cols = data_cols
        self.frequentFlyer_col = frequentFlyer_col

        # --- 1. ВХОДНАЯ ЧАСТЬ (Подготовка вектора x_0) ---
        self.embedding_layers = nn.ModuleDict({
            col: nn.Embedding(num_embeddings=dims[0], embedding_dim=dims[1])
            for col, dims in config['embedding_dims'].items() if col != frequentFlyer_col
        })
        
        ff_dims = config['embedding_dims'][frequentFlyer_col]
        self.ff_embedding_layer = nn.Embedding(num_embeddings=ff_dims[0], embedding_dim=ff_dims[1])

        cat_embedding_dim = sum(dims[1] for col, dims in config['embedding_dims'].items() if col != frequentFlyer_col)
        ff_embedding_dim = ff_dims[1]
        numerical_dim = len(self.num_cols)
        boolean_dim = len(self.bool_cols)
        cyclical_dim = len(self.data_cols) * 8
        time_to_departure_dim = 1
        
        # Размер общего входного вектора
        self.input_dim = (cat_embedding_dim + ff_embedding_dim + numerical_dim + 
                          boolean_dim + cyclical_dim + time_to_departure_dim)
        
        self.all_numerical_batch_norm = nn.BatchNorm1d(
            numerical_dim + boolean_dim + cyclical_dim + time_to_departure_dim
        )
        
        # --- 2. CROSS NETWORK (Первый блок в последовательности) ---
        self.cross_net = nn.ModuleList([
            nn.Linear(self.input_dim, self.input_dim) 
            for _ in range(config['num_cross_layers'])
        ])

        # --- 3. DEEP NETWORK (Второй блок в последовательности) ---
        deep_layers = []
        # Вход в Deep-сеть - это выход из Cross-сети, который имеет тот же размер self.input_dim
        layer_dims = [self.input_dim] + config['mlp_dims']
        for i in range(len(layer_dims) - 1):
            deep_layers.append(nn.Linear(layer_dims[i], layer_dims[i+1]))
            deep_layers.append(nn.BatchNorm1d(layer_dims[i+1]))
            deep_layers.append(nn.PReLU())
            deep_layers.append(nn.Dropout(config['dropout_rate']))
        self.deep_net = nn.Sequential(*deep_layers)
        
        # --- 4. ВЫХОДНАЯ ЧАСТЬ ---
        # Финальный слой принимает выход из Deep-сети
        self.final_layer = nn.Linear(config['mlp_dims'][-1], config['output_dim'])

    def forward(self, x_dict):
        # --- 1. Формирование общего входного вектора x_0 ---
        embedded_features = [self.embedding_layers[col](x_dict[col]) for col in self.cat_cols]
        
        ff_indices = x_dict[self.frequentFlyer_col]
        ff_mask = x_dict[f'{self.frequentFlyer_col}_mask']
        ff_embeddings = self.ff_embedding_layer(ff_indices)
        ff_sum = (ff_embeddings * ff_mask).sum(dim=1)
        ff_count = torch.clamp(ff_mask.sum(dim=1), min=1e-9)
        avg_ff_embedding = ff_sum / ff_count
        embedded_features.append(avg_ff_embedding)
        
        concatenated_embeddings = torch.cat(embedded_features, dim=1)

        numerical_inputs = [x_dict['numerical'], x_dict['boolean']]
        for col in self.data_cols:
            date_tensor = x_dict[f'{col}_components']
            numerical_inputs.append(torch.sin(2 * np.pi * date_tensor[:, 0] / 59.0).unsqueeze(1))
            numerical_inputs.append(torch.cos(2 * np.pi * date_tensor[:, 0] / 59.0).unsqueeze(1))
            numerical_inputs.append(torch.sin(2 * np.pi * date_tensor[:, 1] / 23.0).unsqueeze(1))
            numerical_inputs.append(torch.cos(2 * np.pi * date_tensor[:, 1] / 23.0).unsqueeze(1))
            numerical_inputs.append(torch.sin(2 * np.pi * date_tensor[:, 2] / 6.0).unsqueeze(1))
            numerical_inputs.append(torch.cos(2 * np.pi * date_tensor[:, 2] / 6.0).unsqueeze(1))
            numerical_inputs.append(torch.sin(2 * np.pi * date_tensor[:, 3] / 365.0).unsqueeze(1))
            numerical_inputs.append(torch.cos(2 * np.pi * date_tensor[:, 3] / 365.0).unsqueeze(1))
        
        time_to_departure = (x_dict['legs0_departureAt_unix'] - x_dict['requestDate_unix']) / 60.0
        numerical_inputs.append(time_to_departure.unsqueeze(1))
        
        processed_numerical_all = torch.cat(numerical_inputs, dim=1)
        processed_numerical_all = self.all_numerical_batch_norm(processed_numerical_all)

        x_0 = torch.cat([concatenated_embeddings, processed_numerical_all], dim=1)
        
        # --- 2. Пропускаем данные через Cross-сеть ---
        x_cross = x_0
        for layer in self.cross_net:
            # Основная формула DCN: x_0 * f(x_l) + x_l
            x_cross = x_0 * torch.sigmoid(layer(x_cross)) + x_cross
        
        # --- 3. Выход из Cross-сети подаем в Deep-сеть ---
        deep_output = self.deep_net(x_cross)
        
        # --- 4. Финальный результат ---
        final_output = self.final_layer(deep_output)
        
        return final_output

In [5]:
# --------------------------------------------------------------------------
# | БЛОК 5: Предобработка, цикл обучения и предсказания (ФИНАЛЬНАЯ ВЕРСИЯ)    |
# --------------------------------------------------------------------------

# --- 1. Подготовительный этап ---
print("--- Начало предобработки для обучения ---")

# 1.1 Расчет статистики для нормализации (БЕЗ создания новых колонок)
combined_df_num = pd.concat([train_df[num_cols], test_df[num_cols]], ignore_index=True)
num_mean = torch.tensor(combined_df_num.astype(np.float32).mean().values, dtype=torch.float32)
num_std = torch.tensor(combined_df_num.astype(np.float32).std().values, dtype=torch.float32)
num_std[num_std == 0] = 1.0 
del combined_df_num; gc.collect()

print("Статистика для нормализации рассчитана.")

# --- 2. Функция для подготовки батчей ---
def get_batch(df, indices, device):
    batch_df = df.iloc[indices]
    x = {}

    # Категориальные признаки
    for col in cat_cols:
        # ИСПРАВЛЕНИЕ: Явное преобразование в int64 перед созданием тензора
        x[col] = torch.tensor(batch_df[col].values.astype(np.int64), dtype=torch.long, device=device)
    
    # Числовые признаки (динамическая нормализация)
    # ИСПРАВЛЕНИЕ: Явное преобразование в float32 перед созданием тензора
    numerical_tensor = torch.tensor(batch_df[num_cols].values.astype(np.float32), device=device)
    x['numerical'] = (numerical_tensor - num_mean.to(device)) / num_std.to(device)
    
    # Булевы признаки
    # ИСПРАВЛЕНИЕ: Явное преобразование в float32 для единообразия
    x['boolean'] = torch.tensor(batch_df[bool_cols].values.astype(np.float32), device=device)
    
    # Признаки из дат (динамическая обработка)
    for col in data_cols:
        dt_series = pd.to_datetime(batch_df[col], errors='coerce')
        # .T транспонирует матрицу, чтобы строки соответствовали записям в батче
        x[f'{col}_components'] = torch.tensor(np.vstack([
            dt_series.dt.minute.fillna(0),
            dt_series.dt.hour.fillna(0),
            dt_series.dt.dayofweek.fillna(0),
            dt_series.dt.dayofyear.fillna(0)
        ]).T, dtype=torch.float32, device=device)
        # Unix время для расчета разницы
        x[f'{col}_unix'] = torch.tensor(dt_series.astype(np.int64).values // 10**9, dtype=torch.float32, device=device)
        
    # Динамическая обработка frequentFlyer
    ff_str_list = batch_df[frequentFlyer_col].fillna('').tolist()
    list_of_indices = [
        [ff_code_to_idx.get(code, ff_unknown_idx) for code in s.split('/') if code]
        for s in ff_str_list
    ]
    
    max_len = max(len(sublist) for sublist in list_of_indices) if any(list_of_indices) else 1

    indices_tensor = torch.full((len(batch_df), max_len), ff_unknown_idx, dtype=torch.long, device=device)
    mask_tensor = torch.zeros(len(batch_df), max_len, 1, dtype=torch.float32, device=device)

    for i, codes in enumerate(list_of_indices):
        if codes:
            length = len(codes)
            indices_tensor[i, :length] = torch.tensor(codes, dtype=torch.long)
            mask_tensor[i, :length] = 1.0

    x[frequentFlyer_col] = indices_tensor
    x[f'{frequentFlyer_col}_mask'] = mask_tensor
        
    # Целевая переменная (только для train)
    y = None
    if 'selected' in batch_df.columns:
        # ИСПРАВЛЕНИЕ: Явное преобразование в float
        y = torch.tensor(batch_df['selected'].values.astype(float), dtype=torch.float32, device=device).unsqueeze(1)
        
    return x, y

# --- 3. Инициализация и цикл обучения ---
model = FlightRankModel(CONFIG, num_cols, cat_cols, bool_cols, data_cols, frequentFlyer_col).to(CONFIG['DEVICE'])
criterion = nn.BCEWithLogitsLoss()
optimizer = Adam(model.parameters(), lr=CONFIG['LR'], weight_decay=CONFIG['WEIGHT_DECAY'])

print(f"\n--- Начало обучения на {CONFIG['EPOCHS']} эпох ---")
for epoch in range(CONFIG['EPOCHS']):
    model.train()
    running_loss = 0.0
    shuffled_indices = np.random.permutation(len(train_df))
    num_batches = (len(train_df) + CONFIG['BATCH_SIZE'] - 1) // CONFIG['BATCH_SIZE']
    
    # ИЗМЕНЕНИЕ 1: Сохраняем tqdm в переменную `progress_bar`
    progress_bar = tqdm(range(num_batches), desc=f"Эпоха {epoch + 1}/{CONFIG['EPOCHS']}")
    
    # Цикл теперь идет по `progress_bar`
    for i in progress_bar:
        batch_indices = shuffled_indices[i * CONFIG['BATCH_SIZE'] : (i + 1) * CONFIG['BATCH_SIZE']]
        x_batch, y_batch = get_batch(train_df, batch_indices, CONFIG['DEVICE'])
        
        optimizer.zero_grad()
        outputs = model(x_batch)
        loss = criterion(outputs, y_batch)
        loss.backward()
        optimizer.step()
        
        running_loss += loss.item()
        
        # ИЗМЕНЕНИЕ 2: Динамически обновляем информацию в прогресс-баре
        # Вычисляем текущий средний лосс по эпохе
        current_avg_loss = running_loss / (i + 1)
        # Устанавливаем постфикс
        progress_bar.set_postfix(avg_loss=f'{current_avg_loss:.4f}')
        
    # Печать итогового среднего лосса за эпоху теперь не обязательна,
    # так как вы видите его в конце прогресс-бара, но можно оставить для логов.
    print(f"Итоговый средний лосс за эпоху {epoch + 1}: {running_loss / num_batches:.4f}")

# --- 4. Обработка эмбеддингов для неизвестных категорий ---
print("\n--- Обновление эмбеддингов для неизвестных категорий ---")
with torch.no_grad():
    # Для обычных категориальных колонок
    for col, layer in model.embedding_layers.items():
        # Проверяем, есть ли колонка в конфиге, чтобы избежать ошибки с frequentFlyer
        if col in CONFIG['embedding_dims']:
            unknown_idx = CONFIG['embedding_dims'][col][0] - 1
            mean_embedding = layer.weight.data[:unknown_idx].mean(dim=0)
            layer.weight.data[unknown_idx] = mean_embedding

    # Для frequentFlyer
    mean_ff_embedding = model.ff_embedding_layer.weight.data[:ff_unknown_idx].mean(dim=0)
    model.ff_embedding_layer.weight.data[ff_unknown_idx] = mean_ff_embedding

# --- 5. Цикл предсказания ---
print("\n--- Генерация предсказаний для теста ---")
model.eval()
test_preds = []
num_test_batches = (len(test_df) + CONFIG['BATCH_SIZE'] - 1) // CONFIG['BATCH_SIZE']

with torch.no_grad():
    for i in tqdm(range(num_test_batches), desc="Предсказание"):
        test_indices = list(range(i * CONFIG['BATCH_SIZE'], min((i + 1) * CONFIG['BATCH_SIZE'], len(test_df))))
        x_batch, _ = get_batch(test_df, test_indices, CONFIG['DEVICE'])
        
        outputs = model(x_batch)
        preds = torch.sigmoid(outputs).cpu().numpy().flatten()
        test_preds.extend(preds)

test_df['score'] = test_preds

--- Начало предобработки для обучения ---
Статистика для нормализации рассчитана.

--- Начало обучения на 2 эпох ---


Эпоха 1/2: 100%|██████████| 554/554 [14:43<00:00,  1.59s/it, avg_loss=0.0445]


Итоговый средний лосс за эпоху 1: 0.0445


Эпоха 2/2: 100%|██████████| 554/554 [14:47<00:00,  1.60s/it, avg_loss=0.0234]


Итоговый средний лосс за эпоху 2: 0.0234

--- Обновление эмбеддингов для неизвестных категорий ---

--- Генерация предсказаний для теста ---


Предсказание: 100%|██████████| 211/211 [04:02<00:00,  1.15s/it]


In [6]:
# --------------------------------------------------------------------------
# | БЛОК 6: Формирование файла для отправки (submission)                   |
# --------------------------------------------------------------------------
# --------------------------------------------------------------------------

print("\n--- Формирование файла для отправки ---")

# Обновляем CONFIG, чтобы указать путь для сохранения
CONFIG['submission_path'] = f'C:/Users/Николай/PycharmProjects/FlightRank_2025/submissions/submission_{VER}.csv'

sample_submission_df = pd.read_parquet(CONFIG['sample_submission_path'])
test_df['Id'] = sample_submission_df['Id'].values


# Ранжирование
# Группируем по ranker_id и ранжируем строки внутри каждой группы по 'score'.
# ascending=False, так как более высокий скор означает лучший ранг (ранг 1).
# method='first' гарантирует, что не будет одинаковых рангов в группе.
test_df['selected'] = test_df.groupby('ranker_id')['score'].rank(method='first', ascending=False).astype(int)

# Создаем файл для отправки
submission_df = test_df[['Id', 'ranker_id', 'selected']]

# Убедимся, что порядок строк соответствует исходному файлу
submission_df = submission_df.set_index('Id').loc[sample_submission_df['Id']].reset_index()

submission_df.to_csv(CONFIG['submission_path'], index=False)

print(f"\nГотово! Файл для отправки сохранен в: {CONFIG['submission_path']}")
print("Пример содержимого submission файла:")
print(submission_df.head())


--- Формирование файла для отправки ---


  test_df['selected'] = test_df.groupby('ranker_id')['score'].rank(method='first', ascending=False).astype(int)



Готово! Файл для отправки сохранен в: C:/Users/Николай/PycharmProjects/FlightRank_2025/submissions/submission_4.csv
Пример содержимого submission файла:
         Id                         ranker_id  selected
0  18144679  c9373e5f772e43d593dd6ad2fa90f67a        23
1  18144680  c9373e5f772e43d593dd6ad2fa90f67a        26
2  18144681  c9373e5f772e43d593dd6ad2fa90f67a       260
3  18144682  c9373e5f772e43d593dd6ad2fa90f67a       110
4  18144683  c9373e5f772e43d593dd6ad2fa90f67a       104


In [7]:
test_df['score'][1]

np.float32(0.012183965)