In [4]:
import os
print("CPU cores:", os.cpu_count())
# Kaggle дает 4 CPU cores, 16GB RAM, иногда GPU

In [5]:
import pandas as pd
import numpy as np

FOLDER_PATH = '/Users/artemzmailov/Desktop/GiveMeSomeCredit/'
dataset_train = pd.read_csv('/kaggle/input/givemesomecredit-datasets/train_full_scaled_pipeline_v1.csv', index_col = 0)
dataset_test = pd.read_csv('/kaggle/input/givemesomecredit-datasets/Kaggle_test_full_scaled_pipeline_v1.csv', index_col = 0)
train_label = pd.read_csv('/kaggle/input/givemesomecredit-datasets/train_label_pipeline_v1.csv', index_col = 0).squeeze()


In [None]:
import numpy as np
import pandas as pd
from sklearn.model_selection import RandomizedSearchCV, StratifiedKFold
from xgboost import XGBClassifier
import warnings
warnings.filterwarnings('ignore')

# ============================================================================
# 1. ИНФОРМАЦИЯ О СИСТЕМЕ
# ============================================================================

import xgboost as xgb
print("=" * 60)
print(f"XGBoost версия: {xgb.__version__}")
print("Доступен GPU: Tesla P100 16GB")
print("=" * 60)

# ============================================================================
# 2. ПОДГОТОВКА ДАННЫХ
# ============================================================================

print("\nПОДГОТОВКА ДАННЫХ...")

if isinstance(dataset_train, pd.DataFrame):
    X_train = dataset_train.values.astype(np.float32)
else:
    X_train = dataset_train.astype(np.float32)

if isinstance(train_label, pd.Series):
    y_train = train_label.values
else:
    y_train = train_label

print(f"Размер данных: {X_train.shape}")
print(f"Тип данных: {X_train.dtype}")

# Проверка на NaN/Inf
if np.any(np.isnan(X_train)):
    print("Обнаружены NaN, заменяем на 0...")
    X_train = np.nan_to_num(X_train, nan=0.0)

# ============================================================================
# 3. НАСТРОЙКА XGBOOST С GPU (ДЛЯ ВЕРСИИ 3.1.0)
# ============================================================================

# Рассчитываем веса для дисбаланса классов
weights_scale = np.sum(y_train == 0) / np.sum(y_train == 1)
print(f"\nДисбаланс классов: {weights_scale:.2f}")

# БАЗОВЫЙ КЛАССИФИКАТОР С GPU
xgb_model = XGBClassifier(
    random_state=42,
    scale_pos_weight=weights_scale,
    n_estimators=500,
    device='cuda:0',  # ВАЖНО: Для XGBoost 3.1.0 используем 'device', а не tree_method
    tree_method='hist',  # Автоматически будет использовать gpu_hist если device='cuda'
    n_jobs=1,  # Должно быть 1 при использовании GPU
    eval_metric='auc',
    early_stopping_rounds=30,
    verbosity=0,
    enable_categorical=False
)

# ============================================================================
# 4. СЕТКА ПАРАМЕТРОВ ДЛЯ ПОИСКА
# ============================================================================

xgb_params = {
    # Основные параметры
    'learning_rate': [0.005, 0.01, 0.015, 0.02, 0.03, 0.05, 0.075, 0.1],
    'max_depth': [3, 4, 5, 6, 7, 8],
    'min_child_weight': [1, 2, 3, 5, 7, 10],
    
    # Параметры семплирования
    'subsample': [0.6, 0.7, 0.75, 0.8, 0.85, 0.9, 0.95],
    'colsample_bytree': [0.6, 0.7, 0.75, 0.8, 0.85, 0.9, 0.95],
    'colsample_bylevel': [0.7, 0.75, 0.8, 0.85, 0.9, 1.0],
    
    # Регуляризация
    'reg_alpha': [0, 0.001, 0.003, 0.01, 0.03, 0.1, 0.3, 1],
    'reg_lambda': [0.5, 0.7, 0.9, 1.0, 1.2, 1.5, 2.0, 3.0],
    'gamma': [0, 0.001, 0.003, 0.01, 0.03, 0.1, 0.3, 0.5],
    
    # Параметры устройства (CPU/GPU)
    'device': ['cuda:0'],  # Тестируем только GPU
    
    # Дополнительные параметры
    'max_bin': [128, 192, 256, 320],  # Оптимально для гистограммного метода
    'grow_policy': ['depthwise', 'lossguide'],
    
    # Для несбалансированных данных
    'scale_pos_weight': [weights_scale * 0.8, weights_scale, weights_scale * 1.2],
}

# ============================================================================
# 5. КРОСС-ВАЛИДАЦИЯ
# ============================================================================

kfold_xgb = StratifiedKFold(n_splits=4, shuffle=True, random_state=42)

# ============================================================================
# 6. ЗАПУСК RANDOMIZEDSEARCHCV
# ============================================================================

print("\n" + "=" * 60)
print("ЗАПУСК ПОИСКА ПАРАМЕТРОВ НА GPU")
print("=" * 60)
print(f"Данные: {X_train.shape}")
print(f"Фолдов: {kfold_xgb.n_splits}")
print(f"Итераций: 150")
print(f"Устройство: cuda:0")

rand_search_cv = RandomizedSearchCV(
    estimator=xgb_model,
    param_distributions=xgb_params,
    n_iter=150,
    scoring='roc_auc',
    n_jobs=1,  # ВАЖНО: 1 для GPU
    cv=kfold_xgb,
    verbose=3,
    random_state=42,
    refit=True,
    return_train_score=True,
    error_score='raise'
)

# ЗАПУСКАЕМ ПОИСК
print("\nНачинаем обучение на GPU...")
rand_search_cv.fit(
    X_train,
    y_train,
    eval_set=[(X_train, y_train)],
    verbose=0
)

# ============================================================================
# 7. РЕЗУЛЬТАТЫ
# ============================================================================

print("\n" + "=" * 60)
print("РЕЗУЛЬТАТЫ")
print("=" * 60)

print("\nЛУЧШИЕ ПАРАМЕТРЫ:")
print("-" * 40)
for param, value in rand_search_cv.best_params_.items():
    print(f"{param:25}: {value}")

print(f"\nЛучший ROC-AUC: {rand_search_cv.best_score_:.6f}")

# Топ-3 комбинации
cv_results_df = pd.DataFrame(rand_search_cv.cv_results_)
cv_results_df = cv_results_df.sort_values('mean_test_score', ascending=False)

print(f"\nТОП-3 КОМБИНАЦИИ:")
print("-" * 40)
for i in range(min(3, len(cv_results_df))):
    row = cv_results_df.iloc[i]
    print(f"{i+1}. Score: {row['mean_test_score']:.6f} ± {row['std_test_score']:.6f}")
    params = row['params']
    print(f"   LR: {params.get('learning_rate', 'N/A')}, "
          f"Depth: {params.get('max_depth', 'N/A')}, "
          f"Subsample: {params.get('subsample', 'N/A')}")

# ============================================================================
# 8. ФИНАЛЬНАЯ МОДЕЛЬ
# ============================================================================

print("\n" + "=" * 60)
print("СОЗДАНИЕ ФИНАЛЬНОЙ МОДЕЛИ")
print("=" * 60)

# Берем лучшие параметры
best_params = rand_search_cv.best_params_.copy()

# Создаем финальную модель с увеличенным количеством деревьев
final_params = best_params
final_params.update({
    'random_state': 42,
    'n_estimators': 2000,  # Увеличиваем для финальной модели
    'early_stopping_rounds': 100,
    'verbosity': 1,
})

print("\nПараметры финальной модели:")
for param, value in final_params.items():
    if param != 'device':  # Не показываем device в основном выводе
        print(f"  {param}: {value}")
print(f"  device: cuda:0 (GPU)")

# Создаем и обучаем финальную модель
final_model = XGBClassifier(**final_params)

print("\nОбучение финальной модели на всех данных...")
final_model.fit(
    X_train,
    y_train,
    eval_set=[(X_train, y_train)],
    verbose=100
)

print("✓ Финальная модель обучена!")

# ============================================================================
# 9. АНАЛИЗ И СОХРАНЕНИЕ
# ============================================================================

print("\n" + "=" * 60)
print("АНАЛИЗ МОДЕЛИ")
print("=" * 60)

# Feature importance
try:
    import matplotlib.pyplot as plt
    
    feature_importance = final_model.feature_importances_
    
    if hasattr(dataset_train, 'columns'):
        feature_names = dataset_train.columns
    else:
        feature_names = [f'Feature_{i}' for i in range(X_train.shape[1])]
    
    importance_df = pd.DataFrame({
        'feature': feature_names,
        'importance': feature_importance
    }).sort_values('importance', ascending=False)
    
    print(f"\nТОП-10 ПРИЗНАКОВ:")
    print("-" * 40)
    for i, row in importance_df.head(10).iterrows():
        print(f"{str(row['feature'])[:30]:30}: {row['importance']:.4f}")
        
except Exception as e:
    print(f"Не удалось получить feature importance: {e}")

# Сохранение модели
print("\n" + "=" * 60)
print("СОХРАНЕНИЕ")
print("=" * 60)

import joblib
import json

# Сохраняем параметры
with open('best_xgb_params.json', 'w') as f:
    json.dump(rand_search_cv.best_params_, f, indent=2)
print("✓ Параметры сохранены в best_xgb_params.json")

# Сохраняем модель
joblib.dump(final_model, 'best_xgb_model.pkl')
print("✓ Модель сохранена в best_xgb_model.pkl")

# Сохраняем результаты поиска
cv_results_df.to_csv('cv_results.csv', index=False)
print("✓ Результаты поиска сохранены в cv_results.csv")

print("\n" + "=" * 60)
print("ГОТОВО!")
print("=" * 60)
print(f"Лучший скор: {rand_search_cv.best_score_:.6f}")
print("Модель готова для предсказаний!")

In [None]:
# После завершения поиска сделайте это:

# А) Создайте финальную модель с лучшими параметрами
best_params = rand_search_cv.best_params_

# Увеличьте n_estimators для финальной модели
best_params['n_estimators'] = 2000
best_params['early_stopping_rounds'] = 100

final_model = XGBClassifier(**best_params)

# Б) Обучите на всех данных
final_model.fit(
    X_train, 
    y_train,
    eval_set=[(X_train, y_train)],
    verbose=100
)

In [10]:
# После завершения поиска сделайте это:

# А) Создайте финальную модель с лучшими параметрами
best_params = rand_search_cv.best_params_

# Увеличьте n_estimators для финальной модели
best_params['n_estimators'] = 2000
best_params['early_stopping_rounds'] = 100

final_model = XGBClassifier(**best_params)

# Б) Обучите на всех данных
final_model.fit(
    X_train, 
    y_train,
    eval_set=[(X_train, y_train)],
    verbose=100
)

In [None]:
# 1. Создайте предсказания для тестовых данных
# (предполагая, что у вас есть test_data)
if 'test_data' in locals():
    test_predictions = final_model.predict_proba(dataset_test)[:, 1]
    
    # Сохраните для сабмита
    submission = pd.DataFrame({
        'Id': range(len(test_predictions)),
        'Probability': test_predictions
    })
    submission.to_csv('submission_xgb_gpu.csv', index=False)

# 2. Проанализируйте важность признаков
import matplotlib.pyplot as plt

feature_importance = final_model.feature_importances_
indices = np.argsort(feature_importance)[::-1]

plt.figure(figsize=(12, 8))
plt.title("Feature Importance (XGBoost on GPU)")
plt.bar(range(20), feature_importance[indices][:20])
plt.xticks(range(20), [f'Feature {i}' for i in indices[:20]], rotation=45)
plt.tight_layout()
plt.show()