In [1]:
# Imports 
import os
import dask.dataframe as dd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import TimeSeriesSplit
from lightgbm import LGBMRegressor, log_evaluation
from sklearn.model_selection import RandomizedSearchCV
from sklearn.metrics import make_scorer
from sklearn.metrics import mean_squared_error  
from sklearn.model_selection import TimeSeriesSplit  
from sklearn.model_selection import KFold
import pyarrow.parquet as pq
import pyarrow as pa
import pandas as pd
import datetime

print('Ok - import')

Ok - import


In [8]:
# ---------------- model treningu LGBMRegressor ----------------
# Parametry modelu 
params = {
    'n_estimators': 500,           # Domyślna liczba drzew, może być zwiększona w celu poprawy dokładności (np. 200, 500)
    'learning_rate': 0.05,          # Domyślna wartość, może być zmniejszona, jeśli mamy dużo drzew (np. 0.05, 0.01)
    'num_leaves': 50,              # Domyślna liczba liści, wartość optymalna zależna od danych; większa liczba może prowadzić do overfittingu (np. 50, 100)
    'feature_fraction': 0.9,       # Domyślna wartość, określa użycie wszystkich cech (można zmniejszyć, np. 0.9)
    'subsample': 0.9,              # Domyślnie używa 100% próbek. Możesz użyć mniejszej wartości, aby zmniejszyć overfitting (np. 0.9)
    'max_depth': -1,               # Brak ograniczenia głębokości, co oznacza pełną dowolność. Może być ustawione na wartość np. 7, aby uniknąć bardzo głębokich drzew
    'min_child_samples': 30,       # Minimalna liczba próbek w liściu, domyślnie 20 (można podnieść do np. 30-50 w przypadku mniejszych zbiorów danych)
    'objective': 'regression',     # Cel modelu, dla regresji używamy 'regression'. Możliwe inne opcje to 'regression_l1', 'huber', itp.
    'metric': 'mse',               # Metryka oceny, domyślnie 'mse' (błąd średniokwadratowy), inne opcje to 'mae', 'rmse'
    'boosting_type': 'gbdt',       # Domyślny typ boosting: 'gbdt' (Gradient Boosting Decision Tree). Można używać 'dart' lub 'goss'
    'lambda_l1': 0.1,              # Domyślna wartość regularyzacji L1. Wartość większa niż 0 wprowadza regularyzację (np. 0.1)
    'lambda_l2': 0.1,              # Domyślna wartość regularyzacji L2. Można dodać wartość (np. 0.1) dla lepszej generalizacji
    'max_bin': 255,                # Domyślna wartość (maksymalna liczba binów), 255 to standardowy wybór. Można zmniejszyć dla szybszego działania (np. 127)
    'early_stopping_rounds': None, # Domyślnie brak wczesnego zatrzymania, jeżeli chcemy używać: 'early_stopping_rounds': 100
    'verbose': 1                   # Poziom szczegółowości logów: 0 (brak logów), 1 (ogólny), 2 (szczegółowy), 3 (bardzo szczegółowy)
}

# Inicjalizacja modelu
model = LGBMRegressor(**params)
print(model.get_params())
# ---------------- model treningu LGBMRegressor ----------------

# Zmienne globalne nootbooka
competition_path = "M:/PycharmProjects/ds-zt-LGBMRegressor-main/kaggle-dtset"  # Ścieżka do danych konkursowych
batch_size = 1000000 # Rozmiar batcha treningowych
percent_of_dataset = 0.5 # Ile procent dataset używamy
# Wczytanie danych przy użyciu Dask i próbkowanie
train_path = os.path.join(competition_path, "train.parquet")
test_path = os.path.join(competition_path, "test.parquet")
features = [f'feature_{i:02}' for i in range(79)]
target_train = 'responder_6' # The responder_6 field is what you are trying to predict.
target_test = 'is_scored' 
weights = 'weight'

print('Ok - param')

{'boosting_type': 'gbdt', 'class_weight': None, 'colsample_bytree': 1.0, 'importance_type': 'split', 'learning_rate': 0.05, 'max_depth': -1, 'min_child_samples': 30, 'min_child_weight': 0.001, 'min_split_gain': 0.0, 'n_estimators': 500, 'n_jobs': None, 'num_leaves': 50, 'objective': 'regression', 'random_state': None, 'reg_alpha': 0.0, 'reg_lambda': 0.0, 'subsample': 0.9, 'subsample_for_bin': 200000, 'subsample_freq': 0, 'feature_fraction': 0.9, 'metric': 'mse', 'lambda_l1': 0.1, 'lambda_l2': 0.1, 'max_bin': 255, 'early_stopping_rounds': None, 'verbose': 1}
Ok - param


In [9]:
# Wczytanie danych treningowych i testowych
ddf_train = dd.read_parquet(train_path, columns=features + [target_train, weights])
ddf_test = pd.read_parquet(test_path, engine="fastparquet")

# Próba próbkowania danych
data_train = ddf_train.sample(frac=percent_of_dataset, random_state=42).compute()
data_test = ddf_test.sample(frac=percent_of_dataset, random_state=42)

# Usuwanie braków
data_train = data_train.dropna(subset=features + [target_train, weights]) # Usuwanie braków w danych treningowych (cechy, target i wagi)
# z danych testowych nie trzeba usuwać braków 

print(f"Próbka danych data_train w wymiarach: {data_train.shape}")
print(f"Próbka danych data_test w wymiarach: {data_test.shape}")

Próbka danych data_train w wymiarach: (17684990, 81)
Próbka danych data_test w wymiarach: (20, 85)


In [10]:
# Przygotowanie cech, etykiet i wag
X_train = data_train[features]
Y_train = data_train[target_train]
sample_weights_train = data_train[weights]
print(f"Kolumny w danych treningowym: {data_train.columns.tolist()}")

X_test = data_test[features]
Y_test = data_test[target_test]
sample_weights_test = data_test[weights]
print(f"Kolumny w danych testowych: {data_test.columns.tolist()}")

# Liczba batchy dla treningu
num_batches = len(X_train) // batch_size + 1  # Liczba batchy

# Funkcja generatora batchy
def batch_generator(X, Y, sample_weights, batch_size):
    """
    Generator zwracający kolejne batche danych.
    """
    for i in range(0, len(X), batch_size):
        yield (
            X.iloc[i:i + batch_size],
            Y.iloc[i:i + batch_size],
            sample_weights.iloc[i:i + batch_size]
        )

print(f"num_batches: {num_batches}")
print('Ok - przygotowanie danych zakończone!')

Kolumny w danych treningowym: ['feature_00', 'feature_01', 'feature_02', 'feature_03', 'feature_04', 'feature_05', 'feature_06', 'feature_07', 'feature_08', 'feature_09', 'feature_10', 'feature_11', 'feature_12', 'feature_13', 'feature_14', 'feature_15', 'feature_16', 'feature_17', 'feature_18', 'feature_19', 'feature_20', 'feature_21', 'feature_22', 'feature_23', 'feature_24', 'feature_25', 'feature_26', 'feature_27', 'feature_28', 'feature_29', 'feature_30', 'feature_31', 'feature_32', 'feature_33', 'feature_34', 'feature_35', 'feature_36', 'feature_37', 'feature_38', 'feature_39', 'feature_40', 'feature_41', 'feature_42', 'feature_43', 'feature_44', 'feature_45', 'feature_46', 'feature_47', 'feature_48', 'feature_49', 'feature_50', 'feature_51', 'feature_52', 'feature_53', 'feature_54', 'feature_55', 'feature_56', 'feature_57', 'feature_58', 'feature_59', 'feature_60', 'feature_61', 'feature_62', 'feature_63', 'feature_64', 'feature_65', 'feature_66', 'feature_67', 'feature_68', 'fe

In [12]:
# Parametry walidacji krzyżowej
n_splits = 5  # Liczba podziałów w walidacji krzyżowej
kf = KFold(n_splits=n_splits, shuffle=True, random_state=42)

# Lista do przechowywania wyników walidacji
cv_mse_scores = []

# Walidacja krzyżowa
for fold, (train_idx, valid_idx) in enumerate(kf.split(X_train)):
    print(f"\n--- Fold {fold + 1}/{n_splits} ---")
    
    # Podział na zbiór treningowy i walidacyjny
    X_fold_train, X_fold_valid = X_train.iloc[train_idx], X_train.iloc[valid_idx]
    y_fold_train, y_fold_valid = Y_train.iloc[train_idx], Y_train.iloc[valid_idx]
    weights_fold_train = sample_weights_train.iloc[train_idx]
    weights_fold_valid = sample_weights_train.iloc[valid_idx]
    
    # Batch generator dla zbioru treningowego
    num_batches = len(X_fold_train) // batch_size + 1
    train_generator = batch_generator(X_fold_train, y_fold_train, weights_fold_train, batch_size)
    
    # Reset modelu dla nowej walidacji krzyżowej
    fold_model = LGBMRegressor(**params)
    
    # Trening batchami
    for i, (X_batch, y_batch, weights_batch) in enumerate(train_generator):
        if i == 0:
            fold_model.fit(X_batch, y_batch, sample_weight=weights_batch)
        else:
            fold_model.fit(
                X_batch, y_batch, 
                sample_weight=weights_batch, 
                init_model=fold_model.booster_
            )
        
        # Predykcja na walidacyjnym batchu (opcjonalnie monitorowanie w trakcie treningu)
        y_pred_batch = fold_model.predict(X_batch)
        mse_batch = mean_squared_error(y_batch, y_pred_batch)
        print(f"Batch {i + 1}/{num_batches} - MSE: {mse_batch:.4f}")
    
    # Ewaluacja na zbiorze walidacyjnym
    y_valid_pred = fold_model.predict(X_fold_valid)
    mse_valid = mean_squared_error(y_fold_valid, y_valid_pred)
    cv_mse_scores.append(mse_valid)
    print(f"Fold {fold + 1} - Validation MSE: {mse_valid:.4f}")

# Wyniki walidacji krzyżowej
mean_mse = np.mean(cv_mse_scores)
std_mse = np.std(cv_mse_scores)
print(f"\nCross-Validation MSE: {mean_mse:.4f} ± {std_mse:.4f}")

# Pobranie bieżącej daty i godziny
now = datetime.datetime.now()
date_str = now.strftime("%Y-%m-%d-%H-%M-%S")

# Przygotowanie nazwy pliku
file_name = f"test_{date_str}.txt"

# Zapis wyników do pliku
with open(file_name, 'w') as f:
    f.write(f"Cross-Validation MSE: {mean_mse:.4f} ± {std_mse:.4f}\n")
    f.write(f"Model parameters: {str(model.get_params())}\n")
    f.write(f"percent_of_dataset: {percent_of_dataset}\n")
    f.write("\nPoszczególne MSE dla każdego folda:\n")
    for fold_idx, mse in enumerate(cv_mse_scores):
        f.write(f"Fold {fold_idx + 1}: {mse:.4f}\n")

print(f"Wyniki zapisano do pliku: {file_name}")



--- Fold 1/5 ---
[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.236452 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 19317
[LightGBM] [Info] Number of data points in the train set: 1000000, number of used features: 79
[LightGBM] [Info] Start training from score -0.007277
Batch 1/15 - MSE: 0.7640
[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.255546 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 19325
[LightGBM] [Info] Number of data points in the train set: 1000000, number of used features: 79
Batch 2/15 - MSE: 0.6290
[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.227114 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 19308
[LightGBM] [Info] Number of data points in the train set: 1000000, number of used features: 79
Ba