In [2]:
import os
import dask.dataframe as dd
import numpy as np
from sklearn.model_selection import TimeSeriesSplit
from lightgbm import LGBMRegressor
from sklearn.metrics import mean_squared_error
import optuna
import pyarrow.parquet as pq
import pandas as pd
import datetime

print('Ok - import')

Ok - import


In [3]:
# ---------------- Przygotowanie danych ----------------
competition_path = "M:/PycharmProjects/ds-zt-LGBMRegressor-main/kaggle-dtset"  # Ścieżka do danych konkursowych
batch_size = 1000000  # Rozmiar batcha treningowych
percent_of_dataset = 0.075  # Ile procent dataset używamy - 7,5%

# Ścieżki do danych
train_path = os.path.join(competition_path, "train.parquet")
test_path = os.path.join(competition_path, "test.parquet")
features = [f'feature_{i:02}' for i in range(79)]
target_train = 'responder_6'  # Target do przewidzenia
weights = 'weight'

# Wczytanie danych przy użyciu Dask
ddf_train = dd.read_parquet(train_path, columns=features + [target_train, weights])
data_train = ddf_train.sample(frac=percent_of_dataset, random_state=42).compute()
data_train = data_train.dropna(subset=features + [target_train, weights])  # Usunięcie braków

X_train = data_train[features]
y_train = data_train[target_train]
sample_weights_train = data_train[weights]

print(f"Próbka danych: {data_train.shape}")


Próbka danych: (2652773, 81)


In [None]:
# ---------------- Optymalizacja z Optuna ----------------
def objective(trial):
    # Przestrzeń hiperparametrów
    params = {
        'n_estimators': trial.suggest_int('n_estimators', 100, 500),           # Liczba drzew
        'learning_rate': trial.suggest_loguniform('learning_rate', 0.01, 0.1), # Współczynnik uczenia
        'num_leaves': trial.suggest_int('num_leaves', 31, 100),                # Liczba liści
        'feature_fraction': trial.suggest_uniform('feature_fraction', 0.8, 1.0), # Frakcja cech
        'subsample': trial.suggest_uniform('subsample', 0.8, 1.0),             # Frakcja próbek
        'max_depth': trial.suggest_int('max_depth', -1, 15),                   # Maksymalna głębokość
        'min_child_samples': trial.suggest_int('min_child_samples', 20, 50),   # Minimalna liczba próbek w liściu
        'lambda_l1': trial.suggest_loguniform('lambda_l1', 1e-3, 10.0),        # Regularyzacja L1
        'lambda_l2': trial.suggest_loguniform('lambda_l2', 1e-3, 10.0),        # Regularyzacja L2
        'max_bin': trial.suggest_int('max_bin', 127, 255),                     # Maksymalna liczba binów
        'random_state': 42
    }

    # Model LightGBM z nowym celem
    model = LGBMRegressor(objective='huber', metric='mae', **params)

    # Cross-validation z podziałem czasowym
    tscv = TimeSeriesSplit(n_splits=5)
    scores = []

    for train_idx, valid_idx in tscv.split(X_train):
        X_fold_train, X_fold_valid = X_train.iloc[train_idx], X_train.iloc[valid_idx]
        y_fold_train, y_fold_valid = y_train.iloc[train_idx], y_train.iloc[valid_idx]
        weights_fold_train = sample_weights_train.iloc[train_idx]

        # Dopasowanie modelu (bez verbose)
        model.fit(
            X_fold_train, y_fold_train, 
            sample_weight=weights_fold_train,
            eval_set=[(X_fold_valid, y_fold_valid)],
            eval_metric='mae',
        )

        # Predykcja i obliczenie MAE
        preds = model.predict(X_fold_valid)
        mae = mean_absolute_error(y_fold_valid, preds)
        scores.append(mae)

    # Zwracanie średniej wartości MAE
    return np.mean(scores)

# Optymalizacja z Optuna
study = optuna.create_study(direction="minimize")
study.optimize(objective, n_trials=50)

# Wyświetlenie najlepszego zestawu parametrów i wyniku
print("\nNajlepsze parametry:")
print(study.best_params)

print("\nNajlepszy wynik (MAE):")
print(study.best_value)


In [None]:
# ---------------- Wyniki Optuna ----------------
print("\nNajlepsze parametry:")
print(study.best_params)

print("\nNajlepszy wynik (MSE):")
print(study.best_value)

# Zapis wyników do pliku
now = datetime.datetime.now()
date_str = now.strftime("%Y-%m-%d-%H-%M-%S")
file_name = f"optuna_results_{date_str}.txt"

with open(file_name, 'w') as f:
    f.write(f"Najlepsze parametry: {study.best_params}\n")
    f.write(f"Najlepszy wynik (MSE): {study.best_value:.4f}\n")

print(f"\nWyniki zapisano do pliku: {file_name}")