Merge branch 'master' into deprecate_args

microsoft · Aug 29, 2021 · ad7c60d · ad7c60d
2 parents d775b00 + 846e895
commit ad7c60d
Show file tree

Hide file tree

Showing 29 changed files with 230 additions and 151 deletions.
diff --git a/.gitignore b/.gitignore
@@ -326,7 +326,7 @@ coverage.xml
 .hypothesis/
 **/coverage.html
 **/coverage.html.zip
-R-package/tests/testthat/Rplots.pdf
+**/Rplots.pdf
 
 # Translations
 *.mo
@@ -427,6 +427,7 @@ miktex*.zip
 *.def
 
 # Files created by examples and tests
+*.buffer
 **/lgb-Dataset.data
 **/lgb.Dataset.data
 **/model.txt

diff --git a/R-package/R/lgb.Booster.R b/R-package/R/lgb.Booster.R
@@ -743,20 +743,23 @@ Booster <- R6::R6Class(
 #' data(agaricus.test, package = "lightgbm")
 #' test <- agaricus.test
 #' dtest <- lgb.Dataset.create.valid(dtrain, test$data, label = test$label)
-#' params <- list(objective = "regression", metric = "l2")
+#' params <- list(
+#'   objective = "regression"
+#'   , metric = "l2"
+#'   , min_data = 1L
+#'   , learning_rate = 1.0
+#' )
 #' valids <- list(test = dtest)
 #' model <- lgb.train(
 #'   params = params
 #'   , data = dtrain
 #'   , nrounds = 5L
 #'   , valids = valids
-#'   , min_data = 1L
-#'   , learning_rate = 1.0
 #' )
 #' preds <- predict(model, test$data)
 #'
 #' # pass other prediction parameters
-#' predict(
+#' preds <- predict(
 #'     model,
 #'     test$data,
 #'     params = list(
@@ -824,15 +827,18 @@ predict.lgb.Booster <- function(object,
 #' data(agaricus.test, package = "lightgbm")
 #' test <- agaricus.test
 #' dtest <- lgb.Dataset.create.valid(dtrain, test$data, label = test$label)
-#' params <- list(objective = "regression", metric = "l2")
+#' params <- list(
+#'   objective = "regression"
+#'   , metric = "l2"
+#'   , min_data = 1L
+#'   , learning_rate = 1.0
+#' )
 #' valids <- list(test = dtest)
 #' model <- lgb.train(
 #'   params = params
 #'   , data = dtrain
 #'   , nrounds = 5L
 #'   , valids = valids
-#'   , min_data = 1L
-#'   , learning_rate = 1.0
 #'   , early_stopping_rounds = 3L
 #' )
 #' model_file <- tempfile(fileext = ".txt")
@@ -885,15 +891,18 @@ lgb.load <- function(filename = NULL, model_str = NULL) {
 #' data(agaricus.test, package = "lightgbm")
 #' test <- agaricus.test
 #' dtest <- lgb.Dataset.create.valid(dtrain, test$data, label = test$label)
-#' params <- list(objective = "regression", metric = "l2")
+#' params <- list(
+#'   objective = "regression"
+#'   , metric = "l2"
+#'   , min_data = 1L
+#'   , learning_rate = 1.0
+#' )
 #' valids <- list(test = dtest)
 #' model <- lgb.train(
 #'   params = params
 #'   , data = dtrain
 #'   , nrounds = 10L
 #'   , valids = valids
-#'   , min_data = 1L
-#'   , learning_rate = 1.0
 #'   , early_stopping_rounds = 5L
 #' )
 #' lgb.save(model, tempfile(fileext = ".txt"))
@@ -936,15 +945,18 @@ lgb.save <- function(booster, filename, num_iteration = NULL) {
 #' data(agaricus.test, package = "lightgbm")
 #' test <- agaricus.test
 #' dtest <- lgb.Dataset.create.valid(dtrain, test$data, label = test$label)
-#' params <- list(objective = "regression", metric = "l2")
+#' params <- list(
+#'   objective = "regression"
+#'   , metric = "l2"
+#'   , min_data = 1L
+#'   , learning_rate = 1.0
+#' )
 #' valids <- list(test = dtest)
 #' model <- lgb.train(
 #'   params = params
 #'   , data = dtrain
 #'   , nrounds = 10L
 #'   , valids = valids
-#'   , min_data = 1L
-#'   , learning_rate = 1.0
 #'   , early_stopping_rounds = 5L
 #' )
 #' json_model <- lgb.dump(model)
@@ -983,15 +995,18 @@ lgb.dump <- function(booster, num_iteration = NULL) {
 #' data(agaricus.test, package = "lightgbm")
 #' test <- agaricus.test
 #' dtest <- lgb.Dataset.create.valid(dtrain, test$data, label = test$label)
-#' params <- list(objective = "regression", metric = "l2")
+#' params <- list(
+#'   objective = "regression"
+#'   , metric = "l2"
+#'   , min_data = 1L
+#'   , learning_rate = 1.0
+#' )
 #' valids <- list(test = dtest)
 #' model <- lgb.train(
 #'   params = params
 #'   , data = dtrain
 #'   , nrounds = 5L
 #'   , valids = valids
-#'   , min_data = 1L
-#'   , learning_rate = 1.0
 #' )
 #'
 #' # Examine valid data_name values

diff --git a/R-package/R/lgb.Dataset.R b/R-package/R/lgb.Dataset.R
@@ -1145,12 +1145,15 @@ lgb.Dataset.set.categorical <- function(dataset, categorical_feature) {
 #'
 #' @examples
 #' \donttest{
+#' # create training Dataset
 #' data(agaricus.train, package ="lightgbm")
 #' train <- agaricus.train
 #' dtrain <- lgb.Dataset(train$data, label = train$label)
+#'
+#' # create a validation Dataset, using dtrain as a reference
 #' data(agaricus.test, package = "lightgbm")
 #' test <- agaricus.test
-#' dtest <- lgb.Dataset(test$data, test = train$label)
+#' dtest <- lgb.Dataset(test$data, label = test$label)
 #' lgb.Dataset.set.reference(dtest, dtrain)
 #' }
 #' @rdname lgb.Dataset.set.reference

diff --git a/R-package/R/lgb.cv.R b/R-package/R/lgb.cv.R
@@ -63,14 +63,17 @@ CVBooster <- R6::R6Class(
 #' data(agaricus.train, package = "lightgbm")
 #' train <- agaricus.train
 #' dtrain <- lgb.Dataset(train$data, label = train$label)
-#' params <- list(objective = "regression", metric = "l2")
+#' params <- list(
+#'   objective = "regression"
+#'   , metric = "l2"
+#'   , min_data = 1L
+#'   , learning_rate = 1.0
+#' )
 #' model <- lgb.cv(
 #'   params = params
 #'   , data = dtrain
 #'   , nrounds = 5L
 #'   , nfold = 3L
-#'   , min_data = 1L
-#'   , learning_rate = 1.0
 #' )
 #' }
 #' @importFrom data.table data.table setorderv

diff --git a/R-package/R/lgb.train.R b/R-package/R/lgb.train.R
@@ -36,15 +36,18 @@
 #' data(agaricus.test, package = "lightgbm")
 #' test <- agaricus.test
 #' dtest <- lgb.Dataset.create.valid(dtrain, test$data, label = test$label)
-#' params <- list(objective = "regression", metric = "l2")
+#' params <- list(
+#'   objective = "regression"
+#'   , metric = "l2"
+#'   , min_data = 1L
+#'   , learning_rate = 1.0
+#' )
 #' valids <- list(test = dtest)
 #' model <- lgb.train(
 #'   params = params
 #'   , data = dtrain
 #'   , nrounds = 5L
 #'   , valids = valids
-#'   , min_data = 1L
-#'   , learning_rate = 1.0
 #'   , early_stopping_rounds = 3L
 #' )
 #' }

diff --git a/R-package/R/lgb.unloader.R b/R-package/R/lgb.unloader.R
@@ -21,15 +21,18 @@
 #' data(agaricus.test, package = "lightgbm")
 #' test <- agaricus.test
 #' dtest <- lgb.Dataset.create.valid(dtrain, test$data, label = test$label)
-#' params <- list(objective = "regression", metric = "l2")
+#' params <- list(
+#'   objective = "regression"
+#'   , metric = "l2"
+#'   , min_data = 1L
+#'   , learning_rate = 1.0
+#' )
 #' valids <- list(test = dtest)
 #' model <- lgb.train(
 #'   params = params
 #'   , data = dtrain
 #'   , nrounds = 5L
 #'   , valids = valids
-#'   , min_data = 1L
-#'   , learning_rate = 1.0
 #' )
 #'
 #' lgb.unloader(restore = FALSE, wipe = FALSE, envir = .GlobalEnv)

diff --git a/R-package/R/readRDS.lgb.Booster.R b/R-package/R/readRDS.lgb.Booster.R
@@ -15,15 +15,18 @@
 #' data(agaricus.test, package = "lightgbm")
 #' test <- agaricus.test
 #' dtest <- lgb.Dataset.create.valid(dtrain, test$data, label = test$label)
-#' params <- list(objective = "regression", metric = "l2")
+#' params <- list(
+#'   objective = "regression"
+#'   , metric = "l2"
+#'   , min_data = 1L
+#'   , learning_rate = 1.0
+#' )
 #' valids <- list(test = dtest)
 #' model <- lgb.train(
 #'   params = params
 #'   , data = dtrain
 #'   , nrounds = 10L
 #'   , valids = valids
-#'   , min_data = 1L
-#'   , learning_rate = 1.0
 #'   , early_stopping_rounds = 5L
 #' )
 #' model_file <- tempfile(fileext = ".rds")

diff --git a/R-package/R/saveRDS.lgb.Booster.R b/R-package/R/saveRDS.lgb.Booster.R
@@ -26,15 +26,18 @@
 #' data(agaricus.test, package = "lightgbm")
 #' test <- agaricus.test
 #' dtest <- lgb.Dataset.create.valid(dtrain, test$data, label = test$label)
-#' params <- list(objective = "regression", metric = "l2")
+#' params <- list(
+#'   objective = "regression"
+#'   , metric = "l2"
+#'   , min_data = 1L
+#'   , learning_rate = 1.0
+#' )
 #' valids <- list(test = dtest)
 #' model <- lgb.train(
 #'     params = params
 #'     , data = dtrain
 #'     , nrounds = 10L
 #'     , valids = valids
-#'     , min_data = 1L
-#'     , learning_rate = 1.0
 #'     , early_stopping_rounds = 5L
 #' )
 #' model_file <- tempfile(fileext = ".rds")

diff --git a/R-package/demo/basic_walkthrough.R b/R-package/demo/basic_walkthrough.R
@@ -12,29 +12,33 @@ test <- agaricus.test
 class(train$label)
 class(train$data)
 
+# Set parameters for model training
+train_params <- list(
+    num_leaves = 4L
+    , learning_rate = 1.0
+    , objective = "binary"
+    , nthread = 2L
+)
+
 #--------------------Basic Training using lightgbm----------------
 # This is the basic usage of lightgbm you can put matrix in data field
 # Note: we are putting in sparse matrix here, lightgbm naturally handles sparse input
 # Use sparse matrix when your feature is sparse (e.g. when you are using one-hot encoding vector)
 print("Training lightgbm with sparseMatrix")
 bst <- lightgbm(
     data = train$data
+    , params = train_params
     , label = train$label
-    , num_leaves = 4L
-    , learning_rate = 1.0
     , nrounds = 2L
-    , objective = "binary"
 )
 
 # Alternatively, you can put in dense matrix, i.e. basic R-matrix
 print("Training lightgbm with Matrix")
 bst <- lightgbm(
     data = as.matrix(train$data)
+    , params = train_params
     , label = train$label
-    , num_leaves = 4L
-    , learning_rate = 1.0
     , nrounds = 2L
-    , objective = "binary"
 )
 
 # You can also put in lgb.Dataset object, which stores label, data and other meta datas needed for advanced features
@@ -45,42 +49,32 @@ dtrain <- lgb.Dataset(
 )
 bst <- lightgbm(
     data = dtrain
-    , num_leaves = 4L
-    , learning_rate = 1.0
+    , params = train_params
     , nrounds = 2L
-    , objective = "binary"
 )
 
 # Verbose = 0,1,2
 print("Train lightgbm with verbose 0, no message")
 bst <- lightgbm(
     data = dtrain
-    , num_leaves = 4L
-    , learning_rate = 1.0
+    , params = train_params
     , nrounds = 2L
-    , objective = "binary"
     , verbose = 0L
 )
 
 print("Train lightgbm with verbose 1, print evaluation metric")
 bst <- lightgbm(
     data = dtrain
-    , num_leaves = 4L
-    , learning_rate = 1.0
+    , params = train_params
     , nrounds = 2L
-    , nthread = 2L
-    , objective = "binary"
     , verbose = 1L
 )
 
 print("Train lightgbm with verbose 2, also print information about tree")
 bst <- lightgbm(
     data = dtrain
-    , num_leaves = 4L
-    , learning_rate = 1.0
+    , params = train_params
     , nrounds = 2L
-    , nthread = 2L
-    , objective = "binary"
     , verbose = 2L
 )
 
@@ -126,25 +120,19 @@ valids <- list(train = dtrain, test = dtest)
 print("Train lightgbm using lgb.train with valids")
 bst <- lgb.train(
     data = dtrain
-    , num_leaves = 4L
-    , learning_rate = 1.0
+    , params = train_params
     , nrounds = 2L
     , valids = valids
-    , nthread = 2L
-    , objective = "binary"
 )
 
 # We can change evaluation metrics, or use multiple evaluation metrics
 print("Train lightgbm using lgb.train with valids, watch logloss and error")
 bst <- lgb.train(
     data = dtrain
-    , num_leaves = 4L
-    , learning_rate = 1.0
+    , params = train_params
     , nrounds = 2L
     , valids = valids
     , eval = c("binary_error", "binary_logloss")
-    , nthread = 2L
-    , objective = "binary"
 )
 
 # lgb.Dataset can also be saved using lgb.Dataset.save
@@ -154,12 +142,9 @@ lgb.Dataset.save(dtrain, "dtrain.buffer")
 dtrain2 <- lgb.Dataset("dtrain.buffer")
 bst <- lgb.train(
     data = dtrain2
-    , num_leaves = 4L
-    , learning_rate = 1.0
+    , params = train_params
     , nrounds = 2L
     , valids = valids
-    , nthread = 2L
-    , objective = "binary"
 )
 
 # information can be extracted from lgb.Dataset using getinfo

diff --git a/R-package/demo/categorical_features_rules.R b/R-package/demo/categorical_features_rules.R
@@ -85,7 +85,6 @@ params <- list(
     , metric = "l2"
     , min_data = 1L
     , learning_rate = 0.1
-    , min_data = 0L
     , min_hessian = 1.0
     , max_depth = 2L
 )