Документация: https://lightgbm.readthedocs.io/en/latest/
Для установки lightgbm:

`pip install lightgbm`

Если с установкой библиотеки возникли трудности, можно запустить ноутбук в Colab: 

https://colab.research.google.com/

# Цель занятия
На этом занятии мы рассмотрим применение алгоритма LightGBM для задачи классификации.

LightGBM (Light Gradient Boosting Machine) - это библиотека машинного обучения для градиентного бустинга на деревьях решений. Она была разработана в Microsoft и представляет собой более быстрый и эффективный вариант бустинга на деревьях решений, чем другие алгоритмы бустинга, такие как XGBoost.

LightGBM использует алгоритм, основанный на гистограммах, который группирует данные в различные корзины (buckets), вместо простого поиска лучшего разбиения на каждом шаге, что ускоряет обучение. Кроме того, LightGBM поддерживает распараллеливание, использование различных типов данных и распределение на нескольких компьютерах.

LightGBM обычно используется для решения задач классификации и регрессии в различных областях, включая компьютерное зрение, естественный язык, финансы и т.д.

In [2]:
# Загрузка библиотек
import lightgbm as lgb
from sklearn import datasets
from sklearn.model_selection import train_test_split
import numpy as np
from sklearn.metrics import accuracy_score

In [3]:
# Загрузка датасета
iris = datasets.load_iris()
X = iris.data
y = iris.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [4]:
# Создание объекта lgb.Dataset, который содержит тренировочные данные:
train_data = lgb.Dataset(X_train, label=y_train)

In [5]:
# Определение параметров для модели LightGBM:

params = {
    "objective": "multiclass",
    "num_class": 3,
    "metric": "multi_logloss",
    "learning_rate": 0.1
}

# objective: тип задачи машинного обучения (в нашем случае, многоклассовая классификация).
# num_class: количество классов (в нашем случае, 3).
# metric: метрика, используемая для оценки качества модели.
# learning_rate: скорость обучения, т.е. насколько быстро модель будет обучаться.
num_rounds = 10 # количество раундов (num_rounds)

In [6]:
# Обучение модели
model = lgb.train(params, train_data, num_rounds)

You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 91
[LightGBM] [Info] Number of data points in the train set: 120, number of used features: 4
[LightGBM] [Info] Start training from score -1.098612
[LightGBM] [Info] Start training from score -1.073920
[LightGBM] [Info] Start training from score -1.123930


In [7]:
# Обратите внимание, что метод predict возвращает вероятности принадлежности каждого класса. 
# Чтобы получить предсказанный класс, мы можем выбрать класс с наибольшей вероятностью:

y_pred = model.predict(X_test)
y_pred_class = np.argmax(y_pred, axis=1)

In [8]:
accuracy = accuracy_score(y_test, y_pred_class)
print("Accuracy:", accuracy)

Accuracy: 1.0
