## Классификация музыкальных произведений для сервиса "МиФаСоль"

### Описание проекта

"МиФаСоль" - популярный музыкальный стримминговый сервис.

Надо разработать модель, позволяющую классифицировать музыкальные произведения по жанрам, чтобы улучшить работу рекомендательной системы.

### Описание данных

Данные:
- `kaggle_music_genre_train.csv` - Информация (40000) музыкальных треках, которые будут использоваться в качестве обучающих данных.
- `kaggle_music_genre_test.csv` - Информация (10000) музыкальных треках, которые будут использоваться в качестве тестовых данных.
- `sample_submission.csv` - Файл предсказаний в правильном формате.
- `instance_id` - Идентификатор трека в тестовом наборе.
- `music_genre` - Целевой признак. Для каждого трека предскажим категориальное значение соответствующее музыкальному жанру трека.

Описание полей данных:

- `instance_id` - Уникальный идентификатор трека.
- `track_name` - Название трека.
- `popularity` - Популярность трека.
- `acousticness` - Мера уверенности от **0,0** до **1,0** в том, что трек является акустическим.
- `danceability` - Танцевальность это показатель от **0,0** до **1,0**, который описывает, насколько трек подходит для танцев, основываясь на сочетании музыкальных элементов, включая темп, стабильность ритма, силу ударов и общую регулярность.
- `duration_ms` - Продолжительность трека в миллисекундах.
- `energy` - Энергия это показатель от **0,0** до **1,0**, представляющий собой меру интенсивности и активности. Как правило, энергичные композиции ощущаются как быстрые, громкие и шумные.
- `instrumentalness` - Определяет, содержит ли трек вокал. Звуки "Ooh" и "aah" в данном контексте рассматриваются как инструментальные. Рэп или разговорные треки явно являются "вокальными". Чем ближе значение инструментальности к **1,0**, тем больше вероятность того, что трек **не** содержит вокала.
- `key` - Базовый ключ (нота) произведения.
- `liveness` - Определяет присутствие аудитории в записи. Более высокие значения `liveness` означают увеличение вероятности того, что трек был исполнен вживую. Значение выше **0,8** обеспечивает высокую вероятность того, что трек исполняется вживую.
- `loudness` - Общая громкость трека в децибелах (дБ).
- `mode` - Указывает на модальность (мажорную или минорную) трека.
- `speechiness` - Речевой характер определяет наличие в треке разговорной речи. Чем более исключительно речевой характер носит запись (например, ток-шоу, аудиокнига, поэзия), тем ближе значение атрибута к **1,0**. Значения выше **0,66** характеризуют треки, которые, вероятно, полностью состоят из разговорной речи. Значения от **0,33** до **0,66** характеризуют треки, которые могут содержать как музыку, так и речь, как в виде фрагментов, так и в виде слоев, включая такие случаи, как рэп-музыка. Значения ниже **0,33**, скорее всего, представляют музыку и другие неречевые треки.
- `tempo` - Темп трека в ударах в минуту (BPM). В музыкальной терминологии темп представляет собой скорость или темп данного произведения и напрямую зависит от средней продолжительности тактов.
- `obtained_date` - Дата загрузки в сервис.
- `valence` - Показатель от **0,0** до **1,0**, характеризующий музыкальный позитив, передаваемый треком. Композиции с высокой валентностью звучат более позитивно (например, радостно, весело, эйфорично), а композиции с низкой валентностью - более негативно (например, грустно, депрессивно, сердито).
- `music_genre` - Музыкальный жанр трека.

### Импорт библиотек

In [None]:
from sklearn.model_selection import train_test_split, cross_val_score

from sklearn.linear_model import LogisticRegression

from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier

from ydata_profiling import ProfileReport

import matplotlib.gridspec as gridspec
import matplotlib.pyplot as plt
import pandas as pd

#import seaborn as sb

from sklearn.compose import ColumnTransformer

from sklearn.linear_model import Ridge
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.pipeline import Pipeline

from sklearn.svm import SVC

### Загрузка и подготовка данных

**1.** Загрузим `sample_submission` в датафрейм `data_sample`.

In [None]:
data_sample = pd.read_csv('sample_submission.csv')
data_sample.head(2)

In [None]:
data_sample.info()

Список возможных жанров:

In [None]:
genre_table = pd.DataFrame(data_sample['music_genre'].sort_values().unique(), columns=['genres'])
genre_table.index += 1
genre_table = genre_table.reset_index().rename(columns={'index':'genre_index'})
genre_table

**2.** Загрузим `kaggle_music_genre_test` в датафрейм `data_test`.

In [None]:
data_test = pd.read_csv('kaggle_music_genre_test.csv')
data_test.head(2)

In [None]:
data_test.info()

**3.** Загрузим `kaggle_music_genre_train` в датафрейм `data`.

In [None]:
data = pd.read_csv('kaggle_music_genre_train.csv')
report = ProfileReport(data.reset_index(drop=True), progress_bar=False, correlations={"auto": {"calculate": False}})
report.to_file("Data-Report.html")
report

Очевидная корреляция:

In [None]:
print('Корреляция между колонками acousticness и energy -', round(data[['acousticness', 'energy']].corr().loc['energy', 'acousticness'], 3))

In [None]:
ax = data['acousticness'].plot(kind='hist', bins=30, figsize=(15,7), legend=True, alpha=0.3, color='orange', edgecolor = 'black',
                         title='Корреляция между acousticness и energy')
data['energy'].plot(kind='hist', bins=30, ax=ax, alpha=0.6, color='white', edgecolor = 'black')
plt.legend(['acousticness','energy'])
plt.ylim(top=4000)
plt.show()

**4.** Дубликаты:

In [None]:
print('Дубликаты без id:')
print('data -', data.drop('instance_id', axis=1).duplicated().sum())
print('data_test -', data_test.drop('instance_id', axis=1).duplicated().sum())

Удалять дубликаты из `data_test` не будем. Посмотрим как справится с ними модель.

#### **Вывод:**

<div class="alert alert-block alert-danger">

</div>

### Обработка данных

##### Изменим формат отображения чисел формата `float` 

In [None]:
pd.options.display.float_format = '{:,.3f}'.format

##### Функции:

In [None]:
#Функция отображения пропусков
def miss (column):
    print('Количество пропусков в столбце', column, '-', data[column].isna().sum(), '-', data[column].isna().sum()*100/len(data[column]), \
          '% из всего датафрейма')
    return

#Функция отображения графиков
def graph (column):
    fig = plt.figure(tight_layout=True)
    gs = gridspec.GridSpec(2, 1)
    ax = fig.add_subplot(gs[0, :])
    data[column].plot(kind = 'box', figsize = (10, 7), title = 'Выбросы', ax=ax)
    ax = fig.add_subplot(gs[1, :])
    data[column].plot(kind='hist', bins=100, figsize=(10,7),  color='orange', edgecolor = 'black', title='Распределение')
    plt.show()
    return

##### Приведем данные к адекватным форматам и заполним пропуски.

##### **1.**  `track_name`

In [None]:
miss('track_name')

Судя по анализу, самым популярным словом в названии треков является - "the". В основном эти названия написаны на латинице. Иногда же встречаются иностранные композиции. Так же Были замечены выбросы по размеру строки: например есть песня с названием в 242 символа.

Для модели эта колонка будет мало полезной. Не смотря на то, что все названия можно переводить в один язык и выискивать ключевые слова, по которым, не без помощи остальных параметров, можно было бы предсказывать жанр. Поэтому удалим сомнительный признак.

In [None]:
print('Количество колонок ДО -', len(data.columns))
data = data.drop('track_name', axis=1)
data_test = data_test.drop('track_name', axis=1)
print('Количество колонок ПОСЛЕ -', len(data.columns))

##### **2.** `popularity`

In [None]:
miss('popularity')
graph('popularity')
data['popularity'].sort_values().unique()

Выбросов много. Все таки какие-то треки вогут становиться хитами или наоборот. Это нормально.

Обработаем пропуски. Заменим пропуски на среднее.

In [None]:
data['popularity'] = data['popularity'].fillna(value=data['popularity'].mean())
data_test['popularity'] = data_test['popularity'].fillna(value=data_test['popularity'].mean())
miss('popularity')

##### **3.** `acousticness`

In [None]:
miss('acousticness')
graph('acousticness')
data['acousticness'].describe()

Среднее и медиана сильно отличаются. В основном, уверенности, что трек является аккустическим нет.

##### **4.** `danceability` 

In [None]:
miss('danceability')
graph('danceability')
data['danceability'].describe()

У этого параметра нормальноре распределение и относительно небольшое количество пропусков. Выбросы есть только на малых значениях.

Обработаем пропуски. Заменим пропуски на среднее.

In [None]:
data['danceability'] = data['danceability'].fillna(value=data['danceability'].mean())
data_test['danceability'] = data_test['danceability'].fillna(value=data_test['danceability'].mean())
miss('danceability')

##### **5.** `duration_ms`

In [None]:
miss('duration_ms')
graph('duration_ms')
data['duration_ms'].describe()

Переведем время в минуты:

In [None]:
data['duration_ms'] = data['duration_ms'] / 100 / 60
data = data.rename(columns={'duration_ms':'duration_minutes'}) 
data_test['duration_ms'] = data_test['duration_ms'] / 100 / 60
data_test = data_test.rename(columns={'duration_ms':'duration_minutes'}) 

Обработаем выбросы, где длительность трека переваливает за **30** минут. Скорее всего тут дело в лишних нулях.

In [None]:
data.loc[data['duration_minutes']>30, 'duration_minutes'] = data.loc[data['duration_minutes']>30, 'duration_minutes'] / 10
data_test.loc[data_test['duration_minutes']>30, 'duration_minutes'] = data_test.loc[data['duration_minutes']>30, 'duration_minutes'] / 10
data.loc[data['duration_minutes']>15, 'duration_minutes'] = data.loc[data['duration_minutes']>15, 'duration_minutes'] / 10
data_test.loc[data_test['duration_minutes']>15, 'duration_minutes'] = data_test.loc[data['duration_minutes']>15, 'duration_minutes'] / 10

Заменим отрицательные значения и нули на среднее.

In [None]:
data.loc[data['duration_minutes']<=0, 'duration_minutes'] = data.loc[data['duration_minutes']>0, 'duration_minutes'].mean()
data_test.loc[data_test['duration_minutes']<=0, 'duration_minutes'] = data_test.loc[data_test['duration_minutes']>0, 'duration_minutes'].mean()

In [None]:
miss('duration_minutes')
graph('duration_minutes')
data['duration_minutes'].describe()

В среднем продолжительность одного трека около **4-х** минут.

##### **6.** `energy` 

In [None]:
miss('energy')
graph('energy')
data['energy'].describe()

Тут все в порядке.

##### **7.** `instrumentalness`

In [None]:
miss('instrumentalness')
graph('instrumentalness')
data['instrumentalness'].describe()

Тут все в порядке. Треков не содержащих вокал (ближе к значению **1.0**) намного меньше, что логично.

##### **8.** `key`

In [None]:
miss('key')
data.groupby('key').count()['instance_id'].sort_values(ascending=False).plot(kind='bar', color='orange', edgecolor='black', figsize=(10,6))
plt.show()

Здесь особо нечем заменить пропуски. Поэтому сделаем так:

In [None]:
data.loc[data['key'].isna(), 'key'] = data.loc[data['key'].isna(), 'key'].fillna(value='unknown')
data_test.loc[data_test['key'].isna(), 'key'] = data_test.loc[data_test['key'].isna(), 'key'].fillna(value='unknown')

##### **9.** `liveness`

In [None]:
miss('liveness')
graph('liveness')

Сделаем из этого признака - котегориальный. Более высокие значения `liveness` означают увеличение вероятности того, что трек был исполнен вживую. Значение выше **0,8** обеспечивает высокую вероятность того, что трек исполняется вживую.

In [None]:
data.loc[data['liveness'] > 0.8, 'liveness'] = 1
data.loc[data['liveness'] <= 0.8, 'liveness'] = 0
data_test.loc[data['liveness'] > 0.8, 'liveness'] = 1
data_test.loc[data['liveness'] <= 0.8, 'liveness'] = 0

##### **10.** `loudness`

In [None]:
miss('loudness')
graph('loudness')
data['loudness'].describe()

Эта колонка показывает общую громкость в децибелах (дБ). Сделаем эти значения положительными.

In [None]:
data['loudness'] = data['loudness']*(-1)

##### **11.** `mode`

In [None]:
miss('mode')
data.groupby('mode').count()['instance_id'].sort_values(ascending=False).plot(kind='bar', color='orange', edgecolor='black', figsize=(10,6))
plt.show()

Здесь особо нечем заменить пропуски. Поэтому сделаем так:

In [None]:
data.loc[data['mode'].isna(), 'mode'] = data.loc[data['mode'].isna(), 'mode'].fillna(value='unknown')
data_test.loc[data_test['mode'].isna(), 'mode'] = data_test.loc[data_test['mode'].isna(), 'mode'].fillna(value='unknown')

##### **12.** `speechiness`

In [None]:
miss('speechiness')
graph('speechiness')
data['speechiness'].describe()

Сначала приведем значения в один тинтервал (от **0** до **1**). Вычтим единицу.

In [None]:
data.loc[data['speechiness']>1.0, 'speechiness'] -= 1
data_test.loc[data_test['speechiness']>1.0, 'speechiness'] -= 1

`speechiness` - Речевой характер определяет наличие в треке разговорной речи. Чем более исключительно речевой характер носит запись (например, ток-шоу, аудиокнига, поэзия), тем ближе значение атрибута к **1,0**. 

- Значения выше **0,66** характеризуют треки, которые, вероятно, полностью состоят из разговорной речи. 
- Значения от **0,33** до **0,66** характеризуют треки, которые могут содержать как музыку, так и речь, как в виде фрагментов, так и в виде слоев, включая такие случаи, как рэп-музыка. 
- Значения ниже **0,33**, скорее всего, представляют музыку и другие неречевые треки.

In [None]:
def categorize_speechiness(speechiness):
    try:
        if 0.0 <= speechiness < 0.33:
            return 'no_speech_music'
        elif 0.33 <= speechiness <= 0.66:
            return 'speech_music'
        elif speechiness > 0.66:
            return 'only_speech_music'
    except:
        pass

In [None]:
data['speechiness'] = data['speechiness'].apply(categorize_speechiness)
data_test['speechiness'] = data_test['speechiness'].apply(categorize_speechiness)

##### **13.** `tempo`

In [None]:
miss('tempo')

##### Изменим тип данных в колонке `tempo`

In [None]:
data['tempo'] = data['tempo'].str.strip('? ')
data.loc[data.loc[:, 'tempo'] == '', 'tempo'] = '-1.0'
data_test['tempo'] = data_test['tempo'].str.strip('? ')
data_test.loc[data_test.loc[:, 'tempo'] == '', 'tempo'] = '-1.0'

In [None]:
data['tempo'] = round(data['tempo'].astype('float'))
data_test['tempo'] = round(data_test['tempo'].astype('float'))

In [None]:
graph('tempo')
data['tempo'].describe()

In [None]:
#Заменим отрицательные и нулевые значения на среднее
data.loc[data['tempo']<=0, 'tempo'] = data.loc[data['tempo']>0, 'tempo'].median()
data_test.loc[data_test['tempo']<=0, 'tempo'] = data_test.loc[data_test['tempo']>0, 'tempo'].median()

#Заполним пропуски
data.loc[data['tempo'].isna(), 'tempo'] = data.loc[data['tempo']>0, 'tempo'].median()
data_test.loc[data_test['tempo'].isna(), 'tempo'] = data_test.loc[data_test['tempo']>0, 'tempo'].median()

В основном самый популярный темп около **120** ударов в минуту.

Медленные темпы 

    - Largo - 45 
    - Lento - 52 
    - Adagio - 60 
    - Grave - 40 

Умеренные темпы 

    - Andante - 65 
    - Andantino - 70 
    - Sostenuto - 75 
    - Moderato - 80 
    - Allegretto - 100 
    
Быстрые темпы 

    - Allegro - 132 
    - Vivo - 140 
    - Vivace - 160 
    - Presto - 180 
    - Prestissimo - 208

##### **14.** `obtained_date`

In [None]:
miss('obtained_date')
data.groupby('obtained_date').count()['instance_id'].sort_values(ascending=False).plot(kind='bar', color='orange', edgecolor='black', figsize=(10,6))
plt.show()

Для модели машинного обучения, дата загрузки трека в сервис абсолютна не показательна. Эту колонку можно удалить.

In [None]:
print('Количество колонок ДО -', len(data.columns))
data = data.drop('obtained_date', axis=1)
data_test = data_test.drop('obtained_date', axis=1)
print('Количество колонок ПОСЛЕ -', len(data.columns))

##### **15.** `valence`

In [None]:
miss('valence')
graph('valence')
data['valence'].describe()

Тут все в порядке.

##### **16.** `music_genre`

In [None]:
miss('music_genre')
data.groupby('music_genre').count()['instance_id'].sort_values(ascending=False).plot(kind='bar', color='orange', edgecolor='black', figsize=(10,6))
plt.show()

In [None]:
table = data.drop(['key', 'mode', 'speechiness', 'instance_id'], axis=1).groupby('music_genre').mean()

table

- Самые популярные жанры: `Rap`, `Rock`, `Hip-Hop`
- Жанр, который больше всего подходит для танца - `Hip-Hop`
- Самые энергичные жанры: `Electronic`, `Alternative`. 
- На удивление `Rap` является самым неречевым жанром
- Записей живых выступлений бульше всего у музыкантов жанра `Blues`
- `Classical` музыка по праву является самой громкой, грустной, аккустической, длинной, и не энергичной из всех. У этого жанра к тому же самый низкий темп композиций.
- Самые "веселые" жанры: `Blues`, `Country`

Заменим на цифры

In [None]:
data = data.join(genre_table.set_index('genres'), on='music_genre', validate='m:m').drop('music_genre', axis=1)
data.head(2)

#### **Вывод:**

<div class="alert alert-block alert-danger">

</div>

#### Разработка модели машинного обучения

In [None]:
features = data.drop(['genre_index', 'instance_id'], axis=1)
target = data['genre_index']

In [None]:
final_table = pd.DataFrame(data_test['instance_id'])
final_table.head(2)

Кодирование строковых столбцов

In [None]:
encoder_ohe = OneHotEncoder(drop='first', handle_unknown='ignore', sparse=False)

data_ohe = features.copy()
data_ohe_test = data_test.drop('instance_id', axis=1)

encoder_ohe.fit(data_ohe.select_dtypes('object'))

data_ohe[encoder_ohe.get_feature_names_out()] = encoder_ohe.transform(data_ohe.select_dtypes('object'))
data_ohe_test[encoder_ohe.get_feature_names_out()] = encoder_ohe.transform(data_ohe_test.select_dtypes('object'))

data_ohe = data_ohe.drop(data_ohe.select_dtypes('object').columns, axis=1)
data_ohe_test = data_ohe_test.drop(data_ohe_test.select_dtypes('object').columns, axis=1)

data_ohe.head(2)

Масштабирование данных

In [None]:
data_ohe_scale = data_ohe.copy()
data_ohe_scale_test = data_ohe_test.copy()

scaler = StandardScaler()

scaler.fit(data_ohe_scale)

data_ohe_scale[:] = scaler.transform(data_ohe_scale)
data_ohe_scale_test[:] = scaler.transform(data_ohe_scale_test)

data_ohe_scale.head(2)

Обозначим целевой признак как `target`, а остальные данные как `features`.

In [None]:
features = data_ohe

Разделим данные на обучающую `train` и валидационную `valid` (**25%** от общего числа данных) выборки.

In [None]:
features_train, features_valid, target_train, target_valid = train_test_split(features, target, test_size=0.25, random_state=12)
print('Длинна обучающей выборки -', len(target_train))
print('Длинна валидационной выборки -', len(target_valid))

In [None]:
from sklearn.linear_model import LogisticRegression, LogisticRegressionCV, RidgeClassifier, RidgeClassifierCV
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis, QuadraticDiscriminantAnalysis
from sklearn.neighbors import KNeighborsClassifier, NearestCentroid, RadiusNeighborsClassifier
from sklearn.ensemble import ExtraTreesClassifier, RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier, ExtraTreeClassifier
from sklearn.semi_supervised import LabelPropagation, LabelSpreading
from sklearn.naive_bayes import BernoulliNB, GaussianNB
from sklearn.neural_network import MLPClassifier
from sklearn.svm import SVC, LinearSVC

from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score, roc_auc_score

from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint

In [None]:
LogisticRegressionCV_multinomial = LogisticRegressionCV(multi_class='multinomial')
LogisticRegression_multinomial = LogisticRegression(multi_class='multinomial')
LinearSVC_crammer_singer = LinearSVC(multi_class='crammer_singer')
QuadraticDiscriminantAnalysis = QuadraticDiscriminantAnalysis()
LogisticRegression_ovr = LogisticRegression(multi_class='ovr')
LinearDiscriminantAnalysis = LinearDiscriminantAnalysis()
RadiusNeighborsClassifier = RadiusNeighborsClassifier()
RandomForestClassifier = RandomForestClassifier(random_state=12)
DecisionTreeClassifier = DecisionTreeClassifier(random_state=12)
KNeighborsClassifier = KNeighborsClassifier()
ExtraTreesClassifier = ExtraTreesClassifier()
ExtraTreeClassifier = ExtraTreeClassifier()
RidgeClassifierCV = RidgeClassifierCV()
LabelPropagation = LabelPropagation()
NearestCentroid = NearestCentroid()
RidgeClassifier = RidgeClassifier()
LabelSpreading = LabelSpreading()
MLPClassifier = MLPClassifier()
BernoulliNB = BernoulliNB()
GaussianNB = GaussianNB()
SVC = SVC(probability=True, random_state=12)

estimators = [scaler, RandomForestClassifier]
models = [RandomForestClassifier, DecisionTreeClassifier, ExtraTreesClassifier, ExtraTreeClassifier, SVC,
         RidgeClassifier, RidgeClassifierCV, GaussianNB, BernoulliNB, MLPClassifier]

for model in models:
    estimators.append((f'{model}', model))

pipe = Pipeline(estimators)

In [None]:
scale = StandardScaler()
scaler.fit(features_train)
estimators = [scale, RandomForestClassifier]
for estimator in estimators:
    estimators.append((f'{estimator}', estimator))
pipe = Pipeline(estimators)
pipe

In [None]:
#features_train[:] = scaler.transform(features_train)
#features_valid[:] = scaler.transform(features_valid)

In [None]:
#scores = []

print('Значения точности и метрик для каждой модели:\n')
for model in models:
    
    predicted_valid = model.fit(features_train, target_train).predict(features_valid)
    probabilities_valid = model.predict_proba(features_valid)
    #probabilities_valid = probabilities_valid[:, 1]
    
    print(model,  '\nВалидационная выборка:', round(model.score(features_valid, target_valid)*100, 3), 
                  '% \tОбучающая выборка:', round(model.score(features_train, target_train)*100, 3),
                  '% \tAUC-ROC:', round(roc_auc_score(target_valid, probabilities_valid, multi_class='ovr')*100, 3),'%\n')

In [None]:
#param_grid = dict(reduce_dim__n_components=[2, 5, 10], clf__C=[0.1, 10, 100])
#grid_search = GridSearchCV(pipe, param_grid=param_grid)

#grid_search.fit(features_train, target_train)

In [None]:
#scaler = StandardScaler()
#svc = SVC()

#pipe = Pipeline([('scaler',scaler), ('svc', svc)])
#pipe.fit(features_train, target_train).score(features_valid, target_valid)
#pipe.set_params(svc__C=10).fit(features_train, target_train).score(features_valid, target_valid)
#res_num = pipe.fit_transform(features.drop(['key', 'mode', 'speechiness'], axis=1))
#pipe.fit(features_train, target_train).score(features_valid, target_valid)

In [None]:
#res_num = pipe.fit_transform(features_train)
#res_df_num = pd.DataFrame(res_num, columns=pipe['scaler'].get_feature_names_out(features).columns)
#res_df_num.head(2)

In [None]:
#final_pipe.fit(features, target)
#preds = final_pipe.predict(features_test)
#mean_squared_error(target_test, preds, squared=False)

Также можно использовать автоматизированные методы подбора гиперпараметров. Из методов, реализованных в sklearn, часто используются GridSearchCV и RandomizedSearchCV. GridSearch перебирает все возможные комбинации гиперпараметров, указанных в параметре param_grid: по сути, это удобная альтернатива подбору в циклах. А RandomizedSearch использует случайные комбинации, исходя из распределений параметров в param_distributions. Это позволяет сократить время обучения, причем часто не сильно теряя в качестве.

Для обоих методов можно задать параметр n_jobs=-1, который позволит использовать все возможные потоки и подбирать параметры параллельно(правда, это еще зависит от конфигурации машины, на которой ты считаешь), это тоже может помочь ускорить время обучения

На практике еще часто используютсяoptuna или hyperopt, они оптимизированы под большие диапазоны подбора