# Определение популярности песни

### 1. Постановка задачи
Посчитать популярность песни в Америке по ее музыкальным параметрам, которые можно выразить в виде цифровой константы, а также длине названия песни

### 2. Описание датасета
Данные "data.csv" — - это таблица из 174 тысяч песен собранных с помощью Spotify WEB API.

Расшифровка столбцов в "data.csv" для справки:

- acousticness — акустичность трека (по некоторой условной шкале от 0 до 1)
- artists — исполнитель
- danceability — танцевальность трека (по некоторой условной шкале от 0 до 1)
- duration_ms — длительность в миллисекундах
- energy — энергия трека (по некоторой условной шкале от 0 до 1)
- explicit — содержание в треке нецензурной лексики (0 - нет нецензурной лексики, 1 - есть нецензурная лексика)
- id — индивидуальный номер трека, сгенирированный Spotify
- instrumentalness — инструментальность трека (по некоторой условной шкале от 0 до 1)
- key — первая нота трека (С - 0, С# - 1 и так далее, H - 11)
- liveness — звучность живого исполнения трека (по некоторой условной шкале от 0 до 1)
- loudness — громкость трека в децибелах (в диапазоне от -60 о 0)
- mode — начинается ли трек с основной аккордовой последовательности (0 - не начинается, 1 - начинается)
- name — название трека
- popularity — популярность трека в США (по некоторой условной шкале от 0 до 100)
- release_date — дата выпуска трека (в формате yyyy-mm-dd или yyyy)
- speechiness — содержание человеческого голоса (по некоторой условной шкале от 0 до 1)
- tempo — темп трека в BMP (от 0 до 250)
- valence — позитивность трека (по некоторой условной шкале от 0 до 1)
- year — год выпуска трека (от 1920 до 2021)

### 3.Изменение датасета
Заметим, что столбец *id* нам не нужен, так как это просто рандомно сгенерированное уникальное имя трека. Удалим также столбец *artists*, так как это не числовые функции от трека. Удалим также столбец *release_date*, так как не у всех треков есть точная дата, но у всех есть определнный год выпуска, который указан в другом столбце.
Столбец *name* заменим на *length of name*, так как длинные названия хуже запоминаются и "вредят" популярности.
Затем я нормализировала данные, чтобы заранее улучшить работу регрессий.

### 4. Первый способ решения. Линейная регрессия
Я разделила данные на тренировочные и проверяемые в отношении *7 к 3*

*RMSE* после первого запуска равняется *17.350405962761354*, причем значения варьируются от *0 до 100*. Это не очень хорошо, если учитывать, что для чисел до 50, это составляет больше трети от числа.

Попробуем улучшить ответ. Посчитаем *RMSE* для каждого трека. Выкинем *3%* песен, так как у них большое отклонение.

Итоговая ошибка *RMSE = 15.640354282545404*, что выглядит конечно лучше, но все равно составляет примерно треть для большинства чисел.

### 5. Второй способ решения. Random Forest Regression.
Я разделила данные на тренировочные и проверяемые в отношении *7 к 3*

*RMSE* после первого запуска равняется *12.196360414054435*, что лучше даже линейной регрессии.

Построим самое обычное дерево. Попробуем подобрать под него глубину дерева и число деревьев, что возомжно улучшит ответ.

Для числа деревьев переберем некоторые значения *от 100 до 300*. Построим график. Увидим, что лучшее значение достигается при *n_estimators = 300*. Заметим, что минимум достигается при граничном значении, но дальше перебор уже бессмысленен. Я протестировала некоторые значения и больше *300*, но они либо давали ответ хуже, либо отличались слишком незначительно, а работали сильно дольше.

Для определения глубины сделаем действия аналогичные прошлому пункту, прогнав значения *от 1 до 30*. Увидим, что лучшее значение достигается при *max_depth = 23*. 

Итоговая ошибка *RMSE = 12.118864410535997*. За счет наших операций не удалось особо сильно улучшить результат, но он улучшился. Теперь результат все-таки близок к 10, что является хорошим показателем. 


### 6. Вывод
Можно сказать, что мы научились определять популярность песни в США с достаточно небольшим отклонением. Конечно, относительно маленькой популярности оно большое, но для значения полуярности равной *24ем* ошибка составляет примерно половину, что на самом деле внушает уверенность в хорошести результатов. 

Датасет был достаточно большим, поэтому работать было сложно, так как процессы с Random Forest считались не так уж быстро, но в целом все укладывалось в час. Думаю, что в будущем можно добавить к датасету артистов, так как исполнителей было не так уж и много (всего 34 тысячи из более чем 174 тысяч песен).

