Индивидуальный проект: **Популярность музыки в сервисе Spotify за 2014-2022**

Автор: **Куготов Алим Заурович**

Проверяющий: **Нечаев Илья Андреевич**

Ссылка на датасет: https://www.kaggle.com/datasets/jfreyberg/spotify-chart-data

### Примерный план (подстроить план под вашу задачу)
1. Цель и задачи исследования
2. Описание набора данных
3. Разведочный анализ данных (англ. exploratory data analysis, EDA) + визуализация
4. Генерация и селекция признаков + нормализация
5. Исключение аномалий, заполнение пропусков в данных и.т.д.
6. Очистка данных от шума
7. Выбор метода/алгоритма, модели, архитектуры (для НС)
8. Настройка гиперпараметров (для НС), выбор параметров метода/алгоритма
9. Выбор метрики оценки качества (RMSE, R^2)
10. Генерация наборов для обучения, тестирования и валидации
11. Развертывание и работа модели, визуализация результатов
12. Выводы

## 1. Цель и задачи исследования

Своей целью ставлю исследование индустрии музыки за последний десяток лет - выявить самых популярных артистов, альбомы, жанры. 

Сам же годами слушаю примерно одно и то же: 
- рок 60-х ([the doors](https://music.yandex.ru/artist/29060), 
[the rolling stones](https://music.yandex.ru/artist/6601), 
[led zeppelin](https://music.yandex.ru/artist/68227)) - любовь к жанру привил мне отец;

- электронику 90х ([massive atack](https://music.yandex.ru/artist/89677), 
[moby](https://music.yandex.ru/artist/27154), 
[depeche mode](https://music.yandex.ru/artist/36810), 
[enigma](https://music.yandex.ru/artist/89677)), что встречается во многих культовых фильмах и сериалах: 
например, в [клане сопрано](https://vk.com/video/@alim_kugot?z=video-120075923_456242536%2Fpl_163408758_-2);


За последние лет 5 открыл для себя только русский/казахский хип-хоп, который зацепил меня своей дерзостью, прямотой и текстами. Эта индустрия построилась с нуля, отражает самые разные проблемы (финансовые, социальные, семейные). Их мотивы стали мне близки с переездом и взрослением.

Резуюмируя, музыка и культура - отражают настроение в обществе и душевные состояния человека. Мне интересно понять, как они менялось со временем, какие жанры приобретали популярность, почему тот или иной артист стал знаменитым именно в это время, почему стал популярным именно этот альбом (ведь исполнитель, скорее всего, писал похожие ранее). 
Здесь я это и хотел бы выяснить

## 2. Описание набора данных

Данные взяты из: [kaggle/datasets/spotify_charts_link](https://www.kaggle.com/datasets/jfreyberg/spotify-chart-data)


### Описание данных

Датасет представлен в виде единственного csv-файла: ***data/charts.csv***.

Данные собирались на основе популярности аудио-треков в чартах spotify - на основе открытого Spotify API, как пишет сам автор датасета: 
*The dataset is obtained from https://kworb.net/spotify/ and the official Spotify API.*.

Датасет собирался для исследования и анализа индустрии музыки, для выявления новых трендов, популярности жанров и тд:
- Выборка включает 626475  записей и 10 признаков (строки и столбцы соответственно).
- Целевая переменная **position** - позиция в чарте (в зависимости от страны)

- Номинальные переменные:
    - **track_id#1** - уникальный id в spotify;
    
- Количественные переменные:
    - **date#3** — дата появление в чарте;
    - **position#4** - позиция в чарте;
    - **streams#5** - количество stream-ов при появлении в чарте;
    - **duration#8** - 
    - **название признака#N** — что обозначает этот признак;
    
- Категориальные переменные:
    - **name#1** — название трека;
    - **country#2** - код страны, в которой появлялась песня в чарте;
    - **artists#6** — авторы (исполнители) песни;
    - **artist_genres#7** -жанры, в которых исполнители выступают;

- Бинарные переменные: 
    - **explicit#9** - возрастное ограничение (есть/нет) 
   
<br>

> Не планирую использовать признаки: ***track_id*** (сурогатный ключ из базы данных нам не нужен); ***streams*** (не представляю какую полезную информацию признак в себе несёт)

##  3. Разведочный анализ данных (англ. exploratory data analysis, EDA) + визуализация

[Что такое EDA?](https://en.wikipedia.org/wiki/Exploratory_data_analysis)

- выгрузка данных
- визуализация
- взаимодействие между параметрами (корреляция и прочее)
- проверка на нормальность
- закономерности, "инсайты", особенности данных

## 4. Генерация и селекция признаков + нормализация

[Feature selection & Feature generation](https://www.bigdataschool.ru/blog/data-preparation-operations.html)

Для задач с временными рядами: https://github.com/blue-yonder/tsfresh

## 5. Исключение аномалий, заполнение пропусков в данных и.т.д.

Используем критерии 3 сигма, гистограммы, ящики с усами и.т.д.:
 [Anomaly Detection](https://alexanderdyakonov.wordpress.com/2017/04/19/%D0%BF%D0%BE%D0%B8%D1%81%D0%BA-%D0%B0%D0%BD%D0%BE%D0%BC%D0%B0%D0%BB%D0%B8%D0%B9-anomaly-detection/)
 [Подготовка датасета](https://proglib.io/p/moem-dataset-rukovodstvo-po-ochistke-dannyh-v-python-2020-03-27)







## 6. Очистка данных от шума

Можно использовать любые алгоритмы очистки от шума (сигналы: на основе [Empirical Mode Decomposition](https://en.wikipedia.org/wiki/Hilbert%E2%80%93Huang_transform), [Intrinsic Time-Scale Decomposition](https://royalsocietypublishing.org/doi/pdf/10.1098/rspa.2006.1761), изображения: [Non-Local Means](https://en.wikipedia.org/wiki/Non-local_means), [Kuwahara](https://subsurfwiki.org/wiki/Kuwahara_filter), [Symmetric Nearest Neighbour Filter](https://subsurfwiki.org/wiki/Symmetric_nearest_neighbour_filter)) и другие.

## 7. Выбор метода/алгоритма, модели, архитектуры (для НС)

- Выбрать 2 типа модели:

    - Одну baseline модель — это может быть `линейная регрессия` (для задачи регрессии), `k-nearest neighbour` для задачи классификации, `k-means` для кластеризации

    - Вторую посложнее — для задачи регрессии, random forest, gradient-boosted tree ([XGBoost & CatBoost](https://towardsdatascience.com/catboost-vs-lightgbm-vs-xgboost-c80f40662924)) и другие. Дополнительно для временных рядов: SARIMAX, [Prophet](https://facebook.github.io/prophet/docs/quick_start.html#python-api). Для задачи классификации: logistic regression, decision tree, random forest, gradient-boosted tree ([XGBoost & CatBoost](https://towardsdatascience.com/catboost-vs-lightgbm-vs-xgboost-c80f40662924)), multilayer perceptron и другие.

  Если у Вас задачка с изображениями — необходимо выбрать [простую уже обученную ИНС](https://neerc.ifmo.ru/wiki/index.php?title=%D0%A1%D0%B2%D0%B5%D1%80%D1%82%D0%BE%D1%87%D0%BD%D1%8B%D0%B5_%D0%BD%D0%B5%D0%B9%D1%80%D0%BE%D0%BD%D0%BD%D1%8B%D0%B5_%D1%81%D0%B5%D1%82%D0%B8).

## 8. Настройка гиперпараметров (для НС), выбор параметров метода/алгоритма

- Самый естественный способ организовать подбор гиперпараметров — сделать перебор по сетке (`Grid Search`):

  - для каждого гиперпараметра фиксируется несколько значений;
  - перебираются все комбинации значений различных гиперпараметров, на каждой из этих комбинаций модель обучается и тестируется;
  - выбирается комбинация, на которой модель показывает лучшее качество;
  - есть много библиотечных функций для [Grid Search](https://pythonpip.ru/osnovy/poisk-po-setke-python), например [тут](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html);

## 9. Выбор метрики оценки качества (RMSE, R^2)

- Выбрать метрики (обосновать выбор).

Важно внимательно подходить к выбору метрики: в случае с несбалансированными классами классификатор может все объекты записать в класс, который представлен большим количеством объектов, а такая метрика как accuracy (доля объектов, для которых мы правильно предсказали класс для задачи классификации) будет все такой же высокой.

Для регрессии (MSE, RMSE, MAE, R^2 и другие). Используйте RMSE, если хотите, чтобы большие ошибки были более значительными.
Более подробно [по ссылке](https://ml-handbook.ru/chapters/model_evaluation/intro).


Задачи с кластеризацией (рекомендательные системы) сложнее проверить экспериментально. Один из способов сделать это — взять часть ваших данных и спрятать их. Когда ваша модель построена, используйте её, чтобы предсказать рекомендации для скрытых данных и посмотреть, как они выстраиваются. (добавлю позже ссылку).

- Определить какое значение будет успешным для вашей задачи.

## 10. Генерация наборов для обучения, тестирования и валидации

- Разделение выборки на обучающую и тестовую (70/30 или 80/20).
    - Отложить тестовую выборку до финального теста
    - Валидационная часть может быть выделена автоматически при кросс-валидации


- Провести кросс-валидацию. Кросс-валидация может быть нужна в случаях, если данных мало или мы не хотим зависеть от конкретного выбора валидационного множества. 

   - Например, можно использовать метод `k-Fold`

  - Кросс-валидация для временных рядов посложнее, так как данные не должны пересекаться по времени: тренировочные данные должны идти до валидационных, а валидационные — до тестовых

## 11. Развертывание и работа модели, визуализация результатов

После того, как выбраны лучшие гиперпараметры модели, необходимо обучить модель на данных параметрах и протестировать на тестовой выборке.

## 12. Выводы

Предупреждая возможный холивар — структура данного фреймворка не истина в 
последней инстанции, есть много других способов структурировать свои 
пайплайны — это всего лишь один из них.

- EDA (exploratory data analysis). Тут надо сделать замечание — на Kaggle есть специально обученные люди :), которые в каждом соревновании пилят сногсшибательные EDA кернелы. Переплюнуть их у вас вряд-ли получится, но понимать, как можно смотреть на данные все-равно придется, поскольку в боевых задачах этим специально обученным человеком будете вы. Поэтому изучаем подходы, расширяем наши библиотеки.
- Data Cleaning — все, что касается очистки данных. Выбросы, пропуски, и т.д.
- Data preparation — все, что касается подготовки данных для модели. Несколько блоков:
  - Общий
  - Для регрессий/нейронных сетей
  - Для деревьев
  - Специальный (временные ряды, картинки, FM/FFM)
  - Текст (Vectorizers, TF-IDF, Embeddings)
- Models
  - Linear models
  - Tree models
  - Neural Networks
  - Exotic (FM/FFM)
- Feature selection
- Hyperparameters search
- Ensemble