# Тестовое задание для направления "Инженер по машинному обучению"

Перед Вами 3 задачи по машинному обучению и алгоритмам, направленные на предварительную оценку ваших навыков. Вы можете решать задачи в произвольном порядке. Вы можете прикрепить решение задачи, даже если вы не уверены в его правильности или не завершили до конца.

Желательно оставлять комментарии к своему решению (к коду, выбранным путям решения задачи).

В результате у вас должен получиться один Jupyter Notebook с выполненными или частично выполненными задачами.

Желаем удачи!

### Настройка окружения
Для запуска [Jupyter Notebook](https://jupyter-notebook.readthedocs.io/en/stable/notebook.html) вы можете положить `.ipynb` файл на Google Drive и открыть его используя Google Colab. Также вы можете [установить Jupyter Notebook](https://docs.jupyter.org/en/latest/install/notebook-classic.html) к себе на систему.

## Задача 1: Подбор конфигурации двух серверов с одинаковой производительностью
#### Легенда:
В лаборатории есть несколько разных видеокарт (GPU). Инженеры предварительно проанализировали эти GPU и получили оценки их производительности. Оценки обладают свойством аддитивности: несколько GPU, будучи установлены параллельно в один сервер, дадут суммарную производительность, равную сумме оценок производительности отдельных GPU. Для задач инференса AI-алгоритмов, нужно собрать из этих GPU два сервера с одинаковой производительностью

#### Задача:
* Написать функцию `build_two_servers`, которая рассчитывает конфигурацию для построения из этих GPU двух серверов, одинаковых по оценочной производительности
* Описать алгоритмическую сложность решения

#### Входные данные:
* На вход в функцию подается кортеж `gpus`, содержащий оценки производительности имеющихся GPU
* Оценки целочисленные, положительные, могут повторяться, расположены в произвольном порядке

#### Выходные данные:
* Функция возвращает кортеж из трех кортежей вида: `(GPUs_for_server_0, GPUs_for_server_1, unused_GPUs)`
* Оба сервера равнозначны, поэтому могут возвращаться в любом порядке. Наименования `server_0` и `server_1` условны
* Оценки GPU в кортежах перечисляются в порядке возрастания производительности

#### Требования:
* Максимизировать итоговую производительность серверов
* Разница в итоговой производительности серверов недопустима
* Если задачу невозможно решить, вернуть ответ с пустыми кортежами GPU для серверов (см. примеры)
* Если задача может быть решена несколькими способами, желательно минимизировать число задействованных GPU в серверах.

#### Примеры:
* `(1, 1)       -> ((1), (1), ())`
* `(1, 1, 2, 1) -> ((1, 1), (2), (1))`
* `(3, 1)       -> ((), (), (1, 3))`

Подсказка: вам может помочь динамическое программирование

In [None]:
def build_two_servers(gpus: tuple) -> tuple:
    return ((), (), gpus) # TODO: your implementation

In [None]:
# Test your solution
various_gpus = (
    (1, 1),       # GPUs: (1, 1), server_0: (1), server_1: (1), unused: ()
    (1, 1, 2, 1), # GPUs: (1, 1, 2, 1), server_0: (1, 1), server_1: (2), unused: (1)
    (3, 1),       # GPUs: (3, 1), server_0: (), server_1: (), unused: (1, 3)
    (),           # GPUs: (), server_0: (), server_1: (), unused: ()
    (2, 2, 5, 6, 7, 3), # ...
    (78, 35, 34, 1, 2, 3, 1, 2, 1, 1)
)

for gpus in various_gpus:
    result = build_two_servers(gpus)
    print(f"GPUs: {gpus}, server_0: {result[0]}, server_0: {result[1]}, unused: {result[2]}")
    assert sum(result[0]) == sum(result[1])

## Задача 2: Анализ диалогов из фильма

Проанализируйте датасет с диалогами из фильма, используя различные NLP техники. Заполните пропуски в функциях, представленных ниже.

### Установка необходимых библиотек и загрузка датасета

In [None]:
# Download the necessary libraries
! pip install pandas seaborn matplotlib nltk wordcloud transformers wget
! pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu
import nltk
nltk.download('stopwords')

In [None]:
# Download and read dataset
import pandas as pd
import wget
filename = wget.download("https://drive.usercontent.google.com/download?id=1zO99vPGpw7yi6m45pd-Wq12z9-qXPWnv&confirm=xxx")

dataset = pd.read_csv(filename, sep='\s+', names=["index","character","dialogue"], header=0)
dataset.head()

### Подзадача 2.1. Постройте гистограмму top-10 персонажей по количеству слов в диалогах
Реализуйте функцию `display_characters_word_count_plot`, которая принимает на вход датасет и выводит гистограмму с top-10 персонажами по количеству слов в диалогах. Персонажи расположены на оси Y, а суммарное количество слов во всех репликах соответствующего персонажа расположены на оси X.

In [None]:
def display_characters_word_count_plot(dataset):
    # Import the necessary libraries and implement the function that show the plot
    pass

In [None]:
# Call funtion to display plot
display_characters_word_count_plot(dataset)

### Подзадача 2.2. Определите наиболее часто встречаемые слова в фразах Люка Скайуокера
Реализуйте функцию `clean_sentence`, которая убирает числа, символы знаков препинания и стоп-слова (такие как "the", "a", и т.д.) из предложения для дальнейшего анализа наиболее часто встречаемых слов. Вы можете использовать `nltk` библиотеку, чтобы убрать стоп-слова. Затем, используя библиотеку `WordCloud`, реализуйте функцию `display_character_word_cloud`, которая выводит облако слов для реплик Люка Скайуокера.

In [None]:
def clean_sentence(sentence):
    cleaned_sentence = sentence

    # Import the necessary libraries and implement the function that return cleaned_sentence

    return cleaned_sentence

In [None]:
# Create clean_dialogue column using clean_sentence function. Show top-10 most common words.

from collections import Counter
dataset['clean_dialogue']=dataset['dialogue'].map(lambda sentence:clean_sentence(sentence))
common_words = Counter(" ".join(dataset["clean_dialogue"]).split()).most_common(10)
common_words

In [None]:
def display_character_word_cloud(character_data):
    # Import the necessary libraries and implement the function that show the wordcloud
    pass

In [None]:
# Call funtion to display Luke Skywalker's WordCloud
display_character_word_cloud(dataset[dataset['character']=='LUKE'])

### Подзадача 2.3. Анализ эмоций в диалогах
Реализуйте функцию `add_dialogue_emotion_column`, которая добавляет к оригинальному датасету дополнительный столбец "dialogue_emotion", который содержит эмоциональную окраску каждой реплики. Для классификации эмоций в репликах используйте модель-трансформер [j-hartmann/emotion-english-distilroberta-base](https://huggingface.co/j-hartmann/emotion-english-distilroberta-base). Каждый элемент столбца "dialogue_emotion" содержит метку наиболее вероятной эмоции, полученной после вывода трансформера.

In [None]:
def add_dialogue_emotion_column(dataset):
    # Import the necessary libraries and implement the function that add 'dialogue_emotion' column to dataset

    return dataset

In [None]:
# Show value_counts of dialogue_emotion column

updated_dataset = add_dialogue_emotion_column(dataset)
updated_dataset['dialogue_emotion'].value_counts()

### Подзадача 2.4. Распределение эмоций Люка Сайуокера
Реализуйте функцию `display_most_frequent_emotions_plot`, которая принимает на вход все реплики Люка Сайуокера и выводит гистограмму с распределением эмоций. Эмоции расположены на оси Y, а по оси X количество диалогов, в которых была определена соответствующая эмоция.

In [None]:
def display_most_frequent_emotions_plot(character_data):
    # Import the necessary libraries and implement the function that plot character most frequent emotions
    pass

In [None]:
# Call funtion to display plot
display_most_frequent_emotions_plot(updated_dataset[updated_dataset['character']=='LUKE'])

## Задача 3. Прогнозирование исчерпания места на HDD

#### Цель задания:
Разработать модель машинного обучения, используя любые библиотеки, для предсказания времени, когда место на жестком диске будет полностью исчерпано. Задание направлено на проверку навыков работы с данными, временными рядами и моделями машинного обучения.

#### Датасет:
Датасет содержит записи о потреблении места на HDD за определенный период. Каждая запись включает следующие колонки:
- `Дата`: дата измерения.
- `Использовано_%`: процент использованного пространства HDD на момент измерения.

Датасет представлен в формате CSV. [Ссылка для скачивания датасета](https://drive.google.com/file/d/1wZz4N0nw1yH2LGnFy3dPHgDqNanGUkM9/view?usp=sharing).

#### Задача:
1. Загрузите данные и отобразите графически.
2. Очистите данные, если это действительно необходимо (обработка пропусков, удаление аномалий и т.д.).
3. Разделите данные на обучающую и тестовую выборки.
4. Выберите подходящую модель для задачи прогнозирования данного временного ряда. Приведите примеры других возможных вариантов моделей.
5. Обучите модель на обучающей выборке и оцените её качество на тестовой выборке.
6. Используя модель, предскажите, когда место на HDD будет полностью исчерпано.
7. Визуализируйте результаты прогноза.

#### Требования к выполнению:
- Используйте Python 3 и известные вам библиотеки для выполнения задания.
- Предоставьте Jupyter Notebook с выполненным заданием.
- Оформите результаты анализа и выводы в виде отчета внутри Notebook.

#### Критерии оценки:
- Полнота предварительного анализа данных.
- Качество и обоснованность предобработки данных.
- Адекватность выбора модели.
- Точность предсказаний модели.
- Качество и наглядность визуализации результатов.

Это задание позволит оценить вашу способность работать с данными и применять методы машинного обучения для решения реальных задач.

In [None]:
! pip install wget

In [None]:
# Helper for download dataset
import wget
filename = wget.download("https://drive.usercontent.google.com/download?id=1wZz4N0nw1yH2LGnFy3dPHgDqNanGUkM9&confirm=xxx")