# Примеры заданий по live coding c решениями с собеседований

Добро пожаловать в этот Jupyter Notebook! Если вы готовитесь к собеседованиям на роль Data Scientist, этот материал может быть для вас полезным.

## Что вы найдете в этом ноутбуке:

1. **Реальные задачи с собеседований:** Все задачи, представленные здесь, были собраны с реальных собеседований. 
2. **Подробные решения и объяснения:** Для каждой задачи предоставлены подробные решения с объяснениями. Я делюсь своим процессом мышления и почему был выбран именно этот подход или метод.

Цель этого ноутбука - помочь вам лучше подготовиться к собеседованиям с live coding, дать понимание типов задач, которые могут быть заданы, и предложить эффективные методы их решения. Независимо от того, являетесь ли вы начинающим или опытным специалистом, я надеюсь, что найдете здесь что-то полезное для себя.

Удачи в подготовке и на собеседованиях!

### Задача 1. Разработка класса аналог множества, только с генерацией случайного элемента

Необходимо разработать класс `RandomizedSet`, который обладает следующими характеристиками:

- Добавление элемента (`add`) и его удаление (`delete`) должны выполняться за время O(1).
- Возможность генерации случайного элемента (`get_random`) из множества за время O(1).

#### Структура класса:

```python
class RandomizedSet:
    def __init__(self) -> None:
        # Конструктор класса

    def add(self, element: int) -> None:
        # Метод для добавления элемента в множество

    def delete(self, element: int) -> None:
        # Метод для удаления элемента из множества

    def get_random(self) -> int:
        # Метод для получения случайного элемента из множества


randomized_set = RandomizedSet()
randomized_set.add(1)
randomized_set.add(2)
randomized_set.add(1)
assert randomized_set.get_random() in [1, 2] # Должен вернуть 1 или 2 с равной вероятностью
assert randomized_set.get_random() in [1, 2] # Должен вернуть 1 или 2 с равной вероятностью
randomized_set.delete(1)
assert randomized_set.get_random() == 2 # Должен вернуть 2, так как 1 был удален
```

***задача с собеса X5***

**Решение задачи 1**:

In [4]:
import random

class RandomizedSet:
    def __init__(self) -> None:
        self.indexes = {}  # Словарь для хранения элементов и их индексов
        self.items = []  # Список для хранения элементов

    def add(self, item: int) -> None:  # O(1)
        if item not in self.indexes:  # Проверяем, что элемента еще нет в множестве
                                      # O(1) <= Операция проверки наличия элемента в хэш-таблице, 
                                      # каковой является словарь в Python (self.dict в данном случае), 
                                      # в среднем выполняется за время O(1)
            self.indexes[item] = len(self.items)
            self.items.append(item)

    def delete(self, item: int) -> None:  # O(1)
        if item in self.indexes:  # Проверяем, что элемент существует
            index = self.indexes.pop(item)  # Удаляем элемент из словаря и получаем его индекс
            # Заменяем удаляемый элемент последним элементом в списке
            last_item = self.items[-1]  
            self.items[index] = last_item
            self.indexes[last_item] = index
            self.items.pop()  # Удаляем последний элемент

    def get_random(self) -> int:
        return random.choice(self.items)  # Возвращаем случайный элемент из списка

In [5]:
randomized_set = RandomizedSet()
randomized_set.add(1)
randomized_set.add(2)
randomized_set.add(1)
randomized_set.get_random()  # Должен вернуть 1 или 2 с равной вероятностью



1

In [6]:
randomized_set.get_random()  # Должен вернуть 1 или 2 с равной вероятностью

2

In [7]:
randomized_set.delete(1)
randomized_set.get_random()  # Должен вернуть 2, так как 1 был удален

2

### Задача 2. Разработка класса DummyModel для предсказания на основе статистической функции

Необходимо доработать класс `DummyModel`, который обладает следующими характеристиками:

- Инициализация модели с выбранной статистической функцией (например, медиана, среднее, максимум).
- Метод `fit`, который получает на вход `X_train` и `y_train`
- Метод `predict`, который по `X_test` возвращает вектор

#### Структура класса:

```python

class DummyModel:
    def __init__(self, function):
        ...

    def fit(self, X_train, y_train):
        ...

    def predict(self, X_test):
        ...

# Пример использования
X_train = np.array([[1, 2], [3, 4], [5, 6], [7, 8]])
y_train = np.array([1, 2, 3, 40])

# Инициализация модели с функцией np.median
model = DummyModel(function=np.mean)
model.fit(X_train, y_train)

# Тестовые данные
X_test = np.array([[9, 10], [11, 12]])

# Предсказание
predictions = model.predict(X_test)
assert np.array_equal(predictions, np.array([11.5, 11.5])) 
```

***Задание с собеседования ГК Самолет (в задании это не указано, но задавая вопросы можно узнать библиотеки которые можно использовать - например numpy, также дали дополнительное задание - написать аннотацию типов)***

**Решение задачи 2**:
- __init__, инициализирует объект класса следующими атрибутами:
  - self.func - функция агрегации, передаваемая при создании объекта класса. Она определяет метод агрегации (например, среднее значение, медиана, максимум и т.д.), который будет использоваться для вычисления одного предсказываемого значения на основе целевых значений (y_train) в методе fit
  - self.value - атрибут для хранения рассчитанного агрегированного значения после вызова метода fit. Изначально он устанавливается в None, так как до вызова метода fit у нас нет рассчитанного значения


- Метод fit: Принимает два аргумента: X_train и y_train, которые представляют собой обучающий набор признаков и целевые значения соответственно. В этом методе вы вычисляете агрегированное значение y_train с помощью предоставленной функции агрегации и сохраняете это значение в переменной экземпляра self.value

- Метод predict: Принимает один аргумент: X_test, который представляет собой набор признаков, для которого вы хотите сделать предсказания. В этом методе вы создаете массив NumPy, который заполняете повторяющимися значениями self.value (рассчитанными в методе fit) в количестве, равном длине X_test. Таким образом, для каждого элемента в X_test вы предсказываете одно и то же значение, рассчитанное на основе y_train


In [15]:
import numpy as np

class DummyModel:
    def __init__(self, func) -> None:
        self.func = func
        self.value = None

    def fit(self, X_train: np.ndarray, y_train: np.ndarray) -> None:
        self.value = self.func(y_train)

    def predict(self, X_test: np.ndarray) -> np.ndarray:
        return np.array([self.value] * len(X_test))

In [16]:
X_train = np.array([[1, 2], [3, 4], [5, 6], [7, 8]])
y_train = np.array([1, 2, 3, 40])

# Инициализация модели с функцией np.median
model = DummyModel(np.mean)
model.fit(X_train, y_train)

# Тестовые данные
X_test = np.array([[9, 10], [11, 12]])

predictions = model.predict(X_test) 
assert np.array_equal(predictions, np.array([11.5, 11.5])) 

# Вывод результатов
print("Predictions:", predictions)

Predictions: [11.5 11.5]


Далее последовал вопрос как можно отпимизировать код чтобы он быстрее выполнялся на больших массивов

In [17]:
class DummyModel_optimized:
    def __init__(self, func) -> None:
        self.func = func
        self.value = None

    def fit(self, X_train: np.ndarray, y_train: np.ndarray) -> None:
        self.value = self.func(y_train)

    def predict(self, X_test: np.ndarray) -> np.ndarray:
        return np.full(len(X_test), self.value)

**Тестирование решения для задачи 2**:

In [18]:
# Задаем размеры массивов
size = int(10e6)
num_features = 4

# Создаем X_train и X_test
X_train = np.ones((size, num_features))  # Массив size x num_features, заполненный единицами
X_test = np.ones((int(size * 0.2), num_features))  # 20% от X_train

# Создаем y_train
y_train = np.ones(size)  # Вектор длиной size, заполненный единицами

y_train[-1] = 2*size  # Заменяем последний элемент большим значением

# Проверяем размерности
print(f"X_train shape: {X_train.shape}")
print(f"X_test shape: {X_test.shape}")
print(f"y_train shape: {y_train.shape}")
print(f"y_train median: {np.median(y_train)}")
print(f"y_train mean: {y_train.mean()}")

X_train shape: (10000000, 4)
X_test shape: (2000000, 4)
y_train shape: (10000000,)
y_train median: 1.0
y_train mean: 2.9999999


In [19]:
model1 = DummyModel(np.mean)
model1.fit(X_train, y_train)

In [20]:
model2 = DummyModel_optimized(np.mean)
model2.fit(X_train, y_train)

In [21]:
%timeit -n 10  model1.predict(X_test)

121 ms ± 5.98 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [22]:
%timeit -n 100  model2.predict(X_test)

4.42 ms ± 409 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


в принципе этого следовало ожидать, нампай обычно быстрее делает процессы

### Задача 3: Разработка декоратора `progress_fit_predict` для отслеживания времени обучения и предсказания моделей

Необходимо разработать декоратор `progress_fit_predict`, который можно применить к классам моделей. Декоратор должен отслеживать время, затраченное на методы `fit` и `predict` модели, и выводить это время в консоль.

#### Требования к декоратору:

1. При вызове метода `fit` модели должно выводиться сообщение в формате: "Обучение модели {название_класса} заняло: {время} секунд".
2. При вызове метода `predict` модели должно выводиться сообщение в формате: "Предсказание модели {название_класса} заняло: {время} секунд".
3. Декоратор не должен влиять на остальные методы класса модели.

#### Структура декоратора:

```python
def progress_fit_predict(...):
    ...
```
#### Пример использования декоратора:
```python
@progress_fit_predict
class LinearRegression:
    ...

    def fit(self, X_train: np.ndarray, y_train: np.ndarray) -> None:
        ...

    def predict(self, X_test: np.ndarray) -> np.ndarray:
        ...

# Создание экземпляра модели и тестирование
model = LinearRegression()
model.fit(X_train, y_train)
predictions = model.predict(X_test)
```
**Вывод:**  
Обучение модели LinearRegression заняло: 1.73 секунд  
Предсказание модели LinearRegression заняло: 0.02 секунд

***Задание с собеседования Rubbles***

**Решение задачи 3**:
- я ни разу до этого не писал декораторы для классов поэтому сказал про это. Меня попросили написать для функции, а потом подсказали что можно заменить def на class и название с больгой буквы и все. Оказалось что там различий нет: 
- декораторы функций: 
  - Модифицируют поведение функции, 
  - Обычно принимают функцию в качестве аргумента и возвращают новую функцию.
  - Могут добавлять дополнительную логику до и после выполнения оригинальной функции.
- декораторы классов:
  - Модифицируют поведение класса.
  - Обычно принимают класс в качестве аргумента и возвращают новый класс или экземпляр класса.
  - Могут добавлять новые методы, изменять существующие, добавлять атрибуты или изменять процесс инициализации экземпляра.
- super() используется для вызова методов родительского класса. Это стандартный подход в объектно-ориентированном программировании, который позволяет дочернему классу расширять или изменять функционал родительского класса.

In [46]:
import time
import numpy as np

def progress_fit_predict(cls):
    class Wrapped(cls):
        def fit(self, X, y):
            start_time = time.time()
            super().fit(X, y)
            print(f"Обучение модели {cls.__name__} заняло: {time.time() - start_time:.2f} секунд")

        def predict(self, X):
            start_time = time.time()
            predict = super().predict(X)
            print(f"Предсказание модели {cls.__name__} заняло: {time.time() - start_time:.2f} секунд")
            return predict

    return Wrapped

**Тестирование решения для задачи 3**:

In [45]:
@progress_fit_predict
class DummyModel:  # приведу пример на DummyModel модели которая была описана выше для проверки кода
    def __init__(self, func) -> None:
        self.func = func
        self.value = None

    def fit(self, X_train: np.ndarray, y_train: np.ndarray) -> None:
        self.value = self.func(y_train)

    def predict(self, X_test: np.ndarray) -> np.ndarray:
        return np.full(len(X_test), self.value)

# Создание экземпляра модели и тестирование
model = DummyModel(np.mean)
model.fit(X_train, y_train)
predictions = model.predict(X_test)

Обучение модели DummyModel заняло: 0.02 секунд
Предсказание модели DummyModel заняло: 0.00 секунд


дальше последовал вопрос, а можно ли применить этот декоратор к моделям из sklearn. Если да то как? И будут ли какие-нибудь ошибки?

**Решения для задачи 3 для встроенных классов моделей sklearn**:

In [42]:
from sklearn.linear_model import LinearRegression

@progress_fit_predict
class MyLinearRegression(LinearRegression):
    pass

In [43]:
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split

# Задаем размеры массивов
size = int(10e6)
num_features = 4

# Генерация синтетических данных
X, y = make_regression(n_samples=size, n_features=num_features, noise=10)

# Разделение данных на обучающую и тестовую выборку (80% обучающих, 20% тестовых)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((8000000, 4), (2000000, 4), (8000000,), (2000000,))

**Тестирование решения для задачи 3 для встроенных классов моделей sklearn**:

In [44]:
# Создание экземпляра модели и тестирование
model = MyLinearRegression()
model.fit(X_train, y_train)
predictions = model.predict(X_test)

Обучение модели MyLinearRegression заняло: 1.66 секунд
Предсказание модели MyLinearRegression заняло: 0.02 секунд
