### Шаг №1 - Инициализация класса

Создайте класс с именем MyKNNClf. Данный класс при инициализации должен принимать только один параметр:

k – кол-во ближайших соседей, которое будем рассматривать при определении класса.
По-умолчанию: 3
Все переданные (или дефолтные) параметры должны быть сохранены внутри экземпляра класса.

При обращении к экземпляру класса (или при передачи его в функцию print) необходимо распечатать строку по следующему шаблону:

MyKNNClf class: k=k

In [None]:
class MyKNNClf():
  def __init__(self, k=3):
    self.k = k

  def __str__(self):
    params = ', '.join(f'{key}={value}' for key, value in self.__dict__.items())
    return f"{__class__.__name__} class: {params}"

### Шаг №2 - Метод fit()

Доработайте класс MyKNNClf следующим образом:

В инициализатор класса добавьте переменную train_size (не параметр, а именно переменную). В ней будет храниться размер обучающей выборки.
Добавьте в класс метод fit. Данный метод должен делать следующее:
На вход принимать две переменные:
- X — все фичи в виде датафрейма пандаса.
- y — целевая переменная в виде пандасовской серии.
Сохранить X и y внутри модели.
Записать в переменную train_size размер тренировочной выборки (X) в виде кортежа:
(количество_строк, количество_столбцов)

In [None]:
import pandas as pd

class MyKNNClf():
  def __init__(self, k=3):
    self.k = k
    self.train_size = None # Переменная для хранения обучающей выборки
    self.X = None # variable for features
    self.y = None # varible for target label

  def __str__(self):
    params = ', '.join(f'{key}={value}' for key, value in self.__dict__.items())
    return f"{__class__.__name__} class: {params}"

  def fit(self, X:pd.DataFrame, y:pd.Series):
    self.X = X # save features
    self.y = y # save target label
    self.train_size = X.shape # data size




### Шаг №3 - predict & predict proba

```markdown
Добавьте в класс `MyKNNClf` методы `predict` и `predict_proba`. Данные методы должны делать следующее:

### Метод `predict`

- На вход принимает матрицу фичей в виде датафрейма `pandas`.
- Для каждого объекта тестовой выборки последовательно выполняются следующие шаги:
  1. Вычислить расстояние до каждого объекта из обучающей выборки.
     - Сейчас расстояние будем вычислять по формуле Евклида. Для двух точек с тремя координатами (фичами) Евклидово расстояние считается так:

     $$
     D_{\text{eucl}} = \sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2 + (z_2 - z_1)^2}
     $$

     где:
     - \( x_1, y_1, z_1 \) – координаты (или иные количественные свойства) первой точки,
     - \( x_2, y_2, z_2 \) – координаты второй точки.
  2. Отобрать \( k \) объектов обучающей выборки, расстояние до которых минимально.
  3. Определить, какой класс наиболее часто встречается (мода) – это и будет классом целевого объекта.
     - Если число объектов в каждом из классов одинаковое, возвращаем класс `1`.
  
- **Заметка:** Рассматриваем только задачу бинарной классификации (с классами `0` и `1`).
- Вернуть вектор предсказаний.

### Метод `predict_proba`

- На вход принимает матрицу фичей в виде датафрейма `pandas`.
- Для каждого объекта тестовой выборки последовательно выполняются следующие шаги:
  1. Вычислить Евклидово расстояние до каждого объекта из обучающей выборки.
  2. Отобрать \( k \) объектов обучающей выборки, расстояние до которых минимально.
  3. Подсчитать вероятность для класса `1`.
  
- Вернуть список вероятностей.
```

In [None]:



class MyKNNClf():
  def __init__(self, k=3):
    self.k = k
    self.train_size = None
    self.X = None
    self.y = None

  def __str__(self):
    params = ', '.join(f'{key}={value}' for key, value in __self__.__dict__.values())
    return f'{__class__.__name__} class: {params}'

  def fit(self, X:pd.DataFrame, y:pd.Series):
    self.X = X
    self.y = y
    self.train_size = X.shape


  def predict(self, X_test:pd.DataFrame):
    # вычисление расстояния от тестовых точек до всех в выборке X
    distances = np.sqrt(((self.X.values - X_test.values[:, np.newaxis]) ** 2).sum(axis=2))
    # индексы ближайших соседей
    nearest_neighbors = np.argsort(distances, axis=1)[:, :self.k]
    # классы ближайших соседей
    nearest_labels = self.y.values[nearest_neighbors]
    # мода
    predicted_labels = []
    for labels in nearest_labels:
      # Используем np.bincount для подсчета количества каждого класса в k ближайших соседях
      counts = np.bincount(labels, minlength=2) # Убедимся, что считаем для классов 0 и 1
      # Если количество соседей для классов 0 и 1 одинаково, выбираем класс 1
      if counts[0] == count[1]:
        predicted_labels.append(1)
      else:
        predicted_labels.append(counts.argmax())
    return np.array(predicted_labels)

  def predict_proba(self, X_test:pd.DataFrame):
    # вычисление расстояния от тестовых точек до всех в выборке X
    distances = np.sqrt(((self.X.values - X_test.values[:, np.newaxis]) ** 2).sum(axis=2))
    # индексы ближайших соседей
    nearest_neighbors = np.argsort(distances, axis=1)[:, :self.k]
    # классы ближайших соседей
    nearest_labels = self.y.values[nearest_neighbors]
    # вероятность класса 1
    proba_class_1 = (nearest_labels == 1).mean(axis=1)
    return proba_class_1

### Шаг №4 - Метрики

Добавьте в класс MyKNNClf параметр metric, который принимает одно из следующих значений:

euclidean
chebyshev
manhattan
cosine
Значение по-умолчанию: euclidean

При обучении и вычислении дистанции между точками должна использоваться соответствующая метрика. Как они рассчитываются описано в предыдущем разделе.

Проверка

Входные данные: названия метрик
Выходные данные: возвращенные предсказания и предсказанные вероятности (их сумма)

In [None]:
class MyKNNClf():
  # инициализация класса
  def __init__(self, k=3, metric='euclidean'):
    self.k = k
    self.train_size = None
    self.X = None
    self.y = None
    self.metric = metric

  def __str__(self):
    params = ', '.join(f'{key}={value}' for key, value in __self__.__dict__.values())
    return f'{__class__.__name__} class: {params}'

  def fit(self, X:pd.DataFrame, y:pd.Series):
    self.X = X
    self.y = y
    self.train_size = X.shape

  def compute_metric(self, X_test:pd.DataFrame):
    # вычисление расстояния в зависимости от заданных условий
    if self.metric == 'euclidean':
      distances = np.sqrt(((self.X.values - X_test.values[:, np.newaxis]) ** 2).sum(axis=2))
      return distances
    elif self.metric == 'chebyshev':
      distances =  np.max(np.abs(self.X.values - X_test.values[:, np.newaxis]), axis=2)
      return distances
    elif self.metric == 'manhattan':
      distances = np.abs(self.X.values - X_test.values[:, np.newaxis]).sum(axis=2)
      return distances
    elif self.metric == 'cosine':
      X_norm = np.linalg.norm(self.X.values, axis=1)
      X_test_norm = np.linalg.norm(X_test.values, axis=1)[:, np.newaxis]
      cosine_similarity = np.dot(X_test.values, self.X.values.T) / (X_test_norm * X_norm)
      distances = 1 - cosine_similarity
      return distances


  def predict(self, X_test:pd.DataFrame):
    # вычисление расстояния от тестовых точек до всех в выборке X
    distances = self.compute_metric(X_test)
    # индексы ближайших соседей
    nearest_neighbors = np.argsort(distances, axis=1)[:, :self.k]
    # классы ближайших соседей по индексам
    nearest_labels = self.y.values[nearest_neighbors]
    # мода
    predicted_labels = []
    for labels in nearest_labels:
      counts = np.bincount(labels, minlength=2) # Убедимся, что считаем для 0 и 1
      # Если кол-во соседей для классов 0 и 1 одинаково, выбираем класс 1
      if counts[0] == counts[1]:
        predicted_labels.append(1)
      else:
        predicted_labels.append(counts.argmax())

    return np.array(predicted_labels)

  def predict_proba(self, X_test:pd.DataFrame):
    # вычисление расстояния от тестовых точек до всех в выборке X
    distances = self.compute_metric(X_test)
    # индексы ближайших соседей
    nearest_neighbors = np.argsort(distances, axis=1)[:, :self.k]
    # классы ближайших соседей
    nearest_labels = self.y.values[nearest_neighbors]
    # вероятность класса 1
    proba_class_1 = (nearest_labels == 1).mean(axis=1)
    return proba_class_1

### Шаг №5 - Взвешенный kNN

Добавьте в класс MyKNNClf параметр weight, которые принимает одно из следующих значений:

uniform
rank
distance
Значение по-умолчанию: uniform

Внесите следуюшие изменения в работу алгоритма:

Если weight = uniform работаем как и раньше.
Если weight = rank или distance, то:
Метод predict должен вычислять и возвращать класс с наибольшим весом.
Формулы по которым вычисляется вес класса приведены на [предыдущем шаге](https://stepik.org/lesson/329908/step/7?unit=313248).
Метод predict_proba должен возвращать вес класса 1.

Если я все правильно понял, то мне необходимо добавить в функции Predict и PredictProba по дополнительному способу расчета, тобишь я должен определять класс не только по моде, но и по другим метрикам)

In [None]:
import numpy as np
import pandas as pd

class MyKNNClf():
    def __init__(self, k=3, metric='euclidian', weight='uniform'):
        self.k = k
        self.train_size = None
        self.X = None
        self.y = None
        self.metric = metric
        self.weight = weight

    def __str__(self):
        params = ', '.join(f"{key}={value}" for key, value in self.__dict__.items())
        return f'{self.__class__.__name__} class: {params}'

    def fit(self, X: pd.DataFrame, y: pd.Series):
        self.X = X
        self.y = y
        self.train_size = X.shape

    def compute_metric(self, X_test: pd.DataFrame):
        # Вычисление расстояния в зависимости от метрики
        if self.metric == 'euclidian':
            distances = np.sqrt(((self.X.values - X_test.values[:, np.newaxis]) ** 2).sum(axis=2))
        elif self.metric == 'chebyshev':
            distances = np.max(np.abs(self.X.values - X_test.values[:, np.newaxis]), axis=2)
        elif self.metric == 'manhattan':
            distances = np.abs(self.X.values - X_test.values[:, np.newaxis]).sum(axis=2)
        elif self.metric == 'cosine':
            X_norm = np.linalg.norm(self.X.values, axis=1)
            X_test_norm = np.linalg.norm(X_test.values, axis=1)[:, np.newaxis]
            cosine_similarity = np.dot(X_test.values, self.X.values.T) / (X_test_norm * X_norm)
            distances = 1 - cosine_similarity
        return distances

    def compute_labels(self, s: np.ndarray, distances: np.ndarray):
        # s: метки соседей, distances: расстояния до соседей
        predicted_labels = []
        if self.weight == 'uniform':
            for neighbors in s:
                counts = np.bincount(neighbors, minlength=2)  # считаем для классов 0 и 1
                if counts[0] == counts[1]:
                    predicted_labels.append(1)  # при равенстве голосов выбираем класс 1
                else:
                    predicted_labels.append(counts.argmax())
        else:
            for neighbors, dist in zip(s, distances):
                if self.weight == 'rank':
                    weights = 1 / np.arange(1, len(neighbors) + 1)  # веса по рангу
                elif self.weight == 'distance':
                    weights = 1 / (dist)  # веса по расстоянию (добавляем малое число, чтобы избежать деления на ноль)

                Q_0 = np.sum(weights[neighbors == 0])  # вес для класса 0
                Q_1 = np.sum(weights[neighbors == 1])  # вес для класса 1
                predicted_labels.append(0 if Q_0 > Q_1 else 1)  # выбираем класс с наибольшим весом
        return np.array(predicted_labels)

    def predict(self, X_test: pd.DataFrame):
        # вычисление расстояний в зависимости от выбранной метрики
        distances = self.compute_metric(X_test)
        # индексы ближайших k соседей
        nearest_neighbors = np.argsort(distances, axis=1)[:, :self.k]
        # классы ближайших k соседей
        nearest_labels = self.y.values[nearest_neighbors]
        # предсказываем классы
        predicted_labels = self.compute_labels(nearest_labels, distances[np.arange(len(distances))[:, None], nearest_neighbors])
        return predicted_labels

    def predict_proba(self, X_test: pd.DataFrame):
        # вычисление расстояний от тестовых точек до всех в выборке X
        distances = self.compute_metric(X_test)
        # индексы ближайших k соседей
        nearest_neighbors = np.argsort(distances, axis=1)[:, :self.k]
        # классы ближайших соседей
        nearest_labels = self.y.values[nearest_neighbors]

        probas = []
        for neighbors, dist in zip(nearest_labels, distances[np.arange(len(distances))[:, None], nearest_neighbors]):
            if self.weight == 'uniform':
                proba_class_1 = (neighbors == 1).mean()
            else:
                if self.weight == 'rank':
                    weights = 1 / np.arange(1, len(neighbors) + 1)
                elif self.weight == 'distance':
                    weights = 1 / (dist)

                Q_1 = np.sum(weights[neighbors == 1])
                Q_total = np.sum(weights)
                proba_class_1 = Q_1 / Q_total
            probas.append(proba_class_1)

        return np.array(probas)