# Задание 1. Загрузка данных и визуализация

В этом задании мы познакомимся подробнее с тем, как работать с табличными данными и визуализировать их.

Импорт необходимых библиотек:

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.datasets import load_wine

Загрузите [Wine Data Set](https://archive.ics.uci.edu/ml/datasets/wine)

Удобный способ сделать это — использовать модуль [sklearn.datasets](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_wine.html).

In [None]:
# Download dataset
data, labels = load_wine(return_X_y=True, as_frame=True)

И `data`, и `labels` — это N-мерные массивы. **Посмотрите, какие у них размеры**

In [None]:
# Your code here
print(data.shape, labels.shape)

И какие метки классов представлены.

In [None]:
# Your code here
labels.unique()

Выведем первые 3 строки датасета.

In [None]:
data.head(3)

По умолчанию Pandas выводит всего 20 столбцов и 60 строк, поэтому если ваш датафрейм больше, воспользуйтесь функцией `set_option`:

```
pd.set_option('display.max_columns', 200)
pd.set_option('display.max_rows', 100)
pd.set_option('display.min_rows', 100)
pd.set_option('display.expand_frame_repr', True)
```

Текущее значение параметра можно вывести подобным образом:

```
pd.get_option("display.max_rows")
```

Выведите, какие значения сейчас, и поменяйте их так, чтобы открывался весь датафрейм.

In [None]:
# Your code here

pd.get_option("display.max_rows")

In [None]:
# Your code here

pd.set_option("display.max_columns", 200)
pd.set_option("display.max_rows", 100)
pd.set_option("display.min_rows", 100)
pd.set_option("display.expand_frame_repr", True)

data

Верните значения обратно к тем, что были по умолчанию.

In [None]:
# Your code here

pd.set_option("display.max_columns", 60)
pd.set_option("display.max_rows", 10)
pd.set_option("display.min_rows", 10)
pd.set_option("display.expand_frame_repr", "truncate")

Выведем названия столбцов:

In [None]:
print(data.columns)

Чтобы посмотреть общую информацию по датафрейму и всем признакам, воспользуемся методом `info`:

In [None]:
print(data.info())

В нашем случае все колонки имеют тип `float64`.

* **float64**: число с плавающей точкой от $4.9*10^{-324}$ до $1.8*10^{308}$, занимает 8 байт.

Кажется избыточным с учетом разброса значений в колонках. Кстати, какой он? Посмотрим на первые три колонки. Если убрать имена столбцов, то будет выведена вся статистика.

[NumPy Standard Data Types](https://jakevdp.github.io/PythonDataScienceHandbook/02.01-understanding-data-types.html#NumPy-Standard-Data-Types)

In [None]:
data[["alcohol", "malic_acid", "ash"]].describe()

Метод `describe` показывает основные статистические характеристики данных по каждому *числовому признаку*: число непропущенных значений, среднее, стандартное отклонение, диапазон, медиану, 0.25 и 0.75 квартили.

**Изменить тип колонки** можно с помощью метода `astype`. Применим этот метод к признаку *alcohol* и переведём его в `float16`:

In [None]:
data["alcohol"] = data["alcohol"].astype("float16")

Переведите 3 других признака в более подходящие типы и проверьте, что типы поменялись.

In [None]:
# Your code here

data["ash"] = data["ash"].astype("int16")
data["malic_acid"] = data["malic_acid"].astype("int16")

print(data.info())

**Сортировка**

DataFrame можно отсортировать по значению какого-нибудь из признаков. Например, по *alcohol* (`ascending=False` для сортировки по убыванию):

In [None]:
data.sort_values(by="alcohol", ascending=False).head()

Сортировать можно и по группе столбцов, подав список с названиями. Попробуйте.

In [None]:
# Your code here

data.sort_values(by=["alcohol", "color_intensity"], ascending=False).head()

**Индексация и извлечение данных**

DataFrame можно индексировать по-разному. Для извлечения отдельного столбца можно использовать конструкцию вида `DataFrame['Name']`. Для логической индексации — `df[P(df['Name'])]`, где $P$ — это некоторое логическое условие, проверяемое для каждого элемента столбца *Name*.

Воспользуемся этим для ответа на вопрос: какое среднее содержание магния в алкоголе с крепостью ниже $12\%$?

In [None]:
data["magnesium"][data["alcohol"] <= 12].mean()

Pandas позволяет комбинировать условия через логические операции. Сформулируйте какое-нибудь составное условие.

In [None]:
# Your code here

data[(data["alcohol"] <= 12) & (data["alcalinity_of_ash"] >= 27)]

**Применение функций к ячейкам, столбцам и строкам**

Применение функции **к каждому столбцу**: `apply`.




In [None]:
data.apply(np.max)

Метод apply можно использовать и для того, чтобы применить функцию к каждой строке. Для этого нужно указать `axis=1`. Попробуйте.

In [None]:
# Your code here

data.apply(np.max, axis=1)

Применение функции **к каждой ячейке** столбца: `map`.

Например, метод map можно использовать для замены значений в колонке, передав ему в качестве аргумента словарь вида `{old_value: new_value}`.

In [None]:
d = {2: "low", 3: "low"}
data["ash"] = data["ash"].map(d)
data.head(2)

Попробуйте какую-нибудь свою замену. Например, вы можете подать **lambda-функцию**.

[Лямбда-функции в Python](https://habr.com/ru/companies/piter/articles/674234/)

In [None]:
# Your code here

d = lambda x: x if (x < 30 or x > 60) else 0
data["magnesium"] = data["magnesium"].map(d)
data.head(2)

**Группировка данных**

В общем случае группировка данных в Pandas выглядит следующим образом:

`df.groupby(by=grouping_columns)[columns_to_show].function()`

Например, выведем статистики по трём столбцам в зависимости от значения признака alcohol.

In [None]:
columns_to_show = ["malic_acid", "total_phenols", "proanthocyanins"]

data.groupby(["alcohol"])[columns_to_show].describe(percentiles=[])

Сделаем то же самое, но немного по-другому, передав в `agg()` список функций:

In [None]:
data.groupby(["alcohol"])[columns_to_show].agg([np.mean, np.std, np.min, np.max])

Когда данных много, просто смотреть на цифры крайне неинформативно.

Для визуализации данных в этом курсе мы будем использовать библиотеку `matplotlib`. **Давайте ее импортируем**.

In [None]:
import matplotlib.pyplot as plt

fig, axs = plt.subplots(figsize=(4, 3))
labels.hist()
plt.suptitle("Label balance")
plt.show()

Объединим данные и метки в один фрейм. Нам это потребуется для упрощения визуализации.

In [None]:
df = pd.concat([data, labels], axis=1)

Теперь мы можем посмотреть, как меняется средняя крепость алкоголя в зависимости от значения метки в *target*. Реализация функции `plot` в `pandas` основана на библиотеке `matplotlib`.

Здесь `show()` позволяет нам убрать служебные сообщения.

In [None]:
df.groupby("target")["alcohol"].mean().plot(legend=True)
plt.show()

C помощью параметра `kind` можно изменить тип графика, например, на **bar chart**. `Matplotlib` позволяет очень гибко настраивать графики. На графике можно изменить почти все, что угодно, но потребуется порыться в документации и найти нужные параметры. Например, параметр `rot` отвечает за угол наклона подписей к оси `x`

In [None]:
df.groupby("target")["alcohol"].mean().plot(kind="bar", legend=True, rot=45)
plt.show()

**Seaborn**

Теперь давайте перейдем к библиотеке `seaborn`. `Seaborn` — более высокоуровневое API на базе библиотеки `matplotlib`. Seaborn содержит более адекватные дефолтные настройки оформления графиков. Также в библиотеке есть достаточно сложные типы визуализации, которые в `matplotlib` потребовали бы большого количество кода.

Познакомимся с первым таким "сложным" типом графиков — pair plot (scatter plot matrix). Эта визуализация поможет нам посмотреть на одной картинке, как связаны между собой различные признаки.

In [None]:
import seaborn as sns

data, labels = load_wine(return_X_y=True, as_frame=True)
df = pd.concat([data, labels], axis=1)
cols = ["alcohol", "malic_acid", "ash", "target"]
sns_plot = sns.pairplot(df[cols])
sns_plot.savefig("pairplot.png")

Как можно видеть, на диагонали матрицы графиков расположены гистограммы распределений признака. Остальные же графики — это обычные `scatter` plots для соответствующих пар признаков.

Для сохранения графиков в файлы стоит использовать метод `savefig`.

Выведите аналогичный график по иным 5 колонкам.

In [None]:
# Your code here

cols = ["proanthocyanins", "hue", "od280/od315_of_diluted_wines"]
sns_plot = sns.pairplot(df[cols])

С помощью `seaborn` можно построить и распределение dist plot. Для примера посмотрим на распределение `color_intensity`. Обратите внимание, что так тоже можно обращаться к колонкам.

In [None]:
sns.histplot(df.color_intensity, kde=True)
plt.show()

Для того, чтобы посмотреть на диапазон и распределение данных, используется `box plot`. Посмотрим на то, как связаны между собой 5 наиболее часто встречаемых крепостей напитков и `flavanoids`.

In [None]:
top_alcohol = (
    df.alcohol.value_counts().sort_values(ascending=False).head(5).index.values
)
sns.boxplot(
    y="alcohol", x="flavanoids", data=df[df.alcohol.isin(top_alcohol)], orient="h"
)
plt.show()

`Box plot` состоит из коробки (поэтому он и называется `box plot`), усов и точек (иначе его называют *ящик с усами*). Коробка показывает интерквартильный размах распределения, то есть соответственно 25% (Q1) и 75% (Q3) перцентили. Черта внутри коробки обозначает медиану распределения.

Усы отображают весь разброс точек кроме выбросов, то есть минимальные и максимальные значения, которые попадают в промежуток ($Q1 - 1.5*IQR$, $Q3 + 1.5*IQR$), где $IQR = Q3 - Q1$ — интерквартильный размах. Точками на графике обозначаются выбросы (outliers) — те значения, которые не вписываются в промежуток значений, заданный усами графика.

[[wiki] Box plot](https://en.wikipedia.org/wiki/Box_plot)

**Постройте свой ящик с усами!** Для этого выберите какую-нибудь подвыборку данных, которую можно визуально анализировать.

In [None]:
# Your code here

Последний график, который рассмотрим в этом задании — это **heat map**. Сгруппируем значения крепости в 5 бинов (примерно такой же подход при построении гистограмм), и посмотрим на распределение численного признака (`proanthocyanins`) по двум категориальным.

In [None]:
df["alcoholGroup"] = pd.cut(df["alcohol"], bins=5)

In [None]:
platform_genre_sales = (
    df.pivot_table(
        index="target", columns="alcoholGroup", values="proanthocyanins", aggfunc=sum
    )
    .fillna(0)
    .applymap(float)
)
sns.heatmap(platform_genre_sales, annot=True, fmt=".1f", linewidths=0.05)
plt.show()

Постройте аналогичную тепловую карту. Быть может, вы ожидаете какие-то закономерности?

In [None]:
# Your code here

В дальнейших лекциях и заданиях на основе подобных визуализаций и подсчётов вы будете производить разведочный анализ и строить гипотезы о том, какой **baseline** можно получить, выведя грубую (или не очень) связь между данными и целевой переменной.

В следующем задании вы продложите анализ датасета.

## Формат результата

Результат выполнения — таблицы и графики.

# Задание 2. Кросс-валидация

Напишите свою реализацию кросс-валидации, используя только библиотеку `numpy`. Обучите модель `KNeighborsClassifier` с параметрами `n_neighbors=3, metric='euclidean'` с помощью кросс-валидации, получите значения `accuracy` по всем 5 фолдам.

## Формат результата

Результат выполнения — значения метрики `accuracy` для пяти фолдов c использованием разных способов.

In [None]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
import numpy as np

iris = load_iris()
x, y = iris.data, iris.target

model = KNeighborsClassifier(n_neighbors=3, metric='euclidean')

def custom_cv(num_folds, x, y, model, metric=accuracy_score):

    np.random.seed(42)
    results = []
    indices = np.arange(len(x))
    np.random.shuffle(indices)

    for i in range(num_folds):
        val_indices = indices[i::num_folds]
        train_indices = indices[~val_indices]
        x_train, x_val = x[train_indices], x[val_indices]
        y_train, y_val = y[train_indices], y[val_indices]

        model.fit(x_train, y_train)
        predictions = model.predict(x_val)
        score = metric(y_val, predictions)
        results.append(score)
        print(f'Accuracy for fold {i + 1}: {score}')

    return np.array(results)

results = custom_cv(5, x, y, model)
print('Mean: ', results.mean())

Теперь сделайте кросс-валидацию, используя `KFold` из `sklearn.model_selection`:

In [None]:
from sklearn.model_selection import KFold

np.random.seed(42)

def custom_cv_1(num_folds, x, y, model, metric=accuracy_score):

    results = []
    kf = KFold(n_splits=num_folds, random_state=42, shuffle=True)
    for i, (train_indices, val_indices) in enumerate(kf.split(x)):
        x_train, x_val = x[train_indices], x[val_indices]
        y_train, y_val = y[train_indices], y[val_indices]

        model.fit(x_train, y_train)
        predictions = model.predict(x_val)
        score = metric(y_val, predictions)
        results.append(score)
        print(f'Accuracy for fold {i + 1}: {score}')

    return np.array(results)

results = custom_cv_1(5, x, y, model)
print('Mean: ', results.mean())

Теперь используйте `cross_val_score` или `cross_validate`:

In [None]:
from sklearn.model_selection import cross_val_score

cv = KFold(n_splits=5, shuffle=True)
results = cross_val_score(model, x, y, cv=cv, scoring="accuracy")

print(results.mean())

# Задание 3. Метрики классификации

Чаще всего модели, с которыми вы будете работать для задачи классификации, будут выдавать вероятность принадлежности к классу. Стандартный порог для задачи классификации — 0.5, но бывают ситуации, когда порог можно подобрать лучше. Подберем разные пороги и посчитаем метрики при различных порогах.

## Формат результата

Подобранный порог, при котором `f1-score` максимальный, и значения метрик при разных порогах

Загрузите предсказания модели:

In [None]:
import pandas as pd

df_tmp = pd.read_csv('https://edunet.kea.su/repo/EduNet-web_dependencies/datasets/y_pred_proba.csv')
df_tmp

Посчитайте `classification_report` при пороге 0.5:

In [None]:
df_tmp['y_pred_05'] = df_tmp['y_pred'].apply(lambda x: 1 if x>0.5 else 0)
df_tmp

In [None]:
from sklearn.metrics import classification_report


target_names = ["class 0", "class 1"]
print(classification_report(df_tmp['y_true'], df_tmp['y_pred_05'], target_names=target_names))

Нарисуйте распределение классов, используя `sns.histplot`:

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

sns.histplot(df_tmp, x='y_pred', hue='y_true', bins=15)
plt.axvline(x=0.5, c="r", linestyle="--")
plt.show()


Видно, что оптимальный порог находится ниже 0.5, но подбирать его по графику довольно проблематично, воспользуемся `precision_recall_curve`:

In [None]:
from sklearn.metrics import precision_recall_curve, PrecisionRecallDisplay

precision, recall, thresholds = precision_recall_curve(df_tmp['y_true'], df_tmp['y_pred'])

pr_display = PrecisionRecallDisplay(precision=precision, recall=recall)
pr_display.plot()
plt.show()

Теперь у нас есть все значения `precision` и `recall` при всех порогах. Посчитайте `f1-score` и выберите порог, при котором `f1-score` максимален:

In [None]:
import numpy as np

f1 = 2 * (precision * recall) / (precision + recall)

best_f1_index = np.argmax(f1)
best_threshold = thresholds[best_f1_index]

print("Best threshold", thresholds[best_f1_index])

Отобразите новый порог на графике:

In [None]:
sns.histplot(df_tmp, x='y_pred', hue='y_true', bins=15)
plt.axvline(x=thresholds[best_f1_index], c="r", linestyle="--")
plt.show()

Посчитайте `classification_report` с новым порогом:

In [None]:
df_tmp['y_pred_best'] = df_tmp['y_pred'].apply(lambda x: 1 if x>thresholds[best_f1_index] else 0)

target_names = ["class 0", "class 1"]
print(classification_report(df_tmp['y_true'], df_tmp['y_pred_best'], target_names=target_names))

# Задание 4. Реализация k-NN

В этом задании мы поработаем в концепии ОПП (Объектно-Ориентированного Программирования).  Реализуйте алгоритм k-NN для изображений и примените его.

[ООП на Python: концепции, принципы и примеры реализации](https://proglib.io/p/python-oop)

Импорт необходимых библиотек:

In [None]:
import numpy as np
from scipy.stats import mode
from torchvision import datasets
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split

Функция, которая считает расстояние L1 между 2-мя векторами:

In [None]:
def compute_L1(a, b):
    return np.sum(np.abs(a - b))  # Your code here

Загрузите датасет CIFAR-10 и разбейте его на тренировочный, валидационный и тестовый наборы. Укажите аргументы `random_state=42`, `stratify`.

In [None]:
dataset = datasets.CIFAR10("content", train=True, download=True)

np.random.seed(42)
data, _, labels, _ = train_test_split(
    dataset.data / 255,  # Normalize
    np.array(dataset.targets),
    train_size=0.1,  # get only fraction of the dataset
    random_state=42,
    stratify=dataset.targets,
)

# Your code here
x_train, x_, y_train, y_ = train_test_split(
    data, labels, train_size=0.8, random_state=42, stratify=labels
)
# Your code here
x_val, x_test, y_val, y_test = train_test_split(
    x_, y_, train_size=0.5, random_state=42, stratify=y_
)

Создайте класс k-NN и реализуйте его методы.

In [None]:
class kNN:
    def __init__(self, k, distance_func):
        self.k = k  # Your code here
        self.distance_func = distance_func  # Your code here

    def fit(self, x, y):
        self.train_data = x.copy()  # Your code here
        self.train_labels = y.copy()  # Your code here

    def predict(self, x):
        distances = self.compute_distances(x)
        indexes = np.argsort(distances, axis=1)[:, : self.k]
        labels_of_top_classes = self.train_labels[indexes]
        predicted_class, _ = mode(labels_of_top_classes, axis=1, keepdims=True)
        return predicted_class.flatten()

    def compute_distances(self, test):
        # Your code here
        train_size = len(self.train_data)
        test_size = len(test)
        distances = np.full((test_size, train_size), 0.0)
        for i in range(test_size):
            for j in range(train_size):
                distances[i, j] = self.distance_func(test[i], self.train_data[j])

        return distances

In [None]:
kNN_classifier = kNN(k=1, distance_func=compute_L1)
kNN_classifier.fit(x=x_train, y=y_train)
out = kNN_classifier.predict(x_test)

In [None]:
np.mean(y_test == out)

Сравните время работы вашей реализации и реализации из sklearn

In [None]:
%%time
out = kNN_classifier.predict(x_test);

In [None]:
nbrs = KNeighborsClassifier(n_neighbors=1, p=1).fit(
    x_train.reshape(x_train.shape[0], -1), y_train
)

In [None]:
%%time
sk_out = nbrs.predict(x_test.reshape(x_test.shape[0], -1))

In [None]:
np.mean(out == sk_out)

**Оптимальный k-NN. Погружение в ООП**

Эта часть задания даёт дополнительные баллы и не обязательна к выполнению.

* Реализуйте выбор ближайших соседей эффективно. Можно сделать [KD дерево](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KDTree.html#sklearn.neighbors.KDTree), таким образом мы приблизимся к библиотечной реализации.

   [[wiki] K-d tree](https://en.m.wikipedia.org/wiki/K-d_tree).

   Сравните по эффективности как с исходной (простой) реализацией, так и с библиотечной.

* *Примечание*. Предполагается, что вы самостоятельно реализуете алгоритм.

На практике метод ближайших соседей для классификации используется редко.
Проблема заключается в следующем.

Предположим, что точность классификации нас устраивает. Применим k-NN на больших данных (e.g. миллион картинок). Для определения класса каждой из картинок необходимо сравнить ее со всеми другими картинками в базе данных, а такие расчеты, даже в существенно оптимизированном виде, занимают много времени.

Тем не менее, метод ближайших соседей используется в других задачах, где без него обойтись сложно. Например, **в задаче распознавания лиц**. Представим, что у нас есть большая база данных с фотографиями лиц (например, по 5 разных фотографий всех сотрудников, которые работают в офисном здании) и есть камера, установленная на входе в это здание. Мы хотим узнать, кто и во сколько пришел на работу. Для того, чтобы понять, кто прошел перед камерой, нам нужно зафиксировать лицо этого человека и сравнить его со всеми фотографиями лиц в базе. В такой формулировке мы не пытаемся определить конкретный класс фотографии, а всего лишь определяем **“похож-не похож”**. Мы смотрим на k ближайших соседей, и если из k соседей, 5 — это фотографии, например, Джеки Чана, то, скорее всего, под камерой прошел именно он.



Примеры эффективной реализации метода на основе k-NN:
* [[git] 🐾 Facebook AI Research Similarity Search](https://github.com/facebookresearch/faiss) – разработка команды Facebook AI Research для быстрого поиска ближайших соседей и кластеризации в векторном пространстве. Высокая скорость поиска позволяет работать с очень большими данными – до нескольких миллиардов векторов.
* [[arxiv] 🎓 Hierarchical Navigable Small World](https://arxiv.org/abs/1603.09320) — алгоритм поиска ближайших соседей.

In [None]:
# Your code here

"""
*   Основа для дерева - код отсюда: https://github.com/tsoding/kdtree-in-python/blob/master/main.py
*   Добавлены комментарии, переделано под numpy и произвольную размерность, оформлено как класс
"""


class kNN_KDtree:
    def __init__(self, distance_func):
        # self.k_dim = k_dim
        self.distance_func = distance_func

    def closer_distance(
        self, pivot, p1, p2
    ):  # функция, считающая расстояния от интересующей pivot точки до других точек с учётом того, что расстояние до None как бы бесконечно
        if p1 is None:
            return p2

        if p2 is None:
            return p1

        d1 = self.distance_func(pivot, p1)
        d2 = self.distance_func(pivot, p2)

        if d1 < d2:
            return p1
        else:
            return p2

    def build_kdtree(self, points, depth=0):
        n = points.shape[0]
        if n <= 0:
            return None

        axis = depth % self.k_dim  # выбор координаты для разделения
        # print(axis)
        sorted_points = points[
            points[:, axis].argsort()
        ]  # сортировка точек по выбранной координате

        return {
            "point": sorted_points[n // 2],  # выбираем среднюю точку
            "left": self.build_kdtree(sorted_points[: n // 2], depth + 1),
            "right": self.build_kdtree(sorted_points[n // 2 + 1 :], depth + 1),
        }  # слева и справа рекурсивно строим деревья

    def fit(self, points, y, depth=0):
        self.x = points  # сохраняем точки
        self.y = y  # сохраняем лейблы

        self.k_dim = points.shape[1]
        n = self.k_dim
        # print(self.k_dim)

        self.tree = self.build_kdtree(points, depth=0)  # создаём дерево

    def kdtree_closest_point(self, root, point, depth=0):
        if root is None:
            return None

        axis = depth % self.k_dim  # выбор координаты для разделения

        next_branch = None
        opposite_branch = None

        if (
            point[axis] < root["point"][axis]
        ):  # распределение точки влево или вправо в зависимости от сравнения координат
            next_branch = root["left"]
            opposite_branch = root["right"]
        else:
            next_branch = root["right"]
            opposite_branch = root["left"]

        best = self.closer_distance(
            point,
            self.kdtree_closest_point(next_branch, point, depth + 1),
            root["point"],
        )  # выбор ближайшей точки - узла или точки из соседней ветки

        if self.distance_func(point, best) > (point[axis] - root["point"][axis]) ** 2:
            best = self.closer_distance(
                point,
                self.kdtree_closest_point(opposite_branch, point, depth + 1),
                best,
            )  # выбор точки из соседней ветки, если до неё нам ближе

        return best

    def predict(self, x):  # возвращает класс ближайшего соседа
        kdtree_out = self.kdtree_closest_point(self.tree, x, depth=0)
        return self.y[np.where(np.all(self.x == kdtree_out, axis=1))]

## Формат результата

Демонстрация времени работы вашей реализации и реализации из sklearn (с помощью %%time)