<a href="https://colab.research.google.com/github/alvadia/MSUAI/blob/main/EX01_Intro.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Задание 1. Загрузка данных и визуализация

В этом задании мы познакомимся подробнее с тем, как работать с табличными данными и визуализировать их.

Импорт необходимых библиотек:

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.datasets import load_wine

Загрузите [Wine Data Set](https://archive.ics.uci.edu/ml/datasets/wine)

Удобный способ сделать это — использовать модуль [sklearn.datasets](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_wine.html).

In [None]:
# Download dataset
data, labels = load_wine(return_X_y=True, as_frame=True)

И `data`, и `labels` — это N-мерные массивы. **Посмотрите, какие у них размеры**

In [None]:
# Your code here


И какие метки классов представлены.

In [None]:
# Your code here


Выведем первые 3 строки датасета.

In [None]:
data.head(3)

По умолчанию Pandas выводит всего 20 столбцов и 60 строк, поэтому если ваш датафрейм больше, воспользуйтесь функцией `set_option`:

```
pd.set_option('display.max_columns', 200)
pd.set_option('display.max_rows', 100)
pd.set_option('display.min_rows', 100)
pd.set_option('display.expand_frame_repr', True)
```

Текущее значение параметра можно вывести подобным образом:

```
pd.get_option("display.max_rows")
```

Выведите, какие значения сейчас, и поменяйте их так, чтобы открывался весь датафрейм.

In [None]:
# Your code here

In [None]:
# Your code here


Верните значения обратно к тем, что были по умолчанию.

In [None]:
# Your code here

Выведем названия столбцов:

In [None]:
print(data.columns)

Чтобы посмотреть общую информацию по датафрейму и всем признакам, воспользуемся методом `info`:

In [None]:
print(data.info())

В нашем случае все колонки имеют тип `float64`.

* **float64**: число с плавающей точкой от $4.9*10^{-324}$ до $1.8*10^{308}$, занимает 8 байт.

Кажется избыточным с учетом разброса значений в колонках. Кстати, какой он? Посмотрим на первые три колонки. Если убрать имена столбцов, то будет выведена вся статистика.

[NumPy Standard Data Types](https://jakevdp.github.io/PythonDataScienceHandbook/02.01-understanding-data-types.html#NumPy-Standard-Data-Types)

In [None]:
data[['alcohol','malic_acid','ash']].describe()

Метод `describe` показывает основные статистические характеристики данных по каждому *числовому признаку*: число непропущенных значений, среднее, стандартное отклонение, диапазон, медиану, 0.25 и 0.75 квартили.

**Изменить тип колонки** можно с помощью метода `astype`. Применим этот метод к признаку *alcohol* и переведём его в int16:

In [None]:
data['alcohol'] = data['alcohol'].astype('int16')

Переведите остальные признаки в подходящие типы и проверьте, что типы поменялись.

In [None]:
# Your code here

**Сортировка**

DataFrame можно отсортировать по значению какого-нибудь из признаков. Например, по *alcohol* (`ascending=False` для сортировки по убыванию):

In [None]:
data.sort_values(by='alcohol', ascending=False).head()

Сортировать можно и по группе столбцов, подав список с названиями. Попробуйте.

In [None]:
# Your code here

**Индексация и извлечение данных**

DataFrame можно индексировать по-разному. Для извлечения отдельного столбца можно использовать конструкцию вида `DataFrame['Name']`. Для логической индексации — `df[P(df['Name'])]`, где $P$ — это некоторое логическое условие, проверяемое для каждого элемента столбца *Name*.

Воспользуемся этим для ответа на вопрос: какое среднее содержание магния в алкоголе с крепостью ниже $12\%$?

In [None]:
data['magnesium'][data['alcohol'] <= 12].mean()

Pandas позволяет комбинировать условия через логические операции. Сформулируйте какое-нибудь составное условие.

In [None]:
# Your code here

**Применение функций к ячейкам, столбцам и строкам**

Применение функции **к каждому столбцу**: `apply`.




In [None]:
data.apply(np.max)

Метод apply можно использовать и для того, чтобы применить функцию к каждой строке. Для этого нужно указать `axis=1`. Попробуйте.

In [None]:
# Your code here

Применение функции **к каждой ячейке** столбца: `map`.

Например, метод map можно использовать для замены значений в колонке, передав ему в качестве аргумента словарь вида `{old_value: new_value}`.

In [None]:
d = {2 : 'low', 3 : 'low'}
data['ash'] = data['ash'].map(d)
data.head(2)

Попробуйте какую-нибудь свою замену. Например, вы можете подать **lambda-функцию**.

[Лямбда-функции в Python](https://habr.com/ru/companies/piter/articles/674234/)

In [None]:
# Your code here

**Группировка данных**

В общем случае группировка данных в Pandas выглядит следующим образом:

`df.groupby(by=grouping_columns)[columns_to_show].function()`

Например, выведем статистики по трём столбцам в зависимости от значения признака alcohol.

In [None]:
columns_to_show = ['malic_acid', 'total_phenols', 'proanthocyanins']

data.groupby(['alcohol'])[columns_to_show].describe(percentiles=[])

Сделаем то же самое, но немного по-другому, передав в agg список функций:

In [None]:
data.groupby(['alcohol'])[columns_to_show].agg([np.mean, np.std, np.min, np.max])

Когда данных много, просто смотреть на цифры крайне неинформативно.

Для визуализации данных в этом курсе мы будем использовать библиотеку `matplotlib`. **Давайте её импортируем**.

In [None]:
import matplotlib.pyplot as plt

fig, axs = plt.subplots(figsize=(4,3))
labels.hist()
plt.suptitle("Label balance")
plt.show()

Объединим данные и метки в один фрейм. Нам это потребуется для упрощения визуализации.

In [None]:
df = pd.concat([data, labels], axis=1)

Теперь мы можем посмотреть, как меняется средняя крепость алкоголя в зависимости от значения метки в *target*. Реализация функции `plot` в `pandas` основана на библиотеке `matplotlib`.

Здесь `show()` позволяет нам убрать служебные сообщения.

In [None]:
df.groupby('target')['alcohol'].mean().plot(legend=True)
plt.show()

C помощью параметра kind можно изменить тип графика, например, на **bar chart**. `Matplotlib` позволяет очень гибко настраивать графики. На графике можно изменить почти все, что угодно, но потребуется порыться в документации и найти нужные параметры. Например, параметр `rot` отвечает за угол наклона подписей к оси `x`

In [None]:
df.groupby('target')['alcohol'].mean().plot(kind='bar', legend=True, rot=45)
plt.show()

**Seaborn**

Теперь давайте перейдем к библиотеке `seaborn`. `Seaborn` — более высокоуровневое API на базе библиотеки `matplotlib`. `Seaborn` содержит более адекватные дефолтные настройки оформления графиков. Также в библиотеке есть достаточно сложные типы визуализации, которые в `matplotlib` потребовали бы большого количество кода.

Познакомимся с первым таким "сложным" типом графиков pair plot (scatter plot matrix). Эта визуализация поможет нам посмотреть на одной картинке, как связаны между собой различные признаки.

In [None]:
import seaborn as sns

data, labels = load_wine(return_X_y=True, as_frame=True)
df = pd.concat([data, labels], axis=1)
cols = ['alcohol', 'malic_acid', 'ash', 'target']
sns_plot = sns.pairplot(df[cols])
sns_plot.savefig('pairplot.png')

Как можно видеть, на диагонали матрицы графиков расположены гистограммы распределений признака. Остальные же графики — это обычные `scatter plots` для соответствующих пар признаков.

Для сохранения графиков в файлы стоит использовать метод `savefig`.

Выведите аналогичный график по иным 5 колонкам.

In [None]:
# Your code here


С помощью `seaborn` можно построить и распределение dist plot. Для примера посмотрим на распределение `color_intensity`. Обратите внимание, что так тоже можно обращаться к колонкам.

In [None]:
sns.histplot(df.color_intensity, kde=True)
plt.show()

Для того, чтобы подробнее посмотреть на взаимосвязь двух численных признаков, есть еще и `joint plot` — это гибрид `scatter plot` и `histogram`. Посмотрим на то, как связаны между собой 5 наиболее крепких напитков и `flavanoids`.

In [None]:
top_alcohol = df.alcohol.value_counts().sort_values(ascending = False).head(5).index.values
sns.boxplot(y="alcohol", x="flavanoids", data=df[df.alcohol.isin(top_alcohol)], orient="h")
plt.show()

`Box plot` состоит из коробки (поэтому он и называется `box plot`), усов и точек (иначе его называют *ящик с усами*). Коробка показывает интерквартильный размах распределения, то есть соответственно 25% (Q1) и 75% (Q3) перцентили. Черта внутри коробки обозначает медиану распределения.

Усы отображают весь разброс точек кроме выбросов, то есть минимальные и максимальные значения, которые попадают в промежуток ($Q1 - 1.5*IQR$, $Q3 + 1.5*IQR$), где $IQR = Q3 - Q1$ — интерквартильный размах. Точками на графике обозначаются выбросы (outliers) — те значения, которые не вписываются в промежуток значений, заданный усами графика.

[[wiki] Box plot](https://en.wikipedia.org/wiki/Box_plot)

**Постройте свой ящик с усами!** Для этого выберите какую-нибудь подвыборку данных, которую можно визуально анализировать.

In [None]:
# Your code here

Последний график, который рассмотрим в этом задании — это **heat map**. Сгруппируем значения крепости в 5 бинов (примерно такой же подход при построении гистограмм), и посмотрим на распределение численного признака (`proanthocyanins`) по двум категориальным.

In [None]:
df['alcoholGroup'] = pd.cut(df['alcohol'], bins=5)

In [None]:
platform_genre_sales = df.pivot_table(
                        index='target',
                        columns='alcoholGroup',
                        values='proanthocyanins',
                        aggfunc=sum).fillna(0).applymap(float)
sns.heatmap(platform_genre_sales, annot=True, fmt=".1f", linewidths=.05)
plt.show()

Постройте аналогичную тепловую карту. Быть может, вы ожидаете какие-то закономерности?

In [None]:
# Your code here

В дальнейших лекциях и заданиях на основе подобных визуализаций и подсчётов вы будете производить разведочный анализ и строить гипотезы о том, какой **baseline** можно получить, выведя грубую (или не очень) связь между данными и целевой переменной.

В следующем задании вы продложите анализ датасета.

## Формат результата

Результат выполнения — таблицы и графики.

# Задание 2. Алгоритм Nearest Neighbors

Хотя в лекции дан пример для изображений, реализация для табличных данных будет проще либо вообще может не отличаться от предложенной. В данном задании требуется самостоятельно реализовать алгоритм k-NN и применить его.

P.S. Nearest Neighbor — это k-Nearest Neighbors при $k = 1$.

Импорт необходимых библиотек:

In [None]:
import numpy as np
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split

Загрузим датасет:

In [None]:
# Download dataset
data, labels = load_wine(return_X_y=True)

Разбейте ваши данные на тренировочную, валидационную и тестовую подвыборки.

Вам пригодится метод `train_test_split()`. Выделите на обучение $60\%$ данных, не забудьте про фиксирование `seed` генератора и *стратификацию* (параметры `random_state=42`, `stratify`).

In [None]:
x_train, x_, y_train, y_ = # Your code here

In [None]:
print("x_train", x_train.shape)
print("x_test", x_val.shape)
print("x_test", x_test.shape)

Напишите функцию, которая считает расстояние L1 между 2-мя векторами.


In [None]:
def compute_L1(a, b):
    return  # Your code here

Возьмите первую строку из валидационного набора. Посчитайте расстояние L1 от нее до всех строк тренировочного набора.

В простейшем виде напишите `for loop`. Если вы знаете, что вы делаете, можете использовать *векторизацию*.

In [None]:
# Your code here

distances =

Найдите индекс минимального расстояния.

Используйте `np.argmin()`.

In [None]:
indx = # Your code here

Выведите первый объект в валидационном наборе и объект, который максимально на него похож в тренировочном (по минимальному расстоянию).

In [None]:
# Your code here

Выведите их метки

In [None]:
# Your code here

Напишите функцию для рассчёта двумерного массива расстояний между двумя выборками (от каждого объекта в первой выборке до каждого объекта во второй выборке).

Рекомендуем заранее создать массив расстояний и заполнить его каким-нибудь очень маленьким числом (например, `np.inf`). Так вы сразу будете отлаживать алгоритм по размерности, а ещё это не будет требовать повторных выделений памяти при росте размера массива.

In [None]:
def compute_distances(train, sub, distance_func):
    # Your code here

    return distances

In [None]:
distances = compute_distances(x_train, x_val, compute_L1)

In [None]:
distances.shape

Определите точность Nearest Neighbors классификации на **валидационном** наборе.

Для этого найдите индекс минимального значения для каждой строки массива distances.

In [None]:
indx_distances = # Your code here

Теперь создадим массив `predicted_class`

In [None]:
predicted_class = y_train[indx_distances]

И посмотрим, где класс предсказан правильно, а где нет.

In [None]:
y_val == predicted_class

**Посчитайте точность (accuracy)**

В Python с булевыми значениями можно производить математические операции (`True = 1, False = 0`). Значение accuracy должно быть более $65\%$.

In [None]:
accuracy_val = # Your code here
print(f'Accuracy = {accuracy_val * 100:.1f}%')

**Посчитайте точность (accuracy) для тестового набора**

In [None]:
# Your code here

In [None]:
print(f"Accuracy = {accuracy_test * 100:.1f}%")

Повторите все этапы классификации, однако в этот раз **стандартизируйте** данные перед этим. Величина accuracy должна увеличиться.

In [None]:
# Your code here

In [None]:
distances = # Your code here

In [None]:
min_distances = # Your code here
predicted_class = # Your code here
accuracy_val = # Your code here
print(f'Accuracy = {accuracy_val * 100:.1f}%')

**Посчитайте точность (accuracy) для тестового набора**

Теперь учтём, что у нас осталась **тестовая подвыборка**. Проведите необходимые операции и посчитайте accuracy на ней.  

In [None]:
# Your code here

In [None]:
print(f"Accuracy = {accuracy_test * 100:.1f}%")

Каков результат? Как вы думаете, почему?

**Дополнительно**

Мы использовали accuracy. Как вы помните из лекции, это не самая оптимальная метрика. Попробуйте применить иные метрики.

## Формат результата

Получить значения метрик.

# Задание 3. Nearest Neighbors для картинок

В этом задании вы будете применять написанный в задании 2 алгоритм k-NN для работы с картинками.

Импорт необходимых библиотек:

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import mode
from tqdm.notebook import tqdm
from torchvision import datasets
from sklearn.model_selection import train_test_split

Загрузим датасет с помощью функций torchvision фреймворка PyTorch, с которым мы познакомимся дальше в курсе значительно ближе.

Отметьте, что мы загружаем малую часть датасета для ускорения рассчётов, а также сразу проводим базовую нормировку для изображений. Далее в курсе вы познакомитесь с тем, как эффективнее работать с изображениями.

In [None]:
dataset = datasets.CIFAR10("content", train=True, download=True)

np.random.seed(42)
data, _, labels, _ = train_test_split(
    dataset.data / 255,  # Normalize
    np.array(dataset.targets),
    train_size=0.1,  # get only fraction of the dataset
    random_state=42,
    stratify=dataset.targets,
)

Посмотрим, что это за датасет.

In [None]:
data.shape

In [None]:
data[0][0]

CIFAR-10 — 4-хмерный массив $\small (N, W, H, C)$, где $\small N$ — количество картинок, $\small W$ — ширина картинки, $\small H$ — высота картинки, $\small C$ — количество каналов (RGB).

Создайте subplots с 2-мя строками и 2-мя столбцами и отобразите 4 любых картинки из `data`.
Используйте `plt.imshow()`.

In [None]:
fig, ax = # Your code here

ax[0, 0].# Your code here
ax[0, 1].# Your code here
ax[1, 0].# Your code here
ax[1, 1].# Your code here
plt.show()

Разбейте датасет на тренировочный, валидационный и тестовый наборы. Укажите аргументы `random_state=42`, `stratify`.

In [None]:
# Your code here

print("x_train", x_train.shape)
print("x_train", x_val.shape)
print("x_test", x_test.shape)

Возьмите первую картинку из валидационного набора и найдите ее ближайшего соседа из тренировочного. **Не используйте** в задании библиотечную реализацию k-NN.

In [None]:
def compute_L1(a, b):
    return  # Your code here

In [None]:
# Your code here

distances = # Your code here

In [None]:
indx = # Your code here
print(indx)

**Отобразите эти картинки на subplots с `ncols=2`**

In [None]:
fig, ax = # Your code here
ax[0].# Your code here
ax[1].# Your code here
plt.show()

**Посмотрите, какой класс предсказывается**

In [None]:
class_pred = y_train[indx]
class_to_idx = dataset.class_to_idx

print(list(class_to_idx.keys())[list(class_to_idx.values()).index(class_pred)])

Возьмите первую картинку из тестового набора и найдите k ее ближайших соседей (k-NN) из тренировочного набора.

Используйте `np.argsort()` или иной способ.

In [None]:
k = 5
indx = # Your code here

Отобразите ближайших соседей в виде subplots:

In [None]:
fig, ax = # Your code here
# Your code here
plt.show()

Посчитайте k-NN для всего датасета.

Чем больше данных, тем дольше процесс. Реализуйте функцию для расчета расстояний. Если вы используете `for loops`, то сделайте к ним *progress bars* с помощью [tqdm](https://github.com/tqdm/tqdm).

Примечание: если используете вложенные циклы, то используйте `tqdm` только на внешнем цикле. Иначе время работы существенно увеличится.

In [None]:
def compute_distances(train, val, distance_func):
    # Your code here

    return distances

In [None]:
distances = compute_distances(x_train, x_val, compute_L1)

Теперь найдите k ближайших соседей и предскажите класс.

Используйте моду [scipy.stats.mode](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.mode.html) по ближайшим найденным соседям.

In [None]:
def get_accuracy(distances, train_labels, val_labels, k):
    # Your code here
    return accuracy

In [None]:
accuracy = get_accuracy(distances, y_train, y_val, k)
print(f"Accuracy = {accuracy * 100:.0f}%")

**Посчитайте точность для k=1..100 и постройте график точности от k**

In [None]:
acc = []
for k in range(1, 100):
    # Your code here

In [None]:
plt.# Your code here
plt.show()

Поменяйте расстоянние L1 на L2 и сравните точность на всем датасете.

In [None]:
def compute_L2(a, b):
    return  # Your code here

In [None]:
distances_l2 = compute_distances(x_train, x_val, compute_L2)

In [None]:
acc_l2 = []
for k in range(1, 100):
    # Your code here

In [None]:
plt.# Your code here
plt.# Your code here
plt.legend()
plt.show()

Теперь, выбрав оптимальные параметры с помощью валидационного сета, проверьте качество на **тесте**..

*Примечание*. Для минимизации повторения кода можете сделать функцию из кода выше, в которую в качестве аргументов подаются различные наборы данных.

In [None]:
# Your code here

Совпали ли результаты с валидацией? Как думаете, почему?

## Формат результата

* График сравнения точности для L1 и L2 при различных k. Выведите на одном графике результаты для валидации и теста.
* Число k, при котором достигается лучшая точность.
* Точность на тесте.

Пример графика:

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/dev-2.0/Exercises/EX01/result_4_task.png" width="300">

# Задание 4. Реализация k-NN

В этом задании мы поработаем в концепции ОПП (Объектно-Ориентированного Программирования).

[ООП на Python: концепции, принципы и примеры реализации](https://proglib.io/p/python-oop)

Создайте класс k-NN и реализуйте его методы.

Импорт необходимых библиотек:

In [None]:
import numpy as np
from scipy.stats import mode
from torchvision import datasets
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split

Функция, которая считает расстояние L1 между 2-мя векторами:

In [None]:
def compute_L1(a, b):
    return  # Your code here

Загрузите датасет CIFAR-10 и разбейте его на тренировочный, валидационный и тестовый наборы аналогично тому, как вы сделали это в задании 3. Укажите аргументы `random_state=42`, `stratify`.

In [None]:
dataset = datasets.CIFAR10("content", train=True, download=True)

np.random.seed(42)
data, _, labels, _ = train_test_split(
    dataset.data / 255,  # Normalize
    np.array(dataset.targets),
    train_size=0.1,  # get only fraction of the dataset
    random_state=42,
    stratify=dataset.targets,
)

# Your code here

Создайте класс k-NN и реализуйте его методы.

In [None]:
class kNN:
    def __init__(self, k, distance_func):
        self.k = # Your code here
        self.distance_func = # Your code here

    def fit(self, x, y):
        self.train_data = # Your code here
        self.train_labels = # Your code here

    def predict(self, x):
        distances = self.compute_distances(x)
        indexes = np.argsort(distances, axis=1)[:, :self.k]
        labels_of_top_classes = self.train_labels[indexes]
        predicted_class, _ = mode(labels_of_top_classes, axis=1, keepdims=True)
        return predicted_class.flatten()

    def compute_distances(self, test):
        # Your code here

        return distances

In [None]:
kNN_classifier = kNN(k=1, distance_func=compute_L1)
kNN_classifier.fit(x=x_train, y=y_train)
out = kNN_classifier.predict(x_test)

In [None]:
np.mean(y_test == out)

Сравните время работы вашей реализации и реализации из sklearn. Используйте `%%time`.

In [None]:
# Your code here

In [None]:
# Your code here

In [None]:
# Your code here

**Оптимальный k-NN. Погружение в ООП**

Эта часть задания даёт дополнительные баллы и не обязательна к выполнению.

Реализуйте выбор ближайших соседей эффективно. Можно сделать [KD дерево](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KDTree.html#sklearn.neighbors.KDTree), таким образом мы приблизимся к библиотечной реализации.

[[wiki] K-d tree](https://en.m.wikipedia.org/wiki/K-d_tree).

И сравните по эффективности как с исходной (простой) реализацией, так и с библиотечной.

In [None]:
# Your code here

## Формат результата

Демонстрация времени работы вашей реализации и реализации из sklearn (с помощью %%time)