<a href="https://colab.research.google.com/github/A1ienSword/Pattern-recognition-labs/blob/main/%D0%9B%D0%B0%D0%B1%D0%BE%D1%80%D0%B0%D1%82%D0%BE%D1%80%D0%BD%D0%B0%D1%8F_%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%B0_1_%D0%9A%D0%BE%D1%81%D1%82%D0%B8%D1%86%D1%8B%D0%BD_%D0%92%D0%92_.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [18]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split

In [32]:
# Загрузка данных
data = pd.read_csv('iris.csv.gz')

In [33]:
# Разделение данных на признаки (X) и метки классов (y)
X = data.iloc[:, :-1].values
y = data.iloc[:, -1].values

In [34]:
# Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, random_state=23)

In [22]:
def euclidean_distance(x1, x2):
    """
    Вычисляет евклидово расстояние между двумя точками.

    Параметры:
    - x1 (numpy.ndarray): Координаты первой точки.
    - x2 (numpy.ndarray): Координаты второй точки.

    Возвращает:
    - float: Евклидово расстояние.
    """
    return np.sqrt(np.sum((x1 - x2) ** 2))

In [23]:
def hamming_distance(x1, x2):
    """
    Вычисляет расстояние Хэмминга между двумя точками.
    (Расстояние Хэмминга определяет количество позиций, в которых соответствующие элементы двух векторов различаются.)

    Параметры:
    - x1 (numpy.ndarray): Координаты первой точки.
    - x2 (numpy.ndarray): Координаты второй точки.

    Возвращает:
    - int: Расстояние Хэмминга.
    """
    return np.sum(x1 != x2)

In [24]:
def manhattan_distance(x1, x2):
    """
    Вычисляет манхэттенское расстояние между двумя точками.
    многомерном пространстве, основанная на сумме абсолютных разностей их координат.

    Параметры:
    - x1 (numpy.ndarray): Координаты первой точки.
    - x2 (numpy.ndarray): Координаты второй точки.

    Возвращает:
    - float: Манхэттенское расстояние.
    """
    return np.sum(np.abs(x1 - x2))

In [25]:
def jaccard_similarity(x1, x2):
    """
    Вычисляет коэффициент Жаккара между двумя точками.
    Коэффициент Жаккара — это мера сходства между двумя наборами данных, которая определяется как отношение размера их пересечения к размеру их объединения.
    Однако, в данной реализации возвращается не сам коэффициент Жаккара, а скорее его дополнение (1 - коэффициент Жаккара), что может быть полезно для определения расстояния.

    Параметры:
    - x1 (numpy.ndarray): Координаты первой точки.
    - x2 (numpy.ndarray): Координаты второй точки.

    Возвращает:
    - float: Коэффициент Жаккара.
    """
    intersection = np.sum(np.minimum(x1, x2))
    union = np.sum(np.maximum(x1, x2))
    return 1 - (intersection / union)

In [26]:
def cosine_similarity(x1, x2):
    """
    Вычисляет косинусное сходство между двумя точками.
    Косинусное сходство — это мера сходства между двумя ненулевыми векторами, определяемая косинусом угла между ними.

    Параметры:
    - x1 (numpy.ndarray): Координаты первой точки.
    - x2 (numpy.ndarray): Координаты второй точки.

    Возвращает:
    - float: Косинусное сходство.
    """
    dot_product = np.dot(x1, x2)
    norm_x1 = np.linalg.norm(x1)
    norm_x2 = np.linalg.norm(x2)
    return 1 - (dot_product / (norm_x1 * norm_x2))

In [27]:
def classify(X_train, y_train, x_test, metric):
    """
    Классифицирует тестовую точку на основе ближайшего соседа.

    Параметры:
    - X_train (array-like): Обучающая выборка (признаки).
    - y_train (array-like): Метки классов для обучающей выборки.
    - x_test (array-like): Тестовая точка.
    - metric (function): Функция для вычисления расстояния или схожести.

    Возвращает:
    - int: Метка класса ближайшего соседа.
    """
    distances = []
    for i in range(len(X_train)):
        dist = metric(X_train[i], x_test)
        distances.append((dist, y_train[i]))
    distances.sort(key=lambda x: x[0])
    return distances[0][1]

In [28]:
# Тестирование на тестовой выборке
def test_classification(X_train, y_train, X_test, y_test, metric):
    """
    Функция для тестирования классификации на тестовой выборке.

    Параметры:
    X_train (array-like): Обучающая выборка (признаки).
    y_train (array-like): Метки классов для обучающей выборки.
    X_test (array-like): Тестовая выборка (признаки).
    y_test (array-like): Метки классов для тестовой выборки.
    metric (function): Функция для вычисления расстояния или схожести.

    Возвращает:
    float: Доля правильно классифицированных примеров (точность).
    """
    correct = 0
    for i in range(len(X_test)):
        predicted = classify(X_train, y_train, X_test[i], metric)
        if predicted == y_test[i]:
            correct += 1
    accuracy = correct / len(X_test)
    return accuracy

In [35]:
metrics = {
    'Евклида': euclidean_distance,
    'Хэмминга': hamming_distance,
    'Городских кварталов': manhattan_distance,
    'Жаккарда': jaccard_similarity,
    'Косинусная': cosine_similarity
}

In [37]:
for metric_name, metric_func in metrics.items():
    accuracy = test_classification(X_train, y_train, X_test, y_test, metric_func)
    print(f'Метрика {metric_name} точность: {accuracy:.2f}')

Метрика Евклида точность: 1.00
Метрика Хэмминга точность: 0.87
Метрика Городских кварталов точность: 1.00
Метрика Жаккарда точность: 1.00
Метрика Косинусная точность: 0.93
