<h2>Лабораторная работа №7 - Методы распознавания (классификации)</h2>

<h4>Для начала необходимо сформировать данные</h4><br>
<p>Моя задача - по данным, оценить производительность компьютера</p>
<p>Классы - <i>perfomance</i>(<i>medium</i>, <i>hight</i>)</p>
<p>Признаки:<br>
1. cores - количество процессорных ядер (шт.)<br>
2. clocks - максимальная частота ядра процессора на всех ядрах (GHz)<br>
3. ram - объём оперативной памяти (GB)<br>
4. compute_units - количество ядер графического процессора (шт.)<br>
5. gpu_memory - объем видеопамяти GPU (GB)<br>
</p>

<h3>Подключаю библиотеки</h3>

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

<h3>Создаю фрейм данных</h3>

In [2]:
#                1         2         3         4         5         6         7         8         9         10
cores =         [6,        6,        8,        16,       4,        2,        8,        6,        4,        4        ]
clocks =        [3.3,      3.6,      3.4,      3.3,      4.1,      3.9,      3.5,      3.6,      4.4,      3.9      ]
ram =           [16,       16,       8,        32,       8,        4,        16,       8,        16,       8        ]
compute_units = [16,       20,       36,       80,       8,        4,        32,       12,       32,       11       ]
gpu_memory =    [4,        6,        8,        24,       2,        2,        8,        4,        8,        4        ]
perfomance =    ["medium", "medium", "high"  , "high"  , "medium", "medium", "high"  , "medium", "high"  , "medium" ]

In [3]:
data = pd.DataFrame(
    {
        "cores": cores,
        "clocks": clocks,
        "ram": ram,
        "compute_units": compute_units,
        "gpu_memory": gpu_memory,
        "perfomance": perfomance
    }
)

In [4]:
data

Unnamed: 0,cores,clocks,ram,compute_units,gpu_memory,perfomance
0,6,3.3,16,16,4,medium
1,6,3.6,16,20,6,medium
2,8,3.4,8,36,8,high
3,16,3.3,32,80,24,high
4,4,4.1,8,8,2,medium
5,2,3.9,4,4,2,medium
6,8,3.5,16,32,8,high
7,6,3.6,8,12,4,medium
8,4,4.4,16,32,8,high
9,4,3.9,8,11,4,medium


<h3>Создаю тестовые данные</h3>

In [5]:
test_computers = pd.DataFrame(
    {
        "cores": [4, 16],
        "clocks": [3.9, 4.1],
        "ram": [16, 32],
        "compute_units": [8, 64],
        "gpu_memory": [4, 12]
    }
)
test_computers

Unnamed: 0,cores,clocks,ram,compute_units,gpu_memory
0,4,3.9,16,8,4
1,16,4.1,32,64,12


<h3>Создаю класс для решения на основе минимального расстояния между объектами</h3>

In [6]:
class MinDistanceDecision:
    def __init__(self):
        self.medium_prototype = dict()
        self.high_prototype = dict()
        self.max_values = dict()
        self.fitted = False
    
    def fit(self, data):
        data = data.copy(deep=True)
        
        for col in data.columns:
            if(col != "perfomance"):
                self.max_values[col] = data[col].max()
                data[col] = data[col] / self.max_values[col]
        
        medium_pcs = data[data["perfomance"] == "medium"]
        hight_pcs = data[data["perfomance"] == "high"]
        
        for col in data.columns:
            if(col != "perfomance"):
                self.medium_prototype[col] = medium_pcs[col].mean()
                self.high_prototype[col] = hight_pcs[col].mean()
        self.fitted = True
        
    def predict(self, data):
        if not self.fitted:
            raise Exception("Fit the model first")
        
        data = data.copy(deep=True)
        
        for col in data.columns:
            data[col] = data[col] / self.max_values[col]
            
        medium_d_values = self.__get_d_values(data, self.medium_prototype)
        high_d_values = self.__get_d_values(data, self.high_prototype)
        
        predictions = []
        
        for medium_value, high_value in zip(medium_d_values, high_d_values):
            predictions.append("medium" if medium_value > high_value else "high" )
            
        return predictions
        
    def __get_d_values(self, data, prototype):
        prototype_coef = 0
        for value in prototype.values():
            prototype_coef += value ** 2
            
        d_values = np.zeros((data.shape[0],))
        
        for index, row in data.iterrows():
            data_coef = 0
            for col in data.columns:
                data_coef += row[col] * prototype[col]
            d_values[index] = 2 * data_coef - prototype_coef
        
        return d_values
        

<h3>Проверяю предсказание для тестовых компьютеров</h3>

In [7]:
test_computers

Unnamed: 0,cores,clocks,ram,compute_units,gpu_memory
0,4,3.9,16,8,4
1,16,4.1,32,64,12


In [8]:
%%time
minDist = MinDistanceDecision()
minDist.fit(data)
minDist.predict(test_computers)

Wall time: 24.8 ms


['medium', 'high']

<p>Предсказания совпали с ожиданиями</p>

<h3>Создаю класс для решения на основе разделяющей функции между объектами</h3>

In [9]:
class SeparateFuncDecision:
    """
    Полученное значение функции соответствует medium если оно меньше нуля, иначе high
    """
    def __init__(self):
        self.weights = dict()
        self.bias = 0
        self.fitted = False
    
    def fit(self, data):
        for col in data.columns:
            if col != "perfomance":
                self.weights[col] = 0
        
        recognized_count = 0
        max_iters = 100
        i = 0
        while recognized_count < data.shape[0] or i < max_iters:
            for index, row in data.iterrows():
                value = 0
                for col in data.columns:
                    if col != "perfomance":
                        value += row[col] * self.weights[col]
                value += self.bias
                
                if value >= 0 and row["perfomance"] == "medium":
                    self.bias -= 1
                    for col in data.columns:
                        if col != "perfomance":
                            self.weights[col] -= row[col]
                    recognized_count = 0
                    
                elif value < 0 and row["perfomance"] == "high":
                    self.bias += 1
                    for col in data.columns:
                        if col != "perfomance":
                            self.weights[col] += row[col]
                    recognized_count = 0
                    
                else:
                    recognized_count += 1
            i += 1
        if i == max_iters:
            print(f"Классификатор не смог полностью предсказать все классы и его обучение было прервано на {max_iters} операции")
        else:
            print(f"Классификатор успешно обучился за {i} операций")
            
        self.fitted = True
    
    def predict(self, data):
        if not self.fitted:
            raise Exception("Fit the model first")
        
        predictions = []
        
        for index, row in data.iterrows():
            value = 0
            for col in data.columns:
                value += row[col] * self.weights[col]
            value += self.bias
            
            predictions.append("high" if value >= 0 else "medium")
        
        return predictions

<h3>Проверяю предсказание для тестовых компьютеров</h3>

In [10]:
test_computers

Unnamed: 0,cores,clocks,ram,compute_units,gpu_memory
0,4,3.9,16,8,4
1,16,4.1,32,64,12


In [11]:
%%time
minDist = SeparateFuncDecision()
minDist.fit(data)
minDist.predict(test_computers)

Классификатор не смог полностью предсказать все классы и его обучение было прервано на 100 операции
Wall time: 192 ms


['medium', 'high']

<p>Предсказания совпали с ожиданиями</p>

<h4>Вывод: Классификаторы верно предсказывают значения. Скорость работы классификатора, предсказывающего на основе минимальных расстояний намного выше чем скорость классификатора на основе разделяющей прямой. Это связано с тем, что первый классификатор за одну операцию вычисляет прототипы классов и потом просто сопоставляет прототипы и входящие классы, а второй строит разделяющую гиперплоскость и выполняет свою настройку итеративно много раз.</h4>