In [1]:
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.patches as mptchs
import _pickle as pickle
from scipy.spatial.distance import cdist
from sklearn.decomposition import PCA
from matplotlib import colors as mcolors
import pandas as pd
from sklearn.preprocessing import normalize

dir = r'C:\Jypiter\Data_for_neural_klast.csv' # указываем путь к файлу с данными

In [2]:
colors = [] # массив цветов для последующих графиков
for i in mcolors.CSS4_COLORS:
    colors.append(mcolors.CSS4_COLORS[i])

In [3]:
#dtype = ['X'+str(i) for i in range(1, 49)]

#types = {'Название': str} # указание типов для чтения из csv
#for i in dtype:
#    types[i] = np.float32

In [4]:
#csv_data = pd.read_csv("C:\Jypiter\Glob_terror.csv", encoding='latin1', error_bad_lines = False, warn_bad_lines = False, low_memory=False)

In [5]:
#csv_data = pd.read_csv(dir, decimal=',', sep=';', encoding='latin1', dtype=types) # читаем данные из файла
csv_data = pd.read_excel(r'C:\Jypiter\Data_for_neural_network_2.xlsx').iloc[:,:6]

In [6]:
csv_data

Unnamed: 0,Наименование,X6,X16,X26,X31,X39
0,Абдулинский,20.8,58.5,69,15626,0.1
1,Адамовский,12.4,93.0,180,23410,1.4
2,Акбулакский,11.9,39.8,224,9855,0.7
3,Александровский,13.6,55.0,116,4881,0.2
4,Асекеевский,17.2,63.5,172,15466,5.3
5,Беляевский,14.7,50.8,163,12186,0.1
6,Бугурусланский,19.4,62.0,104,7621,2.1
7,Бузулукский,18.6,43.4,142,9143,6.2
8,Гайский,17.7,75.3,77,28919,0.2
9,Грачевский,15.2,70.4,61,14864,22.2


In [7]:
csv_data = csv_data.as_matrix() # приводим к numpy-массиву
names = csv_data[:,0] # обрезаем названия. далее используем как псевдометки класса, чтобы раскрашивались разными цветами

  """Entry point for launching an IPython kernel.


In [8]:
data = csv_data[:, (1, 3)] # выбираем X1 - X5

In [9]:
data = normalize(data) # нормализуем данные

In [10]:
data.shape

(47, 2)

In [11]:
data

array([[0.28862066, 0.95744353],
       [0.06872601, 0.99763557],
       [0.05305019, 0.99859185],
       [0.11644382, 0.99319728],
       [0.09950372, 0.99503719],
       [0.08981953, 0.99595806],
       [0.18337532, 0.98304297],
       [0.12987649, 0.99153018],
       [0.22402748, 0.97458283],
       [0.24178699, 0.97032935],
       [0.16717886, 0.98592658],
       [0.08472104, 0.99640471],
       [0.07603496, 0.99710515],
       [0.10595753, 0.99437066],
       [0.1497217 , 0.98872818],
       [0.1563154 , 0.98770719],
       [0.13545861, 0.99078301],
       [0.21693046, 0.97618706],
       [0.18312456, 0.98308972],
       [0.11098884, 0.99382165],
       [0.06892659, 0.99762173],
       [0.06009527, 0.99819265],
       [0.07624797, 0.99708889],
       [0.08464657, 0.99641104],
       [0.12700062, 0.99190264],
       [0.20739074, 0.97825819],
       [0.10776568, 0.99417632],
       [0.46810717, 0.8836717 ],
       [0.15508974, 0.98790039],
       [0.198121  , 0.98017757],
       [0.

In [12]:
def man_dist_pbc(m, vector, shape=(10, 10)):
    """ Manhattan distance calculation of coordinates with periodic boundary condition
    :param m: {numpy.ndarray} array / matrix
    :param vector: {numpy.ndarray} array / vector
    :param shape: {tuple} shape of the SOM
    :return: {numpy.ndarray} Manhattan distance for v to m
    """
    dims = np.array(shape)
    delta = np.abs(m - vector)
    delta = np.where(delta > 0.5 * dims, np.abs(delta - dims), delta)
    return np.sum(delta, axis=len(m.shape) - 1)


class SOM(object):
    def __init__(self, x, y, alpha=0.6, alpha_final=0.1, seed=42):
        """ Initialize the SOM object with a given map size
        
        :param x: {int} width of the map
        :param y: {int} height of the map
        :param alpha: {float} initial alpha at training start
        :param alpha_final: {float} final alpha to reach at last training epoch
        :param seed: {int} random seed to use
        """
        np.random.seed(seed)
        self.x = x
        self.y = y
        self.shape = (x, y)
        self.sigma = x / 2.
        self.alpha = alpha
        self.alpha_final = alpha_final
        self.alpha_decay = float()
        self.sigma_decay = float()
        self.epoch = 0
        self.map = np.array([])
        self.indxmap = np.stack(
            np.unravel_index(
                np.arange(x * y, dtype=int).reshape(x, y), (x, y)
            ), 2
        )
        print("Index map:\n", self.indxmap)
        self.distmap = np.zeros((self.x, self.y))
        self.pca = None  # attribute to save potential PCA to for saving and later reloading
        self.inizialized = False
        self.error = 0.  # reconstruction error
        self.history = list()  # reconstruction error training history
        # for debug
        self.counter = 0

    def winner(self, vector):
        """ Compute the winner neuron closest to the vector (Euclidean distance)
        
        :param vector: {numpy.ndarray} vector of current data point(s)
        :return: indices of winning neuron
        """
        delta = np.abs(self.map - vector)
        dists = np.sum(delta ** 2, axis=2)
        indx = np.argmin(dists)
        res = np.array([indx % self.x, indx // self.y])
        self.counter += 1
        return res

    def cycle(self, vector):
        """ Perform one iteration in adapting the SOM towards the chosen data point
        
        :param vector: {numpy.ndarray} current data point
        """
        w = self.winner(vector)
        # get Manhattan distance (with PBC) of every neuron in the map to the winner
        dists = man_dist_pbc(self.indxmap, w, self.shape)

        # smooth the distances with the current sigma
        h = np.exp(-(dists / self.sigma) ** 2).reshape(self.x, self.y, 1)

        # update neuron weights
        self.map -= h * self.alpha * (self.map - vector)

        print("Epoch %i;    Neuron [%i, %i];    \tSigma: %.4f;    alpha: %.4f" %
              (self.epoch, w[0], w[1], self.sigma, self.alpha))

        # update alpha, sigma and epoch
        self.alpha = self.alpha * self.alpha_decay
        self.sigma *= self.sigma_decay
        self.epoch = self.epoch + 1

    def initialize(self, data, how='pca'):
        """ Initialize the SOM neurons
        :param data: {numpy.ndarray} data to use for initialization
        :param how: {str} how to initialize the map, available: 'pca' (via 4 first eigenvalues) or 'random' (via random
            values normally distributed like data)
        :return: initialized map in self.map
        """
        self.map = np.random.normal(np.mean(data), np.std(data), size=(self.x, self.y, len(data[0])))
        print("Before pca")
        print(self.map[0])
        if how == 'pca':
            eivalues = PCA(2).fit_transform(data.T).T
            for i in range(2):
                x = np.random.randint(0, self.x)
                y = np.random.randint(0, self.y)
                print("X, Y: ", x, y)
                self.map[x, y] = eivalues[i]
                print("Eigenvalues", i, eivalues[i])
        self.inizialized = True
        print("After pca")
        print(self.map[0])

    def fit(self, data, epochs, batch_size=1):
        """ Train the SOM on the given data for several iterations
        :param data: {numpy.ndarray} data to train on
        :param epochs: {int} number of iterations to train
        :param batch_size: {int} number of data points to consider per iteration
        """
        if not self.inizialized:
            self.initialize(data)

        # get decays for given epochs
        self.alpha_decay = (self.alpha_final / self.alpha) ** (1.0 / epochs)
        self.sigma_decay = (np.sqrt(self.x) / (4. * self.sigma)) ** (1.0 / epochs)

        samples = np.arange(len(data))
        for i in range(epochs):
            indx = np.random.choice(samples, batch_size)
            self.cycle(data[indx])
            if i % 1000 == 0:  # save the error to history every 1000 epochs
                self.history.append(self.som_error(data))
        self.error = self.som_error(data)

    def transform(self, data):
        """ Transform data in to the SOM space
        :param data: {numpy.ndarray} data to be transformed
        :return: transformed data in the SOM space
        """
        m = self.map.reshape((self.x * self.y, self.map.shape[-1]))
        dotprod = np.dot(np.exp(data), np.exp(m.T)) / np.sum(np.exp(m), axis=1)
        return (dotprod / (np.exp(np.max(dotprod)) + 1e-8)).reshape(data.shape[0], self.x, self.y)

    def distance_map(self, metric='euclidean'):
        """ Get the distance map of the neuron weights. Every cell is the normalised sum of all distances between
        the neuron and all other neurons.
        Получение карты расстояний веслв нейронов. Каддая клетка представлена нормализованной суммой всех расстояний между данным нейроном
        и другими нейронами.
        :param metric: {str} distance metric to be used (see ``scipy.spatial.distance.cdist``)
                        Какая метрика расстояния будет использована
        :return: normalized sum of distances for every neuron to its neighbors
                нормализованная сумма расстояний для каждого нейрона и его соседей
        """
        dists = np.zeros((self.x, self.y))
        for x in range(self.x):
            for y in range(self.y):
                d = cdist(self.map[x, y].reshape((1, -1)), 
                          self.map.reshape((-1, self.map.shape[-1])), 
                          metric=metric)
                dists[x, y] = np.mean(d)
        self.distmap = dists / float(np.max(dists))

    def winner_map(self, data):
        """ Get the number of times, a certain neuron in the trained SOM is winner for the given data.
        :param data: {numpy.ndarray} data to compute the winner neurons on
        :return: {numpy.ndarray} map with winner counts at corresponding neuron location
        """
        wm = np.zeros(self.shape, dtype=int)
        for d in data:
            [x, y] = self.winner(d)
            wm[x, y] += 1
        return wm

    def som_error(self, data):
        """ Calculates the overall error as the average difference between the winning neurons and the data points
        :param data: {numpy.ndarray}
        :return: normalized error
        """
        e = float()
        for d in data:
            [x, y] = self.winner(d)
            dist = self.map[x, y] - d
            e += np.sqrt(np.dot(dist, dist.T))
        return e / float(len(data))

    def plot_point_map(self, data, targets, targetnames, filename=None, colors=None, markers=None, density=True):
        """ Visualize the som with all data as points around the neurons
        Визуализирует данные как точки в клетках соответствующих нейронов
        :param data: {numpy.ndarray} data to visualize with the SOM
                                    данные, которые требуется визуализировать
        :param targets: {list/array} array of target classes (0 to len(targetnames)) corresponding to data
                                    массив знаечний классов, присвоенных образцам данных
        :param targetnames: {list/array} names describing the target classes given in targets
                                        наименования классов, использованных в targets
        :param filename: {str} optional, if given, the plot is saved to this location
                                        если указан - путь, куда будет сохранен рисунок
        :param colors: {list/array} optional, if given, different classes are colored in these colors
                                            если указано - цвета, которыми будут обознаечны различные классы
        :param markers: {list/array} optional, if given, different classes are visualized with these markers
                                            если указано - маркеры, которыми будут обозначены различные классы
        :param density: {bool} whether to plot the density map with winner neuron counts in the background
                            нужно ли строить карту плотности нейронов-победителей на заднем фоне
        :return: plot shown or saved if a filename is given
                показывает либо сохраняет рисунок по указанному пути
        """
        print("\nPlotting...")
        if not markers:
            markers = ['o'] * len(targetnames)
        if not colors:
            colors = ['#EDB233', '#90C3EC', '#C02942', '#79BD9A', '#774F38', 'gray', 'black']
        # Создание объектов Figure и Axex для дальнейшей работы с рисунком
        if density:
            fig, ax = self.plot_density_map(data, internal=True)
        else:
            # указываем размер холста в дюймах (высота и ширина карты берутся за основу)
            fig, ax = plt.subplots(figsize=self.shape)

        # Отрисовываем каждый образец(ряд) из переданных данных в виде точки на карте
        for cnt, sample in enumerate(data):
            plot_counter = cnt
            w = self.winner(sample)
            # Высчитываются координаты расположения точки с данными в клетке нейрона-победителя
            # в некоторой окрестности вокруг середины клетки
            y = w[0] + .5 + 0.1 * np.random.randn(1)
            x = w[1] + .5 + 0.1 * np.random.randn(1)
            
            # Берем соответствующий маркер и цвет для отображения точки
            marker = markers[targets[cnt]]
            color = colors[targets[cnt]]
            ax.plot(x,
                    y,
                    marker=marker, 
                    color=color, 
                    markersize=10)
               

        # устанавливаем равное соотношение сторон на графике        
        ax.set_aspect('equal')
        # устанавливаем максимальные значения координатной сетки в соостветствии с размерами карты
        ax.set_xlim([0, self.x])
        ax.set_ylim([0, self.y])
        # Отрисовываем сетку на рисунке
        ax.set_xticks(np.arange(self.x))
        ax.set_yticks(np.arange(self.y))
        ax.grid(which='major')

        # Отрисовываем легенеду, а именно - наименования классов и их цвета
        patches = [mptchs.Patch(color=colors[i], label=targetnames[i]) for i in range(len(targetnames))]
        # Указываем то, как именно будет располагаться легенда - какике объекты Artist есть в качестве элементов легенды, 
        # в каких координатах будут отрисованы элементы и т. д.
        legend = plt.legend(handles=patches, bbox_to_anchor=(0., 1.02, 1., .102), loc=3, ncol=len(targetnames),
                            mode="expand", borderaxespad=0.1)
        legend.get_frame().set_facecolor('#e5e5e5')

        if filename:
            plt.savefig(filename)
            plt.close()
            print("Plot done!")
        else:
            plt.show()

    def plot_density_map(self, data, colormap='Oranges', filename=None, internal=False):
        """ Visualize the data density in different areas of the SOM.
        :param data: {numpy.ndarray} data to visualize the SOM density (number of times a neuron was winner)
                                    Данные, по которым визуализировать плотность SOM (по количеству раз которое каждый нейрон выигрывал)
        :param colormap: {str} colormap to use, select from matplolib sequential colormaps
                                Карта цветов, которую нужно использовать - берется из matplotlib
        :param filename: {str} optional, if given, the plot is saved to this location
                                Если указано - путь, куда будет сохранен рисунок
        :param internal: {bool} if True, the current plot will stay open to be used for other plot functions
                                Если значение True, то рисунок останется доступен для выполнения других операций над ним
        :return: plot shown or saved if a filename is given
        """
        # Получаем карту нейронов, в клетках которой - количество раз, которое определенный нейрон становился победителем
        wm = self.winner_map(data)
        fig, ax = plt.subplots(figsize=self.shape)
        # Раскрашиваем клетки и добавляем шкалу цвета
        plt.pcolormesh(wm, cmap=colormap, edgecolors=None)
        plt.colorbar()
        # Рисуем сетку на тот случай, если internal=True
        plt.xticks(np.arange(self.x))
        plt.yticks(np.arange(self.y))
        ax.set_aspect('equal')
        if not internal:
            if filename:
                plt.savefig(filename)
                plt.close()
                print("Plot done!")
            else:
                plt.show()
        else:
            return fig, ax



    def plot_distance_map(self, colormap='Oranges', filename=None):
        """ Plot the distance map after training.
        Рисует карту расстояний после обучения.
        :param colormap: {str} colormap to use, select from matplolib sequential colormaps
                            Карта цвета для использования
        :param filename: {str} optional, if given, the plot is saved to this location
                        Если указано - путь, куда будет сохранен рисунок
        :return: plot shown or saved if a filename is given
                Рисунок будет покзаан либо сохранен по указанному пути
        """
        # Заполняем карту расстояний, если еще не заполнена
        if np.mean(self.distmap) == 0.:
            self.distance_map()
        # Строим фигуру (холст), раскрашиваем его, добавляем шкалу цвета и рисуем сетку
        fig, ax = plt.subplots(figsize=self.shape)
        plt.pcolormesh(self.distmap, cmap=colormap, edgecolors=None)
        plt.colorbar()
        plt.xticks(np.arange(self.x))
        plt.yticks(np.arange(self.y))
        # Редактируем формат заголовка карты
        plt.title("Distance Map", fontweight='bold', fontsize=28)
        ax.set_aspect('equal')
        if filename:
            plt.savefig(filename)
            plt.close()
            print("Plot done!")
        else:
            plt.show()

    def plot_error_history(self, color='orange', filename=None):
        """ plot the training reconstruction error history that was recorded during the fit
        :param color: {str} color of the line
        :param filename: {str} optional, if given, the plot is saved to this location
        :return: plot shown or saved if a filename is given
        """
        if not len(self.history):
            raise LookupError("No error history was found! Is the SOM already trained?")
        fig, ax = plt.subplots()
        ax.plot(range(0, self.epoch, 1000), self.history, '-o', c=color)
        ax.set_title('SOM Error History', fontweight='bold')
        ax.set_xlabel('Epoch', fontweight='bold')
        ax.set_ylabel('Error', fontweight='bold')
        if filename:
            plt.savefig(filename)
            plt.close()
            print("Plot done!")
        else:
            plt.show()

    def save(self, filename):
        """ Save the SOM instance to a pickle file.
        :param filename: {str} filename (best to end with .p)
        :return: saved instance in file with name ``filename``
        """
        f = open(filename, 'wb')
        pickle.dump(self.__dict__, f, 2)
        f.close()

    def load(self, filename):
        """ Save the SOM instance to a pickle file.
        :param filename: {str} filename (best to end with .p)
        :return: saved instance in file with name ``filename``
        """
        f = open(filename, 'rb')
        tmp_dict = pickle.load(f)
        f.close()
        self.__dict__.update(tmp_dict)

In [13]:
som = SOM(3, 1)  # инициализируем SOM, 5x5
som.fit(data, 2000)  # обучаем его 1000 эпох

# create some dummy target values
targets = [i for i in range(0, data.shape[0])] # создаем массив цифр, соответствующий псевдометкам классов, чтобы было красиво

Index map:
 [[[0 0]]

 [[1 0]]

 [[2 0]]]
Before pca
[[0.77302642 0.49566551]]
X, Y:  2 0
Eigenvalues 0 [-2.98663052  2.98663052]
X, Y:  2 0
Eigenvalues 1 [8.87017614e-16 8.87017614e-16]
After pca
[[0.77302642 0.49566551]]
Epoch 0;    Neuron [1, 1];    	Sigma: 1.5000;    alpha: 0.6000


IndexError: index 1 is out of bounds for axis 1 with size 1

In [None]:
# now visualize the learned representation with the class labels
# посмотреть описание функций можно в их объявлении
print('Наблюдения + количество раз, которое нейрон выигрывал')
som.plot_point_map(data, targets, names, density=True, colors=colors)
print('Количество раз, которое нейрон выигрывал')
som.plot_density_map(data)
print('Нормированные расстояния между нейронами')
som.plot_distance_map()

In [None]:
# Сгруппируем данные по нейронам и создадим соответствующий словарь
named_objects = []
neuron_dict = {}
for i in range(len(names)):
    sample_data = data[i]
    sample_name = names[i]
    named_objects.append({'name': sample_name, 'data': sample_data})
    winner_neuron = str(tuple([som.winner(sample_data)[1], som.winner(sample_data)[0]]))
    if winner_neuron not in neuron_dict:
        neuron_dict[winner_neuron] = [sample_name]
    else:
        neuron_dict[winner_neuron].append(sample_name)
        
# Создадим и упорядочим список с вхождениями словаря        
data_list = []
for k, v in neuron_dict.items():
    data_list.append((k, v))

sorted_data_list = list(sorted(data_list, key=lambda x: x[0]))
for item in sorted_data_list:
    # Выводи координаты нейрона-победителя и соотвествующие ему имена образцов данных
    print(item)
