# SOM
SOM = Self-organizing map, mapa samoorganizująca.

Mapa samoorganizująca(SOM) zwana inaczej siecią Kohonena, jest szczególnym przypadkiem algorytmu realizującego uczenie się bez nadzoru. Podstawowym zadaniem SOMu jest organizacja wielowymiarowej  (np. obiektów opisanych 50 parametrami) w taki sposób, żeby można ją było prezentować i analizować w przestrzeni o znacznie mniejszej liczbie wymiarów, czyli mapie. Efektem przetwarzania danych przeprowadzonego za pomocą mapy samoorganizującej powinno być rzutowanie danych, którego efektem jest mapa, na której odległość pomiędzy "podobnymi" danymi wejściowymi powinna być mała.

## Kolejne elementy implementacji SOM:
* [Wprowadzenie](#INIT)
* [Przetwarzanie danych](#DATAPROCESSING)
* [Proces wizualizacji](#VISUALISATION)
* [Finalny rozklad próbek](#SUMMARY)

<a id='INIT'></a>
## Wprowadzenie
Aby przeprowadzdzić wizualizacje za pomocą podejścia SOM(Self-Organizing Map), wykorzystliśmy zbiór 'wine'. Posiada on 178 próbek trzech klas opisanych poprzez 14 składowych. W przypadku naszej analizy zmienną objaśnianą jest rodzaj wina. Wizualizacja pierwotnego zbioru danych byłaby niemożliwa / nie dająca możliwości analizy ze względu na dużą liczbę wymiarów. Pobieranie danych i ich tabelaryczna prezentacja zostały zaimplementowane w trzech kolejnych blokach.

## Instalacja używanych pakietów

In [65]:
library(ggfortify)
library(factoextra)
library(ggplot2)
library(car)
library(aweSOM)
library(purr)

ERROR: Error in library(purr): there is no package called 'purr'


## Pobranie i przedstawienie zbioru wejściowego.

In [3]:
  UCI <- "http://archive.ics.uci.edu/ml"
  REPOS <- "machine-learning-databases"
  wine.url <- sprintf("http://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data")
  wine <- read.csv(wine.url, header=FALSE) 
  colnames(wine) <- c('Type', 'Alcohol', 'Malic', 'Ash', 
                      'Alcalinity', 'Magnesium', 'Phenols', 
                      'Flavanoids', 'Nonflavanoids',
                      'Proanthocyanins', 'Color', 'Hue', 
                      'Dilution', 'Proline')
  wine$Type <- as.factor(wine$Type)
#   save(wine, file="wine.Rdata", compress=TRUE)

In [4]:
names(wine)

<a id='DATAPROCESSING'></a>
## Przetwarzanie danych

Wyżej przedstawiony zbiór danych zostanie przetwarzniu danych przy użyciu mapy samoorganizującej(SOM). Za jej pomocą dane wielowymiarowe są przekształcane w taki sposób aby możliwe było ich przedstawienie w formie dwuwymiarowej mapy. Do tego celu wykokrzystana został funkcja `kohonen::som` oraz `aweSOMplit` z pakietu `aweSOM`. Pierwszym etapem przetwarzania jest standaryzacja danych wejściowych.

In [5]:
train.data <- wine[,2:14]
### Scale training data
train.data <- scale(train.data)

<a id='LDA_VISUALISATION'></a>
## Proces wizualizacji

Kolejnym krokiem jest inicjalizacja SOMu oraz przeprowadzenie samego procesu tworzenia heksagonalnej mapy samoorganizującej się o wymiarach 9 x 9.

### SOM

In [38]:
set.seed(1465)
map_size <- 9
init <- somInit(train.data, map_size, map_size)
result.som <- kohonen::som(train.data, grid = kohonen::somgrid(map_size,map_size, "hexagonal"), 
                         rlen = 100, alpha = c(0.05, 0.01), radius = c(2.65,-2.65), 
                         dist.fcts = "sumofsquares", init = init)
train.data

Alcohol,Malic,Ash,Alcalinity,Magnesium,Phenols,Flavanoids,Nonflavanoids,Proanthocyanins,Color,Hue,Dilution,Proline
1.51434077,-0.56066822,0.23139979,-1.16630317,1.90852151,0.8067217,1.0319081,-0.65770780,1.22143845,0.251008784,0.3611585,1.84272147,1.01015939
0.24559683,-0.49800856,-0.82566722,-2.48384052,0.01809398,0.5670481,0.7315653,-0.81841060,-0.54318872,-0.292496232,0.4049085,1.11031723,0.96252635
0.19632522,0.02117152,1.10621386,-0.26798225,0.08810981,0.8067217,1.2121137,-0.49700500,2.12995937,0.268262912,0.3174085,0.78636920,1.39122370
1.68679140,-0.34583508,0.48655389,-0.80697481,0.92829983,2.4844372,1.4623994,-0.97911340,1.02925134,1.182731669,-0.4263410,1.18074072,2.32800680
0.29486844,0.22705328,1.83522559,0.45067448,1.27837900,0.8067217,0.6614853,0.22615759,0.40027531,-0.318377423,0.3611585,0.44833648,-0.03776747
1.47738706,-0.51591132,0.30430096,-1.28607930,0.85828399,1.5576991,1.3622851,-0.17559941,0.66234866,0.729810822,0.4049085,0.33565890,2.23274072
1.71142720,-0.41744613,0.30430096,-1.46574348,-0.26196936,0.3273744,0.4912911,-0.49700500,0.67982021,0.082781041,0.2736585,1.36384178,1.72465497
1.30493643,-0.16680747,0.88751034,-0.56742256,1.48842650,0.4871569,0.4812796,-0.41665360,-0.59560339,-0.003489596,0.4486584,1.36384178,1.74053265
2.25341491,-0.62332789,-0.71631546,-1.64540766,-0.19195352,0.8067217,0.9518167,-0.57735640,0.67982021,0.061213382,0.5361584,0.33565890,0.94664867
1.05857838,-0.88291793,-0.35180959,-1.04652705,-0.12193769,1.0943301,1.1220109,-1.13981619,0.45268998,0.932546820,0.2299086,1.32158768,0.94664867


In [59]:
somQuality(result.som, train.data)



## Quality measures:
 * Quantization error     :  1.531723 
 * (% explained variance) :  88.15 
 * Topographic error      :  0.2808989 
 * Kaski-Lagus error      :  4.593774 
 
## Number of obs. per map cell:
 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 
 4  1  2  1  6  3  3  2  2  1  2  2  2  3  2  1  4  3  1  3  4  2  2  2  2  1 
27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 
 3  3  1  1  1  1  1  1  3  3  1  2  4  0  2  1  3  2  3  2  0  0  1  1  2  1 
53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 
 4  2  3  4  3  2  0  1  2  4  5  4  3  1  2  2  0  4  4  4  3  3  2  1  2  1 
79 80 81 
 4  2  2 

Poniżej przedstawiony został efekt generowania mapy samoorganizującej się. Każda dana wejściowa została przyporządkowana do jednej z 81 komórek mapy.

In [24]:
aweSOMplot(som = result.som, type = "Cloud", data = wine, 
           variables = names(wine))

## Klasteryzacja

Dla porównania różnych metod klasteryzacji najpierw uzyskaną mapę poddaliśmy klasteryzacji za pomocą metody k-median.

# k-medians

In [9]:
superclust_pam <- cluster::pam(result.som$codes[[1]], 3)
superclasses_pam <- superclust_pam$clustering


In [10]:
aweSOMplot(som = result.som, type = "Cloud", data = wine, 
           variables = names(wine), 
           superclass = superclasses_pam)

# k-means

Włąsicwy proces klasteryzacji danych został przeprowadzony przy pomocy algorytmu k-średnich. Wykorzystany do tego został pakiet `factoextra`. Do oceny jakości uzyskanych w procesie klasteryzacji wyników wykorzystano pakiet `clValid`.

In [11]:
library("factoextra")
library(clValid)

"package 'clValid' was built under R version 3.6.3"Loading required package: cluster


Jako liczbę centroidów (klastrów) przyjęto 3, gdyż tyle wynosi liczba klas w analizowanym zbiorze. Do określenia liczby klastrów można wykorzystać byłoby także metodę łokciową. Poniżej przedstawiono tekstowo efekt klasteryzacji przy pomocy metody k-means.

In [12]:
# Compute k-means with k = 3
set.seed(123)
wine_data = scale(result.som$codes[[1]])
kmeans_scale <- kmeans(wine_data, 3, nstart = 25)
# K-means clusters showing the group of each individuals


Efekt klasteryzacji za pomocą metody k-means został także przedstawiony graficznie na mapie SOM.

In [13]:
aweSOMplot(som = result.som, type = "Cloud", data = wine, 
           variables = names(wine), 
           superclass = kmeans_scale$cluster)

## Index Dunna

Jako indeks wewnętrzny do oceny wyników klasteryzacji wykorzystaliśmy indeks Dunna. Jest to ocena wewnętrzna, gdyż przeprowadzona została na podstawie danych poddanych grupowaniu z użyciem funkcji oceny.

Oczekiwana jest mała odległość wewnątrz grupy (mianownik mały) i duża odległość pomiędzy grupami, stąd większe wartości są lepsze. Poniżej przedstawiono indeks Dunna dla metody k-medians.

In [14]:
dunn(clusters = superclasses_pam, Data = wine_data)

Poniżej przedstawiono indeks Dunna dla metody k-means.

In [15]:
dunn(clusters = kmeans_scale$cluster, Data = wine_data)

Uzyskana wartość indeksu byłaby wyższa, gdyby obserwacje wewnątrz klastrów były bardziej skupione. Odległości między grupami nie są duże, grupy częściowo się pokrywają, stąd stosunkowo niska wartość wskaźnika wewnętrznego.

# Ocena klasteryzacji - index zewnętrzny

Oceny klasteryzacji dokonano tekże przy pomocy indeksu zewnętrznego, czyli dokonano oceny na podstawie danych które nie były użyte do grupowania w postaci znanych etykiet klas reprezentującyh ground truth (zmienna objaśniana).

Etykiety klastrów zostały dostosowane do etykiet ze zbioru danych `wines`.

In [16]:
# change cluster indexes order to match the indexes/types order from wines dataset
kmeans_scale$cluster <- kmeans_scale$cluster - 1
kmeans_scale$cluster[kmeans_scale$cluster == 0] <- 3

In [89]:
sasdasd <- kmeans_scale$cluster[1]
kmeans_scale$cluster[kmeans_scale$cluster == 1]
classes_res <- result.som$unit.classif[kmeans_scale$cluster[result.som$unit.classif] == wine$Type]
classes_res

result.som$unit.classif[34]
kmeans_scale$cluster[result.som$unit.classif][34]
kmeans_scale$cluster

<b>Purity</b> - miara wskazująca stosunek danych, które zostały przydzielone do takiego samego klastra, co klasa/typ danych (indeks zewnętrzny)


In [78]:
classes_res <- result.som$unit.classif[kmeans_scale$cluster[result.som$unit.classif] == wine$Type]

purity = length(classes_res) / length(wine$Type) 

purity

Widzimy, że purity klasteryzacji jest wysokie, prawie 97% danych zostało przypisane do swojego poprawnego Typu wina.

# Accuracy, Precission i Recall (confusion matrix etc)

Na podstawie : https://danushka.net/lect/dm/Clustering - strona 30

In [114]:
confusion_matrix <- matrix(0,2,2)
confusion_matrix

0,1
0,0
0,0


In [44]:
one_in_one <- length(kmeans_scale$cluster[kmeans_scale$cluster == wine$Type & kmeans_scale$cluster == 1 ])
one_in_two <- length(kmeans_scale$cluster[kmeans_scale$cluster == 2 & wine$Type == 1 ])
one_in_three <- length(kmeans_scale$cluster[kmeans_scale$cluster == 3 & wine$Type == 1 ])
two_in_one <- length(kmeans_scale$cluster[kmeans_scale$cluster == 1 & wine$Type == 2 ])
two_in_two <- length(kmeans_scale$cluster[kmeans_scale$cluster == wine$Type & kmeans_scale$cluster == 2 ])
two_in_three <- length(kmeans_scale$cluster[kmeans_scale$cluster == 3 & wine$Type == 2 ])
three_in_one <- length(kmeans_scale$cluster[kmeans_scale$cluster == 1 & wine$Type == 3 ])
three_in_two <- length(kmeans_scale$cluster[kmeans_scale$cluster == 2 & wine$Type == 3 ])
three_in_three <- length(kmeans_scale$cluster[kmeans_scale$cluster == wine$Type & kmeans_scale$cluster == 3 ])

In [94]:
cluster_one_size <- length(kmeans_scale$cluster[kmeans_scale$cluster == 1])
cluster_two_size <- length(kmeans_scale$cluster[kmeans_scale$cluster == 2])
cluster_three_size <- length(kmeans_scale$cluster[kmeans_scale$cluster == 3])

In [95]:
TPFP <- choose(cluster_one_size, 2) + 
choose(cluster_two_size, 2) + 
choose(cluster_three_size, 2)

TPFP

In [96]:
TP <- choose(one_in_one, 2) + choose(one_in_two, 2) + choose(one_in_three, 2) + 
    choose(two_in_one, 2) + choose(two_in_two, 2) + choose(two_in_three, 2) + 
    choose(three_in_one, 2) + choose(three_in_two, 2) + choose(three_in_three, 2)

TP

In [97]:
FP <- TPFP - TP
FP

In [98]:
TNFN <- cluster_one_size * cluster_two_size + cluster_one_size * cluster_three_size + cluster_two_size * cluster_three_size
TNFN

In [99]:
FN <- one_in_one * one_in_two + one_in_one * one_in_three + one_in_two * one_in_three +
    two_in_two * two_in_one + two_in_two * two_in_three + two_in_one * two_in_three +
    three_in_three * three_in_one + three_in_three * three_in_two + three_in_one * three_in_two

FN


In [100]:
TN <- TNFN - FN
TN

In [101]:
confusion_matrix[1,1] <- TP
confusion_matrix[1,2] <- FN
confusion_matrix[2,1] <- FP
confusion_matrix[2,2] <- TN

confusion_matrix

0,1
4925,399
321,10108


In [102]:
# Rand Index (RI)
RI <- (TP + TN)/(TP+FP+TN+FN)
RI

In [103]:
#Precision
precision <- TP / (TP + FP)
precision

In [104]:
# Recall 
recall <- TP / (TP + FN)
recall

In [105]:
# F-measure
f_measure = 2*precision*recall / (precision+recall)
f_measure

# Podsumowanie

Mapy samoorganizujące się są niezwykle przydatne przy analizie i wizualizacji wielowymiarowych zbiorów danych. Dzięki dostępnym w R pakietom można dokonać jej szybko i łatwo, a wyniki analizy za pomocą kilku komend przedstawić w formie przejrzystych wykresów.

# Wartościowe linki

## SOM

https://cran.r-project.org/web/packages/aweSOM/vignettes/aweSOM.html



## kmeans

https://rstudio-pubs-static.s3.amazonaws.com/542882_1caaeaa4c74945cb87a3483282cc31cd.html

https://www.kaggle.com/xvivancos/tutorial-clustering-wines-with-k-means\

https://www.datanovia.com/en/blog/k-means-clustering-visualization-in-r-step-by-step-guide/