### Review Machine Learning

> * Tujuan dari machine learning adalah untuk melakukan optimasi pada objective function.
> * Terdapat dua kategori dari optimasi, yaitu:
    1. First order (first derivative/gradient)
    2. Seconda  order (second derivatice in the scalar case)
> * Keduanya melakukan compute loss function dengan meminimalisasi perbedaan antara `real label` terhadap `predicted label` value melalu convex optimization (contoh : gradient descent, newton's method)

###### How about unlabeled data?

<img src="https://s-media-cache-ak0.pinimg.com/736x/8b/23/3e/8b233e2d7f26b00d0c594894917a127b--supervised-learning-variables.jpg" width=500/>

<img src="https://image.slidesharecdn.com/summit2014presentationfinal-141031070327-conversion-gate02/95/set-your-content-straight-28-638.jpg?cb=1414739431" width=500/>

> Clustering - Merupakan type unsupervised learning yang terkenal. Dalam clustering algorithm akan mencoba untuk mencari `natural groupings` dalam data. Points data yang serupa (menurut beberapa kesamaan) akan dianggap dalam satu kelompok yang sama, dan kelompok ini yang dinamakan sebagai clusters.

# K-Mean Clustering

K-mean clustering adalah salah satu "unsupervised machine learning algorithms" yang paling sederhana dan populer. Tujuan dari algoritma ini adalah uuk menemukan group dalam data, dengan jumlah group yang diwakili oleh variable ```K```. Variable ```K``` sendiri adalah jumlah cluster yang diinginkan.

### Proses K-Mean Clustering
![kmean](http://konukoii.com/blog/wp-content/uploads/2017/01/RunyanKmeans.gif "Kmean process")

Untuk memproses data algoritma K-means Clustering, data dimulai dengan kelompok pertama centroid yang dipilih secara acak, yang digunakan sebagai titik awal untuk setiap cluster, dan kemudian melakukan perhitungan berulang untuk mengoptimalkan posisi centroid.

```
    input: K, set of points (x1 ... xn)
    place centroids c1 .. ck at random locations
    repeat until convergence:
        for each point xi:
            * find nearest centroid cj
            * assign the point ci to cluster j
        for each cluster j = 1 ... k:
            * new centroid cj= mean of all points xi assigned to cluster j in previous step
    stop when non of the cluster assignments change
```
Proses akan berhenti mengoptimalkan cluster ketika:
1. Centroid telah stabil-tidak ada perubahan dalam nilai-nilai mereka karena pengelompokan telah berhasil.
2. Jumlah iterasi yang ditentukan telah tercapai.

#### Menentukan K terbaik

1. Jika kita telaah mengetahui kelas yang diinginkan, maka itu lah yang akan menjadi K.
2. Jika tidak maka `Elbow` method menjadi salah satu jalan yang popular digunakan.
<img src="https://cdn-images-1.medium.com/max/1600/0*jWe7Ns_ubBpOaemM.png" width=500/>
Elbow method mencari nilai K terbaik dengan cara mecoba K-means clustering terhadap dataset dengan range value dari K (Kita ambil contoh, K mulai dari 1 sampai 10), dan untuk setiap value dari K dihitung jumlah dari hasil akar error (SSE), yaitu:

```
   var sse = {};
   for 9var k = 1; k <= maxK; ++k) {
       sse[k] = 0;
       clusters = kmeans(dataser, k);
       clusters.forEach(function(cluster) {
           mean = clusterMean(cluster);
           cluster.forEach(function(datapoint) {
               sse[k] += Math.pow(datapoint - mean, 2);
           });
        });
   }
```
Setelah SSE dari setiap K value, lakukan line plot. Jika line chart yang dihasilkan berbentuk menyerupai lengan, maka bagian "elbow" dari lengan merupakan best value untuk dijadikan `K`.

#### Bagaimana jarak antara centroids dan data points diukur?

Jawabannya adalah `Euclidean Distance`. Karena K-Means meminimalkan varians dalam cluster dan jika kita lihat definisi dari varians, itu identik dengan jumlah jarak euclidean kudrat dari pusat.

### Kapan K-Means Dapat digunakan?

- Data yang dimiliki adalah numerik. 
- Jika label dari data yang dimiliki tidak diketahui.
- Berguna ketika diketahui berapa banyak clusters yang sebenarnya muncul pada space yang diinginkan.
- Ketika data yang dimiliki meruaak `multivariate data`. dapat diterakan pada data 1 dimensi namun tidak akan terlalu cerdas lagi.

### Hasil dari K-Mean Clustering
1. Centroid dari cluster K, yang dapat digunakan untuk memberi label data baru.
2. Label untuk data pelatihan (setiap titik data ditugaskan satu cluster)

<img src="https://i.stack.imgur.com/cIDB3.png"/>

###### <> Load Hough Circle Transform

In [1]:
%run ./aiko_circle_detection.ipynb

HT is Ready!


In [7]:
try:
    ht_result = [pd.read_excel('Result/Result.xlsx'), 0]
except:
    ht_result = ht_main()

In [8]:
time_spent = ht_result[1]/60

print("Time spent for Hough Circle Transform =", time_spent, "mins")

Time spent for Hough Circle Transform = 0.0 mins


In [9]:
ht_result[0]

Unnamed: 0,Data Kayu,Detected Circle,Radius Avg,Circle Density
0,10E1P451 (1).jpg,165,46.951515,0.000649
1,10E1P451 (2).jpg,169,48.035503,0.00068
2,10E1P451 (3).jpg,166,46.795181,0.00065
3,12073 (1).jpg,36,69.805556,0.000275
4,12073 (2).jpg,38,66.552632,0.000277
5,12073 (3).jpg,39,67.948718,0.00029
6,14734 (1).jpg,115,38.521739,0.000484
7,14734 (2).jpg,121,38.247934,0.000506
8,14734 (3).jpg,125,38.168,0.000522
9,19081 (1).jpg,91,66.934066,0.000666


### Import Useful Library

In [75]:
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.animation as animation

In [76]:
def load_dataset(name):
    return np.loadtxt(name)

In [77]:
def euclidian(a, b):
    return np.linalg.norm(a-b)

In [78]:
def plot(dataset, history_centroids, belongs_to):
    colors = ['w', 'g', 'r', 'k', 'm', 'y']

    fig, ax = plt.subplots()

    for index in range(dataset.shape[0]):
        instances_close = [i for i in range(len(belongs_to)) if belongs_to[i] == index]
        for instance_index in instances_close:
            ax.plot(dataset[instance_index][0], dataset[instance_index][1], (colors[index] + 'o'))

    history_points = []
    for index, centroids in enumerate(history_centroids):
        for inner, item in enumerate(centroids):
            if index == 0:
                history_points.append(ax.plot(item[0], item[1], 'bo')[0])
            else:
                history_points[inner].set_data(item[0], item[1])
                print("centroids {} {}".format(index, item))

                plt.pause(0.8)

In [79]:
def kmeans(k, epsilon=0, distance='euclidian'):
    history_centroids = []
    if distance == 'euclidian':
        dist_method = euclidian
    dataset = load_dataset('cek1.txt')
    # dataset = dataset[:, 0:dataset.shape[1] - 1]
    num_instances, num_features = dataset.shape
    prototypes = dataset[np.random.randint(0, num_instances - 1, size=k)]
    history_centroids.append(prototypes)
    prototypes_old = np.zeros(prototypes.shape)
    belongs_to = np.zeros((num_instances, 1))
    norm = dist_method(prototypes, prototypes_old)
    iteration = 0
    while norm > epsilon:
        iteration += 1
        norm = dist_method(prototypes, prototypes_old)
        prototypes_old = prototypes
        for index_instance, instance in enumerate(dataset):
            dist_vec = np.zeros((k, 1))
            for index_prototype, prototype in enumerate(prototypes):
                dist_vec[index_prototype] = dist_method(prototype, instance)

            belongs_to[index_instance, 0] = np.argmin(dist_vec)

        tmp_prototypes = np.zeros((k, num_features))

        for index in range(len(prototypes)):
            instances_close = [i for i in range(len(belongs_to)) if belongs_to[i] == index]
            prototype = np.mean(dataset[instances_close], axis=0)
            # prototype = dataset[np.random.randint(0, num_instances, size=1)[0]]
            tmp_prototypes[index, :] = prototype

        prototypes = tmp_prototypes

        history_centroids.append(tmp_prototypes)

    return prototypes, history_centroids, belongs_to

In [83]:
def execute():
    dataset = load_dataset('cek1.txt')
    centroids, history_centroids, belongs_to = kmeans(6)
    plot(dataset, history_centroids, belongs_to)
    return centroids, history_centroids, belongs_to

In [84]:
%matplotlib notebook
centroids, history_centroids, belongs_to = execute()

<IPython.core.display.Javascript object>

centroids 1 [79.66666667 62.88432995]
centroids 1 [120.33333333  38.31255767]
centroids 1 [31.47058824 55.42071737]
centroids 1 [109.33333333  28.62028162]
centroids 1 [101.          32.75864398]
centroids 1 [166.66666667  47.26073294]
centroids 2 [79.66666667 62.88432995]
centroids 2 [120.33333333  38.31255767]
centroids 2 [31.47058824 55.42071737]
centroids 2 [107.2         28.12203949]
centroids 2 [98.         38.14261168]
centroids 2 [166.66666667  47.26073294]
centroids 3 [79.66666667 62.88432995]
centroids 3 [120.33333333  38.31255767]
centroids 3 [31.47058824 55.42071737]
centroids 3 [107.2         28.12203949]
centroids 3 [98.         38.14261168]
centroids 3 [166.66666667  47.26073294]
centroids 4 [79.66666667 62.88432995]
centroids 4 [120.33333333  38.31255767]
centroids 4 [31.47058824 55.42071737]
centroids 4 [107.2         28.12203949]
centroids 4 [98.         38.14261168]
centroids 4 [166.66666667  47.26073294]


In [85]:
belongs_to

array([[5.],
       [5.],
       [5.],
       [2.],
       [2.],
       [2.],
       [1.],
       [1.],
       [1.],
       [0.],
       [0.],
       [0.],
       [0.],
       [4.],
       [2.],
       [2.],
       [2.],
       [2.],
       [2.],
       [2.],
       [2.],
       [2.],
       [2.],
       [2.],
       [0.],
       [0.],
       [2.],
       [0.],
       [0.],
       [0.],
       [3.],
       [3.],
       [4.],
       [3.],
       [3.],
       [3.],
       [2.],
       [2.],
       [2.]])

In [87]:
dataset = load_dataset('cek1.txt')
dataset

array([[165.        ,  46.95151515],
       [169.        ,  48.03550296],
       [166.        ,  46.79518072],
       [ 36.        ,  69.80555556],
       [ 38.        ,  66.55263158],
       [ 39.        ,  67.94871795],
       [115.        ,  38.52173913],
       [121.        ,  38.24793388],
       [125.        ,  38.168     ],
       [ 91.        ,  66.93406593],
       [ 87.        ,  66.73563218],
       [ 72.        ,  58.36111111],
       [ 76.        ,  52.42105263],
       [ 99.        ,  47.66666667],
       [ 53.        ,  44.79245283],
       [ 23.        ,  23.        ],
       [ 19.        ,  23.10526316],
       [ 18.        ,  23.83333333],
       [ 25.        ,  63.68      ],
       [ 30.        ,  58.33333333],
       [ 34.        ,  56.88235294],
       [ 36.        ,  58.25      ],
       [ 39.        ,  65.53846154],
       [ 31.        ,  66.67741935],
       [ 67.        ,  62.68656716],
       [ 69.        ,  61.76811594],
       [ 22.        ,  22.59090909],
 