AgglomerativeHierarchicalClusterFromScratching

Agglomerative hierarchical clustering algorithm from scratch (i.e. without advance libraries such as Numpy, Pandas, Scikit-learn, etc.)

Algorithm

During the clustering process, we iteratively aggregate the most similar two clusters, until there are $K$ clusters left. For initialization, each data point forms its own cluster.

Cluster similarity measures

The similarity of two clusters $C_i, C_j$ is determined by a distance measure.

Single link

Complete_link

Average link

The smaller the distance is, the more similar the two clusters are. In the equations d(), is a distance measure between two data points, i.e. Euclidean distance, defined by: where p_i, q_i are dimensions of p, q

Sample usage

python main.py -d sample_input.txt -k 4 -m 0

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
README.md		README.md
clustering_algorithm.py		clustering_algorithm.py
main.py		main.py
measures.py		measures.py
sample_input.txt		sample_input.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

AgglomerativeHierarchicalClusterFromScratching

Algorithm

Cluster similarity measures

Single link

Complete_link

Average link

Sample usage

About

Languages

OlaPietka/Agglomerative-Hierarchical-Clustering-from-scratch

Folders and files

Latest commit

History

Repository files navigation

AgglomerativeHierarchicalClusterFromScratching

Algorithm

Cluster similarity measures

Single link

Complete_link

Average link

Sample usage

About

Topics

Resources

Stars

Watchers

Forks

Languages