Ankus is an open source data mining / machine learning based MapReduce that supports a variety of advanced algorithms. Apache Mahout have the same goal with us, Mahout complicated convert to Sequence files and configure parameters for a wide variety of machine learning algorithms. But as Ankus can see below, Almost do not need to generate input dataset POV(Point of view) analysis as set up a variety of custom parameters Focus on the pre-processing as normalization dataset
OUR GOAL is, machine learning and data mining library on top of Apache Hadoop using the map/reduce paradigm. And they are an open source project.
ankus 0.1 - current stable version
ankus 0.0.1 - first stable version but missing ID3, EM, Content based Similarity modules.
- Classification - ID3
- Clustering - EM
- Similarity - Content based Similarity
- Recommendation System - Item based recommendation
- Recommendation verify module(use RMSE)
- Basic statistics computation for numeric/nominal data (3 methods)
- Pre-processing (Normalization, 1 method)
- Similarity/correlation analysis for vector type data (3 methods)
- Classification/clustering analysis (3 methods)
- CF based recommendation analysis (4 methods)
- Can use without input-file conversion
- Support various parameters for algorithms
- Support basic statistics and pre-processing methods
- Support attributes selection for analysis
Join community forum!
https://www.facebook.com/groups/openankus
Join facebook page!
https://www.facebook.com/openankus
Only download jar files
https://sourceforge.net/projects/ankus/files/?source=navbar
Demo video
http://youtu.be/gx8i4X82QfQ
Apache License 2.0
Ankus는 Hadoop MapReduce 기반 환경에서 운용할 수 있는 데이터 마이닝/기계학습 라이브러리 입니다. Apache Mahout과 동일한 목적이나 Mahout은 Sequence 파일로의 변환과 다양한 분석 실험을 위한 파라미터들의 설정이 복잡하고, 접근방법이 어렵습니다. 반면 Ankus는 분석 수행 관점에서 아래와 같이 사용이 가능합니다.
- 입력 파일을 별도의 변환 없이 그대로 사용 가능
- 다양한 파라미터들을 설정하여 여러 관점에서 분석 가능
- 정규화 같은 입력 값의 전처리 등을 수행 할 수 있도록 하는데 더 중점을 둠
빅데이터 환경에서 그동안 어려웠던 마이닝/기계학습 분석을 더욱 쉽게 분석해볼 수 있는 오픈소스 라이브러리입니다.