Skip to content

Latest commit

 

History

History
38 lines (26 loc) · 5.17 KB

data-mining.md

File metadata and controls

38 lines (26 loc) · 5.17 KB

ডাটা মাইনিং

এতদিন শুনেছেন খনি খুরে শুধু দামি দামি জিনিসপত্র তুলে আনা হয়। তাই মাইনিং মানেই মনে হয় যে - অনেক মূল্যবান সম্পদ আহরণের কথা বলা হচ্ছে। বাস্তবে যেমন সাধারণ দেখতে একটা মরুভূমির অতল গহিনে জমে থাকতে পারে তেল, কয়লা, সোনা সহ আরও নানা রকম মহা মূল্যবান জিনিষ পত্র। তেমনি অগোছালো ডাটার মধ্যেও লুকিয়ে থাকতে পারে খুবি মূল্যবান কোন তথ্য। তাই এই বিজ্ঞানে এটাকেও মাইনিং বলা হয়।

ডাটা সায়েন্স এর সাথে ডাটা মাইনিং ওতপ্রোতভাবে জড়িত এবং একটা আরেকটার পরিপূরক। তাই এই অবস্থায় ডাটা মাইনিং এর প্রসঙ্গ নিয়ে আসা।

যাই হোক, ডাটা মাইনিং এর পুঁথিগত সংজ্ঞা হচ্ছে এরকম - "Extraction of interesting (non‐trivial, implicit, previously unknown and  potentially useful) patterns or knowledge from huge amount of data."

বুঝতে পারছি :)

এর অনেক বিকল্প নামও থাকতে পারে যেগুলো শুনে ঘাবড়ানোর কিছু নাই। যেমন - Knowledge discovery (mining) in databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information  harvesting, business intelligence ইত্যাদি। এখন বুঝলেন তো? সব হচ্ছে নামের বাহার। ঘটনা তেমন কিছু না।

KDD বা নলেজ ডিসকভারি প্রসেস

এই প্রসেসের কিছু গুরুত্ব পূর্ণ ধাপের বর্ণনা নিচে দেয়া হল -

প্রথমেই কোন ডাটাবেইজ থেকে ডাটা উদ্ধার করা হবে ->
অতঃপর সেই ডাটা গুলোকে ক্লিন করা হবে অর্থাৎ ডাটার মধ্যেকার ভুল, মিসিং ডাটা ইত্যাদি ঠিক ঠাক করা হবে ->
এরপর সেই পরিষ্কার ডাটা কে ডাটা অয়্যারহাউজে জমা করা হবে অর্থাৎ যেখান থেকে পরবর্তী ধাপে ব্যবহার করা যাবে ->
এরপর ওই ডাটা স্টোর থেকে শুধুমাত্র আমাদের উদ্দেশ্য সাধনের প্রেক্ষিতে যে ডাটা গুলো লাগবে সেগুলোকে বেছে নেয়া হবে যাকে বলে টাস্ক রেলিভেন্ট ডাটা বেছে নেয়া ->
এরপর বস্তুত ডাটা মাইনিং ঘটে বিভিন্ন অ্যালগরিদম বা টেকনিকের মাধ্যমে ->
শেষে যে প্যাটার্ন বা মূল্যবান তথ্য পাওয়া যাবে সেটাকে এভালুয়েট বা বিচার/পর্যবেক্ষণ করা হবে

কি করছি
ডাটার ভিউ মানে হচ্ছে - কি ডাটা নিয়ে কাজ করছি তা ঠিক থাকতে হবে, কি নলেজ (সম্পদ) উদ্ধার করার জন্য কাজে নামলাম সেটা ঠিক থাকতে হবে, কি টেকনিক আপ্লাই করে এই কর্ম সম্পাদন করা হবে তাও ঠিক রাখতে হবে এবং কোন সেক্টরে এই উদ্ধারকৃত সম্পদ কাজে লাগানো হবে সেটাও পরিষ্কার থাকতে হবে।

ডাটা মাইনিং ফাংশন
১) জেনারেলাইজেশন - ডাটা ক্লিনিং, ট্রান্সফরমেশন, ইন্টিগ্রেশন বা ডাটা অয়্যারহাউজ তৈরি ইত্যাদি কাজ ২) প্যাটার্ন ডিসকভারি ৩) ক্লাসিফিকেশন ৪) ক্লাস্টার অ্যানালাইসিস ৫) আউটলায়ার এনালাইসিস ৬) টাইম ও অর্ডারিং ৭) স্ট্রাকচার এনালাইসিস