

# 📘 **Machine Learning Algorithms – সম্পূর্ণ নোট (Banglish Version)**

**Machine Learning (ML)** হচ্ছে এমন কিছু গণনাকৌশল যা ডেটা থেকে প্যাটার্ন শিখে ভবিষ্যদ্বাণী বা সিদ্ধান্ত নিতে পারে—এক্সপ্লিসিট প্রোগ্রামিং ছাড়া। এটি মূলত চারটি শ্রেণিতে ভাগ করা হয়:

> 🔹 Supervised
> 🔹 Unsupervised
> 🔹 Semi-Supervised
> 🔹 Reinforcement Learning

---

## 🔵 **1. Supervised Learning**

*(লেবেলযুক্ত ডেটা → আউটপুট প্রেডিক্ট করা)*
Classification এবং Regression কাজে ব্যবহৃত হয়।

### 🅐 **Classification**

* **Logistic Regression**: Binary outcome প্রেডিক্ট করে (e.g., yes/no)।
* **Decision Trees**: ডেটাকে শাখায় ভাগ করে (উদাহরণ: C4.5, CART)।
* **Random Forest**: Decision tree-এর ensemble (overfitting কমায়)।
* **Support Vector Machines (SVM)**: ক্লাস আলাদা করতে optimal hyperplane খোঁজে।
* **k-Nearest Neighbors (k-NN)**: আশেপাশের ডেটার nearest values দেখে classify করে।
* **Naïve Bayes**: Bayes’ theorem এবং feature independence ধরে কাজ করে।

---

### 🅑 **Regression**

* **Linear Regression**: ডেটার মাঝে সরল রিলেশন ফিট করে (e.g., Ordinary Least Squares)।
* **Ridge/Lasso Regression**: Overfitting কমাতে যথাক্রমে L2 এবং L1 regularization যোগ করে।
* **Gradient Boosting Machines (GBM)**: ধাপে ধাপে tree তৈরি করে শেখে (উদাহরণ: XGBoost, LightGBM)।

---

## 🟣 **2. Unsupervised Learning**

*(লেবেল ছাড়া ডেটা → গঠন বা প্যাটার্ন বের করা)*

### 🅐 **Clustering**

* **k-Means**: ডেটাকে k টি ক্লাস্টারে ভাগ করে।
* **Hierarchical Clustering**: Tree structure (agglomerative বা divisive) ব্যবহার করে ক্লাস্টার করে।
* **DBSCAN**: Density-এর উপর ভিত্তি করে ক্লাস্টার তৈরি করে এবং outlier সামলায়।

### 🅑 **Dimensionality Reduction**

* **PCA (Principal Component Analysis)**: ডেটাকে নতুন orthogonal axes-এ প্রজেক্ট করে।
* **t-SNE**: High-dimensional ডেটার জন্য non-linear visualization।

### 🅒 **Association Rules**

* **Apriori Algorithm**: ডেটায় প্রায়শই একসাথে থাকা itemsets খুঁজে (e.g., Market Basket Analysis)।

---

## 🟡 **3. Semi-Supervised Learning**

*(লেবেলযুক্ত ও আনলেবেলড ডেটার সংমিশ্রণ)*

* **Self-Training**: Labelled ডেটা ব্যবহার করে unlabeled ডেটাকে pseudo-label দেয়।
* **Generative Adversarial Networks (GANs)**: Synthetic labelled ডেটা তৈরি করে শেখায়।

---

## 🔴 **4. Reinforcement Learning (RL)**

*(Agent শেখে পুরস্কার বা শাস্তির মাধ্যমে)*

* **Q-Learning**: Q-value টেবিল ব্যবহার করে শেখে (model-free)।
* **Deep Q-Networks (DQN)**: Q-learning + deep neural networks একত্রে ব্যবহার করে।
* **Policy Gradient Methods**: সরাসরি পলিসি optimize করে (e.g., REINFORCE)।

---

## 🟢 **5. Neural Networks & Deep Learning**

*(বহু-স্তরবিশিষ্ট আর্কিটেকচার)*

* **Feedforward Neural Networks (FNN)**: Input → Hidden → Output layer সহ সাধারণ NN।
* **Convolutional Neural Networks (CNN)**: Image/video data-এর জন্য উপযোগী (e.g., ResNet)।
* **Recurrent Neural Networks (RNN)**: Time series বা sequential ডেটার জন্য (e.g., LSTM, GRU)।
* **Transformers**: Self-attention ভিত্তিক model (e.g., BERT, GPT)।

---

## 🟠 **6. Ensemble Methods**

*(একাধিক মডেল একত্রে ব্যবহারে পারফরমেন্স বাড়ানো)*

* **Bagging**: Parallel ট্রেইনিং (e.g., Random Forest)।
* **Boosting**: Sequential ট্রেইনিং (e.g., AdaBoost, XGBoost)।
* **Stacking**: Multiple model-এর প্রেডিকশন ব্যবহার করে meta-model তৈরি করে।

---

## 🧠 **Algorithm বাছাই করার সময় গুরুত্বপূর্ণ বিষয়সমূহ**

| বিষয়                    | বিবরণ                                                                         |
| ----------------------- | ----------------------------------------------------------------------------- |
| **Problem Type**        | Classification, Regression, Clustering ইত্যাদি বুঝে অ্যালগরিদম বেছে নিতে হবে। |
| **Data Size & Quality** | বড় ডেটার ক্ষেত্রে SVM এর মতো কিছু অ্যালগরিদম স্লো হতে পারে।                   |
| **Interpretability**    | Linear models সহজে ব্যাখ্যা করা যায়; Deep Learning অনেকটা "Black Box"।        |
| **Training Time**       | Deep Learning ট্রেইনিংয়ে বেশি সময় ও কম্পিউটিং রিসোর্স লাগে।                   |

---

## ⚙️ **Popular Libraries/Frameworks**

| লাইব্রেরি                | কাজ                                   |
| ------------------------ | ------------------------------------- |
| **Scikit-learn**         | Traditional machine learning (Python) |
| **TensorFlow / PyTorch** | Deep learning & neural networks       |
| **XGBoost / LightGBM**   | High-performance gradient boosting    |





## 🔵 ১. **Supervised Learning**

### 🟩 Regression (সংখ্যাগত ভবিষ্যদ্বাণী)

* **Linear Regression**
* **Ridge / Lasso Regression**
* **Polynomial Regression**
* **Support Vector Regression (SVR)**
* **Decision Tree Regressor**
* **Random Forest Regressor**
* **Gradient Boosting Regressor (XGBoost, LightGBM, etc.)**

### 🟦 Classification (লেবেল ভিত্তিক শ্রেণিবিন্যাস)

* **Logistic Regression**
* **K-Nearest Neighbors (KNN)**
* **Decision Tree Classifier**
* **Random Forest Classifier**
* **Naive Bayes**
* **Support Vector Machine (SVM)**
* **Gradient Boosting Classifier (XGBoost, CatBoost, etc.)**

---

## 🟠 ২. **Unsupervised Learning**

### 🔹 Clustering

* **K-Means Clustering**
* **Hierarchical Clustering**
* **DBSCAN**

### 🔹 Dimensionality Reduction

* **Principal Component Analysis (PCA)**
* **t-SNE**
* **UMAP**

### 🔹 Association Rule Learning

* **Apriori**
* **Eclat**

---

## 🟣 ৩. **Semi-Supervised Learning**

* প্যাকেট লেবেলড এবং আনলেবেলড ডেটার সমন্বয়।
* Example: Label Spreading, Self-training Classifier

---

## 🔴 ৪. **Reinforcement Learning (RL)**

* **Q-Learning**
* **Deep Q Network (DQN)**
* **Policy Gradient Methods**
* **Actor-Critic Methods**

---

## 🟢 ৫. **Neural Networks (Deep Learning)**

### 🔹 Basic

* **Perceptron**
* **Multi-layer Perceptron (MLP)**

### 🔹 Computer Vision

* **Convolutional Neural Network (CNN)**

### 🔹 NLP / Time Series

* **Recurrent Neural Network (RNN)**
* **LSTM / GRU**
* **Transformer / BERT**

---

## 🧠 Frequently Used Libraries (Python)

| কাজ               | লাইব্রেরি                         |
| ----------------- | --------------------------------- |
| Basic ML          | `scikit-learn`                    |
| Deep Learning     | `TensorFlow`, `Keras`, `PyTorch`  |
| Gradient Boosting | `XGBoost`, `LightGBM`, `CatBoost` |
| NLP               | `spaCy`, `nltk`, `transformers`   |
| Clustering & PCA  | `scikit-learn`, `UMAP`, `hdbscan` |

---

## ✅ কোথা থেকে শুরু করবো?

যদি তুমি বিগিনার হও:

* **Classification: Logistic Regression, KNN, Decision Tree**
* **Regression: Linear Regression**
* **Unsupervised: K-Means, PCA**



# Simple Linear Regression Implemented my handsOn

In [None]:
class myLR:
  def __init__(self):
    self.m=None
    self.b=None

  def fit(self,X_train,y_train):
    num=0
    den=0

    for i in range(X_train.shape[0]):
      num+= ((y_train[i]-y_train.mean()) * (X_train[i]-X_train.mean()))
      den+= (X_train[i]-X_train.mean())**2

    self.m=num/den
    self.b= y_train.mean()-(self.m*X_train.mean())

    print(f'Slop (m):{self.m} and y-intercept (b):{self.b}')

  def predict(self,X_test):
    y=self.m*X_test+self.b
    print(f'Predicted value :{y}')


In [None]:
import numpy as np
import pandas as pd

In [None]:
df=pd.read_csv('/content/placement.csv')
df.head()

Unnamed: 0,cgpa,package
0,6.89,3.26
1,5.12,1.98
2,7.82,3.25
3,7.42,3.67
4,6.94,3.57


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   cgpa     200 non-null    float64
 1   package  200 non-null    float64
dtypes: float64(2)
memory usage: 3.3 KB


In [None]:
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(df['cgpa'].values,df['package'].values,test_size=0.2,random_state=2)#.values cause our model need values not Series/Dataframe
X_train

array([7.14, 8.93, 5.42, 5.1 , 7.77, 6.76, 6.89, 6.68, 7.91, 7.89, 8.71,
       7.95, 6.61, 6.26, 6.53, 6.42, 5.11, 6.09, 6.93, 7.04, 5.94, 6.05,
       5.83, 5.95, 9.31, 5.58, 7.88, 6.13, 7.76, 4.85, 6.19, 8.6 , 6.07,
       7.18, 5.12, 7.39, 8.25, 8.28, 7.13, 7.35, 5.66, 5.99, 8.01, 7.14,
       6.34, 6.89, 5.42, 6.47, 7.69, 7.4 , 7.28, 5.95, 7.38, 6.93, 8.99,
       7.36, 7.08, 5.38, 7.56, 8.22, 5.84, 6.78, 7.19, 7.28, 6.79, 6.12,
       6.85, 8.2 , 6.84, 7.37, 6.22, 6.61, 5.23, 7.21, 6.85, 6.19, 7.3 ,
       6.17, 5.89, 8.09, 7.11, 4.26, 6.94, 5.98, 6.71, 7.33, 9.06, 6.1 ,
       5.48, 6.1 , 7.56, 7.29, 5.84, 7.48, 7.61, 5.79, 5.61, 7.34, 9.38,
       7.91, 6.94, 7.94, 8.31, 6.96, 6.93, 7.11, 8.44, 8.18, 6.66, 8.44,
       7.12, 6.3 , 5.84, 6.98, 7.63, 5.64, 7.43, 8.87, 7.84, 5.84, 9.58,
       8.37, 7.63, 6.31, 6.5 , 8.11, 6.07, 4.73, 7.3 , 6.51, 7.28, 6.92,
       6.35, 8.62, 7.05, 9.26, 6.33, 6.22, 6.94, 5.13, 8.13, 5.9 , 9.04,
       6.06, 7.57, 8.1 , 9.16, 5.84, 7.89, 6.63, 7.

In [None]:
mylr=myLR()

In [None]:
mylr.fit(X_train,y_train)

Slop (m):0.5579519734250721 and y-intercept (b):-0.8961119222429152


In [None]:
mylr.predict(X_test[0])

Predicted value :3.891116009744203
