

## 📌 **Principal Component Analysis (PCA) – পূর্ণ গাণিতিক ও প্রাকটিক্যাল ব্যাখ্যা**

### Read Curse of Dimensionality

### 🎯 **PCA কী?**

PCA (Principal Component Analysis) একটি ডাইমেনশন রিডাকশন টেকনিক, যার মাধ্যমে আমরা উচ্চ-ডাইমেনশনের ডেটাকে এমন একটি নিম্ন-ডাইমেনশনাল স্পেস-এ রূপান্তর করি, যেখানে **সর্বাধিক ভ্যারিয়েন্স** ধরে রাখা যায়।

---

### 🧮 **Step 1: ডেটা Standardization**

#### 🔢 **গণিত:**

$$
Z = \frac{X - \mu}{\sigma}
$$

* $X$: মূল ডেটা ম্যাট্রিক্স (আকার: $n \times p$)
* $\mu$: প্রতিটি ফিচারের গড়
* $\sigma$: প্রতিটি ফিচারের স্ট্যান্ডার্ড ডেভিয়েশন

#### 🎲 **উদাহরণ:**

| Sample | X₁ | X₂ |
| ------ | -- | -- |
| 1      | 2  | 3  |
| 2      | 4  | 1  |
| 3      | 6  | 5  |

গড়:

$$
\mu_{X₁} = 4, \quad \mu_{X₂} = 3
$$

স্ট্যান্ডার্ডাইজড ডেটা:

$$
Z = \begin{bmatrix}
\frac{2-4}{\sigma_{X₁}} & \frac{3-3}{\sigma_{X₂}} \\
\frac{4-4}{\sigma_{X₁}} & \frac{1-3}{\sigma_{X₂}} \\
\frac{6-4}{\sigma_{X₁}} & \frac{5-3}{\sigma_{X₂}}
\end{bmatrix}
$$

---

### 🧾 **Step 2: কোভ্যারিয়েন্স ম্যাট্রিক্স নির্ণয়**

#### 🔢 **গণিত:**

$$
\Sigma = \frac{1}{n} Z^T Z
$$

* $\Sigma$: কোভ্যারিয়েন্স ম্যাট্রিক্স (আকার: $p \times p$)

#### 🎯 **উদাহরণ:**

$$
\Sigma = \begin{bmatrix}
\text{Var}(Z₁) & \text{Cov}(Z₁,Z₂) \\
\text{Cov}(Z₂,Z₁) & \text{Var}(Z₂)
\end{bmatrix}
$$

---

### 🔍 **Step 3: আইগেনভ্যালু ও আইগেনভেক্টর নির্ণয়**

#### 🔢 **গণিত:**

$$
\Sigma \mathbf{v} = \lambda \mathbf{v}
$$

* $\lambda$: Eigenvalue
* $\mathbf{v}$: Eigenvector

#### 🧮 **ধাপসমূহ:**

1. Characteristic Equation:

   $$
   \det(\Sigma - \lambda I) = 0
   $$
2. $(\Sigma - \lambda I) \mathbf{v} = 0$ সমাধান করে $\mathbf{v}$ নির্ণয়

#### 🧪 **উদাহরণ:**

$$
\Sigma = \begin{bmatrix} 2 & 1 \\ 1 & 2 \end{bmatrix}
\Rightarrow \lambda = 1, 3
$$

Eigenvectors:

* $\lambda = 3$: $\begin{bmatrix} 1 \\ 1 \end{bmatrix}$
* $\lambda = 1$: $\begin{bmatrix} -1 \\ 1 \end{bmatrix}$

---

### 📊 **Step 4: Principal Components নির্বাচন**

#### 🔢 **গণিত:**

$$
\text{Cumulative Variance} = \frac{\sum_{i=1}^k \lambda_i}{\sum_{i=1}^p \lambda_i}
$$

#### 📌 **উদাহরণ:**

$$
\lambda_1 = 3, \lambda_2 = 1 \Rightarrow \text{Total Variance} = 4
\Rightarrow PC1 = 75\%, \quad PC1 + PC2 = 100\%
$$

---

### 🔄 **Step 5: ডেটা ট্রান্সফর্মেশন**

#### 🔢 **গণিত:**

$$
Y = Z W_k
$$

* $W_k$: টপ $k$ আইগেনভেক্টরের ম্যাট্রিক্স
* $Y$: ট্রান্সফর্মড ডেটা

#### 🧪 **উদাহরণ:**

$$
Y = Z \begin{bmatrix} 1 \\ 1 \end{bmatrix}
$$

---

## 💻 **Python Code: PCA বাস্তবায়ন**

```python
import numpy as np
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

# Step 1: Raw Data
X = np.array([[2, 3], [4, 1], [6, 5]])

# Step 2: Standardization
scaler = StandardScaler()
Z = scaler.fit_transform(X)

# Step 3: PCA
pca = PCA(n_components=1)
X_pca = pca.fit_transform(Z)

# Output
print("🔄 ট্রান্সফর্মড ডেটা:\n", X_pca)
print("📈 এক্সপ্লেইন্ড ভ্যারিয়েন্স রেশিও:", pca.explained_variance_ratio_)
```

**আউটপুট:**

```
🔄 ট্রান্সফর্মড ডেটা:
 [[-1.414]
 [ 0.   ]
 [ 1.414]]
📈 এক্সপ্লেইন্ড ভ্যারিয়েন্স রেশিও: [0.75]
```

---

## 🌐 **Practical Application: PCA কোথায় ব্যবহৃত হয়?**

| ক্ষেত্র             | ব্যবহার                    |
| ------------------- | -------------------------- |
| 🖼️ ইমেজ প্রসেসিং   | ইমেজ কম্প্রেশন             |
| 🧬 বায়োইনফরমেটিক্স | জিন এক্সপ্রেশন রিডাকশন     |
| 📈 ফাইন্যান্স       | স্টক মার্কেট ফিচার রিডাকশন |

---

## ❓ **প্রশ্নোত্তর**

**Q: PCA তে ভ্যারিয়েন্স কেন গুরুত্বপূর্ণ?**
**A:** ভ্যারিয়েন্সই হলো ইনফরমেশনের পরিমাণ, তাই সর্বাধিক ভ্যারিয়েন্স সংরক্ষণ করাই উদ্দেশ্য।

**Q: PCA নন-লিনিয়ার ডেটায় কাজ করে?**
**A:** না, সেখানে **Kernel PCA** ব্যবহার করতে হয়।

**Q: কতোটি PC নির্বাচন করব?**
**A:** এমন সংখ্যা, যা 85-95% ভ্যারিয়েন্স ধরে রাখে; স্ক্রি প্লট দেখে সিদ্ধান্ত নেয়া ভালো।

---

### ✅ **উপসংহার**

PCA একটি শক্তিশালী টুল যা ডেটার কাঠামো বুঝতে এবং ডাইমেনশন রিডাকশনের মাধ্যমে প্রাসঙ্গিক ইনফরমেশন ধরে রাখতে সাহায্য করে। এই গাণিতিক ধাপগুলো অনুসরণ করলে তুমি যেকোনো ডেটাসেট-এ PCA খুব সহজে প্রয়োগ করতে পারো! 🚀



##More on My Hand Note: **ML-5 and ML-6**


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as ex

In [None]:
df=pd.read_csv('/content/Titanic-Dataset.csv')
df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [None]:
df=df.iloc[:,[2,5,6,7,9,1]]
df.head(3)

Unnamed: 0,Pclass,Age,SibSp,Parch,Fare,Survived
0,3,22.0,1,0,7.25,0
1,1,38.0,1,0,71.2833,1
2,3,26.0,0,0,7.925,1


In [None]:
df.dropna(inplace=True)

In [None]:
df.isnull().sum()

Unnamed: 0,0
Pclass,0
Age,0
SibSp,0
Parch,0
Fare,0
Survived,0


#PCA manually

In [None]:
X=df.iloc[:,:5]
y=df['Survived']

In [None]:
#Setp-1:Standardization Scaling
from  sklearn.preprocessing import StandardScaler
ss=StandardScaler()
new_x=ss.fit_transform(X)
new_x

array([[ 0.91123237, -0.53037664,  0.52457013, -0.50589515, -0.51897787],
       [-1.47636364,  0.57183099,  0.52457013, -0.50589515,  0.69189675],
       [ 0.91123237, -0.25482473, -0.55170307, -0.50589515, -0.50621356],
       ...,
       [-1.47636364, -0.73704057, -0.55170307, -0.50589515, -0.08877362],
       [-1.47636364, -0.25482473, -0.55170307, -0.50589515, -0.08877362],
       [ 0.91123237,  0.15850313, -0.55170307, -0.50589515, -0.50952283]])

In [None]:
#step2: Co-Varinace Matrix
cov=np.cov(new_x.T)

In [None]:
#setp3: Eigen value and Eigen Vector
eig=np.linalg.eig(cov)
eig

EigResult(eigenvalues=array([1.74380104, 1.6159263 , 0.36447732, 0.69209424, 0.59071373]), eigenvectors=array([[-0.62133317,  0.2742927 , -0.71116258, -0.16677988,  0.0716998 ],
       [ 0.54592049,  0.19719823, -0.28190116, -0.66731845, -0.37188909],
       [-0.31151744, -0.53986787, -0.02187925,  0.03015686, -0.7810963 ],
       [-0.20582771, -0.56301483,  0.15922655, -0.64819931,  0.44173954],
       [ 0.42012825, -0.52671942, -0.62365674,  0.32526724,  0.2265224 ]]))

In [None]:
eig.eigenvalues

array([1.74380104, 1.6159263 , 0.36447732, 0.69209424, 0.59071373])

In [None]:
#step4:Choose No. of Principle Component(PC)
W=eig.eigenvectors[:2,]
W

array([[-0.62133317,  0.2742927 , -0.71116258, -0.16677988,  0.0716998 ],
       [ 0.54592049,  0.19719823, -0.28190116, -0.66731845, -0.37188909]])

In [None]:
#setp5: Projection of Scaled Data on PCs
pca_matrix=np.dot(new_x,np.transpose(W))
pca_matrix

array([[-1.03754947,  0.77558953],
       [ 0.83509012, -0.76080572],
       [-0.19564717,  1.12858364],
       ...,
       [ 1.18550751, -0.42518742],
       [ 1.3177758 , -0.33009531],
       [-0.08251163,  1.21132184]])

In [None]:
New_df=pd.DataFrame(pca_matrix,columns=['pc1','pc2'])
New_df['Survived']=y
New_df.head()


#5D to 2D te converted

Unnamed: 0,pc1,pc2,Survived
0,-1.037549,0.77559,0.0
1,0.83509,-0.760806,1.0
2,-0.195647,1.128584,1.0
3,0.75375,-0.673686,1.0
4,-0.025418,1.249966,0.0


In [None]:
New_df.isnull().sum()

Unnamed: 0,0
pc1,0
pc2,0
Survived,147


In [None]:
ex.scatter_3d(X,x='Age',y='Fare',z='Pclass',color=df['Survived'].astype('str'))

In [None]:
ex.scatter(New_df,x='pc1',y='pc2',color=New_df['Survived'].astype('str'))