# What is Feature Transformation?

Feature transformation is a mathematical transformation in which we apply a mathematical formula to a particular column (feature) and transform the values, which are useful for our further analysis. It is a technique by which we can boost our model performance.In practice, we often encounter different types of variables in the same dataset. A significant issue is that the range of the variables may differ a lot. Using the original scale may put more weight on the variables with a large range. In order to deal with this problem, we need to apply the technique of features rescaling to independent variables or features of data in the step of data pre-processing. The terms normalization and standardization are sometimes used interchangeably, but they usually refer to different things.<br>

The goal of applying Feature Scaling is to make sure features are on almost the same scale so that each feature is equally important and makes it easier to process by most ML algorithms.<br>
মূলত আমাদের যখন কোন বড় মানকে ছোট অথবা ছোট মানকে বড় করার প্রয়োজন হয় আমাদের ডাটা সেটের তখন আমরা এই ফিচার স্কেলিংটা ব্যবহার করি।<br>

Techniques to Scaling:<br>

1.Normalization:নরমালাইজারারের মাধ্যমে এ ভ্যারিয়েবলের ম্যাক্সিমাম এবং মিনিমাম ভ্যালু ব্যবহার করে স্কেলিং করা হয় , এর ফলে সকল ডেটাই একটি নির্দিষ্ট রেঞ্জের ভেতর নরমালাইজড অবস্থায় চলে আসে।  এই পদ্ধতিতে প্রতিটি ডেটাকে তার  মিনিমাম ভ্যালুর সাথে (উক্ত ভ্যারিয়েবলের) বিয়োগ করা হয় , উক্ত বিয়োগফলকে রেঞ্জ দ্বারা ভাগ করা হয়। এভাবেই প্রতিটি ডেটা স্কেলাইজড হয়। নিচের সমীকরন ব্যবহার করে মিন-ম্যাক্স নরমালাইজার করা হয়। <br>
![image-2.png](attachment:image-2.png) <br>


2.Standardization:স্ট্যান্ডার্ড স্কেলার ডেটাসেটকে স্ট্যান্ডার্ডাইজেশন করে। নিচের সমীকরণ অনুযায়ী স্ট্যান্ডার্ড স্কেলার কাজ করে এবং ডেটাসেটের ভ্যালু গুলো স্ট্যান্ডার্ড  ফর্মে পরিবর্তিত হয়ে যায়। কোন ডেটা ও উক্ত ভ্যারিয়েবলের গড় মানের বিয়োগফলকে তাদের স্ট্যান্ডার্ড ডেভিয়েশন দ্বারা ভাগ করে  স্ট্যান্ডার্ডাইজেশন  করা হয়।  ![image-3.png](attachment:image-3.png)<br>  


3.Max Absolute Scaler: It takes the absolute maximum value of each  column and divides each value in the column by the maximum value.![image-5.png](attachment:image-5.png)<br>


4.Robust Scaler: রোবাস্ট স্কেলার অনেকটা মিন-ম্যাক্স স্কেলারের মতই, এখানে মিনিমাম এবং ম্যাক্সিমাম ভ্যালুর পরিবর্তে ইন্টার কোয়ার্টাইল রেঞ্জ ব্যবহার করা হয়। এই পদ্ধতিতে ডেটা থেকে ১ম কোয়ার্টাইল ভ্যালু বিয়োগ করা হয় এবং এই বিয়োগফলকে ইন্টার কোয়ার্টাইল রেঞ্জ দ্বারা ভাগ করা হয়।  It is used to scale the feature to median and quantiles Scaling using  median and quantiles consists of subtracting the median to all the observations, and then dividing by the  interquartile difference. The interquartile difference is the difference between the 75th and 25th quantile.<br>
কোয়ার্টাইল এবং আইকিউআর-  কোন ভ্যারিয়েবলকে সমান ৪ টি ভাগে ভাগ করলে প্রতিটি ভাগে ২৫% পরিমান ডেটা থাকে । এই চারটি ভাগকে বলা হয় কোয়ার্টাইল । ৩য় ও ১ম কোয়ার্টাইল এর পার্থক্যকে বলা হয় আইকিউআর । এই বইয়ের পরিসংখ্যান অংশে এই বিষয়ে বিস্তারিত আলোচনা করা হয়েছে। <br>
![image-7.png](attachment:image-7.png)<br>
![image-8.png](attachment:image-8.png)<br>

# ভয় পাওয়ার কিছু নেই আমাদের এই সূত্রগুলো মুখস্থ করতে হবে না, মেশিন লার্নিং আমাদের এই সুযোগ করে দিয়েছে যে আমরা ডিরেক্ট ফাংশন কলের মাধ্যমে এই সূত্রগুলো মুখস্ত না করার মাধ্যমে কাজ করতে পারব 

In [1]:
import numpy as np 
import pandas as pd

In [6]:
df = pd.read_excel('shop.xlsx')
df.head()

Unnamed: 0,Marketing Spend,Administration,Transport,Area,Profit
0,114523.61,136897.8,471784.1,Dhaka,192261.83
1,162597.7,151377.59,443898.53,Ctg,191792.06
2,153441.51,101145.55,407934.54,Rangpur,191050.39
3,144372.41,118671.85,383199.62,Dhaka,182901.99
4,142107.34,91391.77,366168.42,Rangpur,166187.94


In [7]:
df1 = df.copy()
df2 = df.copy()
df3 = df.copy()
df4 = df.copy()

# Normalization

In [8]:
from sklearn.preprocessing import MinMaxScaler
mm = MinMaxScaler()

In [9]:
df1.head()

Unnamed: 0,Marketing Spend,Administration,Transport,Area,Profit
0,114523.61,136897.8,471784.1,Dhaka,192261.83
1,162597.7,151377.59,443898.53,Ctg,191792.06
2,153441.51,101145.55,407934.54,Rangpur,191050.39
3,144372.41,118671.85,383199.62,Dhaka,182901.99
4,142107.34,91391.77,366168.42,Rangpur,166187.94


In [11]:
df1['Marketing Spend'] = mm.fit_transform(df1[["Marketing Spend"]])
df1.head()#see the change in Marketing column

Unnamed: 0,Marketing Spend,Administration,Transport,Area,Profit
0,0.692617,136897.8,471784.1,Dhaka,192261.83
1,0.983359,151377.59,443898.53,Ctg,191792.06
2,0.927985,101145.55,407934.54,Rangpur,191050.39
3,0.873136,118671.85,383199.62,Dhaka,182901.99
4,0.859438,91391.77,366168.42,Rangpur,166187.94


In [12]:
df1['Administration'] = mm.fit_transform(df1[["Administration"]])
df1.head()#see the change in administration column

Unnamed: 0,Marketing Spend,Administration,Transport,Area,Profit
0,0.692617,0.651744,471784.1,Dhaka,192261.83
1,0.983359,0.761972,443898.53,Ctg,191792.06
2,0.927985,0.379579,407934.54,Rangpur,191050.39
3,0.873136,0.512998,383199.62,Dhaka,182901.99
4,0.859438,0.305328,366168.42,Rangpur,166187.94


# Standardization

In [13]:
from sklearn.preprocessing import StandardScaler
ss = StandardScaler()
df2.head()

Unnamed: 0,Marketing Spend,Administration,Transport,Area,Profit
0,114523.61,136897.8,471784.1,Dhaka,192261.83
1,162597.7,151377.59,443898.53,Ctg,191792.06
2,153441.51,101145.55,407934.54,Rangpur,191050.39
3,144372.41,118671.85,383199.62,Dhaka,182901.99
4,142107.34,91391.77,366168.42,Rangpur,166187.94


In [14]:
df2['Marketing Spend'] = ss.fit_transform(df2[['Marketing Spend']])
df2.head()

Unnamed: 0,Marketing Spend,Administration,Transport,Area,Profit
0,0.897913,136897.8,471784.1,Dhaka,192261.83
1,1.95586,151377.59,443898.53,Ctg,191792.06
2,1.754364,101145.55,407934.54,Rangpur,191050.39
3,1.554784,118671.85,383199.62,Dhaka,182901.99
4,1.504937,91391.77,366168.42,Rangpur,166187.94


# Robust Scaler

In [15]:
from sklearn.preprocessing import RobustScaler
rs = RobustScaler()
df3.head()

Unnamed: 0,Marketing Spend,Administration,Transport,Area,Profit
0,114523.61,136897.8,471784.1,Dhaka,192261.83
1,162597.7,151377.59,443898.53,Ctg,191792.06
2,153441.51,101145.55,407934.54,Rangpur,191050.39
3,144372.41,118671.85,383199.62,Dhaka,182901.99
4,142107.34,91391.77,366168.42,Rangpur,166187.94


In [16]:
df3['Transport'] = rs.fit_transform(df2[['Transport']])
df3.head()

Unnamed: 0,Marketing Spend,Administration,Transport,Area,Profit
0,114523.61,136897.8,1.552016,Dhaka,192261.83
1,162597.7,151377.59,1.383714,Ctg,191792.06
2,153441.51,101145.55,1.166654,Rangpur,191050.39
3,144372.41,118671.85,1.017368,Dhaka,182901.99
4,142107.34,91391.77,0.914576,Rangpur,166187.94


# Max Absolute Scaler

In [17]:
from sklearn.preprocessing import MaxAbsScaler
mb = MaxAbsScaler()
df4.head()

Unnamed: 0,Marketing Spend,Administration,Transport,Area,Profit
0,114523.61,136897.8,471784.1,Dhaka,192261.83
1,162597.7,151377.59,443898.53,Ctg,191792.06
2,153441.51,101145.55,407934.54,Rangpur,191050.39
3,144372.41,118671.85,383199.62,Dhaka,182901.99
4,142107.34,91391.77,366168.42,Rangpur,166187.94


In [18]:
df4['Transport'] = mb.fit_transform(df4[['Transport']])
df4.head()

Unnamed: 0,Marketing Spend,Administration,Transport,Area,Profit
0,114523.61,136897.8,1.0,Dhaka,192261.83
1,162597.7,151377.59,0.940893,Ctg,191792.06
2,153441.51,101145.55,0.864664,Rangpur,191050.39
3,144372.41,118671.85,0.812235,Dhaka,182901.99
4,142107.34,91391.77,0.776136,Rangpur,166187.94
