Bu notebookta, verilerin nasıl ölçekleneceğine ve normalleştirileceğine (ve ikisi arasındaki farkın ne olduğuna) bakacağız.


# Ortamımızı kuralım

Yapmamız gereken ilk şey, kullanacağımız kütüphanelere yüklemek. 

In [None]:
# modules we'll use
import pandas as pd
import numpy as np

# for Box-Cox Transformation
from scipy import stats

# for min_max scaling
from mlxtend.preprocessing import minmax_scaling

# plotting modules
import seaborn as sns
import matplotlib.pyplot as plt

# set seed for reproducibility
np.random.seed(0)

# Scaling vs. Normalization: Fark ne?

Ölçeklendirme (scaling) ve normalleştirme (normalization) tanımları arasındaki kafa karıştırıcı olan şey bu iki terimin bazen birbirinin yerine kullanılması ve daha da kafa karıştırıcı olan ise uygulamada da oldukça benzer olmalarıdır! Her iki durumda da, veri noktalarının belirli yararlı özelliklere sahip olması için sayısal değişkenlerin değerlerini dönüştürüyor olmamız. Fark şu ki:

- **ölçeklendirmede (scaling)**, verilerinizin *aralığını* değiştiriyorsunuz,
- **normalleştirmede (normalization)**, verilerinizin *dağılımın* şeklini değiştiriyorsunuz.

Bu seçeneklerin her biri hakkında biraz daha ayrıntılı konuşalım.

# Ölçekleme (Scaling)

Bu kavram, verilerinizi 0-100 veya 0-1 gibi belirli bir ölçeğe uyacak şekilde dönüştürmemizi ifade eder. [destek vektör makineleri (SVM)](https://en.wikipedia.org/wiki/Support_vector_machine) veya [k-nearest neighbors (KNN)](https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm) gibi veri noktalarının birbirinden ne kadar uzakta olduğuna ilişkin ölçümlere dayalı yöntemler kullanırken verileri ölçeklendirmek istediğinizde kullanılır. Bu algoritmalar ile herhangi bir sayısal özellikte "1" lik bir değişikliğe aynı önem verilmektedir.

Örneğin bazı ürünlerin fiyatlarına hem Yen hem de ABD Doları üzerinden bakıyor olabilirsiniz. Bir ABD Doları yaklaşık 100 Yen değerindedir, ancak fiyatlarınızı ölçeklendirmezseniz, SVM veya KNN gibi yöntemler 1 Yen'lik bir fiyat farkını 1 ABD Doları'lık bir fark kadar önemli sayar! Bu açıkça bizim dünya sezgilerimize uymuyor. Para birimi ile para birimleri arasında dönüştürme yapabilirsiniz. Peki ya boy ve kilo gibi bir şeye bakıyorsanız? Kaç kilonun bir inç'e eşit olması gerektiği (veya kaç kilogramın bir metreye eşit olması gerektiği) tam olarak belli değil.

Değişkenlerinizi ölçeklendirerek, farklı değişkenleri eşit temelde karşılaştırmaya yardımcı olabilirsiniz. 


In [None]:
# generate 1000 data points randomly drawn from an exponential distribution
original_data = np.random.exponential(size=1000)

# mix-max scale the data between 0 and 1
scaled_data = minmax_scaling(original_data, columns=[0])

# plot both together to compare
fig, ax = plt.subplots(1, 2, figsize=(15, 3))
sns.histplot(original_data, ax=ax[0], kde=True, legend=False)
ax[0].set_title("Original Data")
sns.histplot(scaled_data, ax=ax[1], kde=True, legend=False)
ax[1].set_title("Scaled data")
plt.show()

Verinin *şeklinin* değişmediğine, ancak 0'dan 8'e kadar değişmek yerine şimdi 0'dan 1'e kadar değiştiğine dikkat edin.

# Normalleştirme (Normalization)

Ölçekleme, yalnızca verilerinizin aralığını değiştirir. Normalleştirme daha radikal bir dönüşümdür. Normalleştirmenin amacı, gözlemlerinizi normal dağılım olarak tanımlanabilecek şekilde değiştirmektir.

> **[Normal dağılım:](https://en.wikipedia.org/wiki/Normal_distribution)** "Çan eğrisi" olarak da bilinir, bu, kabaca eşit gözlemlerin ortalamanın üstüne ve altına düştüğü belirli bir istatistiksel dağılımdır. Normal dağılım, Gauss dağılımı olarak da bilinir.

Genel olarak, verilerinizin normal dağıldığını varsayan bir makine öğrenmesi veya istatistik tekniği kullanacaksanız, verilerinizi normalleştirirsiniz. Bunların bazı örnekleri, linear discriminant analysis (LDA) and Gaussian naive Bayes. 

Burada normalleştirmek için kullandığımız yönteme [Box-Cox Dönüşümü](https://en.wikipedia.org/wiki/Power_transform#Box%E2%80%93Cox_transformation) denir. Bazı verileri normalleştirmenin nasıl göründüğüne hızlıca bir göz atalım:

In [None]:
# normalize the exponential data with boxcox
normalized_data = stats.boxcox(original_data)

# plot both together to compare
fig, ax=plt.subplots(1, 2, figsize=(15, 3))
sns.histplot(original_data, ax=ax[0], kde=True, legend=False)
ax[0].set_title("Original Data")
sns.histplot(normalized_data[0], ax=ax[1], kde=True, legend=False)
ax[1].set_title("Normalized data")
plt.show()

Verilerimizin *şeklinin* değiştiğine dikkat edin. Normalleşmeden önce neredeyse L şeklindeydi. Ancak normalleştirmeden sonra daha çok bir çanın ana hatlarına benziyor (dolayısıyla "çan eğrisi").
