# Data Preprocessing Tools

## Importing the libraries

In [2]:
import numpy as np  # matematiksel işlemler için
import matplotlib.pyplot as plt  # iyi bir grafik çizmek için
import pandas as pd  # veriyi işlemek için

## Importing the dataset

In [3]:
# veriyi işlemek için pandas kütüphanesini kullanıyoruz
dataset = pd.read_csv('Data.csv')  # veriyi okuyoruz
# Bağımlı ve bağımsız değişkenleri ayırıyoruz
"""Bağımlı ve bağımsız değişkenleri nasıl buluyoruz? 
Bağımlı değişken: Tahmin etmek istediğimiz değerdir.
Bağımsız değişken: Tahmin etmek için kullanacağımız değerlerdir.
"""
# iloc nedir? dizinlerdeki indise göre veri seçme işlemi yapar.
X = dataset.iloc[:, :-1].values  # bağımsız değişkenler
""" [ : , : -1] : tüm satırları seç, : -1 tüm sütunları seç fakat son sütunu seçme ve .values ise numpy dizisine çevirme işlemi yapar."""
y = dataset.iloc[:, -1].values  # bağımlı değişken


In [4]:
print(X)

[['France' 44.0 72000.0]
 ['Spain' 27.0 48000.0]
 ['Germany' 30.0 54000.0]
 ['Spain' 38.0 61000.0]
 ['Germany' 40.0 nan]
 ['France' 35.0 58000.0]
 ['Spain' nan 52000.0]
 ['France' 48.0 79000.0]
 ['Germany' 50.0 83000.0]
 ['France' 37.0 67000.0]]


In [5]:
print(y)

['No' 'Yes' 'No' 'No' 'Yes' 'Yes' 'No' 'Yes' 'No' 'Yes']


## Taking care of missing data

In [6]:
from sklearn.impute import SimpleImputer

'''Sklearn kütüphanesi genellikle makine öğrenmesi için kullanılır.
sklearn.impute: .impute genellikle eksik verileri doldurmak için kullanılır. ve arasındaki fark ise .impute daha genel bir kütüphane iken SimpleImputer sadece eksik verileri doldurmak için kullanılır.
SimpleImputer: eksik verileri doldurmak için kullanılır.'''
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
"""imputer nesnesi oluşturduk ve eksik verileri doldurmak için kullanacağımız stratejiyi belirledik.
SimpleImputer: sınıfı içerisindeki missing_values parametresi ile eksik verilerin değerini belirledik.
missing_values: parametresi ne işe yarıyor? eksik verilerin değerini belirlemek için kullanılır.
np.nan: eksik verilerin değeri NaN ise kullanılır. 
strategy: parametresi ile ise eksik verileri doldurmak için kullanılacak stratejiyi belirleriz. mean stratejisi ile eksik verilerin ortalamasını alırız."""

imputer.fit(X[:, 1:3])
"""
.fit = veriyi öğrenmek için kullanılır. Basitçe, X'in sayısal değerlere sahip tüm sütunlarını bekler, ancak metin veya dizeler veya kategoriler içerenleri değil, yalnızca sayısal değerlere sahip olanları bekler.
X[:, 1:3] = tüm satırları seç, 1:3 arasındaki sütunları seç. Neden 1 ve 3 arasındaki sütunları seçtik? Çünkü 3. sütun hariç seçmek istiyoruz.
"""
X[:, 1:3] = imputer.transform(X[:, 1:3])
"""
Burada ise eksik verileri doldurmak için kullanılan stratejiyi uyguluyoruz.
.transform eksik verileri yeni veri ile doldurmak için kullanılır. 
"""

'\nBurada ise eksik verileri doldurmak için kullanılan stratejiyi uyguluyoruz.\n.transform eksik verileri yeni veri ile doldurmak için kullanılır. \n'

In [7]:
print(X)

[['France' 44.0 72000.0]
 ['Spain' 27.0 48000.0]
 ['Germany' 30.0 54000.0]
 ['Spain' 38.0 61000.0]
 ['Germany' 40.0 63777.77777777778]
 ['France' 35.0 58000.0]
 ['Spain' 38.77777777777778 52000.0]
 ['France' 48.0 79000.0]
 ['Germany' 50.0 83000.0]
 ['France' 37.0 67000.0]]


## Encoding categorical data

### Encoding the Independent Variable
Kategorik verileri sayısal verilere dönüştürmek, makine öğrenmesi algoritmalarının bu verilerle daha iyi çalışmasını sağlar. Algoritmalar genellikle sayısal verilerle çalışacak şekilde tasarlanmıştır ve kategorik verilerle doğrudan çalışamazlar. Bu nedenle, kategorik verileri sayısal verilere dönüştürmek için OneHotEncoder gibi araçlar kullanılır.  OneHotEncoder, kategorik verileri ikili (binary) formatta kodlar. Örneğin, "Germany", "France" ve "Spain" gibi kategorik veriler, her biri için ayrı bir sütun oluşturularak 1 ve 0 değerleriyle temsil edilir. Bu, algoritmaların veriler arasındaki ilişkileri daha iyi anlamasına yardımcı olur.  Örneğin:  
"Germany" -> [1, 0, 0]
"France" -> [0, 1, 0]
"Spain" -> [0, 0, 1]
Bu şekilde, kategorik veriler sayısal verilere dönüştürülmüş olur ve makine öğrenmesi algoritmaları bu verilerle çalışabilir.

In [8]:
from sklearn.compose import ColumnTransformer 
# ColumnTransformer: sütunları dönüştürmek için kullanılır.
from sklearn.preprocessing import OneHotEncoder
# OneHotEncoder: kategorik verileri sayısal verilere dönüştürmek için kullanılır.

ct = ColumnTransformer(transformers=[('encoder',OneHotEncoder(),[0])],remainder='passthrough')
"""
:param: ColumnTransformer: sütunları dönüştürmek için kullanılır.
:param: transformers: parametresi ile dönüştürülecek sütunları belirleriz.
:param: encoder: parametresi ile dönüştürme işlemi yapacak sınıfı belirleriz. 
:param: OneHotEncoder: kategorik verileri sayısal verilere dönüştürmek için kullanılır.
:param: [0]: parametresi ile dönüştürülecek sütunun indeksini belirleriz.
:param: remainder: parametresi ile dönüştürülmeyen sütunları belirleriz.
:param: passthrough: parametresi ile dönüştürülmeyen sütunları olduğu gibi bırakırız.
Açıklama: 0. sütunu dönüştürmek için kullanacağız ve geri kalan sütunları olduğu gibi
bırakacağız. 
"""
X = ct.fit_transform(X) # dönüştürme işlemi yapılır.

In [9]:
print(X)

[[1.0 0.0 0.0 44.0 72000.0]
 [0.0 0.0 1.0 27.0 48000.0]
 [0.0 1.0 0.0 30.0 54000.0]
 [0.0 0.0 1.0 38.0 61000.0]
 [0.0 1.0 0.0 40.0 63777.77777777778]
 [1.0 0.0 0.0 35.0 58000.0]
 [0.0 0.0 1.0 38.77777777777778 52000.0]
 [1.0 0.0 0.0 48.0 79000.0]
 [0.0 1.0 0.0 50.0 83000.0]
 [1.0 0.0 0.0 37.0 67000.0]]


### Encoding the Dependent Variable
Bu kod parçasında, bağımlı değişken olan y'yi kategorik verilerden sayısal verilere dönüştürmek için LabelEncoder kullanılıyor. Bu, makine öğrenmesi algoritmalarının bu verilerle daha iyi çalışmasını sağlar. İşte adım adım açıklaması:  
LabelEncoder sınıfı sklearn.preprocessing modülünden içe aktarılıyor.
LabelEncoder sınıfından bir nesne oluşturuluyor.
fit_transform metodu kullanılarak y dizisindeki kategorik veriler sayısal verilere dönüştürülüyor.
Bu işlem sonucunda, y dizisindeki kategorik veriler sayısal verilere dönüştürülmüş olur. Örneğin, ['yes', 'no', 'yes'] gibi bir dizi, [1, 0, 1] olarak dönüştürülür.

In [11]:
from sklearn.preprocessing import LabelEncoder # kategorik verileri sayısal verilere dönüştürmek için kullanılır.

le = LabelEncoder() # nesne oluşturduk.
y = le.fit_transform(y) # dönüştürme işlemi yapılır.

`OneHotEncoder` ve `LabelEncoder` farklı amaçlar için kullanılır ve her ikisi de kategorik verileri sayısal verilere dönüştürmek için kullanılır, ancak farklı durumlarda tercih edilirler:

1. **OneHotEncoder**:
   - Kategorik verileri ikili (binary) formatta kodlar.
   - Her kategori için ayrı bir sütun oluşturur.
   - Örneğin, "Germany", "France" ve "Spain" gibi kategoriler için:
     - "Germany" -> [1, 0, 0]
     - "France" -> [0, 1, 0]
     - "Spain" -> [0, 0, 1]
   - Genellikle bağımsız değişkenler (features) için kullanılır.

2. **LabelEncoder**:
   - Kategorik verileri tek bir sütunda sayısal değerlere dönüştürür.
   - Her kategoriye bir sayı atar.
   - Örneğin, "yes" ve "no" gibi kategoriler için:
     - "yes" -> 1
     - "no" -> 0
   - Genellikle bağımlı değişkenler (labels) için kullanılır.

Bu nedenle, bağımsız değişkenler için `OneHotEncoder` kullanılırken, bağımlı değişkenler için `LabelEncoder` kullanılır. Bu, makine öğrenmesi algoritmalarının verilerle daha iyi çalışmasını sağlar.

Özetle:
- `OneHotEncoder` bağımsız değişkenler için kullanılır ve her kategori için ayrı bir sütun oluşturur.
- `LabelEncoder` bağımlı değişkenler için kullanılır ve kategorileri tek bir sütunda sayısal değerlere dönüştürür.

In [13]:
print(y)

[0 1 0 0 1 1 0 1 0 1]


## Splitting the dataset into the Training set and Test settrain_test_split: sklearn.model_selection modülünden gelen bu fonksiyon, veri setini ayırmak için kullanılır.
X: Bağımsız değişkenler (özellikler).
y: Bağımlı değişken (hedef).
test_size=0.2: Bu parametre, veri setinin ne kadarının test setine dahil edileceğini belirtir. Burada, verinin %20'si test için, %80'i ise eğitim için kullanılacaktır.
random_state=1: Bu parametre, bölmenin tekrarlanabilir olmasını sağlar. Aynı random_state değeri kullanıldığında her zaman aynı bölme elde edilir."""

In [32]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

#Ortaya Çıkan Değişkenler
#  X_train: Eğitim seti özellikleri.
#  X_test: Test seti özellikleri.
#  y_train: Eğitim seti hedefi.
#  y_test: Test seti hedefi.


In [33]:
print(X_train)

[[1.0 0.0 0.0 35.0 58000.0]
 [1.0 0.0 0.0 44.0 72000.0]
 [1.0 0.0 0.0 48.0 79000.0]
 [0.0 1.0 0.0 30.0 54000.0]
 [1.0 0.0 0.0 37.0 67000.0]
 [0.0 1.0 0.0 40.0 63777.77777777778]
 [0.0 0.0 1.0 38.0 61000.0]
 [0.0 0.0 1.0 38.77777777777778 52000.0]]


In [34]:
print(X_test)

[[0.0 1.0 0.0 50.0 83000.0]
 [0.0 0.0 1.0 27.0 48000.0]]


In [35]:
print(y_train)

[1 0 1 0 1 1 0 0]


In [36]:
print(y_test)

[0 1]


# Feature Scaling

## Nedir?
Veri setindeki her bir özelliğin (feature) farklı aralıklarda olması, makine öğrenimi modellerinin performansını olumsuz etkileyebilir. **Feature Scaling**, bu özellikleri aynı ölçek aralığına getirerek dengeli bir öğrenme sağlar.

## Ne İşe Yarar?
Özellikle mesafeye dayalı algoritmalar (k-NN, k-Means) ve gradyan tabanlı optimizasyon yöntemleri (lojistik regresyon, yapay sinir ağları) gibi algoritmalar, özelliklerin ölçeklerine duyarlıdır. Eğer bu özellikler aynı aralıkta olmazsa, bazı özellikler diğerlerine göre daha fazla etkili olabilir.

## Neden Yaparız?
- **Mesafe tabanlı algoritmalar** için: Eğer özellikler aynı ölçek aralığında değilse, büyük ölçekli özellikler mesafeyi domine eder.
- **Gradyan tabanlı algoritmalar** için: Gradyan iniş gibi yöntemler daha hızlı ve dengeli öğrenir.

### **Önemli Not:**
**Standartlaştırma (Standardization)**, genellikle **normalleştirmeye (Normalization)** tercih edilir, çünkü özellikle lineer modeller ve sinir ağları gibi algoritmalarda daha etkili sonuçlar verir.

## Nasıl Yapılır?

### 1. **Standartlaştırma (Standardization)**:
Bu yöntem, verileri ortalaması 0 ve standart sapması 1 olacak şekilde ölçekler. En yaygın kullanılan yöntemdir.

\[
X_{scaled} = \frac{X - \mu}{\sigma}
\]

Burada, \( \mu \) veri setinin ortalaması, \( \sigma \) ise standart sapmasıdır.

- **Neden kullanılır?**: Gradyan inişi gibi algoritmaların daha dengeli ve hızlı öğrenmesini sağlar. Özellikle sinir ağları, lojistik regresyon ve SVM gibi modellerde yaygın olarak kullanılır.

### 2. **Normalleştirme (Min-Max Scaling)**:
Verileri belirli bir aralığa, genellikle 0 ile 1 arasına sıkıştırır.

\[
X_{scaled} = \frac{X - X_{min}}{X_{max} - X_{min}}
\]

- **Nerede kullanılır?**: Özellikle mesafeye dayalı algoritmalarda (k-NN, k-Means) sık tercih edilir. Eğer verilerin sınırlarını korumak istiyorsanız (örneğin bir görüntüdeki piksel değerleri gibi), normalizasyon tercih edilebilir.

## Standartlaştırma Daha Yaygın Kullanılır
Hocanızın belirttiği gibi, birçok makine öğrenimi algoritmasında **Standartlaştırma (Standardization)** tercih edilir çünkü verilerin ortalama etrafında dengeli bir dağılım göstermesi gradyan tabanlı algoritmalar için daha uygundur.

## Örnek Kod:
```python
from sklearn.preprocessing import StandardScaler

sc = StandardScaler()
X_train_scaled = sc.fit_transform(X_train)  # Eğitim verisini standartlaştır
X_test_scaled = sc.transform(X_test)        # Test verisini standartlaştır


In [37]:
# sklearn.preprocessing modülünden StandardScaler sınıfını içe aktarıyoruz
from sklearn.preprocessing import StandardScaler

# StandardScaler sınıfından bir örnek oluşturuyoruz
sc = StandardScaler()

# Eğitim setine özellik ölçeklendirme uyguluyoruz
# fit_transform: Eğitim verisi üzerinde scaler'ı fit eder ve ardından dönüştürür.
# X_train[:, 3:]: Tüm satırları ve 4. sütundan itibaren olan sütunları seçer.
X_train[:, 3:] = sc.fit_transform(X_train[:, 3:])

# Aynı ölçeklendirmeyi test setine uyguluyoruz
# transform: Eğitim verisi üzerinde fit edilen scaler'ı kullanarak test verisini dönüştürür.
# X_test[:, 3:]: Tüm satırları ve 4. sütundan itibaren olan sütunları seçer.
X_test[:, 3:] = sc.transform(X_test[:, 3:])

In [38]:
print(X_train)

[[1.0 0.0 0.0 -0.7529426005471072 -0.6260377781240918]
 [1.0 0.0 0.0 1.008453807952985 1.0130429500553495]
 [1.0 0.0 0.0 1.7912966561752484 1.8325833141450703]
 [0.0 1.0 0.0 -1.7314961608249362 -1.0943465576039322]
 [1.0 0.0 0.0 -0.3615211764359756 0.42765697570554906]
 [0.0 1.0 0.0 0.22561095973072184 0.05040823668012247]
 [0.0 0.0 1.0 -0.16581046438040975 -0.27480619351421154]
 [0.0 0.0 1.0 -0.013591021670525094 -1.3285009473438525]]


In [39]:
print(X_test)

[[0.0 1.0 0.0 2.1827180802863797 2.3008920936249107]
 [0.0 0.0 1.0 -2.3186282969916334 -1.7968097268236927]]
