# Preprocessing.py 

Bu süreçte veri setini yükleyip eksik veriler ve hatalı veriler kontrol edilip eğitim süreci dışında tutulur.

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
import os

* Veri okuma, işleme, düzenleme, analiz ve manipülasyonu için pandas,
* Sayısal hesaplamalar için numpy,
* Veri setini eğitim ve test setlerine bölmek için scikit-learn kütüphanesi içerisinden train_test_split,
* Verileri ölçeklendirmek ve standardize etmek için StandardScaler kullanıldı.( Feature'lardaki sayısal verilerin ortalaması 0 ve standart sapması 1 olarak ele alınıp tüm sayısal veriler model eğitimi için standardize edilir.)

1) Öncelikle veri seti yüklenir.

In [3]:
data = pd.read_csv('../data/data1.csv')
data.dropna(inplace=True)

* inplace=True ile NaN değer içeren satırları veri setinden kaldırmış olduk.

2) Feature'lar tanımlanır.

In [6]:
features = data[['Word_Count', 'Link_Count', 'Image_Count', 'Video_Count', 'Has_Ads', 'Domain_Age', 'Payment_Present',
                 'Login_Present', 'User_Comments', 'Cookies_Present']]

In [7]:
target = data['Category']

3) Sınıf sayılarının kontrolü. Bu kontrol kullandığım zayıf veri seti için kullandığım bir hata önleyici pozisyonda. Normalde iyi hazırlanmış bir veri setinde buna gerek olmayabilir.

In [8]:
min_samples_per_class = 2
class_counts = target.value_counts()
valid_classes = class_counts[class_counts >= min_samples_per_class].index

Category etiketleri ile valid_classes ile oluşturulan etiketlerin kıyaslaması : 

In [9]:
filtered_data = data[data['Category'].isin(valid_classes)]

Yalnızca geçerli indexlerdeki satırların seçilmesi ve yeni target değeri olarak atanması : 

In [10]:
features = features.loc[filtered_data.index]
target = filtered_data['Category']

4) Eğitim, test ve validation veri setlerinin train_test_split() ile hazırlanması : 

In [11]:
X_train, X_temp, y_train, y_temp = train_test_split(features, target, test_size=0.2, random_state=42, stratify=target)

* stratify=target ile veri setinin bölünmesinde sınıf dağılımları korunur. Örneğin sınıflar arasında dengesizlik varsa( Örneğin %70 sınıf A, %30 sınıf B gibi) bu oranlar hem eğitim hem de test setlerinde korunur.

İlk bölmeden sonra geçici veri setinde (X_temp, y_temp) de yeterli örneği olmayan sınıfları kaldırma:

In [12]:
temp_class_counts = y_temp.value_counts()
valid_temp_classes = temp_class_counts[temp_class_counts >= min_samples_per_class].index

# Geçici veri setinden yeterli örneği olmayan sınıfları kaldırma
X_temp = X_temp[y_temp.isin(valid_temp_classes)]
y_temp = y_temp[y_temp.isin(valid_temp_classes)]

Train ve Temp olarak ele aldığımız veri setinde Temp için ayrılan verilerin validation ve test için ayrıca bölünmesi : 

In [13]:
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42, stratify=y_temp)

Feature değerlerinin her bir veri seti için ölçeklendirilmesi : 

In [14]:
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_val_scaled = scaler.transform(X_val)
X_test_scaled = scaler.transform(X_test)

Hazırlanan veri setlerinin numpy dizisi olarak lokale kaydedilmesi : 

In [15]:
current_directory = os.getcwd()

In [16]:
np.save(os.path.join(current_directory, 'X_train_scaled.npy'), X_train_scaled)
np.save(os.path.join(current_directory, 'y_train.npy'), y_train)
np.save(os.path.join(current_directory, 'X_val_scaled.npy'), X_val_scaled)
np.save(os.path.join(current_directory, 'y_val.npy'), y_val)
np.save(os.path.join(current_directory, 'X_test_scaled.npy'), X_test_scaled)
np.save(os.path.join(current_directory, 'y_test.npy'), y_test)

In [17]:
print("Data processing completed and saved.")

Data processing completed and saved.
