In [2]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

# Verimizi yeniden yükleyelim
DATA_PATH = '../data/raw/training.csv'
df = pd.read_csv(DATA_PATH)

In [3]:
# Label sütununu sayısal formata dönüştürelim
df['Label'] = df['Label'].map({'s': 1, 'b': 0})

# Özellik matrisimizden (X) ve hedef vektörümüzden (y) ayıracağımız sütunlar
# Şimdilik Weight sütununu da ayırıyoruz, sonra kullanacağız.
labels = df['Label']
weights = df['Weight']
event_ids = df['EventId']

# Özellik matrisimizden bu yardımcı sütunları ve hedefi çıkaralım
features = df.drop(columns=['EventId', 'Weight', 'Label'])

In [4]:
# -999.0 içeren sütunları bulalım
missing_val_cols = [col for col in features.columns if -999.0 in features[col].values]

print(f"-999.0 içeren sütunlar: {missing_val_cols}")

# Her bir sütun için stratejimizi uygulayalım
for col in missing_val_cols:
    # 1. Gösterge sütununu oluştur
    indicator_col_name = f'{col}_is_missing'
    features[indicator_col_name] = (features[col] == -999.0).astype(int)
    
    # 2. Medyanı hesapla (-999.0 hariç)
    median_val = features[features[col] != -999.0][col].median()
    
    # 3. -999.0 değerlerini medyan ile doldur
    features[col] = features[col].replace(-999.0, median_val)

# İşlemin başarılı olduğunu kontrol edelim
print(f"\nİşlem sonrası -999.0 içeren değer sayısı: {(features.values == -999.0).sum()}")
features.head()

-999.0 içeren sütunlar: ['DER_mass_MMC', 'DER_deltaeta_jet_jet', 'DER_mass_jet_jet', 'DER_prodeta_jet_jet', 'DER_lep_eta_centrality', 'PRI_jet_leading_pt', 'PRI_jet_leading_eta', 'PRI_jet_leading_phi', 'PRI_jet_subleading_pt', 'PRI_jet_subleading_eta', 'PRI_jet_subleading_phi']

İşlem sonrası -999.0 içeren değer sayısı: 0


Unnamed: 0,DER_mass_MMC,DER_mass_transverse_met_lep,DER_mass_vis,DER_pt_h,DER_deltaeta_jet_jet,DER_mass_jet_jet,DER_prodeta_jet_jet,DER_deltar_tau_lep,DER_pt_tot,DER_sum_pt,...,DER_deltaeta_jet_jet_is_missing,DER_mass_jet_jet_is_missing,DER_prodeta_jet_jet_is_missing,DER_lep_eta_centrality_is_missing,PRI_jet_leading_pt_is_missing,PRI_jet_leading_eta_is_missing,PRI_jet_leading_phi_is_missing,PRI_jet_subleading_pt_is_missing,PRI_jet_subleading_eta_is_missing,PRI_jet_subleading_phi_is_missing
0,138.47,51.655,97.827,27.98,0.91,124.711,2.666,3.064,41.928,197.76,...,0,0,0,0,0,0,0,0,0,0
1,160.937,68.768,103.235,48.146,2.107,225.885,-0.244,3.473,2.078,125.157,...,1,1,1,1,0,0,0,1,1,1
2,112.406,162.172,125.953,35.635,2.107,225.885,-0.244,3.148,9.336,197.814,...,1,1,1,1,0,0,0,1,1,1
3,143.905,81.417,80.943,0.414,2.107,225.885,-0.244,3.31,0.414,75.968,...,1,1,1,1,1,1,1,1,1,1
4,175.864,16.915,134.805,16.405,2.107,225.885,-0.244,3.891,16.405,57.983,...,1,1,1,1,1,1,1,1,1,1


In [5]:
# Özellikleri (X) ve hedefi (y) ayırıyoruz
X = features
y = labels

# Veriyi %80 eğitim, %20 doğrulama olarak ayırıyoruz.
# random_state=42, her seferinde aynı ayırmayı yaparak sonuçlarımızı tekrarlanabilir kılar.
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# Aynı ayırma işlemini `weights` için de yapmalıyız ki her veriye doğru ağırlık karşılık gelsin.
# Bunun için train ve validation setlerinin indexlerini kullanabiliriz.
weights_train = weights.loc[X_train.index]
weights_val = weights.loc[X_val.index]


print("Eğitim seti boyutu:", X_train.shape)
print("Doğrulama seti boyutu:", X_val.shape)
print("Eğitim ağırlıkları boyutu:", weights_train.shape)
print("Doğrulama ağırlıkları boyutu:", weights_val.shape)

Eğitim seti boyutu: (200000, 41)
Doğrulama seti boyutu: (50000, 41)
Eğitim ağırlıkları boyutu: (200000,)
Doğrulama ağırlıkları boyutu: (50000,)


In [6]:
# İşlenmiş verileri daha sonra kullanmak üzere kaydedelim
output_dir = '../data/processed/'
X_train.to_csv(output_dir + 'X_train.csv', index=False)
X_val.to_csv(output_dir + 'X_val.csv', index=False)
y_train.to_csv(output_dir + 'y_train.csv', index=False)
y_val.to_csv(output_dir + 'y_val.csv', index=False)
weights_train.to_csv(output_dir + 'weights_train.csv', index=False)
weights_val.to_csv(output_dir + 'weights_val.csv', index=False)

print("İşlenmiş veriler başarıyla kaydedildi.")

İşlenmiş veriler başarıyla kaydedildi.
