In [1]:
import sys
import os
import pandas as pd

In [2]:
from src.data.preprocess import (
    load_aps_data, 
    encode_target, 
    get_cols_with_missing_threshold, 
    get_imputation_pipeline,
    get_scaling_pipeline,
    check_split_integrity
)

TRAIN_PATH = 'aps_failure_training_set.csv'
TEST_PATH = 'aps_failure_test_set.csv'

In [3]:
#Wczytywanie danych
df_train = load_aps_data(TRAIN_PATH)
df_test = load_aps_data(TEST_PATH)

#Rozdzielenie cech (X) i targetu (y)
target_col = 'class'

X_train_raw = df_train.drop(columns=[target_col])
y_train_raw = df_train[target_col]

X_test_raw = df_test.drop(columns=[target_col])
y_test_raw = df_test[target_col]

print(f"Wymiary surowe Train: {X_train_raw.shape}")
print(f"Wymiary surowe Test:  {X_test_raw.shape}")

Wymiary surowe Train: (60000, 170)
Wymiary surowe Test:  (16000, 170)


In [4]:
#Zamieniamy tekst 'neg'/'pos' na 0/1.
y_train = encode_target(y_train_raw)
y_test = encode_target(y_test_raw)

print("Target zakodowany (0/1).")
print(y_train.value_counts())

Target zakodowany (0/1).
class
0    59000
1     1000
Name: count, dtype: int64


In [5]:
# Szukamy kolumn, gdzie brakuje więcej niż 50% danych
cols_to_drop = get_cols_with_missing_threshold(X_train_raw, threshold=0.5)

print(f"Liczba kolumn do usunięcia (>50% NaN): {len(cols_to_drop)}")
print(f"Przykładowe usuwane kolumny: {cols_to_drop[:10]}")

X_train_dropped = X_train_raw.drop(columns=cols_to_drop)
# Musimy usunąć te same kolumny z testu, żeby model miał te same wejścia.
X_test_dropped = X_test_raw.drop(columns=cols_to_drop)

print(f"Wymiary po usunięciu kolumn: {X_train_dropped.shape}")

Liczba kolumn do usunięcia (>50% NaN): 8
Przykładowe usuwane kolumny: ['ab_000', 'bm_000', 'bn_000', 'bo_000', 'bp_000', 'bq_000', 'br_000', 'cr_000']
Wymiary po usunięciu kolumn: (60000, 162)


In [6]:
#Imputacja
imputer_pipeline = get_imputation_pipeline(strategy='median')
#Uczymy się mediany na danych treningowych
imputer_pipeline.fit(X_train_dropped)

X_train_imputed = imputer_pipeline.transform(X_train_dropped)
X_test_imputed = imputer_pipeline.transform(X_test_dropped)

In [7]:
#Standaryzacja
scaler_pipeline = get_scaling_pipeline()
scaler_pipeline.fit(X_train_imputed) #Ważne, aby to było już po pozbyciu się wartości NaN

X_train_scaled = scaler_pipeline.transform(X_train_imputed)
X_test_scaled = scaler_pipeline.transform(X_test_imputed)

# Zamiana z powrotem na DataFrame (aby przywrócić nazwy kolumn - działanie SimpleImputer i StandardScaler)
X_train_final = pd.DataFrame(X_train_scaled, columns=X_train_dropped.columns)
X_test_final = pd.DataFrame(X_test_scaled, columns=X_test_dropped.columns)


#Sprawdzam czy wszystko na pewno ok
for i in range(X_train_final.shape[1]):
    if abs(X_train_final.iloc[:, i].mean()) > 0.0001 or abs(X_train_final.iloc[:, i].std() - 1) > 0.0001:
        print(f"    UWAGA: w {X_train_final.columns[i]}")
        print(f"    Średnia wyszła: {X_train_final.iloc[:, i].mean():.6f} (oczekiwano ~0)")
        print(f"    Odchylenie wyszło: {X_train_final.iloc[:, i].std():.6f} (oczekiwano ~1)")
    else:
        continue

    UWAGA: w cd_000
    Średnia wyszła: 0.000000 (oczekiwano ~0)
    Odchylenie wyszło: 0.000000 (oczekiwano ~1)


In [8]:
#Sprawdzenie spójności (Check train/test split)
check_split_integrity(X_train_final, X_test_final, y_train, y_test)

Kształt X_train: (60000, 162)
Kształt X_test:  (16000, 162)
Kolumny w obu zbiorach są zgodne.
Procent klasy pozytywnej (awaria) w Train: 1.67%
Procent klasy pozytywnej (awaria) w Test:  2.34%


In [9]:
os.makedirs('data/processed', exist_ok=True)

#Zapis zbioru treningowego
X_train_final.to_csv('data/processed/X_train.csv', index=False)
y_train.to_csv('data/processed/y_train.csv', index=False)

#Zapis zbioru testowego
X_test_final.to_csv('data/processed/X_test.csv', index=False)
y_test.to_csv('data/processed/y_test.csv', index=False)