# Feature Engineering

### Caricamento dei file train_data_labeled.pkl 

In [44]:
import os
import pandas as pd

path_dataframes = "dataset/dataframes"
file_path = os.path.join(path_dataframes, "train_data_labeled.pkl")

# Carica il DataFrame usando pd.read_pickle
df_train_labeled = pd.read_pickle(file_path)

Stampo info sul dataset

In [45]:
df_train_labeled.head(5)


Unnamed: 0,TIME,P1,P2,P3,P4,P5,P6,P7,Case,Spacecraft,...,SV3,SV4,BP1,BP2,BP3,BP4,BP5,BP6,BP7,BV1
0,0.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,1,1,...,100,100,No,No,No,No,No,No,No,No
1,0.001,2.0,2.0,2.0,2.0,2.0,2.0,2.0,1,1,...,100,100,No,No,No,No,No,No,No,No
2,0.002,2.0,2.0,2.0,2.0,2.0,2.0,2.0,1,1,...,100,100,No,No,No,No,No,No,No,No
3,0.003,2.0,2.0,2.0,2.0,2.0,2.0,2.0,1,1,...,100,100,No,No,No,No,No,No,No,No
4,0.004,2.0,2.0,2.0,2.0,2.0,2.0,2.0,1,1,...,100,100,No,No,No,No,No,No,No,No


In [46]:
print("\nDimensione del DataFrame:")
print(df_train_labeled.shape)


Dimensione del DataFrame:
(212577, 23)


Funzione che calcola le metriche nel dominio del tempo:

In [47]:
import numpy as np

def time_domain_metrics(signal):
    """
    Calcola le metriche nel dominio del tempo per un array 1D (signal).
    Restituisce un dizionario con i valori calcolati.
    """
    metrics = {}
    metrics["mean"] = np.mean(signal)
    metrics["median"] = np.median(signal)
    metrics["p25"] = np.percentile(signal, 25)
    metrics["p75"] = np.percentile(signal, 75)
    metrics["variance"] = np.var(signal)
    metrics["line_integral"] = np.trapezoid(signal)  # approssima l'integrale
    metrics["min"] = np.min(signal)
    metrics["max"] = np.max(signal)
    return metrics

Funzione che calcola le metriche nel dominio della frequenza (FFT)

In [48]:
def frequency_domain_metrics(signal, sampling_rate=1000):
    """
    Calcola alcune metriche spettrali (fft) per un array 1D (signal).
    Restituisce un dizionario con i valori calcolati.
    Puoi estendere questa funzione con SNR, SINAD, ecc.
    """
    fft_result = np.fft.fft(signal)
    freqs = np.fft.fftfreq(len(signal), d=1/sampling_rate)
    
    # Teniamo solo le frequenze positive (>0), escludendo la componente DC
    positive_indices = np.where(freqs > 0)
    fft_result = fft_result[positive_indices]
    freqs = freqs[positive_indices]
    
    power_spectrum = np.abs(fft_result) ** 2
    
    # Esempio di metriche spettrali basilari
    metrics = {}
    metrics["peak_value"] = np.max(power_spectrum)
    metrics["peak_freq"] = freqs[np.argmax(power_spectrum)]
    metrics["sum_power_spectrum"] = np.sum(power_spectrum)
    metrics["std_power_spectrum"] = np.std(power_spectrum)
    
    # (Facoltativo) Esempio di RMS nel dominio frequenziale
    metrics["rms_freq"] = np.sqrt(np.mean(power_spectrum))
    
    return metrics

Funzione per aggregare un singolo Case

In [49]:
def aggregate_case(case_group, sampling_rate=1000):
    """
    case_group: subset del DataFrame per un singolo Case
    Ritorna un dizionario con le metriche calcolate per P1..P7.
    """
    result = {}
    
    # Per le colonne che rimangono invariate all'interno dello stesso Case,
    # prendiamo il valore dalla prima riga (o dall'ultima, è uguale).
    # Aggiungile a piacimento (Spacecraft, Condition, ecc.)
    columns_to_keep = ["Spacecraft", "Condition",
                       "SV1", "SV2", "SV3", "SV4", "BP1", "BP2", "BP3", 
                       "BP4", "BP5", "BP6", "BP7", "BV1"]
    for col in columns_to_keep:
        if col in case_group.columns:
            result[col] = case_group[col].iloc[0]
    
    # Per ogni colonna di segnale (P1..P7) calcoliamo le metriche
    signal_columns = [col for col in case_group.columns 
                      if col.startswith("P") and col not in columns_to_keep]
    
    for col in signal_columns:
        signal = case_group[col].values
        
        # Calcolo metriche dominio del tempo
        td_metrics = time_domain_metrics(signal)
        # Calcolo metriche dominio della frequenza
        fd_metrics = frequency_domain_metrics(signal, sampling_rate=sampling_rate)
        
        # Inseriamo le metriche nel dizionario finale con un prefisso
        for k, v in td_metrics.items():
            result[f"{col}_time_{k}"] = v
        for k, v in fd_metrics.items():
            result[f"{col}_freq_{k}"] = v
    
    return result

Funzione per splittare i dati in 3 finestre temporali, per poi aggregare per ogni split, triplicando così i dati di training

In [50]:
import pandas as pd

def split_and_aggregate(df, sampling_rate=1000):
    """
    Suddivide ogni Case in 3 finestre temporali e calcola le metriche per ogni finestra.
    """
    window_size = 0.4  # 400ms
    windows = [(0, 0.4), (0.4, 0.8), (0.8, 1.2)]
    
    aggregated_data = []

    for case, case_group in df.groupby("Case"):
        for i, (start, end) in enumerate(windows):
            # Filtra la finestra temporale
            window_data = case_group[(case_group["TIME"] >= start) & (case_group["TIME"] < end)]
            
            if not window_data.empty:
                # Aggrega le metriche per questa finestra
                agg_result = aggregate_case(window_data, sampling_rate)
                agg_result["Case"] = case
                agg_result["Window_ID"] = i + 1  # Identificatore della finestra
                aggregated_data.append(agg_result)

    return pd.DataFrame(aggregated_data)

Creo il nuovo dataframe di training triplicato

In [51]:
# Applica la funzione di aggregazione con finestre
df_aggregated = split_and_aggregate(df_train_labeled)

# Mostra il risultato con print
print(df_aggregated.shape)
df_aggregated.head()


(531, 107)


Unnamed: 0,Spacecraft,Condition,SV1,SV2,SV3,SV4,BP1,BP2,BP3,BP4,...,P7_time_line_integral,P7_time_min,P7_time_max,P7_freq_peak_value,P7_freq_peak_freq,P7_freq_sum_power_spectrum,P7_freq_std_power_spectrum,P7_freq_rms_freq,Case,Window_ID
0,1,Normal,100,100,100,100,No,No,No,No,...,784.90658,0.017144,5.013518,5020.028779,65.0,26930.154869,501.116403,11.633031,1,1
1,1,Normal,100,100,100,100,No,No,No,No,...,787.373792,-0.002641,5.016796,5610.686996,65.0,26048.487157,508.501184,11.441019,1,2
2,1,Normal,100,100,100,100,No,No,No,No,...,789.525599,-0.003006,5.017115,5325.708422,64.837905,26122.28433,501.853078,11.428535,1,3
3,1,Normal,100,100,100,100,No,No,No,No,...,785.2146,-0.002262,4.99483,5071.356039,65.0,27028.792007,505.424186,11.654316,2,1
4,1,Normal,100,100,100,100,No,No,No,No,...,787.175441,-0.003732,4.999298,5609.065086,65.0,26860.719421,520.657365,11.618024,2,2


In [52]:
# Controllo del bilanciamento delle finestre temporali
print(df_aggregated['Window_ID'].value_counts())

Window_ID
1    177
2    177
3    177
Name: count, dtype: int64


Esporto il df triplicato in csv e in pickle nella cartella dataframes

In [57]:
# Definisci il percorso della cartella di destinazione
output_dir = "dataset/dataframes"
os.makedirs(output_dir, exist_ok=True)  # Crea la cartella se non esiste

# Definisci il percorso completo per il file CSV
output_path = os.path.join(output_dir, "train_data_aggregated_split.csv")
output_path_pkl = os.path.join(output_dir, "train_data_aggregated_split.pkl")

# Esporta il DataFrame in CSV
df_aggregated.to_csv(output_path, index=False)
df_aggregated.to_pickle(output_path_pkl)


## Facciamo la stessa cosa per il test

Prendo il dataset di test con le 'label'

In [54]:
path_dataframes = "dataset/dataframes"
file_path = os.path.join(path_dataframes, "test_data_labeled.pkl")

# Carica il DataFrame usando pd.read_pickle
df_test_labeled = pd.read_pickle(file_path)

Aggreghiamo e split

In [58]:
# Applica la funzione di aggregazione con finestre
df_test_aggregated = split_and_aggregate(df_test_labeled)

# Mostra il risultato con print
print(df_test_aggregated.shape)
df_test_aggregated.head(10)

(138, 94)


Unnamed: 0,Spacecraft,P1_time_mean,P1_time_median,P1_time_p25,P1_time_p75,P1_time_variance,P1_time_line_integral,P1_time_min,P1_time_max,P1_freq_peak_value,...,P7_time_line_integral,P7_time_min,P7_time_max,P7_freq_peak_value,P7_freq_peak_freq,P7_freq_sum_power_spectrum,P7_freq_std_power_spectrum,P7_freq_rms_freq,Case,Window_ID
0,1,1.984074,1.968528,1.897964,2.057444,0.089958,791.60987,0.599879,4.409431,1187.765081,...,784.721639,-0.001597,4.957685,3639.567068,62.5,25240.991187,404.25203,11.262289,178,1
1,1,1.984509,1.963438,1.898697,2.057745,0.090624,791.774258,0.561861,4.411653,1202.301221,...,787.517554,-0.003549,4.95983,3945.055858,62.5,23656.785685,391.929474,10.903133,178,2
2,1,1.984681,1.963766,1.89907,2.057667,0.090409,793.837928,0.561754,4.411926,1228.61972,...,789.760005,-0.003637,4.960276,3979.709606,62.34414,23695.311811,390.011746,10.884694,178,3
3,1,1.984472,1.96034,1.892148,2.062852,0.093266,791.761654,0.479821,4.100935,1256.382067,...,785.035029,0.054438,5.082534,4950.370311,65.0,27089.99764,499.897599,11.667504,179,1
4,1,1.985048,1.958879,1.894102,2.063106,0.093737,791.96921,0.4539,4.103057,1253.972941,...,787.510919,-0.002586,5.085373,5538.603524,65.0,25996.746576,504.627198,11.429651,179,2
5,1,1.985274,1.959431,1.894454,2.062764,0.09353,794.048758,0.453799,4.103312,1196.854862,...,789.706179,-0.002775,5.085864,5266.783208,64.837905,26062.265816,498.435789,11.415399,179,3
6,1,1.98444,1.961368,1.892301,2.058812,0.094869,791.748228,0.462211,4.260331,1265.48403,...,784.094944,-0.005444,4.997548,4825.578371,65.0,26225.137975,480.246829,11.479748,180,1
7,1,1.985128,1.958562,1.893963,2.059024,0.095242,791.999675,0.436941,4.262515,1267.293923,...,783.756597,-0.002648,5.001972,4758.036912,65.0,27288.839543,465.545005,11.710245,180,2
8,1,1.985348,1.959714,1.894225,2.058572,0.095028,794.076633,0.436712,4.26276,1208.996609,...,787.692727,-0.002983,5.000872,4807.319495,64.837905,26487.770659,475.790313,11.508208,180,3
9,1,1.984485,1.959423,1.892123,2.059063,0.094856,791.766312,0.468537,4.276943,1265.232117,...,786.880091,-0.001151,4.990073,4923.34935,65.0,26207.816478,487.507119,11.475956,181,1


Esporto il df di test triplicato

In [59]:
# Definisci il percorso della cartella di destinazione
output_dir = "dataset/dataframes"
os.makedirs(output_dir, exist_ok=True)  # Crea la cartella se non esiste

# Definisci il percorso completo per il file CSV
output_path = os.path.join(output_dir, "test_data_aggregated_split.csv")
output_path_pkl = os.path.join(output_dir, "test_data_aggregated_split.pkl")

# Esporta il DataFrame in CSV
df_test_aggregated.to_csv(output_path, index=False)
df_test_aggregated.to_pickle(output_path_pkl)
