In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler

In [2]:
pathtrs='dataset/train_data.csv'
train=pd.read_csv(pathtrs)

In [3]:
print(train.head(10))

   age  fnlwgt  educational-num  capital-gain  capital-loss  hours-per-week  \
0   42  145175               10             0             0              40   
1   52  175029                6             0             0              35   
2   34  172664                9             0             0              40   
3   28  125791                9             0             0              40   
4   46   28419               11             0             0              50   
5   54  439608               10             0             0              40   
6   26   96645               16             0             0              20   
7   61  373099                4             0             0              40   
8   39  252327                4             0             0              40   
9   41   32627                9             0             0              40   

   income  workclass_Government  workclass_Other  workclass_Private Sector  \
0       0                     0                0    

In [4]:
pathts='dataset/test_data.csv'
test=pd.read_csv(pathts)

In [5]:
print(test.head(10))

   age  fnlwgt  educational-num  capital-gain  capital-loss  hours-per-week  \
0   56   33115                9             0             0              40   
1   25  112847                9             0             0              40   
2   43  170525               13         14344             0              40   
3   32  186788                9             0             0              40   
4   39  277886               13             0             0              30   
5   20  323009                9             0             0              40   
6   54  146834                9             0             0              45   
7   25  166977               13             0          1887              40   
8   30  209317                9             0             0              50   
9   33   92865               10             0             0              40   

   income  workclass_Government  workclass_Other  workclass_Private Sector  \
0       0                     0                0    

## Regolarizzazione dataset 
Il dataset va regolarizzato per poterlo usare nell'addestramento di una CNN. Ciò è necessario per avere uniformità della scala, accelerazione della convergenza, migliore stabilità numerica, compatibilità con funzioni di attivazione e consistenza nelle predizioni.    
La regolarizzazzione si fa usando il criterio min-max.  
Il calcolo del min e del max si fa usando il solo training set per evitare data leakage.  
Poi i valori min e max calcolati vengono usati per regolarizzare anche il test set.

In [6]:
# Inizializziamo lo scaler
scaler = MinMaxScaler()

# Fit del scaler solo sul training set
scaler.fit(train)

# Trasformiamo sia il training set che il test set
X_train_scaled = scaler.transform(train)
X_test_scaled = scaler.transform(test)

# Ora X_train_scaled e X_test_scaled sono normalizzati secondo il criterio Min-Max

## Reshaping del dataset
Il dataset è in forma tabulare per poterlo dare in pasto alla CNN deve avere una forma a griglia.  
in questo caso le feature sono 49 perciò la griglia sarà 7x7

## Salvataggio dataset

In [7]:
# Stampa le prime righe e i nomi delle colonne per identificare la colonna 'income'
print("Train DataFrame:")
print(train.head())
print("Colonne:", train.columns)

print("Test DataFrame:")
print(test.head())
print("Colonne:", test.columns)

# Identifica la colonna 'income'
if 'income' in train.columns:
    train_labels = train['income']
    train_features = train.drop(columns='income')
else:
    print("Colonna 'income' non trovata nel train set.")

if 'income' in test.columns:
    test_labels = test['income']
    test_features = test.drop(columns='income')
else:
    print("Colonna 'income' non trovata nel test set.")

# Converti le features in array NumPy e fai il reshape
train_features_array = train_features.to_numpy()
test_features_array = test_features.to_numpy()

# Reshape per ottenere la griglia 7x7
train_features_reshaped = train_features_array.reshape(-1, 7, 7, 1)
test_features_reshaped = test_features_array.reshape(-1, 7, 7, 1)

# Converti le etichette in array NumPy
train_labels_array = train_labels.to_numpy()
test_labels_array = test_labels.to_numpy()

# Salva le features e le etichette separatamente come file .npy
np.save('dataset/train_features.npy', train_features_reshaped)
np.save('dataset/train_labels.npy', train_labels_array)

np.save('dataset/test_features.npy', test_features_reshaped)
np.save('dataset/test_labels.npy', test_labels_array)

# Controlla le dimensioni
print(f"Train reshaped shape: {train_features_reshaped.shape}")
print(f"Test reshaped shape: {test_features_reshaped.shape}")
print(f"Train labels shape: {train_labels_array.shape}")
print(f"Test labels shape: {test_labels_array.shape}")



Train DataFrame:
   age  fnlwgt  educational-num  capital-gain  capital-loss  hours-per-week  \
0   42  145175               10             0             0              40   
1   52  175029                6             0             0              35   
2   34  172664                9             0             0              40   
3   28  125791                9             0             0              40   
4   46   28419               11             0             0              50   

   income  workclass_Government  workclass_Other  workclass_Private Sector  \
0       0                     0                0                         1   
1       0                     0                0                         0   
2       0                     1                0                         0   
3       0                     0                0                         1   
4       0                     0                0                         1   

   ...  race_White  gender_Female  gend

## Split in train e validation

In [None]:
# Carica i dati
train_features = np.load('dataset/train_features.npy')
train_labels = np.load('dataset/train_labels.npy')

# Definisci la proporzione di dati per il set di validazione
validation_split = 0.2  # 20% dei dati per validazione

# Split del set di addestramento in training e validation
X_train, X_val, y_train, y_val = train_test_split(
    train_features,
    train_labels,
    test_size=validation_split,
    random_state=42  # Imposta il seme per la riproducibilità
)

# Salva i nuovi set di dati
np.save('dataset/X_train.npy', X_train)
np.save('dataset/y_train.npy', y_train)
np.save('dataset/X_val.npy', X_val)
np.save('dataset/y_val.npy', y_val)

# Verifica le dimensioni
print(f"Train features shape: {X_train.shape}")
print(f"Validation features shape: {X_val.shape}")
print(f"Train labels shape: {y_train.shape}")
print(f"Validation labels shape: {y_val.shape}")
