In [None]:
import sys 
sys.path.append('/lustrehome/emanueleamato/.local/lib/python3.11/site-packages')
import torch
import numpy as np
import torchvision
import torch.nn as nn
import torch.optim as optim
import torchvision.transforms as transforms
from torch.utils.data import DataLoader
from torchvision import datasets

Controllo la shape delle immagini per definire il modello di DL

In [None]:
dataset_path ='/lustrehome/emanueleamato/ViT_Test/Train'
custom_dataset = datasets.ImageFolder(root=dataset_path)

# Ottieni una singola immagine dal dataset
image_pil, _ = custom_dataset[0]

# Converti l'immagine PIL in un array NumPy
image_np = np.array(image_pil)

# Controlla il numero di canali dell'immagine
num_channels = image_np.shape  # Assumendo che l'immagine sia nel formato (H, W, C) dopo la conversione
print("Numero di canali dell'immagine nel dataset:", num_channels)

In [None]:
# Definizione della CNN leggera

class SimpleCNN(nn.Module):
    def __init__(self):
        super(SimpleCNN, self).__init__()
        
        self.conv1 = nn.Conv2d(in_channels=3, out_channels=16, kernel_size=3, stride=1, padding=1)
        self.act1 = nn.ReLU()
        self.drop1 = nn.Dropout(0.3)
        self.conv2 = nn.Conv2d(in_channels=16, out_channels=32, kernel_size=3, stride=1, padding=1)
        self.act2 = nn.ReLU()  
        self.pool2 = nn.MaxPool2d(kernel_size=(2, 2),stride=2)
        self.conv3 = nn.Conv2d(in_channels=32, out_channels=64, kernel_size=3, stride=1, padding=1)
        self.pool3 = nn.MaxPool2d(kernel_size=(2, 2), stride=2)
        self.relu = nn.ReLU()
        self.fc1 = nn.Linear(64 * 56 * 56, 128)  
        self.fc2 = nn.Linear(128, 2)

    def forward(self, x):
        # Passo 1: Convoluzione -> Attivazione -> Dropout
        x = self.conv1(x)
        x = self.act1(x)
        x = self.drop1(x)
        
        # Passo 2: Convoluzione -> Attivazione -> Pooling
        x = self.conv2(x)
        x = self.act2(x)
        x = self.pool2(x)
        
        # Passo 3: Convoluzione -> Pooling
        x = self.conv3(x)
        x = self.pool3(x)
        
        # Appiattimento (flatten)
        x = torch.flatten(x, 1)
        
        # Passo 4: Fully Connected Layer -> Attivazione
        x = self.fc1(x)
        x = self.relu(x)
        
        # Passo 5: Fully Connected Layer (output layer)
        x = self.fc2(x)
        
        return x


Controllo la dimensione dei miei tensori  

In [None]:
x=torch.ones((324,3,224,224))
model=SimpleCNN()
model(x).shape

In [None]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print(device)

# Addestro il modello 

In [None]:
# Iperparametri
batch_size = 324
learning_rate = 0.001
num_epochs = 5

# Trasformazioni per il tuo dataset di immagini
transform = transforms.Compose([
    transforms.Resize((224, 224)),  # Adatta le dimensioni delle immagini alle esigenze della CNN
    transforms.ToTensor(),
])

#Questi tensori sono sulla CPU, poichè sposterò il modello sulla GPU, anche i Tensori devono andare in GPU altriemnti sarebbe un problema.
train_ds = torchvision.datasets.ImageFolder('/lustrehome/emanueleamato/ViT_Test/Train', transform=transform)
test_ds = torchvision.datasets.ImageFolder('/lustrehome/emanueleamato/ViT_Test/Test', transform=transform)

print("Number of train samples: ", len(train_ds))
print("Number of test samples: ", len(test_ds))
print("Detected Classes are: ", train_ds.class_to_idx)

# Crea i dataloader
train_loader = DataLoader(dataset=train_ds, batch_size=batch_size, shuffle=True)
test_loader = DataLoader(dataset=test_ds, batch_size=batch_size, shuffle=False)

# Definisci il modello
model = SimpleCNN()

# Definisci la funzione di perdita e l'ottimizzatore
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=learning_rate)

# Addestra il modello
for epoch in range(num_epochs):
    model.train()
    running_loss = 0.0
    correct_predictions = 0
    total_predictions = 0
    
    for batch_idx, (images, labels) in enumerate(train_loader):

        optimizer.zero_grad()
        
        #Sposto i tensori delle immagini contenuti nel trainloader in CPU sulla GPU
        #images.to(device)
        
        outputs = model(images)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()
        
        running_loss += loss.item() * images.size(0)
        
        # Calcola l'accuratezza per batch
        _, predicted = torch.max(outputs, 1)
        correct_predictions += (predicted == labels).sum().item()
        total_predictions += labels.size(0)
        
        # Stampa l'accuratezza per batch
        batch_accuracy = (correct_predictions / total_predictions) * 100.0
        print(f'Epoch [{epoch+1}/{num_epochs}], Batch [{batch_idx+1}/{len(train_loader)}], '
              f'Loss: {loss.item():.4f}, Accuracy: {batch_accuracy:.2f}%')
    
    # Calcola la perdita media per epoca
    epoch_loss = running_loss / len(train_loader.dataset)
    print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {epoch_loss:.4f}, Accuracy: {batch_accuracy:.2f}%')
