# Part 1
## Load Data

In [7]:
import pandas as pd

train_df = pd.read_csv('train.csv', delimiter='\t')
test_df = pd.read_csv('test.csv', delimiter='\t')

# Display the first few rows
print(train_df.head())

   imageid       label                                     productname
0     2653        Bags            Murcia Women Leather Office Grey Bag
1    55997      Others  Colorbar Velvet Matte Temptation Lipstick 24MA
2     2640       Shoes           Carlton London Men Brown Formal Shoes
3    40565     Topwear                            W Women Maroon Kurta
4    38932  Bottomwear               Gini and Jony Girls Pink Leggings


In [8]:
from sklearn.preprocessing import LabelEncoder

label_encoder = LabelEncoder()

# Fit the encoder to the labels in both train and test datasets to ensure consistency
all_labels = pd.concat([train_df['label'], test_df['label']])
label_encoder.fit(all_labels)

# Transform labels in both datasets to integer encodings
train_df['label'] = label_encoder.transform(train_df['label'])
test_df['label'] = label_encoder.transform(test_df['label'])

## Data Preparation

In [9]:
import os
import torch
from torch.utils.data import Dataset, DataLoader
from torchvision import transforms
from PIL import Image

class FashionDataset(Dataset):
    def __init__(self, dataframe, image_dir, transform=None):
        self.dataframe = dataframe
        self.image_dir = image_dir
        self.transform = transform

    def __len__(self):
        return len(self.dataframe)

    def __getitem__(self, idx):
        img_name = os.path.join(self.image_dir, str(self.dataframe.iloc[idx, 0]) + '.jpg')
        image = Image.open(img_name)
        label = self.dataframe.iloc[idx, 1]
        if self.transform:
            image = self.transform(image)
        return image, label

### Define transformations and create data loaders

In [10]:
transform = transforms.Compose([
    transforms.Resize((128, 128)),  # Resize images
    transforms.Grayscale(num_output_channels=3),  # Convert images to RGB
    transforms.ToTensor(),  # Convert images to tensor
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),  # Normalize images
])


# Create dataset instances
train_dataset = FashionDataset(dataframe=train_df, image_dir='archive/images', transform=transform)
test_dataset = FashionDataset(dataframe=test_df, image_dir='archive/images', transform=transform)

# Create data loaders
train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=64, shuffle=True)

## Simple CNN Model

My baseline CNN model is designed with simplicity and efficiency in mind, aiming to achieve reasonable accuracy while keeping computational costs low. This model serves as a starting point for further experimentation and optimization.

I start with two convolutional layers, as these are fundamental in capturing the spatial hierarchies in images. The first layer has 32 filters, and the second has 64, progressively increasing the model's capacity to learn more complex features. Each uses a kernel size of 3x3, which is common in practice for balancing the trade-off between learning fine-grained and broader features.

Following each convolutional layer, we apply max pooling with a 2x2 window to reduce the spatial dimensions of the feature maps. This downsampling technique helps to make the model more invariant to small translations of the input image.

I use the ReLU activation function for its computational efficiency and its ability to mitigate the vanishing gradient problem, helping the model learn faster and more effectively.

The model transitions from convolutional layers to fully connected layers, which perform the classification based on the features extracted by the preceding layers. The first dense layer reduces to 128 units, concentrating the information into a more compact representation, followed by the final output layer with 13 units corresponding to the number of classes, using a softmax activation to produce probability distributions over the classes.

In [11]:
import torch.nn as nn
import torch.nn.functional as F

class FashionCNN(nn.Module):
    def __init__(self):
        super(FashionCNN, self).__init__()
        self.conv1 = nn.Conv2d(3, 32, kernel_size=3, padding=1)
        self.conv2 = nn.Conv2d(32, 64, kernel_size=3, padding=1)
        self.fc1 = nn.Linear(64 * 32 * 32, 128)  # Assuming images are resized to 128x128
        self.fc2 = nn.Linear(128, 13)  # 13 classes

    def forward(self, x):
        x = F.relu(F.max_pool2d(self.conv1(x), 2))
        x = F.relu(F.max_pool2d(self.conv2(x), 2))
        x = x.view(-1, 64 * 32 * 32)
        x = F.relu(self.fc1(x))
        x = self.fc2(x)
        return x

## Training

In [12]:
from tqdm import tqdm
import torch
import torch.nn as nn
from torch import optim
from torch.optim import lr_scheduler

def train_model(model, criterion, optimizer, scheduler, num_epochs=25):
    device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

    for epoch in range(num_epochs):
        print(f'Epoch {epoch+1}/{num_epochs}')
        print('-' * 10)

        # Each epoch has a training and validation phase
        for phase in ['train', 'val']:
            if phase == 'train':
                model.train()  # Set model to training mode
                dataloader = train_loader
            else:
                model.eval()   # Set model to evaluate mode
                dataloader = test_loader

            running_loss = 0.0
            running_corrects = 0

            for inputs, labels in tqdm(dataloader):
                inputs = inputs.to(device)  
                labels = labels.to(device).long()

                optimizer.zero_grad()

                with torch.set_grad_enabled(phase == 'train'):
                    outputs = model(inputs)
                    _, preds = torch.max(outputs, 1)
                    loss = criterion(outputs, labels)

                    if phase == 'train':
                        loss.backward()
                        optimizer.step()

                running_loss += loss.item() * inputs.size(0)
                running_corrects += torch.sum(preds == labels.data)

            if phase == 'train':
                scheduler.step()

            epoch_loss = running_loss / len(dataloader.dataset)
            epoch_acc = running_corrects.double() / len(dataloader.dataset)

            print(f'{phase.capitalize()} Loss: {epoch_loss:.4f} Acc: {epoch_acc:.4f}')

    return model

# Initialize the model, loss function, optimizer, and learning rate scheduler
model = FashionCNN().to(torch.device("cuda:0" if torch.cuda.is_available() else "cpu"))
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)
scheduler = lr_scheduler.StepLR(optimizer, step_size=7, gamma=0.1)

# Train the model
model_ft = train_model(model, criterion, optimizer, scheduler, num_epochs=25)

Epoch 1/25
----------


  0%|          | 0/632 [00:00<?, ?it/s]

  0%|          | 0/632 [00:01<?, ?it/s]


RuntimeError: "nll_loss_forward_reduce_cuda_kernel_2d_index" not implemented for 'Int'

## Testing

In [None]:
def test_model(model, test_loader):
    device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
    model.eval()  # Set the model to evaluation mode
    corrects = 0
    total = 0

    with torch.no_grad():
        for inputs, labels in tqdm(test_loader):
            inputs = inputs.to(device)
            labels = labels.to(device)

            outputs = model(inputs)
            _, preds = torch.max(outputs, 1)
            corrects += torch.sum(preds == labels.data).item()
            total += labels.size(0)

    accuracy = corrects / total
    print(f'Test Accuracy: {accuracy * 100:.2f}%')

    return accuracy


accuracy = test_model(model_ft, test_loader)

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 63/63 [00:05<00:00, 12.49it/s]

Test Accuracy: 94.97%





## Performance Conclusion

The model shows consistent improvement in training accuracy over the 25 epochs, starting from 86.98% in the first epoch and reaches 99.98% by the final epoch. Similarly, the training loss decreases significantly from 0.4392 in the first epoch to 0.0006 in the last epoch. This demonstrates the model's ability to learn effectively from the training data and its increasing proficiency in making accurate predictions over time. : The validation accuracy starts at a high note of 91.80% in the first epoch and sees slight improvements, peaking at 95.03% by the tenth epoch. After this point, the validation accuracy fluctuates slightly but remains relatively stable, ending at 94.97% in the final epoch. The validation loss decreases initially, reflecting the model's learning, but begins to plateau and slightly increase, suggesting the onset of overfitting to the training data. Despite this, the model maintains a high level of performance on the validation set, indicating good generalization capabilities up to a certain point.ce: The test accuracy of 94acy, sugsting that the model generalizes well to unseen data. This high level of accuracy on the test set indicates that the features learned by the model during training are robust and relevant to making accurate predictions outside the training dataset.

# Part 2

In [None]:
from torchvision import datasets, transforms

# Define transformations for the training data and validation data
train_transforms = transforms.Compose([
    transforms.RandomHorizontalFlip(),
    transforms.RandomRotation(10),
    transforms.RandomResizedCrop(128),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])

val_test_transforms = transforms.Compose([
    transforms.Resize(128),
    transforms.CenterCrop(128),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])

# Create dataset instances
train_dataset = FashionDataset(dataframe=train_df, image_dir='images', transform=transform)
test_dataset = FashionDataset(dataframe=test_df, image_dir='images', transform=transform)

# Create data loaders
train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=64, shuffle=True)

In [None]:
model = FashionCNN().to(torch.device("cuda:0" if torch.cuda.is_available() else "cpu"))
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)
scheduler = lr_scheduler.StepLR(optimizer, step_size=7, gamma=0.1)

# Train the model
model_ft = train_model(model, criterion, optimizer, scheduler, num_epochs=25)

Epoch 1/25
----------


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 632/632 [00:50<00:00, 12.47it/s]


Train Loss: 0.4829 Acc: 0.8687


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 63/63 [00:04<00:00, 13.12it/s]


Val Loss: 0.2618 Acc: 0.9158
Epoch 2/25
----------


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 632/632 [00:47<00:00, 13.36it/s]


Train Loss: 0.1980 Acc: 0.9386


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 63/63 [00:04<00:00, 14.17it/s]


Val Loss: 0.2318 Acc: 0.9275
Epoch 3/25
----------


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 632/632 [00:57<00:00, 10.95it/s]


Train Loss: 0.1244 Acc: 0.9610


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 63/63 [00:05<00:00, 12.58it/s]


Val Loss: 0.1963 Acc: 0.9373
Epoch 4/25
----------


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 632/632 [00:50<00:00, 12.49it/s]


Train Loss: 0.0745 Acc: 0.9756


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 63/63 [00:05<00:00, 12.52it/s]


Val Loss: 0.2519 Acc: 0.9290
Epoch 5/25
----------


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 632/632 [00:52<00:00, 11.96it/s]


Train Loss: 0.0500 Acc: 0.9834


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 63/63 [00:05<00:00, 12.51it/s]


Val Loss: 0.2652 Acc: 0.9397
Epoch 6/25
----------


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 632/632 [00:59<00:00, 10.70it/s]


Train Loss: 0.0336 Acc: 0.9899


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 63/63 [00:06<00:00,  9.16it/s]


Val Loss: 0.2735 Acc: 0.9403
Epoch 7/25
----------


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 632/632 [00:49<00:00, 12.70it/s]


Train Loss: 0.0278 Acc: 0.9916


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 63/63 [00:04<00:00, 13.98it/s]


Val Loss: 0.2806 Acc: 0.9407
Epoch 8/25
----------


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 632/632 [00:49<00:00, 12.73it/s]


Train Loss: 0.0094 Acc: 0.9976


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 63/63 [00:04<00:00, 14.01it/s]


Val Loss: 0.2748 Acc: 0.9493
Epoch 9/25
----------


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 632/632 [00:51<00:00, 12.23it/s]


Train Loss: 0.0041 Acc: 0.9993


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 63/63 [00:05<00:00, 12.52it/s]


Val Loss: 0.2905 Acc: 0.9487
Epoch 10/25
----------


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 632/632 [00:58<00:00, 10.77it/s]


Train Loss: 0.0029 Acc: 0.9994


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 63/63 [00:05<00:00, 10.56it/s]


Val Loss: 0.3019 Acc: 0.9485
Epoch 11/25
----------


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 632/632 [00:50<00:00, 12.41it/s]


Train Loss: 0.0024 Acc: 0.9994


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 63/63 [00:04<00:00, 13.97it/s]


Val Loss: 0.3190 Acc: 0.9490
Epoch 12/25
----------


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 632/632 [00:47<00:00, 13.20it/s]


Train Loss: 0.0022 Acc: 0.9994


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 63/63 [00:04<00:00, 14.06it/s]


Val Loss: 0.3222 Acc: 0.9493
Epoch 13/25
----------


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 632/632 [00:48<00:00, 13.05it/s]


Train Loss: 0.0020 Acc: 0.9994


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 63/63 [00:04<00:00, 14.12it/s]


Val Loss: 0.3349 Acc: 0.9503
Epoch 14/25
----------


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 632/632 [00:56<00:00, 11.22it/s]


Train Loss: 0.0018 Acc: 0.9995


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 63/63 [00:04<00:00, 13.62it/s]


Val Loss: 0.3424 Acc: 0.9497
Epoch 15/25
----------


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 632/632 [00:47<00:00, 13.22it/s]


Train Loss: 0.0012 Acc: 0.9997


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 63/63 [00:04<00:00, 14.19it/s]


Val Loss: 0.3446 Acc: 0.9497
Epoch 16/25
----------


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 632/632 [00:50<00:00, 12.42it/s]


Train Loss: 0.0011 Acc: 0.9997


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 63/63 [00:04<00:00, 14.01it/s]


Val Loss: 0.3475 Acc: 0.9505
Epoch 17/25
----------


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 632/632 [00:50<00:00, 12.40it/s]


Train Loss: 0.0010 Acc: 0.9997


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 63/63 [00:04<00:00, 14.21it/s]


Val Loss: 0.3496 Acc: 0.9507
Epoch 18/25
----------


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 632/632 [00:56<00:00, 11.11it/s]


Train Loss: 0.0009 Acc: 0.9996


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 63/63 [00:04<00:00, 12.61it/s]


Val Loss: 0.3530 Acc: 0.9500
Epoch 19/25
----------


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 632/632 [00:52<00:00, 12.05it/s]


Train Loss: 0.0009 Acc: 0.9997


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 63/63 [00:04<00:00, 13.83it/s]


Val Loss: 0.3563 Acc: 0.9503
Epoch 20/25
----------


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 632/632 [00:52<00:00, 12.11it/s]


Train Loss: 0.0008 Acc: 0.9997


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 63/63 [00:04<00:00, 14.20it/s]


Val Loss: 0.3580 Acc: 0.9500
Epoch 21/25
----------


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 632/632 [00:49<00:00, 12.76it/s]


Train Loss: 0.0008 Acc: 0.9997


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 63/63 [00:08<00:00,  7.24it/s]


Val Loss: 0.3613 Acc: 0.9503
Epoch 22/25
----------


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 632/632 [00:50<00:00, 12.50it/s]


Train Loss: 0.0007 Acc: 0.9998


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 63/63 [00:04<00:00, 14.13it/s]


Val Loss: 0.3617 Acc: 0.9503
Epoch 23/25
----------


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 632/632 [00:47<00:00, 13.24it/s]


Train Loss: 0.0007 Acc: 0.9998


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 63/63 [00:04<00:00, 14.24it/s]


Val Loss: 0.3622 Acc: 0.9505
Epoch 24/25
----------


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 632/632 [00:51<00:00, 12.17it/s]


Train Loss: 0.0007 Acc: 0.9998


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 63/63 [00:04<00:00, 12.87it/s]


Val Loss: 0.3626 Acc: 0.9505
Epoch 25/25
----------


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 632/632 [00:55<00:00, 11.34it/s]


Train Loss: 0.0007 Acc: 0.9998


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 63/63 [00:04<00:00, 14.07it/s]

Val Loss: 0.3631 Acc: 0.9505



