# Rede Neural Convolucional (Convolutional Neural Network - CNN)
## Autor: Mariano F.M.A.S.
### Data: 22/07/2023


Neste notebook, exploramos como otimizar e melhorar o treinamento de um modelo de Rede Neural Convolucional (CNN) usando PyTorch. Reaproveitamos parte das função construidas em `2-neural-network-mnist-digit-recognizer-cnn`.

# Objetivos:

- Aumenta o cojunto de dados criando dadasets com diferentes com transforms.

- Aumenta o cojunto de dados criando dadasets com ruído.

- Aplicar a otimização Dropout.

- Aplicar a otimização L2 no Modelo. 

- Aplicar a validação cruzada (cross-validation) no treinamento.


# Biblioteca"transforms" 

A biblioteca "transforms" do torchvision é uma parte importante da biblioteca de visão computacional PyTorch (torchvision). Essa biblioteca fornece uma variedade de transformações pré-definidas que podem ser aplicadas a imagens ou dados antes ou durante o treinamento de modelos de aprendizado de máquina, especialmente em tarefas de visão computacional.

As transformações do torchvision são frequentemente usadas em conjunto com o DataLoader do PyTorch para preparar e pré-processar dados antes de alimentá-los aos modelos. Elas são especialmente úteis quando se trabalha com conjuntos de dados complexos ou quando é necessário realizar várias operações de pré-processamento em lotes de dados.

Alguns exemplos comuns de transformações disponíveis na biblioteca "transforms" do torchvision incluem:

1. **Resizing (Redimensionamento)**: Permite redimensionar as imagens para um tamanho específico, para que todas tenham a mesma dimensão.

2. **Cropping (Corte)**: Corta uma região específica da imagem, útil para extrair uma região de interesse ou para data augmentation (aumento de dados).

3. **Flipping (Inversão)**: Realiza inversões horizontais ou verticais nas imagens, o que também é usado para data augmentation.

4. **Rotating (Rotação)**: Rotaciona a imagem em um determinado ângulo, útil para aumentar a variedade de orientações nas imagens de treinamento.

5. **Normalização**: Normaliza as intensidades dos pixels da imagem, geralmente subtraindo a média e dividindo pelo desvio padrão, para facilitar o treinamento.

6. **Conversão em tensor**: Converte a imagem em um tensor do PyTorch, pois os modelos do PyTorch trabalham com tensores.

Essas são apenas algumas das transformações disponíveis. Existem muitas outras transformações úteis para diferentes tarefas e necessidades específicas.
 
#  Ruído Gaussiano 
Criar ruído gaussiano em uma imagem significa adicionar variações aleatórias aos valores dos pixels da imagem seguindo uma distribuição normal (gaussiana). Essas variações aleatórias são representadas como amostras de uma distribuição normal com média zero e um desvio padrão específico.

A distribuição normal, também conhecida como distribuição gaussiana, é uma distribuição estatística que é simétrica em torno de sua média, formando uma curva em forma de sino. Ela é caracterizada pelos parâmetros média (μ) e desvio padrão (σ).

Quando adicionamos ruído gaussiano a uma imagem, estamos inserindo valores aleatórios com uma certa magnitude (amplitude) para cada pixel da imagem, resultando em pequenas variações na intensidade dos pixels. Essas variações são controladas pelo desvio padrão do ruído gaussiano.

Os efeitos do ruído gaussiano dependem do desvio padrão escolhido. Um desvio padrão maior resultará em variações mais pronunciadas e, portanto, em um ruído mais perceptível na imagem.

Adicionar ruído gaussiano a imagens pode ser útil em várias situações, como:

1. Simulação de ambientes ruidosos para testar a robustez de algoritmos de processamento de imagens.

2. Aumento de dados (data augmentation) durante o treinamento de modelos de visão computacional, tornando-os mais robustos em relação a variações nas imagens de entrada.

3. Estudo e análise de métodos de filtragem e remoção de ruído.


 
# Dropout

A otimização Dropout é uma técnica utilizada para evitar o overfitting e melhorar a generalização do modelo. O overfitting ocorre quando um modelo de rede neural se torna muito especializado nos dados de treinamento e tem dificuldade em generalizar para novos dados. Isso pode acontecer quando a rede se torna muito complexa e memoriza os detalhes específicos dos exemplos de treinamento, em vez de aprender padrões gerais que se aplicam a novos dados.

O Dropout é uma abordagem simples, porém eficaz, para mitigar o overfitting. Durante o treinamento da rede neural, o Dropout desativa aleatoriamente (com probabilidade p) um conjunto de unidades (neurônios) em cada camada. Isso significa que essas unidades não serão atualizadas e não contribuirão para o processo de aprendizado nessa iteração específica.

Esse processo de desativação aleatória força a rede neural a ser mais robusta e evita que unidades específicas se tornem excessivamente dependentes de outras unidades para a correção de erros. Dessa forma, a rede neural é incentivada a aprender representações mais independentes e generalizáveis dos dados.

Durante a fase de inferência ou teste, o Dropout não é aplicado, e todas as unidades da rede estão ativas. No entanto, os pesos da rede são ajustados para compensar o efeito do Dropout, de modo que o modelo retorne resultados precisos durante a inferência.
 

# Regularização L1 e L2

**Regularização L1 (Lasso):**
- Objetivo: Evitar o overfitting e selecionar características importantes.
- O que faz: Adiciona um termo à função de perda proporcional à soma dos valores absolutos dos coeficientes dos parâmetros do modelo.
- Impacto nos coeficientes: Pode tornar alguns coeficientes exatamente zero, eliminando características irrelevantes.
- Seleção de recursos: Ajuda a identificar quais recursos são mais importantes para o modelo.
- Uso: Útil quando suspeitamos que muitos recursos sejam irrelevantes.

**Regularização L2 (Ridge):**
- Objetivo: Evitar o overfitting e tornar o modelo mais robusto.
- O que faz: Adiciona um termo à função de perda proporcional à soma dos quadrados dos coeficientes dos parâmetros do modelo.
- Impacto nos coeficientes: Diminui o impacto dos coeficientes, mas não os torna exatamente zero.
- Espalhamento dos valores: Tende a espalhar os valores dos parâmetros, evitando que fiquem muito grandes.
- Uso: Útil para evitar que o modelo seja muito sensível a pequenas variações nos dados de treinamento.
- A Regularização L2 é aplicada através do uso do argumento `weight_decay` em um otimizador. O valor de weight_decay controla o termo de regularização L2 adicionado ao otimizador.

**Escolhendo entre L1 e L2:**
- Regularização L1 é útil quando se suspeita que muitos recursos sejam irrelevantes e queremos selecionar os mais importantes.
- Regularização L2 é mais comum e geralmente funciona bem em muitos casos, evitando o overfitting e tornando o modelo mais estável.

**Elastic Net:**
- Além de L1 e L2, existe uma combinação chamada Elastic Net, que combina as duas regularizações.
- Elastic Net controla a força de ambas as regularizações com dois hiperparâmetros: um para L1 e outro para L2.
 
# Validação Cruzada (Cross-Validation)

A validação cruzada (cross-validation) é uma técnica usada para avaliar o desempenho de um modelo de aprendizado de máquina e estimar como ele irá se comportar em dados não vistos. Essa técnica é especialmente útil quando se tem um conjunto limitado de dados para treinamento e é necessário obter uma estimativa mais robusta do desempenho do modelo.

O processo de validação cruzada envolve a divisão do conjunto de dados em subconjuntos de treinamento e teste, permitindo que o modelo seja treinado e avaliado várias vezes com diferentes divisões dos dados. A ideia básica é a seguinte:

1. Divisão dos dados: O conjunto de dados é dividido em k subconjuntos (ou "dobras") de aproximadamente o mesmo tamanho. Por exemplo, se escolhermos k = 5, o conjunto de dados será dividido em 5 partes.

2. Treinamento e teste: O modelo é treinado k vezes. Em cada iteração, um dos k subconjuntos é usado como conjunto de teste, enquanto os outros k-1 subconjuntos são usados como conjunto de treinamento.

3. Avaliação do desempenho: Em cada iteração, o modelo é avaliado no conjunto de teste, e as métricas de desempenho, como acurácia, precisão, recall ou outras métricas relevantes para o problema, são registradas.

4. Média dos resultados: Ao final das k iterações, a média das métricas de desempenho é calculada, fornecendo uma estimativa geral do desempenho do modelo.

O método mais comum de validação cruzada é a validação cruzada k-fold (k-fold cross-validation). Nesse método, os dados são divididos em k partes de tamanhos semelhantes, e o modelo é treinado e avaliado k vezes, cada vez usando um conjunto diferente como conjunto de teste. A média das métricas de desempenho calculadas nas k iterações é considerada uma estimativa mais robusta do desempenho do modelo em dados não vistos.

A validação cruzada é uma técnica fundamental para evitar o overfitting e obter uma estimativa mais confiável do desempenho do modelo. Ela é especialmente importante quando se trabalha com conjuntos de dados pequenos ou quando a distribuição dos dados não é representativa em relação aos dados futuros que o modelo encontrará.
 

# Rede Neural Convolucional (Convolutional Neural Network - CNN)
 

In [None]:
import os
import torch
import numpy as np
import scipy
import pandas as pd
import seaborn as sns
import torch.nn as nn
import torch.nn.functional as F
import matplotlib.pyplot as plt
from torchvision import transforms
from torch.utils.data import Dataset, DataLoader, ConcatDataset
from sklearn.preprocessing import label_binarize
from sklearn.metrics import average_precision_score
from sklearn.model_selection import train_test_split
from sklearn.metrics import precision_recall_curve, matthews_corrcoef, cohen_kappa_score, classification_report
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score, roc_curve, auc  
#from itertools import cycle 
 
    
from PIL import Image
from torch.utils.data import Subset
import torch.optim as optim
import torch.optim.lr_scheduler as lr_scheduler
from torch.optim.lr_scheduler import StepLR
from torch.optim.lr_scheduler import ReduceLROnPlateau

    
# Checking GPU is available 
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print("Training on device: ", device)



# Carregando os dados

In [None]:
# Importando os dados

# Dados de treinamento  
train = pd.read_csv('/kaggle/input/digit-recognizer/train.csv')
# Dados para validação do modelo
test_data  = pd.read_csv('/kaggle/input/digit-recognizer/test.csv')


# Dados de treinamento 
#train = pd.read_csv('digit-recognizer/train.csv')
# Dados para validação do modelo
#test_data  = pd.read_csv('digit-recognizer/test.csv')



In [None]:
train

## Criando os Dataset 

Agora estaremos usando os dados como imagens (matrizes de pixels) invés de vetores (1D), então modificamos o retorno da função Dataset.

O método `reshape()` é usado para alterar a forma de um array sem alterar seus dados. Ele retorna um array que contém os mesmos dados que o array original, mas com uma nova forma.

No caso, `.reshape((1, 28, 28))` está alterando a forma do array para ter uma forma de `(1, 28, 28)`. Isso significa que o array resultante terá três dimensões, com o tamanho da primeira dimensão sendo 1, o tamanho da segunda dimensão sendo 28 e o tamanho da terceira dimensão sendo 28.

Em termos de imagens, isso geralmente é usado para formatar uma imagem plana 1D em uma imagem 2D. No conjunto de dados MNIST cada imagem é de 28x28 pixels, mas as imagens são armazenadas como arrays 1D de 784 elementos. Então, `.reshape((1, 28, 28))` está reformatando essa imagem 1D em uma imagem 2D de 28x28 pixels. A dimensão extra (1) é usada para indicar o número de canais de cor na imagem. Neste caso, é 1 porque as imagens MNIST são em escala de cinza e, portanto, têm apenas um canal de cor.

### Transforms - RandomAffine

**Função `transforms.RandomAffine`:**
A função `transforms.RandomAffine` é uma transformação de data augmentation (aumento de dados) disponível na biblioteca `transforms` do torchvision, que é amplamente utilizada em tarefas de visão computacional. Essa transformação aplica uma combinação de translações, rotações, escalas e cisalhamentos aleatórios nas imagens durante o treinamento do modelo. Isso é útil para aumentar a variedade dos dados de treinamento e melhorar a capacidade de generalização do modelo.

**Parâmetros:**
A função `transforms.RandomAffine` aceita vários parâmetros que controlam a quantidade e o tipo de transformações aleatórias aplicadas nas imagens. Os principais parâmetros são os seguintes:

1. `degrees`: Define o intervalo de rotação aleatória em graus. Por exemplo, `degrees=(-15, 15)` fará com que a imagem seja rotacionada aleatoriamente entre -15 e 15 graus.

2. `translate`: Define o intervalo de translação aleatória em pixels. Por exemplo, `translate=(0.1, 0.1)` permitirá uma translação aleatória de até 10% da altura e largura da imagem.

3. `scale`: Define o intervalo de escalas aleatórias. Por exemplo, `scale=(0.8, 1.2)` fará com que a imagem seja escalada aleatoriamente entre 80% e 120% do tamanho original.

4. `shear`: Define o intervalo de cisalhamento aleatório em graus. Por exemplo, `shear=(-10, 10)` fará com que a imagem seja inclinada aleatoriamente entre -10 e 10 graus.

**Funcionamento:**
Quando aplicada a uma imagem, a função `transforms.RandomAffine` seleciona aleatoriamente os parâmetros de rotação, translação, escala e cisalhamento de acordo com os intervalos especificados nos parâmetros. Em seguida, ela aplica essas transformações à imagem, gerando uma nova imagem aumentada. O modelo é então treinado usando essa nova imagem, juntamente com as outras transformações e os dados originais.
 
 
 

#### interpolation

O parâmetro `interpolation` em `transforms.RandomAffine` e outras transformações de imagem no PyTorch define o método de interpolação a ser usado durante as transformações geométricas. A interpolação é um processo utilizado para estimar os valores de pixels em uma imagem após uma transformação que resulta em posições de pixel não inteiras.

Quando aplicamos transformações como rotação, translação, escala ou cisalhamento em uma imagem, os pixels originais podem se mover para posições não inteiras na imagem transformada. Para determinar os valores de pixel nessas novas posições, é necessário realizar um cálculo de interpolação, que é uma estimativa baseada nos valores dos pixels vizinhos na imagem original.

O parâmetro `interpolation` pode receber um dos seguintes valores:

- `False` (padrão): Isso significa que a interpolação bilinear será usada. A interpolação bilinear estima os valores dos pixels na imagem transformada através de uma média ponderada dos quatro pixels vizinhos mais próximos. É um método de interpolação suave e é adequado para a maioria das transformações geométricas.

- `Image.NEAREST`: Isso indica o método de interpolação de vizinho mais próximo, também conhecido como interpolação por pixel mais próximo. Nesse método, o valor do pixel mais próximo na imagem original é atribuído ao novo pixel na imagem transformada. Essa interpolação é rápida e útil quando você deseja preservar características distintas e nítidas nas imagens, mas pode levar a resultados menos suaves em algumas transformações.

- `Image.BOX`: Isso usa a interpolação da média de caixa (box averaging), que é similar à interpolação bilinear, mas considera uma área maior de pixels vizinhos. Ela é ligeiramente mais rápida do que a interpolação bilinear, mas pode resultar em resultados menos suaves.

- `Image.BILINEAR`: Este é o mesmo que usar `False`, ou seja, a interpolação bilinear será usada.

- `Image.HAMMING`: Usa a interpolação de janela de Hamming, que é uma variação da interpolação bilinear. Pode ser mais suave que a interpolação bilinear, mas é mais lenta.

- `Image.BICUBIC`: Usa a interpolação bicúbica, que leva em consideração 16 pixels vizinhos para estimar o novo valor do pixel. É uma interpolação mais precisa, mas mais lenta que a bilinear.

Cada método de interpolação tem suas próprias características e é mais adequado para diferentes tipos de transformações e efeitos desejados. Em geral, a interpolação bilinear é amplamente usada e fornece resultados satisfatórios na maioria dos casos. Se você tiver necessidades específicas ou quiser obter resultados mais nítidos ou suaves, pode experimentar diferentes métodos de interpolação.

Para imagens em preto e branco (ou monocromáticas), geralmente o método de interpolação mais adequado é o `Image.NEAREST`, também conhecido como interpolação por vizinho mais próximo.

O método `Image.NEAREST` atribui a cada novo pixel na imagem transformada o valor do pixel mais próximo na imagem original. Isso significa que a interpolação preservará as características distintas da imagem original e produzirá resultados nítidos e sem suavização. Como as imagens em preto e branco geralmente têm contornos claros e definidos, esse método de interpolação é adequado para preservar essas características importantes.

A interpolação bilinear (usada por padrão quando `interpolation=False` ou `Image.BILINEAR`) leva em consideração uma área maior de pixels vizinhos para estimar os novos valores de pixel. Isso pode suavizar as bordas e detalhes nas imagens em preto e branco, o que pode não ser desejado, especialmente se você deseja manter a nitidez das características distintas.

Portanto, se você está trabalhando com imagens em preto e branco e deseja preservar a nitidez das características, é recomendado usar `interpolation=Image.NEAREST` ao aplicar transformações geométricas como rotação, translação, escala ou cisalhamento. Isso garantirá que as transformações sejam aplicadas sem suavização e que a aparência geral da imagem preto e branco seja preservada.

In [None]:
class MNISTDataset(Dataset):
    def __init__(self, data, transform=None, add_noise=False, noise_mean=0, noise_std=0.1):
        """
        Inicialização da classe MNISTDataset.

        Parâmetros:
        - data: DataFrame contendo os dados do conjunto de dados MNIST.
        - transform: Objeto de transformação para aplicar nas imagens (opcional).
        - add_noise: Booleano que indica se deseja adicionar ruído gaussiano às imagens (opcional).
        - noise_mean: Média do ruído gaussiano (padrão é 0, opcional).
        - noise_std: Desvio padrão do ruído gaussiano (padrão é 0.1, opcional).
        """
        self.data = data
        self.transform = transform
        self.add_noise = add_noise
        self.noise_mean = noise_mean
        self.noise_std = noise_std

    def __len__(self):
        """
        Retorna o tamanho do dataset, ou seja, o número de amostras.
        """
        return len(self.data)

    def __getitem__(self, index):
        """
        Retorna uma amostra do dataset no índice especificado.

        Parâmetros:
        - index: O índice da amostra a ser retornada.

        Retorna:
        - image: A imagem da amostra como um tensor PyTorch.
        - label: O rótulo da amostra como um tensor PyTorch (classe da imagem).
        """
        # Converte os valores dos pixels da imagem em um tensor PyTorch normalizado no intervalo [0, 1]
        image = torch.tensor(self.data.iloc[index, 1:].values.astype(float).reshape((1, 28, 28)) / 255.0, dtype=torch.float32)

        # Obtém o rótulo da imagem como um tensor PyTorch
        label = torch.tensor(self.data.iloc[index, 0], dtype=torch.long)

        if self.add_noise:
            # Adiciona ruído gaussiano à imagem usando a biblioteca NumPy
            noise = np.random.normal(self.noise_mean, self.noise_std, size=image.shape)
            image = image + torch.tensor(noise, dtype=torch.float32)

        if self.transform is not None:
            # Aplica a transformação especificada (se houver) na imagem
            image = self.transform(image)

        return image, label


In [None]:

# Define a transformação RandomAffine com rotação de -30 a 30 graus, translação de -20% a 20% do tamanho da imagem,
# escala de 0.7 a 1.3 e um cisalhamento com um ângulo de -10 a 10 graus no sentido horizontal

transform_affine = transforms.RandomAffine(degrees=30, 
                                           translate=(0.2, 0.2), 
                                           scale=(0.7, 1.2), 
                                           shear=(-10, 10), 
                                           interpolation=Image.NEAREST)


In [None]:
# Criando os dataloaders de Validação Sem transform e sem Noise
#val_dataset_CNN = MNISTDataset_CNN(val,transform=None, add_noise=False, noise_mean=0, noise_std=0.1)

#val_loader_CNN = DataLoader(val_dataset_CNN, batch_size=64, shuffle=True)


In [None]:
#train_dataset Sem transform e sem Noise
train_dataset_original = MNISTDataset(train,transform=None, add_noise=False, noise_mean=None, noise_std=None) 

# NOISE
train_dataset_noise = MNISTDataset(train,transform=None, add_noise=True, noise_mean=0, noise_std=0.009)

#transform_affine
train_dataset_affine = MNISTDataset(train,transform=transform_affine, add_noise=False, noise_mean=None, noise_std=None)


############################
# Criando os dataloaders 
dataset_concat_train = ConcatDataset([train_dataset_original,train_dataset_noise, train_dataset_affine])



## Visualizando os Dados de Treinamento

In [None]:
#train_dataset_original
train_loader_CNN = DataLoader(dataset_concat_train, batch_size=64, shuffle=True )
 
 
fig, axis = plt.subplots(3, 5, figsize=(10, 7))

for images, labels in train_loader_CNN:
    for i, ax in enumerate(axis.flat):
        image, label = images[i], labels[i]
        
        ax.imshow(image.view(28, 28), cmap='binary') # add imagem
        ax.set(title = f"{label}") # add label
    break  


# Dataset de Test

In [None]:
# Definindo a classe do dataset
class MNISTDataset_test(Dataset):
    def __init__(self, test_data):
        self.test_data = test_data
    
    def __len__(self):
        return len(self.test_data)
    
    def __getitem__(self, index): 
        image = torch.tensor(self.test_data.iloc[index, :].values.astype(float).reshape((1, 28, 28))/255.0, dtype=torch.float32) 
       
        return image

# Criando o dataloader de test
test_dataset = MNISTDataset_test(test_data)
 
test_loader = DataLoader(test_dataset, batch_size=1024, shuffle=False)


# Construindo um Modelo CNN 

## dropout
 
Para implementar o dropout no PyTorch, você pode usar o `torch.nn.Dropout` camada. Esta camada tem um parâmetro `p`, que é a probabilidade de cada unidade ser desligada. Por exemplo, se `p` for 0,5, então 50% das unidades serão desligadas a cada época de treinamento.
  

# Treinamento com Validação Cruzada 


Definimos uma função para fazer o treinamento com Validação Cruzada  de um modelo qualquer.

Essa função vai treinar o modelo para dada fold, por infinitas epochs, até que a acurácia pare de aumentar após um determinado número de epocas dada por `patience`. Depois disso ele segue para o fold seguinte até treinar usando todos os folds.

Em cada iteração, o modelo é avaliado no conjunto de teste, e as métricas de desempenho, como acurácia, precisão, recall ou outras métricas relevantes para o problema, são registradas. Ao final das k iterações, a média das métricas de desempenho é calculada, fornecendo uma estimativa geral do desempenho do modelo.


In [None]:
def validate(model, val_loader, criterion):
    model.eval()  # Defina o modelo para o modo de avaliação
    correct = 0
    total = 0
    validation_loss = 0

    with torch.no_grad():
        for images, labels in val_loader:
            images = images.to(device)
            labels = labels.to(device)
            
            outputs = model(images)
            loss = criterion(outputs, labels)
            validation_loss += loss.item()
            _, predicted = torch.max(outputs.data, 1)   #Encontra o índice da probabilidade máxima
            # A função torch.max() retorna dois valores: o primeiro é o valor máximo encontrado em cada coluna do tensor
            #e o segundo é o índice do valor máximo em cada coluna. ex.: [0.2, 0.4, 0.9, 0.5] => (0.9, 2)= (valor máximo,índice)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()

    accuracy = (correct / total) * 100
    validation_loss = validation_loss / len(val_loader)  # Media de loss

    model.train()  # Define o modelo de volta ao modo de treinamento

    return accuracy, validation_loss, loss



In [None]:
def record_preds_fold(model, val_loader):  
    model.eval()  # Set the model to evaluation mode
    true_labels = []
    predictions = []
    with torch.no_grad():
        for images, labels in val_loader:
            images = images.to(device)
            labels = labels.to(device)
            outputs = model(images)
            _, predicted = torch.max(outputs.data, 1)
            true_labels.extend(labels.detach().cpu().numpy())
            predictions.extend(predicted.detach().cpu().numpy())
    model.train()  # Define o modelo de volta ao modo de treinamento
    return predictions, true_labels

 

all_true_labels.append(true_labels_val.numpy())
all_predictions.append(predicted_val.numpy())

Resulta em uma lista com os all_predictions e all_true_labels de cada fold

depois será nescesario fazer um loop all_predictions e all_true_labels para calcular as metricas e depois fazer a media.

# Modelo

In [None]:

class MNISTModel_CNN_2(nn.Module):
    def __init__(self):
        super(MNISTModel_CNN_2, self).__init__()

        # Camadas convolucionais
        self.conv_layers = nn.ModuleList([
            nn.Conv2d(in_channels=1, out_channels=8, kernel_size=5, stride=1, padding=2),
            nn.BatchNorm2d(8),
            nn.ReLU(), 
            nn.MaxPool2d(kernel_size=4, stride=2),
            

            nn.Conv2d(in_channels=8, out_channels=16, kernel_size=3, stride=1, padding=1),
            nn.BatchNorm2d(16),
            nn.ReLU(),#
            nn.Dropout2d(0.1), #
            nn.MaxPool2d(kernel_size=3, stride=1),
            
            
            nn.Conv2d(in_channels=16, out_channels=32, kernel_size=3, stride=1, padding=1),
            nn.BatchNorm2d(32),
            nn.ReLU(),#
            nn.Dropout2d(0.1),#
            nn.MaxPool2d(kernel_size=2, stride=1)
        ])

        # Calcula a dimensão de entrada das camadas totalmente conectadas
        self.fc_input_dim = self.calculate_fc_input_dim()
 
        # Camadas totalmente conectadas com Dropout
        self.fc_layers = nn.ModuleList([
            nn.Linear(self.fc_input_dim, 1024),
            nn.ReLU(),
            nn.Dropout(0.1),  # Adiciona Dropout com taxa de 0.1
            
            nn.Linear(1024, 768),
            nn.ReLU(),
            nn.Dropout(0.2),  # Adiciona Dropout com taxa de 0.2
            
            nn.Linear(768, 512),
            nn.ReLU(),
            nn.Dropout(0.2),  # Adiciona Dropout com taxa de 0.2
            
            nn.Linear(512, 400),
            nn.ReLU(),
            nn.Dropout(0.2),  # Adiciona Dropout com taxa de 0.2
            
            nn.Linear(400, 256),
            nn.ReLU(),
            nn.Dropout(0.1),  # Adiciona Dropout com taxa de 0.1

            nn.Linear(256, 128),
            nn.ReLU(),
            nn.Dropout(0.1),  # Adiciona Dropout com taxa de 0.1

            nn.Linear(128, 10)
        ])
        
        
    def forward(self, x):
        for layer in self.conv_layers:
            x = layer(x)

        x = x.view(-1, self.fc_input_dim)
        for layer in self.fc_layers:
            x = layer(x)

        return x

    def calculate_fc_input_dim(self):
        # Cria uma entrada de exemplo e passa pelas camadas convolucionais
        example_input = torch.zeros(1, 1, 28, 28)
        for layer in self.conv_layers:
            example_input = layer(example_input)
        # Obtém a forma da saída das camadas convolucionais
        output_shape = example_input.shape
        fc_input_dim = output_shape[1] * output_shape[2] * output_shape[3]
        return fc_input_dim

model = MNISTModel_CNN_2().to(device)
print(model)


# lr_scheduler 

No PyTorch, o `lr_scheduler` (scheduler de taxa de aprendizado) é uma ferramenta poderosa para ajustar a taxa de aprendizado (learning rate) durante o treinamento de um modelo de aprendizado de máquina. A taxa de aprendizado é um hiperparâmetro crítico em algoritmos de otimização, como o gradiente descendente, e pode afetar significativamente o desempenho e a convergência do modelo.

O `lr_scheduler` permite ajustar automaticamente a taxa de aprendizado em função do número de épocas (ou iterações) de treinamento. Isso é útil porque, em diferentes estágios do treinamento, pode ser benéfico reduzir a taxa de aprendizado para garantir uma convergência mais estável e precisa.

Existem vários tipos de schedulers disponíveis no PyTorch, como `StepLR`, `MultiStepLR`, `ExponentialLR`, `CosineAnnealingLR`, entre outros. Cada um desses schedulers implementa uma estratégia diferente para ajustar a taxa de aprendizado. Por exemplo, o `StepLR` reduz a taxa de aprendizado em um fator multiplicativo após cada número fixo de épocas, enquanto o `CosineAnnealingLR` diminui a taxa de aprendizado seguindo um padrão cosseno.

Aqui está um exemplo simples de como usar o `lr_scheduler` no PyTorch:

```python
import torch
import torch.optim as optim
import torch.optim.lr_scheduler as lr_scheduler

# Crie o seu modelo e dataloaders aqui

# Defina o otimizador e o scheduler
optimizer = optim.SGD(model.parameters(), lr=0.1)
scheduler = lr_scheduler.StepLR(optimizer, step_size=10, gamma=0.1)

# Loop de treinamento
for epoch in range(num_epochs):
    # Treinamento
    for batch in dataloader:
        # Fazer o treinamento do modelo

    # Atualizar o scheduler a cada época
    scheduler.step()
```

# ReduceLROnPlateau
O `ReduceLROnPlateau` é outro scheduler disponível no PyTorch que é projetado para ajustar automaticamente a taxa de aprendizado com base na evolução do desempenho do modelo durante o treinamento. Ele monitora uma métrica, como a perda de validação ou a precisão, e reduz a taxa de aprendizado quando a métrica de validação estagna.

Essa abordagem é útil quando o modelo atinge um platô em seu desempenho, onde a métrica de validação não melhora significativamente. Nesse caso, diminuir a taxa de aprendizado pode ajudar o modelo a sair do platô e melhorar seu desempenho.

Aqui está um exemplo de como usar o `ReduceLROnPlateau` no PyTorch:

```python
import torch
import torch.optim as optim
import torch.optim.lr_scheduler as lr_scheduler

# Crie o seu modelo e dataloaders aqui

# Defina o otimizador e o scheduler
optimizer = optim.SGD(model.parameters(), lr=0.1)
scheduler = lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.1, patience=5)

# Loop de treinamento
for epoch in range(num_epochs):
    # Treinamento
    for batch in dataloader:
        # Fazer o treinamento do modelo

    # Avaliar o desempenho do modelo na validação
    loss_val = evaluate_model(model, dataloader_val)

    # Atualizar o scheduler com base no desempenho da validação
    scheduler.step(loss_val)
```

Neste exemplo, o scheduler `ReduceLROnPlateau` monitora a perda de validação (`loss_val`) e, se ela estagnar por um número especificado de épocas (definido por `patience`), reduz a taxa de aprendizado em um fator multiplicativo (definido por `factor`). O argumento `mode` indica se a métrica de validação deve ser minimizada ('min') ou maximizada ('max'). Neste caso, como é uma perda, usamos 'min'.

O `lr_scheduler` é usado para definir uma estratégia de ajuste da taxa de aprendizado ao longo do treinamento, enquanto o `ReduceLROnPlateau` é usado para ajustar automaticamente a taxa de aprendizado com base na evolução do desempenho do modelo durante a validação. Isso pode ajudar a melhorar a estabilidade e o desempenho geral do modelo durante o treinamento.

## Treinamento Acelerado com ReduceLROnPlateau

In [None]:

 
def train_kfolds_acel(model, criterion, optimizer, train_dataset, batch_size, num_folds, nf, patience, losses_batch,acc,scheduler_patience,scheduler_factor,scheduler_min_lr ):
    fold_size = len(train_dataset) // num_folds  # Tamanho de cada fold
    best_accuracy = 0.0
    model.train()
    epoch = 0

    all_predictions = []
    all_true_labels = []

    for fold in range(num_folds):
        if (fold)== nf:
            break
            
        print(f"Fold {fold+1}/{num_folds}")

        # Divide o conjunto de treinamento em folds de treinamento e validação
        val_indices = range(fold * fold_size, (fold+1) * fold_size)
        train_indices = [i for i in range(len(train_dataset)) if i not in val_indices]

        train_subset = Subset(train_dataset, train_indices)
        val_subset = Subset(train_dataset, val_indices)

        train_loader = torch.utils.data.DataLoader(train_subset, batch_size=batch_size, shuffle=True)
        val_loader = torch.utils.data.DataLoader(val_subset, batch_size=batch_size, shuffle=False)

        #############
        total_batches = len(train_loader)
        batches_processed = 0
        progress_threshold = total_batches // 20  # 20% do total de batches
        #############

        # Criar um scheduler ReduceLROnPlateau para reduzir a taxa de aprendizado
        scheduler = ReduceLROnPlateau(optimizer, mode='min', factor=scheduler_factor, patience = scheduler_patience, min_lr = scheduler_min_lr, verbose=True)
 


        epochs_without_improvement = 0
        while True:
            for batch_idx, (images, labels) in enumerate(train_loader):
                images = images.to(device)
                labels = labels.to(device)
                # Forward pass
                outputs = model(images)
                loss = criterion(outputs, labels)
                losses_batch.append(loss.item())

                # Backward pass and optimization
                optimizer.zero_grad()
                loss.backward()
                optimizer.step()
                ############
                batches_processed += 1
                # Verifica se chegou ao limite para imprimir o número do batch
                if batches_processed % progress_threshold == 0:
                    print(f"Fold {fold+1}/{num_folds}, Epoch [{epoch+1}], Batch [{batch_idx+1}/{total_batches}],  Loss: {round(loss.item(), 5)},")
                ############

            # Validação
            accuracy, validation_loss, loss_val = validate(model, val_loader, criterion)
            acc.append(accuracy)
            print('Fold {}/{}, Epoch [{}], Loss: {:.4f}, Validation Loss: {:.4f}, Accuracy: {:.2f}%'.format(fold+1, num_folds, epoch+1, loss.item(), validation_loss, accuracy))
            epoch += 1

            # Calcule a métrica de desempenho (por exemplo, a perda) e passe para o scheduler
            # Aqui, estamos usando a perda como a métrica de desempenho para o exemplo
            scheduler.step(loss_val)
            #scheduler.step(validation_loss.to(device))

            # Verifica se a acurácia melhorou
            if accuracy > best_accuracy :
                best_accuracy = accuracy
                epochs_without_improvement = 0
                torch.save(model.state_dict(), f'best_model_fold{fold+1}.pth')  # Salva o modelo com a melhor acurácia para o fold atual
            else:
                epochs_without_improvement += 1

            if epochs_without_improvement == patience:
                # Após o treinamento, chama a função para registrar as previsões no conjunto de teste do fold atual
                predicted_val, true_labels_val = record_preds_fold(model, val_loader)
                all_predictions.append(predicted_val)  # Armazena as previsões e rótulos verdadeiros para todos os folds
                all_true_labels.append(true_labels_val)
                print('No improvement for fold {}.'.format(fold+1))
                break
            
    print('Stopping training!')
    return all_predictions, all_true_labels, losses_batch,acc


In [None]:
losses_batch = []  # Lista para armazenar os valores de loss durante todo o treinamento
acc = [] 
# Criando os dataloaders  dataset_concat_train
#dataset_concat_train = ConcatDataset([train_dataset, train_dataset_noise, train_dataset_affine])

model = MNISTModel_CNN_2().to(device)
print(model)

In [None]:
criterion = nn.CrossEntropyLoss()       # Loss function 
parametes_model=model.parameters()
optimizer = torch.optim.Adam(parametes_model, lr=1e-2, weight_decay=1e-4)  # Optimizer #L2 = weight_decay

scheduler_patience = 3 #Epocas
scheduler_factor = 0.1
scheduler_min_lr=1e-8
batch_size= 1024

patience = 6  # Número de épocas para esperar antes de parar

num_folds=8
nf=1          
# Se nf > num_folds -> Treinamendo usando todos os kfolds. Se nf=1 - > Treinamento usando apenas nf kfolds.




     
all_pred, all_true_lb, losses_batch_fold,acc_fold =train_kfolds_acel(model, 
                                                                     criterion, 
                                                                     optimizer, 
                                                                     dataset_concat_train, 
                                                                     batch_size, 
                                                                     num_folds, 
                                                                     nf,
                                                                     patience,
                                                                     losses_batch,
                                                                     acc,
                                                                     scheduler_patience,
                                                                     scheduler_factor,
                                                                     scheduler_min_lr)
 

In [None]:
# Lista de valores de perda  
loss_values = losses_batch

# Épocas correspondentes (apenas para fins de exemplo)
epochs = list(range(1, len(loss_values) + 1))

# Plot do gráfico de perda em função das épocas
plt.plot(epochs, loss_values, linestyle='-', color='b')
plt.xlabel('Épocas')
plt.ylabel('Loss')
plt.title('Gráfico de Loss em função dos batchs')
plt.grid(True)
plt.show()


In [None]:
# Lista de valores de perda (exemplo)
loss_values = acc

# Épocas correspondentes (apenas para fins de exemplo)
epochs = list(range(1, len(loss_values) + 1))

# Plot do gráfico de perda em função das épocas
plt.plot(epochs, loss_values, linestyle='-', color='b')
plt.xlabel('Épocas')
plt.ylabel('Loss')
plt.title('Gráfico de acc em função das Épocas')
plt.grid(True)
plt.show()



# Avaliação do Modelo

##  Métricas de avaliação de modelos de classificação

Para calcular as metricas de avaliação usamos os sequintes valores:

**Verdadeiros Positivos (TP)**: Verdadeiros positivos são os casos em que o modelo previu a classe positiva corretamente. Em outras palavras, a classe real do exemplo era positiva e o modelo também previu a classe como positiva.

**Falsos Positivos (FP)**: Falsos positivos são os casos em que o modelo previu incorretamente a classe positiva. Isso significa que a classe real do exemplo era negativa, mas o modelo previu a classe como positiva. Isso é também conhecido como um erro do Tipo I.

**Verdadeiros Negativos (TN)**: Verdadeiros negativos são os casos em que o modelo previu a classe negativa corretamente. Em outras palavras, a classe real do exemplo era negativa e o modelo também previu a classe como negativa.

**Falsos Negativos (FN)**: Falsos negativos são os casos em que o modelo previu incorretamente a classe negativa. Isso significa que a classe real do exemplo era positiva, mas o modelo previu a classe como negativa. Isso é também conhecido como um erro do Tipo II.


Esses quatro valores formam a base da matriz de confusão. Além disso, várias métricas de avaliação, como precisão, recall e F1 score, são calculadas com base nesses valores. 

## Métricas


1. **Accuracy (Acurácia)**: É a proporção de previsões corretas feitas pelo modelo em relação ao total de previsões. É uma métrica útil quando as classes estão bem balanceadas, mas pode ser enganosa quando as classes estão desbalanceadas. A fórmula para a acurácia é:

   $$ \text{Accuracy} = \frac{\text{Verdadeiros Positivos (TP) + Verdadeiros Negativos (TN)}}{\text{Verdadeiros Positivos (TP) + Falsos Positivos (FP) + Verdadeiros Negativos (TN) + Falsos Negativos (FN)}} $$
   


2. **Precision (Precisão)**: É a proporção de previsões positivas que são realmente corretas. É uma métrica importante quando o custo de Falsos Positivos é alto. A fórmula para a precisão é:

   $$ \text{Precision} = \frac{\text{Verdadeiros Positivos (TP)}}{\text{Verdadeiros Positivos (TP) + Falsos Positivos (FP)}} $$


3. **Recall (Revocação ou Sensibilidade)**: É a proporção de positivos reais que foram identificados corretamente. É uma métrica importante quando o custo de Falsos Negativos é alto. A fórmula para o recall é:

   $$ \text{Recall} = \frac{\text{Verdadeiros Positivos (TP)}}{\text{Verdadeiros Positivos (TP) + Falsos Negativos (FN)}} $$


4. **F1 Score**: É a média harmônica entre a precisão e o recall. É uma métrica útil quando você precisa de um equilíbrio entre a precisão e o recall e há uma distribuição desigual de classes. A fórmula para o F1 Score é:

   $$ \text{F1 Score} = 2 * \frac{\text{Precision * Recall}}{\text{Precision + Recall}} $$


Essas métricas são comumente usadas para avaliar modelos de classificação e cada uma tem seus próprios pontos fortes e fracos, dependendo da situação específica.


5. **Coeficiente de Kappa de Cohen**

O coeficiente de Kappa de Cohen é uma estatística que é usada para medir a precisão de classificação em tarefas de classificação. É mais útil quando os dados são classificados por humanos, pois leva em consideração a possibilidade de o acordo ocorrer por acaso.

O coeficiente de Kappa de Cohen varia de -1 a 1. Um valor de 1 indica que há um acordo perfeito entre os classificadores. Um valor de 0 indica que o acordo é o mesmo que seria esperado por acaso. Um valor negativo indica que o acordo é pior do que o aleatório.

Aqui está como o coeficiente de Kappa de Cohen é geralmente interpretado:

- Valores ≤ 0: Nenhum acordo
- 0.01–0.20: Nenhum a um leve acordo
- 0.21–0.40: Acordo justo
- 0.41–0.60: Acordo moderado
- 0.61–0.80: Acordo substancial
- 0.81–0.99: Acordo quase perfeito
- 1: Acordo perfeito

O coeficiente de Kappa de Cohen é uma medida mais robusta do que a simples porcentagem de concordância, porque leva em consideração a possibilidade de o acordo ocorrer por acaso. Isso é especialmente importante quando os dados estão desequilibrados.


6. **Coeficiente de Correlação de Matthews (MCC)**

O Coeficiente de Correlação de Matthews (MCC) é uma medida de qualidade para problemas de classificação binária. Ele leva em consideração verdadeiros e falsos positivos e negativos e é geralmente considerado uma medida equilibrada, o que significa que pode ser usado mesmo se as classes estiverem de tamanhos muito diferentes.

O MCC é, em essência, uma correlação entre as observações reais e as previsões: um coeficiente de +1 representa uma previsão perfeita, 0 uma previsão média aleatória e -1 uma previsão inversa.

A fórmula para o MCC é:

$$ MCC = \frac{(TP*TN - FP*FN) }{ \sqrt{(TP+FP)*(TP+FN)*(TN+FP)*(TN+FN)} }$$



O denominador da fórmula garante que o MCC sempre caia entre -1 e +1.

7. **Matriz de Confusão**

A Matriz de Confusão é uma tabela usada para descrever o desempenho de um modelo de classificação em um conjunto de dados para os quais os valores verdadeiros são conhecidos. Ela é chamada de matriz de confusão porque permite visualizar facilmente o tipo de confusão que o classificador está causando, mostrando onde o classificador está confundindo uma classe por outra.

 

Para uma classificação binária a matriz de confusão é uma tabela 2x2. As linhas da matriz representam as classes reais, enquanto as colunas representam as classes previstas pelo modelo. A matriz é organizada da seguinte forma:


|                     | **Previsto: Positivo** | **Previsto: Negativo** |
|---------------------|------------------------|------------------------|
| **Real: Positivo**  | Verdadeiros Positivos  | Falsos Negativos       |
| **Real: Negativo**  | Falsos Positivos       | Verdadeiros Negativos  |


A matriz de confusão é uma ferramenta poderosa para entender como seu modelo está performando e onde ele está cometendo erros. Além disso, muitas métricas de avaliação do modelo, como precisão, recall e F1 score, são calculadas com base nos valores da matriz de confusão.
 

  

In [None]:
#all_pred[0]# all_true_lb

In [None]:

def evaluate_model(predictions, true_labels): 

    # Accuracy
    accuracy = accuracy_score(true_labels, predictions)
    print("Accuracy: ",  round(accuracy, 3))

    # Precision
    precision = precision_score(true_labels, predictions, average='weighted')
    print("Precision: ",  round(precision, 3))

    # Recall
    recall = recall_score(true_labels, predictions, average='weighted')
    print("Recall: ",  round(recall, 3))

    # F1 Score
    f1 = f1_score(true_labels, predictions, average='weighted')
    print("F1 Score: ",  round(f1, 3))
    
#############################################################
#    Está desativado pq não é um problema de classificação binaria (temos 10 classes)
#    # Matthews Correlation Coefficient (MCC)
#    mcc = matthews_corrcoef(true_labels, predictions)
#    print("Matthews Correlation Coefficient: ",  round(mcc, 3))
#############################################################

    # Cohen's Kappa
    kappa = cohen_kappa_score(true_labels, predictions)
    #interpret_kappa
    print("Cohen's Kappa: ",    round(kappa, 3))
    if kappa <= 0:
        print ("Nenhum acordo")
    elif kappa <= 0.20:
        print ("Nenhum a um leve acordo")
    elif kappa <= 0.40:
        print ("Acordo justo")
    elif kappa <= 0.60:
        print ("Acordo moderado")
    elif kappa <= 0.80:
        print ("Acordo substancial")
    elif kappa < 1:
        print ("Acordo quase perfeito")
    elif kappa == 1:
        print ("Acordo perfeito")
    else:
        print ("Valor de Kappa inválido")



    # Classification Report
    report = classification_report(true_labels, predictions)
    print("Classification Report:\n", report)

    # Confusion Matrix
    cm = confusion_matrix(true_labels, predictions)
    #print("Confusion Matrix:\n", cm)
    
    # Plotting Confusion Matrix
    plt.figure(figsize=(10,7))
    sns.heatmap(cm, annot=True, fmt='d')
    plt.xlabel('Predicted')
    plt.ylabel('Truth')
    plt.show()
     
 
 



In [None]:
#evaluate_model(all_pred_concat, all_true_lb_s) #all_pred[0]# all_true_lb
n=0 #n= numero do Fold 
evaluate_model(all_pred[n], all_true_lb[n])


# Prevendo e identificando erros

In [None]:

def predict_and_identify_errors(model, val_loader):
    model.eval()  # Defina o modelo para o modo de avaliação
    correct = 0
    total = 0
    wrong_predictions = []

    with torch.no_grad():  # Sem calcular gradientes  
        for images, labels in val_loader:
            images = images.to(device)
            labels = labels.to(device)
            outputs = model(images )  # Obtenha as previsões do modelo
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted.cpu() == labels.cpu()).sum().item()

            # Identificar as previsões erradas
            wrong_indices = (predicted.cpu()  != labels.cpu()).nonzero()[:, 0] 
            #.nonzero() retorna os índices dos elementos diferentes de zero. 
            wrong_images = images[wrong_indices].cpu()
            wrong_labels = predicted[wrong_indices].cpu()
            true_labels = labels[wrong_indices].cpu()
            wrong_predictions.extend(list(zip(wrong_images, wrong_labels, true_labels)))

 
    # Mostra as previsões erradas
    print("Total de previsões erradas:", total - correct )
    print("Previsões erradas:")
    
    # Para 2o imagens, dispostas em 2 linhas e 10 colunas
    n_rows = 3
    n_cols = 10
    
    fig, axs = plt.subplots(n_rows, n_cols, figsize=(n_cols, n_rows+0.3))  # Create a subplot with 1 row and 20 columns
    axs_max=len(list(axs.flat))

    for i, (img, wrong_label, true_label) in enumerate(wrong_predictions[:axs_max]): 
        # Calcula a linha e a coluna atual
        row = i // n_cols
        col = i % n_cols
    
        # Plot das imagens erradas
        axs[row, col].imshow(img.view(28, 28), cmap='binary')
        axs[row, col].axis('off')   
        axs[row, col].set_title(f'P: {wrong_label.item()}, T: {true_label.item()}')  # Defina o título do subplot
    plt.show()  # Show the plot


train_loader_pd = DataLoader(train_dataset_original, batch_size=1024, shuffle=True )
 
predict_and_identify_errors(model, train_loader_pd)
#138
#78

losses_batch = []  # Lista para armazenar os valores de loss durante todo o treinamento
acc = [] 

criterion = nn.CrossEntropyLoss()       # Loss function 
parametes_model=model.parameters()

#L2 = weight_decay
optimizer = torch.optim.Adam(parametes_model, lr=0.01, weight_decay=1e-4)  # Optimizer
 
    
patience = 6  # Número de épocas para esperar antes de parar

num_folds=8
nf=2
batch_size= 1024

scheduler_patience = 4 #Epocas
scheduler_factor = 0.1
scheduler_min_lr=1e-8

     
all_pred, all_true_lb, losses_batch_fold,acc_fold =train_kfolds_acel( model, 
                                         criterion, 
                                         optimizer, 
                                         dataset_concat_train, 
                                         batch_size, 
                                         num_folds, 
                                         nf,
                                         patience,
                                         losses_batch,
                                         acc,
                                         scheduler_patience,
                                         scheduler_factor,
                                         scheduler_min_lr)
 

# Submissão

In [None]:

def submission_model(model, test_loader):
    model.eval()  # Set the model to evaluation mode
    predictions = []
    with torch.no_grad():
        for images in test_loader:
            images = images.to(device)
            outputs = model(images).cpu() 
            _, predicted = torch.max(outputs.data, 1)
            predictions.extend(predicted.numpy())
           # print('oi')
        # Create a DataFrame with the predictions
        df = pd.DataFrame(predictions, columns=['Label'])
        df['Label'] = df['Label'].astype(int)  
        df.index.name = 'ImageId'
        df.index += 1  # Make the index start at 1 instead of 0
    # Save the DataFrame to a CSV file
    df.to_csv('submission.csv')
    return(df)

submission_model(model, test_loader)
 

 
# FIM

In [None]:
'''file='/kaggle/working/state.db'
os.remove(file)
'''