In [1]:
import torch
import torch.nn as nn
import torchvision

import io

import pandas as pd

In [2]:
import sklearn.metrics as metrics

In [3]:
device = 'cuda'

Carrega uma rede ResNet18 pré treinada no ImageNet

In [4]:
resnet18 = torchvision.models.resnet18(pretrained=True)
resnet18

ResNet(
  (conv1): Conv2d(3, 64, kernel_size=(7, 7), stride=(2, 2), padding=(3, 3), bias=False)
  (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  (relu): ReLU(inplace=True)
  (maxpool): MaxPool2d(kernel_size=3, stride=2, padding=1, dilation=1, ceil_mode=False)
  (layer1): Sequential(
    (0): BasicBlock(
      (conv1): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (relu): ReLU(inplace=True)
      (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    )
    (1): BasicBlock(
      (conv1): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (relu): ReLU(inplace=True)
  

In [5]:
# Congela o treinamento para todas as camadas de "features"
for param in resnet18.parameters():
    param.requires_grad = False
    
num_features = resnet18.fc.in_features

resnet18.fc = nn.Linear(num_features, 2)

loss_function = nn.CrossEntropyLoss()

optimizer = torch.optim.Adam(resnet18.fc.parameters(), lr=1e-3)

In [6]:
transform = torchvision.transforms.ToTensor()
DeepFakeDataset = torchvision.datasets.ImageFolder('./Faces Dataset/128px/', transform=transform)

In [15]:
from torch.utils.data.sampler import SubsetRandomSampler

percentage_for_train = 0.7

shuffle_indices = torch.randperm(len(DeepFakeDataset))
train_indices = shuffle_indices[:int(percentage_for_train*len(DeepFakeDataset))]
val_indices = shuffle_indices[int(percentage_for_train*len(DeepFakeDataset)):]

train_sampler = SubsetRandomSampler(train_indices)
val_sampler = SubsetRandomSampler(val_indices)

train_dataloader = torch.utils.data.DataLoader(DeepFakeDataset, batch_size=126, sampler=train_sampler)
test_dataloader = torch.utils.data.DataLoader(DeepFakeDataset, batch_size=126, sampler=val_sampler)

In [38]:
import torch.nn.functional as F

def training_loop(n_epochs, model, loss_function, optimizer):
    model = model.to(device)
    loss_function = loss_function.to(device)
    
    model.train()
    for epoch in range(0, n_epochs):
        loss_sum = 0
        iteration = 0
        print("Beggining epoch {}...".format(epoch+1))
        for images, labels in train_dataloader:
            
            images = images.to(device)
            labels = labels.to(device)
            
            predictions = model(images)
            loss = loss_function(predictions, labels.long())
            loss_sum += loss
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            
            iteration += 1
            
            if iteration % 20 == 0:
                print("Iteration {} Loss {:.5f}".format(iteration, loss_sum.item()/20))
                loss_sum = 0

## Inicialmente, rodaremos o modelo cru no dataset para checar seu desempenho

In [17]:
def eval_loop(model):
    all_labels = torch.LongTensor([]).cuda()
    all_predictions = torch.LongTensor([]).cuda()
    model = model.to(device)
    model.eval()
    with torch.no_grad():
        for images, labels in test_dataloader:
            images = images.to(device)
            labels = labels.to(device)
            predictions = model(images)
            predictions = predictions.max(dim=1)[1]
            all_predictions = torch.cat((all_predictions, predictions))
            all_labels = torch.cat((all_labels, labels))
            
    return all_predictions, all_labels

In [18]:
def createDataFrame_conf_matrix(all_pread, all_labels):
    c_mat = pd.DataFrame(metrics.confusion_matrix(all_labels.cpu().detach().numpy(), all_pred.cpu().detach().numpy()))
    c_mat = c_mat.rename(columns={0: 'FAKE_predicted', 1: "REAL_predicted"}, index={0: 'FAKE', 1: "REAL"})
    rows = [c_mat.loc['FAKE'][0] / c_mat.sum()[0] * 100, c_mat.loc['REAL'][1] / c_mat.sum()[1] * 100]
    columns = [c_mat['FAKE_predicted'][0] / c_mat.sum(axis=1)[0] * 100, c_mat['REAL_predicted'][1] / c_mat.sum(axis=1)[1] * 100]
    accuracy = (c_mat.loc['FAKE'][0] + c_mat.loc['REAL'][1]) / (c_mat.sum(axis=1)[0] + c_mat.sum(axis=1)[1])*100 
    c_mat.loc['Percentage'] = [str(round(rows[0],2)) +' %', str(round(rows[1],2)) +' %']
    c_mat['Percentage'] = [str(round(columns[0],2)) +' %', str(round(columns[1],2)) +' %', str(round(accuracy,2)) +' %']
    return c_mat

In [19]:
all_pred, all_labels = eval_loop(resnet18)

In [21]:
all_pred = all_pred.to(dtype=torch.int8)
all_labels = all_labels.to(dtype=torch.int8)

In [23]:
c_mat = createDataFrame_conf_matrix(all_pred, all_labels)

c_mat

Unnamed: 0,FAKE_predicted,REAL_predicted,Percentage
FAKE,10386,6253,62.42 %
REAL,2150,839,28.07 %
Percentage,82.85 %,11.83 %,57.19 %


- Temos um total de 10386 VERDADEIROS POSITIVOS. 
- Temos um total de 6253 FALSOS NEGATIVOS.
- Temos um total de 2150 FALSOS POSITIVOS.
- Temos um total de 839 VERDADEIROS NEGATIVOS.

Com isso, temos as seguintes métricas:
- Acurácia: 57.19% = (TP+TN)/Total

- Precisão: 82.85% = TP/P_predicted
- False Omission Rate (FOR): 11.83% = FN/N_predicted
- Recall/Sensibilidade/Probabilidade de detecção: 62.42% = TP/P
- Especificidade: 28.07% = TN/N
- Probabilidade de Alarme Falso = 1 - Especificidade = 71.3%

# Agora, treinamos o modelo e testamos novamente

In [27]:
training_loop(n_epochs=2, model=resnet18, loss_function=loss_function, optimizer=optimizer)

Beggining epoch 0...
Iteration 20 Loss 0.44600
Iteration 40 Loss 0.31668
Iteration 60 Loss 0.32156
Iteration 80 Loss 0.36242
Iteration 100 Loss 0.33671
Iteration 120 Loss 0.30961
Iteration 140 Loss 0.40002
Iteration 160 Loss 0.28032
Iteration 180 Loss 0.29681
Iteration 200 Loss 0.31612
Iteration 220 Loss 0.29692
Iteration 240 Loss 0.25674
Iteration 260 Loss 0.34980
Iteration 280 Loss 0.32549
Iteration 300 Loss 0.30501
Iteration 320 Loss 0.25702
Iteration 340 Loss 0.33320
Iteration 360 Loss 0.37822
Beggining epoch 1...
Iteration 20 Loss 0.27416
Iteration 40 Loss 0.17406
Iteration 60 Loss 0.36319
Iteration 80 Loss 0.22675
Iteration 100 Loss 0.30393
Iteration 120 Loss 0.32933
Iteration 140 Loss 0.22070
Iteration 160 Loss 0.27466
Iteration 180 Loss 0.30978
Iteration 200 Loss 0.31370
Iteration 220 Loss 0.21768
Iteration 240 Loss 0.26396
Iteration 260 Loss 0.23313
Iteration 280 Loss 0.29257
Iteration 300 Loss 0.30907
Iteration 320 Loss 0.31404
Iteration 340 Loss 0.38593
Iteration 360 Loss 0.

In [29]:
all_pred, all_labels = eval_loop(resnet18)
c_mat = createDataFrame_conf_matrix(all_pred, all_labels)
c_mat

Unnamed: 0,FAKE_predicted,REAL_predicted,Percentage
FAKE,16464,175,98.95 %
REAL,2079,910,30.44 %
Percentage,88.79 %,83.87 %,88.52 %


Foi obtida uma acurácia de 88.52% dessa vez, bem melhor! Resolvemos o problema do DeepFake então, certo? Bem... não.
O dataset possui aproximadamente 40 mil imagens (93% do dataset) a mais de DeepFakes do que rostos verdadeiros.

Aqui a nossa medida está sendo inteiramente a acurácia. Mas se observamos os resultados, vemos que dos 2989 rostos que não são DeepFakes, o modelo disse que 2079 deles são.
O que está acontecendo aqui é que nosso dataset contém aproximadamente 40 mil rostos a mais de DeepFakes do que rostos reais, em uma proporção de aproximadamente 6:1. Dessa forma, o modelo encontrou um jeito fácil de ter uma alta acurácia sem necessariamente aprender a diferenciar um DeepFake de um rosto real: basta chutar que a maioria dos rostos são DeepFakes!
Com essa tática, o modelo classificou corretamente 98.95% dos DeepFakes, mas se observarmos os rostos verdadeiros, de um total de 2989 rostos, o modelo classificou 2079 como DeepFakes, acertando apenas 30.44% dos rostos reais. Se você acreditar no modelo sempre que ele falar que determinada imagem é um DeepFake, você praticamente nunca deixará um DeepFake passar sem ser detectado. Excelente!... a não ser pelo fato de que ser tão diligente assim significa que você não está realmente poupando algum trabalho por usar uma rede neural para realizar esse serviço, uma vez que os vídeos que são de rostos reais também serão classificados como DeepFakes e será necessário inspecioná-los de qualquer jeito, caso contrário as consequências podem ser graves.


Nosso modelo tem uma alta taxa de Falsos Positivos.



O que podemos fazer para tentar ajustar isso? No critério de avaliação, no caso, a nossa função de custo CrossEntropyLoss, existe a possibilidade de ponderar o peso que cada classe tem caso seja julgado corretamente ou incorretamente. Para isso, passamos uma lista com o peso de cada classe para a função de custo. Recarregamos o modelo e treinamos novamente com as devidas alterações.

In [30]:
resnet18 = torchvision.models.resnet18(pretrained=True)

# Congela o treinamento para todas as camadas de "features"
for param in resnet18.parameters():
    param.requires_grad = False
    
num_features = resnet18.fc.in_features

resnet18.fc = nn.Linear(num_features, 2)

# Aqui estou experimentado colocar um peso 3x maior para a classe de não deepfake
loss_function = nn.CrossEntropyLoss(weight=torch.FloatTensor([1.0, 3.0]))

optimizer = torch.optim.Adam(resnet18.fc.parameters(), lr=1e-3)

training_loop(n_epochs=2, model=resnet18, loss_function=loss_function, optimizer=optimizer)

Beggining epoch 1...
Iteration 20 Loss 0.66378
Iteration 40 Loss 0.57324
Iteration 60 Loss 0.51859
Iteration 80 Loss 0.56014
Iteration 100 Loss 0.52884
Iteration 120 Loss 0.60112
Iteration 140 Loss 0.53312
Iteration 160 Loss 0.54665
Iteration 180 Loss 0.50956
Iteration 200 Loss 0.67105
Iteration 220 Loss 0.47249
Iteration 240 Loss 0.43156
Iteration 260 Loss 0.35011
Iteration 280 Loss 0.42339
Iteration 300 Loss 0.49906
Iteration 320 Loss 0.37456
Iteration 340 Loss 0.51171
Iteration 360 Loss 0.39230
Beggining epoch 2...
Iteration 20 Loss 0.32898
Iteration 40 Loss 0.48226
Iteration 60 Loss 0.36133
Iteration 80 Loss 0.38823
Iteration 100 Loss 0.39688
Iteration 120 Loss 0.46556
Iteration 140 Loss 0.47131
Iteration 160 Loss 0.38778
Iteration 180 Loss 0.54917
Iteration 200 Loss 0.39032
Iteration 220 Loss 0.50269
Iteration 240 Loss 0.47832
Iteration 260 Loss 0.39394
Iteration 280 Loss 0.56876
Iteration 300 Loss 0.31022
Iteration 320 Loss 0.46411
Iteration 340 Loss 0.45022
Iteration 360 Loss 0.

In [31]:
all_pred, all_labels = eval_loop(resnet18)
c_mat = createDataFrame_conf_matrix(all_pred, all_labels)
c_mat

Unnamed: 0,FAKE_predicted,REAL_predicted,Percentage
FAKE,14297,2342,85.92 %
REAL,991,1998,66.85 %
Percentage,93.52 %,46.04 %,83.02 %


Conseguimos melhorar sutilmente nosso resultado para a classe REAL. Podemos explorar um peso ainda maior agora.

In [32]:
resnet18 = torchvision.models.resnet18(pretrained=True)

# Congela o treinamento para todas as camadas de "features"
for param in resnet18.parameters():
    param.requires_grad = False
    
num_features = resnet18.fc.in_features

resnet18.fc = nn.Linear(num_features, 2)

# Aqui estou experimentado colocar um peso 8x maior para a classe de não deepfake
loss_function = nn.CrossEntropyLoss(weight=torch.FloatTensor([1.0, 8.0]))

optimizer = torch.optim.Adam(resnet18.fc.parameters(), lr=1e-3)

training_loop(n_epochs=2, model=resnet18, loss_function=loss_function, optimizer=optimizer)

Beggining epoch 1...
Iteration 20 Loss 0.66142
Iteration 40 Loss 0.63493
Iteration 60 Loss 0.57894
Iteration 80 Loss 0.62384
Iteration 100 Loss 0.53665
Iteration 120 Loss 0.54088
Iteration 140 Loss 0.53001
Iteration 160 Loss 0.47315
Iteration 180 Loss 0.56780
Iteration 200 Loss 0.56354
Iteration 220 Loss 0.51406
Iteration 240 Loss 0.49521
Iteration 260 Loss 0.54355
Iteration 280 Loss 0.54263
Iteration 300 Loss 0.48048
Iteration 320 Loss 0.58414
Iteration 340 Loss 0.52512
Iteration 360 Loss 0.53464
Beggining epoch 2...
Iteration 20 Loss 0.49739
Iteration 40 Loss 0.42896
Iteration 60 Loss 0.54676
Iteration 80 Loss 0.39877
Iteration 100 Loss 0.54500
Iteration 120 Loss 0.49910
Iteration 140 Loss 0.53410
Iteration 160 Loss 0.43038
Iteration 180 Loss 0.43762
Iteration 200 Loss 0.42918
Iteration 220 Loss 0.46585
Iteration 240 Loss 0.37796
Iteration 260 Loss 0.48875
Iteration 280 Loss 0.47058
Iteration 300 Loss 0.53969
Iteration 320 Loss 0.53361
Iteration 340 Loss 0.49276
Iteration 360 Loss 0.

In [33]:
all_pred, all_labels = eval_loop(resnet18)
c_mat = createDataFrame_conf_matrix(all_pred, all_labels)
c_mat

Unnamed: 0,FAKE_predicted,REAL_predicted,Percentage
FAKE,12105,4534,72.75 %
REAL,571,2418,80.9 %
Percentage,95.5 %,34.78 %,73.99 %


Bem melhor! Infelizmente nossa acurácia geral caiu, mas o modelo conseguiu predizer mais rostos reais como reais e mais rostos falsos como falsos. Ainda há um longo caminho a se percorrer. Por hora, vamos tentar diminuir um pouco o learning rate e aumentar o número de épocas utilizando um modelo mais poderoso e observar os resultados.

In [39]:
resnet34 = torchvision.models.resnet34(pretrained=True)

# Congela o treinamento para todas as camadas de "features"
for param in resnet34.parameters():
    param.requires_grad = False
    
num_features = resnet34.fc.in_features

resnet34.fc = nn.Linear(num_features, 2)

# Aqui estou experimentado colocar um peso 9x maior para a classe de não deepfake
loss_function = nn.CrossEntropyLoss(weight=torch.FloatTensor([1.0, 7.0]))

optimizer = torch.optim.Adam(resnet34.fc.parameters(), lr=0.4e-3)

training_loop(n_epochs=3, model=resnet34, loss_function=loss_function, optimizer=optimizer)

Beggining epoch 1...
Iteration 20 Loss 0.74290
Iteration 40 Loss 0.69050
Iteration 60 Loss 0.64445
Iteration 80 Loss 0.63979
Iteration 100 Loss 0.59284
Iteration 120 Loss 0.59329
Iteration 140 Loss 0.58190
Iteration 160 Loss 0.55730
Iteration 180 Loss 0.57475
Iteration 200 Loss 0.58001
Iteration 220 Loss 0.53973
Iteration 240 Loss 0.56590
Iteration 260 Loss 0.55069
Iteration 280 Loss 0.53715
Iteration 300 Loss 0.53509
Iteration 320 Loss 0.53396
Iteration 340 Loss 0.54495
Iteration 360 Loss 0.54519
Beggining epoch 2...
Iteration 20 Loss 0.51861
Iteration 40 Loss 0.54998
Iteration 60 Loss 0.50373
Iteration 80 Loss 0.51190
Iteration 100 Loss 0.50706
Iteration 120 Loss 0.52625
Iteration 140 Loss 0.50254
Iteration 160 Loss 0.52229
Iteration 180 Loss 0.49917
Iteration 200 Loss 0.51160
Iteration 220 Loss 0.50501
Iteration 240 Loss 0.50059
Iteration 260 Loss 0.50135
Iteration 280 Loss 0.46850
Iteration 300 Loss 0.47726
Iteration 320 Loss 0.51384
Iteration 340 Loss 0.49972
Iteration 360 Loss 0.

In [40]:
all_pred, all_labels = eval_loop(resnet34)
c_mat = createDataFrame_conf_matrix(all_pred, all_labels)
c_mat

Unnamed: 0,FAKE_predicted,REAL_predicted,Percentage
FAKE,12394,4245,74.49 %
REAL,604,2385,79.79 %
Percentage,95.35 %,35.97 %,75.3 %


Um resultado promissor. Embora nossa acurácia geral tenha aumentado apenas um pouco para 75.3%, fomos capazes de classificar corretamente 74.49% dos deepfakes e 79.79% dos reais. Estamos indo certo em alguma direção!

In [41]:
torch.save(resnet34.state_dict(), './Saved Models/resnet34_pretrained_trainedover2folders.pt')

#torch.save({
#            'epoch': epoch,
#            'model_state_dict': model.state_dict(),
#            'optimizer_state_dict': optimizer.state_dict(),
#            'loss': loss,
#            ...
#            }, PATH)