In [1]:
%load_ext autoreload
%autoreload 2

In [7]:
# Cargar el dataset
from utils.lsa64.dataset import LSA64Dataset
from torch.utils.data import DataLoader, random_split
import torch

dataset = LSA64Dataset("../../data/LSA64/landmarks")
torch.manual_seed(42)

train_size = int(len(dataset) * 0.8)
test_size = len(dataset) - train_size
train_ds, test_ds = random_split(dataset, [train_size, test_size])

In [8]:
from torch.nn.utils.rnn import pad_sequence
# Cargarlo al GPU, random_split ya lo shufflea, padearlo con 0s asi tienen el mismo tamaño(al entrenar se ignoran esos 0s)
def collate_pad(batch):
    xs, ys = zip(*batch)
    lengths = torch.tensor([x.size(0) for x in xs])
    x_padded = pad_sequence(xs, batch_first=True, padding_value=0.0)
    y_tensor = torch.tensor(ys)
    return x_padded, lengths, y_tensor

train_loader = DataLoader(train_ds, batch_size=32, shuffle=True, num_workers=6, collate_fn=collate_pad) # Shufflearlo por cada epoch
test_loader = DataLoader(test_ds, batch_size=32, num_workers=6, collate_fn=collate_pad)

device = "cuda" if torch.cuda.is_available() else "cpu"
print(device)

cpu


In [9]:
print(print(len(train_ds), len(test_ds)))

2548 638
None


In [10]:
from models import SimpleRNN
from models import training_loop

In [None]:
model = SimpleRNN()
training_loop(model, train_loader, test_loader, "../../models/SimpleDetector/best_params.pth", lr=1e-4, weight_decay=1e-3)

Highest Train Acc: 100.00% (Test Acc at that time: 95.45%)

Highest Test Acc:  98.27% (Train Acc at that time: 100.00%)

# Resultados
- RNN simple, tanh, 5 capas ocultas y 1 de salida, adam, lr=1e-4, lambda=1e-3: 99.38%, 89.94%
  -  Alrededor del doble de datos: 95%, 94.19%

Generaliza para el culo en el mundo real, no es capaz de predecir ni una seña. Sospecho porque en los videos estan todos sentados de la misma forma. Lo que quiero hacer es
- Sacar los landmarks de el torso. Solo tener los landmarks de los brazos y la mano
- Hacer una primera RNN que se dedique a determinar si es una seña de ambas manos o si es de solo la habil(derecha o izquierda, dataset augmentation para zurdos)
- Hacer una segunda etapa dedicada a determinar la seña
  - Una unica RNN con un filtro en su input y reemplazando la mano no-usada con ceros, transfer learning pero quizas le cueste generalizar
  - 2 RNNs diferentes. Una para ambas manos, otra para la mano habil, quizas generalize mejor pero no hay transfer learning

# Ideas para probar
- **REVISAR QUE MODELOS Y ARQUITECTURAS QUE HACEN ESTO YA EXISTEN**
- La idea de PCA para dataset augmentation
  - Agregar vectores de direccion aleatorios a la muñeca/nudillo y mover el resto del brazo con kinesis
- Transfer learning usando otro lenguaje de señas similar al argentino pero mas completo
-   Freezar las conexiones recurrentes? Freezar las primeras capas?
- Un par de capas ocultas mas
- Un par de capas ocultas no recurrentes con ReLU
- Usar una GRU o echo state network para mayor memoria a largo plazo(me parece al pedo una LSTM porque si ya con este nivel de memoria se maneja bien, entonces no creo necesitar tanto control)
- Encontrar una representacion menos ruidosa para los datos(el z lo infiere mal mediapipe en teoria, y la escala de las manos interpoladas tienen mucho ruido)
- Quizas reducir los fps a 6 o menos
- Aumentar el tamaño de los batches
- Reducir el learning rate a $10^{-4}$ una vez que llegue ~80% porque oscila mucho
  - Fijarme en un grafico el punto donde empieza a oscilar
  - No graficar simplemente el train error, graficar la diferencia porcentual entre el train error anterior y este

In [None]:
# Recargar el mejor modelo
model.load_state_dict(torch.load("../../models/SimpleDetector/best_params.pth", map_location=device))

In [None]:
# Ahora guardar la softmax de la seña correcta para cada seña en un csv, asi hago analisis despues
labels = []
softmax_score = []

model.eval()
with torch.no_grad():
    for loader in (train_loader, test_loader):
        print("a")
        for x, lengths, y in loader:
            x = x.to(device)
            y = y.to(device)

            y_pred = model(x, lengths)
            _, predicted = y_pred.max(1)
            probs = torch.softmax(y_pred, dim=1)

            for i in range(len(predicted)):
                if int(y[i]) == int(predicted[i]):
                    labels.append(y[i].item())
                    softmax_score.append(probs[i][y[i]].item())

In [11]:
import pandas as pd
df = pd.DataFrame({"label": labels, "softmax_score": softmax_score})
df.to_csv("rnn_scores.csv", index=False)