# Reconocimiento de acciones humanas

Comparar arquitecturas RNN y CNN para reconocimiento de acciones humanas en el conjunto UCF11. La solución debe cumplir con los siguientes puntos:
* Usar las características convolucionales vistas en clase (dataset: https://cloud.xibalba.com.mx/s/QwapfBYpYNmNbPP)
* Implementar una arquitectura RNN bidireccional con una capa GRU.
* Implementar una arquitectura CNN con una capa Conv1d.
* Modificar el tamaño de las capas para que ambos modelos tengan un número similar de parámetros.
* Discutir el comportamiento durante el entrenamiento y resultados finales en ambos conjuntos.

In [1]:
!pip install torch-summary
!pip install zarr



In [2]:
#importamos librerias utiles 
#deep learning
import torch
from torch.utils.data import DataLoader
import torch.nn as nn
import torch.nn.functional as func
import torch.optim as optimizerr
import torchvision.datasets.utils as tutils
import torchvision.datasets as DataSets
from torchvision import transforms
from torch.utils.data import Dataset, DataLoader, random_split
import torchvision.transforms as transforms
from torchsummary import summary
import torchvision.models as torchModels
from torch.utils.tensorboard import SummaryWriter
#matrices y matematicas
import numpy as np
import pandas as pd
# tomar n elementos de una secuencia
from itertools import islice as take
#imagenes
from matplotlib import pyplot as plt
#arreglos multidimensionales
import zarr
#descarga de archivos
import wget
#para acceder a ficheros del sistema
import os
import glob
#para descomprimir el archivo UTKFace.tar.gz
import tarfile
# barra de progreso
from tqdm import trange
#para reproducibilidad
import random
random.seed(1)
np.random.seed(1)
torch.manual_seed(1)

<torch._C.Generator at 0x26135ae80b0>

In [3]:
#para usar la GPU si esta disponible
if torch.cuda.is_available():  
    dev = "cuda:0" 
else:  
    dev = "cpu"

device = torch.device(dev)
print('Usando {}'.format(device))

Usando cuda:0


### UCF 11: Youtube Action Data Set
contiene 11 cantegorias de acciones humanas: basketball shooting, biking or cycling, diving, golf swinging, horse back riding, soccer juggling, swinging, trampoline jumping, volleyball spiking and walking with a dog

## Carga del dataset en pytorch

In [4]:
class UCF11(Dataset):
    #funcion instanciadora
    def __init__(self, directory, download = False):
        #definimos variable "global" de la clase
        self.directory = directory
        #definimos el directorio donde estaran los datos, tambien es variable "global"
        self.zarrDirectory = os.path.join(self.directory, 'ucf11.zarr')
        #si download=True
        if download:
            #aplica el metodo downloadDataset
            self.downloadDataset()
        #define variable para abrir el los archivos .zarr
        self.zar = zarr.open(self.zarrDirectory, 'r')
        #lista los directorios contenidos dentro del directorio
        self.paths = list(self.zar.array_keys())
    #metodo para extraer items del dataset        
    def __getitem__(self, idx):
        #extrae un elemento contenida dentro del directorio paths con id idx
        array = self.zar[self.paths[idx]]
        #convierte a matriz el elemento extraido
        x = np.array(array)
        #extrae su etiqueta
        y = np.array(array.attrs['y'], dtype = np.int64)
        #regresa la matriz y su etiqueta
        return x , y
    #metodo para extraer la cantidad de datos en dataset
    def __len__(self):
        return len(self.paths)
    #metodo para descargar los datos
    def downloadDataset(self):
        #funcioon de pytorch que permite descargar los datos
        tutils.download_and_extract_archive(
            #url de los datos
            url = 'http://cloud.xibalba.com.mx/s/QwapfBYpYNmNbPP/download',
            #ruta donde se guardan los datos
            download_root = self.directory,
            #nombre del archivo a descargar
            filename = 'ucf11.zarr.tar.gz'
        )

### Instanciando el dataset

In [5]:
dataset = UCF11('dataUCF', True)
print('El dataset consta de {} muestras'.format(len(dataset)))
sampleX , sampleY = dataset[499]
print('Los datos "duros" son matrices de dimensiones {}'.format(sampleX.shape))
print('Las clases son enteros')
#limpiamos las variables
sampleX, sampleY = None, None

Using downloaded and verified file: dataUCF\ucf11.zarr.tar.gz
Extracting dataUCF\ucf11.zarr.tar.gz to dataUCF
El dataset consta de 1599 muestras
Los datos "duros" son matrices de dimensiones (10, 1024)
Las clases son enteros


### Conjuntos de entrenamiento y prueba

In [6]:
#definimos el tamaño de los conjuntos de prueba y entrenamiento
trainSize = int(0.8 * len(dataset))
testSize = int(len(dataset) - trainSize)
#hacemos un print para verificar que no se quedaron datos sin asignar
print('La suma de los enteros trainSize y testSize es {}'.format(testSize+trainSize))
#instanciamos los datasets de entrenamiento y prueba a partir del deataset general shufleado
train, test = random_split(dataset, [trainSize ,testSize])
#hacemos un print para verificar que no se quedaron datos sin asignar
print('La suma de la longitud de train y test es {}'.format(len(test)+len(train)))

La suma de los enteros trainSize y testSize es 1599
La suma de la longitud de train y test es 1599


### Cargando datos

In [7]:
#creamos el cargador de datos de entrenamiento con un tamaño de lote de 64, se hace shuffle.
#no usar otro numero de num_workers de cero porque si no no jala ¿Error de pytorch?
trainLoader = DataLoader(train, batch_size=64, shuffle = True, num_workers=0)
#creamos el cargador de datos de prueba con un tamaño de lote de 64, se hace shuffle.
#no usar otro numero de num_workers de cero porque si no no jala ¿Error de pytorch?
testLoader = DataLoader(test, batch_size=64, shuffle = True, num_workers=0)

#verificamos que los datos se hayan cargado correctamente
x, y = next(iter(trainLoader))
print(f'x de train shape={x.shape} dtype={x.dtype}')
print(f'y de train shape={y.shape} dtype={y.dtype}')
x, y = next(iter(testLoader))
print(f'x de test shape={x.shape} dtype={x.dtype}')
print(f'y de test shape={y.shape} dtype={y.dtype}')

x de train shape=torch.Size([64, 10, 1024]) dtype=torch.float32
y de train shape=torch.Size([64]) dtype=torch.int64
x de test shape=torch.Size([64, 10, 1024]) dtype=torch.float32
y de test shape=torch.Size([64]) dtype=torch.int64


## Definición de la arquitectura RNN-GRU bidireccional

In [16]:
#creamos la clase RNN
class RNN(nn.Module):
    #metodo instanciador, inputSize: longitud de la entrada x. hiddenSize: tamaño
    #de las caracteristicas del estado oculto h.
    def __init__(self, inputSize=1024, hiddenSize = 128, numClasses = 11):
        #instanciamos a la clase padre RNN de pytorch
        super(RNN, self).__init__()
        self.batchNorm = nn.BatchNorm1d(inputSize)
        self.recurrentNN = nn.GRU(input_size=inputSize, hidden_size = hiddenSize, num_layers = 1, 
                                  batch_first=True, bidirectional=True)
        self.classifierN = nn.Linear(hiddenSize, numClasses)
        
    def forward(self, x):
        #Los datos vienen como [batch, secuencia, caracteristicas] los permutamos a
        # [batch, caract, secuencia] para pasarlos por el batchNorm
        x = x.permute(0, 2, 1)
        #batchnorm
        x = self.batchNorm(x)
        #repermutamos al estado original
        x = x.permute(0, 2, 1)
        #RNN escupe la salida out y el estado oculto h_n
        x, h = self.recurrentNN(x)
        #tiramos a la basura h porque no hay otras RNN conectadas a esta.
        #calculamos la media de las salidas (x)
        #x = torch.mean(x,1)
        x = x[:,-1,:]
        #clasificador
        x = self.classifierN(x)
        #regresa la clasificacion
        return x

In [20]:
modelRNN = RNN()
modelRNN = modelRNN.to(device)
summary(modelRNN, (11, 1024), device = device, verbose = 0)

RuntimeError: Failed to run torchsummary. See above stack traces for more details. Executed layers up to: [BatchNorm1d: 1-1, GRU: 1-2]

In [19]:
modelRNN

RNN(
  (batchNorm): BatchNorm1d(1024, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  (recurrentNN): GRU(1024, 128, batch_first=True, bidirectional=True)
  (classifierN): Linear(in_features=128, out_features=11, bias=True)
)