# Project 03: Clustering Human Recognition

Este proyecto busca detectar qué acción está realizando un humano por medio de un datasets de videos donde se realizan interacciones como: *tocar instrumentos, interacción de humanos con objetos, humanos saludándose, humanos abrazándose, etc*. Para cada acción se cuentan con como mínimo 400 video clips.

---
### 0. Libraries

In [52]:
import os
import glob
import h5py

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.decomposition import PCA

---
### 1. Video features extraction

Cada clip tiene asociado con una sola acción humana y dura aproximadamente 10 sgundos. Este proyecto usa un subset del dataset original, se utilizará la librería de Video Fetures y Gluon para extraer las características del video.

Para proceder con el almacenamiento de los datos se utilizará un almacenamiento del tipo **HDF5** por medio de la librería `h5py`. De igual forma se procede a utiizar un modelo etiquetado como: **Action Recognition** para la extracción de características, esto es así pues a comparación del otro modelo **Frame-wise** nosotros tenemos como data acciones dinámicas y no estáticas.

El costo computacional para reconocimiento de acciones será más costoso pues analizará más frames por segundo, por ese motivo se elijió el modelo **S3D (Kinetics 400)**, que si bien no es el más potente o el que brinda más características, pero si aquel que tiene un buen **tradeoff** entre eficiencia y precisión.

Necesitamos **extraer las características** de nuestros videos por medio de la librería que se ejecuta a nivel terminal, con el siguiente comando podremos transformar un listado de videos tal que obtenemos características para cada uno. Es así que contamos en la [documentación](https://v-iashin.github.io/video_features/models/s3d/) con argumentos opcionales, un ejemplo es el siguiente `python main.py feature_type = s3d video_paths="[./qyjw13RCjZk_000017_000027.mp4]" show_pred = true`

In [54]:
labels_df = pd.read_csv('./data/train.csv', header = None, names = ['video_id', 'activity'])

video_features_dir = './data/s3d'
video_features = []
video_labels = []

for each_video in glob.glob(os.path.join(video_features_dir, '*.npy')):
    video_id = os.path.basename(each_video).split('_')[0]
    
    current_video_feature = np.load(each_video)
    current_video_feature_avg = np.mean(current_video_feature, axis = 0)
    video_features.append(current_video_feature_avg)

    current_video_label = labels_df[labels_df['video_id'] == video_id]['activity'].values[0]
    video_labels.append(current_video_label)

video_features_stacked = np.vstack(video_features)

print(f'Número de videos cargados: {len(video_labels)}')
print(f'Shape de nuestra matriz de videos - features: {video_features_stacked.shape}')

Número de videos cargados: 20
Shape de nuestra matriz de videos - features: (20, 1024)


---
### 3. Data analysis 

Para iniciar nuestra exploración, primero aplicaremos una **reducción de dimensionalidad**. Esto se debe a que actualmente se cuenta con un vector que representa cada video, tal que este vector tiene $1024$ características (dimensiones).

Usaremos **PCA (Principal Component Analysis)** que nos permitirá reducir la dimensionalidad manteniendo la mayor parte de la varianza de los datos, a mayor cantidad de varianza habrá mayor entropía por lo que por ende seguiremos contando con gran cantidad de **información representativa**.

In [58]:
pca = PCA(n_components = 20)
video_features_pca_reduced = pca.fit_transform(video_features_stacked)

video_features_pca_reduced.shape

(20, 20)

---
### 2. Dimensionality reduction

TODO

---
### 3. Clustering methods

#### 3.1 Partitioning Method: Median Shift
---
TODO

#### 3.1 Density-based Method: DBSCAN
---
TODO

---
### 4. Classification metrics

TODO