```
ME72: Maestría en Métodos Cuantitativos para la Gestión y Análisis de Datos
M72109: Analisis de datos no estructurados
Universidad de Buenos Aires - Facultad de Ciencias Economicas (UBA-FCE)
Año: 2021
Profesor: Facundo Santiago, Javier Ignacio Garcia Fronti
```

# Desafio: ¿Qué tan memorable es un video?

Como trabajo final para la materia, les proponemos resolver un desafio de memorabilidad de un video, el cual requerirá de utilizar todos los conceptos que revisamos en la materia **al mismo tiempo**: imagenes, audio y texto.

## ¿De que se trata el desafío?

Esta tarea se centra en el problema de predecir qué tan memorable es un video para un espectador. Definiremos a un video como memorable como la probabilidad de que se recuerde tal video luego de un lapso de tiempo determinado. 

Recibirán un extenso conjunto de datos de videos que van acompañados de anotaciones memorables, así como predictores (features) extraídos previamente que reflejan distintos preprocesamientos de los videos para que la tarea le resulte más sencilla. Las etiquetas (labels) se ha recopilado a través de pruebas de reconocimiento y, por lo tanto, es el resultado de una medición objetiva del rendimiento de la memoria.

<img src='https://raw.githubusercontent.com/santiagxf/M72109/master/Desafio/Docs/memorability.PNG' width=600 />

*Creditos del desafio original:*

http://www.multimediaeval.org/mediaeval2019/memorability/

Mihai Gabriel Constantin, University Politehnica of Bucharest, Romania
Bogdan Ionescu, University Politehnica of Bucharest, Romania
Claire-Hélène Demarty, Technicolor, France
Quang-Khanh-Ngoc Duong, Technicolor, France
Xavier Alameda-Pineda, INRIA, France
Mats Sjöberg, CSC, Finland

## Direcciones

Deberán entrenar modelos de aprendizaje automático capaces de inferir la memorabilidad de video a partir del contenido audiovisual. Para hacerlo, podrán optar por utilizar los videos directamente o utilizar características (features) que fueron extraídas desde los mismos utilizando algunas de las técnicas que vimos en este curso. 
Utilizando estos datos, deberán evaluar la performance del modelo utilizando un set de datos de evaluación. Los modelos se evaluarán a través de métricas de evaluación estándar utilizadas en las tareas de clasificación y regresión (dependiendo del tipo de desafío que elijan).

### Entrega

Para entregar la solución, podrán utilizar la plataforma que más les resulta conveniente. En caso de optar por entregar un notebook de Google Colaboratory, pueden utilizar la siguiente plantilla de entrega donde contarán con todas las herramientas que vimos en el curso ya instaladas y listas para utilizar. Todos los fragmentos de código, librerias y sets de datos se descargarán automaticamente cuando ejecuten las celdas "preparación del ambiente"

[Solución base - ¿Qué tan memorable es un video?](https://colab.research.google.com/github/santiagxf/M72109/blob/master/Desafio/Solucion_base.ipynb)

## Anotaciones para el problema de memorabilidad

Cuentan con 2 tipos de anotaciones para cada uno de los fragmentos de video disponibles:
 - **memorability_score:** Representa el puntaje de memorabilidad de la secuencia en particular, desde 0 a 1. Valores más grandes son mejores.
 - **memorable:** Variable categórica que representa si un video es memorable o no. Un video con `memorability_score` superior a `0.5` es marcado como memorable (`1`), sino es marcado como no memorable (`0`)

In [None]:
!wget https://raw.githubusercontent.com/santiagxf/M72109/master/Desafio/Data/ground_truth.csv \
  --directory-prefix ./Data/ --no-clobber --quiet

--2020-11-12 19:26:13--  https://raw.githubusercontent.com/santiagxf/M72109/master/Desafio/Data/ground_truth.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 151.101.0.133, 151.101.64.133, 151.101.128.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|151.101.0.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 49148 (48K) [text/plain]
Saving to: ‘./Data/ground_truth.csv’


Last-modified header missing -- time-stamps turned off.
2020-11-12 19:26:14 (3.89 MB/s) - ‘./Data/ground_truth.csv’ saved [49148/49148]



In [None]:
import pandas as pd

labels = pd.read_csv('Data/ground_truth.csv')

In [None]:
labels.head(2)

Unnamed: 0,movie_name,start(sec),end(sec),sequence_name,Neutral (1)_Typical (0),nb_annotations,memorability_score,memorabable
0,127 hours,2000,2010,127_hours_2000_2010_1,0,5,1.0,1
1,127 hours,2182,2192,127_hours_2182_2192_5,1,8,0.0,0


## Elije tu propia aventura

En este desafío, les propongo elegir la dificultad con la que quieren trabajar para solucionar el problema en cuestión. Dependiendo de la elección, son las herramientas que tendrán a su disosición para resolver el problema. Pueden utilizar algunas de las sugerencias, todas las sugerencias, o probar alguna técnica que conozcan y que les parezca interesante de probar.

### Resolver el desafío utilizando los datos de origen

Esta configuración del desafío es la más similar a la vida real, y solo contaran con un conjunto de videos en formato MP4 como datos de entrada junto con sus anotaciones de memorabilidad en formato CSV. Cualquier procesamiento de datos deberá realizarse utilizando esta información únicamente. Dado que algunos procesamientos de datos sobre videos pueden ser complejos, adicionalmente contarán además con:
 - Imágenes extraidas cada 2 segundos por cada secuencia a analizar
 - Tracks de audio disponibles en formato WAV listos para utilizar

A pesar de que el video a sido separado en imagenes y audio, resolver el desafío en utilizando estos datos será una tarea compleja. Sin embargo, en el contexto de sus organizaciones, normalmente se encontrarán con esta dificultad.

#### Videos

En el directorio *Data/Raw/sources* encontraran todas las secuencias utilizadas en este desafío. El archivo *'Data/ground_truth.csv'* contine los nombres de las peliculas a las que corresponde cada fragmento en caso que quieran revisarlos.

#### Audios

En el directorio *Data/Raw/audios* encontraran todos los audios correspondientes a cada una de las secuencias de los videos. Los audios están en formato wav, que si bien ocupan mayor espacio, son más sencillos de procesar. 

Algunas ideas:
 - Aplicar técnicas de speech-to-text.
 - Aplicar técnicas de embeddings de audio.
 - Clasificar primero el audio (en por ejemplo 'instrumento musical', 'personas charlando', 'exterior', 'aire libre') y luego utilizarlos para resolver el problema.

#### Frames

En el directorio *Data/Raw/frames* encontraran todos los frames extraidos de cada una de las secuencias. Los frames están disponibles cada 2 segundos por lo cual disponen de 5 frames por cada secuencia.

Algunas ideas:
 - Aplicar modelos de convolución directamente sobre las imagenes.
 - Aplicar técnicas de descripción de imagenes utilizando Servicios Cognitivos
 - Reconocimiento de lugares claves.
 - Los fragmentos tienen personas famosas, ya que son actores de cine y televisión. ¿Será importante?
 - Colores de la escena.

### Resolver el desafío utilizando predictores preprocesados

En esta configuración del desafio, ya hay bastante trabajo realizado. Los videos han sido preprocesados para generar un conjunto de predictores que pueden ayudar a resolver el problema. Estos predictores se entregan como un conjunto de archivos en formato CSV. 

A pesar de que esta opción pueda parecer sencilla, ofrece sus propios desafíos ya que tienen a disposición muchos predictores pero en dominios distintos: audio, texto, embeddings, etc. Deberán desarrollar una técnica que pueda hacer sentido de esto en su conjunto.

A continuación detallamos los predictores con los que contarán:

In [None]:
!wget -N https://raw.githubusercontent.com/santiagxf/M72109/master/Desafio/Data/Features/audio_vectors.csv --directory-prefix ./Data/Features/
!wget -N https://raw.githubusercontent.com/santiagxf/M72109/master/Desafio/Data/Features/c3d_vectors.csv --directory-prefix ./Data/Features/
!wget -N https://raw.githubusercontent.com/santiagxf/M72109/master/Desafio/Data/Features/caption_features.csv --directory-prefix ./Data/Features/
!wget -N https://raw.githubusercontent.com/santiagxf/M72109/master/Desafio/Data/Features/colors_features.csv --directory-prefix ./Data/Features/

--2020-11-12 23:25:50--  https://raw.githubusercontent.com/santiagxf/M72109/master/Desafio/Data/Features/audio_vectors.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 151.101.0.133, 151.101.64.133, 151.101.128.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|151.101.0.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 72430486 (69M) [text/plain]
Saving to: ‘./Data/Features/audio_vectors.csv’


Last-modified header missing -- time-stamps turned off.
2020-11-12 23:25:57 (88.0 MB/s) - ‘./Data/Features/audio_vectors.csv’ saved [72430486/72430486]

--2020-11-12 23:25:57--  https://raw.githubusercontent.com/santiagxf/M72109/master/Desafio/Data/Features/c3d_vectors.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 151.101.0.133, 151.101.64.133, 151.101.128.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|151.101.0.133|:443... connected.
HTTP request sent, awaiting res

#### Descripciónes de las imagenes

Cuentan con las descripciones de cuadros (frames) de cada una de las secuencias. Estos frames están extraidos cada 1 segundo y las descripciones se generaron utilizando la API de Computer Vision de Azure Cognitive Services. Cada una de las descripciones forma una oración, y por lo tanto, por cada secuencia tendrán disponible un parrafo con 10 oraciones describiendo cada una de las escenas:

In [None]:
import pandas as pd
captions = pd.read_csv('Data/Features/caption_features.csv')

In [None]:
captions.head(2)

Unnamed: 0,sequence_name,cc
0,127_hours_2000_2010_1,a man in a suit and tie standing in front of a...
1,127_hours_2182_2192_5,a man holding a toothbrush in his mouth. a wom...


In [None]:
captions.shape

(660, 2)

#### Colores de las imágenes

Los colores en una imágen pueden ser representativos de lo que uno está viendo. Por ejemplo, en una secuencia de terror, las imagenes con fondos oscuros quizás prevalezcan que con colores claros. Para capturar esto, cuentan con anotaciones para cada secuencia, para cada cuadro (frame de la secuencia) con los valores correspondientes al color más dominante en el fondo y el color más dominante en primer plano. Noten que en este caso, disponen de esta información por cada uno de los cuadros (es decir, 5 anotaciones por cada secuencia y por lo tanto deberán elejir una estrategia para quedarse con 1 solo valor por secuencia. Por ejemplo: el color más frecuente, o el color más raro. También pueden optar por utilizar variables categoricas en el sentido "contine_fondo_oscuro" significando una secuencia en que el fondo en algún cuadro es oscuro/negro.

In [None]:
import pandas as pd
colors = pd.read_csv('Data/Features/colors_features.csv')

In [None]:
colors.head(10)

Unnamed: 0,sequence_name,dominant_background,dominant_foreground
0,127_hours_2000_2010_1,Black,Black
1,127_hours_2000_2010_1,Grey,Black
2,127_hours_2000_2010_1,Black,Black
3,127_hours_2000_2010_1,Black,Black
4,127_hours_2000_2010_1,Black,Black
5,127_hours_2182_2192_5,Black,Black
6,127_hours_2182_2192_5,Black,Yellow
7,127_hours_2182_2192_5,Black,Yellow
8,127_hours_2182_2192_5,Brown,Yellow
9,127_hours_2182_2192_5,Brown,Yellow


In [None]:
colors.shape

(3300, 3)

In [None]:
grouped_colors = colors.groupby('sequence_name')

In [None]:
mode = lambda x: x.mode() if len(x) > 2 else np.array(x)
grouped_colors['dominant_background'].agg(mode)

sequence_name
127_hours_2000_2010_1     Black
127_hours_2182_2192_5     Black
127_hours_271_281_1       Brown
127_hours_285_295_2       Brown
127_hours_328_338_3      Yellow
                          ...  
Youth_1996_2006_26        Brown
Youth_2023_2033_23        Black
Youth_2155_2165_28        Black
Youth_2400_2410_24        Black
Youth_2483_2493_25        Brown
Name: dominant_background, Length: 660, dtype: object

#### Vectores de audio

Se corresponden a las representaciones (embeddings) utilizados por la red YAMNet que vimos en el curso. YAMNet es un modelo que utiliza la misma ténica que las CNN pero al construir imágenes a partir de audio (llamados parches o patchs). Cada uno de estos patchs es el resultado de calcular espectrogramas de audio, creando así parches de imágenes 2D para utilizar en nuestro modelo.

Los vectores generados por YAMNet son vectores en un espacio de 1024-D


In [None]:
import pandas as pd
audio_embeddings = pd.read_csv('Data/Features/audio_vectors.csv')

In [None]:
audio_embeddings.head(2)

Unnamed: 0.1,Unnamed: 0,sequence_name,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,...,985,986,987,988,989,990,991,992,993,994,995,996,997,998,999,1000,1001,1002,1003,1004,1005,1006,1007,1008,1009,1010,1011,1012,1013,1014,1015,1016,1017,1018,1019,1020,1021,1022,1023,1024
0,0,127_hours_2000_2010_1,0.0,0.796399,0.009879,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.006553,0.0,0.046742,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.005302,0.032028,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.020504,0.003736,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.012172,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.036203,0.000274,0.0,0.0,0.058202,0.0,0.0,0.0,0.0,0.0,0.348698,0.0,0.0,0.0,0.0,0.466612,0.0,0.0,0.0,0.492673,0.0,0.0,0.0,0.391332,0.0,0.0
1,1,127_hours_2000_2010_1,0.0,0.0,0.0,0.003163,0.010787,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.416292,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.049882,0.0,0.0,0.0,2.006405,0.536719,0.0,0.0,0.0,...,0.002856,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.237772,0.0,0.0,0.0,0.1735,0.0,0.0,0.0,0.177809,0.0,0.0


En el caso de vectores de audio, debemos ajustar las dimensiones puesto que son vectores 2D de 20x1024:

In [None]:
audio_embeddings_vectors = audio_embeddings.to_numpy()[:,2:].reshape((-1,20,1024))

In [None]:
audio_embeddings_vectors.shape

(609, 20, 1024)

#### Vectores de la red C3D (convoluciones en 3D)

Se corresponden a las representaciones aprendidas al aplicar un modelo de convolución 3D sobre el input del video. Estas convoluciones no solo tienen en cuenta localidad a nivel de pixeles en las imagenes sino que también localidad a nivel espacio-temporal en el transcurso del video.

<img src='https://github.com/santiagxf/M72109/blob/master/Desafio/Docs/3D-timedistributed.PNG?raw=1' width=500 />

Referencias sobre este modelo: https://arxiv.org/pdf/1711.11248.pdf<br />
Implementación por el equipo de Facebook AI: https://github.com/facebookresearch/VMZ

En en caso de las representaciones provistas aquí, corresponden al caso B) que se muestra en la imagen superior, donde se aplicaron convoluciones 3D (alto, ancho y tiempo) en las primeras capas para capturar relaciones temporales a alto nivel y luego se continuó con convoluciones 2D de forma similar a lo que vimos en este curso.

Los embeddings generados son vectores en un espacio dimensional 4096-D

In [None]:
import pandas as pd
video_embeddings = pd.read_csv('Data/Features/c3d_vectors.csv')

In [None]:
video_embeddings.head(2)

Unnamed: 0.1,Unnamed: 0,sequence_name,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,...,4056,4057,4058,4059,4060,4061,4062,4063,4064,4065,4066,4067,4068,4069,4070,4071,4072,4073,4074,4075,4076,4077,4078,4079,4080,4081,4082,4083,4084,4085,4086,4087,4088,4089,4090,4091,4092,4093,4094,4095
0,0,127_hours_2000_2010_1,0.82588,6.3702,0.0,0.34248,0.75896,1.7976,0.1524,0.0,2.1005,3.0595,5.3209,0.65388,0.0,4.6024,2.1203,0.0,0.96733,1.5948,0.92025,4.0407,2.7748,0.59527,0.095815,1.5334,1.3087,4.4896,3.3343,3.4041,2.1141,0.34874,2.2946,0.0,5.064,4.6946,1.4373,4.0352,3.6458,2.0807,...,4.902,2.4753,2.7693,1.7507,2.1867,0.64449,3.9968,1.3514,3.8472,0.002001,0.0,1.7299,4.2137,0.88381,0.0,3.0936,4.3608,2.771,0.0,4.3512,0.0,1.4744,5.7679,2.5589,1.6776,0.0,8.5785,1.9166,4.6341,1.6254,3.9249,0.0,5.6224,1.7332,2.4912,3.2778,1.7001,0.0,1.9559,6.1765
1,1,127_hours_2182_2192_5,0.0,2.2294,0.0,0.0,1.5337,1.2082,2.6512,0.0,4.1553,1.008,2.6259,1.9054,3.35,4.1203,7.0737,0.0,1.2026,2.7264,1.9307,7.5568,1.314,4.1076,1.7285,1.74,1.1253,0.99555,0.0,3.1128,2.6912,0.0,2.6914,3.6841,4.4532,4.187,0.61699,4.0952,0.0,3.4211,...,3.4554,3.7729,1.418,2.0475,3.0973,1.4056,4.9125,5.3698,0.024375,0.0,0.895,2.7384,3.5846,1.9349,1.5782,4.0566,3.0115,2.6461,3.0304,2.1322,2.0873,1.2015,5.59,0.0,1.189,0.0,4.749,3.1846,0.59693,8.0462,0.3997,0.0,3.8342,1.7536,1.891,0.91983,0.0,2.0523,1.0713,1.4447


In [None]:
video_embeddings.shape

(660, 4098)