```
ME72: Maestría en Métodos Cuantitativos para la Gestión y Análisis de Datos
M72109: Analisis de datos no estructurados
Universidad de Buenos Aires - Facultad de Ciencias Economicas (UBA-FCE)
Año: 2024
Profesor: Facundo Santiago, Javier Ignacio Garcia Fronti
```

# Desafio: ¿Qué tan memorable es un video?

Como trabajo final para la materia, les proponemos resolver un desafio de memorabilidad de un video, el cual requerirá de utilizar todos los conceptos que revisamos en la materia **al mismo tiempo**: imagenes, audio y texto.

## ¿De que se trata el desafío?

Esta tarea se centra en el problema de predecir qué tan memorable es un video para un espectador. Definiremos a un video como memorable como la probabilidad de que se recuerde tal video luego de un lapso de tiempo determinado.

Recibirán un extenso conjunto de datos de videos que van acompañados de anotaciones memorables, así como predictores (features) extraídos previamente que reflejan distintos preprocesamientos de los videos para que la tarea le resulte más sencilla. Las etiquetas (labels) se ha recopilado a través de pruebas de reconocimiento y, por lo tanto, es el resultado de una medición objetiva del rendimiento de la memoria.

<img src='https://raw.githubusercontent.com/santiagxf/M72109/master/Desafio/Docs/memorability.PNG' width=600 />

*Creditos del desafio original:*

http://www.multimediaeval.org/mediaeval2019/memorability/

Mihai Gabriel Constantin, University Politehnica of Bucharest, Romania
Bogdan Ionescu, University Politehnica of Bucharest, Romania
Claire-Hélène Demarty, Technicolor, France
Quang-Khanh-Ngoc Duong, Technicolor, France
Xavier Alameda-Pineda, INRIA, France
Mats Sjöberg, CSC, Finland

Para mas información sobre esta tarea, puede revisar [Overview of The MediaEval 2021 Predicting Media Memorability Task](https://arxiv.org/abs/2112.05982)

## Direcciones

Deberán entrenar modelos de aprendizaje automático capaces de inferir la memorabilidad de video a partir del contenido audiovisual. Para hacerlo, podrán optar por utilizar los videos directamente o utilizar características (features) que fueron extraídas desde los mismos utilizando algunas de las técnicas que vimos en este curso.
Utilizando estos datos, deberán evaluar la performance del modelo utilizando un set de datos de evaluación. Los modelos se evaluarán a través de métricas de evaluación estándar utilizadas en las tareas de clasificación y regresión (dependiendo del tipo de desafío que elijan).

> **IMPORTANTE AÑO 2023**: Para reducir el alcance del trabajo final, solamente se solicita que resuelvan este trabajo práctico utilizando los predictores que corresponden a texto. **Entrene al menos 2 modelos correspondientes a la sección de NLP**. Puede utilizar la siguiente plantilla para escribir su solución:

- [Solución base utilizando predictores basados en texto (NLP) - ¿Qué tan memorable es un video? ](https://colab.research.google.com/github/santiagxf/M72109/blob/master/Desafio/Solucion_features_nlp.ipynb)

## Anotaciones para el problema de memorabilidad

Cuentan con 2 tipos de anotaciones para cada uno de los fragmentos de video disponibles:
 - **memorability_score:** Representa el puntaje de memorabilidad de la secuencia en particular, desde 0 a 1. Valores más grandes son mejores.
 - **memorable:** Variable categórica que representa si un video es memorable o no. Un video con `memorability_score` superior a `0.5` es marcado como memorable (`1`), sino es marcado como no memorable (`0`)

In [None]:
!wget https://raw.githubusercontent.com/santiagxf/M72109/master/Desafio/Data/ground_truth.csv \
  --directory-prefix ./Data/ --no-clobber --quiet

In [None]:
import pandas as pd

labels = pd.read_csv('Data/ground_truth.csv')

In [None]:
labels.head(5)

Unnamed: 0,movie_name,start(sec),end(sec),sequence_name,Neutral (1)_Typical (0),nb_annotations,memorability_score,memorabable
0,127 hours,2000,2010,127_hours_2000_2010_1,0,5,1.0,1
1,127 hours,2182,2192,127_hours_2182_2192_5,1,8,0.0,0
2,127 hours,271,281,127_hours_271_281_1,1,4,0.75,1
3,127 hours,285,295,127_hours_285_295_2,1,5,0.8,1
4,127 hours,328,338,127_hours_328_338_3,0,7,0.714286,1


> Note que aquí nuestras muestras son "secuencias" de determinadas películas. En total dispone de 609 secuencias con el nombre `sequence_name`. El mismo nombre se generó automáticamente concatenando el nombre de la pelicula a la que pertenece la secuencia (movie_name), seguido del segundo en el que comienza la secuencia, seguido del segundo en el que termina, seguido de un numero que indica el número de secuencia. Por ejemplo, la secuencia `127_hours_2000_2010_1` es un fragmento de la pelicula "127 hours", que va desde el segundo 2000 (00:33:20 hrs.) al segundo 2010 (00:33:30 hrs.) y es el fragmento número 1. Esta información es totalmente irrelevante para el problema de memorabilidad pero **el nombre de la secuencia (`sequence_name`) será su clave primeria para vincular los diferentes conjuntos de datos.**

### Entrega

Para entregar la solución, podrán utilizar la plataforma que más les resulta conveniente. En caso de optar por entregar un notebook de Google Colaboratory, pueden utilizar la siguiente plantilla de entrega donde contarán con todas las herramientas que vimos en el curso ya instaladas y listas para utilizar. Todos los fragmentos de código, librerias y sets de datos se descargarán automaticamente cuando ejecuten las celdas "preparación del ambiente"

- [Solución base utilizando predictores basados en texto (NLP) - ¿Qué tan memorable es un video? ](https://colab.research.google.com/github/santiagxf/M72109/blob/master/Desafio/Solucion_features_nlp.ipynb)
- [Solución base utilizando predictores pre-procesados - ¿Qué tan memorable es un video? ](https://colab.research.google.com/github/santiagxf/M72109/blob/master/Desafio/Solucion_features.ipynb)
- [Solución base utilizando videos, images y audio - ¿Qué tan memorable es un video? ](https://colab.research.google.com/github/santiagxf/M72109/blob/master/Desafio/Solucion_raw.ipynb)

## Elije tu propia aventura

En este desafío, se les propone elegir la dificultad con la que quieren trabajar para solucionar el problema en cuestión. Dependiendo de la elección, son las herramientas que tendrán a su disosición para resolver el problema. Pueden utilizar algunas de las sugerencias, todas las sugerencias, o probar alguna técnica que conozcan y que les parezca interesante de probar.

### Resolver el desafío utilizando predictores preprocesados

En esta configuración del desafio, ya hay bastante trabajo realizado. Los videos han sido preprocesados para generar un conjunto de predictores que pueden ayudar a resolver el problema. Estos predictores se entregan como un conjunto de archivos en formato CSV.

A pesar de que esta opción pueda parecer sencilla, ofrece sus propios desafíos ya que tienen a disposición muchos predictores pero en dominios distintos: audio, texto, embeddings, etc. Deberán desarrollar una técnica que pueda hacer sentido de esto en su conjunto.

A continuación detallamos los predictores con los que contarán:

In [None]:
!wget https://raw.githubusercontent.com/santiagxf/M72109/master/Desafio/Data/Features/audio_vectors.csv \
  --directory-prefix ./Data/Features/ --quiet
!wget https://raw.githubusercontent.com/santiagxf/M72109/master/Desafio/Data/Features/caption_features.csv \
  --directory-prefix ./Data/Features/ --quiet
!wget https://raw.githubusercontent.com/santiagxf/M72109/master/Desafio/Data/Features/colors_features.csv \
  --directory-prefix ./Data/Features/ --quiet


#### Descripciónes de las imagenes

Cuentan con las descripciones de cuadros (frames) de cada una de las secuencias. Estos frames están extraidos cada 1 segundo y las descripciones se generaron utilizando la API de Computer Vision de Azure Cognitive Services. Cada una de las descripciones forma una oración, y por lo tanto, por cada secuencia tendrán disponible un parrafo con 10 oraciones describiendo cada una de las escenas:

In [None]:
import pandas as pd
captions = pd.read_csv('Data/Features/caption_features.csv')

In [None]:
captions.head(3)

Unnamed: 0,sequence_name,cc
0,127_hours_2000_2010_1,a man in a suit and tie standing in front of a...
1,127_hours_2182_2192_5,a man holding a toothbrush in his mouth. a wom...
2,127_hours_271_281_1,a view of a mountain range from a plane. a fir...


In [None]:
captions.shape

(660, 2)

#### Colores de las imágenes

Los colores en una imágen pueden ser representativos de lo que uno está viendo. Por ejemplo, en una secuencia de terror, las imagenes con fondos oscuros quizás prevalezcan. Para capturar esto, cuentan con anotaciones para cada secuencia, para cada cuadro (frame de la secuencia) con los valores correspondientes al color más dominante en el fondo y el color más dominante en primer plano. Los posibles colores son: `black`, `blue`, `brown`, `gray`, `green`, `orange`, `pink`, `purple`, `red`, `teal`, `white` y `yellow`.

In [None]:
import pandas as pd
colors = pd.read_csv('Data/Features/colors_features.csv')

In [None]:
colors.head(10)

Unnamed: 0,sequence_name,dominant_background,dominant_foreground
0,127_hours_2000_2010_1,Black,Black
1,127_hours_2000_2010_1,Grey,Black
2,127_hours_2000_2010_1,Black,Black
3,127_hours_2000_2010_1,Black,Black
4,127_hours_2000_2010_1,Black,Black
5,127_hours_2182_2192_5,Black,Black
6,127_hours_2182_2192_5,Black,Yellow
7,127_hours_2182_2192_5,Black,Yellow
8,127_hours_2182_2192_5,Brown,Yellow
9,127_hours_2182_2192_5,Brown,Yellow


In [None]:
colors.shape

(3300, 3)

> Noten que en este caso, disponen de esta información por cada uno de los cuadros (es decir, 5 anotaciones por cada secuencia y por lo tanto deberán elejir una estrategia para quedarse con 1 solo valor por secuencia. Por ejemplo: el color más frecuente, o el color más raro. También pueden optar por utilizar variables categoricas en el sentido "contine_fondo_oscuro" significando una secuencia en que el fondo en algún cuadro es oscuro/negro.

El siguiente ejemplo muestra como tomar por ejemplo el valor más frecuente:

In [None]:
grouped_colors = colors.groupby('sequence_name')

In [None]:
mode = lambda x: x.mode() if len(x) > 2 else np.array(x)
grouped_colors['dominant_background'].agg(mode)

sequence_name
127_hours_2000_2010_1     Black
127_hours_2182_2192_5     Black
127_hours_271_281_1       Brown
127_hours_285_295_2       Brown
127_hours_328_338_3      Yellow
                          ...  
Youth_1996_2006_26        Brown
Youth_2023_2033_23        Black
Youth_2155_2165_28        Black
Youth_2400_2410_24        Black
Youth_2483_2493_25        Brown
Name: dominant_background, Length: 660, dtype: object

#### Vectores de audio

Se corresponden a las representaciones (embeddings) utilizados por la red `YAMNet` que vimos en el curso. `YAMNet` es un modelo que utiliza la misma ténica que las redes CNN pero construyendo imágenes a partir de audio (llamados parches o patchs). Cada uno de estos patchs es el resultado de calcular espectrogramas de audio, creando así parches de imágenes 2D para utilizar en nuestro modelo.

Los vectores generados por `YAMNet` son vectores en un espacio de 1024-D


In [None]:
import pandas as pd
audio_embeddings = pd.read_csv('Data/Features/audio_vectors.csv')

In [None]:
audio_embeddings.head(2)

Unnamed: 0,sequence_name,1,2,3,4,5,6,7,8,9,...,1015,1016,1017,1018,1019,1020,1021,1022,1023,1024
0,127_hours_2000_2010_1,0.0,0.796399,0.009879,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.492673,0.0,0.0,0.0,0.391333,0.0,0.0
1,127_hours_2000_2010_1,0.0,0.0,0.0,0.003163,0.010787,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.1735,0.0,0.0,0.0,0.177809,0.0,0.0


In [None]:
audio_embeddings.shape

(13200, 1025)

Para cada secuencia dispone de 20 filas, las cuales representan el tiempo. Recuerde que todas las secuencias tienen la misma longitud. Dado que la estructura de datos `csv` no permite almacenar datos multidimensionales, deberemos correjir esto de forma manual y trasformar las muestras a tensores de `(20, 1024)`

In [None]:
audio_embeddings_vectors = audio_embeddings.to_numpy()[:,1:].reshape((-1,20,1024))

In [None]:
audio_embeddings_vectors.shape

(660, 20, 1024)

### Resolver el desafío utilizando los datos de origen

Esta configuración del desafío es la más similar a la vida real, y solo contaran con un conjunto de videos en formato MP4 como datos de entrada junto con sus anotaciones de memorabilidad en formato CSV. Cualquier procesamiento de datos deberá realizarse utilizando esta información únicamente. Dado que algunos procesamientos de datos sobre videos pueden ser complejos, adicionalmente contarán además con:
 - Imágenes extraidas cada 2 segundos por cada secuencia a analizar
 - Tracks de audio disponibles en formato WAV listos para utilizar

A pesar de que el video a sido separado en imagenes y audio, resolver el desafío en utilizando estos datos será una tarea compleja. Sin embargo, en el contexto de sus organizaciones, normalmente se encontrarán con esta dificultad.

#### Cuadros

En el directorio `Data/Raw/frames` encontraran todos los cuadros de cada una de los videos disponibles. Los cuadros correspondientes cada video están en un directorio con su mismo nombre. Los cuadros están muestreados cada 2 segundos por lo cual disponen de 5 cuadros por cada secuencia.

Algunas ideas:

 - Aplicar modelos de convolución directamente sobre las imagenes y sobre las secuencias de cuadros.
 - Aplicar técnicas de descripción de imagenes utilizando Servicios Cognitivos
 - Reconocimiento de lugares claves.
 - Los fragmentos tienen personas famosas, ya que son actores de cine y televisión. ¿Será importante?
 - Colores de la escena.

#### Audios

En el directorio `Data/Raw/audios` encontraran todos los audios correspondientes a cada una de las secuencias de los videos. Los audios están en formato `wav`, que si bien ocupan mayor espacio, son más sencillos de procesar.

Algunas ideas:

 - Aplicar técnicas de speech-to-text.
 - Aplicar técnicas de embeddings de audio.
 - Clasificar primero el audio (en por ejemplo 'instrumento musical', 'personas charlando', 'exterior', 'aire libre') y luego utilizarlos para resolver el problema.