# **Identificación de videos corruptos**

Al momento de realizar la extracción de caracteristicas de videos, el programa arrojó ciertos errores en algunos videos que no se pudieron procesar, esto videos se identifican en este *notebook*.

## **Load packages**

In [5]:
import pandas as pd
import os

## **Useful functions**

In [9]:
def print_corrupted_videos(path: str, df:pd.DataFrame):

    archivos = [
        os.path.basename(f).split('_')[0]
        for f in os.listdir(path) if f.endswith(".npy")
    ]

    df_a = pd.DataFrame({"id": archivos})

    print("Longitud de los archivos:", len(df_a))
    print("Longitud del dataframe:", len(df), "\n")

    if (len(df) == len(df_a)):
        print("No hay videos corruptos")
        return;

    for _, row in df.iterrows():
        if row["youtube_id"] not in df_a["id"].values:
            print("Video corrupto:", row["youtube_id"])


## **Load datasets**

In [14]:
train_path = "./data/train_subset_10.csv"
val_path = "./data/val_subset_10.csv"
test_path = "./data/test_subset_10.csv"

path_train = './extraction/train/r21d/r2plus1d_18_16_kinetics'
path_val = './extraction/val/r21d/r2plus1d_18_16_kinetics'
path_test = './extraction/test/r21d/r2plus1d_18_16_kinetics'

val_df = pd.read_csv(val_path)
train_df = pd.read_csv(train_path)
test_df = pd.read_csv(test_path)

In [10]:
print("Corrupted videos in train")
print_corrupted_videos(path_train, train_df)

Corrupted videos in train
Longitud de los archivos: 5415
Longitud del dataframe: 5432 

Video corrupto: qJphTDHjvrc
Video corrupto: 1azVHxhCCU0
Video corrupto: E2kUsRIj4tM
Video corrupto: jHODDw65G4A
Video corrupto: fNFXTBUF3nY
Video corrupto: 1IQCtz7ZUzo
Video corrupto: 5hHJPNxhPAo
Video corrupto: 67C9Qcv0LGw
Video corrupto: Vpvs1HfG2PA
Video corrupto: 91UPzK73iIQ
Video corrupto: B3AFb5PV0Wg
Video corrupto: dpoexBwVFWA
Video corrupto: J5xNIJlfBAw
Video corrupto: QtZDZIx3owM
Video corrupto: myaj4rly0Rw
Video corrupto: 6rxdq0ebecA
Video corrupto: sRMphWVvP6U


In [12]:
print("Corrupted videos in val")
print_corrupted_videos(path_val, val_df)

Corrupted videos in val
Longitud de los archivos: 426
Longitud del dataframe: 427 

Video corrupto: I0luMKjIZyg


In [15]:
print("Corrupted videos in test")
print_corrupted_videos(path_test, test_df)

Corrupted videos in test
Longitud de los archivos: 805
Longitud del dataframe: 805 

No hay videos corruptos


En la carpeta `corrupted videos` se encuentran los videos que no se pudieron procesar. Todos estos videos siguen dos patrones:
1) Algunos videos no se pueden ni abrir, por lo cual es obvio que no hayan podido procesar.
2) Algunos a pesar de que se pueden reproducir, el "video" que se observa es una pantalla en negro. 

Por otro lado, cuando se procesaron los videos, y se quizo aplicar la función `get_X_y_id(path: str, df:pd.DataFrame, is_train:bool=True, type:str="mean"):` del notebook `dimensionality_reduction.ipynb`, identificamos un video al que se le extrajo un vector vacio de caracteristicas, buscamos este video (está en `corrupted_videos/extra`) y se trata de un video de 0 segundos, por lo que se asume que no se le pudo extaer caracteristicas debido a su corto tiempo