In [1]:
!pip install ffmpeg-python
!pip install av

Collecting ffmpeg-python
  Downloading ffmpeg_python-0.2.0-py3-none-any.whl (25 kB)
Installing collected packages: ffmpeg-python
Successfully installed ffmpeg-python-0.2.0
Collecting av
  Downloading av-12.0.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (33.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m33.8/33.8 MB[0m [31m8.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: av
Successfully installed av-12.0.0


# Librerias

In [2]:
import torch
import torchaudio
import torchvision

import os
import cv2
import numpy as np
import pandas as pd
from skimage import transform as tf
from tqdm import tqdm

import warnings
warnings.filterwarnings("ignore")

# MediaPipe

In [None]:
!pip install mediapipe

In [None]:
import mediapipe as mp

In [None]:
class LandmarksDetector:
    def __init__(self):
        self.mp_face_detection = mp.solutions.face_detection
        self.short_range_detector = self.mp_face_detection.FaceDetection(min_detection_confidence=0.5, model_selection=0)
        self.full_range_detector = self.mp_face_detection.FaceDetection(min_detection_confidence=0.5, model_selection=1)

    def __call__(self, video_frames):
        landmarks = self.detect(video_frames, self.full_range_detector)
        if all(element is None for element in landmarks):
            landmarks = self.detect(video_frames, self.short_range_detector)
            assert any(l is not None for l in landmarks), "Cannot detect any frames in the video"
        return landmarks

    def detect(self, video_frames, detector):
        landmarks = []
        for frame in video_frames:
            results = detector.process(frame)
            if not results.detections:
                landmarks.append(None)
                continue
            face_points = []
            for idx, detected_faces in enumerate(results.detections):
                max_id, max_size = 0, 0
                bboxC = detected_faces.location_data.relative_bounding_box
                ih, iw, ic = frame.shape
                bbox = int(bboxC.xmin * iw), int(bboxC.ymin * ih), int(bboxC.width * iw), int(bboxC.height * ih)
                bbox_size = (bbox[2] - bbox[0]) + (bbox[3] - bbox[1])
                if bbox_size > max_size:
                    max_id, max_size = idx, bbox_size
                lmx = [
                    [int(detected_faces.location_data.relative_keypoints[self.mp_face_detection.FaceKeyPoint(0).value].x * iw),
                     int(detected_faces.location_data.relative_keypoints[self.mp_face_detection.FaceKeyPoint(0).value].y * ih)],
                    [int(detected_faces.location_data.relative_keypoints[self.mp_face_detection.FaceKeyPoint(1).value].x * iw),
                     int(detected_faces.location_data.relative_keypoints[self.mp_face_detection.FaceKeyPoint(1).value].y * ih)],
                    [int(detected_faces.location_data.relative_keypoints[self.mp_face_detection.FaceKeyPoint(2).value].x * iw),
                     int(detected_faces.location_data.relative_keypoints[self.mp_face_detection.FaceKeyPoint(2).value].y * ih)],
                    [int(detected_faces.location_data.relative_keypoints[self.mp_face_detection.FaceKeyPoint(3).value].x * iw),
                     int(detected_faces.location_data.relative_keypoints[self.mp_face_detection.FaceKeyPoint(3).value].y * ih)],
                    ]
                face_points.append(lmx)
            landmarks.append(np.array(face_points[max_id]))
        return landmarks

In [None]:
reference = np.array([[ 70.92383848,  97.13757949],[ 72.62515288, 114.90361188],
  [ 75.98941827, 131.07402473],[ 79.26959318, 146.2116596 ],[ 83.61348894, 163.26020701],
  [ 91.33134186, 177.44535288],[100.27169245, 187.0885567 ],[112.12435016, 196.00353535],
  [130.74175801, 200.52998862],[149.8553027 , 195.31198065],[163.101687  , 186.44060881],
  [173.65334172, 176.57250158],[182.43614459, 162.27992572],[187.16738556, 145.09391978],
  [190.22905333, 129.72418731],[193.02118502, 113.45923358],[194.43863372,  95.5795392 ],
  [ 81.33095967,  80.79544511],[ 87.75906556,  75.27980275],[ 96.22692544,  73.83857497],
  [104.55524335,  74.74029382],[112.23186144,  76.97670954],[144.49576387,  76.42387471],
  [152.34799901,  73.83329748],[161.13054079,  72.63570385],[170.58715674,  73.84785054],
  [178.21409885,  79.43802857],[128.7337425 ,  95.35962566],[128.48854473, 106.92459506],
  [128.24475936, 118.27285086],[128.26596547, 127.69870727],[118.76000113, 135.19357677],
  [122.96307973, 136.14619774],[128.87017961, 137.30253356],[134.9428314 , 135.99720543],
  [139.48259748, 134.87763793],[ 92.52245553,  94.36876014],[ 97.58518219,  90.95977781],
  [105.41368273,  90.91345887],[112.77241724,  94.9436087 ],[106.103635  ,  97.08485693],
  [ 98.04628565,  97.36335869],[145.52511509,  94.53499862],[152.58953438,  90.21485666],
  [160.61170666,  90.19938514],[166.67710071,  93.56562296],[160.55971572,  96.48125958],
  [152.20465993,  96.47281336],[107.16760614, 157.19606764],[114.47611216, 152.12006957],
  [123.84852759, 148.51863199],[128.97628288, 149.41552527],[134.14360703, 148.42628211],
  [144.17717842, 151.79343262],[152.19284005, 156.98711116],[143.85966895, 164.00347101],
  [136.7441507 , 167.9430006 ],[129.15278278, 168.81853366],[121.79511074, 168.02271929],
  [115.27508573, 164.15159355],[109.23088653, 157.00172103],[122.50270762, 154.40733649],
  [129.02862236, 154.12104227],[135.83648069, 154.31214998],[150.75782809, 156.79506004],
  [135.66204627, 160.62976732],[128.95218547, 161.28762709],[122.48775432, 160.50878431]])

def linear_interpolate(landmarks, start_idx, stop_idx):
    start_landmarks = landmarks[start_idx]
    stop_landmarks = landmarks[stop_idx]
    delta = stop_landmarks - start_landmarks
    for idx in range(1, stop_idx - start_idx):
        landmarks[start_idx + idx] = (
            start_landmarks + idx / float(stop_idx - start_idx) * delta
        )
    return landmarks


def warp_img(src, dst, img, std_size):
    tform = tf.estimate_transform("similarity", src, dst)
    warped = tf.warp(img, inverse_map=tform.inverse, output_shape=std_size)
    warped = (warped * 255).astype("uint8")
    return warped, tform


def apply_transform(transform, img, std_size):
    warped = tf.warp(img, inverse_map=transform.inverse, output_shape=std_size)
    warped = (warped * 255).astype("uint8")
    return warped


def cut_patch(img, landmarks, height, width, threshold=5):
    center_x, center_y = np.mean(landmarks, axis=0)
    # Check for too much bias in height and width
    if abs(center_y - img.shape[0] / 2) > height + threshold:
        raise OverflowError("too much bias in height")
    if abs(center_x - img.shape[1] / 2) > width + threshold:
        raise OverflowError("too much bias in width")
    # Calculate bounding box coordinates
    y_min = int(round(np.clip(center_y - height, 0, img.shape[0])))
    y_max = int(round(np.clip(center_y + height, 0, img.shape[0])))
    x_min = int(round(np.clip(center_x - width, 0, img.shape[1])))
    x_max = int(round(np.clip(center_x + width, 0, img.shape[1])))
    # Cut the image
    cutted_img = np.copy(img[y_min:y_max, x_min:x_max])
    return cutted_img


class VideoProcess:
    def __init__(
        self,
        mean_face_path="20words_mean_face.npy",
        crop_width=96,
        crop_height=96,
        start_idx=3,
        stop_idx=4,
        window_margin=12,
        convert_gray=True,
    ):
        # self.reference = np.load(
        #     os.path.join(os.path.dirname(__file__), mean_face_path)
        # )
        self.reference = reference
        self.crop_width = crop_width
        self.crop_height = crop_height
        self.start_idx = start_idx
        self.stop_idx = stop_idx
        self.window_margin = window_margin
        self.convert_gray = convert_gray

    def __call__(self, video, landmarks):
        # Pre-process landmarks: interpolate frames that are not detected
        preprocessed_landmarks = self.interpolate_landmarks(landmarks)
        # Exclude corner cases: no landmark in all frames
        if not preprocessed_landmarks:
            return
        # Affine transformation and crop patch
        sequence = self.crop_patch(video, preprocessed_landmarks)
        assert sequence is not None, "crop an empty patch."
        return sequence

    def crop_patch(self, video, landmarks):
        sequence = []
        for frame_idx, frame in enumerate(video):
            window_margin = min(
                self.window_margin // 2, frame_idx, len(landmarks) - 1 - frame_idx
            )
            smoothed_landmarks = np.mean(
                [
                    landmarks[x]
                    for x in range(
                        frame_idx - window_margin, frame_idx + window_margin + 1
                    )
                ],
                axis=0,
            )
            smoothed_landmarks += landmarks[frame_idx].mean(
                axis=0
            ) - smoothed_landmarks.mean(axis=0)
            transformed_frame, transformed_landmarks = self.affine_transform(
                frame, smoothed_landmarks, self.reference, grayscale=self.convert_gray
            )
            patch = cut_patch(
                transformed_frame,
                transformed_landmarks[self.start_idx : self.stop_idx],
                self.crop_height // 2,
                self.crop_width // 2,
            )
            sequence.append(patch)
        return np.array(sequence)

    def interpolate_landmarks(self, landmarks):
        valid_frames_idx = [idx for idx, lm in enumerate(landmarks) if lm is not None]

        if not valid_frames_idx:
            return None

        for idx in range(1, len(valid_frames_idx)):
            if valid_frames_idx[idx] - valid_frames_idx[idx - 1] > 1:
                landmarks = linear_interpolate(
                    landmarks, valid_frames_idx[idx - 1], valid_frames_idx[idx]
                )

        valid_frames_idx = [idx for idx, lm in enumerate(landmarks) if lm is not None]

        # Handle corner case: keep frames at the beginning or at the end that failed to be detected
        if valid_frames_idx:
            landmarks[: valid_frames_idx[0]] = [
                landmarks[valid_frames_idx[0]]
            ] * valid_frames_idx[0]
            landmarks[valid_frames_idx[-1] :] = [landmarks[valid_frames_idx[-1]]] * (
                len(landmarks) - valid_frames_idx[-1]
            )

        assert all(lm is not None for lm in landmarks), "not every frame has landmark"

        return landmarks

    def affine_transform(
        self,
        frame,
        landmarks,
        reference,
        grayscale=False,
        target_size=(256, 256),
        reference_size=(256, 256),
        stable_points=(0, 1, 2, 3),
        interpolation=cv2.INTER_LINEAR,
        border_mode=cv2.BORDER_CONSTANT,
        border_value=0,
    ):
        if grayscale:
            frame = cv2.cvtColor(frame, cv2.COLOR_RGB2GRAY)
        stable_reference = self.get_stable_reference(
            reference, reference_size, target_size
        )
        transform = self.estimate_affine_transform(
            landmarks, stable_points, stable_reference
        )
        transformed_frame, transformed_landmarks = self.apply_affine_transform(
            frame,
            landmarks,
            transform,
            target_size,
            interpolation,
            border_mode,
            border_value,
        )

        return transformed_frame, transformed_landmarks

    def get_stable_reference(self, reference, reference_size, target_size):
        # -- right eye, left eye, nose tip, mouth center
        stable_reference = np.vstack(
            [
                np.mean(reference[36:42], axis=0),
                np.mean(reference[42:48], axis=0),
                np.mean(reference[31:36], axis=0),
                np.mean(reference[48:68], axis=0),
            ]
        )
        stable_reference[:, 0] -= (reference_size[0] - target_size[0]) / 2.0
        stable_reference[:, 1] -= (reference_size[1] - target_size[1]) / 2.0
        return stable_reference

    def estimate_affine_transform(self, landmarks, stable_points, stable_reference):
        return cv2.estimateAffinePartial2D(
            np.vstack([landmarks[x] for x in stable_points]),
            stable_reference,
            method=cv2.LMEDS,
        )[0]

    def apply_affine_transform(
        self,
        frame,
        landmarks,
        transform,
        target_size,
        interpolation,
        border_mode,
        border_value,
    ):
        transformed_frame = cv2.warpAffine(
            frame,
            transform,
            dsize=(target_size[0], target_size[1]),
            flags=interpolation,
            borderMode=border_mode,
            borderValue=border_value,
        )
        transformed_landmarks = (
            np.matmul(landmarks, transform[:, :2].transpose())
            + transform[:, 2].transpose()
        )
        return transformed_frame, transformed_landmarks

# RetinaFace and FAN

In [None]:
!git clone https://github.com/hhj1897/face_alignment.git
!git clone https://github.com/hhj1897/face_detection.git

Cloning into 'face_alignment'...
remote: Enumerating objects: 190, done.[K
remote: Counting objects: 100% (32/32), done.[K
remote: Compressing objects: 100% (6/6), done.[K
remote: Total 190 (delta 27), reused 27 (delta 26), pack-reused 158[K
Receiving objects: 100% (190/190), 213.82 MiB | 24.49 MiB/s, done.
Resolving deltas: 100% (84/84), done.
Updating files: 100% (14/14), done.
Cloning into 'face_detection'...
remote: Enumerating objects: 300, done.[K
remote: Counting objects: 100% (50/50), done.[K
remote: Compressing objects: 100% (11/11), done.[K
remote: Total 300 (delta 41), reused 39 (delta 39), pack-reused 250[K
Receiving objects: 100% (300/300), 81.19 MiB | 30.52 MiB/s, done.
Resolving deltas: 100% (141/141), done.


In [None]:
from face_detection.ibug.face_detection import RetinaFacePredictor
from face_alignment.ibug.face_alignment import FANPredictor

In [None]:
class LandmarksDetector:
    def __init__(self, device="cuda:0", model_name="resnet50"):
        self.face_detector = RetinaFacePredictor(
            device=device,
            threshold=0.8,
            model=RetinaFacePredictor.get_model(model_name),
        )
        self.landmark_detector = FANPredictor(device=device, model=None)

    def __call__(self, video_frames):
        landmarks = []
        for frame in video_frames:
            detected_faces = self.face_detector(frame, rgb=False)
            face_points, _ = self.landmark_detector(frame, detected_faces, rgb=True)
            if len(detected_faces) == 0:
                landmarks.append(None)
            else:
                max_id, max_size = 0, 0
                for idx, bbox in enumerate(detected_faces):
                    bbox_size = (bbox[2] - bbox[0]) + (bbox[3] - bbox[1])
                    if bbox_size > max_size:
                        max_id, max_size = idx, bbox_size
                landmarks.append(face_points[max_id])
        return landmarks

In [None]:
reference = np.array([[ 70.92383848,  97.13757949],[ 72.62515288, 114.90361188],
  [ 75.98941827, 131.07402473],[ 79.26959318, 146.2116596 ],[ 83.61348894, 163.26020701],
  [ 91.33134186, 177.44535288],[100.27169245, 187.0885567 ],[112.12435016, 196.00353535],
  [130.74175801, 200.52998862],[149.8553027 , 195.31198065],[163.101687  , 186.44060881],
  [173.65334172, 176.57250158],[182.43614459, 162.27992572],[187.16738556, 145.09391978],
  [190.22905333, 129.72418731],[193.02118502, 113.45923358],[194.43863372,  95.5795392 ],
  [ 81.33095967,  80.79544511],[ 87.75906556,  75.27980275],[ 96.22692544,  73.83857497],
  [104.55524335,  74.74029382],[112.23186144,  76.97670954],[144.49576387,  76.42387471],
  [152.34799901,  73.83329748],[161.13054079,  72.63570385],[170.58715674,  73.84785054],
  [178.21409885,  79.43802857],[128.7337425 ,  95.35962566],[128.48854473, 106.92459506],
  [128.24475936, 118.27285086],[128.26596547, 127.69870727],[118.76000113, 135.19357677],
  [122.96307973, 136.14619774],[128.87017961, 137.30253356],[134.9428314 , 135.99720543],
  [139.48259748, 134.87763793],[ 92.52245553,  94.36876014],[ 97.58518219,  90.95977781],
  [105.41368273,  90.91345887],[112.77241724,  94.9436087 ],[106.103635  ,  97.08485693],
  [ 98.04628565,  97.36335869],[145.52511509,  94.53499862],[152.58953438,  90.21485666],
  [160.61170666,  90.19938514],[166.67710071,  93.56562296],[160.55971572,  96.48125958],
  [152.20465993,  96.47281336],[107.16760614, 157.19606764],[114.47611216, 152.12006957],
  [123.84852759, 148.51863199],[128.97628288, 149.41552527],[134.14360703, 148.42628211],
  [144.17717842, 151.79343262],[152.19284005, 156.98711116],[143.85966895, 164.00347101],
  [136.7441507 , 167.9430006 ],[129.15278278, 168.81853366],[121.79511074, 168.02271929],
  [115.27508573, 164.15159355],[109.23088653, 157.00172103],[122.50270762, 154.40733649],
  [129.02862236, 154.12104227],[135.83648069, 154.31214998],[150.75782809, 156.79506004],
  [135.66204627, 160.62976732],[128.95218547, 161.28762709],[122.48775432, 160.50878431]])

def linear_interpolate(landmarks, start_idx, stop_idx):
    start_landmarks = landmarks[start_idx]
    stop_landmarks = landmarks[stop_idx]
    delta = stop_landmarks - start_landmarks
    for idx in range(1, stop_idx - start_idx):
        landmarks[start_idx + idx] = (
            start_landmarks + idx / float(stop_idx - start_idx) * delta
        )
    return landmarks


def warp_img(src, dst, img, std_size):
    tform = tf.estimate_transform("similarity", src, dst)
    warped = tf.warp(img, inverse_map=tform.inverse, output_shape=std_size)
    warped = (warped * 255).astype("uint8")
    return warped, tform


def apply_transform(transform, img, std_size):
    warped = tf.warp(img, inverse_map=transform.inverse, output_shape=std_size)
    warped = (warped * 255).astype("uint8")
    return warped


def cut_patch(img, landmarks, height, width, threshold=5):
    center_x, center_y = np.mean(landmarks, axis=0)
    # Check for too much bias in height and width
    if abs(center_y - img.shape[0] / 2) > height + threshold:
        raise OverflowError("too much bias in height")
    if abs(center_x - img.shape[1] / 2) > width + threshold:
        raise OverflowError("too much bias in width")
    # Calculate bounding box coordinates
    y_min = int(round(np.clip(center_y - height, 0, img.shape[0])))
    y_max = int(round(np.clip(center_y + height, 0, img.shape[0])))
    x_min = int(round(np.clip(center_x - width, 0, img.shape[1])))
    x_max = int(round(np.clip(center_x + width, 0, img.shape[1])))
    # Cut the image
    cutted_img = np.copy(img[y_min:y_max, x_min:x_max])
    return cutted_img


class VideoProcess:
    def __init__(
        self,
        mean_face_path="20words_mean_face.npy",
        crop_width=96,
        crop_height=96,
        start_idx=48,
        stop_idx=68,
        window_margin=12,
        convert_gray=True,
    ):
        # self.reference = np.load(
        #     os.path.join(os.path.dirname(__file__), mean_face_path)
        # )
        self.reference = reference
        self.crop_width = crop_width
        self.crop_height = crop_height
        self.start_idx = start_idx
        self.stop_idx = stop_idx
        self.window_margin = window_margin
        self.convert_gray = convert_gray

    def __call__(self, video, landmarks):
        # Pre-process landmarks: interpolate frames that are not detected
        preprocessed_landmarks = self.interpolate_landmarks(landmarks)
        # Exclude corner cases: no landmark in all frames or number of frames is less than window length
        if (
            not preprocessed_landmarks
            or len(preprocessed_landmarks) < self.window_margin
        ):
            return
        # Affine transformation and crop patch
        sequence = self.crop_patch(video, preprocessed_landmarks)
        assert sequence is not None, "crop an empty patch."
        return sequence

    def crop_patch(self, video, landmarks):
        sequence = []
        for frame_idx, frame in enumerate(video):
            window_margin = min(
                self.window_margin // 2, frame_idx, len(landmarks) - 1 - frame_idx
            )
            smoothed_landmarks = np.mean(
                [
                    landmarks[x]
                    for x in range(
                        frame_idx - window_margin, frame_idx + window_margin + 1
                    )
                ],
                axis=0,
            )
            smoothed_landmarks += landmarks[frame_idx].mean(
                axis=0
            ) - smoothed_landmarks.mean(axis=0)
            transformed_frame, transformed_landmarks = self.affine_transform(
                frame, smoothed_landmarks, self.reference, grayscale=self.convert_gray
            )
            patch = cut_patch(
                transformed_frame,
                transformed_landmarks[self.start_idx : self.stop_idx],
                self.crop_height // 2,
                self.crop_width // 2,
            )
            sequence.append(patch)
        return np.array(sequence)

    def interpolate_landmarks(self, landmarks):
        valid_frames_idx = [idx for idx, lm in enumerate(landmarks) if lm is not None]

        if not valid_frames_idx:
            return None

        for idx in range(1, len(valid_frames_idx)):
            if valid_frames_idx[idx] - valid_frames_idx[idx - 1] > 1:
                landmarks = linear_interpolate(
                    landmarks, valid_frames_idx[idx - 1], valid_frames_idx[idx]
                )

        valid_frames_idx = [idx for idx, lm in enumerate(landmarks) if lm is not None]

        # Handle corner case: keep frames at the beginning or at the end that failed to be detected
        if valid_frames_idx:
            landmarks[: valid_frames_idx[0]] = [
                landmarks[valid_frames_idx[0]]
            ] * valid_frames_idx[0]
            landmarks[valid_frames_idx[-1] :] = [landmarks[valid_frames_idx[-1]]] * (
                len(landmarks) - valid_frames_idx[-1]
            )

        assert all(lm is not None for lm in landmarks), "not every frame has landmark"

        return landmarks

    def affine_transform(
        self,
        frame,
        landmarks,
        reference,
        grayscale=True,
        target_size=(256, 256),
        reference_size=(256, 256),
        stable_points=(28, 33, 36, 39, 42, 45, 48, 54),
        interpolation=cv2.INTER_LINEAR,
        border_mode=cv2.BORDER_CONSTANT,
        border_value=0,
    ):
        if grayscale:
            frame = cv2.cvtColor(frame, cv2.COLOR_RGB2GRAY)
        stable_reference = self.get_stable_reference(
            reference, stable_points, reference_size, target_size
        )
        transform = self.estimate_affine_transform(
            landmarks, stable_points, stable_reference
        )
        transformed_frame, transformed_landmarks = self.apply_affine_transform(
            frame,
            landmarks,
            transform,
            target_size,
            interpolation,
            border_mode,
            border_value,
        )

        return transformed_frame, transformed_landmarks

    def get_stable_reference(
        self, reference, stable_points, reference_size, target_size
    ):
        stable_reference = np.vstack([reference[x] for x in stable_points])
        stable_reference[:, 0] -= (reference_size[0] - target_size[0]) / 2.0
        stable_reference[:, 1] -= (reference_size[1] - target_size[1]) / 2.0
        return stable_reference

    def estimate_affine_transform(self, landmarks, stable_points, stable_reference):
        return cv2.estimateAffinePartial2D(
            np.vstack([landmarks[x] for x in stable_points]),
            stable_reference,
            method=cv2.LMEDS,
        )[0]

    def apply_affine_transform(
        self,
        frame,
        landmarks,
        transform,
        target_size,
        interpolation,
        border_mode,
        border_value,
    ):
        transformed_frame = cv2.warpAffine(
            frame,
            transform,
            dsize=(target_size[0], target_size[1]),
            flags=interpolation,
            borderMode=border_mode,
            borderValue=border_value,
        )
        transformed_landmarks = (
            np.matmul(landmarks, transform[:, :2].transpose())
            + transform[:, 2].transpose()
        )
        return transformed_frame, transformed_landmarks

# AVSRDataLoader

In [None]:
class AVSRDataLoader:
    def __init__(self, modality, detector="retinaface", convert_gray=True):
        self.modality = modality
        if modality == "video":
            # if detector == "retinaface":
            #     from detectors.retinaface.detector import LandmarksDetector
            #     from detectors.retinaface.video_process import VideoProcess
            #     self.landmarks_detector = LandmarksDetector(device="cuda:0")
            #     self.video_process = VideoProcess(convert_gray=convert_gray)

            # if detector == "mediapipe":
            #     from detectors.mediapipe.detector import LandmarksDetector
            #     from detectors.mediapipe.video_process import VideoProcess
            #     self.landmarks_detector = LandmarksDetector()
            #     self.video_process = VideoProcess(convert_gray=convert_gray)
            self.landmarks_detector = LandmarksDetector(device="cuda:0")
            self.video_process = VideoProcess(convert_gray=convert_gray)

    def load_data(self, data_filename, landmarks=None, transform=True):
        if self.modality == "audio":
            audio, sample_rate = self.load_audio(data_filename)
            audio = self.audio_process(audio, sample_rate)
            return audio
        if self.modality == "video":
            video = self.load_video(data_filename)
            if not landmarks:
                landmarks = self.landmarks_detector(video)
            video = self.video_process(video, landmarks)
            if video is None:
                raise TypeError("video cannot be None")
            video = torch.tensor(video)
            return video

    def load_audio(self, data_filename):
        waveform, sample_rate = torchaudio.load(data_filename, normalize=True)
        return waveform, sample_rate

    def load_video(self, data_filename):
        return torchvision.io.read_video(data_filename, pts_unit="sec")[0].numpy()

    def audio_process(self, waveform, sample_rate, target_sample_rate=16000):
        if sample_rate != target_sample_rate:
            waveform = torchaudio.functional.resample(
                waveform, sample_rate, target_sample_rate
            )
        waveform = torch.mean(waveform, dim=0, keepdim=True)
        return waveform

# Util

In [None]:
def split_file(filename, max_frames=600, fps=25.0):

    lines = open(filename).read().splitlines()

    flag = 0
    stack = []
    res = []

    tmp = 0
    start_timestamp = 0.0

    threshold = max_frames / fps

    for line in lines:
        if "WORD START END ASDSCORE" in line:
            flag = 1
            continue
        if flag:
            word, start, end, score = line.split(" ")
            start, end, score = float(start), float(end), float(score)
            if end < tmp + threshold:
                stack.append(word)
                last_timestamp = end
            else:
                res.append(
                    [
                        " ".join(stack),
                        start_timestamp,
                        last_timestamp,
                        last_timestamp - start_timestamp,
                    ]
                )
                tmp = start
                start_timestamp = start
                stack = [word]
    if stack:
        res.append([" ".join(stack), start_timestamp, end, end - start_timestamp])
    return res


def save_vid_txt(
    dst_vid_filename, dst_txt_filename, trim_video_data, content, video_fps=25
):
    # -- save video
    save2vid(dst_vid_filename, trim_video_data, video_fps)
    # -- save text
    os.makedirs(os.path.dirname(dst_txt_filename), exist_ok=True)
    f = open(dst_txt_filename, "w", encoding="utf-8")
    f.write(f"{content}")
    f.close()


def save_vid_aud(
    dst_vid_filename,
    dst_aud_filename,
    trim_vid_data,
    trim_aud_data,
    video_fps=25,
    audio_sample_rate=16000,
):
    # -- save video
    save2vid(dst_vid_filename, trim_vid_data, video_fps)
    # -- save audio
    save2aud(dst_aud_filename, trim_aud_data, audio_sample_rate)


def save_vid_aud_txt(
    dst_vid_filename,
    dst_aud_filename,
    dst_txt_filename,
    trim_vid_data,
    trim_aud_data,
    content,
    video_fps=25,
    audio_sample_rate=16000,
):
    # -- save video
    if dst_vid_filename is not None:
        save2vid(dst_vid_filename, trim_vid_data, video_fps)
    # -- save audio
    if dst_aud_filename is not None:
        save2aud(dst_aud_filename, trim_aud_data, audio_sample_rate)
    # -- save text
    os.makedirs(os.path.dirname(dst_txt_filename), exist_ok=True)
    f = open(dst_txt_filename, "w", encoding="utf-8")
    f.write(f"{content}")
    f.close()


def save2vid(filename, vid, frames_per_second):
    os.makedirs(os.path.dirname(filename), exist_ok=True)
    torchvision.io.write_video(filename, vid, frames_per_second)


def save2aud(filename, aud, sample_rate):
    os.makedirs(os.path.dirname(filename), exist_ok=True)
    torchaudio.save(filename, aud, sample_rate)

# Whisper

In [None]:
! pip install git+https://github.com/openai/whisper.git

Collecting git+https://github.com/openai/whisper.git
  Cloning https://github.com/openai/whisper.git to /tmp/pip-req-build-z11vn_0l
  Running command git clone --filter=blob:none --quiet https://github.com/openai/whisper.git /tmp/pip-req-build-z11vn_0l
  Resolved https://github.com/openai/whisper.git to commit ba3f3cd54b0e5b8ce1ab3de13e32122d0d5f98ab
  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Collecting tiktoken (from openai-whisper==20231117)
  Downloading tiktoken-0.7.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.1/1.1 MB[0m [31m21.1 MB/s[0m eta [36m0:00:00[0m
Collecting nvidia-cuda-nvrtc-cu12==12.1.105 (from torch->openai-whisper==20231117)
  Using cached nvidia_cuda_nvrtc_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (23.7 MB)
Collecting nvidia-cuda-runtime-cu12==

In [None]:
import whisper
from moviepy.editor import VideoFileClip

In [None]:
model_whisper = whisper.load_model("medium")

100%|█████████████████████████████████████| 1.42G/1.42G [00:17<00:00, 86.9MiB/s]


In [None]:
def obtener_texto(ruta, name):
    video = VideoFileClip(ruta)
    video.audio.write_audiofile(f'{name}.mp3', logger=None)
    i = 0
    while True:
        result = model_whisper.transcribe(f'{name}.mp3')
        temperature = result['segments'][0]['temperature']
        compression_ratio = result['segments'][0]['compression_ratio']
        no_speech_prob = result['segments'][0]['no_speech_prob']
        #print(result)
        if temperature == 0.0 and compression_ratio > 0.70:
            text = result['text']
            break
        elif temperature != 1.0 and temperature > 0.2 and compression_ratio > 1.0:
            text = result['text']
            break
        i += 1
        if i>3:
            print(result)

    text = text[1:]
    print(text)
    print(f'temperature={temperature}')
    print(f'compression ratio={compression_ratio}')
    print(f'no_speech_prob={no_speech_prob}')
    text = text.replace(',','')
    text = text.replace('.','')
    text = text.replace('¿','')
    text = text.replace('?','')
    text = text.lower()
    return text

# def obtener_texto(ruta, audio):
#     video = VideoFileClip(ruta)
#     video.audio.write_audiofile(f'{audio}.mp3')
#     # load audio and pad/trim it to fit 30 seconds
#     audio = whisper.load_audio(f'{audio}.mp3')
#     audio = whisper.pad_or_trim(audio)
#     # make log-Mel spectrogram and move to the same device as the model
#     mel = whisper.log_mel_spectrogram(audio).to(model_whisper.device)
#     # detect the spoken language
#     # _, probs = model.detect_language(mel)
#     # print(f"Detected language: {max(probs, key=probs.get)}")
#     # decode the audio
#     options = whisper.DecodingOptions()
#     result = whisper.decode(model_whisper, mel, options)
#     # recognized text
#     return result.text

# Generacion de video procesado, y obtencion de texto

In [None]:
ruta_videos = '/content/drive/MyDrive/vsr/VPHB_USFX/videos'
ruta_dataset = '/content/drive/MyDrive/vsr/VPHB_USFX_preprocessing'
list_videos_fa = os.listdir(ruta_videos)
list_videos_pre = os.listdir(f'{ruta_dataset}/VPHBUSFX/video')
list_videos = [v for v in list_videos_fa if v not in list_videos_pre]

In [None]:
len(list_videos)

93

In [None]:
video_dataloader = AVSRDataLoader(modality="video", detector="retinaface", convert_gray=False)
audio_dataloader = AVSRDataLoader(modality="audio")

for data_filename in tqdm(list_videos[2:200]):
    print(data_filename)
    name = data_filename.split('.')[0]
    ruta = f'{ruta_videos}/{data_filename}'
    # Obtener video y texto
    text_data = obtener_texto(ruta, name)
    print(text_data)
    video_data = video_dataloader.load_data(ruta)
    audio_data = audio_dataloader.load_data(ruta)
    # Guardar texto y video
    output_video_path = f'{ruta_dataset}/VPHBUSFX/video/{name}.mp4'
    output_audio_path = f'{ruta_dataset}/VPHBUSFX/video/{name}.wav'
    output_text_path = f'{ruta_dataset}/VPHBUSFX/text/{name}.txt'
    # save_vid_txt(output_video_path, output_text_path,
    #              video_data, text_data)
    save_vid_aud_txt(output_video_path, output_audio_path, output_text_path,
                    video_data, audio_data, text_data,
                    video_fps=25, audio_sample_rate=16000)
    print('--------------------------------------------------------------------')

  0%|          | 0/91 [00:00<?, ?it/s]

il19JIlTFbk_V1-0017.mp4
Pasa tiempo, bueno, presión política, como siempre desde el Tribunal Supremo Electoral.
temperature=0.0
compression ratio=1.0
no_speech_prob=0.1966840922832489
pasa tiempo bueno presión política como siempre desde el tribunal supremo electoral


  1%|          | 1/91 [00:23<34:44, 23.16s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0018.mp4
Andan diciendo que el Congreso de la Ocaña no vale, por lo tanto, aún así somos respetuosos como instrumento político.
temperature=0.0
compression ratio=1.1296296296296295
no_speech_prob=0.007685793098062277
andan diciendo que el congreso de la ocaña no vale por lo tanto aún así somos respetuosos como instrumento político


  2%|▏         | 2/91 [00:47<35:24, 23.87s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0019.mp4
Estamos cumpliendo. Estamos cumpliendo, primero que nada, aclaramos que...
temperature=0.0
compression ratio=1.1746031746031746
no_speech_prob=0.4557342231273651
estamos cumpliendo estamos cumpliendo primero que nada aclaramos que


  3%|▎         | 3/91 [01:06<31:26, 21.44s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0020.mp4
nuestro estatuto orgánico está bien claro establece qué tiempo qué periodo tenemos para poder convocar y hacían
temperature=0.0
compression ratio=1.1958762886597938
no_speech_prob=0.4829593002796173
nuestro estatuto orgánico está bien claro establece qué tiempo qué periodo tenemos para poder convocar y hacían


  4%|▍         | 4/91 [01:27<30:57, 21.35s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0021.mp4
Congreso extraordinarios, Congreso ordinario. Por lo tanto, es establecido...
temperature=0.0
compression ratio=1.1
no_speech_prob=0.15738773345947266
congreso extraordinarios congreso ordinario por lo tanto es establecido


  5%|▌         | 5/91 [01:43<27:46, 19.37s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0022.mp4
Nosotros hemos mandado muy claro esta fecha, el 3 de abril hemos lanzado.
temperature=0.0
compression ratio=1.0
no_speech_prob=0.11246731132268906
nosotros hemos mandado muy claro esta fecha el 3 de abril hemos lanzado


  7%|▋         | 6/91 [02:07<29:47, 21.03s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0024.mp4
a la cabeza de nuestro presidente del instrumento político, a la cabeza de nuestro líder, hermano presidente Evo.
temperature=0.0
compression ratio=1.3218390804597702
no_speech_prob=0.18127663433551788
a la cabeza de nuestro presidente del instrumento político a la cabeza de nuestro líder hermano presidente evo


  8%|▊         | 7/91 [02:26<28:24, 20.30s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0025.mp4
Hemos lanzado toda la directiva y también acompañan nuestras organizaciones matrices afiliados.
temperature=0.0
compression ratio=1.065934065934066
no_speech_prob=0.07807596772909164
hemos lanzado toda la directiva y también acompañan nuestras organizaciones matrices afiliados


  9%|▉         | 8/91 [02:45<27:38, 19.98s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0026.mp4
quienes hemos parido el instrumento político. Por lo tanto, estamos cumpliendo.
temperature=0.0
compression ratio=1.0
no_speech_prob=0.08226776868104935
quienes hemos parido el instrumento político por lo tanto estamos cumpliendo


 10%|▉         | 9/91 [02:59<24:35, 17.99s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0027.mp4
No, eso nos manda esa combinatoria el 28 de marzo.
temperature=0.0
compression ratio=0.9259259259259259
no_speech_prob=0.08455711603164673
no eso nos manda esa combinatoria el 28 de marzo


 11%|█         | 10/91 [03:14<23:02, 17.06s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0028.mp4
estamos cumpliendo dentro de 25 días deben convocar congresos. Entonces estamos cumpliendo, somos respetuosos.
temperature=0.0
compression ratio=1.2197802197802199
no_speech_prob=0.24021998047828674
estamos cumpliendo dentro de 25 días deben convocar congresos entonces estamos cumpliendo somos respetuosos


 12%|█▏        | 11/91 [03:36<25:01, 18.76s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0029.mp4
Incluso de ahí llega otro instructivo del presidente, pero sin embargo, bueno, solo es de él.
temperature=0.0
compression ratio=1.0674157303370786
no_speech_prob=0.16408880054950714
incluso de ahí llega otro instructivo del presidente pero sin embargo bueno solo es de él


 13%|█▎        | 12/91 [03:57<25:39, 19.49s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0030.mp4
y eso era con una fecha estableciendo hasta el 5 de mayo, pero aún también eso también hemos puesto en la computadora.
temperature=0.0
compression ratio=1.1862745098039216
no_speech_prob=0.08379495143890381
y eso era con una fecha estableciendo hasta el 5 de mayo pero aún también eso también hemos puesto en la computadora


 14%|█▍        | 13/91 [04:18<25:37, 19.71s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0031.mp4
cuál es de al que nos diga en el tribunal supremo electoral por lo tanto creo que ellos mismos se conocen
temperature=0.0
compression ratio=1.2183908045977012
no_speech_prob=0.13331575691699982
cuál es de al que nos diga en el tribunal supremo electoral por lo tanto creo que ellos mismos se conocen


 15%|█▌        | 14/91 [04:37<25:04, 19.54s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0032.mp4
El legal es el 25 días, el plazo que hemos dado, donde hemos firmado la sala plena.
temperature=0.0
compression ratio=1.037037037037037
no_speech_prob=0.04795937240123749
el legal es el 25 días el plazo que hemos dado donde hemos firmado la sala plena


 16%|█▋        | 15/91 [04:58<25:22, 20.03s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0033.mp4
aclara no entonces por lo tanto hoy estamos esperando somos respetuosos para el 10 de junio estamos esperando lo que buscan
temperature=0.0
compression ratio=1.3977272727272727
no_speech_prob=0.2805728614330292
aclara no entonces por lo tanto hoy estamos esperando somos respetuosos para el 10 de junio estamos esperando lo que buscan


 18%|█▊        | 16/91 [05:26<28:06, 22.49s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0034.mp4
lo que dicen que están observando
temperature=0.0
compression ratio=0.8717948717948718
no_speech_prob=0.2027079463005066
lo que dicen que están observando


 19%|█▊        | 17/91 [05:37<23:30, 19.06s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0035.mp4
¿Qué vamos a hacer nosotros con los que no son militantes? Acabo de indicar que no se ejecutiva actual.
temperature=0.0
compression ratio=1.105263157894737
no_speech_prob=0.2785973846912384
qué vamos a hacer nosotros con los que no son militantes acabo de indicar que no se ejecutiva actual


 20%|█▉        | 18/91 [05:59<24:20, 20.00s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0036.mp4
No, ya no nos representa, nosotros no es militante.
temperature=0.0
compression ratio=0.9622641509433962
no_speech_prob=0.04278503730893135
no ya no nos representa nosotros no es militante


 21%|██        | 19/91 [06:14<21:56, 18.28s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0037.mp4
Ahora pasamos tiempo y ya descongríamos pues, no era militante.
temperature=0.0
compression ratio=0.9411764705882353
no_speech_prob=0.031074898317456245
ahora pasamos tiempo y ya descongríamos pues no era militante


 22%|██▏       | 20/91 [06:37<23:29, 19.85s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0038.mp4
cuando estaba asumiendo. Después hemos sido nunca más ha demostrado. Ahora busca... Soy militante quiere decir.
temperature=0.0
compression ratio=1.0970873786407767
no_speech_prob=0.04805279150605202
cuando estaba asumiendo después hemos sido nunca más ha demostrado ahora busca soy militante quiere decir


 23%|██▎       | 21/91 [07:02<24:57, 21.40s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0039.mp4
Eso ya es desconfianza de parte de nosotros. Eso significa que nunca ha sido...
temperature=0.0
compression ratio=1.0675675675675675
no_speech_prob=0.14520086348056793
eso ya es desconfianza de parte de nosotros eso significa que nunca ha sido


 24%|██▍       | 22/91 [07:19<23:07, 20.11s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0040.mp4
del instrumento político, por lo tanto no sé qué vamos a con él desde el lugar, eso es lo que está pidiendo.
temperature=0.0
compression ratio=1.13
no_speech_prob=0.09415937960147858
del instrumento político por lo tanto no sé qué vamos a con él desde el lugar eso es lo que está pidiendo


 25%|██▌       | 23/91 [07:37<21:48, 19.25s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0041.mp4
Sin embargo, la Dirección Nacional del MASD conoce orgánicamente a nuestros dirigentes
temperature=0.0
compression ratio=1.0
no_speech_prob=0.07935892790555954
sin embargo la dirección nacional del masd conoce orgánicamente a nuestros dirigentes


 26%|██▋       | 24/91 [07:57<22:00, 19.71s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0042.mp4
Con ELOSY hemos firmado la convocatoria.
temperature=0.0
compression ratio=0.8333333333333334
no_speech_prob=0.15871034562587738
con elosy hemos firmado la convocatoria


 27%|██▋       | 25/91 [08:11<19:34, 17.79s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0043.mp4
están parte de la convocatoria.
temperature=0.0
compression ratio=0.8
no_speech_prob=0.21914847195148468
están parte de la convocatoria


 29%|██▊       | 26/91 [08:22<17:09, 15.84s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0044.mp4
y van a participar con sus delegados correspondientes. Por lo tanto, eso queremos aclarar, lo que no conjunda a la población.
temperature=0.0
compression ratio=1.1775700934579438
no_speech_prob=0.19292250275611877
y van a participar con sus delegados correspondientes por lo tanto eso queremos aclarar lo que no conjunda a la población


 30%|██▉       | 27/91 [08:41<18:02, 16.92s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0046.mp4
ha pedido su denuncia del hermano evo, ¿con qué clase de persona nos quiere juntar este gobierno?
temperature=0.0
compression ratio=1.1
no_speech_prob=0.10166612267494202
ha pedido su denuncia del hermano evo con qué clase de persona nos quiere juntar este gobierno


 31%|███       | 28/91 [08:59<17:53, 17.04s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0047.mp4
Además, si es Caducos su gestión, ¿cuánto tiempo está ejecutivo?
temperature=0.0
compression ratio=0.8961038961038961
no_speech_prob=0.058037254959344864
además si es caducos su gestión cuánto tiempo está ejecutivo


 32%|███▏      | 29/91 [09:11<16:12, 15.68s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0048.mp4
Cuando yo estaba ejecutivo, hasta ahorita, ¿cuánto tiempo pasa?
temperature=0.0
compression ratio=0.9027777777777778
no_speech_prob=0.06855285912752151
cuando yo estaba ejecutivo hasta ahorita cuánto tiempo pasa


 33%|███▎      | 30/91 [09:28<16:21, 16.09s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0049.mp4
Por lo tanto, ni siquiera ella ya no nos representa en la central obrera boliviana más bien. Debería convocar con ese caballero más bien.
temperature=0.0
compression ratio=1.25
no_speech_prob=0.3690793216228485
por lo tanto ni siquiera ella ya no nos representa en la central obrera boliviana más bien debería convocar con ese caballero más bien


 34%|███▍      | 31/91 [09:54<18:55, 18.93s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0050.mp4
Los que son militantes van a venir, vamos a demostrar, incluso ahora.
temperature=0.0
compression ratio=1.0147058823529411
no_speech_prob=0.037339791655540466
los que son militantes van a venir vamos a demostrar incluso ahora


 35%|███▌      | 32/91 [10:10<17:48, 18.10s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0051.mp4
Policía de la Ocaña que es de Chico, ¿quieren participar más?
temperature=0.0
compression ratio=0.9285714285714286
no_speech_prob=0.18120482563972473
policía de la ocaña que es de chico quieren participar más


 36%|███▋      | 33/91 [10:20<15:04, 15.59s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0052.mp4
También hemos escuchado los nueve departamentos han determinado para que seamos nuevamente a Anjuritio.
temperature=0.0
compression ratio=1.1555555555555554
no_speech_prob=0.20258434116840363
también hemos escuchado los nueve departamentos han determinado para que seamos nuevamente a anjuritio


 37%|███▋      | 34/91 [10:40<16:09, 17.00s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0053.mp4
la cese de la acción del trópico de Cuchabamba. Por eso es Villa Tonari, el estadio donde Vicentenario es el lugar del magno congreso que vamos a...
temperature=0.0
compression ratio=1.2295081967213115
no_speech_prob=0.4146527051925659
la cese de la acción del trópico de cuchabamba por eso es villa tonari el estadio donde vicentenario es el lugar del magno congreso que vamos a


 38%|███▊      | 35/91 [11:08<18:50, 20.19s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0054.mp4
llevar en junio el 10 de junio. ¿Es legal?
temperature=0.0
compression ratio=0.9148936170212766
no_speech_prob=0.3465157151222229
llevar en junio el 10 de junio es legal


 40%|███▉      | 36/91 [11:20<16:18, 17.80s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0055.mp4
y estamos cumpliendo con todas las normas que exigen están vigentes. Eso queremos aclarar.
temperature=0.0
compression ratio=1.0705882352941176
no_speech_prob=0.021820737048983574
y estamos cumpliendo con todas las normas que exigen están vigentes eso queremos aclarar


 41%|████      | 37/91 [11:41<17:02, 18.93s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0056.mp4
Así es, yo se presento a nivel la congeneración Bartolina, si se dé Bolivia.
temperature=0.0
compression ratio=0.9634146341463414
no_speech_prob=0.11512798070907593
así es yo se presento a nivel la congeneración bartolina si se dé bolivia


 42%|████▏     | 38/91 [12:00<16:36, 18.81s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0057.mp4
Al consenso me han elegido como miembro para que yo se presente.
temperature=0.0
compression ratio=0.9696969696969697
no_speech_prob=0.03138064220547676
al consenso me han elegido como miembro para que yo se presente


 43%|████▎     | 39/91 [12:16<15:37, 18.02s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0059.mp4
Y ya vemos si el Tribunal Supremo Electoral nos reconoce, no sé si era vamos aliente, incluso cesantes.
temperature=0.0
compression ratio=1.0947368421052632
no_speech_prob=0.07860448956489563
y ya vemos si el tribunal supremo electoral nos reconoce no sé si era vamos aliente incluso cesantes


 44%|████▍     | 40/91 [12:38<16:21, 19.24s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0060.mp4
Pero aún, bueno, estoy sigo en función, por lo tanto, y voy a estar con mis pasos con mis compañeras de los nueve departamentos.
temperature=0.0
compression ratio=1.201834862385321
no_speech_prob=0.17054523527622223
pero aún bueno estoy sigo en función por lo tanto y voy a estar con mis pasos con mis compañeras de los nueve departamentos


 45%|████▌     | 41/91 [13:02<17:15, 20.71s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0061.mp4
Así hemos demostrado el 25 de marzo desde Cuchabamba, Bolivia.
temperature=0.0
compression ratio=0.9692307692307692
no_speech_prob=0.1153799369931221
así hemos demostrado el 25 de marzo desde cuchabamba bolivia


 46%|████▌     | 42/91 [13:19<15:50, 19.40s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0062.mp4
No la participación de los nueve departamentos. ¿Quién tiene la base sin pagar un centavo?
temperature=0.0
compression ratio=1.0108695652173914
no_speech_prob=0.18645146489143372
no la participación de los nueve departamentos quién tiene la base sin pagar un centavo


 47%|████▋     | 43/91 [13:49<18:07, 22.67s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0063.mp4
ni sin intromisión de los funcionarios designados
temperature=0.0
compression ratio=0.8928571428571429
no_speech_prob=0.11338789016008377
ni sin intromisión de los funcionarios designados


 48%|████▊     | 44/91 [14:01<15:12, 19.42s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0064.mp4
Hemos demostrado nuestra convocatoria en la confederación Bartolina Sista de Bolivia.
temperature=0.0
compression ratio=1.036144578313253
no_speech_prob=0.23224882781505585
hemos demostrado nuestra convocatoria en la confederación bartolina sista de bolivia


 49%|████▉     | 45/91 [14:17<14:07, 18.42s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0065.mp4
tiene su estructura, tiene sus afiliados.
temperature=0.0
compression ratio=0.9318181818181818
no_speech_prob=0.19836069643497467
tiene su estructura tiene sus afiliados


 51%|█████     | 46/91 [14:28<12:04, 16.11s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0066.mp4
tiene su base y va a demostrar donde sea. Así hemos demostrado desde nuestro ampliado de la conversación campesinos de Bolivia, en nuestro congreso de Elia.
temperature=0.0
compression ratio=1.3389830508474576
no_speech_prob=0.23381057381629944
tiene su base y va a demostrar donde sea así hemos demostrado desde nuestro ampliado de la conversación campesinos de bolivia en nuestro congreso de elia


 52%|█████▏    | 47/91 [14:54<14:05, 19.23s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0067.mp4
de cuatro cañadas, nuestro aniversario del instrumento político, eso es la base.
temperature=0.0
compression ratio=1.0379746835443038
no_speech_prob=0.060341812670230865
de cuatro cañadas nuestro aniversario del instrumento político eso es la base


 53%|█████▎    | 48/91 [15:13<13:41, 19.11s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0068.mp4
sem pagar funcionários, sem estar com coteus.
temperature=0.0
compression ratio=0.92
no_speech_prob=0.2130979746580124
sem pagar funcionários sem estar com coteus


 54%|█████▍    | 49/91 [15:26<12:11, 17.42s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0069.mp4
con ninguna presión, con ninguna condición, es militante de todo corazón. Eso demostramos.
temperature=0.0
compression ratio=1.1341463414634145
no_speech_prob=0.03338245302438736
con ninguna presión con ninguna condición es militante de todo corazón eso demostramos


 55%|█████▍    | 50/91 [15:45<12:05, 17.70s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0070.mp4
Únicamente y cabalmente lo decimos al Tribunal Supremo Electoral. Ahí lo tiene la lista de los miembros.
temperature=0.0
compression ratio=1.0707070707070707
no_speech_prob=0.09721101820468903
únicamente y cabalmente lo decimos al tribunal supremo electoral ahí lo tiene la lista de los miembros


 56%|█████▌    | 51/91 [16:02<11:46, 17.65s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0071.mp4
Quienes somos elegidos por el más no congreso, quienes somos reconocidos legalmente, legítimamente como miembros.
temperature=0.0
compression ratio=1.25
no_speech_prob=0.05727575719356537
quienes somos elegidos por el más no congreso quienes somos reconocidos legalmente legítimamente como miembros


 57%|█████▋    | 52/91 [16:30<13:29, 20.77s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0072.mp4
de la dirección nacional del MAS lo tienen ellos la lista correspondiente. Somos 14.
temperature=0.0
compression ratio=1.0119047619047619
no_speech_prob=0.15258364379405975
de la dirección nacional del mas lo tienen ellos la lista correspondiente somos 14


 58%|█████▊    | 53/91 [16:47<12:24, 19.59s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0074.mp4
Dos que sí, nos han traicionado y se han ido por algunas razones no, ni siquiera son militantes. Por lo tanto...
temperature=0.0
compression ratio=1.153061224489796
no_speech_prob=0.08052953332662582
dos que sí nos han traicionado y se han ido por algunas razones no ni siquiera son militantes por lo tanto


 59%|█████▉    | 54/91 [17:11<12:49, 20.79s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0076.mp4
Cuíremes a la cabeza de nuestro presidente Evo, eso queremos aclarar, claro, tiene que ser claro ante la opinión pública, únicamente queremos en cabal.
temperature=0.0
compression ratio=1.28099173553719
no_speech_prob=0.12583027780056
cuíremes a la cabeza de nuestro presidente evo eso queremos aclarar claro tiene que ser claro ante la opinión pública únicamente queremos en cabal


 60%|██████    | 55/91 [17:38<13:42, 22.86s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0077.mp4
Lo que estoy aclarando, ellos que cumplan a esta la ley 1096
temperature=0.0
compression ratio=0.9836065573770492
no_speech_prob=0.08602142333984375
lo que estoy aclarando ellos que cumplan a esta la ley 1096


 62%|██████▏   | 56/91 [17:57<12:33, 21.54s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0078.mp4
Ahí está el Estatuto Orgánico del Instrumento Político. Únicamente estamos pidiendo eso nosotros.
temperature=0.0
compression ratio=1.0515463917525774
no_speech_prob=0.13666121661663055
ahí está el estatuto orgánico del instrumento político únicamente estamos pidiendo eso nosotros


 63%|██████▎   | 57/91 [18:14<11:22, 20.07s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0079.mp4
respetuosamente que se pronuncie para que venga como veedor o al final de cuentas como supervisor
temperature=0.0
compression ratio=1.2435897435897436
no_speech_prob=0.10698545724153519
respetuosamente que se pronuncie para que venga como veedor o al final de cuentas como supervisor


 64%|██████▎   | 58/91 [18:40<12:03, 21.92s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0080.mp4
para que haga seguimiento a nuestro Congreso, como vamos a demostrar una vez más.
temperature=0.0
compression ratio=1.0123456790123457
no_speech_prob=0.2121880054473877
para que haga seguimiento a nuestro congreso como vamos a demostrar una vez más


 65%|██████▍   | 59/91 [18:56<10:48, 20.27s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0084.mp4
Vamos a participar una vez más para llevar adelante nuestro Congreso de nuestra gloriosa con...
temperature=0.0
compression ratio=1.0909090909090908
no_speech_prob=0.1858447939157486
vamos a participar una vez más para llevar adelante nuestro congreso de nuestra gloriosa con


 66%|██████▌   | 60/91 [19:16<10:19, 20.00s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0085.mp4
de nuestro glorioso instrumento político, con nuestras organizaciones matrices.
temperature=0.0
compression ratio=1.0389610389610389
no_speech_prob=0.21869221329689026
de nuestro glorioso instrumento político con nuestras organizaciones matrices


 67%|██████▋   | 61/91 [19:30<09:13, 18.45s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0086.mp4
Agiliados fundadores del instrumento político. Estamos claros, nosotros vamos a demostrar.
temperature=0.0
compression ratio=1.058139534883721
no_speech_prob=0.06619718670845032
agiliados fundadores del instrumento político estamos claros nosotros vamos a demostrar


 68%|██████▊   | 62/91 [19:47<08:41, 18.00s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0087.mp4
Somos unas de región, somos muy educadas, con mucha altura, con mucha disciplina.
temperature=0.0
compression ratio=1.0789473684210527
no_speech_prob=0.09338545054197311
somos unas de región somos muy educadas con mucha altura con mucha disciplina


 69%|██████▉   | 63/91 [20:05<08:17, 17.75s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0088.mp4
Estamos con brazos abiertos para poder decidir desde nuestro estadio de Villa Tunares, si ellos así quieren.
temperature=0.0
compression ratio=1.1237113402061856
no_speech_prob=0.18170876801013947
estamos con brazos abiertos para poder decidir desde nuestro estadio de villa tunares si ellos así quieren


 70%|███████   | 64/91 [20:24<08:16, 18.38s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0089.mp4
que somos pocos, vamos a demostrar que sí un estadio va a ser lleno y se ventando para este congreso. Vamos, estamos preparados.
temperature=0.0
compression ratio=1.2524271844660195
no_speech_prob=0.4489167332649231
que somos pocos vamos a demostrar que sí un estadio va a ser lleno y se ventando para este congreso vamos estamos preparados


 71%|███████▏  | 65/91 [20:51<09:00, 20.78s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0090.mp4
los nueve departamentos, además, a pedido de nuestros dirigentes de los nueve departamentos
temperature=0.0
compression ratio=1.295774647887324
no_speech_prob=0.13936296105384827
los nueve departamentos además a pedido de nuestros dirigentes de los nueve departamentos


 73%|███████▎  | 66/91 [21:07<08:05, 19.42s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0091.mp4
Se ha ampliado, incluso el lugar se ha decidido. El Policía de la Ocaña es muy chiquito, queremos un poco más participar.
temperature=0.0
compression ratio=1.0973451327433628
no_speech_prob=0.12016770243644714
se ha ampliado incluso el lugar se ha decidido el policía de la ocaña es muy chiquito queremos un poco más participar


 74%|███████▎  | 67/91 [21:26<07:40, 19.19s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0092.mp4
Bienvenidos, no vamos a ceder, bienvenidos todos los militantes que somos de todo corazón
temperature=0.0
compression ratio=1.1111111111111112
no_speech_prob=0.3252826929092407
bienvenidos no vamos a ceder bienvenidos todos los militantes que somos de todo corazón


 75%|███████▍  | 68/91 [21:43<07:12, 18.79s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0093.mp4
que nunca vamos a claudicar, no por el cargo nomás vamos a estar, estemos donde estemos
temperature=0.0
compression ratio=1.1733333333333333
no_speech_prob=0.2289620190858841
que nunca vamos a claudicar no por el cargo nomás vamos a estar estemos donde estemos


 76%|███████▌  | 69/91 [22:03<06:55, 18.89s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0094.mp4
Tenemos que defender nuestro instrumento político y así reconociendo el liderazgo.
temperature=0.0
compression ratio=1.037037037037037
no_speech_prob=0.12333507835865021
tenemos que defender nuestro instrumento político y así reconociendo el liderazgo


 77%|███████▋  | 70/91 [22:20<06:25, 18.37s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0095.mp4
Quién nos ha demostrado en 14 años el trabajo en nuestro país, la transformación de Bolivia. Eso es, vamos a continuar a la cabeza de nuestro líder, hermano Evo.
temperature=0.0
compression ratio=1.2116788321167884
no_speech_prob=0.026294777169823647
quién nos ha demostrado en 14 años el trabajo en nuestro país la transformación de bolivia eso es vamos a continuar a la cabeza de nuestro líder hermano evo


 78%|███████▊  | 71/91 [22:47<06:57, 20.88s/it]

--------------------------------------------------------------------
5Dil7rQ_FnM_V1-0002.mp4
lamentablemente tres han perdido la vida por intoxicación
temperature=0.0
compression ratio=0.9206349206349206
no_speech_prob=0.1707785278558731
lamentablemente tres han perdido la vida por intoxicación


 79%|███████▉  | 72/91 [22:58<05:45, 18.17s/it]

--------------------------------------------------------------------
5Dil7rQ_FnM_V1-0003.mp4
muy profundo lo que ha ocasionado que se sature.
temperature=0.0
compression ratio=0.96
no_speech_prob=0.479047030210495
muy profundo lo que ha ocasionado que se sature


 80%|████████  | 73/91 [23:17<05:29, 18.32s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0002.mp4
Queremos aclarar ante la población...
temperature=0.0
compression ratio=0.8260869565217391
no_speech_prob=0.06448287516832352
queremos aclarar ante la población


 81%|████████▏ | 74/91 [23:28<04:35, 16.23s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0023.mp4
la convocatoria nacional.
temperature=0.0
compression ratio=0.7575757575757576
no_speech_prob=0.0371459536254406
la convocatoria nacional


 82%|████████▏ | 75/91 [23:38<03:48, 14.26s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0004.mp4
Quem não é militante do instrumento?
temperature=0.0
compression ratio=0.8260869565217391
no_speech_prob=0.06251130998134613
quem não é militante do instrumento


 84%|████████▎ | 76/91 [23:50<03:25, 13.69s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0045.mp4
¿Qué vamos a hacer nosotros? ¿Qué vamos a hacer con el huarache?
temperature=0.0
compression ratio=1.1724137931034482
no_speech_prob=0.03739936277270317
qué vamos a hacer nosotros qué vamos a hacer con el huarache


 85%|████████▍ | 77/91 [24:00<02:52, 12.35s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0058.mp4
¿Qué culpa tenemos nosotros si hemos cumplido?
temperature=0.0
compression ratio=0.9230769230769231
no_speech_prob=0.05735951289534569
qué culpa tenemos nosotros si hemos cumplido


 86%|████████▌ | 78/91 [24:09<02:29, 11.49s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0073.mp4
14 están dos con servicio internacional son embajadores
temperature=0.0
compression ratio=0.9032258064516129
no_speech_prob=0.3643065392971039
14 están dos con servicio internacional son embajadores


 87%|████████▋ | 79/91 [24:22<02:22, 11.85s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0082.mp4
con mucha educación vamos a demostrar
temperature=0.0
compression ratio=0.8444444444444444
no_speech_prob=0.08648166805505753
con mucha educación vamos a demostrar


 88%|████████▊ | 80/91 [24:30<01:57, 10.65s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0081.mp4
con mucha disciplina y con mucha altura
temperature=0.0
compression ratio=0.975
no_speech_prob=0.28032153844833374
con mucha disciplina y con mucha altura


 89%|████████▉ | 81/91 [24:39<01:42, 10.29s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0075.mp4
y los demás, los diez miembros estamos firmes.
temperature=0.0
compression ratio=0.9791666666666666
no_speech_prob=0.07548757642507553
y los demás los diez miembros estamos firmes


 90%|█████████ | 82/91 [24:51<01:37, 10.83s/it]

--------------------------------------------------------------------
il19JIlTFbk_V1-0083.mp4
con nuestras bases todos los delegados militantes
temperature=0.0
compression ratio=0.9423076923076923
no_speech_prob=0.02439810335636139
con nuestras bases todos los delegados militantes


 91%|█████████ | 83/91 [25:01<01:24, 10.59s/it]

--------------------------------------------------------------------
kBqQfazsWUw_V1-0001.mp4
obviamente no se ha sorprendido particularmente a todos
temperature=0.0
compression ratio=0.9821428571428571
no_speech_prob=0.02338552288711071
obviamente no se ha sorprendido particularmente a todos


 92%|█████████▏| 84/91 [25:21<01:34, 13.45s/it]

--------------------------------------------------------------------
kBqQfazsWUw_V1-0002.mp4
Hermanos bolivianos, esta designación repentina.
temperature=0.0
compression ratio=0.8909090909090909
no_speech_prob=0.015744689851999283
hermanos bolivianos esta designación repentina


 93%|█████████▎| 85/91 [25:36<01:22, 13.68s/it]

--------------------------------------------------------------------
kBqQfazsWUw_V1-0011.mp4
de que los vocales y particularmente la vocal
temperature=0.0
compression ratio=0.9574468085106383
no_speech_prob=0.03343363478779793
de que los vocales y particularmente la vocal


 95%|█████████▍| 86/91 [25:47<01:05, 13.12s/it]

--------------------------------------------------------------------
kBqQfazsWUw_V1-0004.mp4
al señor Gustavo Ávila, quien es su hombre de confianza
temperature=0.0
compression ratio=0.8769230769230769
no_speech_prob=0.07328496128320694
al señor gustavo ávila quien es su hombre de confianza


 96%|█████████▌| 87/91 [26:08<01:00, 15.22s/it]

--------------------------------------------------------------------
kBqQfazsWUw_V1-0003.mp4
Es decir, el gobierno ha posesionado.
temperature=0.0
compression ratio=0.8222222222222222
no_speech_prob=0.010498384945094585
es decir el gobierno ha posesionado


 97%|█████████▋| 88/91 [26:27<00:49, 16.44s/it]

--------------------------------------------------------------------
kBqQfazsWUw_V1-0007.mp4
a cambio de Dina Chuquimia, del vocal de Dina Chuquimia
temperature=0.0
compression ratio=1.1956521739130435
no_speech_prob=0.030034035444259644
a cambio de dina chuquimia del vocal de dina chuquimia


 98%|█████████▊| 89/91 [26:41<00:31, 15.83s/it]

--------------------------------------------------------------------
kBqQfazsWUw_V1-0006.mp4
Ahora, nuevamente nos sorprende que lo designan
temperature=0.0
compression ratio=0.8545454545454545
no_speech_prob=0.04477009177207947
ahora nuevamente nos sorprende que lo designan


 99%|█████████▉| 90/91 [27:01<00:16, 16.95s/it]

--------------------------------------------------------------------
kBqQfazsWUw_V1-0016.mp4
que son emitidos para su cumplimiento dentro de las funciones del Tribunal Supremo Electoral.
temperature=0.0
compression ratio=1.1204819277108433
no_speech_prob=0.014407145790755749
que son emitidos para su cumplimiento dentro de las funciones del tribunal supremo electoral


100%|██████████| 91/91 [27:23<00:00, 18.06s/it]

--------------------------------------------------------------------





# TextTransform

In [20]:
import sentencepiece

In [36]:
SP_MODEL_PATH = os.path.join(
    os.path.dirname(os.path.dirname(os.path.abspath(''))),
    "content",
    "drive",
    "MyDrive",
    "vsr",
    "Models",
    "SentencePiece_castellano_v4",
    "unigram5000.model",
)

DICT_PATH = os.path.join(
    os.path.dirname(os.path.dirname(os.path.abspath(''))),
    "content",
    "drive",
    "MyDrive",
    "vsr",
    "Models",
    "SentencePiece_castellano_v4",
    "unigram5000_units.txt",
)


class TextTransform:
    """Mapping Dictionary Class for SentencePiece tokenization."""

    def __init__(
        self,
        sp_model_path=SP_MODEL_PATH,
        dict_path=DICT_PATH,
    ):

        # Load SentencePiece model
        self.spm = sentencepiece.SentencePieceProcessor(model_file=sp_model_path)

        # Load units and create dictionary
        units = open(dict_path, encoding='utf8').read().splitlines()
        self.hashmap = {unit.split()[0]: unit.split()[-1] for unit in units}
        # 0 will be used for "blank" in CTC
        self.token_list = ["<blank>"] + list(self.hashmap.keys()) + ["<eos>"]
        self.ignore_id = -1

    def tokenize(self, text):
        tokens = self.spm.EncodeAsPieces(text)
        token_ids = [self.hashmap.get(token, self.hashmap["<unk>"]) for token in tokens]
        return torch.tensor(list(map(int, token_ids)))

    def post_process(self, token_ids):
        token_ids = token_ids[token_ids != -1]
        text = self._ids_to_str(token_ids, self.token_list)
        text = text.replace("\u2581", " ").strip()
        return text

    def _ids_to_str(self, token_ids, char_list):
        token_as_list = [char_list[idx] for idx in token_ids]
        return "".join(token_as_list).replace("<space>", " ")

# Tokenizer y generacion de csv

In [37]:
text_transform = TextTransform()

In [38]:
ruta = "/content/drive/MyDrive/vsr/VPHB_USFX_preprocessing"

In [39]:
list_video = [video for video in os.listdir(f'{ruta}/VPHBUSFX/video') if video.split('.')[1]=='mp4']
list_video_text = [[f'{ruta}/VPHBUSFX/video/{name}.mp4',f'{ruta}/VPHBUSFX/text/{name}.txt'] for name in [n.split('.')[0] for n in list_video]]
list_csv = []
for r_vid, r_text in tqdm(list_video_text):
    video = torchvision.io.read_video(r_vid, pts_unit="sec")[0].numpy()
    text = open(r_text, 'r').read()
    token_id_str = " ".join(
            map(str, [_.item() for _ in text_transform.tokenize(text)])
    )
    name_video = r_vid.split('/')[-1]
    list_csv.append(['VPHBUSFX', f'video/{name_video}', video.shape[0], token_id_str])
df_csv = pd.DataFrame(list_csv, columns=['Dataset','ruta','input_length','token_id'])
df_csv.to_csv(f'{ruta}/labels/VPHBUSFX_unigram5000.csv')
df_csv

100%|██████████| 1227/1227 [05:26<00:00,  3.76it/s]


Unnamed: 0,Dataset,ruta,input_length,token_id
0,VPHBUSFX,video/iRF5d2N5wos_V1-0016.mp4,193,4 4076 4 2809 4 1919 4 1023 4 853 4 3244 4 191...
1,VPHBUSFX,video/iRF5d2N5wos_V1-0017.mp4,172,4 4084 4 3577 4 4076 4 1612 4 3527 4 3244 4 23...
2,VPHBUSFX,video/iRF5d2N5wos_V1-0018.mp4,222,4 2361 4 329 4 2655 4 1517 4 3107 4 1090 4 158...
3,VPHBUSFX,video/iRF5d2N5wos_V1-0019.mp4,97,4 2655 4 1914 4 1322 4 1914 4 1523 4 1023 4 18...
4,VPHBUSFX,video/iRF5d2N5wos_V1-0020.mp4,107,4 1349 4 2019 4 1510 4 3504 4 1870 4 3667 4 19...
...,...,...,...,...
1222,VPHBUSFX,video/mZxweoeJEcc_V1-0017.mp4,355,4 3750 4 3244 4 542 4 2243 4 2234 4 1517 4 234...
1223,VPHBUSFX,video/mZxweoeJEcc_V1-0018.mp4,291,4 3158 4 2915 4 3037 4 2243 4 4006 4 2781 4 26...
1224,VPHBUSFX,video/mZxweoeJEcc_V1-0019.mp4,235,4 1385 4 3906 4 546 4 3244 4 3783 4 1385 4 282...
1225,VPHBUSFX,video/mZxweoeJEcc_V1-0020.mp4,254,4 3571 4 1368 4 3134 4 554 4 3244 4 2674 4 325...


# Obtener train, val

In [40]:
import pandas as pd
from sklearn.model_selection import train_test_split

In [41]:
df_train, df_test = train_test_split(df_csv, test_size=0.08)

In [42]:
df_train.shape, df_test.shape

((1128, 4), (99, 4))

In [43]:
df_train.to_csv(f'{ruta}/labels/VPHBUSFX_unigram5000_train.csv')
df_test.to_csv(f'{ruta}/labels/VPHBUSFX_unigram5000_val.csv')