<a href="https://colab.research.google.com/github/Hop-Syder/Sujet_3/blob/main/prj1/extract_audio_from_videos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Projet1
# Extraction de l'audio depuis des vidéos locales

Ce notebook extrait l'audio de toutes les vidéos présentes dans un dossier `../dataset/videos` et sauvegarde les fichiers audio dans `../dataset/audio` au format WAV.


## Installation des librairies nécessaires

In [5]:
# Installation automatique des librairies nécessaires
!pip install ffmpeg-python
!pip install pydub

import os
import shutil
import ffmpeg
import ffmpeg._run as ffmpeg_run
from pathlib import Path
from pydub import AudioSegment



## Définition des dossiers de travail

In [6]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [7]:
# Définition des dossiers de travail
import os

video_dir = '/content/drive/MyDrive/pionner_dataset/dataset/videos'
audio_dir = '/content/drive/MyDrive/pionner_dataset/dataset/audio'


## Fonction pour extraire l'audio d'une vidéo en utilisant FFmpeg

In [8]:
def extract_audio(video_path, audio_output_path):
    """
    Extrait l'audio d'un fichier vidéo, le compresse et le sauvegarde au format WAV.
    Paramètres :
        video_path (str): chemin vers le fichier vidéo
        audio_output_path (str): chemin de sortie du fichier audio
    """
    # Option -y pour écraser sans confirmation, -ab pour le bitrate audio (ici 64k pour la compression)
    result = os.system(f'ffmpeg -y -i "{video_path}" -ab 64k -ac 2 -ar 44100 -vn "{audio_output_path}"')
    if result != 0:
        raise RuntimeError(f"Erreur lors de l'extraction audio pour {video_path}")
    print(f'Extraction audio terminée pour {video_path}')

In [9]:
# Parcours des fichiers vidéo et extraction de l'audio
video_files = [f for f in os.listdir(video_dir) if not f.startswith('.') and os.path.isfile(os.path.join(video_dir, f))]

if not video_files:
    raise FileNotFoundError(f"Aucun fichier vidéo trouvé dans le répertoire '{video_dir}'.")

for i, video_file in enumerate(video_files):
    video_path = os.path.join(video_dir, video_file)
    # Génère un nom d'audio unique (WAV)
    audio_output_path = os.path.join(audio_dir, f'audio_{i+1}.wav')
    try:
        extract_audio(video_path, audio_output_path)
    except Exception as e:
        print(f"Erreur lors du traitement de {video_file}: {e}")

Extraction audio terminée pour /content/drive/MyDrive/pionner_dataset/dataset/videos/video12.mp4
Extraction audio terminée pour /content/drive/MyDrive/pionner_dataset/dataset/videos/video8.mp4
Extraction audio terminée pour /content/drive/MyDrive/pionner_dataset/dataset/videos/video10.mp4
Extraction audio terminée pour /content/drive/MyDrive/pionner_dataset/dataset/videos/video5.mp4
Extraction audio terminée pour /content/drive/MyDrive/pionner_dataset/dataset/videos/video14.mp4
Extraction audio terminée pour /content/drive/MyDrive/pionner_dataset/dataset/videos/video2.mp4
Extraction audio terminée pour /content/drive/MyDrive/pionner_dataset/dataset/videos/video3.mp4
Extraction audio terminée pour /content/drive/MyDrive/pionner_dataset/dataset/videos/video13.mp4
Extraction audio terminée pour /content/drive/MyDrive/pionner_dataset/dataset/videos/video9.mp4
Extraction audio terminée pour /content/drive/MyDrive/pionner_dataset/dataset/videos/video11.mp4
Extraction audio terminée pour /con

## Vérification :

Vous pouvez lister les fichiers audio extraits pour vérifier le résultat.

In [10]:
# Affichage de la liste des fichiers audio extraits
print("Fichiers audio extraits :")
for audio_file in os.listdir(audio_dir):
    print(audio_file)

Fichiers audio extraits :
audio_1.wav
audio_2.wav
audio_3.wav
audio_4.wav
audio_5.wav
audio_6.wav
audio_7.wav
audio_8.wav
audio_9.wav
audio_10.wav
audio_11.wav
audio_12.wav
audio_13.wav
audio_14.wav
audio_15.wav
audio_16.wav
audio_17.wav
audio_18.wav
audio_19.wav
audio_20.wav


In [11]:
# prompt: quel est l'heure total de la somme des fichier contenu dans le dosieer audio-dir

import os
from pydub import AudioSegment
import math

def get_total_audio_duration(audio_dir):
  total_duration = 0
  for filename in os.listdir(audio_dir):
    if filename.endswith(('.wav', '.mp3')): # Add other audio formats if needed
      filepath = os.path.join(audio_dir, filename)
      try:
        audio = AudioSegment.from_file(filepath)
        total_duration += audio.duration_seconds
      except Exception as e:
        print(f"Error processing {filename}: {e}")
  return total_duration

total_time = get_total_audio_duration(audio_dir)
print(f"Total duration of all audio files: {total_time} seconds")

total_seconds = get_total_audio_duration(audio_dir)
total_hours = math.floor(total_seconds / 3600)
total_minutes = math.floor((total_seconds % 3600) / 60)
total_seconds = math.floor(total_seconds % 60)

print(f"Total duration of all audio files: {total_hours} hours, {total_minutes} minutes, and {total_seconds} seconds")


Total duration of all audio files: 45860.45532879818 seconds
Total duration of all audio files: 12 hours, 44 minutes, and 20 seconds
