In [5]:
import subprocess
import sys
import os

# 📌 Liste des bibliothèques nécessaires
REQUIRED_PACKAGES = [
    "torch", "torchaudio", "whisper", "noisereduce",
    "pydub", "soundfile", "librosa", "webrtcvad", "ffmpeg-python",
    "silero-vad", "pyannote.audio", "tqdm","pandas"
]

# 📌 Vérification et installation des dépendances
def install_packages():
    print("\n📦 Vérification et installation des dépendances...\n")
    for package in REQUIRED_PACKAGES:
        try:
            __import__(package)
        except ImportError:
            print(f"📥 Installation de {package}...")
            subprocess.run([sys.executable, "-m", "pip", "install", package], check=True)

# 📌 Vérification et installation de FFmpeg
def install_ffmpeg():
    print("\n🔍 Vérification de FFmpeg...\n")
    try:
        subprocess.run(["ffmpeg", "-version"], stdout=subprocess.PIPE, stderr=subprocess.PIPE, check=True)
        print("✅ FFmpeg est déjà installé.")
    except FileNotFoundError:
        print("⚠️ FFmpeg non trouvé ! Installation en cours...\n")
        if sys.platform == "win32":
            subprocess.run(["choco", "install", "ffmpeg", "-y"], shell=True)
        elif sys.platform == "darwin":
            subprocess.run(["brew", "install", "ffmpeg"], shell=True)
        else:  # Linux
            subprocess.run(["sudo", "apt", "install", "ffmpeg", "-y"], shell=True)

# 📌 Exécution des installations
if __name__ == "__main__":
    install_packages()
    install_ffmpeg()
    print("\n✅ Installation terminée avec succès ! 🚀")

# 📌 Importation des bibliothèques nécessaires
try:
    from pydub import AudioSegment
    import noisereduce as nr
    import librosa
    import soundfile as sf
    import torch
    import torchaudio
    from silero_vad import get_speech_timestamps, collect_chunks
    import io
    import numpy as np
    from pyannote.audio.pipelines import SpeakerDiarization
    from pyannote.core import Segment
    from tqdm import tqdm
    import whisper
    import Implementation as imp
    import pandas as pd
    print("✅ Bibliothèques importées avec succès.")
except ImportError as e:
    print(f"❌ Erreur d'importation : {e}")
    sys.exit(1)

%load_ext autoreload
%autoreload 2



📦 Vérification et installation des dépendances...

📥 Installation de ffmpeg-python...


📥 Installation de silero-vad...

🔍 Vérification de FFmpeg...

✅ FFmpeg est déjà installé.

✅ Installation terminée avec succès ! 🚀
✅ Bibliothèques importées avec succès.
The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


# Extract all audio from the videos


In [6]:
# Extract all audio from the videos
imp.extract_all_audio("data/Videos/hate_videos" , "data/Audios/hate_audios") # Extract all hate_videos audio


##########################################
✅ Audio extrait avec succès : data/Audios/hate_audios/hate_video_1.wav


✅ Audio extrait avec succès : data/Audios/hate_audios/hate_video_10.wav
✅ Audio extrait avec succès : data/Audios/hate_audios/hate_video_100.wav
✅ Audio extrait avec succès : data/Audios/hate_audios/hate_video_101.wav
✅ Audio extrait avec succès : data/Audios/hate_audios/hate_video_102.wav
✅ Audio extrait avec succès : data/Audios/hate_audios/hate_video_103.wav
✅ Audio extrait avec succès : data/Audios/hate_audios/hate_video_104.wav
✅ Audio extrait avec succès : data/Audios/hate_audios/hate_video_105.wav
✅ Audio extrait avec succès : data/Audios/hate_audios/hate_video_106.wav
✅ Audio extrait avec succès : data/Audios/hate_audios/hate_video_107.wav
❌ Échec de l'extraction audio pour : data/Videos/hate_videos/hate_video_108.mp4
✅ Audio extrait avec succès : data/Audios/hate_audios/hate_video_109.wav
✅ Audio extrait avec succès : data/Audios/hate_audios/hate_video_11.wav
✅ Audio extrait avec succès : data/Audios/hate_audios/hate_video_110.wav
✅ Audio extrait avec succès : data/Audios/hate

In [9]:

imp.extract_audio("data/Videos/hate_videos/hate_video_17.mp4", "/data/Audios/hate_audios/hate_video_17.wav")
imp.extract_audio("data/Videos/hate_videos/hate_video_108.mp4", "/data/Audios/hate_audios/hate_video_108.wav")


❌ Échec de l'extraction audio pour : data/Videos/hate_videos/hate_video_17.mp4
❌ Échec de l'extraction audio pour : data/Videos/hate_videos/hate_video_108.mp4


In [10]:
imp.extract_all_audio("data/Videos/non_hate_videos" , "data/Audios/non_hate_audios")

##########################################
✅ Audio extrait avec succès : data/Audios/non_hate_audios/non_hate_video_1.wav
✅ Audio extrait avec succès : data/Audios/non_hate_audios/non_hate_video_10.wav
✅ Audio extrait avec succès : data/Audios/non_hate_audios/non_hate_video_100.wav
✅ Audio extrait avec succès : data/Audios/non_hate_audios/non_hate_video_101.wav
✅ Audio extrait avec succès : data/Audios/non_hate_audios/non_hate_video_102.wav
✅ Audio extrait avec succès : data/Audios/non_hate_audios/non_hate_video_103.wav
✅ Audio extrait avec succès : data/Audios/non_hate_audios/non_hate_video_104.wav
✅ Audio extrait avec succès : data/Audios/non_hate_audios/non_hate_video_105.wav
✅ Audio extrait avec succès : data/Audios/non_hate_audios/non_hate_video_106.wav
✅ Audio extrait avec succès : data/Audios/non_hate_audios/non_hate_video_107.wav
✅ Audio extrait avec succès : data/Audios/non_hate_audios/non_hate_video_108.wav
✅ Audio extrait avec succès : data/Audios/non_hate_audios/non_hate_vi

# Preprocessing audios

In [27]:
# Cleaned audio for hate videos
df_speech_ranges_hate = imp.preprocess_all_audio("data/Audios/hate_audios" ,"data/Audios/clean/hate_audios_clean")


✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_24.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_49.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_179.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_330.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_139.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_399.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_64.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_213.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_426.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_123.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_343.wav
✅ Audio nettoyé et sauvegardé : data/Audios/cl

  sig_mult_above_thresh = (abs_sig_stft - sig_stft_smooth) / sig_stft_smooth


✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_147.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_258.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_198.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_378.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_161.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_122.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_287.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_60.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_208.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_308.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_377.wav
✅ Audio nettoyé et sauvegardé : data/Audios/

In [28]:
df_speech_ranges_hate.to_csv("data/hate_speech_ranges.csv", index=False)

Downloading: "https://github.com/snakers4/silero-vad/zipball/master" to /home/zeus/.cache/torch/hub/master.zip
Device set to use cpu


In [29]:
# Cleaned audio for non hate videos
df_speech_ranges_non_hate = imp.preprocess_all_audio("data/Audios/non_hate_audios" ,"data/Audios/clean/non_hate_audios_clean")
df_speech_ranges_non_hate.to_csv("data/non_hate_speech_ranges.csv", index=False)

Downloading: "https://github.com/snakers4/silero-vad/zipball/master" to /home/zeus/.cache/torch/hub/master.zip


Device set to use cpu


✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_1.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_10.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_100.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_101.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_102.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_103.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_104.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_105.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_106.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_107.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non

  sig_mult_above_thresh = (abs_sig_stft - sig_stft_smooth) / sig_stft_smooth


✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_11.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_110.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_111.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_112.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_113.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_114.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_115.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_116.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_117.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_118.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/n

In [30]:
df_speech_ranges = pd.concat([df_speech_ranges_hate, df_speech_ranges_non_hate], ignore_index=True)
df_speech_ranges.sample(10)

Downloading: "https://github.com/snakers4/silero-vad/zipball/master" to /home/zeus/.cache/torch/hub/master.zip


Device set to use cpu


Unnamed: 0,audio_name,speech_ranges
603,non_hate_video_260.wav,[]
394,hate_video_420.wav,"[[00:00:00, 00:00:12], [00:00:13, 00:00:55], [..."
104,hate_video_69.wav,"[[00:00:00, 00:00:08], [00:00:08, 00:00:12], [..."
527,non_hate_video_189.wav,"[[00:00:07, 00:00:42], [00:00:43, 00:00:48], [..."
757,non_hate_video_400.wav,"[[00:00:01, 00:00:10], [00:00:16, 00:00:19], [..."
1018,non_hate_video_64.wav,"[[00:00:00, 00:00:05]]"
324,hate_video_121.wav,"[[00:00:00, 00:00:03], [00:00:04, 00:00:34], [..."
512,non_hate_video_175.wav,"[[00:00:00, 00:04:44]]"
576,non_hate_video_234.wav,"[[00:00:00, 00:00:05], [00:00:05, 00:00:27], [..."
478,non_hate_video_144.wav,"[[00:00:00, 00:00:03], [00:00:04, 00:00:08], [..."


# CSV processing

In [31]:
# Lire le fichier CSV
annotation_df = pd.read_csv("data/HateMM_annotation.csv" , sep = ",")
display(annotation_df.head())

Unnamed: 0,video_file_name,label,hate_snippet,target
0,hate_video_1.mp4,Hate,"[['00:00:34', '00:01:34']]",Blacks
1,hate_video_2.mp4,Hate,"[['00:00:06', '00:02:06']]",Blacks
2,non_hate_video_1.mp4,Non Hate,,Others
3,hate_video_3.mp4,Hate,"[['00:00:03', '00:01:40'], ['00:01:41', '00:03...",Blacks
4,non_hate_video_2.mp4,Non Hate,,Blacks


In [32]:
annotation_df.shape

(1083, 4)

In [33]:

# Function to check if audio file exists in given directories
def audio_exists(audio_name, directories):
    for directory in directories:
        if os.path.exists(os.path.join(directory, audio_name)):
            return True
    return False

# Directories to check
audio_directories = ["data/Audios/clean/hate_audios_clean", "data/Audios/clean/non_hate_audios_clean"]

# Create 'Audios' column
annotation_df['Audios_preprocess'] = annotation_df['video_file_name'].apply(lambda x: audio_exists(x.replace(".mp4", ".wav"), audio_directories))


In [34]:

# Display the updated dataframe
display(annotation_df.sample(10))
annotation_df["Audios_preprocess"].value_counts()

Unnamed: 0,video_file_name,label,hate_snippet,target,Audios_preprocess
55,non_hate_video_34.mp4,Non Hate,,,True
558,hate_video_231.mp4,Hate,"[['00:00:10', '00:02:43']]",Blacks,True
546,hate_video_220.mp4,Hate,"[['00:00:00', '00:00:16']]",Blacks,True
372,hate_video_145.mp4,Hate,"[['00:00:00', '00:00:13']]",Blacks,True
208,hate_video_81.mp4,Hate,"[['00:00:33', '00:00:39']]",Blacks,True
587,hate_video_258.mp4,Hate,"[['00:00:02', '00:02:25']]",Blacks,True
543,non_hate_video_326.mp4,Non Hate,,Others,True
214,hate_video_85.mp4,Hate,"[['00:00:16', '00:00:21'], ['00:00:23', '00:00...",Blacks,True
368,hate_video_143.mp4,Hate,"[['00:00:07', '00:00:56']]",Blacks,True
88,hate_video_35.mp4,Hate,"[['00:00:08', '00:00:27']]",Others,True


Audios_preprocess
True     1068
False      15
Name: count, dtype: int64

In [35]:
# Créer une colonne temporaire avec .mp4 remplacé par .wav
annotation_df["audio_name"] = annotation_df["video_file_name"].str.replace(".mp4", ".wav", regex=False)

# Fusionner les DataFrames sur "audio_name"
annotation_df = annotation_df.merge(df_speech_ranges[["audio_name", "speech_ranges"]], on="audio_name", how="left")

# Supprimer la colonne temporaire si nécessaire
annotation_df.drop(columns=["audio_name"], inplace=True)


In [36]:
annotation_df.sample(10)

Unnamed: 0,video_file_name,label,hate_snippet,target,Audios_preprocess,speech_ranges
187,non_hate_video_112.mp4,Non Hate,,Others,True,[]
648,non_hate_video_371.mp4,Non Hate,,Others,True,"[[00:00:00, 00:00:04], [00:00:36, 00:01:01]]"
766,non_hate_video_444.mp4,Non Hate,,Others,True,"[[00:00:08, 00:00:19], [00:00:35, 00:01:42], [..."
1041,non_hate_video_622.mp4,Non Hate,,['Others'],True,[]
920,non_hate_video_543.mp4,Non Hate,,[],True,"[[00:00:00, 00:01:05]]"
190,non_hate_video_115.mp4,Non Hate,,Others,True,"[[00:00:00, 00:00:04]]"
194,non_hate_video_119.mp4,Non Hate,,Others,True,"[[00:00:00, 00:00:05]]"
824,non_hate_video_478.mp4,Non Hate,,Blacks,True,"[[00:00:00, 00:00:13]]"
388,hate_video_150.mp4,Hate,"[['00:00:00', '00:00:34']]",Blacks,True,"[[00:00:00, 00:00:02]]"
672,non_hate_video_384.mp4,Non Hate,,Blacks,True,"[[00:00:00, 00:00:07], [00:00:07, 00:00:43]]"


In [38]:
# Save le CSV
annotation_df.to_csv("data/HateMM_annotation_speech_process.csv", index=False)


In [15]:
annotation_df["Audios_preprocess"].value_counts()

Audios_preprocess
True     1068
False      15
Name: count, dtype: int64

# IDEE
- Threashold adaptatif (music + voix , ....) + shazam ?
- Snippet trop court (+-5 secondes ?)