In [2]:
import subprocess
import sys
import os

# 📌 Liste des bibliothèques nécessaires
REQUIRED_PACKAGES = [
    "torch", "torchaudio", "whisper", "noisereduce",
    "pydub", "soundfile", "librosa", "webrtcvad", "ffmpeg-python",
    "silero-vad", "pyannote.audio", "tqdm","pandas"
]

# 📌 Vérification et installation des dépendances
def install_packages():
    print("\n📦 Vérification et installation des dépendances...\n")
    for package in REQUIRED_PACKAGES:
        try:
            __import__(package)
        except ImportError:
            print(f"📥 Installation de {package}...")
            subprocess.run([sys.executable, "-m", "pip", "install", package], check=True)

# 📌 Vérification et installation de FFmpeg
def install_ffmpeg():
    print("\n🔍 Vérification de FFmpeg...\n")
    try:
        subprocess.run(["ffmpeg", "-version"], stdout=subprocess.PIPE, stderr=subprocess.PIPE, check=True)
        print("✅ FFmpeg est déjà installé.")
    except FileNotFoundError:
        print("⚠️ FFmpeg non trouvé ! Installation en cours...\n")
        if sys.platform == "win32":
            subprocess.run(["choco", "install", "ffmpeg", "-y"], shell=True)
        elif sys.platform == "darwin":
            subprocess.run(["brew", "install", "ffmpeg"], shell=True)
        else:  # Linux
            subprocess.run(["sudo", "apt", "install", "ffmpeg", "-y"], shell=True)

# 📌 Exécution des installations
if __name__ == "__main__":
    install_packages()
    install_ffmpeg()
    print("\n✅ Installation terminée avec succès ! 🚀")

# 📌 Importation des bibliothèques nécessaires
try:
    from pydub import AudioSegment
    import noisereduce as nr
    import librosa
    import soundfile as sf
    import torch
    import torchaudio
    from silero_vad import get_speech_timestamps, collect_chunks
    import io
    import numpy as np
    from pyannote.audio.pipelines import SpeakerDiarization
    from pyannote.core import Segment
    from tqdm import tqdm
    import whisper
    import Implementation as imp
    import pandas as pd
    print("✅ Bibliothèques importées avec succès.")
except ImportError as e:
    print(f"❌ Erreur d'importation : {e}")
    sys.exit(1)

%load_ext autoreload
%autoreload 2



📦 Vérification et installation des dépendances...

📥 Installation de ffmpeg-python...
📥 Installation de silero-vad...

🔍 Vérification de FFmpeg...

✅ FFmpeg est déjà installé.

✅ Installation terminée avec succès ! 🚀


INFO:speechbrain.utils.quirks:Applied quirks (see `speechbrain.utils.quirks`): [allow_tf32, disable_jit_profiling]
INFO:speechbrain.utils.quirks:Excluded quirks specified by the `SB_DISABLE_QUIRKS` environment (comma-separated list): []
Downloading: "https://github.com/snakers4/silero-vad/zipball/master" to /home/zeus/.cache/torch/hub/master.zip


✅ Bibliothèques importées avec succès.


  if not hasattr(module, "__file__") or module.__file__ is None:


# Extract all audio from the videos


In [4]:
# Extract all audio from the videos
imp.extract_all_audio("data/Videos/hate_videos" , "data/Audios/hate_audios") # Extract all hate_videos audio


##########################################
✅ Audio extrait avec succès : data/Audios/hate_audios/hate_video_1.wav


✅ Audio extrait avec succès : data/Audios/hate_audios/hate_video_10.wav
✅ Audio extrait avec succès : data/Audios/hate_audios/hate_video_100.wav
✅ Audio extrait avec succès : data/Audios/hate_audios/hate_video_101.wav
✅ Audio extrait avec succès : data/Audios/hate_audios/hate_video_102.wav
✅ Audio extrait avec succès : data/Audios/hate_audios/hate_video_103.wav
✅ Audio extrait avec succès : data/Audios/hate_audios/hate_video_104.wav
✅ Audio extrait avec succès : data/Audios/hate_audios/hate_video_105.wav
✅ Audio extrait avec succès : data/Audios/hate_audios/hate_video_106.wav
✅ Audio extrait avec succès : data/Audios/hate_audios/hate_video_107.wav
❌ Échec de l'extraction audio pour : data/Videos/hate_videos/hate_video_108.mp4
✅ Audio extrait avec succès : data/Audios/hate_audios/hate_video_109.wav
✅ Audio extrait avec succès : data/Audios/hate_audios/hate_video_11.wav
✅ Audio extrait avec succès : data/Audios/hate_audios/hate_video_110.wav
✅ Audio extrait avec succès : data/Audios/hate

In [9]:

imp.extract_audio("data/Videos/hate_videos/hate_video_17.mp4", "/data/Audios/hate_audios/hate_video_17.wav")
imp.extract_audio("data/Videos/hate_videos/hate_video_108.mp4", "/data/Audios/hate_audios/hate_video_108.wav")


❌ Échec de l'extraction audio pour : data/Videos/hate_videos/hate_video_17.mp4
❌ Échec de l'extraction audio pour : data/Videos/hate_videos/hate_video_108.mp4


In [10]:
imp.extract_all_audio("data/Videos/non_hate_videos" , "data/Audios/non_hate_audios")

##########################################
✅ Audio extrait avec succès : data/Audios/non_hate_audios/non_hate_video_1.wav
✅ Audio extrait avec succès : data/Audios/non_hate_audios/non_hate_video_10.wav
✅ Audio extrait avec succès : data/Audios/non_hate_audios/non_hate_video_100.wav
✅ Audio extrait avec succès : data/Audios/non_hate_audios/non_hate_video_101.wav
✅ Audio extrait avec succès : data/Audios/non_hate_audios/non_hate_video_102.wav
✅ Audio extrait avec succès : data/Audios/non_hate_audios/non_hate_video_103.wav
✅ Audio extrait avec succès : data/Audios/non_hate_audios/non_hate_video_104.wav
✅ Audio extrait avec succès : data/Audios/non_hate_audios/non_hate_video_105.wav
✅ Audio extrait avec succès : data/Audios/non_hate_audios/non_hate_video_106.wav
✅ Audio extrait avec succès : data/Audios/non_hate_audios/non_hate_video_107.wav
✅ Audio extrait avec succès : data/Audios/non_hate_audios/non_hate_video_108.wav
✅ Audio extrait avec succès : data/Audios/non_hate_audios/non_hate_vi

# Preprocessing audios

In [3]:
# Cleaned audio for hate videos
df_speech_ranges_hate = imp.preprocess_all_audio("data/Audios/hate_audios" ,"data/Audios/clean/hate_audios_clean")


✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_1.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_10.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_100.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_101.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_102.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_103.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_104.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_105.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_106.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_107.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_109.wav
✅ Audio nettoyé et sauvegardé : data/Audios/cl

  sig_mult_above_thresh = (abs_sig_stft - sig_stft_smooth) / sig_stft_smooth


✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_147.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_148.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_149.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_15.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_150.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_151.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_152.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_153.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_154.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_155.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/hate_audios_clean/hate_video_156.wav
✅ Audio nettoyé et sauvegardé : data/Audios/

In [4]:
df_speech_ranges_hate.to_csv("data/hate_speech_ranges.csv", index=False)

In [5]:
# Cleaned audio for non hate videos
df_speech_ranges_non_hate = imp.preprocess_all_audio("data/Audios/non_hate_audios" ,"data/Audios/clean/non_hate_audios_clean")
df_speech_ranges_non_hate.to_csv("data/non_hate_speech_ranges.csv", index=False)

✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_1.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_10.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_100.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_101.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_102.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_103.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_104.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_105.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_106.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_107.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non

✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_110.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_111.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_112.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_113.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_114.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_115.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_116.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_117.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_118.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/non_hate_audios_clean/non_hate_video_119.wav
✅ Audio nettoyé et sauvegardé : data/Audios/clean/

In [6]:
df_speech_ranges = pd.concat([df_speech_ranges_hate, df_speech_ranges_non_hate], ignore_index=True)
df_speech_ranges.sample(10)

Unnamed: 0,audio_name,speech_ranges
158,hate_video_243.wav,"[[00:00:00, 00:00:03], [00:00:04, 00:01:08], [..."
746,non_hate_video_391.wav,"[[00:00:08, 00:00:08], [00:00:11, 00:00:13], [..."
188,hate_video_270.wav,"[[00:00:00, 00:00:03], [00:00:03, 00:00:06], [..."
436,non_hate_video_105.wav,"[[00:00:05, 00:00:05], [00:00:07, 00:00:07], [..."
192,hate_video_274.wav,"[[00:00:05, 00:00:06], [00:00:07, 00:00:07], [..."
251,hate_video_327.wav,"[[00:00:00, 00:00:03], [00:00:03, 00:00:05], [..."
984,non_hate_video_609.wav,"[[00:00:00, 00:00:02], [00:00:02, 00:00:03], [..."
259,hate_video_334.wav,"[[00:00:02, 00:00:03], [00:00:03, 00:00:04], [..."
344,hate_video_410.wav,"[[00:00:16, 00:00:17], [00:00:20, 00:00:21], [..."
166,hate_video_250.wav,"[[00:00:12, 00:00:13], [00:00:13, 00:00:14], [..."


# CSV processing

In [7]:
# Lire le fichier CSV
annotation_df = pd.read_csv("data/HateMM_annotation.csv" , sep = ",")
display(annotation_df.head())

Unnamed: 0,video_file_name,label,hate_snippet,target
0,hate_video_1.mp4,Hate,"[['00:00:34', '00:01:34']]",Blacks
1,hate_video_2.mp4,Hate,"[['00:00:06', '00:02:06']]",Blacks
2,non_hate_video_1.mp4,Non Hate,,Others
3,hate_video_3.mp4,Hate,"[['00:00:03', '00:01:40'], ['00:01:41', '00:03...",Blacks
4,non_hate_video_2.mp4,Non Hate,,Blacks


In [8]:
annotation_df.shape

(1083, 4)

In [9]:

# Function to check if audio file exists in given directories
def audio_exists(audio_name, directories):
    for directory in directories:
        if os.path.exists(os.path.join(directory, audio_name)):
            return True
    return False

# Directories to check
audio_directories = ["data/Audios/clean/hate_audios_clean", "data/Audios/clean/non_hate_audios_clean"]

# Create 'Audios' column
annotation_df['Audios_preprocess'] = annotation_df['video_file_name'].apply(lambda x: audio_exists(x.replace(".mp4", ".wav"), audio_directories))


In [10]:

# Display the updated dataframe
display(annotation_df.sample(10))
annotation_df["Audios_preprocess"].value_counts()

Unnamed: 0,video_file_name,label,hate_snippet,target,Audios_preprocess
608,non_hate_video_345.mp4,Non Hate,,Blacks,True
400,hate_video_159.mp4,Hate,"[['00:00:02', '00:00:40']]",Blacks,True
1037,non_hate_video_619.mp4,Non Hate,,['Others'],True
799,non_hate_video_462.mp4,Non Hate,,Blacks,True
955,non_hate_video_566.mp4,Non Hate,,['Others'],True
710,non_hate_video_407.mp4,Non Hate,,Others,False
301,non_hate_video_186.mp4,Non Hate,,Others,True
332,non_hate_video_205.mp4,Non Hate,,Others,True
237,non_hate_video_144.mp4,Non Hate,,Blacks,True
235,non_hate_video_142.mp4,Non Hate,,Others,True


Audios_preprocess
True     1068
False      15
Name: count, dtype: int64

In [11]:
# Créer une colonne temporaire avec .mp4 remplacé par .wav
annotation_df["audio_name"] = annotation_df["video_file_name"].str.replace(".mp4", ".wav", regex=False)

# Fusionner les DataFrames sur "audio_name"
annotation_df = annotation_df.merge(df_speech_ranges[["audio_name", "speech_ranges"]], on="audio_name", how="left")

# Supprimer la colonne temporaire si nécessaire
annotation_df.drop(columns=["audio_name"], inplace=True)


In [12]:
annotation_df.sample(10)

Unnamed: 0,video_file_name,label,hate_snippet,target,Audios_preprocess,speech_ranges
263,hate_video_103.mp4,Hate,"[['00:00:00', '00:00:19']]",Blacks,True,"[[00:00:00, 00:00:00], [00:00:02, 00:00:03]]"
527,hate_video_213.mp4,Hate,"[['00:00:02', '00:01:35']]",Blacks,True,[]
572,hate_video_245.mp4,Hate,"[['00:00:14', '00:03:12']]",Blacks,True,"[[00:00:00, 00:00:01], [00:00:01, 00:00:04], [..."
437,non_hate_video_272.mp4,Non Hate,,Others,True,"[[00:00:00, 00:00:01], [00:00:01, 00:00:01], [..."
593,non_hate_video_332.mp4,Non Hate,,Others,True,"[[00:00:00, 00:00:04], [00:00:05, 00:00:06], [..."
599,non_hate_video_337.mp4,Non Hate,,Others,True,"[[00:00:14, 00:00:15], [00:00:15, 00:00:17], [..."
274,non_hate_video_168.mp4,Non Hate,,Others,True,[]
880,hate_video_362.mp4,Hate,"[['00:01:27', '00:01:34'], ['00:02:14', '00:02...",['Jews'],True,"[[00:00:02, 00:00:03], [00:00:03, 00:00:03], [..."
71,non_hate_video_46.mp4,Non Hate,,Others,True,"[[00:00:01, 00:00:01], [00:00:18, 00:00:19], [..."
7,non_hate_video_4.mp4,Non Hate,,Blacks,True,"[[00:00:00, 00:00:01]]"


In [13]:
# Save le CSV
annotation_df.to_csv("data/HateMM_annotation_speech_process.csv", index=False)


In [15]:
annotation_df["Audios_preprocess"].value_counts()

Audios_preprocess
True     1068
False      15
Name: count, dtype: int64

# IDEE
- Threashold adaptatif (music + voix , ....) + shazam ?
- Snippet trop court (+-5 secondes ?)