# Whisperization

Using faster-whisper https://github.com/SYSTRAN/faster-whisper/tree/master

In [4]:
from faster_whisper import WhisperModel

model_size = "large-v3"

# Run on GPU with FP16
# model = WhisperModel(model_size, device="cuda", compute_type="float16")

# or run on GPU with INT8
model = WhisperModel(model_size, device="cpu", compute_type="int8")
# or run on CPU with INT8
# model = WhisperModel(model_size, device="cpu", compute_type="int8")

model.bin:   2%|2         | 62.9M/3.09G [00:00<?, ?B/s]

In [2]:
import os
train_audio_path = "../../../MediatreeMP3/testAudio"

train_audio_files = [file for file in os.listdir(train_audio_path) if file.endswith(".mp3")]

In [24]:
%%time

first_file = train_audio_path + "/" + train_audio_files[1]

segments, info = model.transcribe(first_file, language="fr") # beam_size=5, , condition_on_previous_text=False
print(f"{info.language} - {info.language_probability}")
for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

INFO:faster_whisper:Processing audio with duration 02:00.000


fr - 1
[0.00s -> 2.42s]  Et quand il y a du soleil, on n'a pas besoin d'énergie, en fait.
[3.00s -> 5.20s]  On n'a pas besoin d'énergie quand il y a du soleil dans la journée.
[5.34s -> 9.92s]  On a besoin, je termine, d'énergie quand le soleil se couche.
[10.56s -> 11.44s]  Donc, en fait, ça ne sert à rien.
[12.78s -> 15.46s]  Donc, une fois qu'on a dit ça, on passe à autre chose.
[15.78s -> 17.08s]  Des capacités de stockage.
[17.58s -> 18.90s]  Mais on ne stocke pas l'énergie solaire.
[18.90s -> 22.18s]  Le nucléaire permettra pas de répondre à tous nos besoins.
[22.38s -> 23.00s]  C'est ça que je veux dire.
[23.54s -> 25.88s]  Philippe, on ne stocke pas l'énergie solaire.
[26.58s -> 27.42s]  On ne stocke pas l'énergie solaire.
[27.42s -> 28.72s]  Et on fait comment, alors ?
[28.72s -> 32.44s]  On fait, effectivement, on privilégie le nucléaire,
[32.50s -> 33.42s]  ce qu'on est en train de faire, d'ailleurs.
[33.82s -> 37.80s]  Mais ça ne suffit pas à découvrir les besoins du pays.


In [11]:
def get_whisper_transcript(file_path, model):
    """Call whisper to get transcription"""
    segments, info = model.transcribe(file_path, language="fr") # beam_size=5, , condition_on_previous_text=False
    return " ".join(segments)

In [26]:
import re

text = """
Et quand il y a du soleil, on n'a pas besoin d'énergie, en fait.
[3.00s -> 5.20s]  On n'a pas besoin d'énergie quand il y a du soleil dans la journée.
[5.34s -> 9.92s]  On a besoin, je termine, d'énergie quand le soleil se couche.
[10.56s -> 11.44s]  Donc, en fait, ça ne sert à rien.
[12.78s -> 15.46s]  Donc, une fois qu'on a dit ça, on passe à autre chose.
[15.78s -> 17.08s]  Des capacités de stockage.
[17.58s -> 18.90s]  Mais on ne stocke pas l'énergie solaire.
[18.90s -> 22.18s]  Le nucléaire permettra pas de répondre à tous nos besoins.
[22.38s -> 23.00s]  C'est ça que je veux dire.
[23.54s -> 25.88s]  Philippe, on ne stocke pas l'énergie solaire.
[26.58s -> 27.42s]  On ne stocke pas l'énergie solaire.
[27.42s -> 28.72s]  Et on fait comment, alors ?
[28.72s -> 32.44s]  On fait, effectivement, on privilégie le nucléaire,
[32.50s -> 33.42s]  ce qu'on est en train de faire, d'ailleurs.
[33.82s -> 37.80s]  Mais ça ne suffit pas à découvrir les besoins du pays.
[38.00s -> 39.06s]  Ce n'est pas juste quelque chose de technicien.
[39.06s -> 40.28s]  C'est aussi une question d'esthétique.
[40.98s -> 43.22s]  Écoutez, Paul Melun, parce qu'il a fait une petite vidéo,
[43.38s -> 45.38s]  coup de gueule du jour, au détour d'une promenade en forêt,
[45.44s -> 47.42s]  je tombe sur un immense parc éolien.
[47.42s -> 49.16s]  Voilà, la France défigurée.
[49.36s -> 51.24s]  Vous vous souvenez de cette émission ?
[51.24s -> 52.40s]  Comment s'appelait-il ?
[52.40s -> 53.82s]  La France défigurée.
[55.02s -> 56.92s]  Écoutez, monsieur Paul Melun.
[58.72s -> 62.26s]  Bonjour à tous, je suis en direct des Deux-Sèvres.
[62.38s -> 64.92s]  Vous voyez, je fais ma promenade, j'ai pris ma carte, je me promène.
[65.04s -> 70.18s]  Il y a derrière moi des beaux paysages, avec des forêts, des bosquets.
[70.40s -> 71.56s]  Voilà, c'est assez agréable.
[71.66s -> 74.48s]  Et puis là, vous voyez, au bout de quelques minutes de marche,
[74.56s -> 76.70s]  je suis tombé sur quelque chose qui me désespère beaucoup,
[76.70s -> 79.62s]  qui me déplait fortement.
[79.82s -> 81.96s]  C'est un parc éolien qui est absolument immense,
[82.88s -> 86.04s]  avec des piliers de plusieurs dizaines et dizaines de mètres de haut.
[86.16s -> 86.60s]  Vous voyez, ils sont là.
[87.86s -> 88.70s]  Je suis complètement...
[88.84s -> 92.26s]  Il y a un auto-tour, vraiment partout, partout, partout.
[92.42s -> 95.86s]  Vous voyez, on peut faire le tour à 360 degrés.
[96.80s -> 97.96s]  Il y en a partout.
[98.66s -> 99.40s]  Ça fait un bruit.
[100.22s -> 104.02s]  On a l'impression d'être un mélange entre un aéroport et une autoroute,
[104.80s -> 105.70s]  si vous voulez entendre.
[111.84s -> 113.44s]  Voilà, c'est l'écologie bruyante.
[114.16s -> 117.50s]  En passant sur le chemin, je suis tombé sur des oiseaux qui ont été déchiquetés.
[117.50s -> 119.56s]  Les cadavres par terre.
[119.92s -> 120.00s]  Voilà.
"""
def remove_text_in_brackets(text):
    text = re.sub(r'\[.*?\]', '', text)
    text = re.sub(r'[\n\t]', '', text)
    text = re.sub(r'  ', ' ', text)
    return text
print(remove_text_in_brackets(text))

Et quand il y a du soleil, on n'a pas besoin d'énergie, en fait. On n'a pas besoin d'énergie quand il y a du soleil dans la journée. On a besoin, je termine, d'énergie quand le soleil se couche. Donc, en fait, ça ne sert à rien. Donc, une fois qu'on a dit ça, on passe à autre chose. Des capacités de stockage. Mais on ne stocke pas l'énergie solaire. Le nucléaire permettra pas de répondre à tous nos besoins. C'est ça que je veux dire. Philippe, on ne stocke pas l'énergie solaire. On ne stocke pas l'énergie solaire. Et on fait comment, alors ? On fait, effectivement, on privilégie le nucléaire, ce qu'on est en train de faire, d'ailleurs. Mais ça ne suffit pas à découvrir les besoins du pays. Ce n'est pas juste quelque chose de technicien. C'est aussi une question d'esthétique. Écoutez, Paul Melun, parce qu'il a fait une petite vidéo, coup de gueule du jour, au détour d'une promenade en forêt, je tombe sur un immense parc éolien. Voilà, la France défigurée. Vous vous souvenez de cette émi

In [6]:
!ls

enhanced_transcripts.ipynb	  mediatree_single_prompt_prediction.ipynb
excel_deliverable_december.ipynb


In [8]:
from glob import glob
files = glob("../../data/results/test/*")

transcripts_dict = {}
for file in files:
    file_id = file.split("/")[-1].replace("txt","")
    with open(file,'r') as f:
        transcripts_dict[file_id] = f.read()

In [1]:
import pandas as pd
train_csv = pd.read_csv("../../data/train_ReAnnotatedData.csv")

#### Computing WER

In [6]:
from evaluate import load

def compute_wer(predictions, references):
    """https://huggingface.co/spaces/evaluate-metric/wer"""
    wer = load("wer")
    wer_score = wer.compute(predictions=predictions, references=references)
    return wer_score


In [11]:
test_csv = pd.read_csv("../../data/results/test-large/transcriptions_filtered.csv")

eval_res = pd.read_csv("../../data/results/test-large/evaluation_results.csv")

ref_col = test_csv["rewritten_text"]

res = {}
for index, row in eval_res.iterrows():
    name = "_".join(["whisper",row["model"], row["compute_type"],"beam"+str(row["beam_size"])])
    col_res = test_csv[name]
    score = compute_wer(predictions=col_res, references=ref_col)
    res[name] = score
    
print(res)

eval_res["wer"] = res.values()
# eval_res.to_csv("../../data/results/test-large/eval_results_wer.csv",index=False)


{'whisper_tiny_int8_beam1': 0.6451211932877564, 'whisper_tiny_int8_beam5': 0.5922933499067744, 'whisper_tiny_int8_beam10': 0.6146674953387197, 'whisper_tiny_float16_beam1': 0.6451211932877564, 'whisper_tiny_float16_beam5': 0.642013673088875, 'whisper_tiny_float16_beam10': 0.6140459912989434, 'whisper_base_int8_beam1': 0.5922933499067744, 'whisper_base_int8_beam5': 0.49720323182100684, 'whisper_base_int8_beam10': 0.5201988812927284, 'whisper_base_float16_beam1': 0.5773772529521441, 'whisper_base_float16_beam5': 0.584213797389683, 'whisper_base_float16_beam10': 0.4916096954630205, 'whisper_medium_int8_beam1': 0.5102548166563082, 'whisper_medium_int8_beam5': 0.5015537600994406, 'whisper_medium_int8_beam10': 0.5021752641392169, 'whisper_medium_float16_beam1': 0.512119328775637, 'whisper_medium_float16_beam5': 0.48166563082660035, 'whisper_medium_float16_beam10': 0.4742075823492853, 'whisper_large-v3_int8_beam1': 0.4592914853946551, 'whisper_large-v3_int8_beam5': 0.4481044126786824, 'whispe

In [46]:
# Compute WER on existing test_ReannotatedData with generated transcripts
import pandas as pd
from evaluate import load

test_res_df = pd.read_csv("../../data/results/transcripts-large-v3-int8-beam5/test_ReAnnotatedData.csv")
train_res_df = pd.read_csv("../../data/results/transcripts-large-v3-int8-beam5/train_ReAnnotatedData.csv")

test_res_df = test_res_df[~test_res_df["whisper-largev3"].isna()]
train_res_df = train_res_df[~train_res_df["whisper-largev3"].isna()]

def compute_wer(predictions, references):
    """https://huggingface.co/spaces/evaluate-metric/wer"""
    wer = load("wer")
    wer_score = wer.compute(predictions=predictions, references=references)
    return wer_score

print(f"test WER {compute_wer(test_res_df["whisper-largev3"],test_res_df["rewritten_text"])}")
print(f"train WER {compute_wer(train_res_df["whisper-largev3"],train_res_df["rewritten_text"])}")

test WER 0.46424625098658245
train WER 0.44568307407289104


In [51]:
test_res_df = pd.read_csv("../../data/results/transcripts-large-v3-int8-beam5/test_ReAnnotatedData.csv")
train_res_df = pd.read_csv("../../data/results/transcripts-large-v3-int8-beam5/train_ReAnnotatedData.csv")

test_res_df = test_res_df[~test_res_df["whisper-largev3"].isna()]
train_res_df = train_res_df[~train_res_df["whisper-largev3"].isna()]

test_res_df["Not Disinfo/False/Misleading (0/1/2)"].value_counts()
train_res_df["Not Disinfo/False/Misleading (0/1/2)"].value_counts()

Not Disinfo/False/Misleading (0/1/2)
0    46
2    30
1    16
Name: count, dtype: int64

# Diarization

Using pyannot https://github.com/pyannote/pyannote-audio

In [27]:
%%time

from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained(
    "pyannote/speaker-diarization-3.1",
    use_auth_token=)

# send pipeline to GPU (when available)
import torch
pipeline.to(torch.device("cpu"))

# apply pretrained pipeline
diarization = pipeline(first_file)

# print the result
for turn, _, speaker in diarization.itertracks(yield_label=True):
    print(f"start={turn.start:.1f}s stop={turn.end:.1f}s speaker_{speaker}")
# start=0.2s stop=1.5s speaker_0
# start=1.8s stop=3.9s speaker_1
# start=4.2s stop=5.7s speaker_0
# ...

  std = sequences.std(dim=-1, correction=1)


start=0.0s stop=11.7s speaker_SPEAKER_00
start=0.6s stop=1.9s speaker_SPEAKER_01
start=12.4s stop=26.0s speaker_SPEAKER_00
start=13.5s stop=15.6s speaker_SPEAKER_01
start=18.9s stop=20.4s speaker_SPEAKER_01
start=20.8s stop=21.5s speaker_SPEAKER_01
start=22.2s stop=24.0s speaker_SPEAKER_01
start=26.5s stop=29.5s speaker_SPEAKER_00
start=29.9s stop=37.8s speaker_SPEAKER_00
start=33.8s stop=34.7s speaker_SPEAKER_01
start=35.1s stop=41.0s speaker_SPEAKER_01
start=40.5s stop=40.6s speaker_SPEAKER_00
start=40.9s stop=57.3s speaker_SPEAKER_00
start=50.0s stop=50.6s speaker_SPEAKER_01
start=50.9s stop=51.7s speaker_SPEAKER_01
start=59.4s stop=68.2s speaker_SPEAKER_01
start=68.6s stop=77.1s speaker_SPEAKER_01
start=77.8s stop=82.2s speaker_SPEAKER_01
start=82.8s stop=86.8s speaker_SPEAKER_01
start=87.8s stop=89.2s speaker_SPEAKER_01
start=90.8s stop=92.7s speaker_SPEAKER_01
start=93.7s stop=96.1s speaker_SPEAKER_01
start=97.0s stop=97.2s speaker_SPEAKER_01
start=98.6s stop=99.6s speaker_SPEAKE

# Draft

In [None]:
import pandas as pd
import os

test_annotated = pd.read_csv(
    "../../data/results/transcripts-large-v3-int8-beam5/test.csv"
).id.values.tolist()
train_annotated = pd.read_csv(
    "../../data/results/transcripts-large-v3-int8-beam5/train.csv"
).id.values.tolist()
already_whispered_id = set(train_annotated).union(set(test_annotated))

# test_dir = "../../data/MediatreeMP3/UpdatedDatasetsMP3/newTest_Audio"
train_dir = "../../data/MediatreeMP3/UpdatedDatasetsMP3/newTrain_Audio"

audio_files = [file.split(".")[0] for file in os.listdir(train_dir) if file.endswith(".mp3")]
# audio_files.extend([file.split(".")[0] for file in os.listdir(train_dir) if file.endswith(".mp3")])
audio_files = set(audio_files)

print(len(audio_files))
print(len(already_whispered_id))

print(len(audio_files - already_whispered_id))

122
129
43


In [9]:
len(audio_files.intersection(already_whispered_id))

113

In [5]:
import pandas as pd
train_df = pd.read_csv("../../data/climatesafeguards/train_230.csv")
test_df = pd.read_csv("../../data/climatesafeguards/test_79.csv")

print(f"train: {len(train_df)}")
print(f"test: {len(test_df)}")

train: 230
test: 79


In [7]:
import os
test_audio_path = "../../data/MediatreeMP3/UpdatedDatasetsMP3/newTrain_Audio"
test_audio_files = [file for file in os.listdir(test_audio_path) if file.endswith(".mp3")]
print(len(test_audio_files))

122


In [27]:
test_df = pd.read_csv("../../data/test_ReAnnotatedData.csv")
print(len(test_df))
train_df = pd.read_csv("../../data/train_ReAnnotatedData.csv")
print(len(train_df))

72
217


In [12]:
import os
test_audio_path = "../../data/MediatreeMP3/UpdatedDatasetsMP3/newTest_Audio"

test_audio_files = [file.split(".")[0] for file in os.listdir(test_audio_path) if file.endswith(".mp3")]
print(len(test_audio_files))

train_audio_path = "../../data/MediatreeMP3/UpdatedDatasetsMP3/newTrain_Audio"

train_audio_files = [file.split(".")[0] for file in os.listdir(train_audio_path) if file.endswith(".mp3")]
print(len(train_audio_files))

print(len(test_audio_files) + len(train_audio_files))

46
122
168


In [28]:
newTrain = pd.read_csv("../../data/results/transcripts-large-v3-int8-beam5/newTrain.csv")
newtest = pd.read_csv("../../data/results/transcripts-large-v3-int8-beam5/newTest.csv")

test = pd.read_csv("../../data/results/transcripts-large-v3-int8-beam5/test.csv")
train = pd.read_csv("../../data/results/transcripts-large-v3-int8-beam5/train.csv")

all_transcripts = pd.concat([newTrain, newtest, test, train])
all_transcripts.rename(columns={"transcript":"whisper-largev3"},inplace=True)

In [63]:
all_transcripts.drop_duplicates(subset="id", inplace=True)

In [65]:
audio_ids = set(train_audio_files) # to transcribe
all_transcripts_ids = set(all_transcripts.id.values.tolist()) # transcribed

print(len(audio_ids))
print(len(all_transcripts_ids))
print(f"untranscribed: {len(audio_ids) - len(audio_ids.intersection(all_transcripts_ids))}")

122
182
untranscribed: 0


In [66]:
print(len(all_transcripts))
len(all_transcripts.id.unique())

182


182

In [72]:
newTest = pd.read_csv("../../data/climatesafeguards/test_79.csv")
newTrain = pd.read_csv("../../data/climatesafeguards/train_230.csv")

newTest_whisper = pd.merge(left=newTest, right=all_transcripts, on="id",how="left")

In [73]:
print(len(newTest))
print(len(newTest_whisper))

79
79


In [83]:
results = {"abc":0, "def":1}
pd.DataFrame.from_dict(results, orient="index", columns=["transcript"]).reset_index().rename(columns={"index":"id"})


Unnamed: 0,id,transcript
0,abc,0
1,def,1


In [74]:
newTest_whisper.to_csv("../../data/results/transcripts-large-v3-int8-beam5/newTest_whisper.csv")