# Whisperization

Using faster-whisper https://github.com/SYSTRAN/faster-whisper/tree/master

In [4]:
from faster_whisper import WhisperModel

model_size = "large-v3"

# Run on GPU with FP16
# model = WhisperModel(model_size, device="cuda", compute_type="float16")

# or run on GPU with INT8
model = WhisperModel(model_size, device="cpu", compute_type="int8")
# or run on CPU with INT8
# model = WhisperModel(model_size, device="cpu", compute_type="int8")

model.bin:   2%|2         | 62.9M/3.09G [00:00<?, ?B/s]

In [2]:
import os
train_audio_path = "../../../MediatreeMP3/trainAudio"

train_audio_files = [file for file in os.listdir(train_audio_path) if file.endswith(".mp3")]

In [24]:
%%time

first_file = train_audio_path + "/" + train_audio_files[1]

segments, info = model.transcribe(first_file, language="fr") # beam_size=5, , condition_on_previous_text=False
print(f"{info.language} - {info.language_probability}")
for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

INFO:faster_whisper:Processing audio with duration 02:00.000


fr - 1
[0.00s -> 2.42s]  Et quand il y a du soleil, on n'a pas besoin d'énergie, en fait.
[3.00s -> 5.20s]  On n'a pas besoin d'énergie quand il y a du soleil dans la journée.
[5.34s -> 9.92s]  On a besoin, je termine, d'énergie quand le soleil se couche.
[10.56s -> 11.44s]  Donc, en fait, ça ne sert à rien.
[12.78s -> 15.46s]  Donc, une fois qu'on a dit ça, on passe à autre chose.
[15.78s -> 17.08s]  Des capacités de stockage.
[17.58s -> 18.90s]  Mais on ne stocke pas l'énergie solaire.
[18.90s -> 22.18s]  Le nucléaire permettra pas de répondre à tous nos besoins.
[22.38s -> 23.00s]  C'est ça que je veux dire.
[23.54s -> 25.88s]  Philippe, on ne stocke pas l'énergie solaire.
[26.58s -> 27.42s]  On ne stocke pas l'énergie solaire.
[27.42s -> 28.72s]  Et on fait comment, alors ?
[28.72s -> 32.44s]  On fait, effectivement, on privilégie le nucléaire,
[32.50s -> 33.42s]  ce qu'on est en train de faire, d'ailleurs.
[33.82s -> 37.80s]  Mais ça ne suffit pas à découvrir les besoins du pays.


In [25]:
first_file

'../../../MediatreeMP3/trainAudio/bea9a40121e3abc44bf49ab7a3fb0f3cc49365123fdb82a55bef066bdc0b51cd.mp3'

In [11]:
def get_whisper_transcript(file_path, model):
    """Call whisper to get transcription"""
    segments, info = model.transcribe(file_path, language="fr") # beam_size=5, , condition_on_previous_text=False
    return " ".join(segments)

In [26]:
import re

text = """
Et quand il y a du soleil, on n'a pas besoin d'énergie, en fait.
[3.00s -> 5.20s]  On n'a pas besoin d'énergie quand il y a du soleil dans la journée.
[5.34s -> 9.92s]  On a besoin, je termine, d'énergie quand le soleil se couche.
[10.56s -> 11.44s]  Donc, en fait, ça ne sert à rien.
[12.78s -> 15.46s]  Donc, une fois qu'on a dit ça, on passe à autre chose.
[15.78s -> 17.08s]  Des capacités de stockage.
[17.58s -> 18.90s]  Mais on ne stocke pas l'énergie solaire.
[18.90s -> 22.18s]  Le nucléaire permettra pas de répondre à tous nos besoins.
[22.38s -> 23.00s]  C'est ça que je veux dire.
[23.54s -> 25.88s]  Philippe, on ne stocke pas l'énergie solaire.
[26.58s -> 27.42s]  On ne stocke pas l'énergie solaire.
[27.42s -> 28.72s]  Et on fait comment, alors ?
[28.72s -> 32.44s]  On fait, effectivement, on privilégie le nucléaire,
[32.50s -> 33.42s]  ce qu'on est en train de faire, d'ailleurs.
[33.82s -> 37.80s]  Mais ça ne suffit pas à découvrir les besoins du pays.
[38.00s -> 39.06s]  Ce n'est pas juste quelque chose de technicien.
[39.06s -> 40.28s]  C'est aussi une question d'esthétique.
[40.98s -> 43.22s]  Écoutez, Paul Melun, parce qu'il a fait une petite vidéo,
[43.38s -> 45.38s]  coup de gueule du jour, au détour d'une promenade en forêt,
[45.44s -> 47.42s]  je tombe sur un immense parc éolien.
[47.42s -> 49.16s]  Voilà, la France défigurée.
[49.36s -> 51.24s]  Vous vous souvenez de cette émission ?
[51.24s -> 52.40s]  Comment s'appelait-il ?
[52.40s -> 53.82s]  La France défigurée.
[55.02s -> 56.92s]  Écoutez, monsieur Paul Melun.
[58.72s -> 62.26s]  Bonjour à tous, je suis en direct des Deux-Sèvres.
[62.38s -> 64.92s]  Vous voyez, je fais ma promenade, j'ai pris ma carte, je me promène.
[65.04s -> 70.18s]  Il y a derrière moi des beaux paysages, avec des forêts, des bosquets.
[70.40s -> 71.56s]  Voilà, c'est assez agréable.
[71.66s -> 74.48s]  Et puis là, vous voyez, au bout de quelques minutes de marche,
[74.56s -> 76.70s]  je suis tombé sur quelque chose qui me désespère beaucoup,
[76.70s -> 79.62s]  qui me déplait fortement.
[79.82s -> 81.96s]  C'est un parc éolien qui est absolument immense,
[82.88s -> 86.04s]  avec des piliers de plusieurs dizaines et dizaines de mètres de haut.
[86.16s -> 86.60s]  Vous voyez, ils sont là.
[87.86s -> 88.70s]  Je suis complètement...
[88.84s -> 92.26s]  Il y a un auto-tour, vraiment partout, partout, partout.
[92.42s -> 95.86s]  Vous voyez, on peut faire le tour à 360 degrés.
[96.80s -> 97.96s]  Il y en a partout.
[98.66s -> 99.40s]  Ça fait un bruit.
[100.22s -> 104.02s]  On a l'impression d'être un mélange entre un aéroport et une autoroute,
[104.80s -> 105.70s]  si vous voulez entendre.
[111.84s -> 113.44s]  Voilà, c'est l'écologie bruyante.
[114.16s -> 117.50s]  En passant sur le chemin, je suis tombé sur des oiseaux qui ont été déchiquetés.
[117.50s -> 119.56s]  Les cadavres par terre.
[119.92s -> 120.00s]  Voilà.
"""
def remove_text_in_brackets(text):
    text = re.sub(r'\[.*?\]', '', text)
    text = re.sub(r'[\n\t]', '', text)
    text = re.sub(r'  ', ' ', text)
    return text
print(remove_text_in_brackets(text))

Et quand il y a du soleil, on n'a pas besoin d'énergie, en fait. On n'a pas besoin d'énergie quand il y a du soleil dans la journée. On a besoin, je termine, d'énergie quand le soleil se couche. Donc, en fait, ça ne sert à rien. Donc, une fois qu'on a dit ça, on passe à autre chose. Des capacités de stockage. Mais on ne stocke pas l'énergie solaire. Le nucléaire permettra pas de répondre à tous nos besoins. C'est ça que je veux dire. Philippe, on ne stocke pas l'énergie solaire. On ne stocke pas l'énergie solaire. Et on fait comment, alors ? On fait, effectivement, on privilégie le nucléaire, ce qu'on est en train de faire, d'ailleurs. Mais ça ne suffit pas à découvrir les besoins du pays. Ce n'est pas juste quelque chose de technicien. C'est aussi une question d'esthétique. Écoutez, Paul Melun, parce qu'il a fait une petite vidéo, coup de gueule du jour, au détour d'une promenade en forêt, je tombe sur un immense parc éolien. Voilà, la France défigurée. Vous vous souvenez de cette émi

In [6]:
!ls

enhanced_transcripts.ipynb	  mediatree_single_prompt_prediction.ipynb
excel_deliverable_december.ipynb


In [8]:
from glob import glob
files = glob("../../data/results/test/*")

transcripts_dict = {}
for file in files:
    file_id = file.split("/")[-1].replace("txt","")
    with open(file,'r') as f:
        transcripts_dict[file_id] = f.read()

In [11]:
import pandas as pd
train_csv = pd.read_csv("../../data/train_ReAnnotatedData.csv")

In [20]:
train_csv["id"]

0      17309a2df99d49d39e0a5767c729fbf7dc69e15a8ada1d...
1      0432a08bf2cdac6dc99e6490aadff28cb27b5606006cce...
2      b597c0e140752a2fed9aaf048c603dca11545a1864899d...
3      d508de97b5a59f4e725ddd2a4b9bce8ed78842f324c768...
4      d3eeac7e3cae260d5544be73ddf38f43a7a6df6cff0b14...
                             ...                        
212    a2674e594e4f5f15da6d60704f8dd43fcb6f654cde7e2a...
213    5d8dd870859c9b4aee8fadd6b9e6ee84ae1ea24e6062ed...
214    39faafd7fb09d4c5e49371a6f6ee02cb39a7c48fd125be...
215    23f4e160850b5a59e9bd2efcf48691f841de7e6fe74d73...
216    6bcac9d0302254f17728fcdd680bfc08a17446a7d46976...
Name: id, Length: 217, dtype: object

In [19]:
transcripts_dict

{'47e65c463cd744805b07c06fdde2b1980b85922fad7c46fa9c961b9496d335b3': " et d'un autre côté, les industriels pour qui ont travaillé  tout comme la grande distribution, on démarche qui sont maintenues et ils sont dans  cette guégère-là où nous agriculteurs sommes toujours les compressés.  Troisième et dernière raison de la colère, c'est la politique agricole menée par Bruxelles,  elle impose beaucoup d'interdiction, ceux qui exposent les agriculteurs français  à la concurrence étrangère qui n'a pas les mêmes contraintes.  Margot Fauderrez du service économique d'Europe, alors on l'a compris un celles  colère allemont en France, mais aussi dans d'autres pays comme l'Allemagne,  la polonne ou la Roumanie, et même si les revendications sont différente,  le point de attention reste le même, la politique européenne de Bruxelles,  Arthur de la Borde, la politique agricole de la Macronie et mise à mal du coup.  Effectivement, il faut d'abord se souvenir capena-rivée à l'Élysée,  Emmanuel Macron 

In [24]:
# transcript = pd.DataFrame.from_dict((k, v) for k, v in transcripts_dict.items())

train_csv["whisper_tiny"] = train_csv["id"].apply(lambda x:transcripts_dict.get(x,""))

In [25]:
train_csv[["id","text","rewritten_text","whisper_tiny"]]

Unnamed: 0,id,text,rewritten_text,whisper_tiny
0,17309a2df99d49d39e0a5767c729fbf7dc69e15a8ada1d...,je ne veux pas rentrer là-dedans jeux assure j...,"Je ne veux pas rentrer là-dedans, je t'assure,...",
1,0432a08bf2cdac6dc99e6490aadff28cb27b5606006cce...,déchets alors c'est pas pour tout de suite ce ...,"Les déchets, alors ce n'est pas pour tout de s...","bonnet et sans décher. Alors, c'est pas pour ..."
2,b597c0e140752a2fed9aaf048c603dca11545a1864899d...,ça en passant avec la stratégie de sandrine ro...,"En passant, la stratégie de Sandrine Rousseau ...",
3,d508de97b5a59f4e725ddd2a4b9bce8ed78842f324c768...,la première demande des agriculteurs mais il f...,La première demande des agriculteurs est d'êtr...,mais il faut aussi être sous les mêmes règles...
4,d3eeac7e3cae260d5544be73ddf38f43a7a6df6cff0b14...,les pays latins la france l'italie l'espagne l...,"Les pays latins, la France, l'Italie, l'Espagn...",
...,...,...,...,...
212,a2674e594e4f5f15da6d60704f8dd43fcb6f654cde7e2a...,le changement sont très rapide et ce que la cl...,Le changement climatique est très rapide et ce...,
213,5d8dd870859c9b4aee8fadd6b9e6ee84ae1ea24e6062ed...,les agriculteurs néerlandais c'est quoi exacte...,"Les agriculteurs néerlandais, c'est quoi exact...",C'est quoi exactement d'idée? Vous voulez nou...
214,39faafd7fb09d4c5e49371a6f6ee02cb39a7c48fd125be...,donne des obstacles potentiels couvent verrais...,Il y a des obstacles potentiels que l'on ne ve...,
215,23f4e160850b5a59e9bd2efcf48691f841de7e6fe74d73...,maire a annoncé pour la dissolution qui baisse...,Le maire a annoncé que la dissolution pourrait...,pour la dissolution qui baisseraient le prix ...


# Diarization

Using pyannot https://github.com/pyannote/pyannote-audio

In [27]:
%%time

from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained(
    "pyannote/speaker-diarization-3.1",
    use_auth_token=)

# send pipeline to GPU (when available)
import torch
pipeline.to(torch.device("cpu"))

# apply pretrained pipeline
diarization = pipeline(first_file)

# print the result
for turn, _, speaker in diarization.itertracks(yield_label=True):
    print(f"start={turn.start:.1f}s stop={turn.end:.1f}s speaker_{speaker}")
# start=0.2s stop=1.5s speaker_0
# start=1.8s stop=3.9s speaker_1
# start=4.2s stop=5.7s speaker_0
# ...

  std = sequences.std(dim=-1, correction=1)


start=0.0s stop=11.7s speaker_SPEAKER_00
start=0.6s stop=1.9s speaker_SPEAKER_01
start=12.4s stop=26.0s speaker_SPEAKER_00
start=13.5s stop=15.6s speaker_SPEAKER_01
start=18.9s stop=20.4s speaker_SPEAKER_01
start=20.8s stop=21.5s speaker_SPEAKER_01
start=22.2s stop=24.0s speaker_SPEAKER_01
start=26.5s stop=29.5s speaker_SPEAKER_00
start=29.9s stop=37.8s speaker_SPEAKER_00
start=33.8s stop=34.7s speaker_SPEAKER_01
start=35.1s stop=41.0s speaker_SPEAKER_01
start=40.5s stop=40.6s speaker_SPEAKER_00
start=40.9s stop=57.3s speaker_SPEAKER_00
start=50.0s stop=50.6s speaker_SPEAKER_01
start=50.9s stop=51.7s speaker_SPEAKER_01
start=59.4s stop=68.2s speaker_SPEAKER_01
start=68.6s stop=77.1s speaker_SPEAKER_01
start=77.8s stop=82.2s speaker_SPEAKER_01
start=82.8s stop=86.8s speaker_SPEAKER_01
start=87.8s stop=89.2s speaker_SPEAKER_01
start=90.8s stop=92.7s speaker_SPEAKER_01
start=93.7s stop=96.1s speaker_SPEAKER_01
start=97.0s stop=97.2s speaker_SPEAKER_01
start=98.6s stop=99.6s speaker_SPEAKE