# Projekt Sammanfatta nyheter

Projektet går ut på att ta en ljudfil med ett nyhetsprogram från radio, transkribera ljudet till en textfil med hjälp av *kb-whisper-small* och skapa en sammanfattning av nyheterna i en ny textfil med hjälp av *Meta-Llama-3.1-8B*.

## Steg 1 - Transkribering

### Beroenden och importer

In [1]:
%pip install -r requirements.txt

Note: you may need to restart the kernel to use updated packages.


In [4]:
import os
import re   
import whisperx

INFO:speechbrain.utils.quirks:Applied quirks (see `speechbrain.utils.quirks`): [allow_tf32, disable_jit_profiling]
INFO:speechbrain.utils.quirks:Excluded quirks specified by the `SB_DISABLE_QUIRKS` environment (comma-separated list): []


## Förbered filnamn

Det går att ladda ner nyhetsprogram från t ex Sveriges Radio. Efter att ha provat med lite olika längder på nyhetsprogrammen valde jag ett på tre minuter. Ett kortare ger lite för få nyheter och ett längre tar längre tid att exekvera, tre minuter kändes lagom för att testa. 

Här förbereds filnamnen till filerna som ska skapas till den transkriberade texten samt till sammanfattningen.

In [None]:
audio_filename = "Ekot_senaste_nytt_20250531_0600.mp3" # 3 min
# audio_filename = "Ekot_senaste_nytt_20250526_0000.mp3" # 2 min
# audio_filename = "ekot_nyhetssandning_ekot_1230_nya_kraftiga_attack_20250607_1354319877.mp3" # 20 min

filename_body, _ = os.path.splitext(audio_filename)
transcribe_filename = filename_body + ".transcribe.txt"
summary_filename = filename_body + ".summary.txt"

## Skapa transkriberingen

In [None]:
device = "cpu"

model_whisperx = whisperx.load_model(
    whisper_arch="KBLab/kb-whisper-small",
    device=device,
    compute_type="int8",
    language="sv",
    asr_options=dict(
        beam_size=5,
        condition_on_previous_text=False,
        no_speech_threshold=0.6,
        log_prob_threshold=-1,
        without_timestamps=False,
        max_initial_timestamp=1.0,
        max_new_tokens=200,
        word_timestamps=False,
    ),
    vad_options=dict(vad_onset=0.500, vad_offset=0.363),
)

model_align, metadata = whisperx.load_align_model(
    language_code="sv", 
    device=device, 
    model_name="KBLab/wav2vec2-large-voxrex-swedish"
)

audio = whisperx.load_audio(audio_filename)

result = model_whisperx.transcribe(
    audio, batch_size=24, num_workers=0, print_progress=True, combined_progress=True
)

# Whisper "glömmer" mellanslag efter vissa skiljetecken. Lägg till där det saknas. 
for i, segment in enumerate(result["segments"]):
    result["segments"][i]["text"] = re.sub(
        r"([a-zA-Z0-9åäöÅÄÖ])([.!?]|[.]{3})(?![\s.!?])", r"\1\2 ", segment["text"]).strip()

result = whisperx.align(
    transcript=result["segments"],
    model=model_align,
    align_model_metadata=metadata,
    audio=audio,
    device=device,
    return_char_alignments=False,
    print_progress=True,
    combined_progress=True,
)

text = []
for i, segment in enumerate(result["segments"]):
    text.append(result["segments"][i]["text"]+' ')

with open(transcribe_filename, "w") as f:
    f.writelines(text)
    
print("Ready creating transcribe file: " + transcribe_filename)

Lightning automatically upgraded your loaded checkpoint from v1.5.4 to v2.5.1. To apply the upgrade to your files permanently, run `python -m pytorch_lightning.utilities.upgrade_checkpoint c:\Users\Niclas\anaconda3\Lib\site-packages\whisperx\assets\pytorch_model.bin`


Model was trained with pyannote.audio 0.0.1, yours is 3.3.2. Bad things might happen unless you revert pyannote.audio to 0.x.
Model was trained with torch 1.10.0+cu102, yours is 2.7.0+cpu. Bad things might happen unless you revert torch to 1.x.




Progress: 6.25%...
Progress: 12.50%...
Progress: 18.75%...
Progress: 25.00%...
Progress: 31.25%...
Progress: 37.50%...
Progress: 43.75%...
Progress: 50.00%...
Progress: 56.25%...
Progress: 62.50%...
Progress: 68.75%...
Progress: 75.00%...
Progress: 81.25%...
Progress: 87.50%...
Progress: 93.75%...
Progress: 100.00%...
Ready creating transcribe file: Ekot_senaste_nytt_20250531_0600.transcribe.txt


Mer om resultatet senare.

## Steg 2 - Skapa sammanfattningen

Då återstår att skapa en sammanfattning av nyheterna

### Först lite importer

In [None]:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

### Ladda modellen

In [None]:
model_name = "meta-llama/Meta-Llama-3.1-8B-Instruct"
HF_TOKEN = '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'
device = "cpu"
model = AutoModelForCausalLM.from_pretrained(
    pretrained_model_name_or_path=model_name,
    torch_dtype=torch.bfloat16,
    token=HF_TOKEN,
)
model.to(device)

model.generation_config.temperature=None
model.generation_config.top_p=None

tokenizer = AutoTokenizer.from_pretrained(
    model_name, padding_side="left", token=HF_TOKEN
)

tokenizer.pad_token = tokenizer.eos_token
model.config.pad_token_id = model.config.eos_token_id

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

### Kör sammanfattning

In [13]:
with open(transcribe_filename, 'r') as read_file:
    transcript = read_file.read()

prompt = """Nedan finns ett textutdrag från en inspelning som transkriberats med hjälp av en Automatic Speech Recognition-modell. 
    Din uppgift är att identifiera nyheter.
    Sammanfatta varje nyhet kort. 
    Ta med namn och platser som nämns i nyheten.
    Använd ingen rubrik och ingen numrering av nyheterna. 
    Lista nyheterna i den ordning de förekommer.
    Ta hänsyn till att texten kan innehålla felaktigheter på grund av transkriberingen. Utdraget: """

messages = [
    {"role": "system", "content": "Du är en hjälpsam AI-assistent som är bra på att sammanfatta texter."},
    {"role": "user", "content": prompt+transcript}
]
formatted_text = tokenizer.apply_chat_template(messages, tokenize=False)

model_inputs = tokenizer(
    formatted_text,
    return_tensors="pt",
    padding=True,
    truncation=True,
    return_attention_mask=True,
    add_special_tokens=True,
).to(device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=1024,
    do_sample=False,
    num_beams=1,
    output_logits=True,
    return_dict_in_generate=True,
)

output = tokenizer.decode(generated_ids["sequences"][0])

summary = output.split(">")[-2].removesuffix('<|eot_id|').strip()

with open(summary_filename, "w") as f:
    f.write(summary)
f.close()

print("Ready creating summary file: " + summary_filename)

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Ready creating summary file: Ekot_senaste_nytt_20250531_0600.summary.txt


## Steg 3 - Titta på resultatet

### Resultatet från transkriberingen

Här har jag delat upp varje nyhet i eget stycke för att öka läsbarheten. I koden som körs saknas denna uppdelning.

> God morgon, här är Ekot. Regeringen skärper kontrollen av den så kallade skuggflottan i Östersjön. Justitieminister Gunnar Strömmer säger att det är viktigt att agera eftersom skuggflottan blivit en central del i det ryska krigsmaskineriet. Jag tänker att det både ska ha en preventiv avskräckande effekt mot fartyg som ingår i den ryska skuggflottan och också ge underlag för att vidta andra åtgärder som exempelvis då att sanktionslista fler fartyg. Ja, regeringen har fattat beslut om en ny förordning som innebär att Kustbevakningen och Sjöfartsverket från och med den 1 juli ska samla in försäkringsuppgifter även från fartyg som passerar svenskt sjöterritorium eller ekonomisk zon, inte bara de som anlöper en hamn. Det här är, enligt en promemoria från justitiedepartementet, en viktig pusselbit i arbetet mot den så kallade skuggflottan som används för att kringgå sanktioner som oljepristaket. Och det är viktigt att agera enligt justitieminister Gunnar Strömmer. Den ryska skuggflottan alltsedan Ryssland inledde sin fullskaliga information mot Ukraina spelade en väldigt viktig roll för det ryska krigsmaskineriet Reporter Lova Olsson. 

> I Lunds kommun knivskars en pojke i bröstet igår kväll, rapporterar Sydsvenskan. Han skadades allvarligt och vårdas nu på sjukhus. Tre personer har gripits och de är nu misstänkta för mordförsök. 

> Under sin kongress i Göteborg har Socialdemokraterna sagt ja till att tillfälligt sänka straffbarhetsåldern till 14 år vid allvarliga brott. Beslutet togs efter en hård debatt på S-kongressen. Teresa Carvallo är partiets rättspolitiska talesperson. Här måste vi vara modiga och testa nya verktyg men givetvis behöver vi också utvärdera det här efter en tid. Socialdemokraterna vill nu alltså tillfälligt pröva och utvärdera en sänkt straffbarhetsålder men är fortfarande emot generella sänkningar. 

> USA president Donald Trump säger att han planerar att höja importtullarna på utländskt stål från 25% till 50%. Sedan Trump tillträdde så har priset på stålprodukter i USA ökat med runt 16% och högre tullar väntas driva upp priset ytterligare. 

> Så vädret idag blir det soligt i södra Götaland, i resten av Götaland och Svealand växlande molnighet. I södra Norrland halvklart till mulet. I norra Norrland blir det regn följt av uppehåll och uppklarning. Temperatur 15-20 grader i söder och 5-15 grader i norr. Det var ekot klockan sex i studion. Carina Segora Morberg. 

### Resultatet från sammanfattningen

> Regeringen skärper kontrollen av den ryska skuggflottan i Östersjön. Justitieminister Gunnar Strömmer säger att det är viktigt att agera mot fartyg som ingår i den ryska skuggflottan för att ha en preventiv avskräckande effekt och ge underlag för att vidta andra åtgärder. 

> Regeringen har fattat beslut om en ny förordning som innebär att Kustbevakningen och Sjöfartsverket från och med den 1 juli ska samla in försäkringsuppgifter även från fartyg som passerar svenskt sjöterritorium eller ekonomisk zon, inte bara de som anlöper en hamn. 

> En pojke knivskars i bröstet i Lunds kommun igår kväll och skadades allvarligt. Tre personer har gripits och är nu misstänkta för mordförsök. 

> Socialdemokraterna har sagt ja till att tillfälligt sänka straffbarhetsåldern till 14 år vid allvarliga brott, efter en hård debatt på S-kongressen. 

> USA-president Donald Trump planerar att höja importtullarna på utländskt stål från 25% till 50%. 

> Vädret idag blir soligt i södra Götaland, medan det i resten av landet blir växlande molnighet.

Intressant här är att den första nyheten om skuggflottan har tolkats som två olika nyheter.

## Slutord

### Exekveringstid

Att göra sammanfattningar av nyheter ger en större vinst när programlängden ökar, dvs man sparar mer tid på att läsa en sammanfattning än att läsa transkriberingen eller lyssna på ljudfilen. Tyvärr tar det mycket längre tid att skapa sammanfattningen då, vilket inte känns optimalt med den maskinvara jag haft till förfogande. När koden väl fungerade provade jag även ett lite längre nyhetsprogram för att kunna jämföra exekveringstider och jag upplever att förhållandet mellan programlängd och exekveringstid är skapligt linjärt.

| Programlängd <br />(min:sek) | Exekveringstid transkribering <br />(min:sek)| Exekveringstid sammanfattning <br />(min:sek)|
| ---------------------------: | -------------------------------------------: | -------------------------------------------: |
| 2:00                         | 1:06                                         | 10:54                                        |
| 3:00                         | 1:39                                         | 16:25                                        |
| 20:00                        | 11:33                                        | 79:50                                        |


### Problem 

- Ibland har modellen svårt att identifiera nyheterna och klumpar ihop två nyheter till en och ibland delar den upp en nyhet till två, som ovan.

- Olika nyhetsprogram har olika karaktär. Nyheterna presenteras på olika sätt beroende på vilken programlängd det är, om det är radio eller tv och lite beroende på vilken målgrupp programmet har. Detta gör att det kan vara svårt att få till en prompt som fungerar bra för samtliga typer av program.

- I lite pratigare nyhetsprogram, som t ex P1 Morgon, försöker man behålla lyssnarna genom att göra lite kort "reklam" om nyheter man ska prata om senare i programmet, så kallade puffar, och de är lite svåra att identifiera om man vill försöka slippa dem i sammanfattningen.

- En annan sak som kan upplevas som lite störande är hur transkriberingen kan ha problem att stava egennamn rätt. Detta är förstås beroende av hur bra material man tränat modellen på. Vill man ha ett bra stöd för detta behöver modellen ständigt vidaretränas med nya egennamn som nämns i nyheterna. Ett möjligt alternativ vore att ha en tjänst för egennamn som kan anropas under eller efter transskriberingen. Hur en sådan tjänst skulle se ut och underhållas ligger dock utanför detta projekt.

### Nästa steg

- Labba mer med prompten. Jag har lagt ner ganska mycket tid på att få till en bra prompt - dock utan att bli nöjd. Här finns det mycket att göra.

- Whisper levererar även tidkoder till orden som identifieras. Skulle vara kul att se om dessa går att använda på något sätt för att förbättra resultatet. Kan man t ex identifiera längre pauser mellan orden när det kommer en ny nyhet?

- Det skulle även vara intressant att se hur bra andra modeller klarar sammanfattningen.

### Reflektion

Som vanligt när man utvecklar något går en alldeles för stor del av tiden åt till krångel - Moduler som behöver vara i rätt version (det är de inte nu, men det fungerar ändå), installationer som inte är gjorda på "rätt" sätt, fel som tar lång tid att felsöka och det som i mitt fall tagit längst tid: Att försöka få igång en GPU från Intel som har lite sämre stöd. Det gick till sist, men då visade det sig att GPU:n hade för lite minne för att kunna användas. 

På det stora hela var det kul att labba med två olika modeller som hjälptes åt, dock tror jag att resultatet skulle bli ännu bättre med bara en modell som klarar att sammanfatta nyheterna direkt från ljudfilen. Det känns som man tappar en del information av att ha två steg.
