In [1]:
import asyncio
import difflib
import json
import sys
from functools import wraps

import pandas as pd
import plotly.io
from litellm import acompletion, completion_cost
from pydantic import BaseModel
from tqdm.asyncio import tqdm
from unidecode import unidecode

sys.path.append("../..")

plotly.io.renderers.default = "png"

## Make predictions for one month (07/2024)


In [2]:
# Load data
df = pd.read_parquet("../../data/raw/18_channels_2023_09_to_2024_09.parquet")
df = df[(df["start"] >= "2024-07-01") & (df["start"] < "2024-08-01")]

# Fixing some syntax issues in the data
# Mediatree issue with "' "
df["text"] = df["text"].str.replace("' ", "'")

df

Unnamed: 0_level_0,start,text,channel_name,channel_is_radio,channel_program_type,channel_program,themes,keywords,num_keywords,num_tokens
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
d0d7bdc4bd490d92419bc0de44ce9517f4a5cfaf34a679fc6d2b1778e6c4b391,2024-07-02 19:40:00,<unk> depuis deux mille vingt et un octobre av...,arte,False,Information - Journal,JT,"[""adaptation_climatique_solutions"", ""attenuati...","[{""keyword"": ""for\u00eat"", ""timestamp"": 171994...",1,326
eb78004fbe329f7045dc8f4898b72dbc7258ab07ea2014241e89e81e85d0c72a,2024-07-02 20:50:00,y a eu un traité qui a donné le svalbard à la ...,arte,False,Information - Magazine,28 minutes,"[""attenuation_climatique_solutions_indirectes""...","[{""keyword"": ""ombre"", ""timestamp"": 17199463040...",1,400
b46f96e078ab656d11b5ae74aa656c29eff2270a814cde0b9602abe9fe8fddfb,2024-07-03 19:56:00,russe avec missiles longue portée livraison de...,arte,False,Information - Journal,JT,"[""attenuation_climatique_solutions_indirectes""...","[{""keyword"": ""feux"", ""timestamp"": 172002942109...",1,411
0d6c7d70407727ad2603c57e274d4f5de9e08944e676752118b30c87b3a3274d,2024-07-03 20:06:00,l'union européenne quelles conséquences pour l...,arte,False,Information - Magazine,28 minutes,"[""biodiversite_concepts_generaux"", ""ressources...","[{""keyword"": ""pacte vert"", ""timestamp"": 172002...",1,480
cde8cdb5370a2a27f7802e4a3d1b33ea1adc93a25d39e4c05db54c6dec87c1b0,2024-07-03 20:30:00,côté en revanche je me mets en leader qui va p...,arte,False,Information - Magazine,28 minutes,"[""adaptation_climatique_solutions"", ""biodivers...","[{""keyword"": ""agricole"", ""timestamp"": 17200314...",2,513
...,...,...,...,...,...,...,...,...,...,...
7ec2473740b64d1440efc9e83a68f8fe6523c3d6caea819575df8ba11b6ceafa,2024-07-31 20:02:00,marseille depuis six heures du matin que je su...,tf1,False,Information - Journal,JT 20h + météo,"[""ressources"", ""attenuation_climatique_solutio...","[{""keyword"": ""canicule"", ""timestamp"": 17224490...",1,484
1e13a3d2c8318e7858f9e303583842e0fdd04c1fd64450498f7716185e5c70ca,2024-07-31 20:16:00,sûr pour des raisons économiques il y a quelqu...,tf1,False,Information - Journal,JT 20h + météo,"[""attenuation_climatique_solutions"", ""ressourc...","[{""keyword"": ""antigaspillage"", ""timestamp"": 17...",1,552
1e1d34792775d87f9651a06adf68c746435827a978d9e3109f4abdd4f713c031,2024-07-31 20:32:00,des agents en civil traquent les faux taxis pe...,tf1,False,Information - Journal,JT 20h + météo,"[""attenuation_climatique_solutions_indirectes""...","[{""keyword"": ""for\u00eat"", ""timestamp"": 172245...",4,458
3f759be2f117adf86b86122a465d031ea92ddee410221980f77d5f589ae50227,2024-07-31 20:34:00,incendies ne sont pas la seule menace pour nos...,tf1,False,Information - Journal,JT 20h + météo,"[""biodiversite_causes"", ""biodiversite_concepts...","[{""keyword"": ""incendies"", ""timestamp"": 1722450...",5,477


In [3]:
# Limit concurrent requests to avoid API rate limiting
# (it depends on the model you use and your API tier)
semaphore = asyncio.Semaphore(20)


# Decorator that ensures `acompletion` uses the semaphore
def with_semaphore(acquire_semaphore):
    def decorator(func):
        @wraps(func)
        async def wrapper(*args, **kwargs):
            async with acquire_semaphore:
                return await func(*args, **kwargs)

        return wrapper

    return decorator


acompletion = with_semaphore(semaphore)(acompletion)


class MediatreePrediction(BaseModel):
    label_pred: str
    prompt_tokens: int
    completion_tokens: int
    total_tokens: int
    cost: float
    claim_pred: str | None = None


async def predict_cards_label(text: str) -> MediatreePrediction:
    system_prompt = """Tu es expert en désinformation sur les sujets environnementaux, expert en science climatique et sachant tout sur le GIEC. Je vais te donner un extrait d'une retranscription de 2 minutes d'un flux TV ou Radio. Parmis certains extraits, nous avons inséré un passage climatosceptique qui doit être factchecker. Ta tâche est de trouver ce passage climatosceptique (si il existe). Isole le passage à factchecker, puis fournis le label de la catégorie associé à ce passage. Ne t'intéresse qu'aux passages qui sont clairement climatosceptiques et ignore les thématiques sociales et/ou économiques. 

<catégories prédéfinies>
- 0_accepted: Lorsque l'ensemble de l'extrait est neutre ou reflète le consensus scientifique sur les questions climatiques, sans contenir de désinformation. Cette catégorie est aussi adaptée si l'extrait n'aborde pas le sujet du climat.
- 1_its_not_happening: Le réchauffement climatique n'a pas lieu.
- 2_its_not_us: Les humains ne sont pas à l'origine du réchauffement climatique.
- 3_its_not_bad: Les impacts climatiques ne sont pas mauvais.
- 4_solutions_wont_work: Les solutions climatiques ne fonctionneront pas.
- 5_science_is_unreliable: Les mouvements pour le climat et la science du climat ne sont pas fiables.
</catégories prédéfinies>

<exemples>

<exemple_0>
<extrait>
les scientifiques observent une hausse des températures mondiales, entraînant des changements climatiques visibles ils soulignent la nécessité d'agir pour en limiter les impacts [...]
</extrait>
<passage climatosceptique>
AUCUN
</passage climatosceptique>
<catégorie>0_accepted</catégorie>
</exemple_0>

<exemple_1>
<extrait>
[...]
</extrait>
<passage climatosceptique>
la fréquence des discussions sur la crise climatique semble augmenter mais certains experts proposent que les avertissements sur le climat pourraient être exagérés faisant souvent valoir que les fluctuations climatiques sont tout à fait naturelles et que les vérités scientifiques sont parfois altérées pour servir des intérêts politiques
</passage climatosceptique>
<catégorie>1_its_not_happening</catégorie>
</exemple_1>

<exemple_2>
<extrait>
[...]
</extrait>
<passage climatosceptique>
il est contesté que la contribution humaine aux niveaux de CO2 soit réellement significative certains experts soutiennent que les océans jouent un rôle bien plus important dans l'émission de ce gaz
</passage climatosceptique>
<catégorie>2_its_not_us</catégorie>
</exemple_2>

<exemple_3>
<extrait>
[...]
</extrait>
<passage climatosceptique>
il est important de noter que beaucoup de régions touchées par des événements climatiques extrêmes retrouvent leur équilibre naturel et peuvent même bénéficier de ces changements car plusieurs études montrent que certaines espèces et écosystèmes s'adaptent efficacement aux variations climatiques
</passage climatosceptique>
<catégorie>3_its_not_bad</catégorie>
</exemple_3>

<exemple_4>
<extrait>
[...]
</extrait>
<passage climatosceptique>
de nombreux experts remettent en question l'efficacité des initiatives visant à réduire la pollution, arguant qu'elles ne font qu'ajouter des coûts économiques sans réel impact positif sur l'environnement
</passage climatosceptique>
<catégorie>4_solutions_wont_work</catégorie>
</exemple_4>

<exemple_5>
<extrait>
[...]
</extrait>
<passage climatosceptique>
En réfléchissant à la situation on peut voir un parallèle avec le débat climatique de nombreux sceptiques pensent que le discours autour du climat est devenu une sorte de dogme où la critique est difficilement tolérée
</passage climatosceptique>
<catégorie>5_science_is_unreliable</catégorie>
</exemple_5>

</exemples>
"""
    response = await acompletion(
        messages=[
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": f"<extrait>\n{text.strip()}\n</extrait>"},
            {
                "role": "assistant",
                "content": "<passage climatosceptique>",
                "prefix": True,
            },
        ],
        model="anthropic.claude-3-haiku-20240307-v1:0",
        max_tokens=1000,
        temperature=0,
        stop=["</catégorie>"],
    )

    # Parse the response
    response_content: str = response.choices[0].message.content
    claim = response_content.split("</passage climatosceptique>")[0].strip()
    label_pred = response_content.split("<catégorie>")[1].strip()
    return MediatreePrediction(
        label_pred=label_pred,
        prompt_tokens=response.usage.prompt_tokens,
        completion_tokens=response.usage.completion_tokens,
        total_tokens=response.usage.total_tokens,
        cost=completion_cost(response),
        claim_pred=claim if label_pred != "0_accepted" else None,
    )

In [5]:
# Make predictions
mediatree_predictions: list[MediatreePrediction] = await tqdm.gather(
    *[predict_cards_label(text) for text in df["text"]]
)
mediatree_predictions_df = pd.DataFrame(
    [pred.model_dump(exclude_none=True) for pred in mediatree_predictions],
    index=df.index,
)
df = pd.concat([df, mediatree_predictions_df], axis=1)

100%|██████████| 11919/11919 [34:40<00:00,  5.73it/s]  


In [6]:
# Save the result
df.to_csv(
    "../../data/experiments/label_studio_review/mediatree_predictions_07_2024.csv"
)

In [7]:
def show_llm_usage(df: pd.DataFrame) -> None:
    print("\nLLM USAGE\n=========\n")
    print(
        f"Median token usage:\n- Prompt: {int(df["prompt_tokens"].median())}\n"
        f"- Completion: {int(df["completion_tokens"].median())}\n"
        f"- Total: {int(df["total_tokens"].median())}"
    )
    print(f"\nTotal cost: ${df["cost"].sum():.3f}\n")


show_llm_usage(df)


LLM USAGE

Median token usage:
- Prompt: 1766
- Completion: 27
- Total: 1795

Total cost: $5.653



In [7]:
def show_llm_usage(df: pd.DataFrame) -> None:
    print("\nLLM USAGE\n=========\n")
    print(
        f"Median token usage:\n- Prompt: {int(df["prompt_tokens"].median())}\n"
        f"- Completion: {int(df["completion_tokens"].median())}\n"
        f"- Total: {int(df["total_tokens"].median())}"
    )
    print(f"\nTotal cost: ${df["cost"].sum():.3f}\n")


show_llm_usage(df)


LLM USAGE

Median token usage:
- Prompt: 1785
- Completion: 27
- Total: 1815

Total cost: $1.317



In [15]:
df["label_pred"].value_counts()

label_pred
0_accepted                 11702
3_its_not_bad                 68
4_solutions_wont_work         68
2_its_not_us                  35
5_science_is_unreliable       31
1_its_not_happening           15
Name: count, dtype: int64

## Manually review the predictions with LabelStudio


In [9]:
df = pd.read_csv(
    "../../data/experiments/label_studio_review/mediatree_predictions_07_2024.csv",
    index_col=0,
)
df

Unnamed: 0_level_0,start,text,channel_name,channel_is_radio,channel_program_type,channel_program,themes,keywords,num_keywords,num_tokens,label_pred,prompt_tokens,completion_tokens,total_tokens,cost,claim_pred
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
d0d7bdc4bd490d92419bc0de44ce9517f4a5cfaf34a679fc6d2b1778e6c4b391,2024-07-02 19:40:00,<unk> depuis deux mille vingt et un octobre av...,arte,False,Information - Journal,JT,"[""adaptation_climatique_solutions"", ""attenuati...","[{""keyword"": ""for\u00eat"", ""timestamp"": 171994...",1,326,0_accepted,1560,27,1587,0.000424,
eb78004fbe329f7045dc8f4898b72dbc7258ab07ea2014241e89e81e85d0c72a,2024-07-02 20:50:00,y a eu un traité qui a donné le svalbard à la ...,arte,False,Information - Magazine,28 minutes,"[""attenuation_climatique_solutions_indirectes""...","[{""keyword"": ""ombre"", ""timestamp"": 17199463040...",1,400,0_accepted,1657,27,1684,0.000448,
b46f96e078ab656d11b5ae74aa656c29eff2270a814cde0b9602abe9fe8fddfb,2024-07-03 19:56:00,russe avec missiles longue portée livraison de...,arte,False,Information - Journal,JT,"[""attenuation_climatique_solutions_indirectes""...","[{""keyword"": ""feux"", ""timestamp"": 172002942109...",1,411,0_accepted,1674,27,1701,0.000452,
0d6c7d70407727ad2603c57e274d4f5de9e08944e676752118b30c87b3a3274d,2024-07-03 20:06:00,l'union européenne quelles conséquences pour l...,arte,False,Information - Magazine,28 minutes,"[""biodiversite_concepts_generaux"", ""ressources...","[{""keyword"": ""pacte vert"", ""timestamp"": 172002...",1,480,0_accepted,1737,27,1764,0.000468,
cde8cdb5370a2a27f7802e4a3d1b33ea1adc93a25d39e4c05db54c6dec87c1b0,2024-07-03 20:30:00,côté en revanche je me mets en leader qui va p...,arte,False,Information - Magazine,28 minutes,"[""adaptation_climatique_solutions"", ""biodivers...","[{""keyword"": ""agricole"", ""timestamp"": 17200314...",2,513,0_accepted,1777,27,1804,0.000478,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7ec2473740b64d1440efc9e83a68f8fe6523c3d6caea819575df8ba11b6ceafa,2024-07-31 20:02:00,marseille depuis six heures du matin que je su...,tf1,False,Information - Journal,JT 20h + météo,"[""ressources"", ""attenuation_climatique_solutio...","[{""keyword"": ""canicule"", ""timestamp"": 17224490...",1,484,0_accepted,1772,27,1799,0.000477,
1e13a3d2c8318e7858f9e303583842e0fdd04c1fd64450498f7716185e5c70ca,2024-07-31 20:16:00,sûr pour des raisons économiques il y a quelqu...,tf1,False,Information - Journal,JT 20h + météo,"[""attenuation_climatique_solutions"", ""ressourc...","[{""keyword"": ""antigaspillage"", ""timestamp"": 17...",1,552,0_accepted,1852,27,1879,0.000497,
1e1d34792775d87f9651a06adf68c746435827a978d9e3109f4abdd4f713c031,2024-07-31 20:32:00,des agents en civil traquent les faux taxis pe...,tf1,False,Information - Journal,JT 20h + météo,"[""attenuation_climatique_solutions_indirectes""...","[{""keyword"": ""for\u00eat"", ""timestamp"": 172245...",4,458,0_accepted,1717,27,1744,0.000463,
3f759be2f117adf86b86122a465d031ea92ddee410221980f77d5f589ae50227,2024-07-31 20:34:00,incendies ne sont pas la seule menace pour nos...,tf1,False,Information - Journal,JT 20h + météo,"[""biodiversite_causes"", ""biodiversite_concepts...","[{""keyword"": ""incendies"", ""timestamp"": 1722450...",5,477,0_accepted,1753,27,1780,0.000472,


In [10]:
# Generated code!
def approximate_match(text: str, claim: str, threshold=0.6) -> tuple[int, int] | None:
    # Preprocess text to remove casing and accents
    text = unidecode(text.lower())
    claim = claim.lower()

    # Split text and claim into words
    text_words = text.split()
    claim_words = claim.split()

    # Initialize variables to keep track of best match
    best_match_score = 0
    best_match_range = (None, None)

    # Slide a window of claim length over text to find the best match
    for i in range(len(text_words) - len(claim_words) + 1):
        # Extract a slice of words from the text to compare with claim
        window = text_words[i : i + len(claim_words)]

        # Calculate similarity ratio between the window and claim
        similarity = difflib.SequenceMatcher(None, window, claim_words).ratio()

        # Check if the similarity is above the threshold and better than the previous best
        if similarity > threshold and similarity > best_match_score:
            best_match_score = similarity
            best_match_range = (i, i + len(claim_words) - 1)

    # Convert word indices to character indices
    if best_match_range != (None, None):
        start_word_idx, end_word_idx = best_match_range
        start_char_idx = len(" ".join(text_words[:start_word_idx])) + (
            1 if start_word_idx > 0 else 0
        )
        end_char_idx = len(" ".join(text_words[: end_word_idx + 1]))
        return (start_char_idx, end_char_idx)
    else:
        return None

In [11]:
# Format for LabelStudio
# Only review flagged transcripts
data = []
for id, row in df[df["label_pred"] != "0_accepted"].iterrows():
    # Find the extracted claim in the original text
    text: str = row["text"]
    claim_pred: str = row["claim_pred"]
    try:
        # Try to see if we have a perfect match of claim in text
        start = text.lower().index(claim_pred.lower())
        end = start + len(claim_pred)
    except ValueError:
        # ValueError: substring not found
        matching_result = approximate_match(text, claim_pred, threshold=0.5)
        if matching_result:
            start, end = matching_result
        else:
            # The LLM "extracted" a claim that doesn't exist in the text...
            start, end = None, None

    # Pre-annotate the task with the model's prediction
    # We skip it if we couldn't match the extracted claim with the original text
    if start is not None:
        data.append(
            {
                "data": {
                    "id": id,
                    "start": str(row["start"]),
                    "text": text,
                    "channel_name": row["channel_name"],
                    "channel_program_type": row["channel_program_type"],
                    "channel_program": row["channel_program"],
                    "label_pred": row["label_pred"],
                    "claim_pred": claim_pred,
                },
                "predictions": [
                    {
                        "model_version": "claude-3-haiku",
                        "result": [
                            {
                                "value": {
                                    "start": start,
                                    "end": end,
                                    "text": text[start:end],
                                    "labels": [row["label_pred"]],
                                },
                                "from_name": "label",
                                "to_name": "text",
                                "type": "labels",
                            }
                        ],
                    }
                ],
            }
        )

In [12]:
# Save the LabelStudio tasks for import
with open(
    "../../data/experiments/label_studio_review/mediatree_predictions_07_2024_label_studio_review.json",
    "w",
) as f:
    json.dump(data, f)

In [13]:
len(data)

202