In [1]:
import math
from typing import Literal

import pandas as pd
from openai import AsyncOpenAI
from pydantic import BaseModel, Field
from tqdm.asyncio import tqdm

In [2]:
# Load mediatree data. Download from https://drive.google.com/drive/folders/1d0idkOmMIXabj7ajYhvkitMMHnH_woSN
df = pd.read_parquet("../../data/raw/18_channels_2023_09_to_2024_09.parquet")
df

Unnamed: 0_level_0,start,text,channel_name,channel_is_radio,channel_program_type,channel_program,themes,keywords,num_keywords,num_tokens
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
84e93fcd88fa86338651973326536d27d29f724a4864350d7c234501ea0813d0,2023-09-01 19:40:00,choses le combat d' andré boma et du parc des ...,arte,False,Information - Journal,JT,"[""biodiversite_concepts_generaux"", ""adaptation...","[{""keyword"": ""\u00e9nergies fossiles"", ""timest...",3,448
21037a5700f15f8b1fb968dcf35c047bd0933816bc3f01b339be2af568983010,2023-09-01 19:42:00,vient d' engager cinq milliards d' euros dans ...,arte,False,Information - Journal,JT,"[""changement_climatique_causes"", ""attenuation_...","[{""keyword"": ""\u00e9nergie renouvelable"", ""tim...",1,408
a3aceee186595fab3603853ea38f3c51fe9453912a280ccbf0e669fda086940e,2023-09-01 20:20:00,parler une révolution par contre au niger euh ...,arte,False,Information - Magazine,28 minutes,"[""changement_climatique_causes"", ""changement_c...","[{""keyword"": ""climatique"", ""timestamp"": 169359...",1,647
d6b08b996cea24381de86c31a243122baa83bf750e03c91fe6530a401fc0527a,2023-09-01 20:44:00,il faut rappeler le début de cette affaire c' ...,arte,False,Information - Magazine,28 minutes,"[""biodiversite_concepts_generaux"", ""changement...","[{""keyword"": ""vivant"", ""timestamp"": 1693593844...",1,537
391397ace2825ad3d4169797e37b685d1be499dd7ccea33d89ec3e757392f243,2023-09-02 19:40:00,grandes plantations agricoles ont également mi...,arte,False,Information - Journal,JT,"[""biodiversite_concepts_generaux"", ""biodiversi...","[{""keyword"": ""agricole"", ""timestamp"": 16936763...",6,443
...,...,...,...,...,...,...,...,...,...,...
7e43ce79a3c9304277dde3a06b433d7cf08a9b40ee8904be3fdedea1cd608d36,2024-08-31 13:08:00,lui aussi par les moustiques touche une trenta...,tf1,False,Information - Journal,JT 13h,"[""biodiversite_consequences"", ""biodiversite_co...","[{""keyword"": ""renaturer"", ""timestamp"": 1725102...",4,474
4b5a990a668084eb50da9029b16f7f76ba44ffc89412858aff2789f79efabcec,2024-08-31 13:10:00,des griffes arracher la solution se trouve peu...,tf1,False,Information - Journal,JT 13h,"[""biodiversite_consequences"", ""attenuation_cli...","[{""keyword"": ""agriculture"", ""timestamp"": 17251...",3,471
d3ef252aaac62bdcd506e162d5454dfa346f9c75dbc74efb675e408409ae7386,2024-08-31 19:58:00,albret <unk> madame monsieur bonsoir bienvenue...,tf1,False,Information - Journal,JT 20h + météo,"[""changement_climatique_consequences""]","[{""keyword"": ""al\u00e9as climatiques"", ""timest...",1,419
c5fb91f75955000b6bc581b89a9ba6cc0efda7b47b0b249ad34aedb8fa42da6d,2024-08-31 20:18:00,modèles rechargeables séduisent les citadins i...,tf1,False,Information - Journal,JT 20h + météo,"[""attenuation_climatique_solutions"", ""changeme...","[{""keyword"": ""borne de recharge"", ""timestamp"":...",2,503


In [3]:
# Randomly sample about 1000 texts
N_SAMPLES = 1000
num_samples_per_channel = math.floor(N_SAMPLES / df["channel_name"].nunique())
df = df.groupby("channel_name").sample(num_samples_per_channel, random_state=42)

In [4]:
# Create a function to modify the original texts into a climate-skeptic variant
# We suppose that the original text is not climate-skeptic by default 
# This assumption could be false but is unlikely due to the imbalance nature of the problem
client = AsyncOpenAI()


class ExtraitAvecArgumentClimatosceptique(BaseModel):
    label: Literal[
        "1. Le réchauffement climatique n'est pas réél",
        "2. Les gaz à effet de serre humains ne causent pas le réchauffement climatique",
        "3. Les impacts du changement climatiques ne sont pas mauvais",
        "4. Les solutions climatiques ne fonctionneront pas",
        "5. Le mouvement/la science du climat n'est pas fiable",
    ] = Field(alias="Catégorie de l'argument climatosceptique")
    claim: str = Field(alias="Passage climatosceptique intégré dans le texte original")
    polluted_text: str = Field(
        alias="Extrait de 2 minutes avec le passage climatosceptique inséré"
    )


async def pollute_text_with_contrarian_claim(
    text: str,
) -> ExtraitAvecArgumentClimatosceptique:
    system_prompt = """L'utilisateur va fournir un extrait de 2 minutes d'une émission de télévision ou de radio. Ta tâche est de modifier le texte pour introduire clairement une idée climatosceptique, en allant à l'encontre du consensus scientifique. Le passage introduit doit être composé d'une à trois phrases. Voici des exemples qui repoussent clairement le consensus scientifique :

1. **Le réchauffement climatique n'est pas réél**:
   - "Certains scientifiques affirment que les données sur la fonte des glaces sont manipulées pour renforcer l'idée d'une crise climatique."
   - "Le prétendu réchauffement global semble inexistant face à des records de froid récents."

2. **Les gaz à effet de serre humains ne causent pas le réchauffement climatique**:
   - "De nombreuses voix soutiennent que le CO2 n'a qu'un effet négligeable sur le climat et que nous traversons surtout des phases naturelles."
   - "L'influence de l'activité humaine sur les niveaux de CO2 est contestée; des chercheurs disent que les principales émissions viennent des océans."

3. **Les impacts du changement climatiques ne sont pas mauvais**:
   - "Les espèces prétendument menacées par le climat montrent une étonnante résilience, s'adaptant sans problèmes."
   - "Certains affirment qu'il n'y a pas de preuve concluante reliant la hausse des températures à des effets dévastateurs."

4. **Les solutions climatiques ne fonctionneront pas**:
   - "On prétend que les énergies renouvelables sont une utopie, privant les pays de leur autonomie énergétique sans réel bénéfice environnemental."
   - "Les spécialistes mettent en doute l'efficacité des politiques climatiques qui ne parviennent qu'à écraser les économies sans impact positif mesurable sur le climat."

5. **Le mouvement/la science du climat n'est pas fiable**:
   - "Il est avancé que la science climatique est devenue une religion où le débat et la dissidence sont étouffés."
   - "De nombreux sceptiques voient les prévisions climatiques catastrophiques comme un outil politique plus qu'une réalité scientifique."

Réponse attendu :

- Après avoir bien réfléchis, choisis la catégorie d'argument la plus pertinente en fonction du texte fourni par l'utilisateur.
- Inspire-toi des exemples ci-dessus pour créer un passage d’une à trois phrases avec une tonalité clairement climatosceptique.
- Intègre ce nouveau passage dans le texte original à l’endroit le plus approprié.
"""
    response = await client.beta.chat.completions.parse(
        model="gpt-4o-mini",
        messages=[
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": text},
        ],
        response_format=ExtraitAvecArgumentClimatosceptique,
        temperature=1,
    )
    text_pollution = response.choices[0].message.parsed

    return text_pollution

In [5]:
# Take roughly 50% of the texts for each channel
# These will be the texts that we will pollute
index_to_pullute = (
    df.groupby("channel_name").sample(math.floor(num_samples_per_channel / 2)).index
)

# Generate climate skeptic claims for these texts
df.loc[index_to_pullute, "contrarian_claim"] = await tqdm.gather(
    *[
        pollute_text_with_contrarian_claim(text)
        for text in df.loc[index_to_pullute, "text"]
    ]
)

100%|██████████| 486/486 [00:24<00:00, 19.98it/s] 


In [6]:
# Convert the data to the same benchmark format as the CARDS benchmark
# We just add the extra "text" column that CARDS doesn't have
benchmark_data = []
text: str
channel_name: str
contrarian_claim: ExtraitAvecArgumentClimatosceptique | float
for text, channel_name, contrarian_claim in df[
    ["text", "channel_name", "contrarian_claim"]
].itertuples(index=False):
    if isinstance(contrarian_claim, ExtraitAvecArgumentClimatosceptique):
        text = contrarian_claim.polluted_text
        claim = contrarian_claim.claim
        is_contrarian = True
        label = {
            "1. Le réchauffement climatique n'est pas réél": "1_its_not_happening",
            "2. Les gaz à effet de serre humains ne causent pas le réchauffement climatique": "2_its_not_us",
            "3. Les impacts du changement climatiques ne sont pas mauvais": "3_its_not_bad",
            "4. Les solutions climatiques ne fonctionneront pas": "4_solutions_wont_work",
            "5. Le mouvement/la science du climat n'est pas fiable": "5_science_is_unreliable",
        }[contrarian_claim.label]
    else:
        claim = None
        is_contrarian = False
        label = "0_accepted"
    benchmark_data.append(
        {
            "text": text,
            "claim": claim,
            "is_contrarian": is_contrarian,
            "label": label,
            "source": channel_name,
        }
    )
benchmark = pd.DataFrame(benchmark_data)
benchmark

Unnamed: 0,text,claim,is_contrarian,label,source
0,eu un deux mille vingt-trois qui était la plus...,"Cependant, certains experts soulignent que l'a...",True,1_its_not_happening,arte
1,ce qui nous arrivent dessus cet après-midi c' ...,,False,0_accepted,arte
2,le pas-de-calais et en vendée entre autres on ...,"Cependant, certains experts pointent que la mo...",True,2_its_not_us,arte
3,danois les irlandais et les lituaniens la sema...,"Cependant, il est important de noter que certa...",True,2_its_not_us,arte
4,répond aussi à l' obligation de financer le dé...,,False,0_accepted,arte
...,...,...,...,...,...
985,maisons hier soir à brandon au nord de bastia ...,"Cependant, certains experts soutiennent que la...",True,3_its_not_bad,tf1
986,changement climatique qu' on réfléchisse à de ...,,False,0_accepted,tf1
987,mobilisés tout le week end avec les préfets mo...,,False,0_accepted,tf1
988,très souvent été achetés avec plusieurs mois d...,,False,0_accepted,tf1


In [10]:
# Check distribution of classes
display(benchmark["is_contrarian"].value_counts())
display(benchmark[benchmark["is_contrarian"]]["label"].value_counts())

is_contrarian
False    504
True     486
Name: count, dtype: int64

label
1_its_not_happening        140
4_solutions_wont_work      118
3_its_not_bad               84
2_its_not_us                74
5_science_is_unreliable     70
Name: count, dtype: int64

In [11]:
# Save the benchmark
benchmark.to_csv(
    "../../data/benchmark/mediatree_synthetic_sample_1000.csv", index=False
)