### Fake Content Workshop -- AI in Fake Content Detection
Welcome to our Fake Content Workshop!
We hope that today you will learn some practical skills in applying AI tools in Fake Content Detection.
Enjoy and don't hesitate to ask questions!

### Prerequisites

Before we start, let's make sure that we have everything installed on our machines:

- Python;
- Pyenv (for Linux, Mac or WLS);
- Our libraries (dependancies);
- Jupyter Lab.


### Sentimental Analysis

Fake content tends to be written in a very positive (or very negative) tone.
Finding the tone of a piece of text can be done with many AI models:

In [None]:
from transformers import pipeline

def sentimental_analysis(text):
    pipe = pipeline("text-classification", model="tabularisai/multilingual-sentiment-analysis", truncation=True)
    result = pipe(text)
    
    return result[0]["label"]

sentimental_analysis("I love this product! It's amazing and works perfectly.")
# sentimental_analysis("El libro estuvo más o menos.")


### Translation

Some models are trained to work with only a specific subset of languages.
If you would like to analyze media written in another language (but can't find a model that works with that language), translation could come in handy.
Gladly, there are already tools that excell an this task:

In [None]:
from groq import Groq

api_key = "YOUR_API_KEY_HERE" # Put your api key here
client = Groq(api_key=api_key)

def translate(text, language):
    completion = client.chat.completions.create(
        model="llama-3.3-70b-versatile",
        messages=[
            {
                "role": "system",
                "content": "You are an interpreter. Your tasks include translating text from one language to another. Answer without additional, just the translation."
            },
            {
                "role": "user",
                "content": f"Please translate the following text to {language}:\n\n{text}"
            }
        ],
        temperature=1,
        max_completion_tokens=1024,
        top_p=1,
        stream=False,
        stop=None,
    )

    return completion.choices[0].message.content

# translate("Я в восторге от этого нового гаджета!", "English")
# translate("Я в восторге от этого нового гаджета!", "Romanian")
# translate("Я в восторге от этого нового гаджета!", "Spanish")


In [None]:
# Exercises:
# 1. Connect to another translation tool (e.g. DeepL Translator, Google Translate)
# 2. Compare the resulting tranlations. Which tools worked best for you?

### Sumarization

When analyzing longer texts, it is useful to first visualize a preview, to decide how important this article might be.
Also, other tools might benefit from a shorter text, while keeping the main idea of it.
Fortunately, pretrained models already exist:

In [None]:
from transformers import pipeline

def summarize(text):
    summarizer = pipeline(task="summarization", model="sshleifer/distilbart-cnn-12-6", truncation=True)
    result = summarizer(text)
    
    return result[0]["summary_text"]

# summarize("The tower is 324 metres (1,063 ft) tall, about the same height as an 81-storey building, and the tallest structure in Paris. Its base is square, measuring 125 metres (410 ft) on each side. During its construction, the Eiffel Tower surpassed the Washington Monument to become the tallest man-made structure in the world, a title it held for 41 years until the Chrysler Building in New York City was finished in 1930. It was the first structure to reach a height of 300 metres. Due to the addition of a broadcasting aerial at the top of the tower in 1957, it is now taller than the Chrysler Building by 5.2 metres (17 ft). Excluding transmitters, the Eiffel Tower is the second tallest free-standing structure in France after the Millau Viaduct.")

In [None]:
# Exercises:
# 1. Connect to another summarization tool (e.g. Groq API)
# 2. Compare the resulting summarizations. Which tools worked best for you?

### All Together

Now lets use the tools to analyze an example article!

In [None]:
article = """
Село Копанка вполне может стать понятием нарицательным, характерным для всей Молдовы.
То есть, живут граждане Молдовы в селе, почти обычном. Из общего ряда Копанка выбивается тем, что хотя и находится на правом берегу Днестра и под юрисдикцией властей Кишинева, подключена к энергетическим системам Приднестровья. То есть, газ и электричество получают от тираспольских предприятий. И платят, соответственно, по тарифам в разы ниже, чем, жители остальной Молдовы. Им можно было только позавидовать.
Как и все Приднестровье жители Копанки (и еще 11 сел зоны безопасности) - еще раз, это граждане Молдовы, - остались без газа и при веерных отключениях электричества.
Жители села замечают, что “5 лет ими власти правобережной Молдовы не интересовались”, а тут явилась сама Санду с заявлениями о “цене свободы”. Причем, не сразу, как сотни людей попали в беду, а через полторы недели.
Президент затянула старую песню о том, что Кремль виноват, что надо думать прежде всего о том, что ПАС подразумевает под свободой, а не о детях, которые замерзают в домах, что-то о биотопливе… - ее, естественно, послали… к европейской матери.
Она не привезла им НИ ОДНОГО генератора, да даже одеяла не подарила или вязанку дров. Она пришла им прочесть мантру о евроинтеграции и “защите” от России….
Что делает адекватный президент в такой ситуации? Везет генераторы в пострадавшие села, бесплатные дрова, разворачивает полевую кухню. Столько кредитов получали от Европы на энергетическую независимость, а когда “благодаря Украине” Молдова стала полностью независимой от газпромовской трубы (не от российского газа, его закупают в Европе по бешеным ценам), стали возмущаться попытками Кремля дестабилизировать ситуацию в Молдове. Куда уж больше, чем Санду и ПАС дестабилизировать…
Кстати, а кредиты где?!
Чтобы и денежки не потерять, и “против Кремля” выступить Санду вместо того, чтобы выполнить свое обещание (записано на видео), данное на пресс-конференции о том, что не будет препятствовать поставкам газа в Приднестровье, отправляет в Копанку частную компанию - поставщика электроэнергии, который собрался подключить село к электросистеме правобережной Молдовы. Газ Приднестровью нужен не только для частного потребителя и предприятий, но и для выработки электроэнергии, в том числе, и для Копанки. И когда Россия решила поставлять необходимый для Левобережья объем газа (через европейских посредников), власти Кишинева стали чинить препятствия.
И тут в Копанку привозят электрические столбы и, не спросив мнение жителей села, начинают устанавливают линию. Тарифы при этом будут кишиневские, то есть в 4 раза выше.
Люди, которые получают молдавские пенсии и приднестровские и молдавские зарплаты, возмутились. Мало того, никто им не предлагал ничего, никакую помощь, их ни о чем не спрашивали, им не предоставили право выбора, они должны были исполнить роль статистов в неудавшейся пиар-кампании президента.
Они не хотят жить так, как живут люди в правобережной Молдове, откуда бегут толпами за границу навсегда. Они не хотят жить так, как предлагает им президент Санду и ее партия.
Копанка показала, что думают о властях люди в Молдове. Об этой “цене свободы”, о праве на выбор, которого их лишили. Если обойти другие села Молдовы, можно услышать примерно тоже самое, только мнение это не будет услышано - провластная пресса упорно молчит и развивает, как в известные времена, культ личности Санду. А Копанка в эту благостную картинку не вписывается.
Вот вам и выборы президента Молдовы, когда проголосовали против Санду.
Еще одно доказательство, что жители страны не хотят эту “кризисную” власть.
"""

translated = translate(article, "English")
print(translated)

summarized = summarize(translated)
print(summarized)

sentiment = sentimental_analysis(article)
print(sentiment)


In [None]:
# Exercises:
# 1. What other metrics can be considered useful when deciding whether some content is fake?
# 2. Find a model that could detect / measure such metric and use it.

### Fine-tuning Your Own Model

If you can't find a model that would suit your needs (or you'd like to work with a particular dataset), you'll need to train your own model.
The fastest way to do this is to take an already trained model and fine tune it with your own dataset:

In [None]:
"""
Author: https://github.com/nastea19
Source: https://github.com/nastea19/AI-in-actiune/blob/main/ml.py
"""

import os
import re
import torch
import pandas as pd
from transformers import BertTokenizer, BertForSequenceClassification, Trainer, TrainingArguments
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_recall_fscore_support

# Set the device
device = torch.device('cuda') if torch.cuda.is_available() else torch.device('cpu')

# Define model save path
model_dir = './saved_model'

# Load datasets
true_news = pd.read_csv('archive/True.csv')
fake_news = pd.read_csv('archive/Fake.csv')

# Add labels
true_news['label'] = 1
fake_news['label'] = 0

# Combine datasets
news_dataset = pd.concat([true_news, fake_news], ignore_index=True)

# Preprocess the dataset
news_dataset = news_dataset[['text', 'label']]
news_dataset = news_dataset.sample(frac=0.05, random_state=42)

# Split the dataset
train_texts, val_texts, train_labels, val_labels = train_test_split(
    news_dataset['text'].tolist(), news_dataset['label'].tolist(), test_size=0.2, random_state=42
)

In [None]:
# Load the tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# Clean text function
def clean_text(text):
    text = re.sub(r'\s+', ' ', text)  # Remove extra whitespace
    text = text.strip()  # Remove leading/trailing spaces
    return text

# Clean the training and validation texts
train_texts = [clean_text(text) for text in train_texts]
val_texts = [clean_text(text) for text in val_texts]

# Tokenize the texts
train_encodings = tokenizer(train_texts, truncation=True, padding=True, max_length=256)
val_encodings = tokenizer(val_texts, truncation=True, padding=True, max_length=256)

In [None]:
# Create a custom dataset class
class NewsDataset(torch.utils.data.Dataset):
    def __init__(self, encodings, labels):
        self.encodings = encodings
        self.labels = labels

    def __getitem__(self, idx):
        item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
        item['labels'] = torch.tensor(self.labels[idx])
        return item

    def __len__(self):
        return len(self.labels)

# Prepare datasets
train_dataset = NewsDataset(train_encodings, train_labels)
val_dataset = NewsDataset(val_encodings, val_labels)

# Load the model and move to the device if already trained
if os.path.exists(model_dir):
    print("Modelul antrenat a fost gasit. Se incarca modelul salvat...")
    model = BertForSequenceClassification.from_pretrained(model_dir)
else:
    print("Modelul antrenat nu a fost gasit. Incepem antrenarea...")
    model = BertForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=2)
    model.to(device)

    # Set training arguments
    training_args = TrainingArguments(
        output_dir='./results',
        num_train_epochs=3,  # Increased epochs for better training
        per_device_train_batch_size=4,  # Adjusted batch size for better performance
        per_device_eval_batch_size=8,
        warmup_steps=500,
        weight_decay=0.01,
        logging_dir='./logs',
        evaluation_strategy="epoch",
        save_strategy="epoch",
        load_best_model_at_end=True,
    )

    # Define evaluation metrics
    def compute_metrics(pred):
        labels = pred.label_ids
        preds = pred.predictions.argmax(-1)
        accuracy = accuracy_score(labels, preds)
        precision, recall, f1, _ = precision_recall_fscore_support(labels, preds, average='binary')
        return {
            'accuracy': accuracy,
            'precision': precision,
            'recall': recall,
            'f1': f1
        }

    # Create the Trainer
    trainer = Trainer(
        model=model,
        args=training_args,
        train_dataset=train_dataset,
        eval_dataset=val_dataset,
        compute_metrics=compute_metrics
    )

    # Train the model
    trainer.train()

    # Evaluate the model
    evaluation_results = trainer.evaluate()
    print("Evaluation Results:", evaluation_results)

    # Save the model and tokenizer
    model.save_pretrained(model_dir)
    tokenizer.save_pretrained(model_dir)


In [None]:
# Prediction function
def predict_news(news_text):
    model_for_prediction = model.to('cpu')
    inputs = tokenizer(clean_text(news_text), truncation=True, padding=True, max_length=256, return_tensors="pt")
    inputs = {key: val.to('cpu') for key, val in inputs.items()}
    
    with torch.no_grad():
        outputs = model_for_prediction(**inputs)
    
    prediction = torch.argmax(outputs.logits, dim=1).item()
    return "True" if prediction == 1 else "False"

# Example usage
news_example = input("Enter the news article text for verification: ")
result = predict_news(news_example)
print(f"Prediction for the news article: {result}")

In [None]:
# Exercises:
# 1. How can you test the performance of your fine-tuned model?
# 2. Think of other media that could be analyzed (e.g. Fake Audio, Fake Images, Fake Videos)

### Fake Audio Detection

In [None]:
import torch
import torchaudio
import soundfile as sf
import numpy as np
from transformers import AutoFeatureExtractor, AutoModelForAudioClassification

# Load model and move to available device
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model_name = "WpythonW/ast-fakeaudio-detector"

extractor = AutoFeatureExtractor.from_pretrained(model_name)
model = AutoModelForAudioClassification.from_pretrained(model_name).to(device)
model.eval()

# Process multiple audio files
audio_files = ["audio2.mp3"]
processed_batch = []

for audio_path in audio_files:
    # Load audio file
    audio_data, sr = sf.read(audio_path)
    
    # Convert stereo to mono if needed
    if len(audio_data.shape) > 1 and audio_data.shape[1] > 1:
        audio_data = np.mean(audio_data, axis=1)
    
    # Resample to 16kHz if needed
    if sr != 16000:
        waveform = torch.from_numpy(audio_data).float()
        if len(waveform.shape) == 1:
            waveform = waveform.unsqueeze(0)
        
        resample = torchaudio.transforms.Resample(
            orig_freq=sr, 
            new_freq=16000
        )
        waveform = resample(waveform)
        audio_data = waveform.squeeze().numpy()
    
    processed_batch.append(audio_data)

# Prepare batch input
inputs = extractor(
    processed_batch,
    sampling_rate=16000,
    padding=True,
    return_tensors="pt"
)
inputs = {k: v.to(device) for k, v in inputs.items()}

# Get predictions
with torch.no_grad():
    logits = model(**inputs).logits
    probabilities = torch.nn.functional.softmax(logits, dim=-1)

# Process results
for filename, probs in zip(audio_files, probabilities):
    fake_prob = float(probs[0].cpu())
    real_prob = float(probs[1].cpu())
    prediction = "FAKE" if fake_prob > real_prob else "REAL"
    
    print(f"\nFile: {filename}")
    print(f"Fake probability: {fake_prob:.2%}")
    print(f"Real probability: {real_prob:.2%}")
    print(f"Verdict: {prediction}")


### Fake Image Detection

In [None]:
from transformers import pipeline

def deepfake_image_detection(image_url):
    classifier = pipeline(task="image-classification", model="Wvolf/ViT_Deepfake_Detection")
    preds = classifier(image_url)

    return preds

# deepfake_image_detection("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/pipeline-cat-chonk.jpeg")
# deepfake_image_detection("https://wallpapers.com/images/hd/woman-with-blue-eyes-face-reference-vwq2iertkzrzgkdu.jpg")
# deepfake_image_detection("https://static.fotor.com/app/features/img/aiface/realistic/1.png")


### References
Congratulations for reaching here!
For those interested, we've left a couple of references you might find useful in your own projects.
Good luck!

0. [AI Workshops Repo](https://github.com/mihailgavrilita/ai-workshops);
1. [Fine-tuning Your Own Model Repo](https://github.com/nastea19/AI-in-actiune/tree/main) -- please give them a star if you found this repo useful;
1. [Pyenv GitHub Repo](https://github.com/pyenv/pyenv);
2. [Install Jupyter Lab](https://jupyter.org/install);
3. [Hugging Face](https://huggingface.co/);
4. [Multilingual Sentiment Analysis](https://huggingface.co/tabularisai/multilingual-sentiment-analysis);
5. [Summarization](https://huggingface.co/docs/transformers/task_summary#summarization);
6. [Clickbait Detection](https://huggingface.co/valurank/distilroberta-clickbait);
7. [Fine-tune a Pretrained Model](https://huggingface.co/docs/transformers/training);
8. [Groq Playground](https://console.groq.com/playground);
9. [DeepL Translator API](https://www.deepl.com/en/pro-api);
10. [Google Translate Python Client Library](https://cloud.google.com/translate/docs/reference/libraries/v2/python);
11. [A Test Article](https://md.kp.media/daily/27653.5/5038090/);
12. [Fake and Real News Dataset](https://www.kaggle.com/datasets/clmentbisaillon/fake-and-real-news-dataset).