In [None]:
import pandas as pd
from transformers import pipeline
from tqdm import tqdm
from french_preprocessing.french_preprocessing import FrenchPreprocessing
import re

In [None]:
input_file = "./data/combined_dataset.csv" # path to the dataset
output_file = "./data/combined_dataset_labelized.csv" # path to the output file

In [None]:
df = pd.read_csv(input_file)

In [None]:
default_stopwords = [
    "y",
    "y'",
    "m",
    "l",
    "d",
    "t",
    "qu",
    "s",
    "c",
    "m'",
    "hein",
    "celle-là",
    "ceux-ci",
    "dring",
    "sa",
    "ollé",
    "en",
    "a",
    "d'",
    "plutôt",
    "auxquels",
    "celles-ci",
    "dès",
    "tel",
    "lui-meme",
    "quelle",
    "les",
    "dont",
    "aie",
    "quand",
    "pour",
    "où",
    "lès",
    "suivant",
    "ho",
    "memes",
    "hem",
    "surtout",
    "mien",
    "tellement",
    "qui",
    "le",
    "quels",
    "tant",
    "une",
    "tien",
    "ohé",
    "i",
    "mêmes",
    "ceux",
    "l'",
    "quelque",
    "si",
    "unes",
    "lequel",
    "tous",
    "chacune",
    "son",
    "que",
    "quel",
    "au",
    "ai",
    "celui-là",
    "chaque",
    "ouste",
    "es",
    "hep",
    "elles-mêmes",
    "lors",
    "cette",
    "cependant",
    "toc",
    "tsouin",
    "chacun",
    "seule",
    "siennes",
    "hum",
    "la",
    "certains",
    "t'",
    "trop",
    "dans",
    "desquels",
    "lui",
    "hors",
    "celles-là",
    "lui-même",
    "pouah",
    "toi-même",
    "boum",
    "vive",
    "rend",
    "mes",
    "vos",
    "nous",
    "qu'",
    "des",
    "tiens",
    "hé",
    "lorsque",
    "zut",
    "vlan",
    "mienne",
    "na",
    "ma",
    "selon",
    "s'",
    "vous-mêmes",
    "eh",
    "ah",
    "ses",
    "meme",
    "lesquels",
    "miens",
    "vôtres",
    "paf",
    "pif",
    "quant-à-soi",
    "tes",
    "c'",
    "sien",
    "ça",
    "lesquelles",
    "tout",
    "telles",
    "même",
    "ces",
    "maint",
    "notre",
    "quanta",
    "elle-même",
    "aupres",
    "bas",
    "votre",
    "plusieurs",
    "moi",
    "par",
    "hurrah",
    "bah",
    "laquelle",
    "auxquelles",
    "vé",
    "peux",
    "pure",
    "tiennes",
    "aujourd'hui",
    "hormis",
    "couic",
    "vous",
    "ore",
    "envers",
    "moindres",
    "aucune",
    "gens",
    "ouias",
    "cela",
    "quelles",
    "aux",
    "pff",
    "etc",
    "toutefois",
    "leurs",
    "ton",
    "clic",
    "las",
    "pfut",
    "t'",
    "toutes",
    "cet",
    "ta",
    "da",
    "toute",
    "aucun",
    "o",
    "sapristi",
    "quoi",
    "desquelles",
    "té",
    "vôtre",
    "euh",
    "pres",
    "as",
    "fi",
    "ci",
    "allo",
    "oh",
    "s'",
    "quiconque",
    "floc",
    "avec",
    "se",
    "bat",
    "tic",
    "jusqu",
    "qu'",
    "unique",
    "certes",
    "celles",
    "dire",
    "tienne",
    "ha",
    "nôtre",
    "jusque",
    "tac",
    "ceux-là",
    "sienne",
    "uns",
    "ouf",
    "moi-même",
    "et",
    "vers",
    "miennes",
    "autrefois",
    "houp",
    "été",
    "à",
    "d'",
    "nouveau",
    "être",
    "peu",
    "dite",
    "s'",
    "dit",
    "tels",
    "ou",
    "toi",
    "entre",
    "avoir",
    "hop",
    "delà",
    "nos",
    "tres",
    "telle",
    "voilà",
    "dessous",
    "soit",
    "autres",
    "psitt",
    "hélas",
    "anterieur",
    "hou",
    "près",
    "auquel",
    "juste",
    "chut",
    "un",
    "stop",
    "eux",
    "ès",
    "vifs",
    "ce",
    "quoique",
    "du",
    "moi-meme",
    "mon",
    "brrr",
    "sous",
    "parmi",
    "deja",
    "déja",
    "celle",
    "siens",
    "suffisant",
    "â",
    "l'",
    "apres",
    "sans",
    "soi-même",
    "là",
    "pur",
    "via",
    "differentes",
    "specifique",
    "holà",
    "tsoin",
    "pan",
    "car",
    "donc",
    "dits",
    "merci",
    "particulièrement",
    "nous-mêmes",
    "personne",
    "allô",
    "soi",
    "voici",
    "sur",
    "vif",
    "celle-ci",
    "malgré",
    "puis",
    "sauf",
    "autre",
    "hui",
    "ceci",
    "leur",
    "celui-ci",
    "necessairement",
    "sacrebleu",
    "hue",
    "eux-mêmes",
    "outre",
    "alors",
    "desormais",
    "plouf",
    "longtemps",
    "malgre",
    "après",
    "de",
    "oust",
    "neanmoins",
    "certain",
    "crac",
    "depuis",
    "olé",
    "hi",
    "te",
    "puisque",
    "m'",
    "me",
    "ô",
    "celui",
    "aussi",
    "rares",
    "chiche",
    "rien",
    "pfft",
    "c'",
    "vu",
    "clac",
    "duquel",
    "aavons",
    "avez",
    "ont",
    "eu",
    "avais",
    "avait",
    "avions",
    "aviez",
    "avaient",
    "eus",
    "eut",
    "eûmes",
    "eûtes",
    "eurent",
    "aurai",
    "auras",
    "aura",
    "aurons",
    "aurez",
    "auront",
    "aurais",
    "aurait",
    "aurions",
    "auriez",
    "auraient",
    "aies",
    "ait",
    "ayons",
    "ayez",
    "aient",
    "eusse",
    "eusses",
    "eût",
    "eussions",
    "eussiez",
    "eussent",
    "ayant",
    "suis",
    "est",
    "sommes",
    "êtes",
    "sont",
    "étais",
    "était",
    "étions",
    "étiez",
    "étaient",
    "fus",
    "fut",
    "fûmes",
    "fûtes",
    "furent",
    "serai",
    "seras",
    "sera",
    "serons",
    "serez",
    "seront",
    "serais",
    "serait",
    "serions",
    "seriez",
    "seraient",
    "sois",
    "soyons",
    "soyez",
    "soient",
    "fusse",
    "fusses",
    "fût",
    "fussions",
    "fussiez",
    "fussent",
    "étant",
]
default_symbols = """#§_-@+=*<>()[]{}/\\\\"'"""
default_punct = """!;:,.?-..."""

preprocessor = FrenchPreprocessing(
    stopwords=default_stopwords, symbols=default_symbols, punct=default_punct
)
def clean_text(text):
    if pd.isnull(text):
        return ""

    # Remove URLs
    text = re.sub(r'http\S+|www\S+|https\S+', '', text)

    # Remove @mentions
    text = re.sub(r'@\w+', '', text)

    return text

df['text'] = df['text'].apply(clean_text)
df['text'] = df['text'].apply(preprocessor.preprocessing)

In [None]:
target_mapping = {
    'women': 'Gender',
    'trans people': 'Transgender',
    'gay people': 'LGBTIQ',
    'black people': 'Race',
    'disabled people': 'Disability',
    'Muslims': 'Religion',
    'refugees': 'Nationality',
}

In [None]:
target_column = 'target_type'
text_column = 'text'
label_column = 'label'

df[target_column] = df[target_column].map(target_mapping)
rows_hateful_without_target = df[(df[target_column].isna()) & (df[label_column] == "hateful")]

unique_targets = df[target_column].unique()
print("Valeurs uniques après le remplacement dans la colonne cible:")
print(unique_targets)

In [None]:
classifier = pipeline("zero-shot-classification", model="facebook/bart-large-mnli")


candidate_labels = [
    "Race",
    "Religion",
    "Ethnicity",
    "Nationality",
    "Gender",
    "Transgender",
    "LGBTIQ",
    "Disablity",
    "Generic insult",
]

In [None]:
def classify_target(text):
    result = classifier(text, candidate_labels)
    return result['labels'][0]

In [None]:
tqdm.pandas()

# Filter rows where the target column is NaN and the label is "hateful"
rows_hateful_without_target = df[(df[target_column].isna()) & (df[label_column] == "hateful")]

# Classify the hateful tweets and update the target column
rows_hateful_without_target[target_column] = rows_hateful_without_target[text_column].progress_apply(classify_target)

# Filter rows where the target column is NaN and the label is "non_hateful"
rows_non_hateful_without_target = df[(df[target_column].isna()) & (df[label_column] == "non_hateful")]

# Update the target column for the non-hateful tweets
rows_non_hateful_without_target[target_column] = "no_target"

# Concatenate the filtered dataframes
df.update(rows_hateful_without_target)
df.update(rows_non_hateful_without_target)

df.to_csv(output_file, index=False)

print(f"Les résultats ont été sauvegardés dans {output_file}.")