In [1]:
import pandas as pd
import spacy

from tqdm.notebook import tqdm
tqdm.pandas()



# Opening data

In [2]:
fichier = "../data/intermediate/base_merged.csv"

df = pd.read_csv(fichier, sep=';', quotechar='"')

df.sample(5)

Unnamed: 0,ID ASSO,ID ARTICLE,contenu,Type de document,Auteur,Date,Titre,URL
21,12,120022,La photo d’un homme transidentifié avec un nou...,opinion,Dora Moutot & Marguerite Stern,18/10/2022,La photo d’un homme transidentifié avec un nou...,https://www.femelliste.com/articles-femellisme...
221,20,200085,Comment la chirurgie « d’affirmation du genre ...,Article d'opinion,,,,https://cryforrecognition.be/fr/transformez-vo...
243,30,300004,Elle est présidente de l’American College of P...,Article d'opinion,,2017-07-13 00:00:00,,https://www.parti-de-la-france.fr/articles/Sel...
276,5,50005,Le cosplay transsexuel est en quelque sorte de...,Article d'opinion,,2023-03-27 00:00:00,,https://www.egaliteetreconciliation.fr/Les-act...
180,20,200044,Il y a plus de 100 cliniques pédiatriques spéc...,Article d'opinion,,,,https://cryforrecognition.be/fr/je-pensais-que...


# Cleaning and tokenisation

In [3]:
# Load the French language model
nlp = spacy.load("fr_core_news_sm")

# Define your list of words to exclude
words_to_filter = [
    'le', 'la', 'les', 'de', 'un', 'à', 'être', 'suis', 'es', 'est', 'sont', 'été', 'étais', 'était', 'étaient', 'serai', 'seras', 'sera', 'seront',
    'et', 'en', 'avoir', 'ai', 'as', 'a', 'ont', 'eu', 'aurai', 'auras', 'aura', 'auront', 'avais', 'avait', 'avaient', 'que', 'pour',
    'dans', 'ce', 'il', 'qui', 'ne', 'en', 'sur', 'se', 'pas', 'plus',
    'par', 'je', 'avec', 'tout', 'faire', 'fais', 'fait', 'font', 'son', 'mettre', 'autre', 'on', 'mais',
    'nous', 'comme', 'ou', 'si', 'leur', 'y', 'dire', 'dis', 'dit', 'disent', 'elle', 'voir', 'devoir',
    'deux', 'même', 'pendant', 'aussi', 'vouloir', 'grand', 'mon', 'nouveau', 'aller',
    'venir', 'ceux', 'faire', 'quelque', 'trouver', 'donner', 'donne', 'donnes', 'donnent', 'aussi', 'autre',
    'tous', 'vieux', 'bon', 'voir', 'moins', 'trois', 'avant', 'sa', 'faire', 'contre',
    'abord', 'sous', 'ou', 'apporter', 'grand', 'ainsi', 'long', 'très', 'tout', 'avoir',
    'beau', 'chaque', 'peu', 'quoi', 'encore', 'aller', 'montrer', 'semaine', 'ainsi',
    'nuit', 'aussi', 'bien', 'deuxième', 'moins', 'tout', 'avoir', 'peu', 'nuit', 'ça',
    'mon', 'ma', 'mes', 'ton', 'ta', 'tes', 'son', 'sa', 'ses', 'notre', 'notre', 'nos', 'votre', 'votre', 'vos', 'leur', 'leur', 'leurs',
    'non', '’', '.', ',', ':', 'est', 'des', "l'", "d'", "une", "d", "»", "«", "du", "qu", "au", "n", "s", "elle", ")", "(", "aux", 'c', 'cette', 'un', 'ces','?', 'il', 'ils', 'j', "l", "-", "vous", "entre",
    "[", "]", "elles", '”', '“', "dont", "cela", ";", "m", "selon", "!", '–', "en", "autre", "ici", "ce", "ça", "cela", "ceci", "car", "ou", "où", "ni", "mais", "et", "donc", "parce", "que", "quand", "comment", "qui", "quoi",
    "à", "de", "pour", "sans", "sur"
]

# Function to tokenize, filter, and lemmatize text, excluding numbers
def tokenize_filter_and_lemmatize(text):
    # Process the text using spaCy
    doc = nlp(text)
    # Extract lemmatized forms of the words, excluding specific tokens and numbers
    lemmatized = " ".join([token.lemma_ for token in doc if token.lemma_ not in words_to_filter and not token.is_digit])
    return lemmatized

# Apply the function to the 'contenu' column
df['lemmatized_contenu'] = df['contenu'].progress_apply(tokenize_filter_and_lemmatize)

# Print the dataframe to see the result
df.sample(5)

  0%|          | 0/408 [00:00<?, ?it/s]

Unnamed: 0,ID ASSO,ID ARTICLE,contenu,Type de document,Auteur,Date,Titre,URL,lemmatized_contenu
25,12,120026,Pourquoi des féministes militent-elles pour qu...,opinion,Marguerite Stern,10/10/2022,Pourquoi des féministes militent-elles pour qu...,https://www.femelliste.com/articles-femellisme...,pourquoi féministe militer lui femme tran pouv...
354,13,130064,Discours interdit : La réduction au silence de...,blog,TRADFEM,26/06/2023,Discours interdit : La réduction au silence de...,https://tradfem.wordpress.com/2023/06/26/disco...,Discours interdire réduction silence critique ...
289,23,230019,François Rastier est membre du conseil scienti...,analyse,La petite Sirène,26 déc. 2023,Papier de François Rastier - n°2,https://www.observatoirepetitesirene.org/post/...,François Rastier membre conseil scientifique O...
137,11,110003,Monsieur le Ministre de l’Éducation nationale ...,Lettre,,,,https://soseducation.org/docs/mobilisations/al...,Monsieur ministre l’ éducation national jeunes...
371,13,130081,Victoria Smith commente la diabolisation actue...,blog,TRADFEM,06/06/2023,Victoria Smith commente la diabolisation actue...,https://tradfem.wordpress.com/2023/06/06/victo...,Victoria Smith diabolisation actuel femme d’ â...


# Export

In [None]:
fichier = "../data/intermediate/base_lemmatized.csv"
df.to_csv(fichier, sep=';', index=False, quotechar='"')