In [10]:
import spacy
from spacy.lang.en.stop_words import STOP_WORDS
from spacy.lang.en import English
import re

# Chemin vers la source
file_path = "C:/Users/GRETA/Documents/GitHub/text-to-image-devia/data/raw/Flickr8k_text/Flickr8k_token.txt"

# Charger le modèle SpaCy en anglais
nlp = spacy.load("en_core_web_sm")

In [11]:
# Fonction pour nettoyer et prétraiter le texte
def preprocess_text(text):
    # Convertir en minuscules
    text = text.lower()
    # Supprimer la ponctuation
    text = re.sub(r'[^\w\s]', '', text)
    # Supprimer les chiffres et autres caractères non alphabétiques
    text = re.sub(r'\d+', '', text)
    return text

# Fonction pour effectuer la lemmatisation et la tokenisation
def lemmatize_and_tokenize(text):
    tokens = []
    # Analyser le texte avec SpaCy
    doc = nlp(text)
    # Lemmatisation et tokenisation
    for token in doc:
        if token.text not in STOP_WORDS and token.text.strip():
            tokens.append(token.lemma_)
    return tokens

# Ajouter les jetons de début et de fin
def add_start_end_tokens(tokens):
    tokens.insert(0, "<start>")
    tokens.append("<end>")
    return tokens

# Fonction principale pour prétraiter les légendes
def preprocess_captions_file(file_path):
    preprocessed_captions = []
    with open(file_path, 'r') as file:
        for line in file:
            # Diviser la ligne en identifiant et texte
            id, text = line.strip().split("\t")
            # Appliquer le prétraitement au texte
            text = preprocess_text(text)
            # Lemmatisation et tokenisation
            tokens = lemmatize_and_tokenize(text)
            # Ajouter les jetons de début et de fin
            tokens = add_start_end_tokens(tokens)
            # Ajouter l'identifiant et les tokens prétraités à la liste de légendes prétraitées
            preprocessed_captions.append((id, tokens))
    return preprocessed_captions

In [12]:
# Utilisation des fonctions
preprocessed_captions = preprocess_captions_file(file_path)

# Affichage des légendes prétraitées
for id, tokens in preprocessed_captions:
    print(id, tokens)

1000268201_693b08cb0e.jpg#0 ['<start>', 'child', 'pink', 'dress', 'climb', 'set', 'stair', 'entry', 'way', '<end>']
1000268201_693b08cb0e.jpg#1 ['<start>', 'girl', 'go', 'wooden', 'building', '<end>']
1000268201_693b08cb0e.jpg#2 ['<start>', 'little', 'girl', 'climb', 'wooden', 'playhouse', '<end>']
1000268201_693b08cb0e.jpg#3 ['<start>', 'little', 'girl', 'climb', 'stair', 'playhouse', '<end>']
1000268201_693b08cb0e.jpg#4 ['<start>', 'little', 'girl', 'pink', 'dress', 'go', 'wooden', 'cabin', '<end>']
1001773457_577c3a7d70.jpg#0 ['<start>', 'black', 'dog', 'spot', 'dog', 'fight', '<end>']
1001773457_577c3a7d70.jpg#1 ['<start>', 'black', 'dog', 'tricolore', 'dog', 'play', 'road', '<end>']
1001773457_577c3a7d70.jpg#2 ['<start>', 'black', 'dog', 'white', 'dog', 'brown', 'spot', 'stare', 'street', '<end>']
1001773457_577c3a7d70.jpg#3 ['<start>', 'dog', 'different', 'breed', 'look', 'road', '<end>']
1001773457_577c3a7d70.jpg#4 ['<start>', 'dog', 'pavement', 'move', '<end>']
1002674143_1b742