In [None]:
import sys
import nltk
from nltk.corpus import wordnet
from french_lefff_lemmatizer.french_lefff_lemmatizer import FrenchLefffLemmatizer

# Télécharge les ressources nécessaires de NLTK
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')

# Initialisation du lemmatiseur pour le français
lemmatizer = FrenchLefffLemmatizer()

def nltk2wordnet(nltk_tag):
    # Convertit les étiquettes POS de NLTK en étiquettes WordNet
    if nltk_tag.startswith('J'):
        return wordnet.ADJ
    elif nltk_tag.startswith('V'):
        return wordnet.VERB
    elif nltk_tag.startswith('N'):
        return wordnet.NOUN
    elif nltk_tag.startswith('R'):
        return wordnet.ADV
    else:
        return None

def lemmatize_french_file(input_file_path):
    # Modifie le chemin du fichier de sortie pour inclure '_lemme' dans le nom
    output_file_path = input_file_path.replace('tok.true.clean.fr', '_lemme.fr')

    with open(input_file_path, 'r', encoding='utf-8') as infile, \
         open(output_file_path, 'w', encoding='utf-8') as outfile:
        for line in infile:
            # Tokenisation de la ligne en français
            tokens = nltk.word_tokenize(line, language='french')
            # Étiquetage grammatical en utilisant les étiquettes de NLTK (non optimales pour le français)
            nltk_tags = nltk.pos_tag(tokens)
            # Conversion des étiquettes NLTK en étiquettes WordNet
            wordnet_tags = [(token[0], nltk2wordnet(token[1])) for token in nltk_tags]
            # Lemmatisation en utilisant les étiquettes WordNet adaptées, si disponible
            lemmatized_tokens = [lemmatizer.lemmatize(token[0], pos=token[1]) if token[1] else token[0] for token in wordnet_tags]
            # Écriture de la ligne lemmatisée
            lemmatized_line = ' '.join(lemmatized_tokens) + '\n'
            outfile.write(lemmatized_line)

# Traitement du fichier d'entrée passé en argument de ligne de commande
if len(sys.argv) > 1:
    input_file_path = sys.argv[1]
    lemmatize_french_file(input_file_path)
else:
    # Message d'erreur si aucun chemin de fichier n'est fourni
    print("Veuillez fournir le chemin du fichier d'entrée en argument.")