In [8]:
import pickle
import joblib
from sklearn.feature_extraction.text import TfidfVectorizer  # if used in preprocessing
import requests
from deep_translator import GoogleTranslator
from sentence_transformers import CrossEncoder
import csv

def traduire_fichier_csv(fichier_source, fichier_traduit, langue_source='fr', langue_cible='en'):
    """
    Fonction pour traduire le contenu d'un fichier CSV de la langue source à la langue cible.
    """
    with open(fichier_source, 'r', encoding='utf-8') as fichier_lecture, open(fichier_traduit, 'w', encoding='utf-8', newline='') as fichier_ecriture:
        lecteur_csv = csv.reader(fichier_lecture)
        ecrivain_csv = csv.writer(fichier_ecriture)
        
        for ligne in lecteur_csv:
            ligne_traduite = [GoogleTranslator(source=langue_source, target=langue_cible).translate(cell) for cell in ligne]
            ecrivain_csv.writerow(ligne_traduite)

# Charger le modèle de classification
model = joblib.load('model/pipeline_logistic_regression.pkl')

# Définir la clé API pour le fact-checking
API_KEY = "AIzaSyB1lz0eog42IEf7oTVfPIt6SSKvC4LC31w"
url_factcheck = "https://factchecktools.googleapis.com/v1alpha1/claims:search"

def pipeline_text_processing(text_input, seuil=0.7, langue_source='fr', langue_cible='en'):
    """
    Pipeline de traitement de texte pour la classification et recherche par similarité ou vérification de fact-check.
    """
    # Traduction des passages
    
    fichier_source = 'data_lemondefr/lemonde_articles.csv'
    fichier_csv_traduit = 'traduction_sortie.csv'
    traduire_fichier_csv(fichier_source, fichier_traduit)

    
    
    # Encapsuler l'input en liste et classer avec le modèle de classification
    text_input_list = [text_input]
    predicted_class = model.predict(text_input_list)[0]
    print(predicted_class)
    
    # Si l'input est classifié comme politique
    if predicted_class == "politique":
        print("Texte classifié comme 'politique'. Recherche de phrases similaires.")
        
        # Traduire l'input
        input_traduit = GoogleTranslator(source=langue_source, target=langue_cible).translate(text_input)
        
        # Initialiser le modèle Cross-Encoder pour la similarité
        cross_encoder = CrossEncoder('cross-encoder/ms-marco-MiniLM-L-12-v2')
        
        # Recherche de similarité par compréhension sémantique
        lignes_similaires = []
        with open(fichier_csv_traduit, 'r', encoding='utf-8') as fichier_lecture:
            lecteur_csv = csv.reader(fichier_lecture)
            for ligne in lecteur_csv:
                texte_ligne = " ".join(ligne)
                similarite = cross_encoder.predict([(input_traduit, texte_ligne)])[0]
                if similarite >= seuil:
                    lignes_similaires.append((texte_ligne, similarite))
        
        # Trier et garder uniquement la phrase la plus similaire
        lignes_similaires = sorted(lignes_similaires, key=lambda x: x[1], reverse=True)
        if lignes_similaires:
            # Afficher uniquement la phrase la plus similaire
            phrase, score = lignes_similaires[0]
            phrase_traduite = GoogleTranslator(source=langue_cible, target=langue_source).translate(phrase)
            print("Phrase similaire trouvée et traduite :")
            print(f"- {phrase_traduite} (Similarité: {score:.2f})")
        else:
            print("Aucune phrase similaire n'a été trouvée dans le fichier.")
    
    # Si l'input n'est pas classifié comme politique
    else:
        print("Texte non classifié comme 'politique'. Vérification des informations.")
        
        # Paramètres pour l'API de fact-checking
        params = {
            'key': API_KEY,
            'query': text_input,
            'languageCode': langue_source
        }
        
        # Requête GET vers l'API Google FactCheck
        response = requests.get(url_factcheck, params=params)
        if response.status_code == 200:
            data = response.json()
            if "claims" in data and len(data["claims"]) > 0:
                print(f"Résultats de fact-check pour : '{text_input}'")
                for claim in data["claims"]:
                    text = claim.get("text", "Aucun texte trouvé")
                    claimant = claim.get("claimant", "Source inconnue")
                    review = claim.get("claimReview", [{}])[0]
                    rating = review.get("textualRating", "Pas d'évaluation")
                    review_url = review.get("url", "URL non disponible")
                    print(f"\nTexte : {text}")
                    print(f"Source : {claimant}")
                    print(f"Évaluation : {rating}")
                    print(f"URL de l'évaluation : {review_url}")
                    print("\n" + "-"*50 + "\n")
            else:
                print(f"Aucun résultat de fact-check trouvé pour '{text_input}'.")
        else:
            print("Erreur lors de la requête de fact-check:", response.status_code)

# Exemple d'utilisation
text_input = """l'homme a t'il met les pieds sur la lune"""
pipeline_text_processing(text_input)


politique
Texte classifié comme 'politique'. Recherche de phrases similaires.
Aucune phrase similaire n'a été trouvée dans le fichier.
