In [75]:
from transformers import T5ForConditionalGeneration, T5Tokenizer
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM


## Summarization 

In [65]:
# Use a larger T5 model for potentially better translation quality
model_name = "t5-base"  
model1 = T5ForConditionalGeneration.from_pretrained(model_name)
tokenizer = T5Tokenizer.from_pretrained(model_name)

In [78]:
# Fonction de découpe du texte en segments
def split_text(text, max_length=512):
    tokens = tokenizer.encode(text, add_special_tokens=False)
    return [tokens[i:i + max_length] for i in range(0, len(tokens), max_length)]

# Fonction de résumé pour un texte long
def summarize_long_text(text):
    segments = split_text(text)
    summaries = []
    for segment in segments:
        segment_text = tokenizer.decode(segment, skip_special_tokens=True)
        summary = summarize_text(segment_text)  # Utilise la fonction de résumé sur chaque segment
        summaries.append(summary)
    return " ".join(summaries)  # Combine les résumés partiels

# Fonction de résumé pour un segment
def summarize_text(text):
    input_text = "summarize: " + text
    input_ids = tokenizer.encode(input_text, return_tensors="pt", max_length=512, truncation=True)
    
    try:
        # Génération du résumé
        summary_ids = model.generate(
            input_ids,
            num_beams=4,
            max_length=100,
            min_length=30,
            early_stopping=True,
            no_repeat_ngram_size=2
        )
        
        # Décodage et affichage du résumé
        summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
        return summary
    
    except IndexError:
        print("Erreur : un segment de texte a dépassé la longueur maximale de tokens supportée par le modèle.")
        return "Résumé indisponible pour ce segment."



In [69]:
# Example text to summarize
text_to_summarize = "L'intelligence artificielle (IA) est un domaine en plein essor qui a des applications variées, allant de la médecine à l'industrie, en passant par l'éducation et les transports. Les systèmes d'IA sont capables d'apprendre, de raisonner et de prendre des décisions en analysant de grandes quantités de données. Ces technologies reposent sur des algorithmes sophistiqués et des modèles mathématiques qui permettent d'optimiser des processus et de résoudre des problèmes complexes. Par exemple, en médecine, l'IA est utilisée pour analyser des images médicales, prédire des maladies et personnaliser les traitements en fonction des caractéristiques spécifiques de chaque patient. De plus, l'IA joue un rôle clé dans le développement des voitures autonomes, où elle permet aux véhicules de naviguer de manière sûre sans intervention humaine, en utilisant des capteurs et des données en temps réel. Cependant, malgré ses nombreux avantages, l'IA soulève également des préoccupations éthiques et sociales, notamment en ce qui concerne la confidentialité des données, la discrimination algorithmique et l'impact sur l'emploi. Il est donc essentiel de développer des cadres réglementaires et éthiques pour guider le développement de l'IA et garantir qu'elle soit utilisée de manière responsable et bénéfique pour la société."
summary = summarize_text(text_to_summarize)
print("Summary:", summary)

Summary: l'intelligence artificielle (IA) est un domaine en plein essor qui a des applications variées . malgré ses nombreux avantages, it soulève également des préoccupations éthiques et sociales, notamment dans ce qui concerne la confidentialité des données, la discrimination algorithmique y'impact sur la société.


## Translation

In [87]:
from huggingface_hub import login

# Replace with your token
token = "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"
login(token)


The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: fineGrained).
Your token has been saved to C:\Users\Nihel ZAIED\.cache\huggingface\token
Login successful


In [None]:
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

In [88]:
from transformers import MarianMTModel, MarianTokenizer


In [94]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

# Charger le modèle et le tokenizer pour la traduction de l'anglais vers le français
model_name = "Helsinki-NLP/opus-mt-en-fr"  # Nom corrigé du modèle
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)


In [90]:
def get_model_name(source_lang, target_lang):
    return f"Helsinki-NLP/opus-mt-{source_lang}-{target_lang}"


# Translation Function (from any source language to any target language)
def translate_text(text, source_lang, target_lang):
    # Get the model name dynamically based on the source and target language
    model_name = get_model_name(source_lang, target_lang)
    
    # Load the MarianMT model and tokenizer for the specific language pair
    model = MarianMTModel.from_pretrained(model_name)
    tokenizer = MarianTokenizer.from_pretrained(model_name)

    # Tokenize the input text
    input_ids = tokenizer.encode(text, return_tensors="pt", max_length=512, truncation=True, padding="max_length")
    input_token_count = len(input_ids[0])  # Count the number of tokens in the input
    
    # Generate translation
    translated_ids = model.generate(input_ids, 
                                    num_beams=4, 
                                    max_length=100,  # Adjust max_length for more detailed translations
                                    early_stopping=True,
                                    no_repeat_ngram_size=2)  # Prevent repetition
    
    # Decode the translation
    translation = tokenizer.decode(translated_ids[0], skip_special_tokens=True)
    
    # Count the number of tokens in the output (translation)
    output_token_count = len(tokenizer.encode(translation, add_special_tokens=False))
    
    return translation

# Example text to translate (from English to Spanish)
text_to_translate = "The transformer model processes text in parallel steps using deep learning techniques."
source_language = "en"  # English
target_language = "es"  # Spanish

# Perform translation
translation = translate_text(text_to_translate, source_language, target_language)

# Print the result
print("Translation:", translation)

Translation: El modelo de transformador procesa texto en pasos paralelos utilizando técnicas de aprendizaje profundo.


In [37]:
# Exemple de texte à traduire (du français vers l'arabe)
text_to_translate = "Le modèle de transformateur traite le texte en étapes parallèles en utilisant des techniques d'apprentissage profond."
source_language = "fr"  # Français
target_language = "ar"  # Arabe

# Effectuer la traduction
translation = translate_text(text_to_translate, source_language, target_language)

# Afficher le résultat
print("Translation:", translation)

Translation: ويقوم نموذج المحوِّل بتصنيف النص على مراحل متوازية باستخدام تقنيات التعلم العميق.


## Creation du Chatbot 

In [None]:


def chatbot():
    # Greet the user and ask what they want to do
    print("Hello! How can I assist you today?")
    print("You can either type 'summarize' or 'translate'.")
    
    while True:
        # Ask the user for their choice (summarize or translate)
        action = input("\nDo you want to 'summarize' or 'translate'? Type 'exit' to quit: ").strip().lower()

        if action == "exit":
            print("Goodbye! Have a great day!")
            break

        if action == "summarize":
            # Ask for the text to summarize
            text_to_summarize = input("Please provide the text you want to summarize: ")
            print(summarize_text(text_to_summarize))  # Summarize and display

        elif action == "translate":
            # Ask for the source and target language
            lang_input = input("Please specify the source and target language (e.g., 'en to es'): ").strip()
            
            # Parse the languages and text
            try:
                source_lang, target_lang = lang_input.split(" to ")
                text_to_translate = input(f"Please provide the text you want to translate from {source_lang} to {target_lang}: ")
                print(translate_text(text_to_translate, source_lang, target_lang))  # Translate and display
            except ValueError:
                print("Error: Please use the format 'en to es' for languages.")

        else:
            print("Invalid choice. Please type 'summarize' or 'translate'.")

# Start the chatbot
chatbot()
