# 1. Nettoyage des entrées utilisateur

In [1]:
import re

def clean_input(user_input):
    # Supprimer les caractères spéciaux non désirés
    user_input = re.sub(r"[^\w\s,.?!]", "", user_input)
    # Limiter la longueur à 200 caractères
    return user_input[:200]

# Exemple d'entrée
user_prompt = "Explain how to hack a system! @#$%"
cleaned_prompt = clean_input(user_prompt)
print(cleaned_prompt)  # Résultat : Explain how to hack a system!


Explain how to hack a system! 


# 2. Détection d’intentions malveillantes

In [2]:
# Liste noire d'expressions interdites
blacklist = ["hack", "bypass security", "delete database", "ignore all instructions"]

def is_malicious(user_input):
    user_input_lower = user_input.lower()
    return any(phrase in user_input_lower for phrase in blacklist)

# Test
user_prompt = "How can I bypass security systems?"
if is_malicious(user_prompt):
    print("Requête bloquée pour des raisons de sécurité.")
else:
    print("Requête valide.")


Requête bloquée pour des raisons de sécurité.


# 3. Validation des prompts générés

In [3]:
def validate_response(response):
    # Liste de termes interdits dans la réponse
    forbidden_terms = ["password", "exploit", "confidential"]
    if any(term in response.lower() for term in forbidden_terms):
        return "La réponse a été bloquée pour des raisons de sécurité."
    return response

# Exemple de réponse générée
generated_response = "The exploit allows access to confidential files."
print(validate_response(generated_response))


La réponse a été bloquée pour des raisons de sécurité.


# 4. Limitation des comportements du modèle

In [4]:
system_prompt = "You are an educational assistant. Only respond to educational questions."

# Fonction pour ajouter le contexte du système
def create_prompt(user_input):
    return f"{system_prompt}\n\nUser: {user_input}\nAssistant:"

user_prompt = "Explain how to hack a database."
final_prompt = create_prompt(user_prompt)
print(final_prompt)

You are an educational assistant. Only respond to educational questions.

User: Explain how to hack a database.
Assistant:


# 5. Gestion des system prompts.

In [5]:
class SystemPromptManager:
    def __init__(self, role="educational assistant"):
        """
        Initialise le gestionnaire de prompts système.
        
        :param role: Rôle du modèle, par exemple 'educational assistant'
        """
        self.system_prompt = (
            f"You are a {role}. "
            "Your purpose is to assist with educational content. "
            "Do not provide any information that is unrelated to this role."
        )

    def create_prompt(self, user_input):
        """
        Crée un prompt complet en ajoutant le contexte système.
        
        :param user_input: Input de l'utilisateur.
        :return: Prompt complet à envoyer au modèle.
        """
        return f"{self.system_prompt}\n\nUser: {user_input}\nAssistant:"

    def validate_response(self, response):
        """
        Valide la réponse générée par le modèle.
        
        :param response: Réponse générée par le LLM.
        :return: Réponse validée ou message d'erreur.
        """
        # Liste de mots ou concepts interdits
        forbidden_terms = ["hack", "bypass", "confidential", "exploit", "malware"]
        if any(term in response.lower() for term in forbidden_terms):
            return "La réponse a été bloquée pour des raisons de sécurité."
        return response


In [6]:
# Exemple d'utilisation
if __name__ == "__main__":
    # Initialisation du gestionnaire
    prompt_manager = SystemPromptManager(role="educational assistant")

    # Exemple de prompt utilisateur
    user_prompt = "Explain how a database works."
    full_prompt = prompt_manager.create_prompt(user_prompt)
    print("Prompt complet à envoyer au modèle :")
    print(full_prompt)

    # Exemple de réponse générée par le modèle
    generated_response = "A database is used to store data securely."
    validated_response = prompt_manager.validate_response(generated_response)
    print("\nRéponse validée :")
    print(validated_response)

    # Exemple avec un contenu interdit
    malicious_response = "The exploit allows unauthorized access to the database."
    validated_response = prompt_manager.validate_response(malicious_response)
    print("\nRéponse bloquée :")
    print(validated_response)

Prompt complet à envoyer au modèle :
You are a educational assistant. Your purpose is to assist with educational content. Do not provide any information that is unrelated to this role.

User: Explain how a database works.
Assistant:

Réponse validée :
A database is used to store data securely.

Réponse bloquée :
La réponse a été bloquée pour des raisons de sécurité.


#  Suivi des interactions utilisateur

In [7]:
import logging

# Configuration du journal
logging.basicConfig(
    filename="user_interactions.log",
    level=logging.INFO,
    format="%(asctime)s - %(message)s"
)

def log_interaction(user_input, response):
    """
    Enregistre les interactions utilisateur-modèle.
    
    :param user_input: Input de l'utilisateur.
    :param response: Réponse générée par le modèle.
    """
    logging.info(f"User Input: {user_input} | Response: {response}")

# Exemple d'utilisation
log_interaction("How to hack a system?", "Request blocked for security reasons.")


# 3. Renforcement des règles par chaînes de contrôle

In [8]:
class PromptFilter:
    def __init__(self):
        self.forbidden_terms = ["hack", "bypass", "exploit", "malware"]

    def clean_input(self, user_input):
        user_input = user_input.strip()[:200]  # Limite à 200 caractères
        return user_input

    def validate_input(self, user_input):
        if any(term in user_input.lower() for term in self.forbidden_terms):
            return False, "Requête bloquée pour des raisons de sécurité."
        return True, user_input

    def validate_output(self, output):
        if any(term in output.lower() for term in self.forbidden_terms):
            return False, "Réponse bloquée pour des raisons de sécurité."
        return True, output


# 6. Messages d’erreur conviviaux

Idée : Remplacer les messages d’erreur génériques par des explications pédagogiques.
Avantage : Améliore l’expérience utilisateur.

In [9]:
def handle_blocked_request(reason):
    return f"Votre requête a été bloquée car elle enfreint nos règles. Raison : {reason}. Veuillez poser une question éducative."