# Introduction au Traitement du Langage Naturel (NLP)
# Applications en Cybersécurité

## 1. Objectifs du cours
Ce notebook vous permettra de :
- Comprendre les concepts fondamentaux du NLP
- Découvrir les principales applications en cybersécurité
- Prendre en main les outils de base (NLTK, spaCy)
- Réaliser vos premières analyses de texte

## 2. Installation et configuration

In [None]:
# Installation des packages nécessaires (à faire une seule fois)
#!pip install nltk scikit-learn

In [None]:
import nltk
# Téléchargement des ressources NLTK nécessaires
nltk.download('punkt')
nltk.download('stopwords')

In [None]:
# Importation des bibliothèques
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import stopwords
import pandas as pd
import numpy as np
from collections import Counter



## 3. Concepts fondamentaux du NLP

### 3.1 Qu'est-ce que le NLP ?

Le NLP (Natural Language Processing) est un domaine de l'intelligence artificielle qui permet aux ordinateurs de comprendre, interpréter et manipuler le langage humain.

### 3.2 Premier exemple pratique

In [None]:
# Exemple simple d'analyse de texte
texte = """
Un utilisateur signale avoir reçu un mail suspect demandant ses identifiants bancaires.
Le message prétend provenir de la banque BNP et mentionne une urgence.
"""

In [None]:
# Division en phrases
phrases = sent_tokenize(texte, language='french')
print("Phrases détectées :")
for phrase in phrases:
    print(f"- {phrase.strip()}")

In [None]:
# Division en mots (tokens)
mots = word_tokenize(texte, language='french')
print("\nMots détectés :")
print(mots)

In [None]:
# Analyse de fréquence des mots
frequence = Counter(mots)
print("\nFréquence des mots :")
for mot, freq in frequence.most_common(5):
    print(f"{mot:15} - {freq} occurrences")

## 4. Applications en Cybersécurité

### 4.1 Exemples d'utilisation du NLP en sécurité


In [None]:
def analyser_message_suspect(message):
    """
    Fonction simple pour détecter des indicateurs de base de phishing
    """
    # Conversion en minuscules et tokenization
    mots = word_tokenize(message.lower(), language='french')
    
    # Indicateurs de suspicion
    mots_suspects = ['urgent', 'bancaire', 'identifiant', 'password', 'compte', 'urgence']
    score_suspicion = sum(1 for mot in mots if mot in mots_suspects)
    
    return score_suspicion

In [None]:
# Exemple d'utilisation
messages = [
    "Votre compte a été suspendu. Urgent : confirmez vos identifiants bancaires.",
    "La réunion de projet est reportée à lundi prochain.",
    "URGENT : Problème de sécurité détecté. Changez votre password immédiatement."
]

In [None]:
for msg in messages:
    score = analyser_message_suspect(msg)
    print(f"\nMessage : {msg}")
    print(f"Score de suspicion : {score}")

## 5. Exercices pratiques



### Exercice 1 : Analyse basique d'un log de sécurité
À vous de jouer !
 1. Utilisez word_tokenize pour découper le log en mots
 2. Extrayez les informations importantes (dates, IP, types d'événements)
 3. Créez une fonction pour classifier la gravité des événements

In [None]:
# Log d'exemple
log_securite = """
2024-01-31 10:15:23 - Tentative de connexion échouée depuis IP 192.168.1.100
2024-01-31 10:15:45 - Accès refusé : identifiants incorrects
2024-01-31 10:16:00 - Alerte : multiple tentatives de connexion détectées
"""

In [None]:
print(log_securite)

In [None]:
def analyser_log(log_text):
    # Division en lignes
    lignes = log_text.strip().split('\n')
    
    for ligne in lignes:
        if ligne:  # Ignore les lignes vides
            # Division en mots
            mots = word_tokenize(ligne, language='french')
            print(f"Analyse de la ligne : {mots}")
            
            ...
            pass

In [None]:
# Test de la fonction
print("Exemple d'analyse de log :")
analyser_log(log_securite)

### Exercice 2 : Détection de mots-clés sensibles
CONSIGNE : 
Créez une fonction qui analyse un message pour détecter s'il s'agit potentiellement d'une tentative 
de phishing. La fonction doit :
1. Retourner un score de risque entre 0 et 100
2. Justifier son évaluation en listant les éléments suspects trouvés
3. Utiliser au moins deux critères différents (ex: mots sensibles ET caractère d'urgence)

Complétez la fonction ci-dessous en utilisant les outils NLTK vus précédemment.

In [None]:
# Messages pour tester votre fonction
messages_test = [
   "Pour des raisons de sécurité, veuillez confirmer votre mot de passe",
   "Le service informatique vous demande de mettre à jour vos accès",
   "URGENT: Votre compte sera bloqué si vous ne confirmez pas vos identifiants",
   "La réunion de sécurité est reportée à lundi",
]

# Liste de mots et expressions à utiliser dans votre analyse
mots_cles_securite = {
   'critiques': ['mot de passe', 'password', 'identifiants', 'login'],
   'urgence': ['urgent', 'immédiatement', 'blocage', '24h'],
}

In [None]:
### Exercice 2 : Création d'un détecteur de phishing basique

def analyser_phishing(message):
   """
   Paramètre :
       message (str) : Le message à analyser
   
   Retourne :
       score (int) : Score de risque entre 0 et 100
       indices (list) : Liste des éléments suspects trouvés
   """
   # À COMPLÉTER
   score = 0
   indices = []
   
   # 1. Tokenisation du message
   mots = word_tokenize(message.lower(), language='french')
   
   # 2. Votre analyse ici
   # Utilisez mots_cles_securite et ajoutez vos propres critères
   
   
   # 3. Calculez le score final
   
   
   return score, indices



In [None]:
# Tests de validation
for message in messages_test:
   score, indices = analyser_phishing(message)
   print(f"\nMessage : {message}")
   print(f"Score de risque : {score}/100")
   if indices:
       print("Éléments suspects trouvés :")
       for indice in indices:
           print(f"- {indice}")
   else:
       print("Aucun élément suspect trouvé")

## 6. Pour aller plus loin

- Exploration des autres fonctionnalités de NLTK
- Utilisation de scikit-learn pour la classification de textes
- Analyse de patterns avec des expressions régulières
- Création de visualisations avec matplotlib/seaborn