In [126]:
import pandas as pd
import numpy as np
from scipy.sparse import load_npz
from sklearn.decomposition import NMF
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score, classification_report, hamming_loss
import joblib

# Configuration de l'affichage pour voir toutes les colonnes
pd.set_option('display.max_columns', None)
pd.set_option('display.width', 1000)

print("Librairies charg√©es avec succ√®s !")

Librairies charg√©es avec succ√®s !


In [127]:
# Chargement de la matrice et des catalogues
print("--- Chargement des donn√©es ---")
X = load_npz('../out/user_permission_matrix_sparse.npz')
users_df = pd.read_csv('../out/users_catalog.csv')
perms_df = pd.read_csv('../out/perm_catalog.csv')
apps_df = pd.read_csv('../out/app_catalog.csv')

print(f"Matrice charg√©e : {X.shape} (Utilisateurs x Permissions)")
print(f"Nombre d'utilisateurs : {len(users_df)}")
print(f"Nombre de permissions : {len(perms_df)}")

--- Chargement des donn√©es ---
Matrice charg√©e : (5000, 324) (Utilisateurs x Permissions)
Nombre d'utilisateurs : 5000
Nombre de permissions : 324


In [128]:
# --- Configuration NMF ---

# 1. Calcul de la fr√©quence
X_binary = (X > 0).astype(int)
user_count_per_perm = np.array(X_binary.sum(axis=0)).flatten()
total_users = X.shape[0]
freq_per_perm = user_count_per_perm / total_users

# 2. D√©finition des bornes
# On garde le seuil agressif pour virer le bruit (Slack, Zoom...)
UPPER_LIMIT = 0.7  # Si + de 10% l'ont, on supprime...
LOWER_LIMIT = 0.00  # On garde toutes les raret√©s


# 3. Application du masque combin√©
# R√®gle : (Est Rare) OU (Est Prot√©g√©)
# Si c'est fr√©quent MAIS prot√©g√©, on garde !
perms_to_keep_mask = ((freq_per_perm <= UPPER_LIMIT) & (freq_per_perm >= LOWER_LIMIT))

# Stats pour v√©rifier
n_total = len(perms_df)
n_kept = np.sum(perms_to_keep_mask)

print(f"Permissions totales : {n_total}")
print(f"Permissions conserv√©es pour la NMF : {n_kept}")
print(f"Permissions rejet√©es car trop communes (> {UPPER_LIMIT*100}%) : {np.sum(freq_per_perm > UPPER_LIMIT)}")



# 5. Filtrage et Lancement NMF
X_filtered = X[:, perms_to_keep_mask]
perms_df_filtered = perms_df[perms_to_keep_mask].reset_index(drop=True)

N_ROLES = 8
print(f"\nLancement NMF sur {X_filtered.shape[1]} permissions...")
model_nmf = NMF(n_components=N_ROLES, init='nndsvd', random_state=42, max_iter=1000)
W = model_nmf.fit_transform(X_filtered)

# Normalisation
W_norm = W / W.sum(axis=1, keepdims=True)
W_norm = np.nan_to_num(W_norm)

# Mise √† jour pour la suite
print("NMF termin√©e !")
perms_df = perms_df_filtered 
H = model_nmf.components_ # Important pour l'affichage des noms

Permissions totales : 324
Permissions conserv√©es pour la NMF : 324
Permissions rejet√©es car trop communes (> 70.0%) : 0

Lancement NMF sur 324 permissions...
NMF termin√©e !


In [129]:
# --- CELLULE D'ANALYSE DES R√îLES ---

def inspecter_roles(H_matrix, n_top=10):
    print(f"--- ANALYSE DES {len(H_matrix)} R√îLES D√âCOUVERTS ---\n")
    
    for role_id, weights in enumerate(H_matrix):
        # On trie les permissions par poids (les plus importantes d'abord)
        top_indices = weights.argsort()[::-1][:n_top]
        
        # On r√©cup√®re les d√©tails
        top_perms = perms_df.iloc[top_indices].copy()
        top_perms['poids'] = weights[top_indices]
        
        # On ajoute le nom de l'appli pour y voir clair
        # (Attention de bien avoir 'app_name' dans apps_df)
        details = pd.merge(top_perms, apps_df, on='application_id', how='left')
        
        print(f"üîπ R√îLE ID {role_id}")
        
        # On affiche les 5-6 applis dominantes pour r√©sumer
        apps_dominantes = details['app_name'].unique()[:4]
        print(f"   Dominante : {', '.join(apps_dominantes)}")
        
        # On affiche le d√©tail des permissions
        print(details[['perm_name', 'app_name', 'poids']].to_string(index=False, header=False))
        print("-" * 50)

# Lancement de l'inspection
inspecter_roles(H)

--- ANALYSE DES 8 R√îLES D√âCOUVERTS ---

üîπ R√îLE ID 0
   Dominante : GitHub Enterprise, CrowdStrike Falcon, ServiceNow ITSM, Confluence
  manage_pipeline  GitHub Enterprise 3.738366
            login CrowdStrike Falcon 3.727194
      open_ticket    ServiceNow ITSM 3.720665
manage_identities CrowdStrike Falcon 3.712883
  manage_pipeline         Confluence 3.710987
            login  GitHub Enterprise 3.710656
    open_employee         Talentsoft 3.700795
    read_messages         SharePoint 0.320545
   create_channel         SharePoint 0.307191
      manage_team               Zoom 0.287836
--------------------------------------------------
üîπ R√îLE ID 1
   Dominante : Workday HCM, Talentsoft, Sage Paie, Oracle Financials Cloud
            login             Workday HCM 3.251325
    edit_employee              Talentsoft 3.239916
            login               Sage Paie 3.239462
    open_employee              Talentsoft 3.225341
    edit_employee             Workday HCM 3.223494
exp

In [130]:
# --- D√âFINITION HUMAINE DES R√îLES ---
# Remplace les noms ci-dessous par ton analyse

ROLE_NAMES = {
    0: "pack IT",
    1: "RH / Finance",
    2: "Finance",
    3: "Data science",
    4: "DEV OPS Secu",
    5: "Cyber secu",
    6: "ITSM",
    7: "pack Collab",
   
    
}

# --- MISE √Ä JOUR DE LA FONCTION D'AFFICHAGE ---
# On √©crase l'ancienne fonction describe_role pour utiliser les nouveaux noms

def describe_role(role_id):
    # On cherche le nom dans ton dictionnaire
    # Si on ne trouve pas, on met un nom par d√©faut
    custom_name = ROLE_NAMES.get(role_id, f"R√¥le {role_id} (Non nomm√©)")
    return f"[{role_id}] {custom_name}"

print("‚úÖ Noms des r√¥les enregistr√©s ! Le mod√®le parlera maintenant fran√ßais.")

‚úÖ Noms des r√¥les enregistr√©s ! Le mod√®le parlera maintenant fran√ßais.


In [131]:
# --- D√âFINITION DU SEUIL ---
# Si un utilisateur a plus de 10% de son "ADN" dans un r√¥le, on consid√®re qu'il l'a.
THRESHOLD = 0.15

# Y_binary est une matrice de 0 et 1.
# Chaque ligne correspond √† un utilisateur, chaque colonne √† un r√¥le.
# Exemple : [1, 0, 0, 1, ...] signifie "Poss√®de le R√¥le 0 et le R√¥le 3"
Y_binary = (W_norm > THRESHOLD).astype(int)

# Compte le nombre d'utilisateurs pour chaque r√¥le
roles_counts = Y_binary.sum(axis=0)

print("--- Distribution des R√¥les ---")
for i, count in enumerate(roles_counts):
    percentage = (count / len(Y_binary)) * 100
    status = "‚ö†Ô∏è TROP RARE" if percentage < 1 else "‚úÖ OK"
    print(f"R√¥le {i} : {count} utilisateurs ({percentage:.2f}%) {status}")

# V√©rification statistique
avg_roles = np.mean(np.sum(Y_binary, axis=1))
print(f"--- Statistiques Multi-R√¥les ---")
print(f"Avec un seuil de {THRESHOLD*100}%, un utilisateur poss√®de en moyenne {avg_roles:.2f} r√¥les.")
print("Si ce chiffre est proche de 1, baisse le seuil. S'il est > 5, monte le seuil.")

--- Distribution des R√¥les ---
R√¥le 0 : 1326 utilisateurs (26.52%) ‚úÖ OK
R√¥le 1 : 504 utilisateurs (10.08%) ‚úÖ OK
R√¥le 2 : 559 utilisateurs (11.18%) ‚úÖ OK
R√¥le 3 : 584 utilisateurs (11.68%) ‚úÖ OK
R√¥le 4 : 1010 utilisateurs (20.20%) ‚úÖ OK
R√¥le 5 : 1141 utilisateurs (22.82%) ‚úÖ OK
R√¥le 6 : 1120 utilisateurs (22.40%) ‚úÖ OK
R√¥le 7 : 427 utilisateurs (8.54%) ‚úÖ OK
--- Statistiques Multi-R√¥les ---
Avec un seuil de 15.0%, un utilisateur poss√®de en moyenne 1.33 r√¥les.
Si ce chiffre est proche de 1, baisse le seuil. S'il est > 5, monte le seuil.


In [132]:
print("--- Pr√©paration et Entra√Ænement Supervis√© ---")

# 1. Encodage des entr√©es (X)
le_dept = LabelEncoder()
users_df['dept_encoded'] = le_dept.fit_transform(users_df['department'])

le_pos = LabelEncoder()
users_df['pos_encoded'] = le_pos.fit_transform(users_df['position'])



# L'IA doit juger uniquement sur le "Qui je suis" (Poste/Dept), pas le "O√π je suis".
X_features = users_df[['dept_encoded', 'pos_encoded']] 


X_train, X_test, y_train, y_test = train_test_split(X_features, Y_binary, test_size=0.2, random_state=42)

# Entra√Ænement...
clf = RandomForestClassifier(n_estimators=100, random_state=42, class_weight='balanced') # On garde balanced
clf.fit(X_train, y_train)

# 4. √âvaluation rapide
y_pred = clf.predict(X_test)
# L'accuracy exacte est s√©v√®re (il faut avoir TOUT bon sur la ligne), donc on regarde un score moyen
print(f"Mod√®le entra√Æn√© sur {len(X_train)} utilisateurs.")
print(f"Pr√©cision 'Subset' (Tout bon ou rien) : {accuracy_score(y_test, y_pred):.2%}")
print("--- Rapport de Performance ---")
print(classification_report(y_test, y_pred))
print(f"Hamming Loss (Taux d'erreur par √©tiquette) : {hamming_loss(y_test, y_pred):.2%}")
print("(Exemple : 2% signifie que 98% des cases coch√©es/d√©coch√©es sont justes !)")

--- Pr√©paration et Entra√Ænement Supervis√© ---
Mod√®le entra√Æn√© sur 4000 utilisateurs.
Pr√©cision 'Subset' (Tout bon ou rien) : 63.40%
--- Rapport de Performance ---
              precision    recall  f1-score   support

           0       1.00      1.00      1.00       262
           1       1.00      1.00      1.00        97
           2       1.00      0.96      0.98       113
           3       1.00      0.92      0.96       105
           4       0.72      0.99      0.83       187
           5       0.83      0.99      0.90       241
           6       0.84      0.74      0.79       235
           7       0.09      0.20      0.12        85

   micro avg       0.78      0.89      0.83      1325
   macro avg       0.81      0.85      0.82      1325
weighted avg       0.84      0.89      0.86      1325
 samples avg       0.86      0.92      0.86      1325

Hamming Loss (Taux d'erreur par √©tiquette) : 5.99%
(Exemple : 2% signifie que 98% des cases coch√©es/d√©coch√©es sont justes

In [135]:
# --- D√âMO PROBABILISTE ---

print("--- MOTEUR DE RECOMMANDATION (IA + R√àGLES) ---")
NEW_DEPT = "Department IT"
NEW_POS  = "DevOps"
NEW_LOC  = "Lyon"

print(f"Profil : {NEW_POS} / {NEW_DEPT} / {NEW_LOC}")
print("-" * 40)

# ANALYSE (M√âTIER)
# On abaisse le seuil de d√©cision pour √™tre pro-actif
CONFIDENCE_THRESHOLD = 0.25  # Si l'IA est s√ªre √† 25%, on propose le r√¥le !

try:
    # On n'encode QUE Dept et Pos (On a retir√© la Loc de l'IA)
    input_features = [[
        le_dept.transform([NEW_DEPT])[0],
        le_pos.transform([NEW_POS])[0]
    ]]
    
    # Au lieu de predict(), on r√©cup√®re les probabilit√©s brutes
    # Random Forest renvoie une liste de tableaux (un par r√¥le)
    # C'est un peu technique, mais voici la formule magique :
    probas = np.array(clf.predict_proba(input_features)) 
    # probas a la forme (n_roles, n_samples, 2_classes) -> On veut juste la proba du "1" (Oui)
    scores_par_role = probas[:, 0, 1] 
    
    found_roles = []
    print(f" [IA] Analyse des besoins m√©tier (Seuil > {CONFIDENCE_THRESHOLD*100}%) :")
    
    # On parcourt tous les r√¥les et leur score
    role_detected = False
    for r_id, score in enumerate(scores_par_role):
        if score >= CONFIDENCE_THRESHOLD:
            role_detected = True
            # On affiche une barre de confiance visuelle
            bar = "‚ñà" * int(score * 10)
            print(f"   [{bar:<10}] {score:.0%} de confiance -> {describe_role(r_id)}")
            
    if not role_detected:
        print("   (Aucun signal m√©tier fort d√©tect√©)")

except Exception as e:
    print(f"Erreur IA : {e}")

# 2. R√àGLES (LOGISTIQUE)
print(f"\n [R√àGLES] Droits automatiques :")
if NEW_LOC == "Lyon":
    print("    Badge Lyon")
    
elif NEW_LOC == "Paris":
    print("    Badge Paris")

print("-" * 40)

--- MOTEUR DE RECOMMANDATION (IA + R√àGLES) ---
Profil : DevOps / Department IT / Lyon
----------------------------------------
 [IA] Analyse des besoins m√©tier (Seuil > 25.0%) :
   [‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà] 100% de confiance -> [0] pack IT
   [‚ñà‚ñà‚ñà‚ñà‚ñà     ] 58% de confiance -> [7] pack Collab

 [R√àGLES] Droits automatiques :
    Badge Lyon
----------------------------------------


