In [1]:
import pandas as pd
import numpy as np
import random
from sklearn.decomposition import NMF
from sklearn.neural_network import MLPClassifier # C'est notre composant Deep Learning
from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score

# Fixer l'al√©atoire pour la reproductibilit√©
random.seed(42)
np.random.seed(42)

print("Librairies import√©es avec succ√®s.")

Librairies import√©es avec succ√®s.


In [3]:
# ---  CHARGEMENT DES DONN√âES EXISTANTES ---

# Chargement des fichiers CSV que vous avez g√©n√©r√©s
# Assurez-vous que les fichiers sont dans le m√™me dossier que votre notebook
users_df = pd.read_csv('../iam_dataset/users.csv')
rights_df = pd.read_csv('../iam_dataset/rights.csv')

# Optionnel : Charger les d√©finitions pour avoir les noms lisibles (pas strictement n√©cessaire pour le mod√®le, mais utile pour l'analyse)
applications_df = pd.read_csv('../iam_dataset/applications.csv')
permissions_df = pd.read_csv('../iam_dataset/permissions.csv')

print("--- Rapport de chargement ---")
print(f"Utilisateurs charg√©s : {len(users_df)}")
print(f"Droits actifs charg√©s : {len(rights_df)}")

# Affichage d'un aper√ßu pour v√©rification
print("\nAper√ßu des utilisateurs :")
display(users_df.head(3))
print("\nAper√ßu des droits :")
display(rights_df.head(3))

--- Rapport de chargement ---
Utilisateurs charg√©s : 5000
Droits actifs charg√©s : 41329

Aper√ßu des utilisateurs :


Unnamed: 0,user_id,first_name,last_name,position,department,location,contract_type,seniority
0,1,Martin,Rodriguez,Payroll Specialist,Department HR,Rouen,Apprentissage,Junior
1,2,Emmanuel,Gr√©goire,Security Guard,Department Facilities,Nantes,Apprentissage,Junior
2,3,Matthieu,Roy,IT Support,Department IT,Nantes,Apprentissage,Junior



Aper√ßu des droits :


Unnamed: 0,user_id,application_id,permission_id
0,1,18,151
1,1,18,148
2,1,21,176


In [None]:
# --- PR√âPARATION DE LA MATRICE D'INTERACTION ---

# On cr√©e la matrice pivot √† partir des donn√©es r√©elles
# Lignes = user_id, Colonnes = permission_id
user_perm_matrix = rights_df.pivot_table(
    index='user_id', 
    columns='permission_id', 
    aggfunc='size', # Compte le nombre d'occurrences (devrait √™tre 1 ou 0)
    fill_value=0    # Met 0 si le droit n'existe pas
)

# Alignement des donn√©es
# Il est possible que certains utilisateurs dans 'users.csv' n'aient AUCUN droit dans 'rights.csv'.
# Le pivot table les ignorerait, ce qui d√©calerait tout.
# On force donc la matrice √† avoir exactement les m√™mes lignes que le fichier users.csv.
user_perm_matrix = user_perm_matrix.reindex(users_df['user_id'], fill_value=0)

# V√©rification de la coh√©rence
if user_perm_matrix.shape[0] != len(users_df):
    print("‚ö†Ô∏è ALERTE : Le nombre de lignes de la matrice diff√®re du nombre d'utilisateurs !")
else:
    print(f"‚úÖ Succ√®s : La matrice est align√©e avec les utilisateurs.")
    print(f"Dimensions finales : {user_perm_matrix.shape} (Utilisateurs x Permissions uniques)")

‚úÖ Succ√®s : La matrice est align√©e avec les utilisateurs.
Dimensions finales : (5000, 251) (Utilisateurs x Permissions uniques)


In [None]:
# --- APPRENTISSAGE DES R√îLES (NMF) ---

# (Clusters)
n_roles = 5
nmf = NMF(n_components=n_roles, init='random', random_state=42, max_iter=500)

# W repr√©sente l'appartenance des utilisateurs aux r√¥les
W = nmf.fit_transform(user_perm_matrix)

# On attribue √† chaque utilisateur son "R√¥le Dominant" (celui avec le score le plus √©lev√©)
# Ce 'role_label' devient la CIBLE (Target) que notre Deep Learning devra pr√©dire plus tard
users_df['role_label'] = np.argmax(W, axis=1)

print("Distribution des r√¥les trouv√©s :")
print(users_df['role_label'].value_counts().sort_index())

Distribution des r√¥les trouv√©s :
role_label
0    1325
1     547
2    1048
3    1324
4     756
Name: count, dtype: int64


In [None]:
# --- ENCODAGE DES FEATURES ---

# 1. S√©lection des colonnes utiles pour la pr√©diction
# (V√©rifi√© gr√¢ce √† l'inspection de votre fichier)
features_cols = ['position', 'department', 'location', 'contract_type', 'seniority']
X_raw = users_df[features_cols]
y = users_df['role_label']

# 2. Encodage (One-Hot Encoding)
# On g√®re l'erreur potentielle de version de scikit-learn
try:
    encoder = OneHotEncoder(handle_unknown='ignore', sparse_output=False)
except TypeError:
    encoder = OneHotEncoder(handle_unknown='ignore', sparse=False)

X_encoded = encoder.fit_transform(X_raw)

# 3. Split Train/Test
X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, test_size=0.2, random_state=42)

print(f"Donn√©es encod√©es. Chaque utilisateur est repr√©sent√© par {X_encoded.shape[1]} variables.")

Donn√©es encod√©es. Chaque utilisateur est repr√©sent√© par 56 variables.


In [None]:
# --- ENTRA√éNEMENT DU R√âSEAU DE NEURONES ---

# D√©finition du mod√®le (MLP)
dl_model = MLPClassifier(hidden_layer_sizes=(64, 32),
                         activation='relu',
                         solver='adam',
                         max_iter=500,
                         random_state=42)

# Entra√Ænement
dl_model.fit(X_train, y_train)

# Validation
acc = dl_model.score(X_test, y_test)
print(f"Pr√©cision du mod√®le : {acc:.2%}")

Pr√©cision du mod√®le : 100.00%


In [8]:
# --- PR√âDICTION POUR UN NOUVEL ARRIVANT ---

# D√©finissez ici le profil du nouvel arrivant
new_profil = pd.DataFrame([{
    'position': 'DevOps',         # Doit exister dans vos donn√©es d'origine
    'department': 'Department IT',# Attention √† la casse exacte
    'location': 'Nantes',
    'contract_type': 'CDI',
    'seniority': 'Senior'
}])

# Encodage & Pr√©diction
new_vector = encoder.transform(new_profil)
pred_role = dl_model.predict(new_vector)[0]
pred_proba = dl_model.predict_proba(new_vector)[0]

confidence = pred_proba[pred_role]

print(f"--- R√âSULTAT ---")
print(f"Pour un {new_profil.iloc[0]['position']} √† {new_profil.iloc[0]['location']} :")
print(f"R√¥le Sugg√©r√© : {pred_role}")
print(f"Confiance IA : {confidence:.2%}")

if confidence > 0.8:
    print("‚úÖ Confiance √©lev√©e -> Attribution automatique possible.")
else:
    print("‚ö†Ô∏è Confiance faible -> Demander validation humaine (RLHF).")

--- R√âSULTAT ---
Pour un DevOps √† Nantes :
R√¥le Sugg√©r√© : 0
Confiance IA : 99.97%
‚úÖ Confiance √©lev√©e -> Attribution automatique possible.


In [None]:
# --- CELLULE 8 : INTERFACE DE FEEDBACK (SIMULATION) ---

# Imaginons que le mod√®le a pr√©dit le R√¥le 2 (dans la Cellule 7),
# mais qu'en tant qu'expert m√©tier, vous savez que pour un "DevOps" √† "Nantes",
# le bon r√¥le est en fait le R√¥le 4 (car il a besoin d'acc√®s serveurs sp√©cifiques).

# 1. R√©cup√©ration des donn√©es du nouvel utilisateur (celui de la cellule 7)
# On reprend 'new_vector' (les features) et on d√©finit la correction.
corrected_role_label = 4  # L'humain corrige l'IA

# 2. Cr√©ation du mini-dataset de correction
X_feedback = new_vector
y_feedback = np.array([corrected_role_label])

print(f"üõë Feedback Humain re√ßu :")
print(f"Le mod√®le proposait : {pred_role}")
print(f"L'expert corrige par : {corrected_role_label}")
print("Pr√©paration de la mise √† jour du mod√®le...")

In [None]:
# --- CELLULE 9 : APPRENTISSAGE DU FEEDBACK (PARTIAL FIT) ---

# Utilisation de partial_fit pour ajuster le mod√®le existant
# Cela modifie l√©g√®rement les connexions neuronales pour int√©grer cette nouvelle r√®gle
# sans oublier compl√®tement ce qu'il a appris avant.

for i in range(5): # On le lui montre plusieurs fois (Epochs) pour bien "ancrer" l'info
    dl_model.partial_fit(X_feedback, y_feedback)

print("‚úÖ Mod√®le mis √† jour avec succ√®s (Fine-tuning termin√©).")

In [None]:
# --- CELLULE 10 : V√âRIFICATION POST-CORRECTION ---

# On refait une pr√©diction sur le m√™me profil
new_pred_role = dl_model.predict(new_vector)[0]
new_probs = dl_model.predict_proba(new_vector)[0]
new_confidence = new_probs[new_pred_role]

print(f"--- R√âSULTAT APR√àS APPRENTISSAGE ---")
print(f"Nouveau R√¥le Sugg√©r√© : {new_pred_role}")
print(f"Confiance IA : {new_confidence:.2%}")

if new_pred_role == corrected_role_label:
    print("SUCC√àS : Le mod√®le a appris la correction !")
else:
    print("√âCHEC : Le mod√®le r√©siste (il faut peut-√™tre plus de donn√©es ou d'epochs).")