<a href="https://colab.research.google.com/github/Paulin178/Machine-Learning/blob/DATASET-Tr%C3%A8s-Large/Apriori_algorithm.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori, association_rules
import warnings

# Ignorer les avertissements de dépréciation
warnings.filterwarnings("ignore", category=DeprecationWarning)

# Chargement des données (exemple de données)
data = pd.read_csv('clear_data.csv')

# Sélection des colonnes pertinentes
selected_columns = ['step', 'type', 'amount', 'nameOrig', 'oldbalanceOrg', 'newbalanceOrig',
                    'nameDest', 'oldbalanceDest', 'newbalanceDest', 'isFlaggedFraud', 'isFraud']
data = data[selected_columns]

# Suppression des lignes avec des valeurs manquantes
data.dropna(inplace=True)

# Encodage des variables catégorielles avec LabelEncoder
label_encoder = LabelEncoder()
categorical_columns = ['type', 'nameOrig', 'nameDest']
for col in categorical_columns:
    data[col] = label_encoder.fit_transform(data[col])

# Séparation des caractéristiques (X) et de la variable cible (y)
X = data.drop('isFraud', axis=1)
y = data['isFraud']

# Division des données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Mise à l'échelle des données
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Convertir les données en transactions pour Apriori
transactions = X_train.apply(lambda row: row.dropna().tolist(), axis=1).tolist()

# Application de l'algorithme Apriori
te = TransactionEncoder()
te_ary = te.fit(transactions).transform(transactions)
df = pd.DataFrame(te_ary, columns=te.columns_)
frequent_itemsets = apriori(df, min_support=0.2, use_colnames=True)

# Affichage des itemsets fréquents
print("Itemsets Fréquents :")
print(frequent_itemsets)

# Génération des règles d'association
rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.7)

# Affichage des règles d'association
print("\nRègles d'Association :")
print(rules)


Itemsets Fréquents :
    support      itemsets
0  1.000000         (0.0)
1  0.337262         (1.0)
2  0.454521         (3.0)
3  0.247850         (7.0)
4  0.487510       (300.0)
5  0.337262    (0.0, 1.0)
6  0.454521    (0.0, 3.0)
7  0.247850    (0.0, 7.0)
8  0.487510  (0.0, 300.0)

Règles d'Association :
  antecedents consequents  antecedent support  consequent support   support  \
0       (1.0)       (0.0)            0.337262                 1.0  0.337262   
1       (3.0)       (0.0)            0.454521                 1.0  0.454521   
2       (7.0)       (0.0)            0.247850                 1.0  0.247850   
3     (300.0)       (0.0)            0.487510                 1.0  0.487510   

   confidence  lift  leverage  conviction  zhangs_metric  
0         1.0   1.0       0.0         inf            0.0  
1         1.0   1.0       0.0         inf            0.0  
2         1.0   1.0       0.0         inf            0.0  
3         1.0   1.0       0.0         inf            0.0  
