# Apriori

## Importing the libraries

In [1]:
!pip install apyori

Collecting apyori
  Downloading apyori-1.1.2.tar.gz (8.6 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: apyori
  Building wheel for apyori (setup.py) ... [?25l[?25hdone
  Created wheel for apyori: filename=apyori-1.1.2-py3-none-any.whl size=5954 sha256=1cee243f204d461cb4158454b2358f832ae202cee16f7f541f0fb54d84f4ee8e
  Stored in directory: /root/.cache/pip/wheels/c4/1a/79/20f55c470a50bb3702a8cb7c94d8ada15573538c7f4baebe2d
Successfully built apyori
Installing collected packages: apyori
Successfully installed apyori-1.1.2


In [2]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

## Data Preprocessing

In [3]:
dataset = pd.read_csv('Market_Basket_Optimisation.csv',header = None)
transactions = []
for i in range(0,7501):
  transactions.append([str(dataset.values[i,j])for j in range(2,20)])

## Training the Apriori model on the dataset

In [4]:
from apyori import apriori
rules = apriori(transactions = transactions, min_support = 0.003, min_confidence =0.2 , min_lift = 3 ,min_leghth = 2,max_length = 2  )

## Visualising the results

### Displaying the first results coming directly from the output of the apriori function

In [5]:
results = list(rules)

### Putting the results well organised into a Pandas DataFrame

In [7]:
def inspect(results):
    lhs         = [tuple(result[2][0][0])[0] for result in results]
    rhs         = [tuple(result[2][0][1])[0] for result in results]
    supports    = [result[1] for result in results]
    confidences = [result[2][0][2] for result in results]
    lifts       = [result[2][0][3] for result in results]
    return list(zip(lhs, rhs, supports, confidences, lifts))
resultsinDataFrame = pd.DataFrame(inspect(results), columns = ['Left Hand Side', 'Right Hand Side', 'Support', 'Confidence', 'Lift'])

### Displaying the results non sorted

In [8]:
resultsinDataFrame

Unnamed: 0,Left Hand Side,Right Hand Side,Support,Confidence,Lift
0,almonds,chocolate,0.003733,0.247788,3.022203
1,almonds,milk,0.003999,0.265487,3.421677
2,almonds,spaghetti,0.0036,0.238938,3.312892
3,avocado,milk,0.004933,0.286822,3.696649
4,avocado,mineral water,0.005066,0.294574,3.039335
5,avocado,spaghetti,0.004933,0.286822,3.976802
6,black tea,milk,0.0036,0.402985,5.193799
7,body spray,french fries,0.0032,0.333333,3.145073
8,cereals,milk,0.005333,0.266667,3.436884
9,light cream,chicken,0.0036,0.259615,5.847973


### Displaying the results sorted by descending lifts

In [10]:
resultsinDataFrame.nlargest(n = 10, columns = 'Lift')

Unnamed: 0,Left Hand Side,Right Hand Side,Support,Confidence,Lift
21,frozen vegetables,tomatoes,0.003466,0.240741,14.44637
17,frozen vegetables,ground beef,0.003866,0.268519,8.834024
50,parmesan cheese,spaghetti,0.003866,0.537037,7.446053
25,tomatoes,ground beef,0.003733,0.224,7.369404
51,pepper,spaghetti,0.005333,0.512821,7.11029
56,tomato sauce,spaghetti,0.0036,0.509434,7.063335
24,ground beef,spaghetti,0.014798,0.486842,6.750097
57,tomatoes,spaghetti,0.007866,0.472,6.544311
9,light cream,chicken,0.0036,0.259615,5.847973
20,frozen vegetables,spaghetti,0.005999,0.416667,5.77711


**Purpose of Apriori**

Apriori là một thuật toán được sử dụng phổ biến trong khai thác dữ liệu để tìm kiếm các tập mục thường xuyên (frequent itemsets) và khám phá các luật kết hợp (association rules) trong một tập dữ liệu giao dịch. Thuật toán này thường được ứng dụng trong các lĩnh vực như phân tích giỏ hàng, tối ưu hóa kinh doanh và tiếp thị.

Ứng dụng của thuật toán Apriori:
Phân tích giỏ hàng (Market Basket Analysis):

Xác định các sản phẩm thường được mua cùng nhau, giúp doanh nghiệp đưa ra các chương trình khuyến mãi hoặc sắp xếp sản phẩm hiệu quả hơn.
Ví dụ: Nếu khách hàng mua bánh mì, họ có khả năng cao sẽ mua bơ.
Phân tích hành vi khách hàng:

Phát hiện các mô hình hành vi lặp lại của khách hàng, giúp cải thiện trải nghiệm người dùng và thiết kế chiến lược tiếp thị.
Tối ưu hóa quản lý tồn kho:

Dựa vào các tập mục thường xuyên, doanh nghiệp có thể quyết định lưu trữ các sản phẩm nào trong kho.
Ứng dụng trong lĩnh vực y tế:

Phân tích mối quan hệ giữa các loại thuốc được kê đơn hoặc triệu chứng bệnh.
Phân tích gian lận:

Xác định các mẫu giao dịch gian lận trong dữ liệu giao dịch ngân hàng hoặc thương mại điện tử.
Cách hoạt động của Apriori:
Thuật toán hoạt động dựa trên tính chất: "Mọi tập con của một tập hợp thường xuyên cũng phải là thường xuyên."
Các bước cơ bản:
Xác định các tập mục thường xuyên: Tìm các tập hợp mục (items) xuất hiện cùng nhau trong dữ liệu dựa trên một ngưỡng hỗ trợ (support).
Sinh tập mục lớn hơn: Từ các tập mục thường xuyên, sinh ra các tập mục lớn hơn (gộp các tập con).
Khám phá luật kết hợp: Tính toán các luật kết hợp dựa trên ngưỡng độ tin cậy (confidence).