In [10]:
!pip install mlxtend




In [13]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from mlxtend.preprocessing import TransactionEncoder
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)


In [14]:
cpu = pd.read_csv("cpu.csv")
gpu = pd.read_csv("gpu.csv")
ram = pd.read_csv("ram.csv")
mobo = pd.read_csv("motherboard.csv")
psu = pd.read_csv("psu.csv")
storage = pd.read_csv("storage.csv")


cell 1

In [16]:
cpu["component_type"] = "CPU"
gpu["component_type"] = "GPU"
ram["component_type"] = "RAM"
mobo["component_type"] = "Motherboard"
psu["component_type"] = "PSU"
storage["component_type"] = "Storage"


cell 2

In [None]:
print("CPU columns:", cpu.columns.tolist())
print("GPU columns:", gpu.columns.tolist())
print("RAM columns:", ram.columns.tolist())
print("Motherboard columns:", mobo.columns.tolist())
print("PSU columns:", psu.columns.tolist())
print("Storage columns:", storage.columns.tolist())


**Column Standardization**

The original dataset consists of multiple CSV files representing different PC components. Each file uses slightly different column naming conventions. To ensure consistency and enable unified processing, column names are standardized across all datasets. This step improves readability, avoids ambiguity, and allows common attributes (e.g., brand, socket, wattage) to be analyzed uniformly.

In [19]:
def standardize_columns(df):
    df = df.rename(columns={
        "Name": "name",
        "Price": "price",
        "Producer": "brand",
        "Socket": "socket",
        "Chipset": "chipset",
        "Ram Type": "ram_type",
        "Memory Type": "memory_type",
        "Form Factor": "form_factor",
        "Size": "capacity",
        "Clock": "clock",
        "Boost Clock": "boost_clock",
        "Base Clock": "base_clock",
        "Watt": "wattage",
        "Efficiency Rating": "efficiency",
        "Vram": "vram",
        "TDP": "tdp",
        "Cores": "cores",
        "Threads": "threads"
    })
    return df


**Applying Standardized Naming**

The column standardization function is applied to all component datasets. This ensures that similar attributes across different hardware types use the same naming scheme, which is necessary before merging the datasets into a single unified table.

In [20]:
cpu = standardize_columns(cpu)
gpu = standardize_columns(gpu)
ram = standardize_columns(ram)
mobo = standardize_columns(mobo)
psu = standardize_columns(psu)
storage = standardize_columns(storage)


**Dataset Unification**

All standardized component datasets are merged into a single dataframe. Each row represents one hardware item, while a new component_type attribute identifies the category of the component. Missing values are expected at this stage because different components naturally have different specifications.

In [21]:
hardware_df = pd.concat(
    [cpu, gpu, ram, mobo, psu, storage],
    ignore_index=True,
    sort=False
)

hardware_df.head()


Unnamed: 0,name,price,brand,MPN,EAN,UPC,base_clock,Turbo Clock,Unlocked Multiplier,cores,threads,tdp,socket,Integrated GPU,Product Page,component_type,Length,Slots,8-Pin Connectors,6-Pin Connectors,HDMI,DisplayPort,DVI,VGA,boost_clock,vram,Memory Clock,ram_type,capacity,clock,Timings,Sticks,chipset,Unlocked,form_factor,memory_type,Memory Capacity,RAM Slots,SATA,Display Port,WiFi,Integrated Graphics,wattage,efficiency,Protocol,NAND,Controller
0,AMD Ryzen 5 5600X,$158.86 USD,AMD,100-100000065BOX,730143312042,,3.7 GHz,4.6 GHz,True,6.0,12.0,65 W,AM4,False,https://www.amazon.ca/dp/B08166SLDF?tag=pckomb...,CPU,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
1,AMD Athlon 3000G,$53.22 USD,AMD,YD3000C6FHBOX,730143311731,,3.5 GHz,,True,2.0,4.0,35 W,AM4,Radeon RX Vega 3,https://www.amazon.ca/dp/B0815JGFQ8?tag=pckomb...,CPU,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
2,AMD Ryzen 3 3300X,$150.09 USD,AMD,100-100000159BOX,730143312172,,3.8 GHz,4.3 GHz,True,4.0,8.0,65 W,AM4,False,https://www.amazon.ca/dp/B0876YS2T4?tag=pckomb...,CPU,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
3,AMD Ryzen 5 5500,$87.04 USD,AMD,100-100000457BOX,730143314121,,3.6 GHz,4.2 GHz,True,6.0,12.0,65 W,AM4,False,https://www.amazon.ca/dp/B09VCJ171S?tag=pckomb...,CPU,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
4,AMD Ryzen 5 5600,$133.46 USD,AMD,100-100000927BOX,730143314190,,3.5 GHz,4.4 GHz,True,6.0,12.0,65 W,AM4,False,https://www.amazon.ca/dp/B09VCHR1VH?tag=pckomb...,CPU,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,


Initial Dataset Assessment (Before Preprocessing)

This step provides an overview of the unified dataset, including:

*   Total number of records
*   Total number of attributes
*   Proportion of missing values

This analysis highlights the sparsity inherent in multi-component hardware data and motivates the preprocessing steps that follow.

In [22]:
print("Total records:", hardware_df.shape[0])
print("Total attributes:", hardware_df.shape[1])

hardware_df.isnull().mean().sort_values(ascending=False).head(10)


Total records: 6357
Total attributes: 47


Unnamed: 0,0
Controller,0.94919
Turbo Clock,0.948561
Unlocked Multiplier,0.948403
threads,0.948403
cores,0.948403
Integrated GPU,0.948403
base_clock,0.948403
NAND,0.945415
Protocol,0.928268
efficiency,0.860941


**Feature Selection for Association Rule Mining**

Only attributes relevant to compatibility and association analysis are selected. Non-informative fields such as product codes, URLs, and identifiers are excluded. This reduces dimensionality, improves algorithm efficiency, and focuses rule generation on meaningful hardware relationships.

In [23]:
arm_features = [
    "component_type",
    "brand",
    "socket",
    "chipset",
    "ram_type",
    "memory_type",
    "form_factor",
    "capacity",
    "wattage",
    "vram",
    "efficiency"
]

arm_df = hardware_df[arm_features].copy()
arm_df.head()


Unnamed: 0,component_type,brand,socket,chipset,ram_type,memory_type,form_factor,capacity,wattage,vram,efficiency
0,CPU,AMD,AM4,,,,,,,,
1,CPU,AMD,AM4,,,,,,,,
2,CPU,AMD,AM4,,,,,,,,
3,CPU,AMD,AM4,,,,,,,,
4,CPU,AMD,AM4,,,,,,,,


**Handling Missing Values**

Since association rule mining requires categorical completeness, missing values are replaced with a neutral placeholder ("Unknown"). This prevents the loss of transactions while preserving the semantic meaning that a specification is not applicable or unavailable for a given component.

In [24]:
arm_df = arm_df.fillna("Unknown")


**Preprocessing Impact Evaluation**

This step compares missing value statistics before and after preprocessing. It quantitatively demonstrates the effectiveness of the data cleaning process and provides transparency in data transformation, which is essential for reproducible data mining experiments.

In [25]:
print("Before preprocessing:")
print("Missing values (%):")
print(hardware_df.isnull().mean().mean() * 100)

print("\nAfter preprocessing:")
print("Missing values (%):")
print(arm_df.isnull().mean().mean() * 100)


Before preprocessing:
Missing values (%):
69.7241104629174

After preprocessing:
Missing values (%):
0.0


**Transaction Construction**

Each hardware item is converted into a transaction by representing attribute-value pairs as individual items. This transformation allows the originally non-transactional dataset to be used with association rule mining algorithms such as Apriori.


In [26]:
transactions = arm_df.apply(
    lambda row: [f"{col}={row[col]}" for col in arm_df.columns],
    axis=1
).tolist()

transactions[:2]


[['component_type=CPU',
  'brand=AMD',
  'socket=AM4',
  'chipset=Unknown',
  'ram_type=Unknown',
  'memory_type=Unknown',
  'form_factor=Unknown',
  'capacity=Unknown',
  'wattage=Unknown',
  'vram=Unknown',
  'efficiency=Unknown'],
 ['component_type=CPU',
  'brand=AMD',
  'socket=AM4',
  'chipset=Unknown',
  'ram_type=Unknown',
  'memory_type=Unknown',
  'form_factor=Unknown',
  'capacity=Unknown',
  'wattage=Unknown',
  'vram=Unknown',
  'efficiency=Unknown']]

In [27]:
from mlxtend.preprocessing import TransactionEncoder

# Assume `transactions` is a list of lists created in preprocessing
te = TransactionEncoder()
te_array = te.fit(transactions).transform(transactions)

encoded_df = pd.DataFrame(te_array, columns=te.columns_)
encoded_df.head()

Unnamed: 0,brand=ADATA,brand=AMD,brand=ASRock,brand=ASUS,brand=Adata,brand=Aerocool,brand=Akasa,brand=Antec,brand=Asus,brand=Avexir,brand=Ballistix,brand=Biostar,brand=BitFenix,brand=Chieftec,brand=Club 3D,brand=Cooler Master,brand=Corsair,brand=Cougar,brand=Crucial,brand=EVGA,brand=Enermax,brand=Fractal Design,brand=G. Skill,brand=G.Skill,brand=Gainward,brand=Galax,brand=Gigabyte,brand=HIS,brand=Hynix,brand=HyperX,brand=IN WIN,brand=INNO3D,brand=Impactics,brand=InWin,brand=Intel,brand=Intenso,brand=KFA2,brand=King Kits,brand=Kingston,brand=Kioxia,brand=Kolink,brand=Lian Li,brand=MSI,brand=Mach Xtreme Technology,brand=Micron,brand=Montech,brand=Mushkin,brand=NZXT,brand=OCZ,brand=OWC,brand=PHANTEKS,brand=PNY,brand=Palit,brand=Patriot,brand=PowerColor,brand=SAMSUNG,brand=SAPPHIRE,brand=Sabrent,brand=Samsung,brand=SanDisk,brand=Sapphire,brand=Seagate,brand=Seasonic,brand=Silentmaxx,brand=Silverstone,brand=Solidigm,brand=Sparkle,brand=Streacom,brand=Super Flower,brand=Supermicro,brand=Team Group,brand=Thermaltake,brand=Toshiba,brand=Transcend,brand=Western Digital,brand=XFX,brand=Xigmatek,brand=Xilence,brand=ZOTAC,brand=Zalman,brand=be quiet!,capacity=0 GB,capacity=1 GB,capacity=100 GB,capacity=1000 GB,capacity=1024 GB,capacity=118 GB,capacity=12 GB,capacity=120 GB,capacity=128 GB,capacity=16 GB,capacity=180 GB,capacity=192 GB,capacity=1920 GB,capacity=2 GB,capacity=200 GB,capacity=2000 GB,capacity=24 GB,capacity=240 GB,capacity=250 GB,capacity=256 GB,capacity=275 GB,capacity=280 GB,capacity=32 GB,capacity=360 GB,capacity=380 GB,capacity=4 GB,capacity=400 GB,capacity=4000 GB,capacity=48 GB,capacity=480 GB,capacity=500 GB,capacity=512 GB,capacity=525 GB,capacity=58 GB,capacity=60 GB,capacity=64 GB,capacity=8 GB,capacity=800 GB,capacity=8000 GB,capacity=96 GB,capacity=960 GB,capacity=ATX,capacity=ATX PS/2,"capacity=ATX, SFX","capacity=ATX, SFX-L",capacity=Flex-ATX,capacity=ITX,capacity=SFX,capacity=SFX-L,capacity=TFX,capacity=Unknown,"capacity=extern, sonstige",capacity=external,capacity=misc,capacity=redundant,capacity=redundantes Netzteil,capacity=sonstige,chipset=760G,chipset=970,chipset=970/SB950,chipset=990FX,chipset=990X,chipset=A320,chipset=A50,chipset=A520,chipset=A58,chipset=A68H,chipset=A68H FCH (Bolton D2H),chipset=A88X,chipset=A88X (Bolton D4),chipset=B150,chipset=B250,chipset=B350,chipset=B360,chipset=B365,chipset=B450,chipset=B460,chipset=B550,chipset=B560,chipset=B650,chipset=B650E,chipset=B660,chipset=B760,chipset=B85,chipset=C222,chipset=C232,chipset=C236,chipset=C246,chipset=C612,chipset=C612 PCH,chipset=G41 Express,chipset=H110,chipset=H170,chipset=H270,chipset=H310,chipset=H370,chipset=H410,chipset=H470,chipset=H510,chipset=H570,chipset=H61,chipset=H610,chipset=H670,chipset=H770,chipset=H81,chipset=H97,chipset=Kabini (integriert),chipset=Q170,chipset=Q270,chipset=Q87,chipset=SoC,chipset=TRX40,chipset=Unknown,chipset=W480,chipset=WRX80,chipset=X299,chipset=X370,chipset=X399,chipset=X470,chipset=X570,chipset=X570S,chipset=X670,chipset=X670E,chipset=X99,chipset=X99 Express,chipset=Z170,chipset=Z270,chipset=Z370,chipset=Z390,chipset=Z490,chipset=Z590,chipset=Z690,chipset=Z790,chipset=Z87,chipset=Z97,component_type=CPU,component_type=GPU,component_type=Motherboard,component_type=PSU,component_type=RAM,component_type=Storage,efficiency=80 PLUS,efficiency=80 PLUS Bronze,efficiency=80 PLUS Gold,efficiency=80 PLUS Platinum,efficiency=80 PLUS Silver,efficiency=80 PLUS Titanium,efficiency=80 Plus,efficiency=80 Plus Bronze,efficiency=80 Plus Gold,efficiency=80 Plus Platinum,efficiency=80 Plus Silver,efficiency=80 Plus Titanium,efficiency=Unknown,form_factor=ATX,form_factor=CEB,form_factor=E-ATX,form_factor=EEB,form_factor=ITX,form_factor=M.2,form_factor=Micro-ATX,form_factor=Mini-DTX,form_factor=Mini-ITX,form_factor=Mini-STX,form_factor=SATA,form_factor=SSI,form_factor=Thin-Mini-ITX,form_factor=Unknown,form_factor=XL-ATX,"form_factor=XL-ATX, CEB",memory_type=DDR3,memory_type=DDR4,"memory_type=DDR4, ECC - Speicher","memory_type=DDR4, SO - DIMM",memory_type=DDR5,memory_type=SO - DIMM,memory_type=Unknown,ram_type=DDR1-333,ram_type=DDR1-400,ram_type=DDR2-533,ram_type=DDR2-667,ram_type=DDR2-800,ram_type=DDR3-1066,ram_type=DDR3-1333,ram_type=DDR3-1600,ram_type=DDR3-1866,ram_type=DDR3-2000,ram_type=DDR3-2133,ram_type=DDR3-2400,ram_type=DDR3-2666,ram_type=DDR3-2800,ram_type=DDR3-2933,ram_type=DDR3-3000,ram_type=DDR3L-1600,ram_type=DDR3L-1866,ram_type=DDR3L-2133,ram_type=DDR4-2133,ram_type=DDR4-2400,ram_type=DDR4-2666,ram_type=DDR4-2800,ram_type=DDR4-2933,ram_type=DDR4-3000,ram_type=DDR4-3200,ram_type=DDR4-3300,ram_type=DDR4-3333,ram_type=DDR4-3400,ram_type=DDR4-3466,ram_type=DDR4-3600,ram_type=DDR4-3733,ram_type=DDR4-3866,ram_type=DDR4-4000,ram_type=DDR4-4133,ram_type=DDR4-4200,ram_type=DDR4-4266,ram_type=DDR4-4400,ram_type=DDR4-4500,ram_type=DDR4-4600,ram_type=DDR4-4800,ram_type=DDR4-5000,ram_type=DDR5-4800,ram_type=DDR5-5200,ram_type=DDR5-5600,ram_type=DDR5-6000,ram_type=DDR5-6200,ram_type=DDR5-6400,ram_type=DDR5-6600,ram_type=DDR5-6800,ram_type=DDR5-7000,ram_type=DDR5-7200,ram_type=DDR5-7800,ram_type=DDR5-8000,ram_type=Unknown,socket=1150,socket=1151,socket=1155,socket=1200,socket=1700,socket=2011-3,socket=2011-V3,socket=2011-v3,socket=2066,socket=775,socket=AM1,socket=AM3,socket=AM3+,"socket=AM3, AM3+",socket=AM4,socket=AM5,socket=FM2,socket=FM2+,"socket=FM2, FM2+",socket=SoC,socket=TR4,socket=TRX40,socket=Unknown,socket=sWRX8,socket=sWRX80,vram=0.7 GB,vram=1 GB,vram=1.2 GB,vram=1.5 GB,vram=10 GB,vram=11 GB,vram=12 GB,vram=16 GB,vram=2 GB,vram=20 GB,vram=24 GB,vram=3 GB,vram=3.5 GB,vram=4 GB,vram=6 GB,vram=8 GB,vram=Unknown,wattage=1000 W,wattage=1050 W,wattage=1100 W,wattage=120 W,wattage=1200 W,wattage=1250 W,wattage=1300 W,wattage=1350 W,wattage=1450 W,wattage=150 W,wattage=1500 W,wattage=160 W,wattage=1600 W,wattage=1650 W,wattage=1700 W,wattage=180 W,wattage=2000 W,wattage=240 W,wattage=250 W,wattage=300 W,wattage=320 W,wattage=350 W,wattage=360 W,wattage=400 W,wattage=430 W,wattage=450 W,wattage=460 W,wattage=500 W,wattage=520 W,wattage=530 W,wattage=550 W,wattage=560 W,wattage=600 W,wattage=620 W,wattage=630 W,wattage=65 W,wattage=650 W,wattage=660 W,wattage=700 W,wattage=730 W,wattage=750 W,wattage=760 W,wattage=80 W,wattage=800 W,wattage=830 W,wattage=84 W,wattage=85 W,wattage=850 W,wattage=860 W,wattage=90 W,wattage=900 W,wattage=Unknown
0,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True
1,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True
2,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True
3,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True
4,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True


In [28]:
num_transactions = encoded_df.shape[0]
num_items = encoded_df.shape[1]

sparsity = 1 - (encoded_df.values.sum() / (num_transactions * num_items))

print(f"Transactions: {num_transactions}")
print(f"Unique Items: {num_items}")
print(f"Sparsity: {sparsity:.4f}")


Transactions: 6357
Unique Items: 407
Sparsity: 0.9730


In [29]:
min_support_threshold = 0.02  # 2%

item_support = encoded_df.mean()
frequent_items = item_support[item_support >= min_support_threshold].index

filtered_df = encoded_df[frequent_items]

print(f"Items before filtering: {encoded_df.shape[1]}")
print(f"Items after filtering: {filtered_df.shape[1]}")


Items before filtering: 407
Items after filtering: 52


In [30]:
filtered_df.to_csv("processed_pc_hardware_transactions.csv", index=False)


In [31]:
from google.colab import files
files.download("processed_pc_hardware_transactions.csv")


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>