<a href="https://colab.research.google.com/github/BotondMozes/AndroidProjekt/blob/master/lab09.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# FP-Growth algoritmus



----


Az Apriori algoritmus lentről felfele építkezve, minden lépésben jelölteket generál. A jelöltek száma igencsak nagy lehet és előállításukhoz minden lépésben az adatbázist át kell olvasni.


Az [FP-bővítés](https://gyires.inf.unideb.hu/KMITT/a04/ch06s06.html) (angol elnevezése [FP-Growth](https://www.softwaretestinghelp.com/fp-growth-algorithm-data-mining/)-) szintén egy gyakori elemhalmazok kinyerésére szolgáló algoritmus, amely hatékonyabb eredményt képes elérni, mivel nem a generál és tesztel paradigmát követi. Ehelyett az adathalmazt egy kompakt struktúrába sűríti, melynek neve az FP-fa (gyakori mintázatok fája), ezután a gyakori elemhalmazokat közvetlenül ebből a strúktúrából nyerhetőek ki. Az algoritmus csak kétszer kell végigolvassa az adatlhalmazt, elöszőr az elemek támogatottsági szintjének megállapítására, másodszor pedig az FP-fa felépítésére.  

Az algoritmus egyik Python [implementációja](https://github.com/evandempsey/fp-growth) a [pygrowth](https://pypi.org/project/pygrowth/) csomagban érhető el. 



In [1]:
!pip install pyfpgrowth

Collecting pyfpgrowth
[?25l  Downloading https://files.pythonhosted.org/packages/d2/4c/8b7cd90b4118ff0286d6584909b99e1ca5642bdc9072fa5a8dd361c864a0/pyfpgrowth-1.0.tar.gz (1.6MB)
[K     |████████████████████████████████| 1.6MB 8.2MB/s 
[?25hBuilding wheels for collected packages: pyfpgrowth
  Building wheel for pyfpgrowth (setup.py) ... [?25l[?25hdone
  Created wheel for pyfpgrowth: filename=pyfpgrowth-1.0-py2.py3-none-any.whl size=5477 sha256=c9b01337f6efb143939d6f877f632835ffc67ac2a1457af581f67213f40c849a
  Stored in directory: /root/.cache/pip/wheels/3b/3f/0d/a04bb8b17887c1eca7d0f1a48d4aa0c09c96eb221ff7fa56c1
Successfully built pyfpgrowth
Installing collected packages: pyfpgrowth
Successfully installed pyfpgrowth-1.0


A gyakori minták meghatározására a `find_frequent_patterns` metódust használjuk míg az asszociációs szabályok kinyerésére a `generate_association_rules`-t. Ezekre építve könnyen definiálhatunk egy függvényt mely adott megakapozotság és megbizhatóság szerint megkeresi egy adathalmazból a kinyeri a gyakori mintákat és asszociációs szabályokat.

In [2]:
import pyfpgrowth as fpg

def mine_fp_growth_association_rules(records, minsup, minconf):
    freq_patterns = fpg.find_frequent_patterns(records, minsup * len(records))
    rules = fpg.generate_association_rules(freq_patterns, minconf)
    return (freq_patterns, rules)

# example usage: patterns, rules = mine_fp_growth_association_rules(records, 0.01, 0.1)

# Feladatok

1. Olvassa el a következő cikkeket és röviden vázolja fel a fő különbségeket az Apriori és FP-Growth módszerek között, ismertesse az FP-Growth előnyeit és hátrányait:    
  - [Az FP-bővítés algoritmus](https://gyires.inf.unideb.hu/KMITT/a04/ch06s06.html)
  - [Frequent Pattern (FP) Growth Algorithm In Data Mining](https://www.softwaretestinghelp.com/fp-growth-algorithm-data-mining/)   

2. A múlt laborórán megtisztított (`nan`-t nem tartalmazó) adatokra futtassa le az FP-Growth algoritmust, mutassa be a kinyert gyakori mintákat és asszociációs szabályokat.  

# Feladat 1

FP Growth(FPG) vs Apriori

 - az FPG egy fa szerkezetet épít, az Apriori pedig elemcsoportokat hoz létre
 - az FPG csak egyszer járja be a datasetet, az Apriori pedig többször, ezért az FPG sokkal gyorsabb


 Az FPG előnye a gyorsaság.
 Hátránya az, hogy nagy adathalmaz esetében nem biztos, hogy belefér a memóriába.

# Feladat 2

In [5]:
from google.colab import files
files.upload()

import numpy as np  
import matplotlib.pyplot as plt  
import pandas as pd  

store_data = pd.read_csv('./store_data_apriori.csv', header=None) 
store_data.head()

records = []  
for transaction in store_data.values:
  t = [x for x in transaction if str(x) != 'nan']
  records.append(t)

patterns, rules = mine_fp_growth_association_rules(records, 0.01, 0.1)

for r in rules:
  print(r)

print("\n")
print(patterns)


Saving store_data_apriori.csv to store_data_apriori (2).csv
('cereals',)
('avocado',)
('fresh bread',)
('champagne',)
('eggs',)
('mineral water', 'olive oil')
('mineral water', 'spaghetti')
('olive oil', 'spaghetti')
('mineral water',)
('mineral water', 'pancakes')
('pancakes', 'spaghetti')
('frozen vegetables', 'milk')
('frozen vegetables', 'mineral water')
('milk', 'mineral water')
('frozen vegetables', 'spaghetti')
('eggs', 'ground beef')
('eggs', 'mineral water')
('ground beef', 'mineral water')
('ground beef', 'milk')
('chocolate', 'ground beef')
('chocolate', 'mineral water')
('ground beef', 'spaghetti')
('eggs', 'milk')
('chocolate', 'spaghetti')
('milk', 'spaghetti')
('eggs', 'spaghetti')
('french fries', 'mineral water')
('french fries', 'spaghetti')


{('nonfat milk',): 78, ('cider',): 79, ('barbecue sauce',): 81, ('magazines',): 82, ('yams',): 86, ('body spray',): 86, ('extra dark chocolate',): 90, ('melons',): 90, ('eggplant',): 99, ('gums',): 101, ('fromage blanc',): 102, 