# FP-Growth algoritmus



----


Az Apriori algoritmus lentről felfele építkezve, minden lépésben jelölteket generál. A jelöltek száma igencsak nagy lehet és előállításukhoz minden lépésben az adatbázist át kell olvasni.


Az [FP-bővítés](https://gyires.inf.unideb.hu/KMITT/a04/ch06s06.html) (angol elnevezése [FP-Growth](https://www.softwaretestinghelp.com/fp-growth-algorithm-data-mining/)-) szintén egy gyakori elemhalmazok kinyerésére szolgáló algoritmus, amely hatékonyabb eredményt képes elérni, mivel nem a generál és tesztel paradigmát követi. Ehelyett az adathalmazt egy kompakt struktúrába sűríti, melynek neve az FP-fa (gyakori mintázatok fája), ezután a gyakori elemhalmazokat közvetlenül ebből a strúktúrából nyerhetőek ki. Az algoritmus csak kétszer kell végigolvassa az adatlhalmazt, elöszőr az elemek támogatottsági szintjének megállapítására, másodszor pedig az FP-fa felépítésére.  

Az algoritmus egyik Python [implementációja](https://github.com/evandempsey/fp-growth) a [pygrowth](https://pypi.org/project/pygrowth/) csomagban érhető el. 



In [1]:
!pip install pyfpgrowth

Collecting pyfpgrowth
[?25l  Downloading https://files.pythonhosted.org/packages/d2/4c/8b7cd90b4118ff0286d6584909b99e1ca5642bdc9072fa5a8dd361c864a0/pyfpgrowth-1.0.tar.gz (1.6MB)
[K     |▏                               | 10kB 18.8MB/s eta 0:00:01[K     |▍                               | 20kB 27.4MB/s eta 0:00:01[K     |▋                               | 30kB 33.9MB/s eta 0:00:01[K     |▉                               | 40kB 30.6MB/s eta 0:00:01[K     |█                               | 51kB 14.5MB/s eta 0:00:01[K     |█▏                              | 61kB 11.8MB/s eta 0:00:01[K     |█▍                              | 71kB 12.7MB/s eta 0:00:01[K     |█▋                              | 81kB 14.0MB/s eta 0:00:01[K     |█▉                              | 92kB 15.3MB/s eta 0:00:01[K     |██                              | 102kB 16.6MB/s eta 0:00:01[K     |██▏                             | 112kB 16.6MB/s eta 0:00:01[K     |██▍                             | 122kB 16.6MB/s e

A gyakori minták meghatározására a `find_frequent_patterns` metódust használjuk míg az asszociációs szabályok kinyerésére a `generate_association_rules`-t. Ezekre építve könnyen definiálhatunk egy függvényt mely adott megakapozotság és megbizhatóság szerint megkeresi egy adathalmazból a kinyeri a gyakori mintákat és asszociációs szabályokat.

In [2]:
import pyfpgrowth as fpg

def mine_fp_growth_association_rules(records, minsup, minconf):
    freq_patterns = fpg.find_frequent_patterns(records, minsup * len(records))
    rules = fpg.generate_association_rules(freq_patterns, minconf)
    return (freq_patterns, rules)

# example usage: patterns, rules = mine_fp_growth_association_rules(records, 0.01, 0.1)

# Feladatok

1. Olvassa el a következő cikkeket és röviden vázolja fel a fő különbségeket az Apriori és FP-Growth módszerek között, ismertesse az FP-Growth előnyeit és hátrányait:    
  - [Az FP-bővítés algoritmus](https://gyires.inf.unideb.hu/KMITT/a04/ch06s06.html)
  - [Frequent Pattern (FP) Growth Algorithm In Data Mining](https://www.softwaretestinghelp.com/fp-growth-algorithm-data-mining/)   

2. A múlt laborórán megtisztított (`nan`-t nem tartalmazó) adatokra futtassa le az FP-Growth algoritmust, mutassa be a kinyert gyakori mintákat és asszociációs szabályokat.  

**1 Feladat**

Előnyök:

- Ennek az algoritmusnak csak kétszer kell átkutatnia az adatbázist, összehasonlítva az Apriori-val, amely az egyes iterációknál vizsgálja a tranzakciókat.

- Az elemek párosítása ebben az algoritmusban nem történik meg, és ez gyorsabbá teszi.

- Az adatbázist kompakt változatban tárolják a memóriában.
Hatékony és méretezhető hosszú és rövid gyakori minták bányászatára.

Hátrányok:

- Az FP Tree nehézkesebb és nehezebben építhető, mint az Apriori.

- Lehet, hogy drága.

- Ha az adatbázis nagy, akkor előfordulhat, hogy az algoritmus nem fér el a megosztott memóriában.