# FP-Growth algoritmus



----


Az Apriori algoritmus lentről felfele építkezve, minden lépésben jelölteket generál. A jelöltek száma igencsak nagy lehet és előállításukhoz minden lépésben az adatbázist át kell olvasni.


Az [FP-bővítés](https://gyires.inf.unideb.hu/KMITT/a04/ch06s06.html) (angol elnevezése [FP-Growth](https://www.softwaretestinghelp.com/fp-growth-algorithm-data-mining/)-) szintén egy gyakori elemhalmazok kinyerésére szolgáló algoritmus, amely hatékonyabb eredményt képes elérni, mivel nem a generál és tesztel paradigmát követi. Ehelyett az adathalmazt egy kompakt struktúrába sűríti, melynek neve az FP-fa (gyakori mintázatok fája), ezután a gyakori elemhalmazokat közvetlenül ebből a strúktúrából nyerhetőek ki. Az algoritmus csak kétszer kell végigolvassa az adatlhalmazt, elöszőr az elemek támogatottsági szintjének megállapítására, másodszor pedig az FP-fa felépítésére.  

Az algoritmus egyik Python [implementációja](https://github.com/evandempsey/fp-growth) a [pygrowth](https://pypi.org/project/pygrowth/) csomagban érhető el. 



In [None]:
!pip install pyfpgrowth

Collecting pyfpgrowth
[?25l  Downloading https://files.pythonhosted.org/packages/d2/4c/8b7cd90b4118ff0286d6584909b99e1ca5642bdc9072fa5a8dd361c864a0/pyfpgrowth-1.0.tar.gz (1.6MB)
[K     |████████████████████████████████| 1.6MB 5.3MB/s 
[?25hBuilding wheels for collected packages: pyfpgrowth
  Building wheel for pyfpgrowth (setup.py) ... [?25l[?25hdone
  Created wheel for pyfpgrowth: filename=pyfpgrowth-1.0-py2.py3-none-any.whl size=5477 sha256=83fbba52b28a5f6e6cb3b33354c54602a15d668591d4085fd7fc9be7bf35e29e
  Stored in directory: /root/.cache/pip/wheels/3b/3f/0d/a04bb8b17887c1eca7d0f1a48d4aa0c09c96eb221ff7fa56c1
Successfully built pyfpgrowth
Installing collected packages: pyfpgrowth
Successfully installed pyfpgrowth-1.0


A gyakori minták meghatározására a `find_frequent_patterns` metódust használjuk míg az asszociációs szabályok kinyerésére a `generate_association_rules`-t. Ezekre építve könnyen definiálhatunk egy függvényt mely adott megakapozotság és megbizhatóság szerint megkeresi egy adathalmazból a kinyeri a gyakori mintákat és asszociációs szabályokat.

In [None]:
import pyfpgrowth as fpg

def mine_fp_growth_association_rules(records, minsup, minconf):
    freq_patterns = fpg.find_frequent_patterns(records, minsup * len(records))
    rules = fpg.generate_association_rules(freq_patterns, minconf)
    return (freq_patterns, rules)

# example usage: patterns, rules = mine_fp_growth_association_rules(records, 0.01, 0.1)

# Feladatok

1. Olvassa el a következő cikkeket és röviden vázolja fel a fő különbségeket az Apriori és FP-Growth módszerek között, ismertesse az FP-Growth előnyeit és hátrányait:    
  - [Az FP-bővítés algoritmus](https://gyires.inf.unideb.hu/KMITT/a04/ch06s06.html)
  - [Frequent Pattern (FP) Growth Algorithm In Data Mining](https://www.softwaretestinghelp.com/fp-growth-algorithm-data-mining/)   

2. A múlt laborórán megtisztított (`nan`-t nem tartalmazó) adatokra futtassa le az FP-Growth algoritmust, mutassa be a kinyert gyakori mintákat és asszociációs szabályokat.  

#1.

## Apriori
- Lassabb mint az FP-Growth
- Úgy generálja ki a mintákat, hogy párositja az elemeket singletonokba, majd párokba és tripletekbe
- Többszöri adatbázison való átjárást igényel ahhoz, hogy kigenerálja a fát
- Szélességi bejárást használ

## FP-Growth
- Gyorsabb mint az Apriori
- A minták kigenerálásával egy FP fát épit
- Kétszer megy végig az adatbázison
- Mélységi bejárást használ

## FP-Growth hátrány
- Sokkal nehezebb az FP fa kigenerálása mint az Apriorinak.
- Költséges lehet memória szempontjából.
- Nagy adatbázis esetén nem biztos hogy belefér a memóriába.

## FP-Growth előny
- Kétszer megy végig az adatbázison
- Az elemek párositása nem az algoritmusban hajtódik végre, ezért gyorsabb
- Hatékony és skálázható mind a kis és mind a nagy gyakori minták kinyerésére



#2

In [None]:
import numpy as np   
import pandas as pd
from google.colab import files
files.upload()

data = pd.read_csv('./data.csv', header=None) 
all_items = np.concatenate(data.values)
all_items = [x for x in all_items if str(x) != 'nan']

result = mine_fp_growth_association_rules(all_items, 0.5, 0.5)
print(result)