# Odkrywanie reguł asocjacyjnych

Będziemy korzystać z implementacji algorytmu Apriori w pakiecie `arules`. Składnia tworzenia zbioru reguł za pomocą funkcji `apriori()` jest następująca:

`apriori(data = mydata, parameter = list(support = 0.1, confidence = 0.8, minlen = 1))`

gdzie:
- `data` - macierz rozrzedzona z danymi transkacyjnymi
- `support` - określa minimalne wymagane wsparcie reguły. Domyślnym ustawieniem jest `support = 0.1`, co oznacza, że aby wygenerować regułę dla zbioru Groceries, artykuł musi pojawić się w przynajmniej $0.1 \cdot 9835 = 983.5$ transkacjach.
-  `confidence` - określa minimalną wymaganą ufność reguły
- `minlen` - określa minimalną wymaganą liczbę artykułów w regule

Funkcja zwraca obiekt reguł przechowujący wszystkie reguły, które spełniają kryteria minimalne.

Do ilustracji działania algorytmu użyjemy zbioru `Groceries` dostępnego w pakiecie `datasets`.

Dla zobrazowania, na wykresie umieszczono 20 najczęściej kupowanych produktów.

In [None]:
library(arules)

data("Groceries")
itemFrequencyPlot(Groceries,topN=20,type="absolute", xlab = "Często kupowane produkty", 
                  ylab = "Częstość", col = "Gray", 
                  main = "Lista 20 najpopularniejszych produktów")

## Zadania

1. Utwórz zbiór reguł dla zbioru `Groceries`. Wsparcie ustaw na podstawie najmniejszej liczby transakcji wymaganej do tego, aby uznać wzorzec za interesujący, czyli np artykuły kupowane dwa razy dziennie (czyli 60 razy w danych z miesiąca), zatem wsparcie = 60/9835. Pozostałe wartości parametrów: ufność = 0.25 (reguła jest dołączana do wyników wtedy, kiedy działa w min 25% przypadków), minimalna liczba wymaganych artykułów = 2 (eliminujemy reguły zawierające mniej niż 2 elementy).

In [None]:
myrules <- apriori(#TODO )

Aby sprawdzić do czego służą parametry wymienione w pierwszych wierszach wyników, wpisz w konsoli polecenie `?APparameter`.

2. Wyświetl ogólny przegląd reguł asocjacyjnych za pomocą funkcji `summary()`. Rozmiar reguły obliczany jest jako suma lewej (`lhs`) i prawej (`rhs`) strony reguły.

Miary `count` (liczebności) oraz `coverage` (pokrycia) są blisko związane ze wsparciem i ufnością. Liczebność jest licznikiem miary wsparcia (liczba transakcji, które zawierały artykuł). Miara pokrycia reguły asocjacji jest wsparciem lewej strony reguły (pokrycie to szansa, że reguła dotyczy dowolnej, losowo wybranej transakcji w zbiorze danych). Miara `lift` (dźwignia) reguły określa, o ile bardziej prawdopodobny jest zakup artykułu lub zbioru artykułów w stosunku do jego typowego wskaźnika kupna, jeśli wiadomo, że kupiony został inny artykuł lub zbiór artykułów.

3. Wyświetl pierwsze pięć reguł za pomocą funkcji `inspect()`.

Odczytaj i opisz w komentarzu pierwszą regułę.

## Sortowanie zbioru reguł asocjacyjnych

W zależności od celów analizy koszyka, najużyteczniejszymi regułami mogą być te, które mają najwyższe wsparcie, ufność lub dźwignię. Kolejność reguł możemy zmienić, stosując pakiet `arules` w połączneniu z funkcją `sort()`.

*Zadanie*
4. Wyświetl pięć reguł najlepszych pod względem dźwigni i wypisz wnioski.

## Podzbiory reguł asocjacyjnych
Do wyszukiwania podzbiorów transakcji, artykułów lub reguł służy funkcja `subset()`.

*Zadanie*
5. Znajdź reguły, w których występują owoce jagodowe i zapisz w obiekcie `berryrules`. Następnie zbadaj te reguły (funkcja `inspect()`) i wypisz wnioski 