In [3]:
import itertools

Тестовый пример и необходимые функции для решения задачи

In [13]:
transactions = [
  ['Приключенческие романы', 'Научная фантастика', 'Фэнтези', 'Детективы'],
  ['Детективы', 'Биографии', 'Исторические романы', 'Научная фантастика'],
  ['Научно-популярная литература', 'Фэнтези', 'Исторические романы', 'Детективы'],
  ['Классическая литература', 'Детективы', 'Исторические романы', 'Научная фантастика'],
  ['Фэнтези', 'Научно-популярная литература', 'Научная фантастика'],
  ['Приключенческие романы', 'Детективы', 'Научная фантастика', 'Фэнтези'],
  ['Биографии', 'Классическая литература', 'Научная фантастика'],
  ['Научная фантастика', 'Фэнтези', 'Приключенческие романы'],
  ['Исторические романы', 'Классическая литература', 'Детективы']
]

def find_frequent_itemsets(transactions, min_support):
  """
      Получаем частые комбинации набора книг с указанным уровнем
      поддержки и который больше минимального уровня
  """
  item_counts = {}
  for transaction in transactions:
    for itemset in get_powersets(transaction):
      itemset = tuple(sorted(itemset)) # чтобы считать одинаковые транзации [A, B] и [B, A]
      item_counts[itemset] = item_counts.get(itemset, 0) + 1
      frequent_itemsets = {}
      total_transactions = len(transactions)
      for itemset, count in item_counts.items():
        support = count / total_transactions
        if support >= min_support:
          frequent_itemsets[itemset] = support
  return frequent_itemsets


def get_combinations(items, length):
  """ Получаем различные комбинации из транзакиций различных длин """
  combinations = []
  for combo in itertools.combinations(items, length):
    combinations.append(list(combo))
  return combinations


def get_powersets(items):
  """ Формируем список из различных комбинаций """
  powersets = []
  for i in range(1, len(items) + 1):
    powersets.extend(get_combinations(items, i))
  return powersets


def find_association_rules(frequent_itemsets, min_confidence):
  """
      Находим ассоциативные правила для частых последовательностей
      с указанным уровнем доверия и которые больше минимального уровня
  """
  association_rules = []
  for itemset, support in frequent_itemsets.items():
    if len(itemset) > 1:
      for subset in get_powersets(itemset):
        if subset:
          remaining = tuple(sorted(set(itemset) - set(subset)))
          confidence = support / frequent_itemsets[tuple(sorted(subset))]
          if confidence >= min_confidence:
            association_rules.append((tuple(sorted(subset)), remaining, confidence, support))
  return association_rules

Тестовый пример

In [20]:
min_support = 0.3
min_confidence = 0.05
min_length = 2

frequent_itemsets = find_frequent_itemsets(transactions, min_support)
association_rules = find_association_rules(frequent_itemsets, min_confidence)

print("==============НАЧАЛО РАБОТЫ===========")
number = 1
for rule in association_rules:
  if len(rule[0]) + len(rule[1]) >= min_length:
    print(f"==========Набор №{number}==========")
    print(f"|Набор: {', '.join(rule[0])} => {','.join(rule[1])}")
    print(f"|Поддержка: {int(rule[3] * 10)}")
    print(f"|Достоверность: {round(rule[2] * 100, 2)}%")
    number += 1
print("=================================")
print("==========КОНЕЦ РАБОТЫ==========")

|Набор: Научная фантастика => Приключенческие романы
|Поддержка: 3
|Достоверность: 42.86%
|Набор: Приключенческие романы => Научная фантастика
|Поддержка: 3
|Достоверность: 100.0%
|Набор: Научная фантастика, Приключенческие романы => 
|Поддержка: 3
|Достоверность: 100.0%
|Набор: Приключенческие романы => Фэнтези
|Поддержка: 3
|Достоверность: 100.0%
|Набор: Фэнтези => Приключенческие романы
|Поддержка: 3
|Достоверность: 60.0%
|Набор: Приключенческие романы, Фэнтези => 
|Поддержка: 3
|Достоверность: 100.0%
|Набор: Научная фантастика => Фэнтези
|Поддержка: 4
|Достоверность: 57.14%
|Набор: Фэнтези => Научная фантастика
|Поддержка: 4
|Достоверность: 80.0%
|Набор: Научная фантастика, Фэнтези => 
|Поддержка: 4
|Достоверность: 100.0%
|Набор: Детективы => Научная фантастика
|Поддержка: 4
|Достоверность: 66.67%
|Набор: Научная фантастика => Детективы
|Поддержка: 4
|Достоверность: 57.14%
|Набор: Детективы, Научная фантастика => 
|Поддержка: 4
|Достоверность: 100.0%
|Набор: Детективы => Фэнтези
|П

Самостоятельный пример

In [19]:
modules = [
  ['Английский базовый', 'Английский для туристов', 'Французский базовый', 'Немецкий для туристов'],
  ['Английский базовый', 'Английский для туристов', 'Испанский базовый', 'Китайский базовый'],
  ['Английский базовый', 'Английский для туристов', 'Французский для туристов', 'Немецкий базовый'],
  ['Английский базовый', 'Английский для туристов', 'Китайский базовый', 'Немецкий для туристов'],
  ['Английский базовый', 'Французский базовый', 'Испанский базовый', 'Китайский базовый'],
  ['Английский для туристов', 'Французский для туристов', 'Испанский для туристов', 'Немецкий для туристов'],
  ['Английский для туристов', 'Французский для туристов', 'Испанский базовый', 'Китайский для туристов'],
  ['Английский для туристов', 'Французский базовый', 'Испанский базовый', 'Китайский базовый', 'Немецкий базовый'],
  ['Английский для туристов', 'Французский для туристов', 'Испанский базовый', 'Немецкий для туристов'],
  ['Английский для туристов', 'Французский для туристов', 'Китайский для туристов', 'Немецкий для туристов'],
  ['Английский базовый', 'Французский базовый', 'Испанский базовый', 'Китайский базовый', 'Немецкий базовый'],
  ['Английский базовый', 'Французский для туристов', 'Испанский для туристов', 'Китайский для туристов', 'Немецкий для туристов']
]

min_support = 0.3
min_confidence = 0.6
min_length = 2

frequent_itemsets = find_frequent_itemsets(modules, min_support)
association_rules = find_association_rules(frequent_itemsets, min_confidence)

print("==============НАЧАЛО РАБОТЫ===========")
print(" ")
number = 1
for rule in association_rules:
  if len(rule[0]) + len(rule[1]) >= min_length:
    print(f"==========Набор №{number}==========")
    print(f"|Набор: {', '.join(rule[0])} => {','.join(rule[1])}")
    print(f"|Поддержка: {int(rule[3] * 10)}")
    print(f"|Достоверность: {round(rule[2] * 100, 2)}%")
    number += 1
print(" ")
print("==========КОНЕЦ РАБОТЫ==========")

 
|Набор: Английский базовый, Английский для туристов => 
|Поддержка: 3
|Достоверность: 100.0%
|Набор: Немецкий для туристов => Английский для туристов
|Поддержка: 4
|Достоверность: 83.33%
|Набор: Английский для туристов, Немецкий для туристов => 
|Поддержка: 4
|Достоверность: 100.0%
|Набор: Китайский базовый => Английский базовый
|Поддержка: 3
|Достоверность: 80.0%
|Набор: Английский базовый, Китайский базовый => 
|Поддержка: 3
|Достоверность: 100.0%
|Набор: Испанский базовый => Английский для туристов
|Поддержка: 3
|Достоверность: 66.67%
|Набор: Английский для туристов, Испанский базовый => 
|Поддержка: 3
|Достоверность: 100.0%
|Набор: Испанский базовый => Китайский базовый
|Поддержка: 3
|Достоверность: 66.67%
|Набор: Китайский базовый => Испанский базовый
|Поддержка: 3
|Достоверность: 80.0%
|Набор: Испанский базовый, Китайский базовый => 
|Поддержка: 3
|Достоверность: 100.0%
|Набор: Французский для туристов => Английский для туристов
|Поддержка: 4
|Достоверность: 83.33%
|Набор: Англ

**Вопросы**: Какие комбинации модулей чаще всего выбираются вместе. Существуют ли закономерности, которые помогут рекомендовать определённые наборы модулей будущим студентам.

**Частые комбинации** модулей представлены выше в ответе алгоритма

**Ассоциативные правила**:
1. Если студент выбрал "Английский базовый", то он также выбирает "Английский для туристов"
2. Если студент выбрал "Немецкий для туристов", то он также выбирает "Английский для туристов"
3. Если студент выбрал "Английский для туристов", то он также выбирает "Немецкий для туристов"
4. И так далее согласно ответу алгоритма

Уровень достоверности указан в ответе алгоритма

**Общая рекомендация на основе ответа алгоритма**: чаще всего встречаются комбинации именно для базового модуля или модуля для туристов, поэтому два оставшихся модуля можно убрать из выбора совсем или снизить трудозатраты для них. Однако все учат все языки, нет каких-то специальных особенностей.