### Комбинаторика в Питоне

#### `np.random.shuffle()` и `np.random.permutation()`

In [None]:
# создадим массив и передадим его в функцию np.random.shuffle()
arr = np.array([1, 2, 3, 4, 5])

# сама функция выдала None, исходный массив при этом изменился
print(np.random.shuffle(arr), arr)

None [3 5 4 1 2]


In [None]:
# еще раз создадим массив
arr = np.array([1, 2, 3, 4, 5])

# передав его в np.random.permutation(),
# мы получим перемешанную копию и исходный массив без изменений
np.random.permutation(arr), arr

(array([1, 2, 3, 5, 4]), array([1, 2, 3, 4, 5]))

Функция для разделения на обучающую и тестовую выборки

In [None]:
# объявим функцию, которая принимает признаки X и целевую переменную y в формате
# массива Numpy или датафрейма
# дополнительно пропишем размер тестовой выборки с параметром по умолчанию 0,3
# и возможностью задать точку отсчета
def split_data(X, y, test_size = 0.3, random_state = None):

  # проверим, является ли X массивом Numpy с помощью функции isinstance()
  if isinstance(X, np.ndarray):
    # если да, превратим в датафрейм
    X = pd.DataFrame(X)
  # сделаем то же самое для y
  if isinstance(y, np.ndarray):
    y = pd.DataFrame(y)

  # еще один способ выполнить такую проверку
  # if type(X). __module__ == np. __name__:
  #   X = pd.DataFrame(X)
  # if type(y). __module__ == np. __name__:
  #   y = pd.DataFrame(y)

  # установим точку отсчета
  np.random.seed(random_state)

  # перемешаем индексы строк датасета X, не изменяя исходный массив
  indices = np.random.permutation(len(X))

  # определим количество строк, которые войдут в тестовую выборку
  # для этого умножим количество строк в X на долю тестовой выборки
  data_test_size = int(X.shape[0] * test_size)

  # начиная с этого количества (границы), будет обучающая выборка
  train_indices = indices[data_test_size:]
  # перед ним, тестовая
  test_indices = indices[:data_test_size]

  # с помощью метода .iloc() найдем в X все строки,
  # соответствующие индексам в переменных train_indices и test_indices
  X_train = X.iloc[train_indices]
  X_test = X.iloc[test_indices]

  # сделаем то же самое для y
  y_train = y.iloc[train_indices]
  y_test = y.iloc[test_indices]

  # выведем выборки в том порядке, в котором они выводятся в sklearn
  return X_train, X_test, y_train, y_test

In [None]:
import pandas as pd

# импортируем данные о пациентах с диабетом
from sklearn.datasets import load_diabetes

# помещаем их в переменную data
data = load_diabetes()

# создаем два датафрейма
X = pd.DataFrame(data.data, columns = data.feature_names)
y = pd.DataFrame(data.target, columns = ['target'])

# для проверки работы функции можно также создать массивы Numpy
# X = data.data
# y = data.target

In [None]:
# вызовем функцию split_data()
X_train, X_test, y_train, y_test = split_data(X, y, random_state = 42)

In [None]:
# посмотрим на индексы строк в переменной X_train
X_train.head(3)

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6
108,0.019913,0.05068,0.045529,0.029894,-0.062111,-0.055802,-0.072854,0.026929,0.045604,0.040343
225,0.030811,0.05068,0.032595,0.049415,-0.040096,-0.043589,-0.069172,0.034309,0.063015,0.003064
412,0.074401,-0.044642,0.085408,0.063187,0.014942,0.013091,0.015505,-0.002592,0.006207,0.085907


In [None]:
# теперь посмотрим на y_train
y_train.head(3)

Unnamed: 0,target
108,232.0
225,208.0
412,261.0


#### Модуль itertools

##### Перестановки

###### Перестановки без замены

1. Перестановки без повторений

In [None]:
# импортируем модуль math
import math

# передадим функции factorial() число 3
math.factorial(3)

6

In [None]:
# импортируем модуль itertools
import itertools

# создадим строку из букв A, B, C
x = 'ABC'
# помимо строки можно использовать и список
# x = ['A', 'B', 'C']

# и передадим ее в функцию permutations()
# так как функция возвращает объект itertools.permutations,
# для вывода результата используем функцию list()
list(itertools.permutations(x))

[('A', 'B', 'C'),
 ('A', 'C', 'B'),
 ('B', 'A', 'C'),
 ('B', 'C', 'A'),
 ('C', 'A', 'B'),
 ('C', 'B', 'A')]

In [None]:
# чтобы узнать количество перестановок, можно использовать функцию len()
len(list(itertools.permutations(x)))

6

In [None]:
# теперь элементов исходного множества шесть
x = 'ABCDEF'

# чтобы узнать, сколькими способами их можно разместить на трех местах,
# передадим параметр r = 3 и выведем первые пять элементов
list(itertools.permutations(x, r = 3))[:5]

[('A', 'B', 'C'),
 ('A', 'B', 'D'),
 ('A', 'B', 'E'),
 ('A', 'B', 'F'),
 ('A', 'C', 'B')]

In [None]:
# посмотрим на общее количество таких перестановок
len(list(itertools.permutations(x, r = 3)))

120

2. Перестановки с повторениями

In [None]:
# импортируем необходимые библиотеки
import itertools
import numpy as np
import math

# объявим функцию permutations_w_repetition(), которая будет принимать два параметра
# x - строка, список или массив Numpy
# r - количество мест в перестановке, по умолчанию равно количеству элементов в x
def permutations_w_repetition(x, r = len(x)):

  # если передается строка,
  if isinstance(x, str):
    # превращаем ее в список
    x = list(x)

  # в числителе рассчитаем количество перестановок без повторений
  numerator = len(list(itertools.permutations(x, r = r)))

  # для того чтобы рассчитать знаменатель найдем,
  # сколько раз повторяется каждый из элементов
  _, counts = np.unique(x, return_counts = True)

  # объявим переменную для знаменателя
  denominator = 1

  # и в цикле будем помещать туда произведение факториалов
  # повторяющихся элементов
  for c in counts:

      # для этого проверим повторяется ли элемент
      if c > 1:

        # и если да, умножим знаменатель на факториал повторяющегося элемента
        denominator *= math.factorial(c)

  # разделим числитель на знаменатель
  # деление дает тип float, поэтому используем функцию int(),
  # чтобы результат был целым числом
  return int(numerator/denominator)

In [None]:
# создадим строку со словом "молоко"
x = 'МОЛОКО'

# вызовем функцию
permutations_w_repetition(x)

120

###### Перестановки с заменой

In [None]:
# посмотрим, сколькими способами можно выбрать два сорта мороженого
list(itertools.product(['Ваниль', 'Клубника'], repeat = 2))

[('Ваниль', 'Ваниль'),
 ('Ваниль', 'Клубника'),
 ('Клубника', 'Ваниль'),
 ('Клубника', 'Клубника')]

In [None]:
# посмотрим на способы переставить с заменой два элемента из четырех
list(itertools.product('ABCD', repeat = 2))

[('A', 'A'),
 ('A', 'B'),
 ('A', 'C'),
 ('A', 'D'),
 ('B', 'A'),
 ('B', 'B'),
 ('B', 'C'),
 ('B', 'D'),
 ('C', 'A'),
 ('C', 'B'),
 ('C', 'C'),
 ('C', 'D'),
 ('D', 'A'),
 ('D', 'B'),
 ('D', 'C'),
 ('D', 'D')]

In [None]:
# убедимся, что таких способов 16
len(list(itertools.product('ABCD', repeat = 2)))

16

##### Сочетания

In [None]:
# возьмем пять элементов
x = 'ABCDE'

# и найдем способ переставить два элемента из этих пяти
list(itertools.permutations(x, r = 2))

[('A', 'B'),
 ('A', 'C'),
 ('A', 'D'),
 ('A', 'E'),
 ('B', 'A'),
 ('B', 'C'),
 ('B', 'D'),
 ('B', 'E'),
 ('C', 'A'),
 ('C', 'B'),
 ('C', 'D'),
 ('C', 'E'),
 ('D', 'A'),
 ('D', 'B'),
 ('D', 'C'),
 ('D', 'E'),
 ('E', 'A'),
 ('E', 'B'),
 ('E', 'C'),
 ('E', 'D')]

In [None]:
# уменьшим на количество перестановок каждого типа r!
int(len(list(itertools.permutations(x, r = 2)))/math.factorial(2))

10

In [None]:
# то же самое можно рассчитать с помощью функции combinations()
list(itertools.combinations(x, 2))

[('A', 'B'),
 ('A', 'C'),
 ('A', 'D'),
 ('A', 'E'),
 ('B', 'C'),
 ('B', 'D'),
 ('B', 'E'),
 ('C', 'D'),
 ('C', 'E'),
 ('D', 'E')]

In [None]:
# посмотрим на количество сочетаний
len(list(itertools.combinations(x, 2)))

10

Сочетания с заменой

In [None]:
# сколькими способами с заменой можно выбрать два элемента из двух
list(itertools.combinations_with_replacement('AB', 2))

[('A', 'A'), ('A', 'B'), ('B', 'B')]

In [None]:
# очевидно, что без замены есть только один такой способ
list(itertools.combinations('AB', 2))

[('A', 'B')]

Биномиальные коэффициенты

In [None]:
# дерево вероятностей можно построить с помощью декартовой степени
list(itertools.product('HT', repeat = 3))

[('H', 'H', 'H'),
 ('H', 'H', 'T'),
 ('H', 'T', 'H'),
 ('H', 'T', 'T'),
 ('T', 'H', 'H'),
 ('T', 'H', 'T'),
 ('T', 'T', 'H'),
 ('T', 'T', 'T')]

In [None]:
# посмотрим, в скольких комбинациях выпадет две решки при трех бросках
comb = len(list(itertools.combinations('ABC', 2)))
comb

3

In [None]:
# вычислим вероятность выпадения двух орлов в трех бросках
# при вероятности выпадения орла 0,7
round(comb * (0.7 ** 2 * (1 - 0.7)** (3 - 2)), 3)

0.441

In [None]:
from scipy.stats import binom

# то же самое можно вычислить с помощью функции вероятности (probability mass function, pmf)
# биномиального распределения библиотеки scipy
binom.pmf(k = 2, n = 3, p = 0.7).round(3)

0.441

### Дополнительные примеры

#### Матожадание и среднеее значение

Математическое ожидание

In [None]:
# с помощью библиотеки scipy
from scipy.stats import binom

# для биномиального распределения со следующими параметрами
n, p = 3, 0.7

# рассчитаем матожидание и ожидаемую дисперсию
expected_value, variance = binom.stats(n, p, moments='mv')
expected_value, variance

(array(2.1), array(0.63))

Фактическое среднее значение

In [None]:
# теперь с помощью модуля random
import numpy as np

# проведем миллион биномиальных экспрериментов
res = np.random.binomial(n = 3, p = 0.7, size = 1000000)

# и посмотрим на фактическое среднее значение и фактическую дисперсию
np.mean(res), np.var(res)

(2.100117, 0.6288295863109998)