# Python для сбора и анализа данных

*Алла Тамбовцева, НИУ ВШЭ*

### Генерирование случайных чисел

In [1]:
import random

Представим, что нам нужно получить любое случайное число от 0 до 1, исключая правый конец. То есть некоторое число с плавающей точкой из полуинтервала $[0,1)$. Для этого нам достаточно вызвать функцию `random()`.

In [2]:
random.random()

0.5830747948276461

Так как функция возвращает случайное число, результаты при каждом её вызове (при вызове на лругом компьютере) будут разными. Сравним число выше с числом из следующей ячейки:

In [3]:
random.random()  # отличаются!

0.6601742393616705

Иногда, например, при проведении компьютерных симуляций, необходимо обеспечить воспроизводимость кода. Если в коде «зашита» случайность, то обеспечить повторимость кода не получится. Но случайные числа в программировании – они на то и не чисто случайные, а псевдослучайные, потому что ими всё же можно управлять. Можно зафикисировать позицию, с которой алгоритм будет стартовать (`seed`), и тогда при повторном запуске кода результат будет одинаковый. Проверим:

In [4]:
random.seed(1234)
random.random()

0.9664535356921388

In [5]:
random.seed(1234)
random.random() # получилось!

0.9664535356921388

Если нам нужно выбрать целое число из заданного отрезка, промежутка от $a$ до $b$, включая оба конца, можно воспользоваться функцией `randint()` (от *random integer*): 

In [6]:
random.randint(1, 10)  # случайное целое от 1 до 10 включительно

8

Кроме того, в модуле `random` есть ещё одна функция `randrange()`, которая тоже возвращает случайное целое число из заданного промежутка, только как в любом `range()` правый конец отрезка не включается:

In [7]:
random.randrange(0, 101)  # от 0 до 100 включительно

14

Однако функция `randrange()` более гибкая: она позволяет выставлять шаг, с которым мы будем двигаться по интервалу. По умолчанию шаг равен 1 (мы берем все целые числа подряд), но его можно изменить:

In [8]:
# посмотрим на результаты, вызвав генератор несколько
# раз в цикле
for i in range(0, 6):
    n = random.randrange(0, 101, 10)  # шаг 10
    print(n)

0
10
90
0
100
10


### Случайный выбор

Ещё с помощью модуля `random` можно случайным образом выбирать элементы из какого-нибудь итерируемого объекта (строки, списка, кортежа). Для этого нам понадобится функция `random()`. Выберем случайный символ из строки:

In [9]:
random.choice('world is')

'o'

Случайный элемент из списка:

In [10]:
random.choice([4, 7, 8, 0, 2, 33])

8

Или кортежа:

In [11]:
random.choice(('q', 'w', 'e', 'r', 't', 'y'))

'w'

Если нам нужно выбрать больше одного элемента (получить случайную выборку), то понадобится функция `sample()`: 

In [12]:
L = [8, 9, 10, 0, 3, 5, 6, 12, 13, 1]
random.sample(L, 3)  # 3 случайных элемента из L

[8, 1, 13]

Функция `sample()` извлекает случайные элементы без повторения, то есть каждый элемент списка `L` может встретиться в выборке ровно один раз. Если мы запросим для выборки больше элементов, чем есть в исходном списке, Python выдаст ошибку:

In [13]:
random.sample(L, 30)

ValueError: Sample larger than population or is negative

Действительно, длина списка `L` равна 10, а мы хотим получить из него 30 элементов без повторений, что невозможно. Для выборки с повторяющимися значениями можно либо импортировать модуль `random` из библиотеки `numpy`, либо воспользоваться функцией `choices()`, которая появилась в Python 3.6:

In [14]:
print(random.choices(L, k=30)) # k=30 - 30 элементов

[0, 6, 6, 9, 9, 9, 8, 3, 1, 8, 5, 3, 6, 8, 5, 10, 5, 6, 3, 0, 10, 1, 3, 5, 8, 5, 8, 9, 3, 0]


Получили список из 30 значений списка `L` с повторениями.

Осталось рассмотреть ещё одну распространённую функцию, связанную со «случайностями» в Python. Эта функция (и её аналоги в других библиотеках) пригодится в машинном обучении. В машинном обучении имеющийся набор данных разбивают на две части: обучающая выборка и тестовая выборка. На основе обучающей выборки статистическая модель «настраивается», на основе тестовой проверяется её качество. 

Например, у нас есть 10000 отзывов покупателей о товарах (нам известно, какие из отзывов положительные, а какие – отрицательные, они размечены экспертами), и на основе этих отзывов мы пытаемся построить модель, которая будет угадывать, отзыв является положительным или отрицательным. Для этого мы возьмём 8000 отзывов, обучим на них алгоритм, который в зависимости от разных характеристик отзыва (доля положительно окрашенных слов, количество восклицательных знаков, смайликов и прочее) будет возвращать метки 0 (отрицательный) и 1 (положительный). Когда модель будет готова, её качество нужно будет протестировать. Но тестировать качество имеет смысл на тех отзывах, которых в обучающей выборке не было, то есть на оставшихся 2000 отзывов. Почему проверять качество на обучающих данных неинформативно? Потому что в таком случае качество будет завышенным: модель уже «видела» эти отзывы и «знает», какие у них были метки.

К чему здесь случайность? А вот к чему. Чтобы разбить массив данных на две части, недостаточно выбрать первые сколько-то строк и последние сколько-то строк, потому что может так оказаться, что в массиве сначала идут все положительные отзывы, а потом – все отрицательные. Выход есть: строки можно перемешать! И поможет в этом функция `shuffle()`:

In [15]:
items = [8, 9, 10, 4, 5, 0, 11]  # было
random.shuffle(items)
items  # стало

[9, 10, 0, 4, 5, 11, 8]

Опять же, есть нам важна воспроизводимость кода, перед перемешиванием имеет смысл зафиксировать `seed`. И ещё: обратите внимание, что функция `shuffle()` вносит изменения в сам объект, поэтому если порядок элементов в исходном изменяемом объекте важен, нужно создать копию объекта, и перемешивать элементы уже в ней.