Задача 1. В некоторой лотерее участвуют игроки, выбирающие шесть чисел без замены из интервала [1, 49]. Джекпот разделяется между игроками, угадавшими все шесть чисел («выпавших лотерейных шаров»), выбранных случайным образом в розыгрыше, который проводится каждые две недели (порядок угаданных чисел не имеет значения). Если ни один из игроков не угадал каждое выпавшее число, то джекпот считается неразыгранным и добавляется к джекпоту следующего розыгрыша. Несмотря на то что эта лотерея честная в том смысле, что каждая комбинация случайно выбираемых чисел является равновероятной, было сделано следующее наблюдение: многие игроки отдают предпочтение выбору определенных чисел, например представляющих даты (т.е. большинство выбираемых чисел находится в интервале [1, 31], как будто эти числа ожидаются в большей степени, чем выбираемые случайно). Поэтому, чтобы избежать дележа джекпота, следовательно, получить максимальный выигрыш в одиночку, имеет смысл не использовать эти числа.

Проверить это предположение, установив, существует ли какая-либо связь (корреляция) между количеством шаров со значениями меньше 13 (представляющих номер месяца) и выигрышами джекпота одним человеком. Не учитывать розыгрыши, которые приводили к увеличению джекпота (т.е. без выигравших текущий джекпот). Необходимые данные lottery-draws.txt можно скачать в ресурса
х.

In [None]:
import numpy as np

# Считываем данные из файла
data = np.genfromtxt('lottery-draws.txt', delimiter=' ', skip_header=1, usecols=(1, 2, 3, 4, 5, 6))

# Функция для определения, выиграл ли кто-то джекпот (выбрал все 6 чисел)
def has_jackpot(row):
    return np.sum(row < 13) == 0

# Фильтруем только розыгрыши, которые не привели к увеличению джекпота
filtered_data = data[data[:, 0] == 0]

# Определяем, выиграл ли кто-то джекпот в каждом розыгрыше
jackpot_wins = np.array([has_jackpot(row) for row in filtered_data])

# Количество шаров с номерами меньше 13 в каждом розыгрыше
balls_less_than_13 = np.sum(filtered_data[:, 1:] < 13, axis=1)

# Вычисляем корреляцию между количеством таких шаров и выигрышами джекпота
correlation = np.corrcoef(balls_less_than_13, jackpot_wins)[0, 1]

print("Корреляция между количеством шаров с номерами меньше 13 и выигрышами джекпота:", correlation)

Задача 2. В этом разделе мы видели, как создать графическое изображение гистограммы из массива с помощью метода pyplot.hist, но предположим, что массивы hist и bins уже созданы с использованием метода np.histogram и необходимо построить итоговую гистограмму по этим массивам. Невозможно воспользоваться pyplot.hist, потому что эта функция ожидает для обработки массив исходных данных. Необходимо использовать pyplot.bar для создания изображения по массиву hist в виде столбиковой диаграммы (bar chart, собственно, это и есть гистограмма).

In [None]:
import matplotlib.pyplot as plt

# Ваши массивы hist и bins
hist = [10, 20, 30, 40, 50]  # Пример данных
bins = [0, 10, 20, 30, 40, 50]  # Пример интервалов

# Создаем графическое изображение гистограммы с помощью pyplot.bar
plt.bar(bins[:-1], hist, width=np.diff(bins), align='edge')

# Настройка меток и заголовка
plt.xlabel('Интервалы')
plt.ylabel('Частота')
plt.title('Гистограмма')

# Отображаем график
plt.show()

Задача 3 Значения роста в сантиметрах в выборке из 1000 взрослых мужчин и 1000 взрослых женщин из определенной совокупности собраны в файлах данных ex6-3-f-male-heights.txt и ex6-3-f-female-heights.txt, доступных в ресурсах. Прочитать эти данные и вычислить среднее значение и стандартное отклонение по каждому полу. Создать гистограммы для этих двух наборов данных с использованием наиболее подходящего интервала и показать их графически на одном изображении. Решить эту же задачу в единицах британской системы (в футах и дюймах).

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pylab

fsample = np.loadtxt('ex6-3-f-female-heights.txt').flatten()
msample = np.loadtxt('ex6-3-f-male-heights.txt').flatten()
heights = np.zeros((1000,), dtype={'names': ['female', 'male'],
                                   'formats': ['f8', 'f8']})
heights['female'] = np.loadtxt('ex6-3-f-female-heights.txt').flatten()
heights['male'] = np.loadtxt('ex6-3-f-male-heights.txt').flatten()
fav, fstd = heights['female'].mean(), heights['female'].std()
mav, mstd = heights['male'].mean(), heights['male'].std()
all_heights_view = heights.view((('f8', 2))).flatten()
bins = np.linspace(135, 210, 16)
mhist, _, _ = pylab.hist(heights['male'], bins, color='b')
fhist, _, _ = pylab.hist(heights['female'], bins, alpha=0.75, color='m')
print('Height (cm)  Female  Male')
print('-'*27)
for b, f, m in np.vstack((bins[:-1], fhist, mhist)).T:
    print('  {:d}-{:d}     {:3d}    {:3d}'.format(int(b), int(b)+5,
                                                   int(f), int(m)))
print('-'*27)
print('Mean (cm):   {:5.1f}  {:5.1f}'.format(fav, mav))
print(' Std (cm):   {:5.1f}  {:5.1f}'.format(fstd, mstd))
print('-'*27)