## Некоторые важные статистические функции

In [1]:
import numpy as np # Подключаем NumPy

Функция `mean` позволяет найти среднее (арифметическое) значение элементов массива:

In [2]:
arr = np.array([1., 2., 3., 4.])
np.mean(arr)

2.5

Если числа в массиве `arr` представляют собой величину заработной платы пяти человек,
то `np.mean(arr)` — средняя заработная плата этой группы людей:

In [3]:
arr = np.array([1., 1., 1., 2., 999995.])
np.mean(arr)

200000.0

Другой важной статистической характеристикой массива чисел является *медиана* — число, которое находится в середине массива, если его упорядочить по возрастанию:

In [4]:
arr = np.array([1., 1., 1., 2., 999995.])
np.median(arr)

1.0

В ситуациях, подобных проведённой ниже, медианой считают полусумму двух «средних» элементов:

In [5]:
arr = np.array([1., 1., 2., 999996.])
np.median(arr)

1.5

Мы уже видели на примерах, что среднее значение, вообще говоря, не позволяет получить адекватное
представление о массиве чисел. Важной и часто используемой характеристикой массива является
*стандартное отклонение*, часто называемое также *среднеквадратическим* или *среднеквадратичным отклонением*.
Эта величина показывает усреднённую величину отклонения элементов массива от их среднего значения:

In [6]:
arr = np.array([1., 2., 3., 4.])
np.std(arr)

1.118033988749895

In [7]:
arr = np.array([100., 200., 300., 400.])
np.std(arr)

111.80339887498948

In [8]:
arr = np.array([1., 1., 1., 1.])
np.std(arr)

0.0

Для многомерных массивов функция `mean` позволяет также находить и среднее значение «по указанной оси»:

In [9]:
a = np.array([[1., 2.], [3., 4.]])
display(a)
display(np.mean(a))
display(np.mean(a, axis=0))
display(np.mean(a, axis=1))

array([[1., 2.],
       [3., 4.]])

2.5

array([2., 3.])

array([1.5, 3.5])

## Другие полезные функции библиотеки NumPy

Двумерные массивы (таблицы) часто хранят в текстовых файлах с расширением `csv` (comma seprated values), где смежные величины в строке отделяются друг от друга запятой (возможно, точкой с запятой, или каким-то иным «стандартным» символом). Такие файлы легко открывают программы, предназначенные для работы с электронными таблицами: Open Office, Libre Office или Microsoft Excel.

Вот простой пример файла `data.csv`:

~~~
1.,3.,4.
0.,2.,1.
~~~


Функция `genfromtxt` позволяет создать двумерный массив из чисел, содержащихся в этом`csv`-файле:

In [10]:
arr = np.genfromtxt('data.csv', delimiter=',')
display(arr)

array([[1., 3., 4.],
       [0., 2., 1.]])

Часто бывает нужно объединить несколько массивов в один. Эту задачу позволяет решить функция
`concatenate`, использовать которую особенно просто для одномерных массивов:

In [11]:
arr1 = [2., 3., 4.]
arr2 = [5., -1, 0.]
np.concatenate([arr1, arr2])

array([ 2.,  3.,  4.,  5., -1.,  0.])

Для изменения формы многомерного массива можно воспользоваться методом `reshape`, аргументом которого является кортеж величин, задающих размеры создаваемого массива:

In [12]:
arr = np.array([[1, 2, 3], [4, 5, 6]])
display(arr)
arr.reshape((3, 2))

array([[1, 2, 3],
       [4, 5, 6]])

array([[1, 2],
       [3, 4],
       [5, 6]])

Так как количество элементов в массиве метод `reshape` не меняет, то он «может самостоятельно вычислить» одно из измерений создаваемого массива, вместо которого можно указывать `-1`:

In [13]:
arr = np.array([[1, 2, 3], [4, 5, 6]])
display(arr)
arr.reshape((-1, 2))

array([[1, 2, 3],
       [4, 5, 6]])

array([[1, 2],
       [3, 4],
       [5, 6]])

## Формулировка задачи

С помощью библиотеки NumPy следует определить статистические характеристики
потока ы-частиц (Ы — 29-я буква русского алфавита) на основе данных их 
регистрации специализированным
ы-детектором в июле 2021 года. Данные представлены в виде csv-файлов,
имена которых содержат дату наблюдения. Каждый из файлов содержит 24 строки и
3600 столбцов. Число, содержащееся в $i$-й строке и $j$-м столбце, соответствует
количеству ы-частиц, зарегистрированных за $j$-ю секунду $i$-го часа
соответствующего дня. 

Файлы с именами `2021-07-21.csv`, `2021-07-22.csv`, …, `2021-07-30.csv` приложены.
Для чтения данных из csv-файлов следует воспользоваться функцией `np.genfromtxt`.

Требуется эффективно (используя функции и методы библиотеки NumPy):

- обработать измерения за период с 22 по 27 июля;
- не учитывать при этом ежедневные измерения, сделанные вне промежутка от 12 до 15 часов;
- с целью уменьшения влияния ошибок ы-детектора вместо величин ежесекундных
  измерений рассматривать усреднённые за 5 секунд значения.

В результате решения задачи для указанного выше множества данных об
интенсивности потока ы-частиц должны быть вычислены и напечатаны округлённые
до трёх десятичных цифр после запятой:

- среднее значение;
- медиана;
- стандартное отклонение.

## Решение задачи

Прочитать данные из первого нужного нам файла (соответствующего 22 июля) следует так:

In [14]:
arr = np.genfromtxt('2021-07-22.csv', delimiter=',')
display(arr)

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

Нулей в этом массиве действительно много, но вовсе не все числа в нём нулевые:

In [15]:
arr[12, 1800]

8536.0

Так как нам не нужны измерения, сделанные вне промежутка от 12 до 15 часов, то реализуем это с помощью вырезки:

In [16]:
arr = np.genfromtxt('2021-07-22.csv', delimiter=',')[[12, 13, 14], :]
display(np.shape(arr))
display(arr)

(3, 3600)

array([[7233., 7337., 7251., ..., 8882., 8995., 9061.],
       [8833., 8935., 8875., ..., 6704., 6691., 6757.],
       [6699., 6650., 6648., ..., 2733., 2671., 2725.]])

В каждой из трёх строк этого массива содержатся 3600 чисел, каждое из которых равно
количеству зарегистрированных ы-частиц в соответствующую секунду часа. 

Нам необходимо вместо величин ежесекундных измерений рассматривать усреднённые за 5 секунд
значения. Проще всего этого добиться следующим образом: с помощью метода `reshape` создадим 
«пятёрки» чисел и методом `mean` вычислим их средние значения, получая одномерный массив:

In [17]:
arr = np.genfromtxt('2021-07-22.csv', delimiter=',')[[12, 13, 14], :].reshape(-1, 5).mean(axis=1)
display(arr)
display(len(arr))

array([7280.8, 7192. , 7242.4, ..., 2697.8, 2696.4, 2709.6])

2160

Понимаете ли вы, почему в нём содержится 2160 чисел?

Так как нам нужно обработать данные за несколько дней (с 22 по 27 июля), то нужно выполнить
указанные действия для каждого из них и объединить получаемые массивы в один:

In [18]:
arr = np.concatenate([
    np.genfromtxt(f'2021-07-{day}.csv',
                  delimiter=',')[[12, 13, 14], :].reshape(-1, 5).mean(axis=1)
    for day in range(22, 28)
])
display(arr)
display(len(arr))

array([7280.8, 7192. , 7242.4, ..., 3404.6, 3428.6, 3408.4])

12960

Остаётся вычислить требуемые статистические характеристики полученного массива и округлить их
с помощью функции `round`:

In [19]:
print(f'Mean   = {round(np.mean(arr), 3)}')
print(f'Median = {round(np.median(arr), 3)}')
print(f'Std    = {round(np.std(arr), 3)}')

Mean   = 7237.673
Median = 8036.4
Std    = 1830.902


Задача полностью решена.