# Глава 4. Частотные распределения и диаграммы

In [12]:
import numpy as np
import pandas as pd

Обычно после сбора данных у нас есть большое количество чисел, которые может быть необходимо представить в более организованной форме. Это поможет сразу отследить какие-то закономерности.

Один из самых простых вариантов представления большого количества чисел — это частотная таблица. Для того чтобы построить частотную таблицу, необходимо выстроить от меньшего к большему все возможные значения, которые встречаются в наших данных. А потом для каждого их них посчитать частоту — количество раз, сколько встречается это значение.

Например, если мы хотим построить распределение оценок, которые получили школьники за текущую четверть по пятибалльной шкале, то у нас будет пять вариантов значений: $1, 2,3, 4, 5$. И для каждого значения мы можем посчитать, сколько раз такая оценка была выставлена. По полученному распределению можно сразу оценить основную тенденцию: каких оценок большего всего, часто ли ученики получают неудовлетворительные оценки, какова доля четверок и т.д.ь

Давайте рассмотрим наш пример с оценками не в теории, а на практике. Пусть у нас есть  школьников, которые написали контрольную по программированию и получили разные оценки от $2$ до $5$  

In [84]:
scores = np.array([3,2,3,3,5,4,3,2,4,2,3,4,5,2,4,3,4,5,5,4,3,3,3,2,3])
df = pd.DataFrame(pd.DataFrame(scores, columns=['scores']).value_counts(sort=False)).rename(columns={0: 'freq'}).reset_index()
df.T

Unnamed: 0,0,1,2,3
scores,2,3,4,5
freq,5,10,6,4


Смотря на такую таблицу, мы сразу можем сделать ряд выводов: например, о том, что контрольная была явно сложная, так как очень мало отличных оценок, достаточно много неудовлетворительных и больше всего оценок «удовлетворительно».

С помощью такого распределения можно так же быстро сделать дополнительные вычисления: для начала мы можем посчитать сумму всех оценок, но не складывая все оценки по очереди, а складывая произведения значения и его частоты:
$$
2 \cdot 5 + 3 \cdot 10 + 4 \cdot 6 + 5 \cdot 4 = 10 + 30 + 24 + 20 = 84
$$

И так же просто можно посчитать среднее значение, если поделить полученную сумму на количество:
$$
\frac{84}{25} = 3.36
$$

In [88]:
print((df['scores'] * df['freq']).sum() / len(scores))
print(scores.mean())

3.36
3.36


Иногда в распределениях считают не абсолютные частоты, а пропорции или проценты. Так проще показать, какую долю занимают те или иные значения. В нашем примере мы видим, что двойку получило $5$ человек из $25$. Значит, мы можем рассчитать, что это $\frac{5}{25} = 0.2$  от общего количества,если считать долю. Или $0.2 \cdot 100 = 20\%$, если считать в процентах.

Добавим к нашим значениям в таблицу представление в виде доли и в виде процента:

In [91]:
pd.DataFrame(pd.DataFrame(scores, columns=['scores']).value_counts(sort=False, normalize=True)).rename(columns={0: 'shape'}) \
    .reset_index().T

Unnamed: 0,0,1,2,3
scores,2.0,3.0,4.0,5.0
shape,0.2,0.4,0.24,0.16
