# Занятие 2. Описательная статистика. Построение графиков.

## Описательные статистики.

В статистике есть ряд величин, которые характеризуют данные. Их можно использовать для "первого взгляда" на выборку. Их можно разделить на две группы:

* Величины, которые характеризуют центральную тенденцию (среднее, медиана, мода)
* Величины, которые характеризуют разброс данных (дисперсия, стандартное отклонение)

Сегодня в качестве модельного набора данных мы возьмём данные об оценках студентов за экзамены.

Поехали!

Для начала загрузим данные и посмотрим на них.


In [None]:
import pandas as pd

data = # Ваш код
data.head()

In [None]:
data.info()

In [None]:
data.describe()

Сначала поговорим про величины, характеризующие центральную тенденцию.

### Среднее значение.

Оно же среднее арифметическое, выборочное среднее, mean value. 

Вычисляется оно по формуле:

$\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i$

Наиболее интуитивная величина. "Взять всё и поделить". Часто действительно хорошо выражает центральную тенденцию (но не всегда). 

Давайте в качестве примера найдём среднее значение оценки мальчиков и девочек за экзамен по математике.

In [None]:
print("Мальчики:", data[data.gender == "male"]["math score"].mean())
print("Девочки: ", data[data.gender == "female"]["math score"].mean())

### Медиана. 

Пусть дана выборка $x_1, x_2, \ldots, x_n$. Отсортируем её значения по возрастанию и получим новую последовательность $x_{(1)}, x_{(2)}, \ldots, x_{(n)}$. Тогда медианой называется значение, которое делит эту последовательность на две равные части. Если $n$ нечётно, то медиана равна $x_{(n+1)/2}$. Если $n$ чётно, то медиана равна среднему арифметическому двух средних элементов: $x_{n/2}$ и $x_{n/2+1}$.

То есть медиана -- это значение, которое делит выборку на две равные части: половина выборки меньше медианы, половина -- больше. 

In [None]:
print("Мальчики:",   data[data.gender == "male"]["math score"].median())
print("Девочки: ", data[data.gender == "female"]["math score"].median())

Мы видим, что в данном случае среднее и медиана довольно сильно отличаются. Чуть позже, перейдя к графикам, мы наглядно увидим причины этого и поговорим, когда медиана лучше среднего.

### Мода.

Мода определяется как наиболее часто встречающееся значение в выборке. 

Её удобнее всего использовать для категориальных или квантизованных данных (равномерно разбитых на несколько интервалов). 

In [None]:
print("Мальчики:",   data[data.gender == "male"]["math score"].mode())
print("Девочки: ", data[data.gender == "female"]["math score"].mode())

In [None]:
data["parental level of education"].mode()

In [None]:
data["lunch"].mode()

Теперь поговорим про величины, характеризующие разброс данных. 

### Дисперсия и стандартное отклонение.

Важным показателем данных является то, насколько данные сгруппированы вокруг среднего значения или наоборрот рассеяны. Для этого можно найти среднее значение, а дальше посчитать насколько в среднем каждый отдельный элемент отклоняется от него.

Формула: 

$$\mathbb{D}[X] = \sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2$$

Как видно из формулы, дисперсия -- это среднее значение квадратов отклонений от среднего. И эта формула возводит "размерность" данных в квадрат. Поэтому для удобства вводят стандартное отклонение, которое равно квадратному корню из дисперсии. Таким образом, стандартное отклонение имеет ту же размерность, что и исходные данные.

$$std = \sqrt{\mathbb{D}} = \sigma$$



In [None]:
print("Мальчики:",   data[data.gender == "male"]["math score"].var())
print("Девочки: ", data[data.gender == "female"]["math score"].var())

In [None]:
print("Мальчики:",   data[data.gender == "male"]["math score"].std())
print("Девочки: ", data[data.gender == "female"]["math score"].std())

## Построение графиков. Модуль matplotlib.pyplot

При изучении данных часто бывает полезно визуализировать их. Для этого в Python есть модуль matplotlib.pyplot. Визуализация помогает оценить распределение данных, корреляции между переменными, а также выявить выбросы и аномалии. 

### Гистограмма.

Для оценки распределения данных часто используют гистограммы. Гистограмма показывает, как часто встречаются различные значения в выборке. Для этого область значений выборки разбивается на несколько равных интервалов-корзин ("bins"). Затем подсчитывается количество значений, попавших в каждую корзину. 

Таким образом, гистограмма показывает, как часто встречаются различные значения в выборке. 

Для примера построим гистограмму распределения оценок по математике.


In [None]:
import matplotlib.pyplot as plt

math_scores = data["math score"]

plt.hist(math_scores, bins=20)

plt.title("Распределение оценок по математике")
plt.xlabel("Оценка")
plt.ylabel("Частота")
plt.show()

Мы видим, что на гистограмме очень много нулевых значений. Это мешает оценить распределение игр, которые продавались в США. Давайте построим гистограмму, исключив нулевые значения.

In [None]:
male_math_scores   = data[data.gender == "male"]["math score"]
female_math_scores = data[data.gender == "female"]["math score"]

plt.hist(male_math_scores,   bins=20, label="мальчики", alpha=0.3, range=(0, 100))
plt.hist(female_math_scores, bins=20,  label="девочки", alpha=0.3, range=(0, 100))

plt.title("Распределение оценок по математике")
plt.xlabel("Оценка")
plt.ylabel("Частота")
plt.legend()
plt.show()

Давайте добавим на график среднее, медиану и моду.












In [None]:
male_math_scores   = data[data.gender == "male"]["math score"]
female_math_scores = data[data.gender == "female"]["math score"]

def plot_hist_and_line(ax, male_data, female_data,
                       male_line_param, female_line_param, label):
    ax.hist(male_data,   bins=20, label="мальчики", alpha=0.3, range=(0, 100))
    ax.hist(female_data, bins=20,  label="девочки", alpha=0.3, range=(0, 100))
    ax.vlines(male_line_param, 0, 82, label=f"муж_{label}", color="blue")
    ax.vlines(female_line_param, 0, 82, label=f"жен_{label}", color="red")
    ax.legend()
    ax.set_xlabel("Оценка")
    ax.set_ylabel("Частота")
    return ax

fig, axs = plt.subplots(ncols=3, figsize=(14, 5))

plot_hist_and_line(axs[0], male_math_scores, female_math_scores, 
                   male_math_scores.mean(), female_math_scores.mean(), "среднее")

plot_hist_and_line(axs[1], male_math_scores, female_math_scores, 
                   male_math_scores.median(), female_math_scores.median(), "медиана")

plot_hist_and_line(axs[2], male_math_scores, female_math_scores, 
                   male_math_scores.mode(), female_math_scores.mode(), "мода")


plt.show()

### Boxplot

Другим, чуть более информативным (и в то же время -- более лаконичным) вариантом визуализации распределения является boxplot или ящик с усами.

![Описание боксплота](boxplot.png)

In [None]:
plt.boxplot([male_math_scores, female_math_scores], labels=["male", "female"], vert=False)
plt.xlabel("Оценка")
plt.show()

### Scatter plot

Для визуализации взаимной зависимости между двумя переменными можно использовать scatter plot.

In [None]:
math_scores    = data["math score"]
writing_scores = data["writing score"]
reading_scores = data["reading score"]

def scatter_plot(ax, x_data, y_data, x_label, y_label):
    ax.scatter(x_data, y_data)
    ax.set_xlabel(x_label)
    ax.set_ylabel(y_label)
    return ax

fig, axs = plt.subplots(ncols=3, figsize=(18, 6))

scatter_plot(axs[0], math_scores, writing_scores, "math", "writing")
scatter_plot(axs[1], math_scores, reading_scores, "math", "reading")
scatter_plot(axs[2], reading_scores, writing_scores, "reading", "writing")
plt.show()

### Barplot

Кстати, чуть не забыл. Давайте посмотрим на распределение по полу.

Вдруг в этой выборке малчиков сильно больше/меньше, чем девочек? 

В этом нам поможет barplot.

In [None]:
male_count = (data["gender"] == "male").sum()
female_count = (data["gender"] == "female").sum()

genders = ["male", "female"]

plt.bar(genders, [male_count, female_count])
plt.ylabel("Количество")
plt.show()

Построим аналогичный график, но для каждого уровня образования родителей.

In [None]:
parent_education_counts = data["parental level of education"].value_counts()

values = parent_education_counts.values
educations = parent_education_counts.index

plt.barh(educations, values)
plt.plot()

## Семинар 2. Медиана vs среднее

В ходе семинара мы постараемся выяснить, в каких случаях лучше использовать медиану, а в каких -- среднее.

На рассмотренных данных мы видели, что медиана и среднее были довольно близки.

Теперь представим такой набор данных: пусть есть некая компания N, и мы знаем зарплаты ее сотрудников. Всего сотрудников 103. 50 из них получают ЗП от 50 до 100, ещё 30 получают от 100 до 200, и ещё 20 получают от 200 до 250.

Но есть три начальника, которые получают по 4000 каждый. Посмотрим, как тогда будет выглядеть распределение.








In [None]:
import numpy as np

juniors = np.random.uniform( 50, 100, size=50)
middles = np.random.uniform(100, 200, size=30)
seniors = np.random.uniform(200, 250, size=20)

big_bosses = [5000, 5000, 5000]

all_employees = pd.Series(np.concatenate([juniors, middles, seniors, big_bosses]))

1. Постройте для этих данных гистограмму. Что вы видете? 

2. На другом графике постройте гистограмму без начальников. На этом же графике вертикальными линиями изобразите среднее и медиану (взятые по всей выборке). Что вы видете?  

3. Постройте boxplot для этих данных. Что вы видете? Есть выбросы?