# 7. Статистические методы

## АГРЕГИРУЮЩИЕ МЕТОДЫ

Мы научились выводить информацию о статистических показателях с помощью метода describe(). Однако этот метод становится не очень удобным, когда необходимо найти только один статистический параметр, например только среднюю цену,  и использовать их в дальнейшем коде. Поэтому в Pandas предусмотрены инструменты быстрого вычисления показателей с помощью агрегирующих методов. 

Агрегирующим в Pandas называется метод, который для каждого столбца возвращает только одно значение — показатель (например, вычисление медианы, максимума, среднего и так далее).

Ниже приведена таблица основных агрегирующих методов:

МЕТОД | СТАТИСТИЧЕСКИЙ ПАРАМЕТР
---|---
.count() | Количество непустых значений
.mean() | Среднее значение
.min() | Минимальное значение
.max() | Максимальное значение
.deviance() | Дисперсия
.sum() | Сумма
.quantile(x) | Квантиль уровня x
.nunique() | Число уникальных значений


Если один из этих методов применить ко всему DataFrame, то в результате его работы будет получен объект типа Series, в котором в качестве индексов будут выступать наименования столбцов, а в качестве значений — статистический показатель. В случае применения метода к отдельному столбцу результатом вычислений станет число.

В каждый метод можно передать некоторые параметры, среди которых:
- axis  — определяет, подсчитывать параметр по строкам или по столбцам;
- numeric_only — определяет, вычислять параметры только по числовым столбцам/строкам или нет (True/False).

Разберём агрегирующие функции на примерах.

Вычислим среднюю цену на объекты недвижимости:



In [1]:
import pandas as pd

In [2]:
melb_data = pd.read_csv('data/melb_data.csv', sep=',')

In [3]:
print(melb_data['Price'].mean())
# 1075684.079455081

1075684.079455081


Найдём максимальное количество парковочных мест:

In [4]:
print(melb_data['Car'].max())
# 10

10.0


А теперь представим, что риэлторская ставка для всех компаний за продажу недвижимости составляет 12%. Найдём общую прибыльность риэлторского бизнеса в Мельбурне. Результат округлим до сотых:

In [9]:
rate = 0.12
income = melb_data['Price'].sum() * rate
print(f'Прибыльность риэлторского бизнеса в Мельбурне: {income:.2f}')

Прибыльность риэлторского бизнеса в Мельбурне: 1752934775.88


Найдём, насколько медианная площадь территории отличается от её среднего значения. Вычислим модуль разницы между медианой и средним и разделим результат на среднее, чтобы получить отклонение в долях:

In [10]:
landsize_median = melb_data["Landsize"].median()
landsize_mean = melb_data["Landsize"].mean()
print(abs((landsize_median - landsize_mean) / landsize_mean))

0.21205713983546193


В результате получаем долю отклонения медианы от среднего значения. Умножив результат на 100, получим его в процентах. Отклонение медианы от среднего значения на 21% является довольно большим, и это повод задуматься над тем, чтобы исследовать признак на наличие аномалий. 

## МОДАЛЬНОЕ ЗНАЧЕНИЕ

→ Отдельный интерес представляет статический показатель моды — самого распространённого значения в столбце. Он вычисляется с помощью метода mode().

Модальных значений может быть несколько, то есть несколько значений могут встречаться одинаковое количество раз. Поэтому метод mode(), в отличие от агрегирующих методов, возвращает не одно число, а серию.

Вычислим, какое число комнат чаще всего представлено на рынке недвижимости:

In [11]:
print(melb_data['Rooms'].mode())
# 0    3
# dtype: int64

0    3
Name: Rooms, dtype: int64


Примечание. Метод mode() может быть использован не только с числовыми столбцами, но и со столбцами типа object. Так, например, с помощью следующего кода можно найти наиболее распространённое название района:


In [12]:
melb_data['Regionname'].mode()

0    Southern Metropolitan
Name: Regionname, dtype: object

✍ Мы рассмотрели основные статистические методы, которые позволяют получить информацию о статистических параметрах столбцов таблицы.

Знание таких параметров позволяет делать важные выводы. Например, уже сейчас мы можем сказать, что средняя цена объектов недвижимости в Мельбурне чуть больше 1 млн, что даёт нам базовое представление о рынке недвижимости в этом городе.

В дальнейшем мы научимся делать более обоснованные и интересные выводы по статистическим параметрам, а пока предлагаем вам закрепить свои знания, выполнив несколько заданий ↓

### Задание 7.1
Для каких столбцов метод std() выполнится с ошибкой?
Отметьте все подходящие варианты ответов.

- A Landsize
- B Price
- C Date
- D Type

Ответ: C, D

### Задание 7.2
Чему равно максимальное количество домов на продажу в районе (Propertycount)?


In [13]:
melb_data['Propertycount'].max()

21650.0

Ответ: 21650

### Задание 7.3
Чему равно стандартное отклонение (разброс) расстояния от центра города до объекта недвижимости?

In [15]:
round(melb_data['Distance'].std())

6

Ответ: 6

### Задание 7.4
Чему равно отклонение (в процентах) медианного значения площади здания от его среднего значения?
Ответ округлите до целого числа. Не указывайте знак %.

In [16]:
melb_data.columns

Index(['index', 'Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method',
       'SellerG', 'Date', 'Distance', 'Postcode', 'Bedroom', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount', 'Coordinates'],
      dtype='object')

In [21]:
building_area_median = melb_data['BuildingArea'].median()
building_area_mean = melb_data['BuildingArea'].mean()
round((building_area_mean - building_area_median) / building_area_mean * 100)

10

Ответ: 10

### Задание 7.5
Задан ряд чисел [1, 2, 4, 2, 3, 2, 1, 5, 6]. Чему равна мода в данном ряду?

Ответ: 2

### Задание 7.6
Сколько спален чаще всего встречается в домах в Мельбурне?

In [22]:
melb_data['Rooms'].mode()

0    3
Name: Rooms, dtype: int64

Ответ: 3