# Агрегирующие методы

 Мы научились выводить информацию о статистических показателях с помощью метода describe(). Однако этот метод становится не очень удобным, когда необходимо найти только один статистический параметр, например только среднюю цену,  и использовать их в дальнейшем коде. Поэтому в Pandas предусмотрены инструменты быстрого вычисления показателей с помощью агрегирующих методов.  
 Агрегирующим в Pandas называется метод, который для каждого столбца возвращает только одно значение — показатель (например, вычисление медианы, максимума, среднего и так далее).

 
| Метод | Статистический параметр |
|--------------|--------------|
| .count() | Количество непустых значений |
| .mean() | Среднее значение |
| .min() | Минимальное значение |
| .max() | Максимальное значение |
| .var() | Дисперсия |
| .std() | Стандартное отклонение |
| .sum() | Сумма |
| .quantile(x) | Квантиль уровня x |
| .nunique() | Число уникальных значений |

Если один из этих методов применить ко всему DataFrame, то в результате его работы будет получен объект типа Series, в котором в качестве индексов будут выступать наименования столбцов, а в качестве значений — статистический показатель. В случае применения метода к отдельному столбцу результатом вычислений станет число.

В каждый метод можно передать некоторые параметры, среди которых:

axis  — определяет, подсчитывать параметр по строкам или по столбцам;  
numeric_only — определяет, вычислять параметры только по числовым столбцам/строкам или нет (True/False).

In [1]:
import pandas as pd
melb_data = pd.read_csv('data/melb_data.csv', sep=',')

In [2]:
# Вычислим среднюю цену на объекты недвижимости:
print(melb_data['Price'].mean())
# Найдём максимальное количество парковочных мест:
print(melb_data['Car'].max())

1075684.079455081
10.0


In [3]:
# А теперь представим, что риэлторская ставка для всех компаний за продажу недвижимости составляет 12%. Найдём общую прибыльность риэлторского бизнеса в Мельбурне.
# Результат округлим до сотых:
rate = 0.12
income = melb_data['Price'].sum() * rate
print('Total income of real estate agencies:', round(income, 2))

Total income of real estate agencies: 1752934775.88


In [4]:
# Найдём, насколько медианная площадь территории отличается от её среднего значения.
# Вычислим модуль разницы между медианой и средним и разделим результат на среднее, чтобы получить отклонение в долях:
landsize_median = melb_data['Landsize'].median() 
landsize_mean =  melb_data['Landsize'].mean()
print(abs(landsize_median - landsize_mean)/landsize_mean)

0.21205713983546193


В результате получаем долю отклонения медианы от среднего значения. Умножив результат на 100, получим его в процентах. Отклонение медианы от среднего значения на 21% является довольно большим, и это повод задуматься над тем, чтобы исследовать признак на наличие аномалий. 

## Модальное значение

→ Отдельный интерес представляет статический показатель моды — самого распространённого значения в столбце. Он вычисляется с помощью метода mode().

Модальных значений может быть несколько, то есть несколько значений могут встречаться одинаковое количество раз. Поэтому метод mode(), в отличие от агрегирующих методов, возвращает не одно число, а серию.

In [None]:
# Вычислим, какое число комнат чаще всего представлено на рынке недвижимости:
print(melb_data['Rooms'].mode())

0    3
Name: Rooms, dtype: int64


Примечание. Метод mode() может быть использован не только с числовыми столбцами, но и со столбцами типа object. Так, например, с помощью следующего кода можно найти наиболее распространённое название района:

In [6]:
melb_data['Regionname'].mode()

0    Southern Metropolitan
Name: Regionname, dtype: object