                АГРЕГИРУЮЩИЕ МЕТОДЫ

✍ Мы научились выводить информацию о статистических показателях с помощью метода describe(). Однако этот метод становится не очень удобным, когда необходимо найти только один статистический параметр, например только среднюю цену,  и использовать их в дальнейшем коде. Поэтому в Pandas предусмотрены инструменты быстрого вычисления показателей с помощью агрегирующих методов. 

Агрегирующим в Pandas называется метод, который для каждого столбца возвращает только одно значение — показатель (например, вычисление медианы, максимума, среднего и так далее).

Ниже приведена таблица основных агрегирующих методов:

Способ 1:

In [13]:
import pandas as pd

countries_df = pd.DataFrame({
    'МЕТОД': ['.count()', '.mean()', '.min()', '.max()', '.var()', '.std()', '.sum()','.quantile(x)','.nunique()'],
    'СТАТИСТИЧЕСКИЙ ПАРАМЕТР' : ['Количество непустых значений','Среднее значение','Минимальное значение','Максимальное значение','Дисперсия','Стандартное отклонение','Сумма','Квантиль уровня x','Число уникальных значений'],
})
display(countries_df)

Unnamed: 0,МЕТОД,СТАТИСТИЧЕСКИЙ ПАРАМЕТР
0,.count(),Количество непустых значений
1,.mean(),Среднее значение
2,.min(),Минимальное значение
3,.max(),Максимальное значение
4,.var(),Дисперсия
5,.std(),Стандартное отклонение
6,.sum(),Сумма
7,.quantile(x),Квантиль уровня x
8,.nunique(),Число уникальных значений


Способ 2:

In [14]:
countries_df = pd.DataFrame(
    data = [
        ['.count()', 'Количество непустых значений'],
        ['..mean()', 'Среднее значение'],
        ['.min()', 'Минимальное значение'],
        ['.max()','Максимальное значение'],
        ['.var()','Дисперсия'],
        ['.std()', 'Стандартное отклонение'],
        ['.sum()','Сумма']
    ],
    columns = ['МЕТОД', 'СТАТИСТИЧЕСКИЙ ПАРАМЕТР'],
    #index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
display(countries_df)

Unnamed: 0,МЕТОД,СТАТИСТИЧЕСКИЙ ПАРАМЕТР
0,.count(),Количество непустых значений
1,..mean(),Среднее значение
2,.min(),Минимальное значение
3,.max(),Максимальное значение
4,.var(),Дисперсия
5,.std(),Стандартное отклонение
6,.sum(),Сумма


Если один из этих методов применить ко всему DataFrame, то в результате его работы будет получен объект типа Series, в котором в качестве индексов будут выступать наименования столбцов, а в качестве значений — статистический показатель. В случае применения метода к отдельному столбцу результатом вычислений станет число.

В каждый метод можно передать некоторые параметры, среди которых:

* axis  — определяет, подсчитывать параметр по строкам или по столбцам;

* numeric_only — определяет, вычислять параметры только по числовым столбцам/строкам или нет (True/False).


In [None]:
melb_data = pd.read_csv('data/melb_data.csv', sep=',')

Разберём агрегирующие функции на примерах.

Вычислим среднюю цену на объекты недвижимости:

In [16]:
print(melb_data['Price'].mean())

1075684.079455081


Найдём максимальное количество парковочных мест:

In [17]:
print(melb_data['Car'].max())

10.0


А теперь представим, что риэлторская ставка для всех компаний за продажу недвижимости составляет 12%. Найдём общую прибыльность риэлторского бизнеса в Мельбурне. Результат округлим до сотых:

In [18]:
rate = 12
income = melb_data['Price'].sum() * rate
print('Total income of real estate agencies:', round(income, 2))

Total income of real estate agencies: 175293477588.0


Найдём, насколько медианная площадь территории отличается от её среднего значения. Вычислим модуль разницы между медианой и средним и разделим результат на среднее, чтобы получить отклонение в долях:

In [19]:
landsize_median = melb_data['Landsize'].median() 
landsize_mean =  melb_data['Landsize'].mean()
print(abs(landsize_median - landsize_mean)/landsize_mean)

0.21205713983546193


In [20]:
print(landsize_median)

440.0


In [21]:
print(landsize_mean)

558.4161266568483


В результате получаем долю отклонения медианы от среднего значения. Умножив результат на 100, получим его в процентах. Отклонение медианы от среднего значения на 21% является довольно большим, и это повод задуматься над тем, чтобы исследовать признак на наличие аномалий. 


                МОДАЛЬНОЕ ЗНАЧЕНИЕ

→ Отдельный интерес представляет статический показатель моды — самого распространённого значения в столбце. Он вычисляется с помощью метода mode().

Модальных значений может быть несколько, то есть несколько значений могут встречаться одинаковое количество раз. Поэтому метод mode(), в отличие от агрегирующих методов, возвращает не одно число, а серию.

Вычислим, какое число комнат чаще всего представлено на рынке недвижимости:

In [22]:
print(melb_data['Rooms'].mode())

0    3
Name: Rooms, dtype: int64


Примечание. Метод mode() может быть использован не только с числовыми столбцами, но и со столбцами типа object. Так, например, с помощью следующего кода можно найти наиболее распространённое название района:

In [23]:
melb_data['Regionname'].mode()

0    Southern Metropolitan
Name: Regionname, dtype: object

✍ Мы рассмотрели основные статистические методы, которые позволяют получить информацию о статистических параметрах столбцов таблицы.

Знание таких параметров позволяет делать важные выводы. Например, уже сейчас мы можем сказать, что средняя цена объектов недвижимости в Мельбурне чуть больше 1 млн, что даёт нам базовое представление о рынке недвижимости в этом городе.

В дальнейшем мы научимся делать более обоснованные и интересные выводы по статистическим параметрам, а пока предлагаем вам закрепить свои знания, выполнив несколько заданий ↓

In [24]:
print(melb_data['Propertycount'].max())

21650.0


In [27]:
print(melb_data['Distance'].std())

5.868724943071711


In [26]:
landsize_median = melb_data['BuildingArea'].median() 
landsize_mean =  melb_data['BuildingArea'].mean()
print(abs(landsize_median - landsize_mean)/landsize_mean)

0.09764079662364533
