#### Агрегирующие методы

Агрегирующим в Pandas называется метод, который для каждого столбца возвращает только одно значение — показатель (например, вычисление медианы, максимума, среднего и так далее).


Метод	Статистический параметр

- .count()	Количество непустых значений
- .mean()	Среднее значение
- .min()	Минимальное значение
- .max()	Максимальное значение
- .var()	Дисперсия
- .std()	Стандартное отклонение
- .sum()	Сумма
- .quantile(x)	Квантиль уровня x
- .nunique()	Число уникальных значений

Если один из этих методов применить ко всему DataFrame, то в результате его работы будет получен объект типа Series, в котором в качестве индексов будут выступать наименования столбцов, а в качестве значений — статистический показатель. В случае применения метода к отдельному столбцу результатом вычислений станет число.

- axis  — определяет, подсчитывать параметр по строкам или по столбцам;
- numeric_only — определяет, вычислять параметры только по числовым столбцам/строкам или нет (True/False).



In [None]:
import pandas as pd

melb_data = pd.read_csv('data/melb_data.csv', sep=',')

print(melb_data['Price'].mean()) # midle price
print(melb_data['Car'].max()) #max car parking

1075684.079455081
10.0


In [6]:
'''А теперь представим, что риэлторская ставка для всех компаний за продажу недвижимости составляет 12%. 
Найдём общую прибыльность риэлторского бизнеса в Мельбурне. Результат округлим до сотых:'''
rate = 0.12
income = melb_data['Price'].sum() * rate
print(f'Total income of real estate agencies: {round(income, 2)}')

Total income of real estate agencies: 1752934775.88


In [None]:
'''Найдём, насколько медианная площадь территории отличается от её среднего значения. Вычислим модуль 
разницы между медианой и средним и разделим результат на среднее, чтобы получить отклонение в долях:'''

landsize_median = melb_data['Landsize'].median()
landsize_mean = melb_data['Landsize'].mean()
print((landsize_median - landsize_mean)/landsize_mean*100)

'''В результате получаем долю отклонения медианы от среднего значения. Умножив результат на 100, 
получим его в процентах. Отклонение медианы от среднего значения на 21% является довольно большим, 
и это повод задуматься над тем, чтобы исследовать признак на наличие аномалий. '''

-21.205713983546193


#### Модальное значение

Отдельный интерес представляет статический показатель моды — самого распространённого значения в столбце. Он вычисляется с помощью метода mode().

Модальных значений может быть несколько, то есть несколько значений могут встречаться одинаковое количество раз. Поэтому метод mode(), в отличие от агрегирующих методов, возвращает не одно число, а серию.

Вычислим, какое число комнат чаще всего представлено на рынке недвижимости:

In [15]:
print(melb_data['Rooms'].mode())

0    3
Name: Rooms, dtype: int64


Примечание. Метод mode() может быть использован не только с числовыми столбцами, но и со столбцами типа object. Так, например, с помощью следующего кода можно найти наиболее распространённое название района:

In [16]:
melb_data['Regionname'].mode()

0    Southern Metropolitan
Name: Regionname, dtype: object

In [17]:
# Чему равно максимальное количество домов на продажу в районе (Propertycount)?
print(melb_data['Propertycount'].max())

21650.0


In [None]:
# Чему равно стандартное отклонение (разброс) расстояния от центра города до объекта недвижимости?
#  округлить до целых
print(melb_data['Distance'].std())

5.868724943071692


In [21]:
area_std = melb_data['BuildingArea'].median()
house_mean = melb_data['BuildingArea'].mean()
print((area_std - house_mean)/house_mean *100)

-9.764079662364534


In [None]:
# Задан ряд чисел [1, 2, 4, 2, 3, 2, 1, 5, 6]. Чему равна мода в данном ряду?
line = [1, 2, 4, 2, 3, 2, 1, 5, 6]
print(pd.Series(line).mode())

0    2
dtype: int64


In [None]:
# Сколько спален чаще всего встречается в домах в Мельбурне?
print(melb_data['Bedroom'].mode())

0    3.0
Name: Bedroom, dtype: float64
