# Агрегирующие методы

> Агрегирующим в Pandas называется метод, который для каждого столбца возвращает только одно значение — показатель (например, вычисление медианы, максимума, среднего и так далее).

| Метод        | Статистический параметр     |
|--------------|-----------------------------|
|.count()      |Количество непустых значений |
|.mean()       |Среднее значение             |
|.median()     |медианное значение           |
|.min()        |Минимальное значение         |
|.max()        |Максимальное значение        |
|.var()        |Дисперсия                    |
|.std()        |Стандартное отклонение       |
|.sum()        |Сумма                        |
|.quantile(x)  |Квантиль уровня x            |
|.nunique()    |Число уникальных значений    |

>>Если один из этих методов применить ко всему DataFrame, то в результате его работы будет получен объект типа Series, в котором в качестве индексов будут выступать наименования столбцов, а в качестве значений — статистический показатель. В случае применения метода к отдельному столбцу результатом вычислений станет число.

In [3]:
import pandas as pd
melb_data = pd.read_csv('data/melb_data.csv', sep=',')
display(melb_data)

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,202.0,126.0,1970.0,Yarra,-37.79960,144.99840,Northern Metropolitan,4019.0,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0.0,156.0,79.0,1900.0,Yarra,-37.80790,144.99340,Northern Metropolitan,4019.0,"-37.8079, 144.9934"
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0.0,134.0,150.0,1900.0,Yarra,-37.80930,144.99440,Northern Metropolitan,4019.0,"-37.8093, 144.9944"
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,1.0,94.0,126.0,1970.0,Yarra,-37.79690,144.99690,Northern Metropolitan,4019.0,"-37.7969, 144.9969"
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,2.0,120.0,142.0,2014.0,Yarra,-37.80720,144.99410,Northern Metropolitan,4019.0,"-37.8072, 144.9941"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13575,13575,Wheelers Hill,12 Strada Cr,4,h,1245000.0,S,Barry,26/08/2017,16.7,...,2.0,652.0,126.0,1981.0,,-37.90562,145.16761,South-Eastern Metropolitan,7392.0,"-37.90562, 145.16761"
13576,13576,Williamstown,77 Merrett Dr,3,h,1031000.0,SP,Williams,26/08/2017,6.8,...,2.0,333.0,133.0,1995.0,,-37.85927,144.87904,Western Metropolitan,6380.0,"-37.85927, 144.87904"
13577,13577,Williamstown,83 Power St,3,h,1170000.0,S,Raine,26/08/2017,6.8,...,4.0,436.0,126.0,1997.0,,-37.85274,144.88738,Western Metropolitan,6380.0,"-37.85274, 144.88738"
13578,13578,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,...,5.0,866.0,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0,"-37.85908, 144.89299"


In [5]:
display(melb_data['Price'].mean())

np.float64(1075684.079455081)

In [7]:
melb_data['Car'].max()

np.float64(10.0)

In [8]:
rate = 0.12
income = melb_data['Price'].sum() * rate
print(f'Tot income = {round(income,2)}')

Tot income = 1752934775.88


In [14]:
len_median = melb_data['Landsize'].median()
len_mean = melb_data['Landsize'].mean()
print(abs(len_median - len_mean) / len_mean * 100)
print(abs(len_median - len_mean) / len_median * 100)

21.205713983546193
26.912756058374608


# Модальное значение

> Моды — самого распространённого значения в столбце. Он вычисляется с помощью метода mode().

In [16]:
melb_data['Rooms'].mode()

np.int64(3)

In [17]:
melb_data['Regionname'].mode()

0    Southern Metropolitan
Name: Regionname, dtype: object

In [18]:
melb_data['Propertycount'].max()

np.float64(21650.0)

In [19]:
melb_data['Distance'].std()

np.float64(5.86872494307171)

In [24]:
len_median = melb_data['BuildingArea'].median()
len_mean = melb_data['BuildingArea'].mean()
print(abs(len_median - len_mean) / len_mean * 100)
print(abs(len_median - len_mean) / len_median * 100)


9.764079662364534
10.820612928676637
0.9023592033763547
1.1082061292867664


In [35]:
a = pd.DataFrame([1, 2, 4, 2, 3, 2, 1, 5, 6])
#display(a)
print(a.mode())

   0
0  2


In [48]:
melb_data[['Regionname', 'Bedroom']].mode()

Unnamed: 0,Regionname,Bedroom
0,Southern Metropolitan,3.0


In [38]:
melb_data.columns

Index(['index', 'Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method',
       'SellerG', 'Date', 'Distance', 'Postcode', 'Bedroom', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount', 'Coordinates'],
      dtype='object')