# 7. Статистические методы

## АГРЕГИРУЮЩИЕ МЕТОДЫ

> Агрегирующим в Pandas называется метод, который для каждого столбца возвращает только одно значение — показатель (например, вычисление медианы, максимума, среднего и так далее).

МЕТОД     | СТАТИСТИЧЕСКИЙ ПАРАМЕТР
:------:|:----------:
`.count()`|	Количество непустых значений
`.mean()`|	Среднее значение
`.min()`|	Минимальное значение
`.max()`|	Максимальное значение
`.deviance()`|	Дисперсия
`.std()`|	Стандартное отклонение
`.sum()`|	Сумма
`.quantile(x)`|	Квантиль уровня x
`.nunique()`|	Число уникальных значений

В каждый метод можно передать некоторые параметры, среди которых:

* `axis`  — определяет, подсчитывать параметр по строкам или по столбцам;
* `numeric_only` — определяет, вычислять параметры только по числовым столбцам/строкам или нет (True/False).

In [2]:
import pandas as pd

In [3]:
melb_data = pd.read_csv('data/melb_data.csv', sep=',')
melb_data.head()

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,202.0,126.0,1970.0,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0,"-37.8079, 144.9934"
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0,"-37.8093, 144.9944"
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,1.0,94.0,126.0,1970.0,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0,"-37.7969, 144.9969"
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,2.0,120.0,142.0,2014.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0,"-37.8072, 144.9941"


In [6]:
melb_data['Price'].mean()

1075684.079455081

In [9]:
melb_data['Car'] = melb_data['Car'].astype('int64')
melb_data['Car'].max()

10

In [11]:
rate = 0.12
income = melb_data['Price'].sum() * rate
income = round(income, 2)
income

1752934775.88

In [13]:
landsize_median = melb_data['Landsize'].median()
landsize_mean = melb_data['Landsize'].mean()
print(abs(landsize_median - landsize_mean) / landsize_mean)

0.21205713983546193


## МОДАЛЬНОЕ ЗНАЧЕНИЕ

> → Отдельный интерес представляет статический показатель моды — самого распространённого значения в столбце. Он вычисляется с помощью метода `mode()`.

In [14]:
melb_data['Rooms'].mode()

0    3
Name: Rooms, dtype: int64

In [15]:
melb_data["Regionname"].mode()

0    Southern Metropolitan
Name: Regionname, dtype: object

### Задание 7.2

In [29]:
melb_data['Propertycount'] = melb_data['Propertycount'].astype('int64')
melb_data['Propertycount'].max()

21650

In [30]:
melb_data['Distance'].std()

5.868724943071711

In [31]:
area_median = melb_data['BuildingArea'].median()
area_mean = melb_data['BuildingArea'].mean()
area_dev = abs(area_median - area_mean) / area_mean
area_dev * 100

9.764079662364534

In [33]:
df = pd.DataFrame([1, 2, 4, 2, 3, 2, 1, 5, 6])
df.mode()

Unnamed: 0,0
0,2


In [36]:
melb_data['Bedroom'] = melb_data['Bedroom'].astype('int64')
melb_data['Bedroom'].mode()

0    3
Name: Bedroom, dtype: int64