# Статистические методы

### Агрегирующим в Pandas 

называется метод, который для каждого столбца 
возвращает только одно значение — показатель (например, вычисление медианы, 
максимума, среднего и так далее).

Ниже приведена таблица основных агрегирующих методов:

### Метод	- Статистический параметр

.count()	Количество непустых значений

.mean()	Среднее значение

.min()	Минимальное значение

.max()	Максимальное значение

.var()	Дисперсия

.std()	Стандартное отклонение

.sum()	Сумма

.quantile(x)	Квантиль уровня x

.nunique()	Число уникальных значений

Если один из этих методов применить ко всему DataFrame, то в результате его работы будет получен объект типа Series, в котором в качестве индексов будут выступать наименования столбцов, а в качестве значений — статистический показатель. В случае применения метода к отдельному столбцу результатом вычислений станет число.

В каждый метод можно передать некоторые параметры, среди которых:

axis  — определяет, подсчитывать параметр по строкам или по столбцам;
numeric_only — определяет, вычислять параметры только по числовым столбцам/строкам или нет (True/False).

In [3]:
from pathlib import Path
import pandas as pd
import numpy as np

# settings view dataframes
pd.set_option('display.max_columns', 50)
pd.set_option('display.width', 120)

# вместо: DATA_PATH = Path('data') / 'melb_data.csv'
data_melb = [
    Path('data') / 'melb_data.csv',
    Path('..') / 'data' / 'melb_data.csv',
    Path('../..') / 'data' / 'melb_data.csv',
]
for p in data_melb:
    if p.is_file():
        DATA_PATH = p
        break
else:
    raise FileNotFoundError('Не найден melb_data.csv')

print('Использую файл:', DATA_PATH.resolve())

# load dataset
melb_data = pd.read_csv(DATA_PATH)

Использую файл: /Users/kirilltishchenko/lessonsPandas/data/melb_data.csv


In [4]:
# Вычислим среднюю цену на объекты недвижимости:
print(melb_data['Price'].mean())

1075684.079455081


In [5]:
# Найдём максимальное количество парковочных мест:
print(melb_data['Car'].max())

10.0


In [None]:
# А теперь представим, что риэлторская ставка для 
# всех компаний за продажу недвижимости составляет 12%. 
# Найдём общую прибыльность риэлторского бизнеса в Мельбурне. 
# Результат округлим до сотых:
rate = 0.12
print(round((melb_data['Price'].sum() * rate), 2))


1752934775.88


## Модальное значение

→ Отдельный интерес представляет статический показатель моды — самого распространённого значения в столбце. Он вычисляется с помощью метода mode().

Модальных значений может быть несколько, то есть несколько значений могут встречаться одинаковое количество раз. Поэтому метод mode(), в отличие от агрегирующих методов, возвращает не одно число, а серию.

In [7]:
# Вычислим, какое число комнат чаще всего представлено 
# на рынке недвижимости:

print(melb_data['Rooms'].mode())

0    3
Name: Rooms, dtype: int64


In [None]:

melb_data['Regionname'].mode()

# Примечание. 
Метод mode() может быть использован не только с числовыми столбцами, но и со столбцами типа object. Так, например, с помощью следующего кода можно найти наиболее распространённое название района:

melb_data['Regionname'].mode()


In [17]:
# Чему равно максимальное количество домов на продажу 
# в районе (Propertycount)?

melb_data['Propertycount'].max()

np.float64(21650.0)

In [None]:
# Чему равно стандартное отклонение (разброс) расстояния 
# от центра города до объекта недвижимости?
print(melb_data['Distance'].std())      

5.86872494307171


In [26]:
# Задан ряд чисел [1, 2, 4, 2, 3, 2, 1, 5, 6]. 
# Чему равна мода в данном ряду?
print(pd.Series([1, 2, 4, 2, 3, 2, 1, 5, 6]).mode())

0    2
dtype: int64


In [29]:
# Сколько спален чаще всего встречается в домах в Мельбурне?
print(melb_data['Rooms'].mean())

2.9379970544919


## Фильтрация

Условия можно комбинировать, используя операторы & (логическое И) и | (логическое ИЛИ). Условия при этом заключаются в скобки.

In [34]:
# найдём число трёхкомнатных домов с ценой менее 300 тысяч:
# Найдем кол-во строк с найденным результатом:
melb_data[(melb_data['Rooms'] == 3) & (melb_data['Price'] < 300000)].shape[0]

# Выведем эти строки на экран:
melb_data[(melb_data['Rooms'] == 3) & (melb_data['Price'] < 300000)]

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,Bedroom,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
10394,10394,Melton,14 Musk Ct,3,h,295000.0,SP,PRDNationwide,27/05/2017,31.7,3337,3.0,1.0,4.0,600.0,122.86,1975.0,Melton,-37.68734,144.58001,Western Victoria,3600.0,"-37.68734, 144.58001"
10576,10576,Bacchus Marsh,4 Lidgett St,3,h,285000.0,S,Ryder,8/07/2017,37.5,3340,3.0,1.0,2.0,612.0,126.0,1970.0,Moorabool,-37.67344,144.43181,Western Victoria,2871.0,"-37.67344, 144.43181"
13227,13227,Melton,118 Barries Rd,3,h,283000.0,S,FN,23/09/2017,31.7,3337,3.0,1.0,0.0,362.0,19.0,1976.0,,-37.68755,144.56887,Western Victoria,3600.0,"-37.68755, 144.56887"


In [None]:
# Фильтрацию часто сочетают со статистическими методами. 
# Давайте найдём максимальное количество комнат в таунхаусах. 
# Так как в результате фильтрации получается DataFrame, 
# то обратимся к нему по столбцу Rooms и найдём максимальное 
# значение:
melb_data[melb_data['Type'] == 't']['Rooms'].max()
# 5

np.int64(5)

In [37]:
# Найдём медианную площадь здания у объектов, чья цена выше 
# средней. Для того чтобы оградить наш код от нагромождений, 
# предварительно создадим переменную со средней ценой:

mean_price = melb_data['Price'].mean()
melb_data[melb_data['Price'] > mean_price]['BuildingArea'].median()

np.float64(126.0)

In [48]:
# У скольких объектов недвижимости из таблицы melb_data отсутствуют ванные комнаты?
melb_data['Bathroom'].isnull().count()

np.int64(13580)

In [55]:
# Сколько в таблице melb_data объектов недвижимости, 
# которые были проданы риелторской компанией Nelson и 
# стоимость которых составила больше 3 миллионов?

#melb_data[melb_data['SellerG'] == 'Nelson'] & melb_data['Price'] > 3000000
melb_data[(melb_data['SellerG'] == 'Nelson') & (melb_data['Price'] > 3_000_000)]

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,Bedroom,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
2553,2553,Fitzroy,17 Bell St,4,h,4011000.0,S,Nelson,27/11/2016,1.6,3065,4.0,3.0,2.0,286.0,275.0,1890.0,Yarra,-37.7999,144.9755,Northern Metropolitan,5825.0,"-37.7999, 144.9755"
2579,2579,Fitzroy North,79 Delbridge St,4,h,3400000.0,S,Nelson,14/05/2016,3.5,3068,3.0,2.0,1.0,445.0,175.0,1890.0,Yarra,-37.786,144.9864,Northern Metropolitan,6244.0,"-37.786, 144.9864"
6734,6734,Aberfeldie,126 The Boulevard,4,h,3900000.0,S,Nelson,10/12/2016,9.1,3040,4.0,4.0,4.0,670.0,375.0,2010.0,Moonee Valley,-37.7637,144.8931,Western Metropolitan,1543.0,"-37.7637, 144.8931"
7695,7695,Carlton North,235 Amess St,4,h,3450000.0,S,Nelson,13/05/2017,3.2,3054,4.0,2.0,1.0,515.0,203.0,1905.0,Yarra,-37.7817,144.9742,Northern Metropolitan,3106.0,"-37.7817, 144.9742"
11023,11023,Fitzroy,122 Nicholson St,4,h,3200000.0,VB,Nelson,12/08/2017,2.1,3065,4.0,4.0,0.0,225.0,126.0,1862.0,Yarra,-37.80209,144.97443,Northern Metropolitan,5825.0,"-37.80209, 144.97443"


In [None]:
# Какова минимальная стоимость участка без здания (площадь здания равна 0) в таблице melb_data?

melb_data[(melb_data['BuildingArea'] == 0) & (melb_data['Price'] > 0)]['Price'].min()

np.float64(412500.0)

In [61]:
# # Какова средняя цена объектов недвижимости в таблице melb_data 
# с ценой менее одного миллиона, в которых либо количество 
# комнат больше пяти, либо здание моложе 2015 года?
melb_data[(melb_data['Price'] < 1_000_000) & ((melb_data['Rooms'] > 5) | (melb_data['YearBuilt'] > 2015))]['Price'].mean()

#melb_data[(melb_data['Price'] < 1000000) & (melb_data['Rooms'] > 5) | (melb_data['YearBuilt'] > 2015)].mean()

np.float64(769238.6363636364)

In [None]:
# В каком районе Мельбурна чаще всего продаются виллы 
# и коттеджи (тип здания — h) с ценой меньше трёх миллионов? (частота)
melb_data[(melb_data['Type'] == 'h') & (melb_data['Price'] < 3000000)]['Regionname'].describe(include='freq')

count                      9220
unique                        8
top       Northern Metropolitan
freq                       2737
Name: Regionname, dtype: object