# 7. Статистические методы

Агрегирующие методы

✍ Мы научились выводить информацию о статистических показателях с помощью метода describe(). Однако этот метод становится не очень удобным, когда необходимо найти только один статистический параметр, например только среднюю цену,  и использовать их в дальнейшем коде. Поэтому в Pandas предусмотрены инструменты быстрого вычисления показателей с помощью агрегирующих методов. 

Агрегирующим в Pandas называется метод, который для каждого столбца возвращает только одно значение — показатель (например, вычисление медианы, максимума, среднего и так далее).

Ниже приведена таблица основных агрегирующих методов:

Метод	Статистический параметр
.count()	Количество непустых значений
.mean()	Среднее значение
.min()	Минимальное значение
.max()	Максимальное значение
.var()	Дисперсия
.std()	Стандартное отклонение
.sum()	Сумма
.quantile(x)	Квантиль уровня x
.nunique()	Число уникальных значений
Если один из этих методов применить ко всему DataFrame, то в результате его работы будет получен объект типа Series, в котором в качестве индексов будут выступать наименования столбцов, а в качестве значений — статистический показатель. В случае применения метода к отдельному столбцу результатом вычислений станет число.

В каждый метод можно передать некоторые параметры, среди которых:

axis  — определяет, подсчитывать параметр по строкам или по столбцам;
numeric_only — определяет, вычислять параметры только по числовым столбцам/строкам или нет (True/False).
Разберём агрегирующие функции на примерах.

Вычислим среднюю цену на объекты недвижимости:

In [2]:
import pandas as pd

print(pd.__version__)
print(pd.__name__)

melb_data = pd.read_csv('data/melb_data.csv', sep=',')
melb_data['Car'] = melb_data['Car'].astype('int64')
melb_data['Bedroom'] = melb_data['Bedroom'].astype('int64')
melb_data['Bathroom'] = melb_data['Bathroom'].astype('int64')
melb_data['Propertycount'] = melb_data['Propertycount'].astype('int64')
melb_data['YearBuilt'] = melb_data['YearBuilt'].astype('int64')
melb_data.info()


2.2.3
pandas
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 23 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   index          13580 non-null  int64  
 1   Suburb         13580 non-null  object 
 2   Address        13580 non-null  object 
 3   Rooms          13580 non-null  int64  
 4   Type           13580 non-null  object 
 5   Price          13580 non-null  float64
 6   Method         13580 non-null  object 
 7   SellerG        13580 non-null  object 
 8   Date           13580 non-null  object 
 9   Distance       13580 non-null  float64
 10  Postcode       13580 non-null  int64  
 11  Bedroom        13580 non-null  int64  
 12  Bathroom       13580 non-null  int64  
 13  Car            13580 non-null  int64  
 14  Landsize       13580 non-null  float64
 15  BuildingArea   13580 non-null  float64
 16  YearBuilt      13580 non-null  int64  
 17  CouncilArea    12211 non-null  object

Вычислим среднюю цену на объекты недвижимости:

In [3]:
print(melb_data['Price'].mean())
# 1075684.079455081

1075684.079455081


Найдём максимальное количество парковочных мест:

In [5]:
print(melb_data['Car'].max())
# 10

10


А теперь представим, что риэлторская ставка для всех компаний за продажу недвижимости составляет 12%. Найдём общую прибыльность риэлторского бизнеса в Мельбурне. Результат округлим до сотых:

In [6]:
rate = 0.12
income = melb_data['Price'].sum() * rate
print('Total income of real estate agencies:', round(income, 2))
# Total income of real estate agencies: 1752934775.88

Total income of real estate agencies: 1752934775.88


Найдём, насколько медианная площадь территории отличается от её среднего значения. Вычислим модуль разницы между медианой и средним и разделим результат на среднее, чтобы получить отклонение в долях:

In [7]:
landsize_median = melb_data['Landsize'].median() 
landsize_mean =  melb_data['Landsize'].mean()
print(abs(landsize_median - landsize_mean)/landsize_mean)
# 0.21205713983546193

0.21205713983546193


В результате получаем долю отклонения медианы от среднего значения. Умножив результат на 100, получим его в процентах. Отклонение медианы от среднего значения на 21% является довольно большим, и это повод задуматься над тем, чтобы исследовать признак на наличие аномалий. 

Модальное значение

→ Отдельный интерес представляет статический показатель моды — самого распространённого значения в столбце. Он вычисляется с помощью метода mode().

Модальных значений может быть несколько, то есть несколько значений могут встречаться одинаковое количество раз. Поэтому метод mode(), в отличие от агрегирующих методов, возвращает не одно число, а серию.

Вычислим, какое число комнат чаще всего представлено на рынке недвижимости:

In [8]:
print(melb_data['Rooms'].mode())
# 0    3
# dtype: int64

0    3
Name: Rooms, dtype: int64


Примечание. Метод mode() может быть использован не только с числовыми столбцами, но и со столбцами типа object. Так, например, с помощью следующего кода можно найти наиболее распространённое название района:

In [9]:
melb_data['Regionname'].mode()

0    Southern Metropolitan
Name: Regionname, dtype: object

Мы рассмотрели основные статистические методы, которые позволяют получить информацию о статистических параметрах столбцов таблицы.

Знание таких параметров позволяет делать важные выводы. Например, уже сейчас мы можем сказать, что средняя цена объектов недвижимости в Мельбурне чуть больше 1 млн, что даёт нам базовое представление о рынке недвижимости в этом городе.

В дальнейшем мы научимся делать более обоснованные и интересные выводы по статистическим параметрам, а пока предлагаем вам закрепить свои знания, выполнив несколько заданий ↓

Задание 7.1
1 point possible (graded)
Для каких столбцов метод std() выполнится с ошибкой?
Отметьте все подходящие варианты ответов.

A Landsize
B Price
C Date
D Type

In [10]:
print(melb_data['Landsize'].std())


3990.6692411090316


In [11]:
print(melb_data['Price'].std())


639310.724296018


In [12]:
print(melb_data['Date'].std())


TypeError: could not convert string to float: '3/12/2016'

In [13]:
print(melb_data['Type'].std())

TypeError: could not convert string to float: 'h'

Ответ
Верно:
C Метод std() вычисляет стандартное отклонение и работает только с числовыми столбцами. Данные в столбце Date относятся к строковому типу, следовательно, метод выдаст ошибку.
D Метод std() вычисляет стандартное отклонение и работает только с числовыми столбцами. Данные в столбце Type относятся к строковому типу, следовательно, метод выдаст ошибку.

Задание 7.2
1 point possible (graded)
Чему равно максимальное количество домов на продажу в районе (Propertycount)?

In [14]:
print(melb_data['Propertycount'].max())

21650


Задание 7.3
1 point possible (graded)
Чему равно стандартное отклонение (разброс) расстояния от центра города до объекта недвижимости?
Ответ округлите до целого числа.

In [16]:
print(round(melb_data['Distance'].std(),0))

6.0


Задание 7.4
1 point possible (graded)
Чему равно отклонение (в процентах) медианного значения площади здания от его среднего значения?
Ответ округлите до целого числа. Не указывайте знак %.

In [20]:
building_size_median = melb_data['BuildingArea'].median() 
building_size_mean =  melb_data['BuildingArea'].mean()
print(round(abs(building_size_median - building_size_mean)/building_size_mean*100,0))
# 0.21205713983546193

10.0


Задание 7.5
1 point possible (graded)
Задан ряд чисел [1, 2, 4, 2, 3, 2, 1, 5, 6]. Чему равна мода в данном ряду?

In [27]:

num_series = pd.DataFrame({
    'data' : [1, 2, 4, 2, 3, 2, 1, 5, 6],
    
})
display(num_series)

num_series.mode()

Unnamed: 0,data
0,1
1,2
2,4
3,2
4,3
5,2
6,1
7,5
8,6


Unnamed: 0,data
0,2


Задание 7.6
1 point possible (graded)
Сколько спален чаще всего встречается в домах в Мельбурне?

In [29]:
bedroom_quantity_mode = melb_data['Bedroom'].mode() 
display(bedroom_quantity_mode)

0    3
Name: Bedroom, dtype: int64