In [205]:
import pandas as pd

melb_data = pd.read_csv("data/melb_data.csv", sep=",")

# Статистические методы

## АГРЕГИРУЮЩИЕ МЕТОДЫ

Агрегирующим в Pandas называется метод, который для каждого столбца возвращает только одно значение — показатель (например, вычисление медианы, максимума, среднего и так далее).


- .count()		-	Количество непустых значений
- .mean()		-	Среднее значение
- .min()		-	Минимальное значение
- .max()		-	Максимальное значение
- .var()		-	Дисперсия
- .std()		-	Стандартное отклонение
- .sum()		-	Сумма
- .quantile(x)	-	Квантиль уровня x
- .nunique()	-	Число уникальных значений

In [206]:
print(melb_data['Price'].mean())

1075684.079455081


In [207]:
print(melb_data['Car'].max())

10.0


In [208]:
rate = 0.12
income = melb_data['Price'].sum() * rate
print('Total income of real estate agencies:', round(income, 2))

Total income of real estate agencies: 1752934775.88


In [209]:
landsize_median = melb_data['Landsize'].median() 
landsize_mean =  melb_data['Landsize'].mean()
print(abs(landsize_median - landsize_mean)/landsize_mean)

0.21205713983546193


## МОДАЛЬНОЕ ЗНАЧЕНИЕ

Отдельный интерес представляет статический показатель моды — самого распространённого значения в столбце. Он вычисляется с помощью метода mode()

Модальных значений может быть несколько, то есть несколько значений могут встречаться одинаковое количество раз. Поэтому метод mode(), в отличие от агрегирующих методов, возвращает не одно число, а серию.

Вычислим, какое число комнат чаще всего представлено на рынке недвижимости:

In [210]:
print(melb_data['Rooms'].mode())

0    3
Name: Rooms, dtype: int64


<b>Примечание.</b> Метод mode() может быть использован не только с числовыми столбцами, но и со столбцами типа object. Так, например, с помощью следующего кода можно найти наиболее распространённое название района:

In [211]:
melb_data['Regionname'].mode()

0    Southern Metropolitan
Name: Regionname, dtype: object

Мы рассмотрели основные статистические методы, которые позволяют получить информацию о статистических параметрах столбцов таблицы.

Знание таких параметров позволяет делать важные выводы. Например, уже сейчас мы можем сказать, что средняя цена объектов недвижимости в Мельбурне чуть больше 1 млн, что даёт нам базовое представление о рынке недвижимости в этом городе.

В дальнейшем мы научимся делать более обоснованные и интересные выводы по статистическим параметрам, а пока предлагаем вам закрепить свои знания, выполнив несколько заданий ↓


In [212]:
melb_data['Landsize'].std()

3990.6692411090316

In [213]:
melb_data['Price'].std()

639310.724296018

In [214]:
# melb_data['Date'].std()
# Will throw an error because the Date column is not a numeric column

In [215]:
# melb_data['Type'].std()
# Will throw an error because the Type column is not a numeric column

In [216]:
# Чему равно максимальное количество домов на продажу в районе (Propertycount)?
melb_data['Propertycount'].max()

21650.0

In [217]:
# Чему равно стандартное отклонение (разброс) расстояния от центра города до объекта недвижимости?
melb_data['Distance'].std()

5.868724943071711

In [218]:
# Чему равно отклонение (в процентах) медианного значения площади здания от его среднего значения?
building_area_median = melb_data['BuildingArea'].median()
building_area_mean = melb_data['BuildingArea'].mean()
abs(building_area_median - building_area_mean)/building_area_mean

0.09764079662364533

In [219]:
# Задан ряд чисел [1, 2, 4, 2, 3, 2, 1, 5, 6]. Чему равна мода в данном ряду?
row = [1, 2, 4, 2, 3, 2, 1, 5, 6]
pd.Series(row).mode()

0    2
dtype: int64

In [220]:
# Сколько спален чаще всего встречается в домах в Мельбурне?
melb_data["Bedroom"].mode()

0    3.0
Name: Bedroom, dtype: float64