# Статистические методы

##### АГРЕГИРУЮЩИЕ МЕТОДЫ
(для каждого столбца возвращает только одно значение — показатель (например, вычисление медианы, максимума, среднего и так далее))

Основные агрегирующие методы:

.count()      Количество непустых значений

.mean()	      Среднее значение

.min()	      Минимальное значение

.max()	      Максимальное значение

.deviance()	  Дисперсия

.std()	      Стандартное отклонение

.sum()	      Сумма

.quantile(x)  Квантиль уровня x

.nunique()	  Число уникальных значений

In [4]:
import pandas as pd
from IPython.display import display
melb_data = pd.read_csv('data/melb_data.csv', sep=',')
melb_data['Car'] = melb_data['Car'].astype('int64')
melb_data['Bedroom'] = melb_data['Bedroom'].astype('int64')
melb_data['Bathroom'] = melb_data['Bathroom'].astype('int64')
melb_data['Propertycount'] = melb_data['Propertycount'].astype('int64')
melb_data['YearBuilt'] = melb_data['YearBuilt'].astype('int64')


In [2]:
# Вычислим среднюю цену на объекты недвижимости
print(melb_data['Price'].mean())

1075684.079455081


In [5]:
# Найдём максимальное количество парковочных мест
print(melb_data['Car'].max())

10


In [6]:
rate = 0.12 #  риэлторская ставка для всех компаний за продажу недвижимости составляет 12%
income = melb_data['Price'].sum() * rate #  Найдём общую прибыльность риэлторского бизнеса в Мельбурне
print('Total income of real estate agencies:', round(income, 2)) # Результат округлим до сотых

Total income of real estate agencies: 1752934775.88


In [7]:
# Найдём, насколько медианная площадь территории отличается от её среднего значения
landsize_median = melb_data['Landsize'].median() 
landsize_mean =  melb_data['Landsize'].mean()
print(abs(landsize_median - landsize_mean)/landsize_mean) # Вычислим модуль разницы между медианой и средним и разделим результат на среднее, чтобы получить отклонение в долях

0.21205713983546193


In [11]:
# Средняя цена объектов недвижимости в Мельбурне
print(melb_data['Price'].mean())

1075684.079455081


##### МОДАЛЬНОЕ ЗНАЧЕНИЕ
метод mode(), в отличие от агрегирующих методов, возвращает не одно число, а серию (т.к. несколько значений могут встречаться одинаковое количество раз)

In [8]:
# Вычислим, какое число комнат чаще всего представлено на рынке недвижимости
print(melb_data['Rooms'].mode())

0    3
Name: Rooms, dtype: int64


In [10]:
# Наиболее распространённое название района
melb_data['Regionname'].mode()

0    Southern Metropolitan
Name: Regionname, dtype: object

Задачи

In [23]:
# Найдём, насколько медианная площадь территории отличается от её среднего значения
buildingarea_median = melb_data['BuildingArea'].median() 
buildingarea_mean =  melb_data['BuildingArea'].mean()
# Вычислим модуль разницы между медианой и средним, разделим результат
# на среднее и умножим на 100, чтобы получить отклонение в процентах
print(round((abs(buildingarea_median - buildingarea_mean)/buildingarea_mean)*100, 0))

10.0


In [28]:
# Задан ряд чисел [1, 2, 4, 2, 3, 2, 1, 5, 6]. Чему равна мода в данном ряду
pd.Series([1, 2, 4, 2, 3, 2, 1, 5, 6]).mode()

0    2
dtype: int64

In [27]:
# Сколько спален чаще всего встречается в домах в Мельбурне
melb_data['Bedroom'].mode()

0    3
Name: Bedroom, dtype: int64