АГРЕГИРУЮЩИЕ МЕТОДЫ

In [1]:
# Агрегирующим в Pandas называется метод, который для каждого столбца возвращает только одно значение — показатель (например, вычисление медианы, максимума, среднего и так далее).

import pandas as pd

melb_data = pd.read_csv('data/melb_data.csv', sep=',')

In [28]:
# .mode() Количество частоповторяющихся значений
# .count() Количество непустых значений
# .mean() Среднее значение
# .min() Минимальное значение
# .max() Максимальное значение
# .deviance() Дисперсия
# .std() Стандартное отклонение
# .sum() Сумма
# .quantile(x) Квантиль уровня x
# .nunique() Число уникальных значений

In [3]:
# В каждый метод можно передать некоторые параметры, среди которых:
# axis  — определяет, подсчитывать параметр по строкам или по столбцам;
# numeric_only — определяет, вычислять параметры только по числовым столбцам/строкам или нет (True/False).

In [4]:
# Вычислим среднюю цену на объекты недвижимости:

print(melb_data['Price'].mean())

1075684.079455081


In [5]:
# Найдём максимальное количество парковочных мест:

print(melb_data['Car'].max())

10.0


In [9]:
# А теперь представим, что риэлторская ставка для всех компаний за продажу недвижимости составляет 12%.
# Найдём общую прибыльность риэлторского бизнеса в Мельбурне. Результат округлим до сотых:

rate = 0.12
income = melb_data['Price'].sum() * rate
print('Total income of real estate agencies:', round(income, 2))

Total income of real estate agencies: 1752934775.88


In [10]:
# Найдём, насколько медианная площадь территории отличается от её среднего значения.
# Вычислим модуль разницы между медианой и средним и разделим результат на среднее, чтобы получить отклонение в долях:

landsize_median = melb_data['Landsize'].median() 
landsize_mean =  melb_data['Landsize'].mean()
print(abs(landsize_median - landsize_mean)/landsize_mean)

0.21205713983546193


МОДАЛЬНОЕ ЗНАЧЕНИЕ

In [11]:
# Отдельный интерес представляет статический показатель моды — самого распространённого значения в столбце. Он вычисляется с помощью метода mode().

In [12]:
# Модальных значений может быть несколько, то есть несколько значений могут встречаться одинаковое количество раз. Поэтому метод mode(), в отличие от агрегирующих методов, возвращает не одно число, а серию.

In [13]:
print(melb_data['Rooms'].mode())

0    3
dtype: int64


In [16]:
# Метод mode() может быть использован не только с числовыми столбцами, но и со столбцами типа object.
# Так, например, с помощью следующего кода можно найти наиболее распространённое название района:

melb_data['Regionname'].mode()

0    Southern Metropolitan
dtype: object

In [17]:
melb_data['Propertycount'].max()

21650.0

In [19]:
round(melb_data['Distance'].std())

6

In [23]:
BuildingArea_median = melb_data['BuildingArea'].median() 
BuildingArea_mean =  melb_data['BuildingArea'].mean()
print(abs(BuildingArea_median - BuildingArea_mean)/BuildingArea_mean)

0.09764079662364533


In [27]:
melb_data['Bedroom'].mode()

0    3.0
dtype: float64