In [1]:
import pandas as pd

In [3]:
melb_data = pd.read_csv('data/melb_data.csv', sep=',')

In [6]:
melb_data['Car'] = melb_data['Car'].astype('int64')
melb_data['Bedroom'] = melb_data['Bedroom'].astype('int64')
melb_data['Bathroom'] = melb_data['Bathroom'].astype('int64')
melb_data['Propertycount'] = melb_data['Propertycount'].astype('int64')
melb_data['YearBuilt'] = melb_data['YearBuilt'].astype('int64')

# АГРЕГИРУЮЩИЕ МЕТОДЫ

Основные агрегирующие методы:

* **.count()** - Количество непустых значений
* **.mean()** - Среднее значение
* **.min()** - Минимальное значение
* **.max()** - Максимальное значение
* **.deviance()** - Дисперсия
* **.std()** - Стандартное отклонение
* **.sum()** - Сумма
* **.quantile(x)** - Квантиль уровня x
* **.nunique()** - Число уникальных значений

Если один из этих методов применить ко всему DataFrame, то в результате его работы будет получен объект типа Series, в котором в качестве индексов будут выступать наименования столбцов, а в качестве значений — статистический показатель. В случае применения метода к отдельному столбцу результатом вычислений станет число.

В каждый метод можно передать некоторые параметры, среди которых:

* **axis**  — определяет, подсчитывать параметр по строкам или по столбцам;
* **numeric_only** — определяет, вычислять параметры только по числовым столбцам/строкам или нет (True/False).

Вычислим среднюю цену на объекты недвижимости:

In [7]:
print(melb_data['Price'].mean())

1075684.079455081


Найдём максимальное количество парковочных мест:

In [8]:
print(melb_data['Car'].max())

10


А теперь представим, что риэлторская ставка для всех компаний за продажу недвижимости составляет 12%. Найдём общую прибыльность риэлторского бизнеса в Мельбурне. Результат округлим до сотых:

In [9]:
rate = 0.12
income = melb_data['Price'].sum() * rate
print('Total income of real estate agencies:', round(income, 2))

Total income of real estate agencies: 1752934775.88


Найдём, насколько медианная площадь территории отличается от её среднего значения. Вычислим модуль разницы между медианой и средним и разделим результат на среднее, чтобы получить отклонение в долях:

In [11]:
landsize_median = melb_data['Landsize'].median() 
landsize_mean =  melb_data['Landsize'].mean()
diference = abs(landsize_median - landsize_mean)/landsize_mean
print(diference)

0.21205713983546193


В процентах:

In [13]:
print(f"{int(round(diference * 100, 0))}%")

21%


# МОДАЛЬНОЕ ЗНАЧЕНИЕ

Отдельный интерес представляет статический показатель моды — самого распространённого значения в столбце. Он вычисляется с помощью метода **mode()**

Модальных значений может быть несколько, то есть несколько значений могут встречаться одинаковое количество раз. Поэтому метод **mode()**, в отличие от агрегирующих методов, возвращает не одно число, а серию.

Вычислим, какое число комнат чаще всего представлено на рынке недвижимости:

In [14]:
print(melb_data['Rooms'].mode())

0    3
Name: Rooms, dtype: int64


**Примечание.** Метод mode() может быть использован не только с числовыми столбцами, но и со столбцами типа object. Так, например, с помощью следующего кода можно найти наиболее распространённое название района:

In [15]:
melb_data['Regionname'].mode()

0    Southern Metropolitan
Name: Regionname, dtype: object

# Практика

7.2. Чему равно максимальное количество домов на продажу в районе (Propertycount)?

In [36]:
melb_data['Propertycount'].max()

21650

7.3. Чему равно стандартное отклонение (разброс) расстояния от центра города до объекта недвижимости?

In [23]:
melb_data.Distance.std()

5.868724943071711

7.4. Чему равно отклонение (в процентах) медианного значения площади здания от его среднего значения?

In [33]:
diference = abs(melb_data.BuildingArea.quantile(0.5) - melb_data.BuildingArea.mean()) / melb_data.BuildingArea.mean()
diference * 100

9.764079662364534

7.5. Задан ряд чисел [1, 2, 4, 2, 3, 2, 1, 5, 6]. Чему равна мода в данном ряду?

In [34]:
data = pd.Series([1, 2, 4, 2, 3, 2, 1, 5, 6])
data.mode()

0    2
dtype: int64

7.6. Сколько спален чаще всего встречается в домах в Мельбурне?

In [35]:
melb_data.Bedroom.mode()

0    3
Name: Bedroom, dtype: int64