In [1]:
import pandas as pd

In [2]:
melb_data = pd.read_csv('data/melb_data.csv', sep=',')

# АГРЕГИРУЮЩИЕ МЕТОДЫ

Агрегирующим в Pandas называется метод, который для каждого столбца возвращает только одно значение — показатель (например, вычисление медианы, максимума, среднего и так далее)

Основные агрегирующие методы Pandas
.count()	Количество непустых значений  
.mean()	Среднее значение  
.min()	Минимальное значение  
.max()	Максимальное значение  
.deviance()	Дисперсия  
.std()	Стандартное отклонение  
.sum()	Сумма  
.quantile(x)	Квантиль уровня x  
.nunique()	Число уникальных значений  

Если один из этих методов применить ко всему DataFrame, то в результате его работы будет получен объект типа Series, в котором в качестве индексов будут выступать наименования столбцов, а в качестве значений — статистический показатель. В случае применения метода к отдельному столбцу результатом вычислений станет число.

В каждый метод можно передать некоторые параметры, среди которых:

axis  — определяет, подсчитывать параметр по строкам или по столбцам;  
numeric_only — определяет, вычислять параметры только по числовым столбцам/строкам или нет (True/False).

In [3]:
print(melb_data['Price'].mean())
# 1075684.079455081

1075684.079455081


In [4]:
print(melb_data['Car'].max())
# 10

10.0


представим, что риэлторская ставка для всех компаний за продажу недвижимости составляет 12%. Найдём общую прибыльность риэлторского бизнеса в Мельбурне. Результат округлим до сотых:

In [5]:
rate = 0.12
income = melb_data['Price'].sum() * rate
print('Total income of real estate agencies:', round(income, 2))
# Total income of real estate agencies: 1752934775.88

Total income of real estate agencies: 1752934775.88


 насколько медианная площадь территории отличается от её среднего значения. Вычислим модуль разницы между медианой и средним и разделим результат на среднее, чтобы получить отклонение в долях:

In [3]:
landsize_median = melb_data['Landsize'].median() 
landsize_mean =  melb_data['Landsize'].mean()
print(abs(landsize_median - landsize_mean)/landsize_mean)
# 0.21205713983546193

0.21205713983546193


oтклонение медианы от среднего значения на 21% является довольно большим, и это повод задуматься над тем, чтобы исследовать признак на наличие аномалий.

# МОДАЛЬНОЕ ЗНАЧЕНИЕ

Модальных значений может быть несколько, то есть несколько значений могут встречаться одинаковое количество раз. Поэтому метод mode(), в отличие от агрегирующих методов, возвращает не одно число, а серию.

In [4]:
print(melb_data['Rooms'].mode())
# 0    3
# dtype: int64

0    3
Name: Rooms, dtype: int64


Метод mode() может быть использован не только с числовыми столбцами, но и со столбцами типа object. Так, например, с помощью следующего кода можно найти наиболее распространённое название района:

In [8]:
melb_data['Regionname'].mode()

0    Southern Metropolitan
Name: Regionname, dtype: object

In [9]:
melb_data['Propertycount'].max()

21650.0

In [5]:
melb_data['Distance'].std()

5.868724943071711

In [17]:
m = pd.DataFrame(
    data =[1, 2, 4, 2, 3, 2, 1, 5, 6],
    columns=['A']
)

In [19]:
m['A'].mode()

0    2
Name: A, dtype: int64

In [21]:
display(melb_data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 23 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   index          13580 non-null  int64  
 1   Suburb         13580 non-null  object 
 2   Address        13580 non-null  object 
 3   Rooms          13580 non-null  int64  
 4   Type           13580 non-null  object 
 5   Price          13580 non-null  float64
 6   Method         13580 non-null  object 
 7   SellerG        13580 non-null  object 
 8   Date           13580 non-null  object 
 9   Distance       13580 non-null  float64
 10  Postcode       13580 non-null  int64  
 11  Bedroom        13580 non-null  float64
 12  Bathroom       13580 non-null  float64
 13  Car            13580 non-null  float64
 14  Landsize       13580 non-null  float64
 15  BuildingArea   13580 non-null  float64
 16  YearBuilt      13580 non-null  float64
 17  CouncilArea    12211 non-null  object 
 18  Lattit

None

In [22]:
melb_data['Bedroom'].mode()

0    3.0
Name: Bedroom, dtype: float64