# Агрегирующие методы

<div style="border: 1px solid white; padding: 5px; margin-right: auto;  width: 80%;"> ✍ Мы научились выводить информацию о статистических показателях с помощью метода describe(). Однако этот метод становится не очень удобным, когда необходимо найти только один статистический параметр, например только среднюю цену,  и использовать их в дальнейшем коде. Поэтому в Pandas предусмотрены инструменты быстрого вычисления показателей с помощью агрегирующих методов. 

<div style="background-color: #e0fff3; padding: 15px; color: black; width: 80%;">Агрегирующим в Pandas называется метод, который для каждого столбца возвращает только одно значение — показатель (например, вычисление медианы, максимума, среднего и так далее).

Ниже приведена таблица основных агрегирующих методов:


<style type="text/css">
.tg  {border-collapse:collapse;border-spacing:0;}
.tg td{border-color:black;border-style:solid;border-width:1px;font-family:Arial, sans-serif;font-size:14px;
  overflow:hidden;padding:10px 5px;word-break:normal;}
.tg th{border-color:black;border-style:solid;border-width:1px;font-family:Arial, sans-serif;font-size:14px;
  font-weight:normal;overflow:hidden;padding:10px 5px;word-break:normal;}
.tg .tg-cly1{border-color:inherit;text-align:left;vertical-align:middle}
.tg .tg-lboi{border-color:inherit;text-align:left;vertical-align:middle}
.tg .tg-9c8u{background-color:#88CDB2;border-color:inherit;color:#062425;font-weight:bold;text-align:left;vertical-align:middle}
.tg .tg-0pky{border-color:inherit;text-align:left;vertical-align:top}
.tg .tg-0lax{border-color:inherit;text-align:left;vertical-align:top;font-weight: bold; }

</style>
<div style="text-align: center;">
<table class="tg" style="text-align: center;">
<thead>
  <tr>
    <th class="tg-9c8u"><span style="font-weight:bold;color:#062425;background-color:#88CDB2">Метод</span></th>
    <th class="tg-9c8u"><span style="font-weight:bold;color:#062425;background-color:#88CDB2">Статистический параметр</span></th>
  </tr>
</thead>
<tbody>
  <tr>
    <td class="tg-0lax">.count()</td>
    <td class="tg-lboi">Количество непустых значений</td>
  </tr>
  <tr>
    <td class="tg-0lax">.mean()</td>
    <td class="tg-lboi">Среднее значение</td>
  </tr>
  <tr>
    <td class="tg-0lax">.min()</td>
    <td class="tg-cly1">Минимальное значение</td>
  </tr>
  <tr>
    <td class="tg-0lax">.max()</td>
    <td class="tg-cly1">Максимальное значение</td>
  </tr>
  <tr>
    <td class="tg-0lax">.var()</td>
    <td class="tg-cly1">Дисперсия</td>
  </tr>
  <tr>
    <td class="tg-0lax">.std()</td>
    <td class="tg-cly1">Стандартное отклонение</td>
  </tr>
  <tr>
    <td class="tg-0lax">.sum()</td>
    <td class="tg-cly1">Сумма</td>
  </tr>
  <tr>
    <td class="tg-0lax">.quantile(x)</td>
    <td class="tg-cly1">Квантиль уровня x</td>
  </tr>
  <tr>
    <td class="tg-0lax">.nunique()</td>
    <td class="tg-cly1">Число уникальных значений</td>
  </tr>
</tbody>
</table>
</div>

<div style="background-color: #e0fff3; padding: 15px; color: black; width: 80%;">Если один из этих методов применить ко всему DataFrame, то в результате его работы будет получен объект типа Series, в котором в качестве индексов будут выступать наименования столбцов, а в качестве значений — статистический показатель. В случае применения метода к отдельному столбцу результатом вычислений станет число.

В каждый метод можно передать некоторые параметры, среди которых:

- axis  — определяет, подсчитывать параметр по строкам или по столбцам;
- numeric_only — определяет, вычислять параметры только по числовым столбцам/строкам или нет (True/False).
---


In [8]:
%run 5_pandas_data_exploration.ipynb

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,202.0,126.0,1970.0,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0,"-37.8079, 144.9934"
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0,"-37.8093, 144.9944"
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,1.0,94.0,126.0,1970.0,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0,"-37.7969, 144.9969"
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,2.0,120.0,142.0,2014.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0,"-37.8072, 144.9941"


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 23 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   index          13580 non-null  int64  
 1   Suburb         13580 non-null  object 
 2   Address        13580 non-null  object 
 3   Rooms          13580 non-null  int64  
 4   Type           13580 non-null  object 
 5   Price          13580 non-null  float64
 6   Method         13580 non-null  object 
 7   SellerG        13580 non-null  object 
 8   Date           13580 non-null  object 
 9   Distance       13580 non-null  float64
 10  Postcode       13580 non-null  int64  
 11  Bedroom        13580 non-null  float64
 12  Bathroom       13580 non-null  float64
 13  Car            13580 non-null  float64
 14  Landsize       13580 non-null  float64
 15  BuildingArea   13580 non-null  float64
 16  YearBuilt      13580 non-null  float64
 17  CouncilArea    12211 non-null  object 
 18  Lattit

Разберём агрегирующие функции на примерах.

Вычислим среднюю цену на объекты недвижимости:

In [9]:
print(melb_data['Price'].mean())

1075684.079455081


Найдём максимальное количество парковочных мест:

In [10]:
print(melb_data['Car'].max())

10


А теперь представим, что риэлторская ставка для всех компаний за продажу недвижимости составляет 12%. Найдём общую прибыльность риэлторского бизнеса в Мельбурне. Результат округлим до сотых:

In [11]:
rate = 0.12
income = melb_data['Price'].sum() * rate
print('Total income of real estate agencies:', round(income, 2))

Total income of real estate agencies: 1752934775.88


Найдём, насколько медианная площадь территории отличается от её среднего значения. Вычислим модуль разницы между медианой и средним и разделим результат на среднее, чтобы получить отклонение в долях:

In [12]:
landsize_median = melb_data['Landsize'].median() 
landsize_mean =  melb_data['Landsize'].mean()
print(abs(landsize_median - landsize_mean)/landsize_mean)

0.21205713983546193


<div style="background-color: #e0fff3; padding: 15px; color: black; width: 80%;">В результате получаем долю отклонения медианы от среднего значения. Умножив результат на 100, получим его в процентах. Отклонение медианы от среднего значения на 21% является довольно большим, и это повод задуматься над тем, чтобы исследовать признак на наличие аномалий. 

# Модальное значение

<div style="background-color: #e0fff3; padding: 15px; color: black; width: 80%;">→ Отдельный интерес представляет статический показатель моды — самого распространённого значения в столбце. Он вычисляется с помощью метода mode().

<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">Mодальных значений может быть несколько, то есть несколько значений могут встречаться одинаковое количество раз. Поэтому метод mode(), в отличие от агрегирующих методов, возвращает не одно число, а серию.



Вычислим, какое число комнат чаще всего представлено на рынке недвижимости:

In [13]:
print(melb_data['Rooms'].mode())

0    3
Name: Rooms, dtype: int64


<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">Примечание. Метод mode() может быть использован не только с числовыми столбцами, но и со столбцами типа object. Так, например, с помощью следующего кода можно найти наиболее распространённое название района:
<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">melb_data['Regionname'].mode()

In [14]:
melb_data['Regionname'].mode()

0    Southern Metropolitan
Name: Regionname, dtype: object

<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">

✍ Мы рассмотрели основные статистические методы, которые позволяют получить информацию о статистических параметрах столбцов таблицы.

Знание таких параметров позволяет делать важные выводы. Например, уже сейчас мы можем сказать, что средняя цена объектов недвижимости в Мельбурне чуть больше 1 млн, что даёт нам базовое представление о рынке недвижимости в этом городе.

В дальнейшем мы научимся делать более обоснованные и интересные выводы по статистическим параметрам, а пока предлагаем вам закрепить свои знания, выполнив несколько заданий ↓


###  Задание 7.1

Для каких столбцов метод std() выполнится с ошибкой?

Отметьте все подходящие варианты ответов.
- A Landsize
- B Price
- C Date
- D Type 

<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    
- C Метод std() вычисляет стандартное отклонение и работает только с числовыми столбцами. Данные в столбце Date относятся к строковому типу, следовательно, метод выдаст ошибку.
- D Метод std() вычисляет стандартное отклонение и работает только с числовыми столбцами. Данные в столбце Type относятся к строковому типу, следовательно, метод выдаст ошибку.

</details>

###   Задание 7.2

Чему равно максимальное количество домов на продажу в районе (Propertycount)?
<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    
21650
</details>

In [23]:
melb_data.Propertycount.max()

21650

###    Задание 7.3

Чему равно стандартное отклонение (разброс) расстояния от центра города до объекта недвижимости?

Ответ округлите до целого числа. 
<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    
6
</details>

In [30]:
round(melb_data.Distance.std())

6

###    Задание 7.4

Чему равно отклонение (в процентах) медианного значения площади здания от его среднего значения?

Ответ округлите до целого числа. Не указывайте знак %.
<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    
10
</details>

In [27]:
area_median = melb_data.BuildingArea.median()
area_mean = melb_data.BuildingArea.mean()
round(abs(area_median - area_mean)/area_mean * 100)

10

###     Задание 7.5

Задан ряд чисел [1, 2, 4, 2, 3, 2, 1, 5, 6]. Чему равна мода в данном ряду?
<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    
2
</details>

###      Задание 7.6

Сколько спален чаще всего встречается в домах в Мельбурне?
<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    
3
</details>

In [28]:
melb_data.Bedroom.mode()

0    3
Name: Bedroom, dtype: int64