In [28]:
import pandas as pd
melb_data_fe=pd.read_csv('data/melb_data_fe.csv', sep=',')

# ГРУППИРОВКА ДАННЫХ ПО ОДНОМУ КРИТЕРИЮ С ОДНОЙ АГРЕГАЦИЕЙ

melb_data_fe.groupby('Type').mean() # группировка по типу квартиры + среднее значение по остальным признакам.
# Если мы хотим видеть тип объекта в качестве отдельного столбца таблицы, мы можем выставить параметр as_index на False

melb_data_fe.groupby('Type')['Price'].mean() # групировка только по типу квартиры + средний ценовой диапозон

# Какие регионы (Regionname) наиболее удалены от центра Мельбурна
melb_data_fe.groupby('Regionname')['Distance'].min().sort_values(ascending=False)

# ГРУППИРОВКА ДАННЫХ ПО ОДНОМУ КРИТЕРИЮ С НЕСКОЛЬКИМИ АГРЕГАЦИЯМИ(+метод agg())

# построим таблицу для анализа продаж по месяцам. Для этого найдём количество продаж, а также среднее и максимальное значения цен объектов недвижимости (Price), 
# сгруппированных по номеру месяца продажи (MonthSale). Результат отсортируем по количеству продаж в порядке убывания:
melb_data_fe.groupby('MonthSale')['Price'].agg(
    ['count', 'mean', 'max'],
).sort_values(by='count', ascending=False)

# ПРИМЕЧАНИЕ !!! Если вам нужна полная информация обо всех основных статистических характеристиках внутри каждой группы, 
# вы можете воспользоваться методом agg(), передав в качестве его параметра строку 'describe':
melb_data_fe.groupby('MonthSale')['Price'].agg('describe')

# После базовых математических функций наиболее частым агрегированием является подсчёт числа уникальных значений. Так, например, мы можем вычислить число уникальных 
# риелторских компаний в зависимости от региона, чтобы понять, в каких регионах конкуренция на рынке недвижимости меньше. 
# Это можно сделать, передав в параметр метода agg() строку 'nunique'. 
# Более того, метод agg() поддерживает использование и других функций. Передадим дополнительно встроенную функцию set, чтобы получить множество из агентств недвижимости, 
# которые работают в каждом из регионов:

melb_data_fe.groupby('Regionname')['SellerG'].agg(
    		['nunique', set]
)

# Задание 1.
# Сгруппируйте данные по признаку количества комнат и найдите среднюю цену объектов недвижимости в каждой группе. 
# В качестве ответа запишите количество комнат, для которых средняя цена наибольшая.
melb_data_fe.groupby('Rooms')['Price'].mean().sort_values(ascending=False)

# Задание 2.
# Какой регион имеет наименьшее стандартное отклонение по географической широте (Lattitude)? В качестве ответа запишите название этого региона.
melb_data_fe.groupby('Regionname')['Lattitude'].std().sort_values()

# Задание 3.
# Какая риелторская компания (SellerG) имеет наименьшую общую выручку за период с 1 мая по 1 сентября (включительно) 2017 года? 
# Для ответа на этот вопрос рассчитайте сумму продаж (Price) каждой компании в заданный период. 
# Не забудьте перевести даты в формат datetime

newdate_in_data=pd.to_datetime(melb_data_fe['Date'])
date_start=pd.to_datetime('2017-05-01')
date_end=pd.to_datetime('2017-09-01')
mask=(date_start < newdate_in_data) & (newdate_in_data < date_end)
melb_data_fe[mask].groupby('SellerG')['Price'].sum().sort_values(ascending=True)

  melb_data_fe.groupby('Type').mean() # группировка по типу квартиры + среднее значение по остальным признакам.


SellerG
LITTLE             2742000.0
Cayzer             4439000.0
Burnham            4550500.0
Moonee             7328000.0
Thomson            8332000.0
Bells              8656000.0
Alexkarbon        10985000.0
McDonald          14637500.0
Rendina           15422276.0
Nick              16890000.0
Douglas           18341000.0
Buckingham        19033000.0
C21               19515000.0
Eview             19791500.0
Collins           20217000.0
Philip            22051800.0
Chisholm          23225000.0
Williams          23297000.0
Love              23365500.0
Purplebricks      23401000.0
O'Brien           23855508.0
HAR               25568000.0
Village           26473000.0
RW                29261000.0
Raine             30687700.0
Stockdale         35409800.0
Sweeney           36882750.0
Gary              39138400.0
Hodges            43231000.0
YPA               46354350.0
Miles             47582000.0
Kay               48569500.0
RT                50498000.0
Brad              55955000.0
Jas   