In [1]:
import pandas as pd

melb_data = pd.read_csv('data/melb_data.csv', sep=',')
melb_data['Car'] = melb_data['Car'].astype('int64')
melb_data['Bedroom'] = melb_data['Bedroom'].astype('int64')
melb_data['Bathroom'] = melb_data['Bathroom'].astype('int64')
melb_data['Propertycount'] = melb_data['Propertycount'].astype('int64')
melb_data['YearBuilt'] = melb_data['YearBuilt'].astype('int64')
melb_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 23 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   index          13580 non-null  int64  
 1   Suburb         13580 non-null  object 
 2   Address        13580 non-null  object 
 3   Rooms          13580 non-null  int64  
 4   Type           13580 non-null  object 
 5   Price          13580 non-null  float64
 6   Method         13580 non-null  object 
 7   SellerG        13580 non-null  object 
 8   Date           13580 non-null  object 
 9   Distance       13580 non-null  float64
 10  Postcode       13580 non-null  int64  
 11  Bedroom        13580 non-null  int64  
 12  Bathroom       13580 non-null  int64  
 13  Car            13580 non-null  int64  
 14  Landsize       13580 non-null  float64
 15  BuildingArea   13580 non-null  float64
 16  YearBuilt      13580 non-null  int64  
 17  CouncilArea    12211 non-null  object 
 18  Lattit

In [None]:
# АГРЕГИРУЮЩИЕ МЕТОДЫ

# Мы научились выводить информацию о статистических показателях
# с помощью метода describe(). Однако этот метод становится
# не очень удобным, когда необходимо найти
# только один статистический параметр, например только среднюю цену,
# и использовать их в дальнейшем коде.
# Поэтому в Pandas предусмотрены инструменты быстрого вычисления
# показателей с помощью агрегирующих методов. 

# Агрегирующим в Pandas называется метод, который для каждого столбца 
# возвращает только одно значение — показатель 
# (например, вычисление медианы, максимума, среднего и так далее).

# Ниже приведена таблица основных агрегирующих методов:

# МЕТОД	СТАТИСТИЧЕСКИЙ ПАРАМЕТР
#.count()	    Количество непустых значений
#.mean()	    Среднее значение
#.min()	        Минимальное значение
#.max()	        Максимальное значение
#.deviance()	Дисперсия
#.std()	        Стандартное отклонение
#.sum()	        Сумма
#.quantile(x)	Квантиль уровня x
#.nunique()	    Число уникальных значений

# Если один из этих методов применить ко всему DataFrame,
# то в результате его работы будет получен объект типа Series,
# в котором в качестве индексов будут выступать наименования столбцов,
# а в качестве значений — статистический показатель.
# В случае применения метода к отдельному столбцу
# результатом вычислений станет число.

# В каждый метод можно передать некоторые параметры, среди которых:

# axis  — определяет, подсчитывать параметр по строкам или по столбцам;
# numeric_only — определяет, вычислять параметры 
# только по числовым столбцам/строкам или нет (True/False).

In [2]:
# Вычислим среднюю цену на объекты недвижимости: (округлил до целого)
print(round (melb_data['Price'].mean()))

1075684


In [3]:
# Найдём максимальное количество парковочных мест:

print(melb_data['Car'].max())

10


In [4]:
# А теперь представим, что риэлторская ставка для
# всех компаний за продажу недвижимости составляет 12%. 
# Найдём общую прибыльность риэлторского бизнеса в Мельбурне.
# Результат округлим до сотых:

rate = 0.12
income = melb_data['Price'].sum() * rate
print('Total income of real estate agencies:', round(income, 2))

Total income of real estate agencies: 1752934775.88


In [5]:
# Найдём,
# насколько медианная площадь территории отличается от её среднего значения.
# Вычислим модуль разницы между медианой и средним
# и разделим результат на среднее, чтобы получить отклонение в долях:

landsize_median = melb_data['Landsize'].median() 
landsize_mean =  melb_data['Landsize'].mean()
print(abs(landsize_median - landsize_mean)/landsize_mean)

0.21205713983546193


In [6]:
# МОДАЛЬНОЕ ЗНАЧЕНИЕ

#Отдельный интерес представляет статический показатель
# моды
# — самого распространённого значения в столбце.
# Он вычисляется с помощью метода mode().

#Модальных значений может быть несколько,
# то есть несколько значений могут встречаться одинаковое количество раз.
# Поэтому метод mode(), в отличие от агрегирующих методов,
# возвращает не одно число, а серию.

# Вычислим, какое число комнат чаще всего представлено
# на рынке недвижимости:
print(melb_data['Rooms'].mode())

0    3
Name: Rooms, dtype: int64


In [7]:
# Примечание. Метод mode() может быть использован не только с числовыми
# столбцами,
# но и со столбцами типа object. Так, например, с помощью следующего кода
# можно найти наиболее распространённое название района:

melb_data['Regionname'].mode()

0    Southern Metropolitan
Name: Regionname, dtype: object

In [9]:
melb_data.std()

TypeError: could not convert string to float: 'Abbotsford'

In [10]:
# Задание 7.2

# Чему равно максимальное количество домов на продажу в районе 
# (Propertycount)?

melb_data['Propertycount'].max()

21650

In [11]:
# Задание 7.3

# Чему равно стандартное отклонение (разброс) расстояния от центра города
# до объекта недвижимости?

d = melb_data['Distance'].std()
print(round(d))

6


In [37]:
# Задание 7.4

# Чему равно отклонение (в процентах)
# медианного значения площади здания
# от его среднего значения?
# Ответ округлите до целого числа. Не указывайте знак %.

landsize_median = melb_data['BuildingArea'].median() 
landsize_mean =  melb_data['BuildingArea'].mean()
print(abs(landsize_median - landsize_mean)/landsize_mean*100)

9.764079662364534


In [47]:
# Задание 7.5

# Задан ряд чисел [1, 2, 4, 2, 3, 2, 1, 5, 6].
# Чему равна мода в данном ряду?
from collections import Counter
x = [1, 2, 4, 2, 3, 2, 1, 5, 6]
Counter(x).most_common(1)

[(2, 3)]

In [49]:
#Задание 7.6

# Сколько спален чаще всего встречается в домах в Мельбурне?
melb_data['Bedroom'].mode()

0    3
Name: Bedroom, dtype: int64