In [1]:
import numpy as np
import pandas as pd

In [16]:
melb_data = pd.read_csv('data/melb_data.csv', sep=',',  index_col=0, header=0)

In [31]:
# Для того чтобы получить более детальную информацию о столбцах таблицы, можно использовать метод DataFrame info()
melb_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 13580 entries, 0 to 13579
Data columns (total 22 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Suburb         13580 non-null  object 
 1   Address        13580 non-null  object 
 2   Rooms          13580 non-null  int64  
 3   Type           13580 non-null  object 
 4   Price          13580 non-null  float64
 5   Method         13580 non-null  object 
 6   SellerG        13580 non-null  object 
 7   Date           13580 non-null  object 
 8   Distance       13580 non-null  float64
 9   Postcode       13580 non-null  int64  
 10  Bedroom        13580 non-null  float64
 11  Bathroom       13580 non-null  float64
 12  Car            13580 non-null  float64
 13  Landsize       13580 non-null  float64
 14  BuildingArea   13580 non-null  float64
 15  YearBuilt      13580 non-null  float64
 16  CouncilArea    12211 non-null  object 
 17  Lattitude      13580 non-null  float64
 18  Longti

In [33]:
# Метод astype() позволяет преобразовать тип данных столбца
melb_data['Car'] = melb_data['Car'].astype('int64')
melb_data['Bedroom'] = melb_data['Bedroom'].astype('int64')
melb_data['Bathroom'] = melb_data['Bathroom'].astype('int64')
melb_data['Propertycount'] = melb_data['Propertycount'].astype('int64')
melb_data['YearBuilt'] = melb_data['YearBuilt'].astype('int64')
melb_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 13580 entries, 0 to 13579
Data columns (total 22 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Suburb         13580 non-null  object 
 1   Address        13580 non-null  object 
 2   Rooms          13580 non-null  int64  
 3   Type           13580 non-null  object 
 4   Price          13580 non-null  float64
 5   Method         13580 non-null  object 
 6   SellerG        13580 non-null  object 
 7   Date           13580 non-null  object 
 8   Distance       13580 non-null  float64
 9   Postcode       13580 non-null  int64  
 10  Bedroom        13580 non-null  int64  
 11  Bathroom       13580 non-null  int64  
 12  Car            13580 non-null  int64  
 13  Landsize       13580 non-null  float64
 14  BuildingArea   13580 non-null  float64
 15  YearBuilt      13580 non-null  int64  
 16  CouncilArea    12211 non-null  object 
 17  Lattitude      13580 non-null  float64
 18  Longti

In [34]:
# Чтобы не увязнуть в обилии информации, выведем на экран значение статистических параметров только для столбцов 
# Distance (расстояние от объекта недвижимости до центра Мельбурна), 
# BuildingArea (площадь здания) 
# Price (цена объекта)
melb_data.describe().loc[:, ['Distance', 'BuildingArea' , 'Price']]

Unnamed: 0,Distance,BuildingArea,Price
count,13580.0,13580.0,13580.0
mean,10.137776,139.633972,1075684.0
std,5.868725,392.217403,639310.7
min,0.0,0.0,85000.0
25%,6.1,122.0,650000.0
50%,9.2,126.0,903000.0
75%,13.0,129.94,1330000.0
max,48.1,44515.0,9000000.0


In [36]:
# На самом деле метод describe() можно применять не только к числовым признакам. 
# С помощью параметра include можно указать тип данных, 
# для которого нужно вывести описательную информацию.

# Например, для типа данных object метод describe() возвращает DataFrame, в котором указаны:

# количество непустых строк (count);
# количество уникальных значений (unique);
# самое частое значение — мода —  (top);
# частота — объём использования — этого значения (freq) для каждого столбца типа object исходной таблицы.
melb_data.describe(include=['object'])

Unnamed: 0,Suburb,Address,Type,Method,SellerG,Date,CouncilArea,Regionname,Coordinates
count,13580,13580,13580,13580,13580,13580,12211,13580,13580
unique,314,13378,3,5,268,58,33,8,13097
top,Reservoir,36 Aberfeldie St,h,S,Nelson,27/05/2017,Moreland,Southern Metropolitan,"-37.8361, 144.9966"
freq,359,3,9449,9022,1565,473,1163,4695,12


In [40]:
# Для того чтобы определить, сколько раз в столбце повторяется каждый из вариантов значений (т.е. найти частоту для каждого уникального знания)
melb_data['Regionname'].value_counts()

Southern Metropolitan         4695
Northern Metropolitan         3890
Western Metropolitan          2948
Eastern Metropolitan          1471
South-Eastern Metropolitan     450
Eastern Victoria                53
Northern Victoria               41
Western Victoria                32
Name: Regionname, dtype: int64

In [41]:
# И сколько всего уникальных значений
melb_data['Regionname'].value_counts().count()

8

In [46]:
# Чтобы сделать вывод более интерпретируемым и понятным, можно воспользоваться параметром normalize. 
# При установке значения этого параметра на True результат будет представляться в виде доли (относительной частоты):
melb_data['Regionname'].value_counts(normalize=True)

Southern Metropolitan         0.345729
Northern Metropolitan         0.286451
Western Metropolitan          0.217084
Eastern Metropolitan          0.108321
South-Eastern Metropolitan    0.033137
Eastern Victoria              0.003903
Northern Victoria             0.003019
Western Victoria              0.002356
Name: Regionname, dtype: float64

In [49]:
melb_data["Coordinates"].info()

<class 'pandas.core.series.Series'>
Int64Index: 13580 entries, 0 to 13579
Series name: Coordinates
Non-Null Count  Dtype 
--------------  ----- 
13580 non-null  object
dtypes: object(1)
memory usage: 728.2+ KB


In [59]:
# Сколько пропущенных значений в столбце CouncilArea
melb_data["CouncilArea"].isna().value_counts()

False    12211
True      1369
Name: CouncilArea, dtype: int64

In [99]:
# Сколько столбцов после преобразования типов имеет целочисленный тип данных?
len(melb_data.select_dtypes(include='int64').columns)

7

In [100]:
# Среднее и медианное значения цены дома в таблице отличаются более чем в 10 раз. НЕТ
melb_data['Price'].mean() / melb_data['Price'].median()

1.1912337535493698

In [101]:
# Половина проданных зданий находится на расстоянии от 6.1 до 13 километров от центра города. ДА
melb_data['Distance'].describe()

count    13580.000000
mean        10.137776
std          5.868725
min          0.000000
25%          6.100000
50%          9.200000
75%         13.000000
max         48.100000
Name: Distance, dtype: float64

In [102]:
# В данных есть как минимум одно жилое помещение, которое находится ровно в той точке, которая считается центром Мельбурна
melb_data.loc[melb_data['Distance'] == 0]

Unnamed: 0_level_0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
9620,Melbourne,19/300 King St,2,u,740000.0,VB,MICM,17/06/2017,0.0,3000,...,1,0.0,113.0,1999,Melbourne,-37.81317,144.95452,Northern Metropolitan,17496,"-37.81317, 144.95452"
10393,Melbourne,1814/250 Elizabeth St,2,u,720000.0,S,Harcourts,27/05/2017,0.0,3000,...,1,0.0,86.0,1976,Melbourne,-37.81267,144.96273,Northern Metropolitan,17496,"-37.81267, 144.96273"
10739,Melbourne,61/299 Queen St,2,u,1075000.0,SP,Melbourne,8/07/2017,0.0,3000,...,1,0.0,126.0,1970,Melbourne,-37.81141,144.95879,Northern Metropolitan,17496,"-37.81141, 144.95879"
11428,Melbourne,806/22 Coromandel Pl,2,u,387000.0,S,Galldon,15/07/2017,0.0,3000,...,0,0.0,47.0,2011,Melbourne,-37.81301,144.96924,Northern Metropolitan,17496,"-37.81301, 144.96924"
12073,Melbourne,709/87 Franklin St,2,u,565000.0,S,MICM,29/07/2017,0.0,3000,...,0,89.0,85.0,2003,Melbourne,-37.80802,144.96168,Northern Metropolitan,17496,"-37.80802, 144.96168"
12074,Melbourne,713/118 Russell St,2,u,540000.0,PI,Harcourts,29/07/2017,0.0,3000,...,0,0.0,126.0,1950,Melbourne,-37.81351,144.96908,Northern Metropolitan,17496,"-37.81351, 144.96908"


In [97]:
len(melb_data.loc[melb_data['Distance'] == 0])

6

In [108]:
# Наименьшее число объектов расположено в районе Southern Metropolitan. НЕТ
# Мельбурн и его пригороды разделены как минимум на восемь районов. ДА

melb_data['Regionname'].value_counts()

Southern Metropolitan         4695
Northern Metropolitan         3890
Western Metropolitan          2948
Eastern Metropolitan          1471
South-Eastern Metropolitan     450
Eastern Victoria                53
Northern Victoria               41
Western Victoria                32
Name: Regionname, dtype: int64

In [109]:
# У некоторых различных адресов в таблице совпадают географические координаты. ДА
melb_data['Coordinates'].value_counts()

-37.8361, 144.9966      12
-37.8035, 144.985        8
-37.8424, 144.9449       6
-37.8231, 144.9906       5
-37.8415, 144.9412       5
                        ..
-37.7931, 144.9565       1
-37.7852, 144.9589       1
-37.7965, 144.9544       1
-37.7948, 144.9571       1
-37.81188, 144.88449     1
Name: Coordinates, Length: 13097, dtype: int64

In [110]:
# В пригороде Reservoir расположено наибольшее число проданных объектов - 359. ДА
melb_data["Suburb"].value_counts()

Reservoir         359
Richmond          260
Bentleigh East    249
Preston           239
Brunswick         222
                 ... 
Sandhurst           1
Bullengarook        1
Croydon South       1
Montrose            1
Monbulk             1
Name: Suburb, Length: 314, dtype: int64

In [113]:
# В столбце Regionname восемь уникальных значений (unique), что даёт право сделать вывод, 
# что в Мельбурне и его пригородах как минимум восемь различных районов.

# Количество уникальных значений (unique) в столбце Address больше, чем количество уникальных значений в столбце Coordinates. 
# Это значит, что некоторые различные адреса помечены одинаковыми географическими координатами.

# Наиболее часто встречающееся (top) значение в столбце Suburb является Reservoir. Частота (freq) его использований — 359 раз.
melb_data[['Regionname', 'Suburb', 'Coordinates', 'Address']].describe()

Unnamed: 0,Regionname,Suburb,Coordinates,Address
count,13580,13580,13580,13580
unique,8,314,13097,13378
top,Southern Metropolitan,Reservoir,"-37.8361, 144.9966",36 Aberfeldie St
freq,4695,359,12,3


In [116]:
# Сколько процентов от общего количества домов составляют таунхаусы (тип объекта — t)?
melb_data['Type'].value_counts(normalize = True)

h    0.695803
u    0.222165
t    0.082032
Name: Type, dtype: float64

In [119]:
int(round(melb_data['Type'].value_counts(normalize = True)['t'] * 100, 0))

8