In [2]:
# Как известно, специалист в области Data Science занимается построением моделей, которые помогают 
# в принятии верных решений, — например, построением нейронной сети, которая по медицинским данным 
# о пациенте способна предсказать развитие у него онкологии, или модели, которая будет прогнозировать
# цены акций на бирже.
# Однако не все знают, что перед тем как построить свою модель, дата-сайентист проходит через огромный этап
# под названием Предобработка данных и их подготовка к анализу и подаче в модель.
#Под предобработкой понимаются следующие этапы работы с данными:

#очистка данных от аномальных значений (выбросов);
#работа с пропущенными значениями;
#удаление признаков, которые не несут полезной информации;
#создание новых признаков;
#преобразование признаков и приведение данных к необходимому для анализа и модели формату.

# Этап подготовки данных является самым трудоёмким и времязатратным при работе с любой бизнес-задачей. 
# В среднем он занимает около 60-70% общей работы специалиста!

#Почему этот этап так важен?
#Ответ на этот вопрос кроется в распространённой среди специалистов поговорке 
# «Мусор на входе — мусор на выходе»

In [3]:
import pandas as pd
melb_data = pd.read_csv('data/melb_data_ps.csv')
melb_data.head()

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1,202.0,126.0,1970,Yarra,-37.7996,144.9984,Northern Metropolitan,4019,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0,156.0,79.0,1900,Yarra,-37.8079,144.9934,Northern Metropolitan,4019,"-37.8079, 144.9934"
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0,134.0,150.0,1900,Yarra,-37.8093,144.9944,Northern Metropolitan,4019,"-37.8093, 144.9944"
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,1,94.0,126.0,1970,Yarra,-37.7969,144.9969,Northern Metropolitan,4019,"-37.7969, 144.9969"
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,2,120.0,142.0,2014,Yarra,-37.8072,144.9941,Northern Metropolitan,4019,"-37.8072, 144.9941"


In [4]:
# копирование таблицы
melb_df = melb_data.copy()
melb_df.head()

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1,202.0,126.0,1970,Yarra,-37.7996,144.9984,Northern Metropolitan,4019,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0,156.0,79.0,1900,Yarra,-37.8079,144.9934,Northern Metropolitan,4019,"-37.8079, 144.9934"
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0,134.0,150.0,1900,Yarra,-37.8093,144.9944,Northern Metropolitan,4019,"-37.8093, 144.9944"
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,1,94.0,126.0,1970,Yarra,-37.7969,144.9969,Northern Metropolitan,4019,"-37.7969, 144.9969"
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,2,120.0,142.0,2014,Yarra,-37.8072,144.9941,Northern Metropolitan,4019,"-37.8072, 144.9941"


In [5]:
#УДАЛЕНИЕ СТОЛБЦОВ И Строк
# drop() method
# labels — порядковые номера или имена столбцов, которые подлежат удалению; если их несколько, то передаётся список;
# axis — ось совершения операции, axis=0 — удаляются строки, axis=1 — удаляются столбцы;
# inplace — если параметр выставлен на True, происходит замена изначального DataFrame на новый,
# при этом метод ничего не возвращает; если на False — возвращается копия DataFrame,
# из которой удалены указанные строки (столбцы), при этом первоначальный DataFrame не изменяется;
# по умолчанию параметр равен False.
melb_df = melb_df.drop(['index', 'Coordinates'], axis=1)
melb_df.head()

#or
#melb_df.drop(['index','Coordinates'],axis=1,inplace=True)
#melb_df.head()

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067,...,1,1,202.0,126.0,1970,Yarra,-37.7996,144.9984,Northern Metropolitan,4019
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067,...,1,0,156.0,79.0,1900,Yarra,-37.8079,144.9934,Northern Metropolitan,4019
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067,...,2,0,134.0,150.0,1900,Yarra,-37.8093,144.9944,Northern Metropolitan,4019
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067,...,2,1,94.0,126.0,1970,Yarra,-37.7969,144.9969,Northern Metropolitan,4019
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067,...,1,2,120.0,142.0,2014,Yarra,-37.8072,144.9941,Northern Metropolitan,4019


In [6]:
#МАТЕМАТИЧЕСКИЕ ОПЕРАЦИИ СО СТОЛБЦАМИ

#Pandas поддерживает базовые математические операции между столбцами: столбцы можно складывать
# , вычитать, умножать, делить между собой, а также возводить в степень. 
# С помощью таких операций мы можем создавать новые признаки или производить преобразования над старыми.

total_rooms = melb_df['Rooms'] + melb_df['Bedroom'] + melb_df['Bathroom'] #посчитаем общее количество комнат в виде серии
display(total_rooms)

melb_df['MeanRoomsSquare'] = melb_df['BuildingArea'] / total_rooms # а теперь введем в таблицу среднюю площадь комнаты
display(melb_df['MeanRoomsSquare'])

#введем в таблицу коэффицент соотношения площади здания к площади участка AreaRatio
diff_area = melb_df['BuildingArea'] - melb_df['Landsize']
sum_area = melb_df['BuildingArea'] + melb_df['Landsize']
melb_df['AreaRatio'] = diff_area/sum_area
display(melb_df['AreaRatio'])

0         5
1         5
2         8
3         8
4         8
         ..
13575    10
13576     8
13577     8
13578     9
13579     9
Length: 13580, dtype: int64

0        25.200000
1        15.800000
2        18.750000
3        15.750000
4        17.750000
           ...    
13575    12.600000
13576    16.625000
13577    15.750000
13578    17.444444
13579    12.444444
Name: MeanRoomsSquare, Length: 13580, dtype: float64

0       -0.231707
1       -0.327660
2        0.056338
3        0.145455
4        0.083969
           ...   
13575   -0.676093
13576   -0.429185
13577   -0.551601
13578   -0.693060
13579   -0.527426
Name: AreaRatio, Length: 13580, dtype: float64

In [7]:
#2.3
import pandas as pd

def delete_columns(df, col=[]):
    """
    Напишите функцию delete_columns(df, col=[]), которая удаляет столбцы из DataFrame и возвращает новую таблицу. 
    Если одного из указанных столбцов в таблице не существует, то функция должна возвращать None.
    """
    if not set(col).issubset(set(df.columns)):
        return None
    
    df = df.drop(col, axis=1)
    return df


if __name__ == '__main__':
    customer_df = pd.DataFrame({
        'number': [0, 1, 2, 3, 4],
        'cust_id': [128, 1201, 9832, 4392, 7472],
        'cust_age': [13, 21, 19, 21, 60],
        'cust_sale': [0, 0, 0.2, 0.15, 0.3],
        'cust_year_birth': [2008, 2000, 2002, 2000, 1961],
        'cust_order': [1400, 14142, 900, 1240, 8430]
    })
    columns_for_delete= ['cust_age', 'cust_year_birth'] #выбранные вами столбцы
    new_df = delete_columns(customer_df, columns_for_delete)
    print(new_df)

   number  cust_id  cust_sale  cust_order
0       0      128       0.00        1400
1       1     1201       0.00       14142
2       2     9832       0.20         900
3       3     4392       0.15        1240
4       4     7472       0.30        8430


In [8]:
#2.4
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})
countries_df['density'] = countries_df['population']*1000000/countries_df['square']
display(countries_df['density'].mean())

84.93080566562001

In [9]:
#ФОРМАТ DATETIME
# datetime записывается как YYYY-MM-DD HH: MM: SS
display(melb_df['Date']) # видим DD/MM/YYYY
melb_df['Date'] = pd.to_datetime(melb_df['Date'], dayfirst=True) #to_datatime
display(melb_df['Date'])

0         3/12/2016
1         4/02/2016
2         4/03/2017
3         4/03/2017
4         4/06/2016
            ...    
13575    26/08/2017
13576    26/08/2017
13577    26/08/2017
13578    26/08/2017
13579    26/08/2017
Name: Date, Length: 13580, dtype: object

0       2016-12-03
1       2016-02-04
2       2017-03-04
3       2017-03-04
4       2016-06-04
           ...    
13575   2017-08-26
13576   2017-08-26
13577   2017-08-26
13578   2017-08-26
13579   2017-08-26
Name: Date, Length: 13580, dtype: datetime64[ns]

In [10]:
#ВЫДЕЛЕНИЕ АТРИБУТОВ DATETIME с помощью dt:
#date — дата;
#year, month, day — год, месяц, день;
#time — время;
#hour, minute, second — час, минута, секунда;
#dayofweek — номер дня недели, от 0 до 6, где 0 — понедельник, 6 — воскресенье;
#day_name — название дня недели;
#dayofyear — порядковый день года;
#quarter — квартал (интервал в три месяца).
years_sold = melb_df['Date'].dt.year
print(years_sold)
print('Min year sold:', years_sold.min())
print('Max year sold:', years_sold.max())
print('Mode year sold:', years_sold.mode()[0]) # мода - всегда серия. Тут ожно значение и мы обращаемся по индексу 0 к значению серии

0        2016
1        2016
2        2017
3        2017
4        2016
         ... 
13575    2017
13576    2017
13577    2017
13578    2017
13579    2017
Name: Date, Length: 13580, dtype: int64
Min year sold: 2016
Max year sold: 2017
Mode year sold: 2017


In [11]:
melb_df['MonthSale'] = melb_df['Date'].dt.month # добавили в таблицу столбец "месяц продажи"
melb_df['MonthSale'].value_counts(normalize=True) # посчитали сколько сделок делается в какой месяц и взяли долю

5     0.149411
7     0.145950
9     0.135862
6     0.134757
8     0.114138
11    0.082032
4     0.069882
3     0.049926
12    0.044698
10    0.040574
2     0.032622
1     0.000147
Name: MonthSale, dtype: float64

In [12]:
#РАБОТА С ИНТЕРВАЛАМИ
delta_days = melb_df['Date'] - pd.to_datetime('2016-01-01') 
display(delta_days)

0       337 days
1        34 days
2       428 days
3       428 days
4       155 days
          ...   
13575   603 days
13576   603 days
13577   603 days
13578   603 days
13579   603 days
Name: Date, Length: 13580, dtype: timedelta64[ns]

In [13]:
display(delta_days.dt.days)

0        337
1         34
2        428
3        428
4        155
        ... 
13575    603
13576    603
13577    603
13578    603
13579    603
Name: Date, Length: 13580, dtype: int64

In [14]:
melb_df['AgeBuilding'] = melb_df['Date'].dt.year - melb_df['YearBuilt']
display(melb_df['AgeBuilding'])
melb_df = melb_df.drop('YearBuilt', axis=1)

0         46
1        116
2        117
3         47
4          2
        ... 
13575     36
13576     22
13577     20
13578     97
13579     97
Name: AgeBuilding, Length: 13580, dtype: int64

In [15]:
#3.3
melb_df['WeekdaySale'] = melb_df['Date'].dt.dayofweek
weekend_count = melb_df[(melb_df['WeekdaySale'] == 5) | (melb_df['WeekdaySale'] == 6)]['WeekdaySale'].value_counts().sum()
weekend_count

12822

In [16]:
#3.4
ufo_frame = pd.read_csv('https://raw.githubusercontent.com/justmarkham/pandas-videos/master/data/ufo.csv')
display(ufo_frame.info())
ufo_frame['Time'] = pd.to_datetime(ufo_frame['Time'], dayfirst=True) #to_datatime
ufo_frame['Time'].dt.year.value_counts()
ufo_frame['Time'] = ufo_frame['Time'].dt.date #выделяем дату
display(ufo_frame[ufo_frame['State'] == 'NV']['Time'])
ufo_frame[ufo_frame['State'] == 'NV']['Time'].diff().dt.days.mean()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18241 entries, 0 to 18240
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   City             18216 non-null  object
 1   Colors Reported  2882 non-null   object
 2   Shape Reported   15597 non-null  object
 3   State            18241 non-null  object
 4   Time             18241 non-null  object
dtypes: object(5)
memory usage: 712.7+ KB


None

76       1947-07-15
172      1952-02-17
565      1959-09-15
566      1959-09-15
613      1960-01-07
            ...    
17447    2000-09-16
17567    2000-09-30
17617    2000-06-10
17890    2000-07-11
18104    2000-10-12
Name: Time, Length: 284, dtype: object

68.72084805653711

In [17]:
print(melb_df['Address'].nunique())

13378


In [18]:
print(melb_df['Address'].loc[177])
print(melb_df['Address'].loc[1812])
print(melb_df['Address'].loc[9001])

2/119 Railway St N
9/400 Dandenong Rd
172 Danks St


In [19]:
# На вход данной функции поступает строка с адресом.
def get_street_type(address):
# Создаём список географических пометок exclude_list.
    exclude_list = ['N', 'S', 'W', 'E']
# Метод split() разбивает строку на слова по пробелу.
# В результате получаем список слов в строке и заносим его в переменную address_list.
    address_list = address.split(' ')
# Обрезаем список, оставляя в нём только последний элемент,
# потенциальный подтип улицы, и заносим в переменную street_type.
    street_type = address_list[-1]
# Делаем проверку на то, что полученный подтип является географической пометкой.
# Для этого проверяем его на наличие в списке exclude_list.
    if street_type in exclude_list:
# Если переменная street_type является географической пометкой,
# переопределяем её на второй элемент с конца списка address_list.
        street_type = address_list[-2]
# Возвращаем переменную street_type, в которой хранится подтип улицы.
    return street_type

In [20]:
#Теперь применим эту функцию к столбцу c адресом. Для этого передадим функцию get_street_type в аргумент метода столбца apply().
# В результате получим объект Series, который положим в переменную street_types:
street_types = melb_df['Address'].apply(get_street_type) #apply применяет нашу функцию к элементам столбца и на выходе дает серию. 
#Используемая функция обязательно должна иметь возвращаемое значение.
display(street_types)

0        St
1        St
2        St
3        La
4        St
         ..
13575    Cr
13576    Dr
13577    St
13578    St
13579    St
Name: Address, Length: 13580, dtype: object

In [21]:
print(street_types.nunique())

56


In [22]:
display(street_types.value_counts())

St           8012
Rd           2825
Ct            612
Dr            447
Av            321
Gr            311
Pde           211
Pl            169
Cr            152
Cl            100
La             67
Bvd            53
Tce            47
Wy             40
Avenue         40
Cct            25
Hwy            24
Parade         15
Boulevard      13
Sq             11
Crescent        9
Cir             7
Strand          7
Esplanade       6
Grove           5
Gdns            4
Grn             4
Fairway         4
Mews            4
Crossway        3
Righi           3
Victoria        2
Ridge           2
Crofts          2
Esp             2
Glade           1
Gra             1
Ave             1
Woodland        1
Outlook         1
Hts             1
Highway         1
Athol           1
Summit          1
Grand           1
Res             1
Nook            1
Eyrie           1
Dell            1
East            1
Loop            1
Grange          1
Terrace         1
Cove            1
Qy              1
Corso     

In [23]:
#Из данного вывода можно увидеть, что есть группа наиболее популярных подтипов улиц, а дальше частота подтипов быстро падает.
# В таком случае давайте применим очень распространённый метод уменьшения количества уникальных категорий — 
# выделим n подтипов, которые встречаются чаще всего, а остальные обозначим как 'other' (другие).
# Для этого к результату метода value_counts применим метод nlargest(), 
# который возвращает n наибольших значений из Series. 
# Зададим n=10, т. е. мы хотим отобрать десять наиболее популярных подтипов. 
# Извлечём их названия с помощью атрибута index, а результат занесём в переменную popular_stypes:
popular_stypes =street_types.value_counts().nlargest(10).index
print(popular_stypes)

Index(['St', 'Rd', 'Ct', 'Dr', 'Av', 'Gr', 'Pde', 'Pl', 'Cr', 'Cl'], dtype='object')


In [24]:
#Теперь, когда у нас есть список наиболее популярных подтипов улиц, введём 
# lambda-функцию, которая будет проверять, есть ли строка x в этом перечне, и, 
# если это так, lambda-функция будет возвращать x, в противном случае она 
# будет возвращать строку 'other'. Наконец, применим такую функцию к 
# Series street_types, полученной ранее, а результат определим в новый столбец таблицы StreetType:
melb_df['StreetType'] = street_types.apply(lambda x: x if x in popular_stypes else 'other')
display(melb_df['StreetType'])

0           St
1           St
2           St
3        other
4           St
         ...  
13575       Cr
13576       Dr
13577       St
13578       St
13579       St
Name: StreetType, Length: 13580, dtype: object

In [25]:
print(melb_df['StreetType'].nunique())

11


In [26]:
#4.2
display(melb_df['WeekdaySale'])

def get_weekend(weekday):
    if weekday in [5,6]:
        return 1
    else:
        return 0

melb_df['Weekend'] =  melb_df['WeekdaySale'].apply(get_weekend)
display(melb_df['Weekend'])

# Попробуем через lambda
melb_df['Weekend'] =  melb_df['WeekdaySale'].apply(lambda x: 1 if x in [5,6] else 0)
display(melb_df['Weekend'])

round(melb_df[melb_df['Weekend'] == 1]['Price'].mean())


0        5
1        3
2        5
3        5
4        5
        ..
13575    5
13576    5
13577    5
13578    5
13579    5
Name: WeekdaySale, Length: 13580, dtype: int64

0        1
1        0
2        1
3        1
4        1
        ..
13575    1
13576    1
13577    1
13578    1
13579    1
Name: Weekend, Length: 13580, dtype: int64

0        1
1        0
2        1
3        1
4        1
        ..
13575    1
13576    1
13577    1
13578    1
13579    1
Name: Weekend, Length: 13580, dtype: int64

1081199

In [27]:
#Задание 4.3
from pandas import value_counts


popular_sellers =melb_df['SellerG'].value_counts().nlargest(49).index
print(popular_sellers)
melb_df['SellerG'] = melb_df['SellerG'].apply(lambda x: x if x in popular_sellers else 'other')
display(melb_df['SellerG'].value_counts())
print(melb_df[melb_df['SellerG'] == 'Nelson']['Price'].min() / melb_df[melb_df['SellerG'] == 'other']['Price'].min())

Index(['Nelson', 'Jellis', 'hockingstuart', 'Barry', 'Ray', 'Marshall',
       'Buxton', 'Biggin', 'Brad', 'Fletchers', 'Woodards', 'Jas', 'Greg',
       'McGrath', 'Sweeney', 'Noel', 'Miles', 'RT', 'Gary', 'Harcourts',
       'Hodges', 'YPA', 'Stockdale', 'Village', 'Kay', 'Raine', 'Williams',
       'Love', 'Douglas', 'Chisholm', 'RW', 'Rendina', 'HAR', 'O'Brien', 'C21',
       'Collins', 'Cayzer', 'Eview', 'Purplebricks', 'Philip', 'Buckingham',
       'Bells', 'Thomson', 'Nick', 'Alexkarbon', 'McDonald', 'Burnham',
       'Moonee', 'LITTLE'],
      dtype='object')


Nelson           1565
Jellis           1316
other            1199
hockingstuart    1167
Barry            1011
Ray               701
Marshall          659
Buxton            632
Biggin            393
Brad              342
Woodards          301
Fletchers         301
Jas               243
Greg              239
McGrath           222
Sweeney           216
Noel              205
Miles             196
RT                184
Gary              170
Harcourts         168
Hodges            157
YPA               154
Stockdale         150
Village           125
Kay               119
Raine             116
Williams          111
Love              109
Douglas            97
Chisholm           77
RW                 70
Rendina            66
HAR                62
O'Brien            61
C21                57
Collins            56
Cayzer             52
Eview              51
Purplebricks       51
Philip             48
Buckingham         46
Bells              44
Thomson            42
Nick               40
Alexkarbon

1.297709923664122


In [28]:
#КАТЕГОРИИ В ДАННЫХ О НЕДВИЖИМОСТИ
# создаём пустой список
unique_list = []
# пробегаемся по именам столбцов в таблице
for col in melb_df.columns:
    # создаём кортеж (имя столбца, число уникальных значений)
    item = (col, melb_df[col].nunique(), melb_df[col].dtype) 
    # добавляем кортеж в список
    unique_list.append(item) 
# создаём вспомогательную таблицу и сортируем её
unique_counts = pd.DataFrame(
    unique_list,
    columns=['Column_Name', 'Num_Unique', 'Type']
).sort_values(by='Num_Unique',  ignore_index=True)
# выводим её на экран
display(unique_counts)

Unnamed: 0,Column_Name,Num_Unique,Type
0,Weekend,2,int64
1,Type,3,object
2,WeekdaySale,5,int64
3,Method,5,object
4,Regionname,8,object
5,Rooms,9,int64
6,Bathroom,9,int64
7,Car,11,int64
8,StreetType,11,object
9,Bedroom,12,int64


In [29]:
#ТИП ДАННЫХ CATEGORY
#Для хранения и оптимизации работы с категориальными признаками в Pandas предусмотрен специальный тип данных — category.
#→ Этот тип данных является гибридным: внешне он выглядит как строка, но внутренне
# представлен массивом целых чисел. Так как данные вместо изначальных строк хранятся 
# в памяти как число, то объём памяти, занимаемой таблицей при использовании типа category, 
# резко уменьшается, что повышает эффективность хранения и работы с таблицей.

# Более того, этот тип данных расширяет возможности работы с категориальными признаками: 
# мы можем легко преобразовывать категории, строить графики по таким данным (что сложно сделать 
# для типа данных object). Также резко повышается производительность операций, 
# совершаемых с такими столбцами.

display(melb_df.info())
#2.8 Mb

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 27 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Suburb           13580 non-null  object        
 1   Address          13580 non-null  object        
 2   Rooms            13580 non-null  int64         
 3   Type             13580 non-null  object        
 4   Price            13580 non-null  float64       
 5   Method           13580 non-null  object        
 6   SellerG          13580 non-null  object        
 7   Date             13580 non-null  datetime64[ns]
 8   Distance         13580 non-null  float64       
 9   Postcode         13580 non-null  int64         
 10  Bedroom          13580 non-null  int64         
 11  Bathroom         13580 non-null  int64         
 12  Car              13580 non-null  int64         
 13  Landsize         13580 non-null  float64       
 14  BuildingArea     13580 non-null  float

None

In [30]:
#Сделаем преобразование столбцов к типу данных category:
cols_to_exclude = ['Date', 'Rooms', 'Bedroom', 'Bathroom', 'Car'] # список столбцов, которые мы не берём во внимание
max_unique_count = 150 # задаём максимальное число уникальных категорий
for col in melb_df.columns: # цикл по именам столбцов
    if melb_df[col].nunique() < max_unique_count and col not in cols_to_exclude: # проверяем условие
        melb_df[col] = melb_df[col].astype('category') # преобразуем тип столбца
display(melb_df.info())
#2.0 Mb

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 27 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Suburb           13580 non-null  object        
 1   Address          13580 non-null  object        
 2   Rooms            13580 non-null  int64         
 3   Type             13580 non-null  category      
 4   Price            13580 non-null  float64       
 5   Method           13580 non-null  category      
 6   SellerG          13580 non-null  category      
 7   Date             13580 non-null  datetime64[ns]
 8   Distance         13580 non-null  float64       
 9   Postcode         13580 non-null  int64         
 10  Bedroom          13580 non-null  int64         
 11  Bathroom         13580 non-null  int64         
 12  Car              13580 non-null  int64         
 13  Landsize         13580 non-null  float64       
 14  BuildingArea     13580 non-null  float

None

In [31]:
#ПОЛУЧЕНИЕ АТРИБУТОВ CATEGORY
print(melb_df['Regionname'].cat.categories)

Index(['Eastern Metropolitan', 'Eastern Victoria', 'Northern Metropolitan',
       'Northern Victoria', 'South-Eastern Metropolitan',
       'Southern Metropolitan', 'Western Metropolitan', 'Western Victoria'],
      dtype='object')


In [32]:
display(melb_df['Regionname'].cat.codes)

0        2
1        2
2        2
3        2
4        2
        ..
13575    4
13576    6
13577    6
13578    6
13579    6
Length: 13580, dtype: int8

In [33]:
#С помощью метода аксессора rename_categories() 
# можно легко переименовать текущие значения категорий. Для этого в данный метод нужно передать словарь, 
# ключи которого — старые имена категорий, а значения — новые.
# Рассмотрим на примере: переименуем категории признака типа постройки Type — 
# заменим их на полные названия (напомним, u — unit, h — house, t — townhouse).
display(melb_df['Type'])
melb_df['Type'] = melb_df['Type'].cat.rename_categories({
    'u': 'unit',
    't': 'townhouse',
    'h': 'house'
})
display(melb_df['Type'])

0        h
1        h
2        h
3        h
4        h
        ..
13575    h
13576    h
13577    h
13578    h
13579    h
Name: Type, Length: 13580, dtype: category
Categories (3, object): ['h', 't', 'u']

0        house
1        house
2        house
3        house
4        house
         ...  
13575    house
13576    house
13577    house
13578    house
13579    house
Name: Type, Length: 13580, dtype: category
Categories (3, object): ['house', 'townhouse', 'unit']

In [34]:
# нюанс
new_houses_types = pd.Series(['unit', 'house', 'flat', 'flat', 'house'])
new_houses_types = new_houses_types.astype(melb_df['Type'].dtype)
display(new_houses_types)
# преобразовали новую серию к типу столбца Type. А там уже назначенная категория и она не знает о существовании flat
# исправим - добавим flat в нашу категорию
melb_df['Type'] = melb_df['Type'].cat.add_categories('flat')
new_houses_types = pd.Series(['unit', 'house', 'flat', 'flat', 'house'])
new_houses_types = new_houses_types.astype(melb_df['Type'].dtype)
display(new_houses_types)

0     unit
1    house
2      NaN
3      NaN
4    house
dtype: category
Categories (3, object): ['house', 'townhouse', 'unit']

0     unit
1    house
2     flat
3     flat
4    house
dtype: category
Categories (4, object): ['house', 'townhouse', 'unit', 'flat']

In [35]:
#5.2
melb_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 27 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Suburb           13580 non-null  object        
 1   Address          13580 non-null  object        
 2   Rooms            13580 non-null  int64         
 3   Type             13580 non-null  category      
 4   Price            13580 non-null  float64       
 5   Method           13580 non-null  category      
 6   SellerG          13580 non-null  category      
 7   Date             13580 non-null  datetime64[ns]
 8   Distance         13580 non-null  float64       
 9   Postcode         13580 non-null  int64         
 10  Bedroom          13580 non-null  int64         
 11  Bathroom         13580 non-null  int64         
 12  Car              13580 non-null  int64         
 13  Landsize         13580 non-null  float64       
 14  BuildingArea     13580 non-null  float

In [43]:
display(melb_df['Suburb'])
popular_sub =melb_df['Suburb'].value_counts().nlargest(119).index
print(popular_sub)
melb_df['Suburb'] = melb_df['Suburb'].apply(lambda x: x if x in popular_sub else 'other')
melb_df['Suburb']= melb_df['Suburb'].astype('category')
melb_df.info()

0          Abbotsford
1          Abbotsford
2          Abbotsford
3          Abbotsford
4          Abbotsford
             ...     
13575           other
13576    Williamstown
13577    Williamstown
13578    Williamstown
13579      Yarraville
Name: Suburb, Length: 13580, dtype: category
Categories (119, object): ['Abbotsford', 'Aberfeldie', 'Airport West', 'Albert Park', ..., 'Williamstown', 'Windsor', 'Yarraville', 'other']

CategoricalIndex(['other', 'Reservoir', 'Richmond', 'Bentleigh East',
                  'Preston', 'Brunswick', 'Essendon', 'South Yarra',
                  'Glen Iris', 'Hawthorn',
                  ...
                  'Southbank', 'Viewbank', 'Hoppers Crossing', 'Sunbury',
                  'Bundoora', 'Greensborough', 'Chadstone', 'Caulfield North',
                  'Hughesdale', 'Mont Albert'],
                 categories=['Abbotsford', 'Aberfeldie', 'Airport West', 'Albert Park', 'Albion', 'Altona', 'Altona North', 'Armadale', ...], ordered=False, dtype='category', length=119)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 27 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Suburb           13580 non-null  category      
 1   Address          13580 non-null  object        
 2   Rooms            13580 non-null  int64         
 3   Type             13580 non-nu