# Мельбурн и его пригороды

In [None]:
import numpy as np
import pandas as pd

melb_data = pd.read_csv('data/melb_data_ps.csv', sep=',')
melb_data.head()

In [None]:
melb_df = melb_data.copy()
melb_df.head()

In [None]:
# Удалим столбцы index и Coordinates из таблицы с помощью метода drop(). Выведем первые пять строк таблицы и убедимся, что всё прошло успешно.

melb_df = melb_df.drop(['index', 'Coordinates'], axis=1)
melb_df.head()

In [8]:
# Альтернативный вариант:

melb_df.drop(['index','Coordinates'],axis=1,inplace=True)
melb_df.head()

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067,...,1,1,202.0,126.0,1970,Yarra,-37.7996,144.9984,Northern Metropolitan,4019
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067,...,1,0,156.0,79.0,1900,Yarra,-37.8079,144.9934,Northern Metropolitan,4019
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067,...,2,0,134.0,150.0,1900,Yarra,-37.8093,144.9944,Northern Metropolitan,4019
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067,...,2,1,94.0,126.0,1970,Yarra,-37.7969,144.9969,Northern Metropolitan,4019
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067,...,1,2,120.0,142.0,2014,Yarra,-37.8072,144.9941,Northern Metropolitan,4019


In [9]:
# давайте создадим переменную total_rooms, в которой будем хранить общее количество комнат в здании. 
# Для этого выполним сложение столбцов с количеством комнат, ванн и спален:

total_rooms = melb_df['Rooms'] + melb_df['Bedroom'] + melb_df['Bathroom']
display(total_rooms)

0         5
1         5
2         8
3         8
4         8
         ..
13575    10
13576     8
13577     8
13578     9
13579     9
Length: 13580, dtype: int64

In [10]:
# А теперь введём признак MeanRoomsArea, который соответствует средней площади одной комнаты для каждого объекта. 
# Для этого разделим площадь здания на полученное ранее общее количество комнат:

melb_df['MeanRoomsArea'] = melb_df['BuildingArea'] / total_rooms
display(melb_df['MeanRoomsArea'])

0        25.200000
1        15.800000
2        18.750000
3        15.750000
4        17.750000
           ...    
13575    12.600000
13576    16.625000
13577    15.750000
13578    17.444444
13579    12.444444
Name: MeanRoomsArea, Length: 13580, dtype: float64

In [11]:
# Можно ввести ещё один интересный признак — AreaRatio, коэффициент соотношения площади здания (BuildingArea) и площади участка (Landsize). 
# Для этого разницу двух площадей поделим на их сумму:

diff_area = melb_df['BuildingArea'] - melb_df['Landsize']
sum_area = melb_df['BuildingArea'] + melb_df['Landsize']
melb_df['AreaRatio'] = diff_area/sum_area
display(melb_df['AreaRatio'])

0       -0.231707
1       -0.327660
2        0.056338
3        0.145455
4        0.083969
           ...   
13575   -0.676093
13576   -0.429185
13577   -0.551601
13578   -0.693060
13579   -0.527426
Name: AreaRatio, Length: 13580, dtype: float64

In [12]:
customer_df = pd.DataFrame({
            'number': [0, 1, 2, 3, 4],
            'cust_id': [128, 1201, 9832, 4392, 7472],
            'cust_age': [13, 21, 19, 21, 60],
            'cust_sale': [0, 0, 0.2, 0.15, 0.3],
            'cust_year_birth': [2008, 2000, 2002, 2000, 1961],
            'cust_order': [1400, 14142, 900, 1240, 8430]
        })

In [13]:
def delete_columns(df, col=[]):
    """
    Удаляет указанные столбцы из DataFrame. Если хотя бы одного столбца нет, возвращает None.
    
    Параметры:
    df - исходный DataFrame
    col - список столбцов для удаления (по умолчанию пустой)
    
    Возвращает:
    Новый DataFrame без указанных столбцов или None, если столбцы не существуют
    """
    # Проверяем, что все указанные столбцы существуют в DataFrame
    existing_columns = set(df.columns)
    for column in col:
        if column not in existing_columns:
            return None
    
    # Если все столбцы существуют, создаем копию и удаляем их
    new_df = df.copy()
    new_df.drop(columns=col, inplace=True)
    return new_df

In [14]:
def delete_columns(df, col=[]):
    """
    Удаляет столбцы из DataFrame без использования циклов. 
    Возвращает None, если хотя бы одного столбца нет в таблице.
    """
    # Проверяем существование всех столбцов за одну операцию
    if not set(col).issubset(df.columns):
        return None
    
    # Удаляем столбцы и возвращаем новый DataFrame
    return df.drop(columns=col)

In [15]:
def delete_columns(df, col=[]):
    for cc in col:
        if cc not in df.columns:
            return None
    return df.drop(col, axis=1)


In [16]:
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'area': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})

In [18]:
countries_df['plotnost'] = (countries_df['population'] / countries_df['area']) * 1000000
display(countries_df)

Unnamed: 0,country,population,area,plotnost
0,Англия,56.29,133396,421.976671
1,Канада,38.05,9984670,3.810842
2,США,322.28,9826630,32.796595
3,Россия,146.24,17125191,8.539467
4,Украина,45.5,603628,75.37755
5,Беларусь,9.5,207600,45.761079
6,Казахстан,17.04,2724902,6.253436


In [25]:
plotnmean = countries_df['plotnost'].mean()
display(round(plotnmean, 2))

84.93

In [26]:
display(melb_df['Date'])

0         3/12/2016
1         4/02/2016
2         4/03/2017
3         4/03/2017
4         4/06/2016
            ...    
13575    26/08/2017
13576    26/08/2017
13577    26/08/2017
13578    26/08/2017
13579    26/08/2017
Name: Date, Length: 13580, dtype: object

In [27]:
melb_df['Date'] = pd.to_datetime(melb_df['Date'], dayfirst=True)
display(melb_df['Date'])

0       2016-12-03
1       2016-02-04
2       2017-03-04
3       2017-03-04
4       2016-06-04
           ...    
13575   2017-08-26
13576   2017-08-26
13577   2017-08-26
13578   2017-08-26
13579   2017-08-26
Name: Date, Length: 13580, dtype: datetime64[ns]

In [28]:
# Например, обратившись по атрибуту dt.year в столбце Date, мы можем «достать» год продажи и понять, 
# за какой интервал времени (в годах) представлены наши данные, а также на какой год приходится наибольшее число продаж:

years_sold = melb_df['Date'].dt.year
print(years_sold)
print('Min year sold:', years_sold.min())
print('Max year sold:', years_sold.max())
print('Mode year sold:', years_sold.mode()[0])

0        2016
1        2016
2        2017
3        2017
4        2016
         ... 
13575    2017
13576    2017
13577    2017
13578    2017
13579    2017
Name: Date, Length: 13580, dtype: int32
Min year sold: 2016
Max year sold: 2017
Mode year sold: 2017


In [29]:
melb_df['MonthSale'] = melb_df['Date'].dt.month
melb_df['MonthSale'].value_counts(normalize=True)

MonthSale
5     0.149411
7     0.145950
9     0.135862
6     0.134757
8     0.114138
11    0.082032
4     0.069882
3     0.049926
12    0.044698
10    0.040574
2     0.032622
1     0.000147
Name: proportion, dtype: float64

In [30]:
# вычислить, сколько дней прошло с 1 января 2016 года до момента продажи объекта. 
# Для этого можно просто найти разницу между датами продаж и заявленной датой, представленной в формате datetime:

delta_days = melb_df['Date'] - pd.to_datetime('2016-01-01') 
display(delta_days)

0       337 days
1        34 days
2       428 days
3       428 days
4       155 days
          ...   
13575   603 days
13576   603 days
13577   603 days
13578   603 days
13579   603 days
Name: Date, Length: 13580, dtype: timedelta64[ns]

In [31]:
# Чтобы превратить количество дней из формата интервала в формат целого числа дней, 
# можно воспользоваться аксессором dt для формата timedelta и извлечь из него атрибут days:

display(delta_days.dt.days)

0        337
1         34
2        428
3        428
4        155
        ... 
13575    603
13576    603
13577    603
13578    603
13579    603
Name: Date, Length: 13580, dtype: int64

In [32]:
# Давайте создадим признак возраста объекта недвижимости в годах на момент продажи. 
# Для этого выделим из столбца с датой продажи год и вычтем из него год постройки здания. Результат оформим в виде столбца AgeBuilding:

melb_df['AgeBuilding'] = melb_df['Date'].dt.year - melb_df['YearBuilt']
display(melb_df['AgeBuilding'])

0         46
1        116
2        117
3         47
4          2
        ... 
13575     36
13576     22
13577     20
13578     97
13579     97
Name: AgeBuilding, Length: 13580, dtype: int64

In [None]:
# оставим возраст здания, так как он является более наглядным, а год постройки удалим из таблицы: 

melb_df = melb_df.drop('YearBuilt', axis=1)

In [36]:
melb_df['WeekdaySale'] = pd.to_datetime(melb_df['Date']).dt.day_name()
display(melb_df['WeekdaySale'])


0        Saturday
1        Thursday
2        Saturday
3        Saturday
4        Saturday
           ...   
13575    Saturday
13576    Saturday
13577    Saturday
13578    Saturday
13579    Saturday
Name: WeekdaySale, Length: 13580, dtype: object

In [38]:
weekend_count = melb_df[melb_df['WeekdaySale'].isin(['Saturday', 'Sunday'])].shape[0]
display(weekend_count)

12822

In [47]:
otcetNLO = pd.read_csv('https://raw.githubusercontent.com/justmarkham/pandas-videos/master/data/ufo.csv')
display(otcetNLO.head)

<bound method NDFrame.head of                        City Colors Reported Shape Reported State  \
0                    Ithaca             NaN       TRIANGLE    NY   
1               Willingboro             NaN          OTHER    NJ   
2                   Holyoke             NaN           OVAL    CO   
3                   Abilene             NaN           DISK    KS   
4      New York Worlds Fair             NaN          LIGHT    NY   
...                     ...             ...            ...   ...   
18236            Grant Park             NaN       TRIANGLE    IL   
18237           Spirit Lake             NaN           DISK    IA   
18238           Eagle River             NaN            NaN    WI   
18239           Eagle River             RED          LIGHT    WI   
18240                  Ybor             NaN           OVAL    FL   

                   Time  
0        6/1/1930 22:00  
1       6/30/1930 20:00  
2       2/15/1931 14:00  
3        6/1/1931 13:00  
4       4/18/1933 19:00

In [52]:
ufo_data = otcetNLO.copy()
display(ufo_data)

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
0,Ithaca,,TRIANGLE,NY,6/1/1930 22:00
1,Willingboro,,OTHER,NJ,6/30/1930 20:00
2,Holyoke,,OVAL,CO,2/15/1931 14:00
3,Abilene,,DISK,KS,6/1/1931 13:00
4,New York Worlds Fair,,LIGHT,NY,4/18/1933 19:00
...,...,...,...,...,...
18236,Grant Park,,TRIANGLE,IL,12/31/2000 23:00
18237,Spirit Lake,,DISK,IA,12/31/2000 23:00
18238,Eagle River,,,WI,12/31/2000 23:45
18239,Eagle River,RED,LIGHT,WI,12/31/2000 23:45


In [53]:
ufo_data['Time'] = pd.to_datetime(ufo_data['Time'])
display(ufo_data['Time'])

0       1930-06-01 22:00:00
1       1930-06-30 20:00:00
2       1931-02-15 14:00:00
3       1931-06-01 13:00:00
4       1933-04-18 19:00:00
                ...        
18236   2000-12-31 23:00:00
18237   2000-12-31 23:00:00
18238   2000-12-31 23:45:00
18239   2000-12-31 23:45:00
18240   2000-12-31 23:59:00
Name: Time, Length: 18241, dtype: datetime64[ns]

In [54]:
ufo_data['Date'] = pd.to_datetime(ufo_data['Time']).dt.date
nv_data = ufo_data[ufo_data['State'] == 'NV'].sort_values('Date')
nv_data['Date_diff'] = nv_data['Date'].diff().dt.days
average_interval = nv_data['Date_diff'].dropna().mean()
display(average_interval)

68.92932862190813

In [55]:
# количество уникальных значений в столбце с помощью метода nunique():

print(melb_df['Address'].nunique())

13378


In [56]:
# выберем несколько строк столбца Address:

print(melb_df['Address'].loc[177])
print(melb_df['Address'].loc[1812])
print(melb_df['Address'].loc[9001])

2/119 Railway St N
9/400 Dandenong Rd
172 Danks St


In [57]:
# На вход данной функции поступает строка с адресом.
def get_street_type(address):
# Создаём список географических пометок exclude_list.
    exclude_list = ['N', 'S', 'W', 'E']
# Метод split() разбивает строку на слова по пробелу.
# В результате получаем список слов в строке и заносим его в переменную address_list.
    address_list = address.split(' ')
# Обрезаем список, оставляя в нём только последний элемент,
# потенциальный подтип улицы, и заносим в переменную street_type.
    street_type = address_list[-1]
# Делаем проверку на то, что полученный подтип является географической пометкой.
# Для этого проверяем его на наличие в списке exclude_list.
    if street_type in exclude_list:
# Если переменная street_type является географической пометкой,
# переопределяем её на второй элемент с конца списка address_list.
        street_type = address_list[-2]
# Возвращаем переменную street_type, в которой хранится подтип улицы.
    return street_type

In [58]:
# Теперь применим эту функцию к столбцу c адресом. Для этого передадим функцию get_street_type в аргумент метода столбца apply().
# В результате получим объект Series, который положим в переменную street_types:

street_types = melb_df['Address'].apply(get_street_type)
display(street_types)

0        St
1        St
2        St
3        La
4        St
         ..
13575    Cr
13576    Dr
13577    St
13578    St
13579    St
Name: Address, Length: 13580, dtype: object

In [59]:
# Итак, мы смогли выделить подтип улицы. Посмотрим, сколько уникальных значений у нас получилось:

print(street_types.nunique())

56


In [60]:
# Давайте для начала посмотрим на частоту каждого подтипа улицы с помощью метода value_counts:

display(street_types.value_counts())

Address
St           8012
Rd           2825
Ct            612
Dr            447
Av            321
Gr            311
Pde           211
Pl            169
Cr            152
Cl            100
La             67
Bvd            53
Tce            47
Wy             40
Avenue         40
Cct            25
Hwy            24
Parade         15
Boulevard      13
Sq             11
Crescent        9
Cir             7
Strand          7
Esplanade       6
Grove           5
Gdns            4
Grn             4
Fairway         4
Mews            4
Crossway        3
Righi           3
Victoria        2
Ridge           2
Crofts          2
Esp             2
Glade           1
Gra             1
Ave             1
Woodland        1
Outlook         1
Hts             1
Highway         1
Athol           1
Summit          1
Grand           1
Res             1
Nook            1
Eyrie           1
Dell            1
East            1
Loop            1
Grange          1
Terrace         1
Cove            1
Qy              1
Co

In [61]:
# Для этого к результату метода value_counts применим метод nlargest(), который возвращает n наибольших значений из Series. 
# Зададим n=10, т. е. мы хотим отобрать десять наиболее популярных подтипов. Извлечём их названия с помощью атрибута index, 
# а результат занесём в переменную popular_stypes:

popular_stypes =street_types.value_counts().nlargest(10).index
print(popular_stypes)

Index(['St', 'Rd', 'Ct', 'Dr', 'Av', 'Gr', 'Pde', 'Pl', 'Cr', 'Cl'], dtype='object', name='Address')


In [62]:
# Теперь, когда у нас есть список наиболее популярных подтипов улиц, введём lambda-функцию, которая будет проверять, 
# есть ли строка x в этом перечне, и, если это так, lambda-функция будет возвращать x, в противном случае она будет 
# возвращать строку 'other'. Наконец, применим такую функцию к Series street_types, полученной ранее, 
# а результат определим в новый столбец таблицы StreetType:

melb_df['StreetType'] = street_types.apply(lambda x: x if x in popular_stypes else 'other')
display(melb_df['StreetType'])

0           St
1           St
2           St
3        other
4           St
         ...  
13575       Cr
13576       Dr
13577       St
13578       St
13579       St
Name: StreetType, Length: 13580, dtype: object

In [63]:
# Посмотрим на результирующее число уникальных подтипов:

print(melb_df['StreetType'].nunique())

11


In [64]:
# Теперь, у нас нет потребности хранить признак Address, так как, если конкретное местоположение объекта 
# всё же и влияет на его стоимость, то оно определяется столбцами Longitude и Lattitude. Удалим его из нашей таблицы:

melb_df = melb_df.drop('Address', axis=1)

In [65]:
display(melb_df['WeekdaySale'])

0        Saturday
1        Thursday
2        Saturday
3        Saturday
4        Saturday
           ...   
13575    Saturday
13576    Saturday
13577    Saturday
13578    Saturday
13579    Saturday
Name: WeekdaySale, Length: 13580, dtype: object

In [72]:
def get_weekend(weekday):
    weeklist = ['Saturday', 'Sunday']
    if weekday in weeklist: return 1
    else:
        return 0

In [68]:
display(melb_df['WeekdaySale'].value_counts())

WeekdaySale
Saturday    11759
Sunday       1063
Monday        597
Tuesday       133
Thursday       28
Name: count, dtype: int64

In [73]:
melb_df['Weekend'] = melb_df['WeekdaySale'].apply(get_weekend)
display(melb_df['Weekend'])

0        1
1        0
2        1
3        1
4        1
        ..
13575    1
13576    1
13577    1
13578    1
13579    1
Name: Weekend, Length: 13580, dtype: int64

In [74]:
display(melb_df['Weekend'].value_counts())

Weekend
1    12822
0      758
Name: count, dtype: int64

In [76]:
fdds = melb_df[melb_df['Weekend'] == 1]['Price'].mean()
display(round(fdds))

1081199

In [77]:
print(melb_df['SellerG'].nunique())

268


In [87]:
popular_comp = melb_df['SellerG'].value_counts()
display(popular_comp)

SellerG
Nelson           1565
Jellis           1316
hockingstuart    1167
Barry            1011
Ray               701
                 ... 
Prowse              1
Luxe                1
Zahn                1
Homes               1
Point               1
Name: count, Length: 268, dtype: int64

In [91]:
popular_comp = popular_comp[: 49]
popular_comp_list = popular_comp.index.tolist()
display(popular_comp_list)

['Nelson',
 'Jellis',
 'hockingstuart',
 'Barry',
 'Ray',
 'Marshall',
 'Buxton',
 'Biggin',
 'Brad',
 'Fletchers',
 'Woodards',
 'Jas',
 'Greg',
 'McGrath',
 'Sweeney',
 'Noel',
 'Miles',
 'RT',
 'Gary',
 'Harcourts',
 'Hodges',
 'YPA',
 'Stockdale',
 'Village',
 'Kay',
 'Raine',
 'Williams',
 'Love',
 'Douglas',
 'Chisholm',
 'RW',
 'Rendina',
 'HAR',
 "O'Brien",
 'C21',
 'Collins',
 'Cayzer',
 'Eview',
 'Purplebricks',
 'Philip',
 'Buckingham',
 'Bells',
 'Thomson',
 'Nick',
 'Alexkarbon',
 'McDonald',
 'Burnham',
 'Moonee',
 'LITTLE']

In [100]:
def ozercomp(compan):
    popcomlis = popular_comp_list
    if compan in popcomlis: return compan
    else:
        return 'other'

In [110]:
melb_df['SellerG'] = melb_df['SellerG'].apply(ozercomp)
display(melb_df['SellerG'].head())

0    Biggin
1    Biggin
2    Biggin
3    Biggin
4    Nelson
Name: SellerG, dtype: object

In [116]:
min_price = melb_df[melb_df['SellerG'] == 'Nelson']['Price'].min()
min_price

170000.0

In [118]:
min_ozer = melb_df[melb_df['SellerG'] == 'other']['Price'].min()
min_ozer

131000.0

In [120]:
raznca = min_price/min_ozer
display(round(raznca, 1))

1.3

In [122]:
def get_experience(arg):
# создадим два списка с месяцами и годами(фильтрами), для определения месяц/год 
    mesec = ('месяц', 'месяца', 'месяцев')
    goda = ('год', 'года', 'лет')
# делим строчку по пробелам 
    spirit_list = arg.split(' ')
# создадим пустую переменную в которой будем считать результат месяцы + годы * 12
    rezult = 0
# проверим длинну строки, если == 4, то надо будет подсчитать только одну цифру 
    if len(spirit_list) == 4:
        if spirit_list[-1] in mesec:
            rezult+= int(spirit_list[-2])
            return rezult
        elif spirit_list[-1] in goda:
            rezult = int(spirit_list[-2]) * 12
            return rezult
# а если больше > 4, то надо 3-ий[2] элемент строки (годы) помножить на 12, и второй с конца (месяцы) сложить в результат 
    elif len(spirit_list) > 4:
        rezult+= int(spirit_list[2]) * 12 + int(spirit_list[-2])
        return rezult
    

In [123]:
def get_experience(arg):
    month_key_words = ['месяц', 'месяцев', 'месяца']
    year_key_words = ['год', 'лет', 'года']
    args_splited = arg.split(' ')
    month = 0
    year = 0
    for i in range(len(args_splited)):
        if args_splited[i] in month_key_words:
            month = args_splited[i-1]
        if args_splited[i] in year_key_words:
            year = args_splited[i-1]
    return int(year)*12 + int(month)

In [None]:
# создаём пустой список
unique_list = []
# пробегаемся по именам столбцов в таблице
for col in melb_df.columns:
    # создаём кортеж (имя столбца, число уникальных значений, и тип)
    item = (col, melb_df[col].nunique(),melb_df[col].dtypes) 
    # добавляем кортеж в список
    unique_list.append(item) 
# создаём вспомогательную таблицу и сортируем её
unique_counts = pd.DataFrame(
    unique_list,
    columns=['Column_Name', 'Num_Unique', 'Type']
).sort_values(by='Num_Unique',  ignore_index=True)
# выводим её на экран
display(unique_counts)

Unnamed: 0,Column_Name,Num_Unique,Type
0,Weekend,2,int64
1,Type,3,object
2,Method,5,object
3,WeekdaySale,5,object
4,Regionname,8,object
5,Bathroom,9,int64
6,Rooms,9,int64
7,Car,11,int64
8,StreetType,11,object
9,Bedroom,12,int64


In [125]:
# Для начала, выведем информацию о памяти, занимаемой текущей таблицей, с помощью метода info():

display(melb_df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 26 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   Suburb         13580 non-null  object        
 1   Rooms          13580 non-null  int64         
 2   Type           13580 non-null  object        
 3   Price          13580 non-null  float64       
 4   Method         13580 non-null  object        
 5   SellerG        13580 non-null  object        
 6   Date           13580 non-null  datetime64[ns]
 7   Distance       13580 non-null  float64       
 8   Postcode       13580 non-null  int64         
 9   Bedroom        13580 non-null  int64         
 10  Bathroom       13580 non-null  int64         
 11  Car            13580 non-null  int64         
 12  Landsize       13580 non-null  float64       
 13  BuildingArea   13580 non-null  float64       
 14  CouncilArea    12211 non-null  object        
 15  Lattitude      1358

None

In [126]:
# Сделаем преобразование столбцов к типу данных category:

cols_to_exclude = ['Date', 'Rooms', 'Bedroom', 'Bathroom', 'Car'] # список столбцов, которые мы не берём во внимание
max_unique_count = 150 # задаём максимальное число уникальных категорий
for col in melb_df.columns: # цикл по именам столбцов
    if melb_df[col].nunique() < max_unique_count and col not in cols_to_exclude: # проверяем условие
        melb_df[col] = melb_df[col].astype('category') # преобразуем тип столбца
display(melb_df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 26 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   Suburb         13580 non-null  object        
 1   Rooms          13580 non-null  int64         
 2   Type           13580 non-null  category      
 3   Price          13580 non-null  float64       
 4   Method         13580 non-null  category      
 5   SellerG        13580 non-null  category      
 6   Date           13580 non-null  datetime64[ns]
 7   Distance       13580 non-null  float64       
 8   Postcode       13580 non-null  int64         
 9   Bedroom        13580 non-null  int64         
 10  Bathroom       13580 non-null  int64         
 11  Car            13580 non-null  int64         
 12  Landsize       13580 non-null  float64       
 13  BuildingArea   13580 non-null  float64       
 14  CouncilArea    12211 non-null  category      
 15  Lattitude      1358

None

In [127]:
# У типа данных category есть свой специальный аксесcор cat, который позволяет получать информацию 
# о своих значениях и преобразовывать их. Например, с помощью атрибута этого аксессора categories 
# мы можем получить список уникальных категорий в столбце Regionname:

print(melb_df['Regionname'].cat.categories)

Index(['Eastern Metropolitan', 'Eastern Victoria', 'Northern Metropolitan',
       'Northern Victoria', 'South-Eastern Metropolitan',
       'Southern Metropolitan', 'Western Metropolitan', 'Western Victoria'],
      dtype='object')


In [128]:
# А теперь посмотрим, каким образом столбец кодируется в виде чисел в памяти компьютера. Для этого можно воспользоваться атрибутом codes:

display(melb_df['Regionname'].cat.codes)

0        2
1        2
2        2
3        2
4        2
        ..
13575    4
13576    6
13577    6
13578    6
13579    6
Length: 13580, dtype: int8

С помощью метода аксессора rename_categories() можно легко переименовать текущие значения категорий. Для этого в данный метод нужно передать словарь, ключи которого — старые имена категорий, а значения — новые.

In [129]:
# Рассмотрим на примере: переименуем категории признака типа постройки Type — заменим их на полные названия (напомним, u — unit, h — house, t — townhouse).

melb_df['Type'] = melb_df['Type'].cat.rename_categories({
    'u': 'unit',
    't': 'townhouse',
    'h': 'house'
})
display(melb_df['Type'])

0        house
1        house
2        house
3        house
4        house
         ...  
13575    house
13576    house
13577    house
13578    house
13579    house
Name: Type, Length: 13580, dtype: category
Categories (3, object): ['house', 'townhouse', 'unit']

In [130]:
# добавить категорию flat в столбец Type с помощью метода акссесора cat add_categories(), в который достаточно просто передать имя новой категории:

melb_df['Type'] = melb_df['Type'].cat.add_categories('flat')
new_houses_types = pd.Series(['unit', 'house', 'flat', 'flat', 'house'])
new_houses_types = new_houses_types.astype(melb_df['Type'].dtype)
display(new_houses_types)

0     unit
1    house
2     flat
3     flat
4    house
dtype: category
Categories (4, object): ['house', 'townhouse', 'unit', 'flat']

In [132]:
melb_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 26 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   Suburb         13580 non-null  object        
 1   Rooms          13580 non-null  int64         
 2   Type           13580 non-null  category      
 3   Price          13580 non-null  float64       
 4   Method         13580 non-null  category      
 5   SellerG        13580 non-null  category      
 6   Date           13580 non-null  datetime64[ns]
 7   Distance       13580 non-null  float64       
 8   Postcode       13580 non-null  int64         
 9   Bedroom        13580 non-null  int64         
 10  Bathroom       13580 non-null  int64         
 11  Car            13580 non-null  int64         
 12  Landsize       13580 non-null  float64       
 13  BuildingArea   13580 non-null  float64       
 14  CouncilArea    12211 non-null  category      
 15  Lattitude      1358

In [133]:
print(melb_df['Suburb'].nunique())

314


In [134]:
popular_mest = melb_df['Suburb'].value_counts()
display(popular_mest)

Suburb
Reservoir         359
Richmond          260
Bentleigh East    249
Preston           239
Brunswick         222
                 ... 
Sandhurst           1
Bullengarook        1
Croydon South       1
Montrose            1
Monbulk             1
Name: count, Length: 314, dtype: int64

In [138]:
popular_mest_list = popular_mest[: 119]
popular_mest_list = popular_mest.index.tolist()
display(popular_mest_list)

['Reservoir',
 'Richmond',
 'Bentleigh East',
 'Preston',
 'Brunswick',
 'Essendon',
 'South Yarra',
 'Glen Iris',
 'Hawthorn',
 'Coburg',
 'Northcote',
 'Brighton',
 'Kew',
 'Pascoe Vale',
 'Balwyn North',
 'Yarraville',
 'St Kilda',
 'Glenroy',
 'Port Melbourne',
 'Moonee Ponds',
 'Carnegie',
 'Bentleigh',
 'Thornbury',
 'Brighton East',
 'Newport',
 'Footscray',
 'Camberwell',
 'Elwood',
 'Ascot Vale',
 'Hampton',
 'Surrey Hills',
 'Prahran',
 'Keilor East',
 'Hawthorn East',
 'Kensington',
 'Malvern East',
 'Doncaster',
 'Sunshine',
 'Brunswick West',
 'Balwyn',
 'Williamstown',
 'West Footscray',
 'Fawkner',
 'Toorak',
 'Ivanhoe',
 'Maribyrnong',
 'Armadale',
 'Maidstone',
 'Fitzroy North',
 'Templestowe Lower',
 'Brunswick East',
 'Sunshine West',
 'South Melbourne',
 'Burwood',
 'Ormond',
 'Niddrie',
 'Murrumbeena',
 'North Melbourne',
 'Heidelberg Heights',
 'Heidelberg West',
 'Altona',
 'Avondale Heights',
 'Bulleen',
 'Albert Park',
 'Sunshine North',
 'Airport West',
 'Malv

In [139]:
def ozercomp(compan):
    popcomlis = popular_mest_list
    if compan in popcomlis: return compan
    else:
        return 'other'

In [140]:
melb_df['Suburb'] = melb_df['Suburb'].apply(ozercomp)
display(melb_df['Suburb'].head())

0    Abbotsford
1    Abbotsford
2    Abbotsford
3    Abbotsford
4    Abbotsford
Name: Suburb, dtype: object

In [145]:
melb_df['Suburb'] = melb_df['Suburb'].astype('category')
melb_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 26 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   Suburb         13580 non-null  category      
 1   Rooms          13580 non-null  int64         
 2   Type           13580 non-null  category      
 3   Price          13580 non-null  float64       
 4   Method         13580 non-null  category      
 5   SellerG        13580 non-null  category      
 6   Date           13580 non-null  datetime64[ns]
 7   Distance       13580 non-null  float64       
 8   Postcode       13580 non-null  int64         
 9   Bedroom        13580 non-null  int64         
 10  Bathroom       13580 non-null  int64         
 11  Car            13580 non-null  int64         
 12  Landsize       13580 non-null  float64       
 13  BuildingArea   13580 non-null  float64       
 14  CouncilArea    12211 non-null  category      
 15  Lattitude      1358