# <center>Введение</center>

Перед тем как построить свою модель, дата-сайентист проходит через огромный этап под названием **Предобработка данных и их подготовка к анализу и подаче в модель**.

Под **предобработкой** понимаются следующие этапы работы с данными:
* очистка данных от аномальных значений (выбросов);
* работа с пропущенными значениями;
* удаление признаков, которые не несут полезной информации;
* создание новых признаков;
* преобразование признаков и приведение данных к необходимому для анализа и модели формату.

## <center>Feature Engineering</center>

**Feature Engineering** или **генерация признаков** **(фича)** - это целая методология получения более качественных и более производительных моделей за счёт манипуляций над данными.

In [1]:
import pandas as pd

melb_data = pd.read_csv('data/melb_data_ps.csv', sep=',')
melb_data.head()

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1,202.0,126.0,1970,Yarra,-37.7996,144.9984,Northern Metropolitan,4019,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0,156.0,79.0,1900,Yarra,-37.8079,144.9934,Northern Metropolitan,4019,"-37.8079, 144.9934"
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0,134.0,150.0,1900,Yarra,-37.8093,144.9944,Northern Metropolitan,4019,"-37.8093, 144.9944"
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,1,94.0,126.0,1970,Yarra,-37.7969,144.9969,Northern Metropolitan,4019,"-37.7969, 144.9969"
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,2,120.0,142.0,2014,Yarra,-37.8072,144.9941,Northern Metropolitan,4019,"-37.8072, 144.9941"


In [2]:
melb_df = melb_data.copy()
melb_df.head()

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1,202.0,126.0,1970,Yarra,-37.7996,144.9984,Northern Metropolitan,4019,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0,156.0,79.0,1900,Yarra,-37.8079,144.9934,Northern Metropolitan,4019,"-37.8079, 144.9934"
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0,134.0,150.0,1900,Yarra,-37.8093,144.9944,Northern Metropolitan,4019,"-37.8093, 144.9944"
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,1,94.0,126.0,1970,Yarra,-37.7969,144.9969,Northern Metropolitan,4019,"-37.7969, 144.9969"
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,2,120.0,142.0,2014,Yarra,-37.8072,144.9941,Northern Metropolitan,4019,"-37.8072, 144.9941"


## <center>Удаление столбцов</center>

За удаление строк и столбцов в таблице отвечает метод `drop()`.

Основные параметры метода `drop()`:
* `labels` — порядковые номера или имена столбцов, которые подлежат удалению; если их несколько, то передаётся список;
* `axis` — ось совершения операции, `axis=0` — удаляются строки, `axis=1` — удаляются столбцы;
* `inplace` — если параметр выставлен на *True*, происходит замена изначального *DataFrame* на новый, при этом метод ничего не возвращает; если на *False* — возвращается копия *DataFrame*, из которой удалены указанные строки (столбцы), при этом первоначальный *DataFrame* не изменяется; по умолчанию параметр равен *False*.

Представим, что мы хотим построить модель, которая бы предсказывала цену объекта недвижимости в Мельбурне. Даже не будучи профессиональными риелторами, мы можем легко сделать следующие выводы:

* цена объекта никак не зависит от его порядкового номера (столбец *index*);
* признак, описывающий долготу и широту в виде кортежа *Coordinates*, дублирует информацию, представленную в столбцах *Longitude* и *Lattitude*.

In [3]:
# Удалим столбцы index и Coordinates из таблицы с помощью метода drop().

melb_df = melb_df.drop(['index', 'Coordinates'], axis=1)
melb_df.head()

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067,...,1,1,202.0,126.0,1970,Yarra,-37.7996,144.9984,Northern Metropolitan,4019
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067,...,1,0,156.0,79.0,1900,Yarra,-37.8079,144.9934,Northern Metropolitan,4019
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067,...,2,0,134.0,150.0,1900,Yarra,-37.8093,144.9944,Northern Metropolitan,4019
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067,...,2,1,94.0,126.0,1970,Yarra,-37.7969,144.9969,Northern Metropolitan,4019
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067,...,1,2,120.0,142.0,2014,Yarra,-37.8072,144.9941,Northern Metropolitan,4019


Альтернативный варинат:

`melb_df.drop(['index','Coordinates'],axis=1,inplace=True)`\
`melb_df.head()`

## <center>Математические операции со столбцами</center>

*Pandas* поддерживает базовые математические операции между столбцами: столбцы можно складывать, вычитать, умножать, делить между собой, а также возводить в степень. С помощью таких операций мы можем создавать новые признаки или производить преобразования над старыми.

In [4]:
# Создадим переменную total_rooms, в которой будем хранить общее количество комнат в здании.

total_rooms = melb_df['Rooms'] + melb_df['Bedroom'] + melb_df['Bathroom']
display(total_rooms)

0         5
1         5
2         8
3         8
4         8
         ..
13575    10
13576     8
13577     8
13578     9
13579     9
Length: 13580, dtype: int64

In [5]:
# Введём признак MeanRoomsSquare, который соответствует средней площади одной комнаты для каждого объекта. 
# Для этого разделим площадь здания на полученное ранее общее количество комнат:

melb_df['MeanRoomsSquare'] = melb_df['BuildingArea'] / total_rooms
display(melb_df['MeanRoomsSquare'])

0        25.200000
1        15.800000
2        18.750000
3        15.750000
4        17.750000
           ...    
13575    12.600000
13576    16.625000
13577    15.750000
13578    17.444444
13579    12.444444
Name: MeanRoomsSquare, Length: 13580, dtype: float64

In [6]:
# Ещё один интересный признак — AreaRatio, коэффициент соотношения площади здания (BuildingArea) и площади участка (Landsize). 
# Для этого разницу двух площадей поделим на их сумму:

diff_area = melb_df['BuildingArea'] - melb_df['Landsize']
sum_area = melb_df['BuildingArea'] + melb_df['Landsize']
melb_df['AreaRatio'] = diff_area/sum_area
display(melb_df['AreaRatio'])

0       -0.231707
1       -0.327660
2        0.056338
3        0.145455
4        0.083969
           ...   
13575   -0.676093
13576   -0.429185
13577   -0.551601
13578   -0.693060
13579   -0.527426
Name: AreaRatio, Length: 13580, dtype: float64

Рассмотрим три случая, чтобы понять его значение:

1) Если рассматриваемые площади равны, то числитель дроби зануляется и коэффициент тоже равен 0.
2) Если одна из площадей начинает доминировать над другой, то коэффициент начинает расти: в отрицательную сторону, если площадь участка больше площади здания, и в положительную сторону, если наоборот.
3) Наконец, в предельном случае, если площадь здания равна 0, то числитель дроби равен знаменателю со знаком минус, а коэффициент будет равен -1, а если площадь участка равна 0, то числитель дроби равен знаменателю со знаком плюс, а коэффициент будет равен 1.

Таким образом, значение в столбце *AreaRatio* служит своеобразным указателем соотношения площадей объекта недвижимости. Для пустырей — участков без строений — он будет равен -1, для домов без территории — 1, во всех остальных случаях мы можем увидеть, какая площадь больше — здания или участка.

## <center>Формат datetime</center>

Форматом в *Pandas* является формат `datetime`, который записывается как `YYYY-MM-DD HH: MM: SS`, то есть составляющие времени указываются в следующем порядке: *год*, *месяц*, *день*, *час*, *минута*, *секунда*.

In [7]:
# В наших данных дата записана в виде DD/MM/YYYY, например 3/12/2017. Посмотрим на это:

display(melb_df['Date'])

0         3/12/2016
1         4/02/2016
2         4/03/2017
3         4/03/2017
4         4/06/2016
            ...    
13575    26/08/2017
13576    26/08/2017
13577    26/08/2017
13578    26/08/2017
13579    26/08/2017
Name: Date, Length: 13580, dtype: object

Для того чтобы преобразовывать столбцы с датами, записанными в распространённых форматах, в формат `datetime`, можно воспользоваться функцией `pandas.to_datetime()`. В нашем случае в функции нужно указать параметр `dayfirst=True`, который будет обозначать, что в первоначальном признаке первым идет день.

In [8]:
# Преобразуем столбец Date в формат datetime, передав его в эту функцию:

melb_df['Date'] = pd.to_datetime(melb_df['Date'], dayfirst=True)
display(melb_df['Date'])

# При этом так как в изначальном варианте время не было указано, то и после преобразования оно опускается.
# Стоит обратить внимание, что изменился тип данных для столбца Date, теперь его тип — datetime64.

0       2016-12-03
1       2016-02-04
2       2017-03-04
3       2017-03-04
4       2016-06-04
           ...    
13575   2017-08-26
13576   2017-08-26
13577   2017-08-26
13578   2017-08-26
13579   2017-08-26
Name: Date, Length: 13580, dtype: datetime64[ns]

## <center>Выделение атрибутов datetime</center>

Тип данных `datetime` позволяет с помощью специального **аксессора** `dt` выделять составляющие времени из каждого элемента столбца, такие как:
* `date` — дата;
* `year, month, day` — год, месяц, день;
* `time` — время;
* `hour, minute, second` — час, минута, секунда;
* `dayofweek` — номер дня недели, от 0 до 6, где 0 — понедельник, 6 — воскресенье;
* `day_name` — название дня недели;
* `dayofyear` — порядковый день года;
* `quarter` — квартал (интервал в три месяца).

**Аксессор** — это атрибут столбца, хранящий переменные, которые были строковым представлением времени, а затем были изменены с помощью `pd.to_datetime()`.

Нельзя обратиться к аксессору, если столбец не приведён к типу `datetime`.

In [9]:
years_sold = melb_df['Date'].dt.year

print(years_sold)

print('Min year sold:', years_sold.min())
print('Max year sold:', years_sold.max())
# Так как модальных значений в столбце может быть несколько, метод mode() возвращает объект Series, даже если мода в данных только одна. 
# Чтобы сохранить стилистику вывода информации о годе продажи и выводить только число, а не Series, мы обращаемся к результату работы метода mode() по индексу 0.
print('Mode year sold:', years_sold.mode()[0])

0        2016
1        2016
2        2017
3        2017
4        2016
         ... 
13575    2017
13576    2017
13577    2017
13578    2017
13579    2017
Name: Date, Length: 13580, dtype: int32
Min year sold: 2016
Max year sold: 2017
Mode year sold: 2017


In [10]:
# На какие месяцы приходится пик продаж объектов недвижимости.

melb_df['MonthSale'] = melb_df['Date'].dt.month
# Найдём относительную частоту продаж для каждого месяца от общего количества продаж.
# Для этого используем метод value_counts() с параметром normalize (вывод в долях):
melb_df['MonthSale'].value_counts(normalize=True)

MonthSale
5     0.149411
7     0.145950
9     0.135862
6     0.134757
8     0.114138
11    0.082032
4     0.069882
3     0.049926
12    0.044698
10    0.040574
2     0.032622
1     0.000147
Name: proportion, dtype: float64

## <center>Работа с интервалами</center>



In [11]:
# Можно вычислить, сколько дней прошло с 1 января 2016 года до момента продажи объекта.
# Для этого можно просто найти разницу между датами продаж и заявленной датой, представленной в формате datetime:

delta_days = melb_df['Date'] - pd.to_datetime('2016-01-01') 
display(delta_days)

0       337 days
1        34 days
2       428 days
3       428 days
4       155 days
          ...   
13575   603 days
13576   603 days
13577   603 days
13578   603 days
13579   603 days
Name: Date, Length: 13580, dtype: timedelta64[ns]

In [12]:
# Чтобы превратить количество дней из формата интервала в формат целого числа дней, можно воспользоваться аксессором dt для формата timedelta и извлечь из него атрибут days:

display(delta_days.dt.days)

0        337
1         34
2        428
3        428
4        155
        ... 
13575    603
13576    603
13577    603
13578    603
13579    603
Name: Date, Length: 13580, dtype: int64

In [13]:
# Создадим признак возраста объекта недвижимости в годах на момент продажи. 
# Для этого выделим из столбца с датой продажи год и вычтем из него год постройки здания. 
# Результат оформим в виде столбца AgeBuilding:

melb_df['AgeBuilding'] = melb_df['Date'].dt.year - melb_df['YearBuilt']
display(melb_df['AgeBuilding'])

0         46
1        116
2        117
3         47
4          2
        ... 
13575     36
13576     22
13577     20
13578     97
13579     97
Name: AgeBuilding, Length: 13580, dtype: int64

In [14]:
# AgeBuilding дублирует информацию столбца YearBuilt, так как, зная год постройки здания, мы автоматически знаем его возраст. 
# Оставим возраст здания, так как он является более наглядным, а год постройки удалим из таблицы:

melb_df = melb_df.drop('YearBuilt', axis=1)

## <center>Создание и преобразование столбцов с помощью функций</center>

Для таких случаев *Pandas* не имеет специальных методов, однако позволяет расширить свою функциональность за счёт использования пользовательских функций. 

Мы можем написать некоторую функцию, которая принимает на вход один элемент столбца, каким-то образом его обрабатывает и возвращает результат, после чего применить эту функцию к каждому элементу в столбце с помощью специального метода `apply()`. В результате применения этой функции будет возвращён объект *Series*, элементы которого будут представлять результат работы этой функции.

In [15]:
# В наших данных есть столбец с адресами объектов недвижимости. Проблема этого столбца в том, что в нём слишком большое количество уникальных значений.
# Убедимся в этом, вычислив количество уникальных значений в столбце с помощью метода nunique():

print(melb_df['Address'].nunique())

13378


In [16]:
# Обычно подобные признаки удаляют, однако можно поступить умнее: давайте извлечём из признака адреса характеристику подтипа улицы (улица, шоссе, авеню, бульвар). 
# Для этого сначала внимательнее посмотрим на структуру адреса, выберем несколько строк столбца Address:

print(melb_df['Address'].loc[177])
print(melb_df['Address'].loc[1812])
print(melb_df['Address'].loc[9001])

2/119 Railway St N
9/400 Dandenong Rd
172 Danks St


In [17]:
# Для того чтобы выделить подтип улицы, на которой находится объект, можно использовать следующую функцию:

# На вход данной функции поступает строка с адресом.
def get_street_type(address):
    # Создаём список географических пометок exclude_list.
    exclude_list = ['N', 'S', 'W', 'E']
    # Метод split() разбивает строку на слова по пробелу.
    # В результате получаем список слов в строке и заносим его в переменную address_list.
    address_list = address.split(' ')
    # Обрезаем список, оставляя в нём только последний элемент, потенциальный подтип улицы, и заносим в переменную street_type.
    street_type = address_list[-1]
    # Делаем проверку на то, что полученный подтип является географической пометкой.
    # Для этого проверяем его на наличие в списке exclude_list.
    if street_type in exclude_list:
        # Если переменная street_type является географической пометкой, переопределяем её на второй элемент с конца списка address_list.
        street_type = address_list[-2]
    # Возвращаем переменную street_type, в которой хранится подтип улицы.
    return street_type

In [18]:
# Теперь применим эту функцию к столбцу c адресом. 
# Для этого передадим функцию get_street_type в аргумент метода столбца apply().

street_types = melb_df['Address'].apply(get_street_type)
display(street_types)

# В результате получим объект Series, который положим в переменную street_types.

0        St
1        St
2        St
3        La
4        St
         ..
13575    Cr
13576    Dr
13577    St
13578    St
13579    St
Name: Address, Length: 13580, dtype: object

**Примечание!**

Используемая функция обязательно должна иметь возвращаемое значение.

In [19]:
# Посмотрим, сколько уникальных значений у нас получилось:

print(street_types.nunique())

56


In [20]:
# Результат можно улучшить.
# Посмотрим на частоту каждого подтипа улицы с помощью метода value_counts:

display(street_types.value_counts())

Address
St           8012
Rd           2825
Ct            612
Dr            447
Av            321
Gr            311
Pde           211
Pl            169
Cr            152
Cl            100
La             67
Bvd            53
Tce            47
Wy             40
Avenue         40
Cct            25
Hwy            24
Parade         15
Boulevard      13
Sq             11
Crescent        9
Cir             7
Strand          7
Esplanade       6
Grove           5
Gdns            4
Grn             4
Fairway         4
Mews            4
Crossway        3
Righi           3
Victoria        2
Ridge           2
Crofts          2
Esp             2
Glade           1
Gra             1
Ave             1
Woodland        1
Outlook         1
Hts             1
Highway         1
Athol           1
Summit          1
Grand           1
Res             1
Nook            1
Eyrie           1
Dell            1
East            1
Loop            1
Grange          1
Terrace         1
Cove            1
Qy              1
Co

Метод `nlargest()` - возвращает *n* наибольших значений из *Series*. 

In [21]:
# Применим метод уменьшения количества уникальных категорий — выделим n подтипов, которые встречаются чаще всего, а остальные обозначим как 'other' (другие).
# Извлечём их названия с помощью атрибута index, а результат занесём в переменную popular_stypes:

popular_stypes =street_types.value_counts().nlargest(10).index
print(popular_stypes)

Index(['St', 'Rd', 'Ct', 'Dr', 'Av', 'Gr', 'Pde', 'Pl', 'Cr', 'Cl'], dtype='object', name='Address')


In [22]:
# Введём lambda-функцию, которая будет проверять, есть ли строка x в этом перечне.
# Если это так, lambda-функция будет возвращать x, в противном случае она будет возвращать строку 'other'. 

melb_df['StreetType'] = street_types.apply(lambda x: x if x in popular_stypes else 'other')
display(melb_df['StreetType'])

0           St
1           St
2           St
3        other
4           St
         ...  
13575       Cr
13576       Dr
13577       St
13578       St
13579       St
Name: StreetType, Length: 13580, dtype: object

In [23]:
# Результирующее число уникальных подтипов:

print(melb_df['StreetType'].nunique())

# 10 популярных + 'other'.

11


In [24]:
# Теперь, у нас нет потребности хранить признак Address.

melb_df = melb_df.drop('Address', axis=1)

<u>**Pекомендациями по уменьшению числа уникальных значений в признаке, который описывается категориями:**</u>

* Шаг 1

Определить (хотя бы на глаз) соотношение числа уникальных категорий интересующего признака к общему числу объектов в таблице. Если это соотношение превышает значение 30 %, то это уже повод задуматься над уменьшением числа категорий и перейти к шагу 2.

* Шаг 2

Если признак уникален для каждого объекта, например адрес, имя или название, то такой признак, скорее всего, не имеет статистической значимости. От таких признаков чаще всего избавляются. Однако можно попробовать выделить из этого признака какие-то общие черты, например, как мы это сделали с подтипами улиц. Такой же трюк можно произвести, например, с названиями компаний, в которых может быть скрыт признак типа организации (из строки «ООО Три Слепые Мыши» можно извлечь ООО — общество с ограниченной ответственностью).

* Шаг 3

Если даже после преобразования число уникальных категорий всё ещё велико, можно попробовать с помощью метода value_counts() оценить, есть ли в данных категории, которые употребляются гораздо реже, чем остальные. Если такие категории присутствуют, переходите к шагу 4.

* Шаг 4

Можно подобрать число популярных категорий таким образом, чтобы эти категории покрывали большую часть данных.

* Шаг 5

Наконец, можно совершить преобразование, обозначив категории, не попавшие в число популярных, как «другие».

**Примечание!**

Не нужно злоупотреблять этой методикой: применяя её ко всем столбцам подряд, рискуем потерять немалую долю полезной информации из данных. Внимательно изучаем интересующий признак, прежде чем преобразовывать его.

## <center>Признаки: категориальные и числовые</center>

Под **числовыми** признаками обычно подразумевают признаки, которые отражают количественную меру и могут принимать значения из неограниченного диапазона.

Числовые признаки могут быть:
* **дискретными** (например, количество комнат, пациентов, дней, отток сотрудников);
* **непрерывными** (например, масса, цена, площадь).

Дискретные признаки чаще всего представлены целыми числами, а непрерывные — целыми числами и числами с плавающей точкой.

Под **категориальными** признаками обычно подразумевают столбцы в таблице, которые обозначают принадлежность объекта к какому-то классу/категории.

Категориальные признаки могут быть:
* **номинальными** (например, пол, национальность, район);
* **порядковыми** (например, уровень образования, уровень комфорта, стадия заболевания).

Такие признаки имеют ограниченный набор значений. Они чаще всего представлены в виде текстового описания и кодируются в *Pandas* типом данных *object*.

**Примечание!**

Однако это не всегда так. Например, созданный нами ранее признак месяца продажи кодируется числом (от 1 до 12), но на самом деле является категориальным, поскольку диапазон его значений ограничен и каждому числу мы можем поставить в соответствие название месяца.

Важно различать признаки, так как анализ и предобработка категориальных признаков отличается от предобработки числовых признаков.

In [25]:
# создаём пустой список
unique_list = []

# пробегаемся по именам столбцов в таблице
for col in melb_df.columns:
    # создаём кортеж (имя столбца, число уникальных значений)
    item = (col, melb_df[col].nunique(), melb_df[col].dtypes) 
    # добавляем кортеж в список
    unique_list.append(item) 

# создаём вспомогательную таблицу и сортируем её
unique_counts = pd.DataFrame(
    unique_list,
    columns=['Column_Name', 'Num_Unique', 'Type']
).sort_values(by='Num_Unique',  ignore_index=True)

# выводим её на экран
display(unique_counts)

Unnamed: 0,Column_Name,Num_Unique,Type
0,Type,3,object
1,Method,5,object
2,Regionname,8,object
3,Rooms,9,int64
4,Bathroom,9,int64
5,Car,11,int64
6,StreetType,11,object
7,Bedroom,12,int64
8,MonthSale,12,int32
9,CouncilArea,33,object


## <center>Тип данных category</center>

Для хранения и оптимизации работы с категориальными признаками в *Pandas* предусмотрен специальный тип данных — *category*.

Этот тип данных является гибридным: внешне он выглядит как строка, но внутренне представлен массивом целых чисел. Так как данные вместо изначальных строк хранятся в памяти как число, то объём памяти, занимаемой таблицей при использовании типа *category*, резко уменьшается, что повышает эффективность хранения и работы с таблицей.

Более того, этот тип данных расширяет возможности работы с категориальными признаками: мы можем легко преобразовывать категории, строить графики по таким данным (что сложно сделать для типа данных *object*). Также резко повышается производительность операций, совершаемых с такими столбцами.

Самый простой способ преобразования столбцов к типу данных *category* — это использование метода `astype()`, в параметры которого достаточно передать строку `'category'`.

In [26]:
# список столбцов, которые мы не берём во внимание
cols_to_exclude = ['Date', 'Rooms', 'Bedroom', 'Bathroom', 'Car'] 
# условленный нами ранее порог уникальных значений столбца
max_unique_count = 150 
# цикл по именам столбцов
for col in melb_df.columns:
    # проверяем условие
    if melb_df[col].nunique() < max_unique_count and col not in cols_to_exclude:
        # преобразуем тип столбца
        melb_df[col] = melb_df[col].astype('category')
display(melb_df.info())

# Итоговый объём памяти — 1.9 Мб. В результате такого преобразования объём памяти, занимаемый таблицей, уменьшился почти в 1.5 раза.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 24 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Suburb           13580 non-null  object        
 1   Rooms            13580 non-null  int64         
 2   Type             13580 non-null  category      
 3   Price            13580 non-null  float64       
 4   Method           13580 non-null  category      
 5   SellerG          13580 non-null  object        
 6   Date             13580 non-null  datetime64[ns]
 7   Distance         13580 non-null  float64       
 8   Postcode         13580 non-null  int64         
 9   Bedroom          13580 non-null  int64         
 10  Bathroom         13580 non-null  int64         
 11  Car              13580 non-null  int64         
 12  Landsize         13580 non-null  float64       
 13  BuildingArea     13580 non-null  float64       
 14  CouncilArea      12211 non-null  categ

None

## <center>Получение атрибутов category</center>

У типа данных *category* есть свой специальный аксесcор `cat`, который позволяет получать информацию о своих значениях и преобразовывать их. Например, с помощью атрибута этого аксессора `categories` мы можем получить список уникальных категорий в столбце.

In [27]:
print(melb_df['Regionname'].cat.categories)

Index(['Eastern Metropolitan', 'Eastern Victoria', 'Northern Metropolitan',
       'Northern Victoria', 'South-Eastern Metropolitan',
       'Southern Metropolitan', 'Western Metropolitan', 'Western Victoria'],
      dtype='object')


Атрибут `codes` позволяет посмотреть, каким образом столбец кодируется в виде чисел в памяти компьютера.

In [28]:
display(melb_df['Regionname'].cat.codes)

0        2
1        2
2        2
3        2
4        2
        ..
13575    4
13576    6
13577    6
13578    6
13579    6
Length: 13580, dtype: int8

С помощью метода аксессора `rename_categories()` можно легко переименовать текущие значения категорий. Для этого в данный метод нужно передать словарь, ключи которого — старые имена категорий, а значения — новые.

In [29]:
melb_df['Type'] = melb_df['Type'].cat.rename_categories({
    'u': 'unit',
    't': 'townhouse',
    'h': 'house'
})
display(melb_df['Type'])

0        house
1        house
2        house
3        house
4        house
         ...  
13575    house
13576    house
13577    house
13578    house
13579    house
Name: Type, Length: 13580, dtype: category
Categories (3, object): ['house', 'townhouse', 'unit']

## <center>Подводные камни</center>

А теперь представим ситуацию, что появилась новая партия домов и теперь мы продаём и квартиры (*flat*). Создадим объект *Series* `new_houses_types`, в котором будем хранить типы зданий новой партии домов. Преобразуем тип `new_houses_types` в такой же тип, как и у столбца *Type* в таблице `melb_data`, и выведем результат на экран:

In [30]:
new_houses_types = pd.Series(['unit', 'house', 'flat', 'flat', 'house'])
new_houses_types = new_houses_types.astype(melb_df['Type'].dtype)
display(new_houses_types)

0     unit
1    house
2      NaN
3      NaN
4    house
dtype: category
Categories (3, object): ['house', 'townhouse', 'unit']

**Примечание!**

Тип данных *category* хранит только категории, которые были объявлены при его инициализации. При встрече с новой, неизвестной ранее категорией, этот тип превратит её в пустое значение, так как он просто не знает о существовании этой категории.

Можно добавить категорию `flat` в столбец `Type` с помощью метода акссесора `cat` `add_categories()`, в который достаточно просто передать имя новой категории:

In [31]:
melb_df['Type'] = melb_df['Type'].cat.add_categories('flat')

new_houses_types = pd.Series(['unit', 'house', 'flat', 'flat', 'house'])
new_houses_types = new_houses_types.astype(melb_df['Type'].dtype)
display(new_houses_types)

0     unit
1    house
2     flat
3     flat
4    house
dtype: category
Categories (4, object): ['house', 'townhouse', 'unit', 'flat']