# Content

* [1. Intro](#1-intro)  
    + [FEATURE ENGINEERING](#feature-engineering)
* [2. Basic operations with DF columns](#2-basic-operations-with-df-columns)
    + [Creaitng a copy of the table](#creaitng-a-copy-of-the-table)
    + [Dropping columns](#dropping-columns)
    + [Math operations with columns](#math-operations-with-columns)
* [3. Working with dates in DataFrame](#3-working-with-dates-in-dataframe)
    + [Datetime format](#datetime-format)
    + [Datetime attributes hiliting](#datetime-attributes-hiliting)
    + [Work with intervals](#work-with-intervals)
* [4. Creating and converting columns with functions](#4-creating-and-converting-columns-with-functions)
* [5. Data type Category](#5-data-type-category)
    + [Signs: categorical and numerical](#signs-categorical-and-numerical)
    + [Categories in real estate data](#categories-in-real-estate-data)
    + [Category data type](#category-data-type)
        - [Getting category attributes](#getting-category-attributes)
        - [Underwater rocks](#underwater-rocks)

# 1. Intro
[to content](#content)

> Под предобработкой понимаются следующие этапы работы с данными:

* очистка данных от аномальных значений (выбросов);
* работа с пропущенными значениями;
* удаление признаков, которые не несут полезной информации;
* создание новых признаков;
* преобразование признаков и приведение данных к необходимому для анализа и модели формату.

## FEATURE ENGINEERING
[to content](#content)

In [148]:
import pandas as pd

In [149]:
melb_data = pd.read_csv('data/melb_data_ps.csv', sep=',')
melb_data.head()

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1,202.0,126.0,1970,Yarra,-37.7996,144.9984,Northern Metropolitan,4019,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0,156.0,79.0,1900,Yarra,-37.8079,144.9934,Northern Metropolitan,4019,"-37.8079, 144.9934"
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0,134.0,150.0,1900,Yarra,-37.8093,144.9944,Northern Metropolitan,4019,"-37.8093, 144.9944"
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,1,94.0,126.0,1970,Yarra,-37.7969,144.9969,Northern Metropolitan,4019,"-37.7969, 144.9969"
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,2,120.0,142.0,2014,Yarra,-37.8072,144.9941,Northern Metropolitan,4019,"-37.8072, 144.9941"


# 2. Basic operations with DF columns
[to content](#content)

## Creaitng a copy of the table
[to content](#content)

In [150]:
melb_df = melb_data.copy()
melb_df.head()

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1,202.0,126.0,1970,Yarra,-37.7996,144.9984,Northern Metropolitan,4019,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0,156.0,79.0,1900,Yarra,-37.8079,144.9934,Northern Metropolitan,4019,"-37.8079, 144.9934"
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0,134.0,150.0,1900,Yarra,-37.8093,144.9944,Northern Metropolitan,4019,"-37.8093, 144.9944"
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,1,94.0,126.0,1970,Yarra,-37.7969,144.9969,Northern Metropolitan,4019,"-37.7969, 144.9969"
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,2,120.0,142.0,2014,Yarra,-37.8072,144.9941,Northern Metropolitan,4019,"-37.8072, 144.9941"


> ⭐ Лайфхак. Старайтесь всегда оставлять переменную с первоначальным DataFrame неизменной, создавайте копию исходной таблицы и совершайте преобразования на ней. Это оградит вас от ошибок, которые можно совершить при подготовке данных. Например, если вы понимаете, что преобразование оказалось неудачным, достаточно будет лишь запустить ячейку, в которой вы производите копирование, а не читать таблицу заново. Особенно критичным это может быть, когда количество строк в таблице исчисляется миллионами и её чтение занимает до нескольких минут.

## Dropping columns
[to content](#content)

> → Среди списка базовых операций над столбцами в Pandas важное место занимает возможность удаления столбцов из таблицы. Это может быть полезно, например, когда в данных есть признаки, которые не несут полезной информации.

> За удаление строк и столбцов в таблице отвечает метод `drop()`.

Основные параметры метода `drop()`  
* `labels` — порядковые номера или имена столбцов, которые подлежат удалению; если их несколько, то передаётся список;
* `axis` — ось совершения операции, axis=0 — удаляются строки, axis=1 — удаляются столбцы;
* `inplace` — если параметр выставлен на True, происходит замена изначального DataFrame на новый, при этом метод ничего не возвращает; если на False — возвращается копия DataFrame, из которой удалены указанные строки (столбцы), при этом первоначальный DataFrame не изменяется; по умолчанию параметр равен False.

In [151]:
melb_df = melb_df.drop(['index', 'Coordinates'], axis=1)
melb_df.head()

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067,...,1,1,202.0,126.0,1970,Yarra,-37.7996,144.9984,Northern Metropolitan,4019
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067,...,1,0,156.0,79.0,1900,Yarra,-37.8079,144.9934,Northern Metropolitan,4019
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067,...,2,0,134.0,150.0,1900,Yarra,-37.8093,144.9944,Northern Metropolitan,4019
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067,...,2,1,94.0,126.0,1970,Yarra,-37.7969,144.9969,Northern Metropolitan,4019
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067,...,1,2,120.0,142.0,2014,Yarra,-37.8072,144.9941,Northern Metropolitan,4019


Альтернативный вариант:
```
melb_df.drop(['index','Coordinates'],axis=1, inplace=True)
melb_df.head()
```

### Math operations with columns
[to content](#content)

In [152]:
total_rooms = melb_df['Rooms'] +\
    melb_df['Bedroom'] +\
    melb_df['Bathroom']

total_rooms

0         5
1         5
2         8
3         8
4         8
         ..
13575    10
13576     8
13577     8
13578     9
13579     9
Length: 13580, dtype: int64

In [153]:
melb_df['MeanRoomsSquare'] = melb_df['BuildingArea'] / total_rooms
melb_df['MeanRoomsSquare']

0        25.200000
1        15.800000
2        18.750000
3        15.750000
4        17.750000
           ...    
13575    12.600000
13576    16.625000
13577    15.750000
13578    17.444444
13579    12.444444
Name: MeanRoomsSquare, Length: 13580, dtype: float64

In [154]:
diff_area = melb_df['BuildingArea'] - melb_df['Landsize']
sum_area = melb_df['BuildingArea'] + melb_df['Landsize']
melb_df['AreaRatio'] = diff_area / sum_area
melb_df['AreaRatio']

0       -0.231707
1       -0.327660
2        0.056338
3        0.145455
4        0.083969
           ...   
13575   -0.676093
13576   -0.429185
13577   -0.551601
13578   -0.693060
13579   -0.527426
Name: AreaRatio, Length: 13580, dtype: float64

# 3. Working with dates in DataFrame
[to content](#content)

## Datetime format
[to content](#content)

> В `Pandas` формат `datetime` записывается как `YYYY-MM-DD HH: MM: SS`, то есть составляющие времени указываются в следующем порядке: год, месяц, день, час, минута, секунда.

In [155]:
melb_df['Date']

0         3/12/2016
1         4/02/2016
2         4/03/2017
3         4/03/2017
4         4/06/2016
            ...    
13575    26/08/2017
13576    26/08/2017
13577    26/08/2017
13578    26/08/2017
13579    26/08/2017
Name: Date, Length: 13580, dtype: object

In [156]:
melb_df['Date'] = pd.to_datetime(melb_df['Date'], dayfirst=True)
melb_df['Date']

0       2016-12-03
1       2016-02-04
2       2017-03-04
3       2017-03-04
4       2016-06-04
           ...    
13575   2017-08-26
13576   2017-08-26
13577   2017-08-26
13578   2017-08-26
13579   2017-08-26
Name: Date, Length: 13580, dtype: datetime64[ns]

___
## Datetime attributes hiliting
[to content](#content)
___

> Тип данных datetime позволяет с помощью специального аксессора dt выделять составляющие времени из каждого элемента столбца, такие как:

* `date` — дата;
* `year, month, day` — год, месяц, день;
* `time` — время;
* `hour, minute, second` — час, минута, секунда;
* `dayofweek` — номер дня недели, от 0 до 6, где 0 — понедельник, 6 — воскресенье;
* `day_name` — название дня недели;
* `dayofyear` — порядковый день года;
* `quarter` — квартал (интервал в три месяца).

In [157]:
years_sold = melb_df['Date'].dt.year
years_sold

0        2016
1        2016
2        2017
3        2017
4        2016
         ... 
13575    2017
13576    2017
13577    2017
13578    2017
13579    2017
Name: Date, Length: 13580, dtype: int64

In [158]:
print('Min year sold:', years_sold.min())
print('Max year sold:', years_sold.max())
print('Mode year sold:', years_sold.mode()[0])

Min year sold: 2016
Max year sold: 2017
Mode year sold: 2017


In [159]:
melb_df['MonthSale'] = melb_df['Date'].dt.month
melb_df['MonthSale'].value_counts(normalize=True)

5     0.149411
7     0.145950
9     0.135862
6     0.134757
8     0.114138
11    0.082032
4     0.069882
3     0.049926
12    0.044698
10    0.040574
2     0.032622
1     0.000147
Name: MonthSale, dtype: float64

## Work with intervals
[to content](#content)

In [160]:
delta_days = melb_df['Date'] - pd.to_datetime('2016-01-01')
delta_days

0       337 days
1        34 days
2       428 days
3       428 days
4       155 days
          ...   
13575   603 days
13576   603 days
13577   603 days
13578   603 days
13579   603 days
Name: Date, Length: 13580, dtype: timedelta64[ns]

In [161]:
delta_days.dt.days

0        337
1         34
2        428
3        428
4        155
        ... 
13575    603
13576    603
13577    603
13578    603
13579    603
Name: Date, Length: 13580, dtype: int64

In [162]:
melb_df['AgeBuilding'] = melb_df['Date'].dt.year - melb_df['YearBuilt']
melb_df['AgeBuilding']

0         46
1        116
2        117
3         47
4          2
        ... 
13575     36
13576     22
13577     20
13578     97
13579     97
Name: AgeBuilding, Length: 13580, dtype: int64

> Примечание. Обратите внимание, что, так как года кодируются целым числом, в результате мы тоже получаем целочисленный столбец — тип int64 (а не timedelta).

> На самом деле столбец AgeBuilding дублирует информацию столбца YearBuilt, так как, зная год постройки здания, мы автоматически знаем его возраст. Такие признаки не стоит оставлять вместе, поэтому оставим возраст здания, так как он является более наглядным, а год постройки удалим из таблицы:

In [163]:
melb_df = melb_df.drop('YearBuilt', axis=1)

___
# 4. Creating and converting columns with functions
[to content](#content)

> Мы можем написать некоторую функцию, которая принимает на вход один элемент столбца, каким-то образом его обрабатывает и возвращает результат, после чего применить эту функцию к каждому элементу в столбце с помощью специального метода `apply()`. В результате применения этой функции будет возвращён объект Series, элементы которого будут представлять результат работы этой функции.

In [164]:
melb_df['Address'].nunique()

13378

> Если мы прогнозируем цену объекта, то такое большое количество возможных категорий может плохо сказаться на модели, которую мы бы хотели в дальнейшем построить на наших данных. Говорят, что такой признак, скорее всего, не имеет статистической значимости, потому что не позволяет разделить данные на группы, которые можно сравнить по целевому признаку.

In [165]:
print(melb_df['Address'].loc[177])
print(melb_df['Address'].loc[1812])
print(melb_df['Address'].loc[9001])

2/119 Railway St N
9/400 Dandenong Rd
172 Danks St


Для того чтобы выделить подтип улицы, на которой находится объект, можно использовать следующую функцию:

In [166]:
# На вход данной функции поступает строка с адресом.
def get_street_type(adress):
    # Создаём список географических пометок exclude_list.
    exclude_list = ['N', 'S', 'W', 'E']
    # Метод split() разбивает строку на слова по пробелу.
    # В результате получаем список слов в строке и заносим его в переменную address_list.
    adress_list = adress.split(' ')
    # Обрезаем список, оставляя в нём только последний элемент,
    # потенциальный подтип улицы, и заносим в переменную street_type.
    street_type = adress_list[-1]
    # Делаем проверку на то, что полученный подтип является географической пометкой.
    # Для этого проверяем его на наличие в списке exclude_list.
    if street_type in exclude_list:
        # Если переменная street_type является географической пометкой,
        # переопределяем её на второй элемент с конца списка address_list.
        street_type = adress_list[-2]
        # Возвращаем переменную street_type, в которой хранится подтип улицы.

    return street_type

In [167]:
street_types = melb_df['Address'].apply(get_street_type)
street_types

0        St
1        St
2        St
3        La
4        St
         ..
13575    Cr
13576    Dr
13577    St
13578    St
13579    St
Name: Address, Length: 13580, dtype: object

> Обратите внимание, что функция пишется для одного элемента столбца, а метод `apply()` применяется к каждому его элементу. Используемая функция обязательно должна иметь возвращаемое значение.

In [168]:
street_types.nunique()

56

In [169]:
street_types.value_counts()

St           8012
Rd           2825
Ct            612
Dr            447
Av            321
Gr            311
Pde           211
Pl            169
Cr            152
Cl            100
La             67
Bvd            53
Tce            47
Wy             40
Avenue         40
Cct            25
Hwy            24
Parade         15
Boulevard      13
Sq             11
Crescent        9
Cir             7
Strand          7
Esplanade       6
Grove           5
Gdns            4
Grn             4
Fairway         4
Mews            4
Crossway        3
Righi           3
Victoria        2
Ridge           2
Crofts          2
Esp             2
Glade           1
Gra             1
Ave             1
Woodland        1
Outlook         1
Hts             1
Highway         1
Athol           1
Summit          1
Grand           1
Res             1
Nook            1
Eyrie           1
Dell            1
East            1
Loop            1
Grange          1
Terrace         1
Cove            1
Qy              1
Corso     

In [170]:
def renaming_strnames(name):
    if name == 'Avenue':
        name = 'Av'
    if name == 'Boulevard':
        name = 'Bvd'
    if name == 'Parade':
        name = 'Pde'
    return name

In [171]:
street_types = street_types.apply(renaming_strnames)
street_types.value_counts()

St           8012
Rd           2825
Ct            612
Dr            447
Av            361
Gr            311
Pde           226
Pl            169
Cr            152
Cl            100
La             67
Bvd            66
Tce            47
Wy             40
Cct            25
Hwy            24
Sq             11
Crescent        9
Cir             7
Strand          7
Esplanade       6
Grove           5
Mews            4
Grn             4
Fairway         4
Gdns            4
Righi           3
Crossway        3
Esp             2
Victoria        2
Ridge           2
Crofts          2
Grand           1
Summit          1
Hts             1
Athol           1
Highway         1
Outlook         1
Woodland        1
Ave             1
Gra             1
Terrace         1
Eyrie           1
Dell            1
East            1
Loop            1
Nook            1
Glade           1
Qy              1
Cove            1
Res             1
Grange          1
Corso           1
Name: Address, dtype: int64

В таком случае давайте применим очень распространённый метод уменьшения количества уникальных категорий — выделим n подтипов, которые встречаются чаще всего, а остальные обозначим как `'other'` (другие).

Для этого к результату метода `value_counts` применим метод `nlargest()`, который возвращает `n` наибольших значений из `Series`. Зададим `n=10`, т. е. мы хотим отобрать десять наиболее популярных подтипов. Извлечём их названия с помощью атрибута `index`, а результат занесём в переменную `popular_stypes`:

In [172]:
popular_stypes = street_types.value_counts().nlargest(10).index
popular_stypes

Index(['St', 'Rd', 'Ct', 'Dr', 'Av', 'Gr', 'Pde', 'Pl', 'Cr', 'Cl'], dtype='object')

In [173]:
melb_df['StreetType'] = street_types.apply(lambda x: x if x in popular_stypes else 'other')
melb_df['StreetType']

0           St
1           St
2           St
3        other
4           St
         ...  
13575       Cr
13576       Dr
13577       St
13578       St
13579       St
Name: StreetType, Length: 13580, dtype: object

In [174]:
melb_df['StreetType'].nunique()

11

In [175]:
melb_df = melb_df.drop(['Address'], axis=1)

Резюмируя, поделимся общими рекомендациями по уменьшению числа уникальных значений в признаке, который описывается категориями:

1
Определите (хотя бы на глаз) соотношение числа уникальных категорий интересующего вас признака к общему числу объектов в таблице. Если это соотношение превышает значение 30 %, то это уже повод задуматься над уменьшением числа категорий и перейти к шагу 2.

2
Если ваш признак уникален для каждого объекта, например адрес, имя или название, то такой признак, скорее всего, не имеет статистической значимости. От таких признаков чаще всего избавляются. Однако можно попробовать выделить из этого признака какие-то общие черты, например, как мы это сделали с подтипами улиц. Такой же трюк можно произвести, например, с названиями компаний, в которых может быть скрыт признак типа организации (из строки «ООО Три Слепые Мыши» можно извлечь ООО — общество с ограниченной ответственностью).

Далее переходите к шагу 3.

3
Если даже после преобразования число уникальных категорий всё ещё велико, можно попробовать с помощью метода value_counts() оценить, есть ли в данных категории, которые употребляются гораздо реже, чем остальные. Если такие категории присутствуют, переходите к шагу 4.

4
Можно подобрать число  популярных категорий таким образом, чтобы эти категории покрывали большую часть ваших данных.

Когда вы выбрали оптимальное число, переходите к шагу 5.

5
Наконец, можно совершить преобразование, обозначив категории, не попавшие в число популярных, как «другие».

→ Такая методика является очень популярной и хорошо показывает себя на практике. Однако не нужно ей злоупотреблять: применяя эту методику ко всем столбцам подряд, вы рискуете потерять немалую долю полезной информации из ваших данных. Внимательно изучите интересующий вас признак, прежде чем преобразовывать его.

### Задание 4.2

In [176]:
melb_df['WeekdaySale'] = melb_df['Date'].dt.day_of_week
melb_df['WeekdaySale']

0        5
1        3
2        5
3        5
4        5
        ..
13575    5
13576    5
13577    5
13578    5
13579    5
Name: WeekdaySale, Length: 13580, dtype: int64

In [177]:
def get_weekend(weekday):
    if weekday in (5, 6):
        return 1
    else:
        return 0

In [178]:
melb_df['Weekend'] = melb_df['WeekdaySale'].apply(get_weekend)
melb_df['Weekend']

0        1
1        0
2        1
3        1
4        1
        ..
13575    1
13576    1
13577    1
13578    1
13579    1
Name: Weekend, Length: 13580, dtype: int64

In [179]:
round(melb_df[melb_df['Weekend'] == 1]['Price'].mean(), 0)

1081199.0

### Задание 4.3

In [180]:
melb_df.head()

Unnamed: 0,Suburb,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,Bedroom,...,Longtitude,Regionname,Propertycount,MeanRoomsSquare,AreaRatio,MonthSale,AgeBuilding,StreetType,WeekdaySale,Weekend
0,Abbotsford,2,h,1480000.0,S,Biggin,2016-12-03,2.5,3067,2,...,144.9984,Northern Metropolitan,4019,25.2,-0.231707,12,46,St,5,1
1,Abbotsford,2,h,1035000.0,S,Biggin,2016-02-04,2.5,3067,2,...,144.9934,Northern Metropolitan,4019,15.8,-0.32766,2,116,St,3,0
2,Abbotsford,3,h,1465000.0,SP,Biggin,2017-03-04,2.5,3067,3,...,144.9944,Northern Metropolitan,4019,18.75,0.056338,3,117,St,5,1
3,Abbotsford,3,h,850000.0,PI,Biggin,2017-03-04,2.5,3067,3,...,144.9969,Northern Metropolitan,4019,15.75,0.145455,3,47,other,5,1
4,Abbotsford,4,h,1600000.0,VB,Nelson,2016-06-04,2.5,3067,3,...,144.9941,Northern Metropolitan,4019,17.75,0.083969,6,2,St,5,1


In [181]:
pop_sellers = melb_df['SellerG'].value_counts().nlargest(49).index

In [182]:
melb_df['SellerG'] = melb_df['SellerG'].apply(lambda x: x if x in pop_sellers else 'other')
melb_df['SellerG']

0          Biggin
1          Biggin
2          Biggin
3          Biggin
4          Nelson
           ...   
13575       Barry
13576    Williams
13577       Raine
13578     Sweeney
13579     Village
Name: SellerG, Length: 13580, dtype: object

In [183]:
nelson_min = melb_df[melb_df['SellerG'] == 'Nelson']['Price'].min()
other_min = melb_df[melb_df['SellerG'] == 'other']['Price'].min()
nelson_min / other_min

1.297709923664122

___
# 5. Data type Category
[to content](#content)
___

___
## Signs: categorical and numerical
[to content](#content)
___

№ п/п |Числовые признака          | Категориальные признаки
:----:|:-----------:|:----------:
1|Под числовыми признаками обычно подразумевают признаки, которые отражают количественную меру и могут принимать значения из неограниченного диапазона.|Под категориальными признаками обычно подразумевают столбцы в таблице, которые обозначают принадлежность объекта к какому-то классу/категории.  
2|Числовые признаки могут быть: дискретными (например, количество комнат, пациентов, дней); непрерывными (например, масса, цена, площадь).| Категориальные признаки могут быть: номинальными (например, пол, национальность, район); порядковыми (например, уровень образования, уровень комфорта, стадия заболевания).  
3|Дискретные признаки чаще всего представлены целыми числами, а непрерывные — целыми числами и числами с плавающей точкой.|Такие признаки имеют ограниченный набор значений. Они чаще всего представлены в виде текстового описания и кодируются в Pandas типом данных object.  
> Однако это не всегда так. Например, созданный нами ранее признак месяца продажи кодируется числом (от 1 до 12), но на самом деле является категориальным, поскольку диапазон его значений ограничен и каждому числу мы можем поставить в соответствие название месяца.

> Не существует жёсткого правила, определяющего, сколько значений должна иметь категориальная переменная. Вы должны использовать собственные знания о предметной области, чтобы сделать выбор. Однако в этом разделе мы всё же введём некоторые рекомендации.

> Оказывается, анализ и предобработка категориальных признаков отличается от предобработки числовых признаков.

___
## Categories in real estate data
[to content](#content)
___

Определим число уникальных категорий в каждом столбце нашей таблицы `melb_df`. Для этого создадим вспомогательную таблицу `unique_counts`:

In [184]:
unique_list = []
for col in melb_df.columns:
    item = (col, melb_df[col].nunique(), melb_df[col].dtypes)
    unique_list.append(item)
unique_counts = pd.DataFrame(
    unique_list,
    columns=['Column_Name', 'Num_Unique', 'Type']
).sort_values(by='Num_Unique', ignore_index=True)
unique_counts

Unnamed: 0,Column_Name,Num_Unique,Type
0,Weekend,2,int64
1,Type,3,object
2,WeekdaySale,5,int64
3,Method,5,object
4,Regionname,8,object
5,Bathroom,9,int64
6,Rooms,9,int64
7,Car,11,int64
8,StreetType,11,object
9,Bedroom,12,int64


> Условимся, что категориальными будем считать признаки, у которых число уникальных категорий меньше 150. 

> К тому же в наш потенциальный список попали количественные столбцы Rooms, Car, Bedroom и Bathroom. Договоримся, что мы не будем относить их к разряду категориальных, однако, как упоминалось ранее, такое тоже вполне возможно.

> Примечание. Ещё раз подчеркиваем, что такая классификация признаков является исключительно субъективной и специфична для задачи.

___
##  Category data type
[to content](#content)
___

> Самый простой способ преобразования столбцов к типу данных category — это использование уже знакомого нам метода `astype()`, в параметры которого достаточно передать строку `'category'`.

In [185]:
# Для начала, выведем информацию о памяти, 
# занимаемой текущей таблицей, с помощью метода info():
melb_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 26 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Suburb           13580 non-null  object        
 1   Rooms            13580 non-null  int64         
 2   Type             13580 non-null  object        
 3   Price            13580 non-null  float64       
 4   Method           13580 non-null  object        
 5   SellerG          13580 non-null  object        
 6   Date             13580 non-null  datetime64[ns]
 7   Distance         13580 non-null  float64       
 8   Postcode         13580 non-null  int64         
 9   Bedroom          13580 non-null  int64         
 10  Bathroom         13580 non-null  int64         
 11  Car              13580 non-null  int64         
 12  Landsize         13580 non-null  float64       
 13  BuildingArea     13580 non-null  float64       
 14  CouncilArea      12211 non-null  objec

Сделаем преобразование столбцов к типу данных category:

In [186]:
cols_to_exclude = ['Date', 'Rooms', 'Bedroom', 'Bathroom', 'Car']
max_unique_count = 150
for col in melb_df.columns:
    if melb_df[col].nunique() < max_unique_count and col not in cols_to_exclude:
        melb_df[col] = melb_df[col].astype('category')
melb_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 26 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Suburb           13580 non-null  object        
 1   Rooms            13580 non-null  int64         
 2   Type             13580 non-null  category      
 3   Price            13580 non-null  float64       
 4   Method           13580 non-null  category      
 5   SellerG          13580 non-null  category      
 6   Date             13580 non-null  datetime64[ns]
 7   Distance         13580 non-null  float64       
 8   Postcode         13580 non-null  int64         
 9   Bedroom          13580 non-null  int64         
 10  Bathroom         13580 non-null  int64         
 11  Car              13580 non-null  int64         
 12  Landsize         13580 non-null  float64       
 13  BuildingArea     13580 non-null  float64       
 14  CouncilArea      12211 non-null  categ

___
### Getting category attributes
[to content](#content)
___

In [187]:
melb_df['Regionname'].cat.categories

Index(['Eastern Metropolitan', 'Eastern Victoria', 'Northern Metropolitan',
       'Northern Victoria', 'South-Eastern Metropolitan',
       'Southern Metropolitan', 'Western Metropolitan', 'Western Victoria'],
      dtype='object')

In [188]:
melb_df['Regionname'].cat.codes

0        2
1        2
2        2
3        2
4        2
        ..
13575    4
13576    6
13577    6
13578    6
13579    6
Length: 13580, dtype: int8

In [189]:
melb_df['Type'] = melb_df['Type'].cat.rename_categories({
    'u': 'unit',
    't': 'townhouse',
    'h': 'house'
})
melb_df['Type']

0        house
1        house
2        house
3        house
4        house
         ...  
13575    house
13576    house
13577    house
13578    house
13579    house
Name: Type, Length: 13580, dtype: category
Categories (3, object): ['house', 'townhouse', 'unit']

___
### Underwater rocks
[to content](#content)
___

In [190]:
melb_df['Type'].cat.categories

Index(['house', 'townhouse', 'unit'], dtype='object')

In [191]:
new_house_types = pd.Series(['unit', 'house', 'flat', 'flat', 'house'])
new_house_types = new_house_types.astype(melb_df['Type'].dtype)
new_house_types

0     unit
1    house
2      NaN
3      NaN
4    house
dtype: category
Categories (3, object): ['house', 'townhouse', 'unit']

> На самом деле причина проста: тип данных category хранит только категории, которые были объявлены при его инициализации. При встрече с новой, неизвестной ранее категорией, этот тип превратит её в пустое значение, так как он просто не знает о существовании этой категории.  

Решить эту проблему на самом деле не сложно. Можно добавить категорию `flat` в столбец Type с помощью метода акссесора cat `add_categories()`, в который достаточно просто передать имя новой категории:

In [192]:
melb_df['Type'].cat.categories

Index(['house', 'townhouse', 'unit'], dtype='object')

In [193]:
melb_df['Type'] = melb_df['Type'].cat.add_categories('flat')

In [194]:
melb_df['Type'].cat.categories

Index(['house', 'townhouse', 'unit', 'flat'], dtype='object')

In [195]:
new_houses_types = pd.Series(['unit', 'house', 'flat', 'flat', 'house'])
new_houses_types = new_houses_types.astype(melb_df['Type'].dtype)
new_houses_types

0     unit
1    house
2     flat
3     flat
4    house
dtype: category
Categories (4, object): ['house', 'townhouse', 'unit', 'flat']

> Примечание. Добавление новой категории в столбец Type не отразится на самом столбце — текущие категории не изменятся, однако такое преобразование позволит добавлять в таблицу новые данные о домах с новой категорией — flat.

> Из данного примера можно сделать вывод, что если набор категорий в столбце жёстко не зафиксирован и может обновляться в процессе работы, то тип category не является подходящим типом данных для этого столбца или необходимо постоянно писать проверки при обновлении таблицы.

Теперь, когда мы рассмотрели основные моменты и нюансы работы с типом данных category, можно сформулировать несколько рекомендаций по его использованию:

* **1**
Необязательно каждый раз преобразовывать категориальные данные в тип данных category. Зачастую это делается исключительно для оптимизации работы с большими данными.

* **2**
Если набор данных занимает значительный процент используемой оперативной памяти, рассмотрите возможность использования типа category.

* **3**
Если у вас очень серьёзные проблемы с производительностью, обратите внимание на использование типа category.

* **4**
Если вы решили использовать тип category, будьте осторожны при добавлении новой информации в вашу таблицу. Убедитесь, что вы собрали всю необходимую информацию, произведите предобработку данных и только после этого используйте преобразование типов.

### Task 5.2

In [200]:
melb_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 26 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Suburb           13580 non-null  object        
 1   Rooms            13580 non-null  int64         
 2   Type             13580 non-null  category      
 3   Price            13580 non-null  float64       
 4   Method           13580 non-null  category      
 5   SellerG          13580 non-null  category      
 6   Date             13580 non-null  datetime64[ns]
 7   Distance         13580 non-null  float64       
 8   Postcode         13580 non-null  int64         
 9   Bedroom          13580 non-null  int64         
 10  Bathroom         13580 non-null  int64         
 11  Car              13580 non-null  int64         
 12  Landsize         13580 non-null  float64       
 13  BuildingArea     13580 non-null  float64       
 14  CouncilArea      12211 non-null  categ

In [210]:
largest_suburbs = melb_df['Suburb'].value_counts().nlargest(119).index
melb_df['Suburb'] = melb_df['Suburb'].apply(lambda x: x if x in largest_suburbs \
    else 'other')
melb_df['Suburb'].value_counts()

other              2181
Reservoir           359
Richmond            260
Bentleigh East      249
Preston             239
                   ... 
Caulfield North      35
Chadstone            35
Hughesdale           35
Mont Albert          34
Alphington           34
Name: Suburb, Length: 120, dtype: int64

In [213]:
melb_df['Suburb'] = melb_df['Suburb'].astype('category')

In [214]:
melb_df['Suburb'].cat.categories

Index(['Abbotsford', 'Aberfeldie', 'Airport West', 'Albert Park', 'Albion',
       'Alphington', 'Altona', 'Altona North', 'Armadale', 'Ascot Vale',
       ...
       'Thornbury', 'Toorak', 'Viewbank', 'Watsonia', 'Werribee',
       'West Footscray', 'Williamstown', 'Windsor', 'Yarraville', 'other'],
      dtype='object', length=120)

In [215]:
melb_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 26 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Suburb           13580 non-null  category      
 1   Rooms            13580 non-null  int64         
 2   Type             13580 non-null  category      
 3   Price            13580 non-null  float64       
 4   Method           13580 non-null  category      
 5   SellerG          13580 non-null  category      
 6   Date             13580 non-null  datetime64[ns]
 7   Distance         13580 non-null  float64       
 8   Postcode         13580 non-null  int64         
 9   Bedroom          13580 non-null  int64         
 10  Bathroom         13580 non-null  int64         
 11  Car              13580 non-null  int64         
 12  Landsize         13580 non-null  float64       
 13  BuildingArea     13580 non-null  float64       
 14  CouncilArea      12211 non-null  categ