# 1. Введение

 Как известно, специалист в области Data Science занимается построением моделей, которые помогают в принятии верных решений, — например, построением нейронной сети, 
 которая по медицинским данным о пациенте способна предсказать развитие у него онкологии, или модели, которая будет прогнозировать цены акций на бирже.

Однако не все знают, что перед тем как построить свою модель, дата-сайентист проходит через огромный этап под названием 
**Предобработка данных и их подготовка к анализу и подаче в модель.**

> Под предобработкой понимаются следующие этапы работы с данными:
>
>* очистка данных от аномальных значений (выбросов);
>* работа с пропущенными значениями;
>* удаление признаков, которые не несут полезной информации;
>* создание новых признаков;
>* преобразование признаков и приведение данных к необходимому для анализа и модели формату.
>

Этап подготовки данных является самым трудоёмким и времязатратным при работе с любой бизнес-задачей. В среднем он занимает около 60-70% общей работы специалиста!

Этот этап так важенб потому что **«Мусор на входе — мусор на выходе»**, что означает следующее: если данные плохо подготовлены, то и результат прогнозирования даже самой мощной в мире нейронной сети будет сильно разниться с действительностью.

[Link на список столбцов melb_data_pd.cvs](https://apps.skillfactory.ru/learning/course/course-v1:SkillFactory+DSPR-2.0+14JULY2021/block-v1:SkillFactory+DSPR-2.0+14JULY2021+type@sequential+block@6ea6644c0a5a4ebbae22d0f362689baa/block-v1:SkillFactory+DSPR-2.0+14JULY2021+type@vertical+block@e756e694a15846d0bc80a1a0f42c40e6)

In [11]:
import pandas as pd

melb_data = pd.read_csv('data/melb_data_ps.csv', sep=',')


# 2. Базовые операции со столбцами DataFrame
### СОЗДАНИЕ КОПИИ ТАБЛИЦЫ

На протяжении всего модуля мы будем производить множество тренировочных преобразований с нашей таблицей.   
Поэтому, чтобы не переопределять переменную melb_data и тем самым не повредить первоначальный DataFrame, создадим копию melb_df с помощью метода copy():

In [12]:
melb_df = melb_data.copy()
melb_df.head()

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1,202.0,126.0,1970,Yarra,-37.7996,144.9984,Northern Metropolitan,4019,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0,156.0,79.0,1900,Yarra,-37.8079,144.9934,Northern Metropolitan,4019,"-37.8079, 144.9934"
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0,134.0,150.0,1900,Yarra,-37.8093,144.9944,Northern Metropolitan,4019,"-37.8093, 144.9944"
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,1,94.0,126.0,1970,Yarra,-37.7969,144.9969,Northern Metropolitan,4019,"-37.7969, 144.9969"
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,2,120.0,142.0,2014,Yarra,-37.8072,144.9941,Northern Metropolitan,4019,"-37.8072, 144.9941"


> ⭐ Лайфхак. Старайтесь всегда оставлять переменную с первоначальным DataFrame неизменной, создавайте копию исходной таблицы и совершайте преобразования на ней.   
Это оградит вас от ошибок, которые можно совершить при подготовке данных. Например, если вы понимаете, что  преобразование оказалось неудачным, достаточно будет лишь запустить ячейку, в которой вы производите копирование,   
а не читать таблицу заново. Особенно критичным это может быть, когда количество строк в таблице исчисляется миллионами и её чтение занимает до нескольких минут.

### УДАЛЕНИЕ СТОЛБЦОВ
> → Среди списка базовых операций над столбцами в Pandas важное место занимает возможность удаления столбцов из таблицы.   
Это может быть полезно, например, когда в данных есть признаки, которые не несут полезной информации.   
За удаление строк и столбцов в таблице отвечает метод drop().

Основные параметры метода drop()

- ***labels*** — порядковые номера или имена столбцов, которые подлежат удалению; если их несколько, то передаётся список;
- ***axis*** — ось совершения операции, *axis*=0 — удаляются строки, *axis*=1 — удаляются столбцы;
- ***inplace*** — если параметр выставлен на True, происходит замена изначального DataFrame на новый, при этом метод ничего не возвращает; если на False — возвращается копия DataFrame, из которой удалены указанные строки (столбцы),   
при этом первоначальный DataFrame не изменяется; по умолчанию параметр равен False.

In [13]:
# Удалим столбцы index и Coordinates из таблицы с помощью метода drop(). Выведем первые пять строк таблицы и убедимся, что всё прошло успешно.
melb_df = melb_df.drop(['index', 'Coordinates'], axis=1)
melb_df.head()

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067,...,1,1,202.0,126.0,1970,Yarra,-37.7996,144.9984,Northern Metropolitan,4019
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067,...,1,0,156.0,79.0,1900,Yarra,-37.8079,144.9934,Northern Metropolitan,4019
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067,...,2,0,134.0,150.0,1900,Yarra,-37.8093,144.9944,Northern Metropolitan,4019
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067,...,2,1,94.0,126.0,1970,Yarra,-37.7969,144.9969,Northern Metropolitan,4019
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067,...,1,2,120.0,142.0,2014,Yarra,-37.8072,144.9941,Northern Metropolitan,4019


### МАТЕМАТИЧЕСКИЕ ОПЕРАЦИИ СО СТОЛБЦАМИ

> → Pandas поддерживает базовые математические операции между столбцами: столбцы можно складывать, вычитать, умножать, делить между собой, а также возводить в степень.   
С помощью таких операций мы можем создавать новые признаки или производить преобразования над старыми.

In [14]:
# создадим переменную total_rooms, в которой будем хранить общее количество комнат в здании. Для этого выполним сложение столбцов с количеством комнат, ванн и спален:
total_rooms = melb_df['Rooms'] + melb_df['Bedroom'] + melb_df['Bathroom']

# введём признак MeanRoomsArea, который соответствует средней площади одной комнаты для каждого объекта. Для этого разделим площадь здания на полученное ранее общее количество комнат:
melb_df['MeanRoomsArea'] = melb_df['BuildingArea'] / total_rooms

# AreaRatio, коэффициент соотношения площади здания (BuildingArea) и площади участка (Landsize). Для этого разницу двух площадей поделим на их сумму:
diff_area = melb_df['BuildingArea'] - melb_df['Landsize']
sum_area = melb_df['BuildingArea'] + melb_df['Landsize']
melb_df['AreaRatio'] = diff_area/sum_area
display(melb_df['AreaRatio'])

0       -0.231707
1       -0.327660
2        0.056338
3        0.145455
4        0.083969
           ...   
13575   -0.676093
13576   -0.429185
13577   -0.551601
13578   -0.693060
13579   -0.527426
Name: AreaRatio, Length: 13580, dtype: float64

Что показывает такой коэффициент? Если присмотреться, можно увидеть, что AreaRatio лежит в интервале от -1 до 1.

Рассмотрим три случая, чтобы понять его значение:

* Если рассматриваемые площади равны, то числитель дроби зануляется и коэффициент тоже равен 0.
* Если одна из площадей начинает доминировать над другой, то коэффициент начинает расти в отрицательную сторону, если площадь участка больше площади здания, и в положительную сторону, если наоборот.
* Наконец, в предельном случае, если площадь здания равна 0, то числитель дроби равен знаменателю со знаком минус, а коэффициент равен -1, а если площадь участка равна 0, то числитель дроби равен знаменателю со знаком плюс, а коэффициент равен 1.
Таким образом, значение в столбце AreaRatio служит своеобразным указателем соотношения площадей объекта недвижимости. Для пустырей — участков без строений — он будет равен -1, для домов без территории — 1,   
во всех остальных случаях мы можем увидеть, какая площадь больше — здания или участка.

# 3. Работа с датами в DataFrame

### ПРИЗНАКИ ДАТЫ И ВРЕМЕНИ. ФОРМАТ DATETIME

> → При генерации новых признаков очень ценным может стать временной признак (признак даты и времени).    
Это особый тип данных, с которым приходится сталкиваться в большинстве задач по обработке данных.   
В реальных задачах часто нужно сравнивать даты, выделять день недели или час, вычислять различные интервалы между датами. 



Многие выгрузки из систем и баз данных имеют свой служебный формат. Например, формат времени из разных систем может отличаться:

* 2018-11-09 15:45:21;
* 11/09/2018 3:45:20 PM;
* 2018-11-09T15:45:21.2984.
Для всех этих случаев необходимо задавать формат распознавания дат и уметь сравнивать их между собой. Для этого был создан единый способ обозначения даты и времени. 

>Таким форматом в Pandas является формат datetime, который записывается как YYYY-MM-DD HH: MM: SS, то есть составляющие времени указываются в следующем порядке: год, месяц, день, час, минута, секунда.

In [15]:
# В наших данных дата записана в виде DD/MM/YYYY, например 3/12/2017. Посмотрим на это:
display(melb_data['Date'])

0         3/12/2016
1         4/02/2016
2         4/03/2017
3         4/03/2017
4         4/06/2016
            ...    
13575    26/08/2017
13576    26/08/2017
13577    26/08/2017
13578    26/08/2017
13579    26/08/2017
Name: Date, Length: 13580, dtype: object

Для того чтобы преобразовывать столбцы с датами, записанными в распространённых форматах, в формат datetime, можно воспользоваться функцией   
*pandas.to_datetime().* В нашем случае в функции нужно указать параметр *dayfirst*=True, который будет обозначать, что в первоначальном признаке первым идет день. 

In [16]:
# Преобразуем столбец Date в формат datetime, передав его в эту функцию:
melb_data['Date'] = pd.to_datetime(melb_data['Date'], dayfirst=True)
display(melb_data['Date'])

0       2016-12-03
1       2016-02-04
2       2017-03-04
3       2017-03-04
4       2016-06-04
           ...    
13575   2017-08-26
13576   2017-08-26
13577   2017-08-26
13578   2017-08-26
13579   2017-08-26
Name: Date, Length: 13580, dtype: datetime64[ns]

Стоит обратить внимание, что изменился тип данных для столбца Date, теперь его тип — ***datetime64***. Рассмотрим несколько возможностей этого типа данных.

### ВЫДЕЛЕНИЕ АТРИБУТОВ DATETIME

Тип данных datetime позволяет с помощью специального ***аксессора dt*** выделять составляющие времени из каждого элемента столбца, такие как:

* date — дата;
* year, month, day — год, месяц, день;
* time — время;
* hour, minute, second — час, минута, секунда;
* dayofweek — номер дня недели, от 0 до 6, где 0 — понедельник, 6 — воскресенье;
* day_name — название дня недели;
* dayofyear — порядковый день года;
* quarter — квартал (интервал в три месяца).

In [17]:
# обратившись по атрибуту dt.year в столбце Date, мы можем «достать» год продажи и понять, за какой интервал времени (в годах) представлены наши данные,
# а также на какой год приходится наибольшее число продаж:
years_sold = melb_data['Date'].dt.year
print(years_sold)
print('Min year sold:', years_sold.min())
print('Max year sold:', years_sold.max())
print('Mode year sold:', years_sold.mode()[0])

0        2016
1        2016
2        2017
3        2017
4        2016
         ... 
13575    2017
13576    2017
13577    2017
13578    2017
13579    2017
Name: Date, Length: 13580, dtype: int32
Min year sold: 2016
Max year sold: 2017
Mode year sold: 2017


> В результате обращения к атрибуту ***datetime melb_df['Date'].dt.year*** мы получаем объект Series, в котором в качестве значений выступают годы продажи объектов недвижимости. Мы можем занести результат в переменную *year_sold* и далее работать с ней как с обычным столбцом Series — вычислять максимум, минимум и модальное значение.

>***Примечание***. Так как модальных значений в столбце может быть несколько, метод *mode()* возвращает объект Series, даже если мода в данных только одна. Чтобы сохранить стилистику вывода информации о годе продажи и выводить только число, а не Series, мы обращаемся к результату работы метода *mode()* по индексу 0.

In [None]:
# на какие месяцы приходится пик продаж объектов недвижимости.
melb_df['MonthSale'] = melb_df['Date'].dt.month
melb_df['MonthSale'].value_counts(normalize=True)

### РАБОТА С ИНТЕРВАЛАМИ

Часто бывает такая ситуация, что необходимо вычислять интервалы между двумя временными промежутками. Например, можно вычислить, сколько дней прошло с 1 января 2016 года до момента продажи объекта. Для этого можно просто найти разницу между датами продаж и заявленной датой, представленной в формате ***datetime***:

In [20]:
delta_days = melb_data['Date'] - pd.to_datetime('2016-01-01')
display(delta_days)

0       337 days
1        34 days
2       428 days
3       428 days
4       155 days
          ...   
13575   603 days
13576   603 days
13577   603 days
13578   603 days
13579   603 days
Name: Date, Length: 13580, dtype: timedelta64[ns]

В результате мы получаем Series, элементами которой является количество дней, которое прошло с 1 января 2016 года. Обратите внимание, что данные такого формата относятся к типу *timedelta*.

In [21]:
# Чтобы превратить количество дней из формата интервала в формат целого числа дней, можно воспользоваться аксессором dt для формата timedelta
# и извлечь из него атрибут days:
display(delta_days.dt.days)

0        337
1         34
2        428
3        428
4        155
        ... 
13575    603
13576    603
13577    603
13578    603
13579    603
Name: Date, Length: 13580, dtype: int64

In [None]:
# создадим признак возраста объекта недвижимости в годах на момент продажи.
# так как года кодируются целым числом, в результате мы тоже получаем целочисленный столбец — тип int64 (а не timedelta).
melb_df['AgeBuilding'] = melb_df['Date'].dt.year - melb_df['YearBuilt']
display(melb_df['AgeBuilding'])

# cтолбец AgeBuilding дублирует информацию столбца YearBuilt, так как, зная год постройки здания, мы автоматически знаем его возраст.
# Такие признаки не стоит оставлять вместе, поэтому оставим возраст здания, так как он является более наглядным, а год постройки удалим из таблицы:
melb_df = melb_df.drop('YearBuilt', axis=1)

# 4. Создание и преобразование столбцов с помощью функций

Мы можем написать некоторую функцию, которая принимает на вход один элемент столбца, каким-то образом его обрабатывает и возвращает результат, после чего применить эту функцию к каждому элементу в столбце с помощью специального метода apply(). В результате применения этой функции будет возвращён объект Series, элементы которого будут представлять результат работы этой функции.

In [23]:
# вычислив количество уникальных значений в столбце с помощью метода nunique():
print(melb_df['Address'].nunique())

13378


Обычно подобные признаки удаляют, однако можно поступить умнее: давайте извлечём из признака адреса характеристику подтипа улицы (улица, шоссе, авеню, бульвар). Для этого сначала внимательнее посмотрим на структуру адреса, выберем несколько строк столбца Address:

In [None]:
print(melb_df['Address'].loc[177])
print(melb_df['Address'].loc[1812])
print(melb_df['Address'].loc[9001])

Итак, адрес строится следующим образом: сначала указывается номер дома и корпус, после указывается название улицы, а в конце — подтип улицы, но в некоторых случаях к подтипу добавляется географическая отметка (N — север, S — юг и т. д.), она нам не нужна . Для того чтобы выделить подтип улицы, на которой находится объект, можно использовать следующую функцию:

In [26]:
# На вход данной функции поступает строка с адресом.
def get_street_type(address):
# Создаём список географических пометок exclude_list.
    exclude_list = ['N', 'S', 'W', 'E']
# Метод split() разбивает строку на слова по пробелу.
# В результате получаем список слов в строке и заносим его в переменную address_list.
    address_list = address.split(' ')
# Обрезаем список, оставляя в нём только последний элемент,
# потенциальный подтип улицы, и заносим в переменную street_type.
    street_type = address_list[-1]
# Делаем проверку на то, что полученный подтип является географической пометкой.
# Для этого проверяем его на наличие в списке exclude_list.
    if street_type in exclude_list:
# Если переменная street_type является географической пометкой,
# переопределяем её на второй элемент с конца списка address_list.
        street_type = address_list[-2]
# Возвращаем переменную street_type, в которой хранится подтип улицы.
    return street_type

* ДОПОЛНИТЕЛЬНО   

[Подробнее о методе split()](https://docs-python.ru/tutorial/operatsii-tekstovymi-strokami-str-python/metod-str-split/)

In [None]:
# Теперь применим эту функцию к столбцу c адресом.
# Для этого передадим функцию get_street_type в аргумент метода столбца apply(). 
# В результате получим объект Series, который положим в переменную street_types:
street_types = melb_df['Address'].apply(get_street_type)
display(street_types)

Из данного вывода можно увидеть, что есть группа наиболее популярных подтипов улиц, а дальше частота подтипов быстро падает.

В таком случае давайте применим очень распространённый метод уменьшения количества уникальных категорий — выделим n подтипов, которые встречаются чаще всего, а остальные обозначим как 'other' (другие).

Для этого к результату метода value_counts применим метод nlargest(), который возвращает n наибольших значений из Series. Зададим n=10, т. е. мы хотим отобрать десять наиболее популярных подтипов. Извлечём их названия с помощью атрибута index, а результат занесём в переменную popular_stypes:

In [28]:
popular_stypes =street_types.value_counts().nlargest(10).index

Теперь, когда у нас есть список наиболее популярных подтипов улиц, введём lambda-функцию, которая будет проверять, есть ли строка x в этом перечне, и, если это так, lambda-функция будет возвращать x, в противном случае она будет возвращать строку 'other'. Наконец, применим такую функцию к Series street_types, полученной ранее, а результат определим в новый столбец таблицы StreetType:

In [None]:
melb_df['StreetType'] = street_types.apply(lambda x: x if x in popular_stypes else 'other')
display(melb_df['StreetType'])

In [30]:
# Теперь, у нас нет потребности хранить признак Address, так как, если конкретное местоположение объекта 
# всё же и влияет на его стоимость, то оно определяется столбцами Longitude и Lattitude. 
# Удалим его из нашей таблицы:
melb_df = melb_df.drop('Address', axis=1)

### Резюмируя

поделимся общими рекомендациями по уменьшению числа уникальных значений в признаке, который описывается категориями:

1. Определите (хотя бы на глаз) соотношение числа уникальных категорий интересующего вас признака к общему числу объектов в таблице. Если это соотношение превышает значение 30 %, то это уже повод задуматься над уменьшением числа категорий и перейти к шагу 2.

2. Если ваш признак уникален для каждого объекта, например адрес, имя или название, то такой признак, скорее всего, не имеет статистической значимости. От таких признаков чаще всего избавляются. Однако можно попробовать выделить из этого признака какие-то общие черты, например, как мы это сделали с подтипами улиц. Такой же трюк можно произвести, например, с названиями компаний, в которых может быть скрыт признак типа организации (из строки «ООО Три Слепые Мыши» можно извлечь ООО — общество с ограниченной ответственностью).
Далее переходите к шагу 3.

3. Если даже после преобразования число уникальных категорий всё ещё велико, можно попробовать с помощью метода value_counts() оценить, есть ли в данных категории, которые употребляются гораздо реже, чем остальные. Если такие категории присутствуют, переходите к шагу 4.

4. Можно подобрать число  популярных категорий таким образом, чтобы эти категории покрывали большую часть ваших данных.
Когда вы выбрали оптимальное число, переходите к шагу 5.

5. Наконец, можно совершить преобразование, обозначив категории, не попавшие в число популярных, как «другие».

# 5. Тип данных Category

### ПРИЗНАКИ: КАТЕГОРИАЛЬНЫЕ И ЧИСЛОВЫЕ

Рассмотрим такие статистические термины, как категориальные и числовые признаки.

> Под числовыми признаками обычно подразумевают признаки, которые отражают количественную меру и могут принимать значения из неограниченного диапазона.

Числовые признаки могут быть:

* дискретными (например, количество комнат, пациентов, дней);
* непрерывными (например, масса, цена, площадь).
Дискретные признаки чаще всего представлены целыми числами, а непрерывные — целыми числами и числами с плавающей точкой.

> Под категориальными признаками обычно подразумевают столбцы в таблице, которые обозначают принадлежность объекта к какому-то классу/категории.

Категориальные признаки могут быть:

* номинальными (например, пол, национальность, район);
* порядковыми (например, уровень образования, уровень комфорта, стадия заболевания).
Такие признаки имеют ограниченный набор значений. Они чаще всего представлены в виде текстового описания и кодируются в Pandas типом данных object.

##### **ДОПОЛНИТЕЛЬНО**

На самом деле классификация признаков уходит даже глубже — [здесь](https://medium.com/nuances-of-programming/статистические-типы-данных-используемые-в-машинном-обучении-b8891039b09) вы сможете подробнее ознакомиться со всеми тонкостями.

### КАТЕГОРИИ В ДАННЫХ О НЕДВИЖИМОСТИ

Давайте определим число уникальных категорий в каждом столбце нашей таблицы *melb_df*. Для этого создадим вспомогательную таблицу *unique_counts*:

In [32]:
# создаём пустой список
unique_list = []
# пробегаемся по именам столбцов в таблице
for col in melb_df.columns:
    # создаём кортеж (имя столбца, число уникальных значений)
    item = (col, melb_df[col].nunique(),melb_df[col].dtypes)     # добавляем кортеж в список
    unique_list.append(item) 
# создаём вспомогательную таблицу и сортируем её
unique_counts = pd.DataFrame(
    unique_list,
    columns=['Column_Name', 'Num_Unique', 'Type']
).sort_values(by='Num_Unique',  ignore_index=True)
# выводим её на экран
display(unique_counts)


Unnamed: 0,Column_Name,Num_Unique,Type
0,Type,3,object
1,Method,5,object
2,Regionname,8,object
3,Rooms,9,int64
4,Bathroom,9,int64
5,Car,11,int64
6,StreetType,11,object
7,Bedroom,12,int64
8,CouncilArea,33,object
9,Date,58,object


'\n    Разберём код подробнее:\n\n    1. Создаём пустой список, в который будем добавлять кортежи: имя столбца,\n    количество уникальных значений в нём и тип столбца.\n    \n    2. В цикле перебираем имена столбцов, которые получаем с помощью атрибута columns. \n    В переменной col на каждой итерации находятся имена столбцов — обращаемся к ним в цикле и извлекаем число уникальных элементов\n    с помощью метода nunique(), а также тип столбца с помощью атрибута dtypes. \n    Результат заносим в кортеж и добавляем его в список.\n\n    3. Из списка с кортежами (имя столбца, количество уникальных значений в нём, тип столбца) создаём DataFrame,\n    даём названия его столбцам: Column_Name, Num_unique и Type.\n\n    4. Сортируем таблицу по столбцу Num_unique в порядке возрастания количества \n    уникальных элементов с помощью метода sort_values() и выводим результат на экран.\n    '

### ТИП ДАННЫХ CATEGORY

Для хранения и оптимизации работы с категориальными признаками в Pandas предусмотрен специальный тип данных — ***category***.

→ Этот тип данных является гибридным: внешне он выглядит как строка, но внутренне представлен массивом целых чисел. Так как данные вместо изначальных строк хранятся в памяти как число, то объём памяти, занимаемой таблицей при использовании типа category, резко уменьшается, что повышает эффективность хранения и работы с таблицей.

→ Более того, этот тип данных расширяет возможности работы с категориальными признаками: мы можем легко преобразовывать категории, строить графики по таким данным (что сложно сделать для типа данных object). Также резко повышается производительность операций, совершаемых с такими столбцами.

Самый простой способ преобразования столбцов к типу данных **category** — это использование уже знакомого нам метода *astype*(), в параметры которого достаточно передать строку '*category*'.

In [34]:
# Сделаем преобразование столбцов к типу данных category:

cols_to_exclude = ['Date', 'Rooms', 'Bedroom', 'Bathroom', 'Car'] # список столбцов, которые мы не берём во внимание
max_unique_count = 150 # задаём максимальное число уникальных категорий
for col in melb_df.columns: # цикл по именам столбцов
    if melb_df[col].nunique() < max_unique_count and col not in cols_to_exclude: # проверяем условие
        melb_df[col] = melb_df[col].astype('category') # преобразуем тип столбца
display(melb_df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 23 columns):
 #   Column         Non-Null Count  Dtype   
---  ------         --------------  -----   
 0   Suburb         13580 non-null  object  
 1   Rooms          13580 non-null  int64   
 2   Type           13580 non-null  category
 3   Price          13580 non-null  float64 
 4   Method         13580 non-null  category
 5   SellerG        13580 non-null  object  
 6   Date           13580 non-null  object  
 7   Distance       13580 non-null  float64 
 8   Postcode       13580 non-null  int64   
 9   Bedroom        13580 non-null  int64   
 10  Bathroom       13580 non-null  int64   
 11  Car            13580 non-null  int64   
 12  Landsize       13580 non-null  float64 
 13  BuildingArea   13580 non-null  float64 
 14  YearBuilt      13580 non-null  category
 15  CouncilArea    12211 non-null  category
 16  Lattitude      13580 non-null  float64 
 17  Longtitude     13580 non-null  

None

##### ПОЛУЧЕНИЕ АТРИБУТОВ CATEGORY

У типа данных **category** есть свой специальный аксесcор ***cat***, который позволяет получать информацию о своих значениях и преобразовывать их. Например, с помощью атрибута этого аксессора *categories* мы можем получить список уникальных категорий в столбце *Regionname*:

In [None]:
print(melb_df['Regionname'].cat.categories)

In [36]:
# А теперь посмотрим, каким образом столбец кодируется в виде чисел в памяти компьютера.
# Для этого можно воспользоваться атрибутом codes:
display(melb_df['Regionname'].cat.codes)

0        2
1        2
2        2
3        2
4        2
        ..
13575    4
13576    6
13577    6
13578    6
13579    6
Length: 13580, dtype: int8

С помощью метода аксессора *rename_categories*() можно легко переименовать текущие значения категорий. Для этого в данный метод нужно передать словарь, ключи которого — старые имена категорий, а значения — новые.

In [37]:
# переименуем категории признака типа постройки Type # — заменим их на полные названия 
# (напомним, u — unit, h — house, t — townhouse).
melb_df['Type'] = melb_df['Type'].cat.rename_categories({
    'u': 'unit',
    't': 'townhouse',
    'h': 'house'
})
display(melb_df['Type'])

0        house
1        house
2        house
3        house
4        house
         ...  
13575    house
13576    house
13577    house
13578    house
13579    house
Name: Type, Length: 13580, dtype: category
Categories (3, object): ['house', 'townhouse', 'unit']

##### **ДОПОЛНИТЕЛЬНО**

Подробнее ознакомиться с другими возможностями типа данных category можно [здесь](https://pandas.pydata.org/pandas-docs/stable/user_guide/categorical.html).

##### ПОДВОДНЫЕ КАМНИ

А теперь представим ситуацию, что появилась новая партия домов и теперь мы продаём и квартиры (flat). Создадим объект Series *new_houses_types*, в котором будем хранить типы зданий новой партии домов. Преобразуем тип *new_houses_types* в такой же тип, как и у столбца Type в таблице *melb_data*, и выведем результат на экран:

In [38]:
new_houses_types = pd.Series(['unit', 'house', 'flat', 'flat', 'house'])
new_houses_types = new_houses_types.astype(melb_df['Type'].dtype)
display(new_houses_types)

0     unit
1    house
2      NaN
3      NaN
4    house
dtype: category
Categories (3, object): ['house', 'townhouse', 'unit']

По какой-то причине вместо квартир мы получили пустые значения — NaN.

> На самом деле причина проста: тип данных category хранит только категории, которые были объявлены при его инициализации. При встрече с новой, неизвестной ранее категорией, этот тип превратит её в пустое значение, так как он просто не знает о существовании этой категории.

Решить эту проблему на самом деле не сложно. Можно добавить категорию flat в столбец Type с помощью метода акссесора **cat** *add_categories*(), в который достаточно просто передать имя новой категории:


In [39]:
melb_df['Type'] = melb_df['Type'].cat.add_categories('flat')
new_houses_types = pd.Series(['unit', 'house', 'flat', 'flat', 'house'])
new_houses_types = new_houses_types.astype(melb_df['Type'].dtype)
display(new_houses_types)

0     unit
1    house
2     flat
3     flat
4    house
dtype: category
Categories (4, object): ['house', 'townhouse', 'unit', 'flat']