# Признаки. Категориальные и числовые
Под числовыми признаками обычно подразумевают признаки, которые отражают количественную меру и могут принимать значения из неограниченного диапазона
## Числовые признаки могут быть:
 - Дискретными: например количество комнат, пациентов, дней и т.д.
 - Непрерывными: например масса, цена, площадь
Дискретные чаще представлены целыми числами, а непрерывные целыми - числами и числами, с плавающей точкой

Под категориальными признаками обычно подразумевают столбцы в таблице, которые обозначают принадлежность объекта к какому-либо классу/типу
## Категориальные признаки могут быть:
 - Номинальными, например: пол, национальность, район
 - Порядковыми, например: уровень образования, уровень комфорта, стадия заболевания

Такие признаки имеют ограниченный набор значений. Они чаще всего представленны в виде текстового описания и кодируются в Pandas типом object
Прим. Однако это не всегда так. Например, созданный нами ранее признак месяца продажи кодируется числом, но на самом деле является категориальным, поскольку диапазон его значений ограничен и каждому числу мы можем поставить в соответствие название месяца

## Категории в данных о недвижимости

In [2]:
import pandas as pd
melb_df = pd.read_csv('data/melb_data_ps.csv', sep=(','))

In [3]:
# Определим количество уникальных категорий в каждом столбце нашей таблицы melb_df. Для этого создадим вспомогательную 
# таблицу unique_counts
# Создаем пустой список
unique_list = []
# Пробегаем по именам столбцов в таблице
for col in melb_df.columns:
    # Создаем кортеж(имя столбца, количество уникальных значений)
    item = (col, melb_df[col].nunique(), melb_df[col].dtypes)
    # Добавляем кортеж в список
    unique_list.append(item)
# Создаем вспомогательную таблицу и сортируем ее
unique_counts = pd.DataFrame(
    unique_list,
    columns=['Column_Name', 'Num_Unique', 'Type']
).sort_values(by='Num_Unique', ignore_index=True)
# Выводим ее на экран
display(unique_counts)

Unnamed: 0,Column_Name,Num_Unique,Type
0,Type,3,object
1,Method,5,object
2,Regionname,8,object
3,Rooms,9,int64
4,Bathroom,9,int64
5,Car,11,int64
6,Bedroom,12,int64
7,CouncilArea,33,object
8,Date,58,object
9,YearBuilt,144,int64


## Тип данных Category - тип данных для хранения и оптимизации работы с категориальными признаками в Pandas
Выглядит гибридно: внешне выглядит как строка, а внутри - массив целых чисел. Так как данные вместо изначальных сток хранятся в памяти как число, то объем памяти, занимаемый при использовании типа Category, резко уменьшается, что повышает эффективность хранения и работы с таблицей

Самый простой способ преобразования столбцов к типу данных Category - это использование метода astype(), в параметры которого нужно передать строку 'category'

In [4]:
# Выведем информацию о памяти, которую занимает таблица
display(melb_df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 23 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   index          13580 non-null  int64  
 1   Suburb         13580 non-null  object 
 2   Address        13580 non-null  object 
 3   Rooms          13580 non-null  int64  
 4   Type           13580 non-null  object 
 5   Price          13580 non-null  float64
 6   Method         13580 non-null  object 
 7   SellerG        13580 non-null  object 
 8   Date           13580 non-null  object 
 9   Distance       13580 non-null  float64
 10  Postcode       13580 non-null  int64  
 11  Bedroom        13580 non-null  int64  
 12  Bathroom       13580 non-null  int64  
 13  Car            13580 non-null  int64  
 14  Landsize       13580 non-null  float64
 15  BuildingArea   13580 non-null  float64
 16  YearBuilt      13580 non-null  int64  
 17  CouncilArea    12211 non-null  object 
 18  Lattit

None

In [5]:
# Сделаем преобразование столбцов к типу category
cols_to_exclude = ['Date', 'Rooms', 'Bedroom', 'Bathroom', 'Car'] # Список столбцов, которые мы не берем во внимание
max_unique_counts = 150 # Максимальное число уникальных значений
for col in melb_df.columns: # Цикл по именам столбцов
    if melb_df[col].nunique() < max_unique_counts and col not in cols_to_exclude: # Проверяем условие
        melb_df[col] = melb_df[col].astype('category') # Преобразуем тип столбца
display(melb_df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 23 columns):
 #   Column         Non-Null Count  Dtype   
---  ------         --------------  -----   
 0   index          13580 non-null  int64   
 1   Suburb         13580 non-null  object  
 2   Address        13580 non-null  object  
 3   Rooms          13580 non-null  int64   
 4   Type           13580 non-null  category
 5   Price          13580 non-null  float64 
 6   Method         13580 non-null  category
 7   SellerG        13580 non-null  object  
 8   Date           13580 non-null  object  
 9   Distance       13580 non-null  float64 
 10  Postcode       13580 non-null  int64   
 11  Bedroom        13580 non-null  int64   
 12  Bathroom       13580 non-null  int64   
 13  Car            13580 non-null  int64   
 14  Landsize       13580 non-null  float64 
 15  BuildingArea   13580 non-null  float64 
 16  YearBuilt      13580 non-null  category
 17  CouncilArea    12211 non-null  

None

In [6]:
# У типа данных category есть свой специальный акцессор cat, который позволяет получать информацию о своих значениях и преобразовывать их.
# Например, с помощью атрибута  этого акцессора categories мы можем получить список уникальных категорий в столбце RegionName
print(melb_df['Regionname'].cat.categories)

Index(['Eastern Metropolitan', 'Eastern Victoria', 'Northern Metropolitan',
       'Northern Victoria', 'South-Eastern Metropolitan',
       'Southern Metropolitan', 'Western Metropolitan', 'Western Victoria'],
      dtype='object')


In [7]:
display(melb_df['Regionname'].cat.codes)

0        2
1        2
2        2
3        2
4        2
        ..
13575    4
13576    6
13577    6
13578    6
13579    6
Length: 13580, dtype: int8

In [10]:
# С помощью метода акцессора rename_categories() можно переименовать текущие значения категорий. Для этого в данный метод
# Нужно передать словарь, ключами которого будут старые названия, а значениями - новые
# Переименуем категории признака типа постройки Type - заменим их на полные названия (u-uint, h-house и т.д.) 

melb_df['Type'] = melb_df['Type'].cat.remove_categories({
    'u': 'uint',
    't': 'townhouse',
    'h': 'house'
})
display(melb_df['Type'])

0        NaN
1        NaN
2        NaN
3        NaN
4        NaN
        ... 
13575    NaN
13576    NaN
13577    NaN
13578    NaN
13579    NaN
Name: Type, Length: 13580, dtype: category
Categories (0, object): []