In [1]:
# импортируем библиотеки numpy и pandas
import numpy as np
import pandas as pd

# импортируем библиотеку datatime для работы с датами
import datetime
from datetime import datetime, date

# задаем некоторые опции библиотеки pandas, которые настраивают вывод
pd.set_option('display.notebook_repr_html', False)     # задаем вывод в виде текста, а не HTML
pd.set_option('display.max_columns', 8)                # устанавливаем отображение максимального количества стобцов
pd.set_option('display.max_rows', 10)                  # устанавливаем отображение максимального количества строк
pd.set_option('display.width', 80)                     # устанавливаеv максимальную ширину отображения в символах

# импортируем библиотеку matplotlib для построения графиков
import matplotlib.pyplot as plt 
%matplotlib inline

### __Создание категориальных переменных__

In [2]:
# создаем категориальную переменную непосредственно из списка
lmh_values = ['low', 'hight', 'medium', 'medium', 'hight']
lmh_cat = pd.Categorical(lmh_values)
lmh_cat

['low', 'hight', 'medium', 'medium', 'hight']
Categories (3, object): ['hight', 'low', 'medium']

In [3]:
# смотрим категории
lmh_cat.categories

Index(['hight', 'low', 'medium'], dtype='object')

In [4]:
# Каждой категории объекта Categorical присваивается целочисленное значение. Это значение называется кодом (code)
# Коды можно посмотреть с помощью свойства .codes
lmh_cat.codes

array([1, 0, 2, 2, 0], dtype=int8)

In [5]:
# данный порядок можно оптимизировать, указав категории с помощью параметра categories 
lmh_cat = pd.Categorical(lmh_values, categories = ['low', 'medium', 'hight'])
lmh_cat

['low', 'hight', 'medium', 'medium', 'hight']
Categories (3, object): ['low', 'medium', 'hight']

In [6]:
lmh_cat.codes

array([0, 2, 1, 1, 2], dtype=int8)

In [7]:
# данная кодировка более полезная, так как ее можно использовать для сортировки значений в том порядке 
# который соответствует смыслу
# сортировка выполняется с помощью кодов, лежащих в основе кодов каждого значения
lmh_cat.sort_values()

['low', 'medium', 'medium', 'hight', 'hight']
Categories (3, object): ['low', 'medium', 'hight']

In [8]:
# категориальную переменную можно представить в виде серии у которой тип данных (dtype) обозначется как category
# создаем категориальную переменную с помощью объекта Series и dtype
cat_series = pd.Series(lmh_values, dtype = 'category')
cat_series

0       low
1     hight
2    medium
3    medium
4     hight
dtype: category
Categories (3, object): ['hight', 'low', 'medium']

In [9]:
# Другой способ создания категориальной переменной состоит в том, что бы сначала создать объект Series а затем 
# преобразовать столбей с данными в кагегориальную переменную используя метод .astype('category')
s = pd.Series(lmh_values)
as_cat = s.astype('category')
cat_series

0       low
1     hight
2    medium
3    medium
4     hight
dtype: category
Categories (3, object): ['hight', 'low', 'medium']

In [10]:
# категориальная переменная имеет свойство .cat
cat_series.cat

<pandas.core.arrays.categorical.CategoricalAccessor object at 0x00000184E4A78BE0>

In [11]:
# получаем индекс категориальной переменной
cat_series.cat.categories

Index(['hight', 'low', 'medium'], dtype='object')

In [13]:
# некоторые пандосовские функций также возвращают объекты Categorical. Одна из них - функция pd.cut()
# которая создает группы наблюдений, расположенных внутри определенных диапазанов значений
# создаем DataFrame из 100 значений
np.random.seed(123456)
values = np.random.randint(0, 100, 5)
bins = pd.DataFrame({'Values': values})
bins

   Values
0      65
1      49
2      56
3      43
4      43

In [15]:
# разбиваем значения на 10 групп
bins['Group'] = pd.cut(values, range(0, 101, 10))
bins

   Values     Group
0      65  (60, 70]
1      49  (40, 50]
2      56  (50, 60]
3      43  (40, 50]
4      43  (40, 50]

In [16]:
# проверям, является ли созданная переменная категориальной
bins.Group

0    (60, 70]
1    (40, 50]
2    (50, 60]
3    (40, 50]
4    (40, 50]
Name: Group, dtype: category
Categories (10, interval[int64, right]): [(0, 10] < (10, 20] < (20, 30] < (30, 40] ... (60, 70] < (70, 80] < (80, 90] < (90, 100]]

In [17]:
# явный порядок категорий можно указать с помощью параметра ordered = True. Эта настройка означает, что порядок
# категорий важен и позволяет сравнивать значения в нескольких сериях представленных в виде объектов Categorical 
metal_values = ['bronze', 'gold', 'silver', 'bronze']
metal_categories = ['bronze', 'silver', 'gold']
metals = pd.Categorical(metal_values, categories = metal_categories, ordered = True)
metals


['bronze', 'gold', 'silver', 'bronze']
Categories (3, object): ['bronze' < 'silver' < 'gold']

In [19]:
# создаем категориальную переменную со значением, которое нельзя отнести ни к одной из категорий,
# поэтому для него будет получено значение Nan 
pd.Categorical(['bronze', 'copper'], categories = metal_categories)

['bronze', NaN]
Categories (3, object): ['bronze', 'silver', 'gold']

__Переименование категорий__

In [20]:
# категории объекта Categorical можно переименовать, передав новые имена свойству .categories или 
# воспользовавшись методом .rename_categories()
# создаем категориальную переменную с 3 категориями
cat = pd.Categorical(['a', 'b', 'c', 'a'], categories = ['a', 'b', 'c'])
cat

['a', 'b', 'c', 'a']
Categories (3, object): ['a', 'b', 'c']

In [21]:
# переименовываем категории (а также значения)
cat.categories = ['bronze', 'silver', 'gold']
cat
# обращаем внимание на то, что в данном случае переименование на месте

  cat.categories = ['bronze', 'silver', 'gold']


['bronze', 'silver', 'gold', 'bronze']
Categories (3, object): ['bronze', 'silver', 'gold']

In [22]:
# что бы избежать переименовывания на месте воспользуемся методом .rename_categories() 
cat.rename_categories(['x', 'y', 'z'])

['x', 'y', 'z', 'x']
Categories (3, object): ['x', 'y', 'z']

In [23]:
# убедимся, что операция не была произведена на месте
cat

['bronze', 'silver', 'gold', 'bronze']
Categories (3, object): ['bronze', 'silver', 'gold']

__Добавление категорий__