In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from datetime import datetime, date

pd.set_option('display.notebook_repr_html', False)
pd.set_option('display.max_columns', 8)
pd.set_option('display.max_rows', 15)
pd.set_option('display.width', 65)
%matplotlib inline

In [2]:
# Создание категориальной переменной из списка
lmh_values = ["low", "high", "medium", "medium", "high"]
lmh_cat = pd.Categorical(lmh_values)
lmh_cat

['low', 'high', 'medium', 'medium', 'high']
Categories (3, object): ['high', 'low', 'medium']

In [3]:
# Смотрим категории
# Объект categories создает индекс, состоящий из трех различных значений в заданном списке.
lmh_cat.categories

Index(['high', 'low', 'medium'], dtype='object')

In [4]:
# Свойство .codes показывает коды (целочисленные значения)
# для каждого значения категориальной переменной
lmh_cat.codes


array([1, 0, 2, 2, 0], dtype=int8)

In [5]:
# Создадим объект категорий из списка, но при этом ЯВНО УКАЖЕМ КАТЕГОРИИ
# будет собдюден порядок указанных категорий
lmh_cat = pd.Categorical(lmh_values, categories=["low", "medium", "high"])
lmh_cat

['low', 'high', 'medium', 'medium', 'high']
Categories (3, object): ['low', 'medium', 'high']

In [6]:
# Коды выглядят так
lmh_cat.codes

array([0, 2, 1, 1, 2], dtype=int8)

In [7]:
# Сортировка выполняется с помощью кодов, лежащих в основе каждого значения
lmh_cat.sort_values()

['low', 'medium', 'medium', 'high', 'high']
Categories (3, object): ['low', 'medium', 'high']

In [8]:
# Кроме того категориальную переменню можно создать В ВИДЕ СЕРИИ у которой задачть
# тип данный (dtype) в виде - category

cat_series = pd.Series(lmh_values, dtype='category')
cat_series

0       low
1      high
2    medium
3    medium
4      high
dtype: category
Categories (3, object): ['high', 'low', 'medium']

In [9]:
# Еще один способ создания категориальной переменной состоит в том, чтобы сначала создать
# обхект Series а потом преобразовать столбец с данными в категориальную переменную,
# используя метод .astype('category')
s = pd.Series(lmh_values)
as_cat = s.astype('category')
as_cat

0       low
1      high
2    medium
3    medium
4      high
dtype: category
Categories (3, object): ['high', 'low', 'medium']

In [10]:
as_cat.cat.codes

0    1
1    0
2    2
3    2
4    0
dtype: int8

In [11]:
# Серия, созданная как объект categorical имеет свойство .CAT, которое позволяет получить
# доступ к категориальной переменной.
as_cat.cat

<pandas.core.arrays.categorical.CategoricalAccessor object at 0x7fb6d806c340>

In [12]:
# Получаем индекс категориальной переменной
as_cat.cat.categories

Index(['high', 'low', 'medium'], dtype='object')

In [13]:
# Несколько пандасовский функций также возвращают объекты Categorical. Одна из таких - pd.cut(), 
# которая создает группы наблюдений, расположенных внутри определенных диапазонов значений.

# Создание датафрейма из 100 значений
np.random.seed(123456)
values = np.random.randint(0, 100, 5)
bins = pd.DataFrame({"Values": values})
bins

   Values
0      65
1      49
2      56
3      43
4      43

In [14]:
# Разбираем значения на 10 групп.
bins['Group'] = pd.cut(values, range(0, 100, 10))

# Столбец group представляет из себя категориальную переменню
bins.Group

0    (60, 70]
1    (40, 50]
2    (50, 60]
3    (40, 50]
4    (40, 50]
Name: Group, dtype: category
Categories (9, interval[int64, right]): [(0, 10] < (10, 20] < (20, 30] < (30, 40] ... (50, 60] < (60, 70] < (70, 80] < (80, 90]]

In [15]:
bins.Group.cat.codes

0    6
1    4
2    5
3    4
4    4
dtype: int8

In [16]:
bins.Group.cat.codes

0    6
1    4
2    5
3    4
4    4
dtype: int8

In [17]:
bins.Group.cat.categories

IntervalIndex([(0, 10], (10, 20], (20, 30], (30, 40], (40, 50], (50, 60], (60, 70], (70, 80], (80, 90]], dtype='interval[int64, right]')

In [18]:
# Создадим УПОРЯДОЧЕННУЮ категореальную переменную из названий драгоценных металлов
# ПОРЯДОК ВАЖЕН для определения относительной ценности металла.
metal_values = ["bronze", "gold", "silver", "bronze"]
metal_categories =  ["bronze", "silver", "gold"]
metals = pd.Categorical(metal_values, categories = metal_categories, ordered = True )

# Объект сатегории ИМЕЕТ СТРОГО УПОРЯДОЧЕННЫЕ категории
metals

['bronze', 'gold', 'silver', 'bronze']
Categories (3, object): ['bronze' < 'silver' < 'gold']

In [19]:
#  Порядок категорий можно использовать для сортировки или сравнения значений одного объекта
# Categorical со значением др.

# Меняем значения
metals_reversed_values = pd.Categorical(
    metal_values[::-1],
    categories = metals.categories,
    ordered=True
)
metals_reversed_values

['bronze', 'silver', 'gold', 'bronze']
Categories (3, object): ['bronze' < 'silver' < 'gold']

In [20]:
# Значения этих категориальных переменный metals и metals_reversed_values можно сравнить.

# Сравним значения 2 категориальных переменных. Библиотека пандас выполняет сравниение,
# сопоставляя коды значения.
metals <= metals_reversed_values, metals.codes, metals_reversed_values.codes

(array([ True, False,  True,  True]),
 array([0, 2, 1, 0], dtype=int8),
 array([0, 1, 2, 0], dtype=int8))

In [21]:
# Создадим категориальную переменную со значением, которое нельзя отнести ни к одной из
# категорий, поэтому для него будет получено значене NaN

other_met = pd.Categorical(["bronze", "copper"], categories=metal_categories)
other_met, other_met.codes

(['bronze', NaN]
 Categories (3, object): ['bronze', 'silver', 'gold'],
 array([ 0, -1], dtype=int8))

In [22]:
# Переименование категория
cat = pd.Categorical(["a","b","c","a"],
categories=["a", "b", "c"])
cat

['a', 'b', 'c', 'a']
Categories (3, object): ['a', 'b', 'c']

In [23]:
# Переименовать можно либо через замену свойства .categorise или через метод .rename_categories

# Переименование категорий (А ТАКЖЕ ЗНАЧЕНИЕЙ)
# В даном стпособе идет опереция переименования НА МЕСТЕ.
cat.categories = ["bronze", "silver", "gold"]
cat

['bronze', 'silver', 'gold', 'bronze']
Categories (3, object): ['bronze', 'silver', 'gold']

In [24]:
# Чтобы ИЗБЕЖАТЬ переименованя на месте используют метод .rename_categories
cat.rename_categories(["x", "y", "z"])

['x', 'y', 'z', 'x']
Categories (3, object): ['x', 'y', 'z']

In [25]:
# Убедимся, что переименование не затронуло cat
cat

['bronze', 'silver', 'gold', 'bronze']
Categories (3, object): ['bronze', 'silver', 'gold']

In [26]:
# Добавлние категорий
# С помощью метода .add_categories можно добавить категории.

with_platinum = metals.add_categories(['platinum'])
with_platinum

['bronze', 'gold', 'silver', 'bronze']
Categories (4, object): ['bronze' < 'silver' < 'gold' < 'platinum']

In [27]:
# Удаление категорий

# Удаление категории можно сделать при помощи метода remove_categories
no_bronze = cat.remove_categories(['bronze'])
no_bronze

[NaN, 'silver', 'gold', NaN]
Categories (2, object): ['silver', 'gold']

In [28]:
# Удаление неиспользуемых катерогий (.remove_unused_categories)
# В with_platinum есть категория platinum, но нет ни одного значения для этой категории
# возвращает новый объект, а старый не трогает.

without_platinum = with_platinum.remove_unused_categories()
without_platinum

['bronze', 'gold', 'silver', 'bronze']
Categories (3, object): ['bronze' < 'silver' < 'gold']

In [29]:
# Установка категорий (.set_categories)
# С помощью метода set_categories МОЖНО СРАЗУ И ДОБИВЛЯТЬ И УДАЛЯТЬ категории
# создаем серию
s = pd.Series(["one","two","four", "five"], dtype="category")
s, s.cat.categories

(0     one
 1     two
 2    four
 3    five
 dtype: category
 Categories (4, object): ['five', 'four', 'one', 'two'],
 Index(['five', 'four', 'one', 'two'], dtype='object'))

In [30]:
# Следующий код задает задает категории one и four, а остальные категории удаляются.
# В результате получим NaN для несуществующих категорий.

s = s.cat.set_categories(["one","four"])
s

0     one
1     NaN
2    four
3     NaN
dtype: category
Categories (2, object): ['one', 'four']

In [31]:
# Вычисление описательных статистик для категориальной переменной

# Получение описательной информации о категориальной переменной - .describe
metals.describe()

            counts  freqs
categories               
bronze           2   0.50
silver           1   0.25
gold             1   0.25

In [32]:
# Получить количество для каждой категории можно при помощи метода - .value_counts
metals.value_counts()


bronze    2
silver    1
gold      1
dtype: int64

In [33]:
# Вычислим минимум, максимум для категориальной переменной
metals.min(), metals.max()

('bronze', 'gold')

In [34]:
# Вычислим моду для категориальной переменной
pd.Series(metals).mode()

0    bronze
dtype: category
Categories (3, object): ['bronze' < 'silver' < 'gold']

In [35]:
# Обраобтка школьных ошибок
# 10 учеников со случайными оценками
np.random.seed(123456)
names =  ['Ivana', 'Norris', 'Ruth', 'Lane', 'Skye', 'Sol', 'Dylan', 'Katina', 'Alissa', "Marc"]
grades = np.random.randint(50, 101, len(names))
scores = pd.DataFrame({'Name': names, 'Grade': grades})
scores

     Name  Grade
0   Ivana     51
1  Norris     92
2    Ruth    100
3    Lane     99
4    Skye     93
5     Sol     97
6   Dylan     93
7  Katina     77
8  Alissa     82
9    Marc     73

In [36]:
# Задаем группы и соответствующие оценки

score_bins =  [0, 59, 62, 66, 69, 72, 76, 79, 82, 86, 89, 92, 99, 100]
letter_grades = ['F', 'D-', 'D', 'D+', 'C-', 'C', 'C+', 'B-', 'B', 'B+', 'A-', 'A', 'A+']


In [37]:
# Разбиваем на основе групп и присваиваем буквенные оцинки
letter_cats = pd.cut(scores.Grade, bins=score_bins, labels=letter_grades)
scores['Letter']=letter_cats
scores

     Name  Grade Letter
0   Ivana     51      F
1  Norris     92     A-
2    Ruth    100     A+
3    Lane     99      A
4    Skye     93      A
5     Sol     97      A
6   Dylan     93      A
7  Katina     77     C+
8  Alissa     82     B-
9    Marc     73      C

In [38]:
# Исследуем интересующую категориальную переменнуюletter_cats
letter_cats, letter_cats.cat.categories

(0     F
 1    A-
 2    A+
 3     A
 4     A
 5     A
 6     A
 7    C+
 8    B-
 9     C
 Name: Grade, dtype: category
 Categories (13, object): ['F' < 'D-' < 'D' < 'D+' ... 'B+' < 'A-' < 'A' < 'A+'],
 Index(['F', 'D-', 'D', 'D+', 'C-', 'C', 'C+', 'B-', 'B', 'B+',
        'A-', 'A', 'A+'],
       dtype='object'))

In [39]:
# Сколько наблюдений имеет каждая оцинка?
scores.Letter.value_counts()

A     4
F     1
C     1
C+    1
B-    1
A-    1
A+    1
D-    0
D     0
D+    0
C-    0
B     0
B+    0
Name: Letter, dtype: int64

In [49]:
# Выберем всех учеников имеющих оценку - А
scores[scores.Letter == 'A']

    Name  Grade Letter
3   Lane     99      A
4   Skye     93      A
5    Sol     97      A
6  Dylan     93      A

In [43]:
# Отсортируем по буквенной оценке, а не по числовой
scores.sort_values(by=['Letter'], ascending=True)

     Name  Grade Letter
0   Ivana     51      F
9    Marc     73      C
7  Katina     77     C+
8  Alissa     82     B-
1  Norris     92     A-
3    Lane     99      A
4    Skye     93      A
5     Sol     97      A
6   Dylan     93      A
2    Ruth    100     A+

In [40]:
cc = pd.cut([0, 1, 1, 6, 11, 12, 13, 15], bins=5)
cc, cc.categories, cc.codes

([(-0.015, 3.0], (-0.015, 3.0], (-0.015, 3.0], (3.0, 6.0], (9.0, 12.0], (9.0, 12.0], (12.0, 15.0], (12.0, 15.0]]
 Categories (5, interval[float64, right]): [(-0.015, 3.0] < (3.0, 6.0] < (6.0, 9.0] < (9.0, 12.0] < (12.0, 15.0]],
 IntervalIndex([(-0.015, 3.0], (3.0, 6.0], (6.0, 9.0], (9.0, 12.0], (12.0, 15.0]], dtype='interval[float64, right]'),
 array([0, 0, 0, 1, 3, 3, 4, 4], dtype=int8))