In [1]:
# импортируем библиотеки numpy и pandas
import numpy as np
import pandas as pd

# импортируем библиотеку datatime для работы с датами
import datetime
from datetime import datetime, date

# задаем некоторые опции библиотеки pandas, которые настраивают вывод
pd.set_option('display.notebook_repr_html', False)     # задаем вывод в виде текста, а не HTML
pd.set_option('display.max_columns', 8)                # устанавливаем отображение максимального количества стобцов
pd.set_option('display.max_rows', 10)                  # устанавливаем отображение максимального количества строк
pd.set_option('display.width', 80)                     # устанавливаеv максимальную ширину отображения в символах

# импортируем библиотеку matplotlib для построения графиков
import matplotlib.pyplot as plt 
%matplotlib inline

### __Создание категориальных переменных__

In [2]:
# создаем категориальную переменную непосредственно из списка
lmh_values = ['low', 'hight', 'medium', 'medium', 'hight']
lmh_cat = pd.Categorical(lmh_values)
lmh_cat

['low', 'hight', 'medium', 'medium', 'hight']
Categories (3, object): ['hight', 'low', 'medium']

In [3]:
# смотрим категории
lmh_cat.categories

Index(['hight', 'low', 'medium'], dtype='object')

In [4]:
# Каждой категории объекта Categorical присваивается целочисленное значение. Это значение называется кодом (code)
# Коды можно посмотреть с помощью свойства .codes
lmh_cat.codes

array([1, 0, 2, 2, 0], dtype=int8)

In [5]:
# данный порядок можно оптимизировать, указав категории с помощью параметра categories 
lmh_cat = pd.Categorical(lmh_values, categories = ['low', 'medium', 'hight'])
lmh_cat

['low', 'hight', 'medium', 'medium', 'hight']
Categories (3, object): ['low', 'medium', 'hight']

In [6]:
lmh_cat.codes

array([0, 2, 1, 1, 2], dtype=int8)

In [7]:
# данная кодировка более полезная, так как ее можно использовать для сортировки значений в том порядке 
# который соответствует смыслу
# сортировка выполняется с помощью кодов, лежащих в основе кодов каждого значения
lmh_cat.sort_values()

['low', 'medium', 'medium', 'hight', 'hight']
Categories (3, object): ['low', 'medium', 'hight']

In [8]:
# категориальную переменную можно представить в виде серии у которой тип данных (dtype) обозначется как category
# создаем категориальную переменную с помощью объекта Series и dtype
cat_series = pd.Series(lmh_values, dtype = 'category')
cat_series

0       low
1     hight
2    medium
3    medium
4     hight
dtype: category
Categories (3, object): ['hight', 'low', 'medium']

In [9]:
# Другой способ создания категориальной переменной состоит в том, что бы сначала создать объект Series а затем 
# преобразовать столбей с данными в кагегориальную переменную используя метод .astype('category')
s = pd.Series(lmh_values)
as_cat = s.astype('category')
cat_series

0       low
1     hight
2    medium
3    medium
4     hight
dtype: category
Categories (3, object): ['hight', 'low', 'medium']

In [10]:
# категориальная переменная имеет свойство .cat
cat_series.cat

<pandas.core.arrays.categorical.CategoricalAccessor object at 0x000001B6D22FAB30>

In [11]:
# получаем индекс категориальной переменной
cat_series.cat.categories

Index(['hight', 'low', 'medium'], dtype='object')

In [12]:
# некоторые пандосовские функций также возвращают объекты Categorical. Одна из них - функция pd.cut()
# которая создает группы наблюдений, расположенных внутри определенных диапазанов значений
# создаем DataFrame из 100 значений
np.random.seed(123456)
values = np.random.randint(0, 100, 5)
bins = pd.DataFrame({'Values': values})
bins

   Values
0      65
1      49
2      56
3      43
4      43

In [13]:
# разбиваем значения на 10 групп
bins['Group'] = pd.cut(values, range(0, 101, 10))
bins

   Values     Group
0      65  (60, 70]
1      49  (40, 50]
2      56  (50, 60]
3      43  (40, 50]
4      43  (40, 50]

In [14]:
# проверям, является ли созданная переменная категориальной
bins.Group

0    (60, 70]
1    (40, 50]
2    (50, 60]
3    (40, 50]
4    (40, 50]
Name: Group, dtype: category
Categories (10, interval[int64, right]): [(0, 10] < (10, 20] < (20, 30] < (30, 40] ... (60, 70] < (70, 80] < (80, 90] < (90, 100]]

In [15]:
# явный порядок категорий можно указать с помощью параметра ordered = True. Эта настройка означает, что порядок
# категорий важен и позволяет сравнивать значения в нескольких сериях представленных в виде объектов Categorical 
metal_values = ['bronze', 'gold', 'silver', 'bronze']
metal_categories = ['bronze', 'silver', 'gold']
metals = pd.Categorical(metal_values, categories = metal_categories, ordered = True)
metals


['bronze', 'gold', 'silver', 'bronze']
Categories (3, object): ['bronze' < 'silver' < 'gold']

In [16]:
# создаем категориальную переменную со значением, которое нельзя отнести ни к одной из категорий,
# поэтому для него будет получено значение Nan 
pd.Categorical(['bronze', 'copper'], categories = metal_categories)

['bronze', NaN]
Categories (3, object): ['bronze', 'silver', 'gold']

__Переименование категорий__

In [17]:
# категории объекта Categorical можно переименовать, передав новые имена свойству .categories или 
# воспользовавшись методом .rename_categories()
# создаем категориальную переменную с 3 категориями
cat = pd.Categorical(['a', 'b', 'c', 'a'], categories = ['a', 'b', 'c'])
cat

['a', 'b', 'c', 'a']
Categories (3, object): ['a', 'b', 'c']

In [18]:
# переименовываем категории (а также значения)
cat.categories = ['bronze', 'silver', 'gold']
cat
# обращаем внимание на то, что в данном случае переименование на месте

  cat.categories = ['bronze', 'silver', 'gold']


['bronze', 'silver', 'gold', 'bronze']
Categories (3, object): ['bronze', 'silver', 'gold']

In [19]:
# что бы избежать переименовывания на месте воспользуемся методом .rename_categories() 
cat.rename_categories(['x', 'y', 'z'])

['x', 'y', 'z', 'x']
Categories (3, object): ['x', 'y', 'z']

In [20]:
# убедимся, что операция не была произведена на месте
cat

['bronze', 'silver', 'gold', 'bronze']
Categories (3, object): ['bronze', 'silver', 'gold']

__Добавление категорий__

In [21]:
# с помощью метода .add_categories() можно добавить новую категорию. Добавим новую категорию platinum
with_platinum = metals.add_categories('platinum')
with_platinum

['bronze', 'gold', 'silver', 'bronze']
Categories (4, object): ['bronze' < 'silver' < 'gold' < 'platinum']

__Удаление категорий__

In [22]:
# удалим категорию с помощью метода .remove_categories(). Удаленные категории заменяются значениями Nan с помощью np.Nan 
no_bronze = metals.remove_categories('bronze')
no_bronze

[NaN, 'gold', 'silver', NaN]
Categories (2, object): ['silver' < 'gold']

__Удаление неиспользуемых категорий__ 

In [23]:
# С помощью метода .remove_unused_categories() удалим категорию Platinum
with_platinum.remove_unused_categories()

['bronze', 'gold', 'silver', 'bronze']
Categories (3, object): ['bronze' < 'silver' < 'gold']

__Установка категорий__

In [24]:
# С помощью метода .set_categories() можно сразу добавлять и удалять категории
# создаем серию
s = pd.Series(['one', 'two', 'four', 'five'], dtype = 'category')
s

0     one
1     two
2    four
3    five
dtype: category
Categories (4, object): ['five', 'four', 'one', 'two']

In [26]:
# удаляем категории (они заменяются на значения Nan)
s = s.cat.set_categories(['one', 'four'])
s
# врезультате получаем Nan для несуществующих категорий

0     one
1     NaN
2    four
3     NaN
dtype: category
Categories (2, object): ['one', 'four']

__Вычисление описательных статистик для категориальной переменной__

In [27]:
# метод .describe() вычисляет описательные статистики для объекта Categorical так же как и для Series, и DataFrame
# в результате получаем количество наблюдений в каждой категории и распределение частот по категориям
metals.describe()

            counts  freqs
categories               
bronze           2   0.50
silver           1   0.25
gold             1   0.25

In [29]:
# количество значений для каждой категории можно получить с помощью .value_counts()
metals.value_counts()

bronze    2
silver    1
gold      1
dtype: int64

In [31]:
# минимум, максимум и моду можно вычислить с помощью методов .min() .max() .mode()
(metals.min(), metals.max(), metals.mode())

  (metals.min(), metals.max(), metals.mode())


('bronze',
 'gold',
 ['bronze']
 Categories (3, object): ['bronze' < 'silver' < 'gold'])

## __Задача. Обработка школьных оценок__

In [34]:
# создадим DataFrame. 10 учеников со случайными оценками
np.random.seed(123456)
names = ['Ivana', 'Norris', 'Ruth', 'Lane', 'Skye', 'Sol', 'Dylan', 'Katina', 'Alissa', 'Mark']
grades = np.random.randint(50, 101, len(names))
scores = pd.DataFrame({'Name': names, 'Grade': grades})
scores

     Name  Grade
0   Ivana     51
1  Norris     92
2    Ruth    100
3    Lane     99
4    Skye     93
5     Sol     97
6   Dylan     93
7  Katina     77
8  Alissa     82
9    Mark     73

In [35]:
# DataFrame содержит исходные оценки для каждого из студентов. Мы разбиваем числовые оценки на буквенные коды
# задаем группы и соответствующие буквенные оценки
score_bins = [0, 59, 62, 66, 69, 72, 76, 79, 82, 86, 89, 92, 99, 100]
letter_grades = ['F', 'D-', 'D', 'D+', 'C-', 'C', 'C+', 'B-', 'B', 'B+', 'A-', 'A', 'A+']

In [37]:
# разбиваем на основе групп и присваиваем буквенные оценки
letter_cats = pd.cut(scores.Grade, score_bins, labels = letter_grades)
scores['Letter'] = letter_cats
scores

     Name  Grade Letter
0   Ivana     51      F
1  Norris     92     A-
2    Ruth    100     A+
3    Lane     99      A
4    Skye     93      A
5     Sol     97      A
6   Dylan     93      A
7  Katina     77     C+
8  Alissa     82     B-
9    Mark     73      C

In [38]:
# исследуем интересующую категориальную переменную
letter_cats

0     F
1    A-
2    A+
3     A
4     A
5     A
6     A
7    C+
8    B-
9     C
Name: Grade, dtype: category
Categories (13, object): ['F' < 'D-' < 'D' < 'D+' ... 'B+' < 'A-' < 'A' < 'A+']

In [40]:
# чтобы определить количество учеников для каждой буквенной оценки воспользуемся .cat.value_counts()
scores.Letter.value_counts()

A     4
F     1
C     1
C+    1
B-    1
     ..
D     0
D+    0
C-    0
B     0
B+    0
Name: Letter, Length: 13, dtype: int64

In [42]:
# Упорядочим учеников в порядке убывания числовык оценок отсортировав по Letter 
scores.sort_values(by = ['Letter'], ascending = True)

     Name  Grade Letter
0   Ivana     51      F
9    Mark     73      C
7  Katina     77     C+
8  Alissa     82     B-
1  Norris     92     A-
3    Lane     99      A
4    Skye     93      A
5     Sol     97      A
6   Dylan     93      A
2    Ruth    100     A+