In [4]:
# импортируем библиотеки numpy и pandas
import numpy as np
import pandas as pd

# импоритруем библиотеку datatime для работы с датами
from datetime import datetime, date

# Задаем некоторые опции библиотеки pandas, которые настраивают вывод
# pd.set_option('display.notebook_repr_html', False)
pd.set_option('display.max_columns', 8)  
pd.set_option('display.max_rows', 10)
pd.set_option('display.width', 80)

# импортируем библиотеку matplotlib для построения графиков
import matplotlib.pyplot as plt
    #%matplotlib inline

#sp500 = pd.read_csv("C:/Python/Pandas/Notebooks/Data/sp500.csv", index_col='Symbol', usecols=[0, 2, 3, 7])

# Создание категориальных значений

# 1

In [5]:
# создаем категориальную переменную непосредственно из списка
lmh_values = ['low', 'high', 'medium', 'medium', 'high']
lmh_cat = pd.Categorical(lmh_values)
lmh_cat

['low', 'high', 'medium', 'medium', 'high']
Categories (3, object): ['high', 'low', 'medium']

In [6]:
# смотрим категории
lmh_cat.categories

Index(['high', 'low', 'medium'], dtype='object')

In [7]:
# извлекаем значения
np.asarray(lmh_cat)

array(['low', 'high', 'medium', 'medium', 'high'], dtype=object)

In [8]:
# свойства .codes показывает коды (целочисленные значения) 
# для каждого значения категориальной переменной
lmh_cat.codes

array([1, 0, 2, 2, 0], dtype=int8)

In [9]:
# создаем из списка, но при этом яно указываем категории
lmh_cat = pd.Categorical(lmh_values, categories=['low', 'medium', 'high'])
lmh_cat 

['low', 'high', 'medium', 'medium', 'high']
Categories (3, object): ['low', 'medium', 'high']

In [10]:
# коды выглядят так
lmh_cat.codes

array([0, 2, 1, 1, 2], dtype=int8)

In [11]:
# сортировка выполняется с помощью кодов, лежащих в основе каждого объекта
lmh_cat.sort_values()

['low', 'medium', 'medium', 'high', 'high']
Categories (3, object): ['low', 'medium', 'high']

In [12]:
# создаем категориальную переменную с помощью метода .astype()
s = pd.Series(lmh_values)
as_cat = s.astype('category')
as_cat

0       low
1      high
2    medium
3    medium
4      high
dtype: category
Categories (3, object): ['high', 'low', 'medium']

In [13]:
# категориальная пременная имеет свойство .cat
as_cat.cat

<pandas.core.arrays.categorical.CategoricalAccessor object at 0x00000279612263A0>

In [14]:
# получаем индекс категориальной переменной
as_cat.cat.categories

Index(['high', 'low', 'medium'], dtype='object')

# 2

In [15]:
np.random.seed(123456)
values = np.random.randint(0, 100, 5)
bins = pd.DataFrame({'Values': values})
bins

Unnamed: 0,Values
0,65
1,49
2,56
3,43
4,43


In [16]:
# разбиваем значния на 10 групп
bins['Group'] = pd.cut(values, range(0, 101, 10))
bins

Unnamed: 0,Values,Group
0,65,"(60, 70]"
1,49,"(40, 50]"
2,56,"(50, 60]"
3,43,"(40, 50]"
4,43,"(40, 50]"


In [17]:
# проверяем, является ли созданная переменная категориальной
bins.Group

0    (60, 70]
1    (40, 50]
2    (50, 60]
3    (40, 50]
4    (40, 50]
Name: Group, dtype: category
Categories (10, interval[int64, right]): [(0, 10] < (10, 20] < (20, 30] < (30, 40] ... (60, 70] < (70, 80] < (80, 90] < (90, 100]]

# 3

In [18]:
# создаем упорядоченную категориальную перееменную из назвнаий драгоценных металлов
# порядок важен для определения относительной ценности материала
metal_values = ['bronze', 'gold', 'silver', 'bronze']
metal_categories = ['bronze', 'silver', 'gold']
metals = pd.Categorical(metal_values, categories=metal_categories, ordered=True)
metals

['bronze', 'gold', 'silver', 'bronze']
Categories (3, object): ['bronze' < 'silver' < 'gold']

In [19]:
# меняем значения
metals_reversed_values = pd.Categorical(np.asarray(metals), categories=metals.categories, ordered=True)[::-1]
metals_reversed_values


['bronze', 'silver', 'gold', 'bronze']
Categories (3, object): ['bronze' < 'silver' < 'gold']

In [20]:
# сравниваем значения двух категориалных переменных 
metals <= metals_reversed_values

array([ True, False,  True,  True])

In [21]:
# смотрим распределение кодов переменной metals
# коды - это целочисленные значения двух категориалных переменных
metals.codes

array([0, 2, 1, 0], dtype=int8)

In [22]:
# теперь смотрим распределение кодов переменной metals_reversed_values
metals_reversed_values.codes

array([0, 1, 2, 0], dtype=int8)

In [23]:
# создаем категориальную переменную со значением, которое
# нельзя отнести ни к одной из категорий, поэтому для него будет получено значение NaN
pd.Categorical(['bronze', 'cooper'], categories=metal_categories)

['bronze', NaN]
Categories (3, object): ['bronze', 'silver', 'gold']

# Переименование категорий

In [24]:
# создаем категориальную переменную с 3 категориями
cat = pd.Categorical(list('abca'), categories=list('abc'))
cat

['a', 'b', 'c', 'a']
Categories (3, object): ['a', 'b', 'c']

In [25]:
# переименовываем категории (а также значения) на месте
cat.categories = ['bronze', 'silver', 'gold']
cat

  cat.categories = ['bronze', 'silver', 'gold']


['bronze', 'silver', 'gold', 'bronze']
Categories (3, object): ['bronze', 'silver', 'gold']

In [26]:
# эта строка тоже переименовывает
cat.rename_categories(list('xyz'))

['x', 'y', 'z', 'x']
Categories (3, object): ['x', 'y', 'z']

In [27]:
# убеждаемся, что переименование не было выполнено на месте
cat

['bronze', 'silver', 'gold', 'bronze']
Categories (3, object): ['bronze', 'silver', 'gold']

# Добавление категорий

In [28]:
# добавляем категорию platinum
with_platinum = metals.add_categories(['platinum'])
with_platinum

['bronze', 'gold', 'silver', 'bronze']
Categories (4, object): ['bronze' < 'silver' < 'gold' < 'platinum']

# Удаление категории

In [29]:
# удаляем категорию bronze
no_bronze = metals.remove_categories(['bronze'])
no_bronze

[NaN, 'gold', 'silver', NaN]
Categories (2, object): ['silver' < 'gold']

# Удаление неиспользуемых категорий

In [30]:
# Удаляем неиспользуемые категории (в данном списке platinum)
with_platinum.remove_unused_categories()

['bronze', 'gold', 'silver', 'bronze']
Categories (3, object): ['bronze' < 'silver' < 'gold']

# Установка категорий

In [31]:
# создаем серию
s = pd.Series(['one', 'two', 'four', 'five'], dtype='category')
s

0     one
1     two
2    four
3    five
dtype: category
Categories (4, object): ['five', 'four', 'one', 'two']

In [32]:
# удаляем категории 'two', 'three' и 'five'(они заменяются на занчения NaN)
s = s.cat.set_categories(['one', 'four'])
s

0     one
1     NaN
2    four
3     NaN
dtype: category
Categories (2, object): ['one', 'four']

# Вычисление описательных статистик для категориальной переменной

In [34]:
 # получаем описательную информацию о категориальной переменной metals
metals.describe()

Unnamed: 0_level_0,counts,freqs
categories,Unnamed: 1_level_1,Unnamed: 2_level_1
bronze,2,0.5
silver,1,0.25
gold,1,0.25


In [36]:
# подсчитываем количество значений в каждой категории
metals.value_counts()

bronze    2
silver    1
gold      1
dtype: int64

In [37]:
# вычислим минимум, максимум и моду для категориальной переменной metals
(metals.min(), metals.max(), metals.mode())

  (metals.min(), metals.max(), metals.mode())


('bronze',
 'gold',
 ['bronze']
 Categories (3, object): ['bronze' < 'silver' < 'gold'])

# Обработка школьных оценок

In [49]:
# 10 учеников со случайными оценками
np.random.seed(123456)
names = ['Ivana', 'Norris', 'Ruth', 'Lane', 'Skye', 'Sol', 'Dylan', 'Katina', 'Alissa', 'Marc']
grades = np.random.randint(50, 101, len(names))
scores = pd.DataFrame({'Name': names, 'Grade': grades})
scores

Unnamed: 0,Name,Grade
0,Ivana,51
1,Norris,92
2,Ruth,100
3,Lane,99
4,Skye,93
5,Sol,97
6,Dylan,93
7,Katina,77
8,Alissa,82
9,Marc,73


In [50]:
# задаем группы и соответствующие буквенные оценки
score_bins = [0, 59, 62, 66, 69, 72, 76, 79, 82, 86, 89, 92, 99, 100]
letter_grades = ['F', 'D-', 'D', 'D+', 'C-', 'C', 'C+', 'B-', 'B', 'B+', 'A-', 'A', 'A+']

In [53]:
# разбиваем на основе групп и присваиваем буквенные оценки
letter_cat = pd.cut(scores.Grade, score_bins, labels=letter_grades)
scores['Letter'] = letter_cat
scores

Unnamed: 0,Name,Grade,Letter
0,Ivana,51,F
1,Norris,92,A-
2,Ruth,100,A+
3,Lane,99,A
4,Skye,93,A
5,Sol,97,A
6,Dylan,93,A
7,Katina,77,C+
8,Alissa,82,B-
9,Marc,73,C


In [55]:
# исследуем интересующую нас категориальную переменную
letter_cat

0     F
1    A-
2    A+
3     A
4     A
5     A
6     A
7    C+
8    B-
9     C
Name: Grade, dtype: category
Categories (13, object): ['F' < 'D-' < 'D' < 'D+' ... 'B+' < 'A-' < 'A' < 'A+']

In [57]:
# сколько наблюдений имеет каждая оценка?
scores.Letter.value_counts()

A     4
F     1
C     1
C+    1
B-    1
     ..
D     0
D+    0
C-    0
B     0
B+    0
Name: Letter, Length: 13, dtype: int64

In [60]:
# соритируем по буквенным оценкам, а не числовым
scores.sort_values(by=['Letter'], ascending=False)

Unnamed: 0,Name,Grade,Letter
2,Ruth,100,A+
3,Lane,99,A
4,Skye,93,A
5,Sol,97,A
6,Dylan,93,A
1,Norris,92,A-
8,Alissa,82,B-
7,Katina,77,C+
9,Marc,73,C
0,Ivana,51,F
