In [2]:
import numpy as np
import pandas as pd

# Категориальные переменные
Категориальная переменная - это тип переменной, которая представляет собой ограниченный и фиксированный набор значений. Этим категориальные переменные отличаются от непрерывных, которые могут принимать бесконечное число значений. В нашем датасете по кредиту очень много категориальных переменных, например, стобцы _marital_, _job_, _education_, _month_, _age_. 

In [3]:
data = pd.read_csv('/Users/maxim/Desktop/mlcourse.ai-master/data/bank.csv')
data.head()

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
0,30,unemployed,married,primary,no,1787,no,no,cellular,19,oct,79,1,-1,0,unknown,0
1,33,services,married,secondary,no,4789,yes,yes,cellular,11,may,220,1,339,4,failure,0
2,35,management,single,tertiary,no,1350,yes,no,cellular,16,apr,185,1,330,1,failure,0
3,30,management,married,tertiary,no,1476,yes,yes,unknown,3,jun,199,4,-1,0,unknown,0
4,59,blue-collar,married,secondary,no,0,yes,no,unknown,5,may,226,1,-1,0,unknown,0


# 1. Создание категориальных переменных

In [2]:
cat_values = ['low', 'high', 'high', 'medium', 'low']
cat_val = pd.Categorical(cat_values)
cat_val

[low, high, high, medium, low]
Categories (3, object): [high, low, medium]

In [3]:
# смотрим категории
cat_val.categories

Index(['high', 'low', 'medium'], dtype='object')

In [5]:
# смотрим значения
cat_val.get_values()

array(['low', 'high', 'high', 'medium', 'low'], dtype=object)

Каждой категории присваивается свое целочисленное значение. Их тоже можно получить 

In [6]:
cat_val.codes

array([1, 0, 0, 2, 1], dtype=int8)

Здесь числа задаются рандомно, но можно задать их самому, то есть указать порядок, который ты сам хочешь. Для этого при создании объекта категориальных данных, нужно явно задать категории

In [7]:
cat_val = pd.Categorical(cat_values, categories = ['low','medium','high'])
cat_val.codes

array([0, 2, 2, 1, 0], dtype=int8)

Теперь можно отсортировать. Сортировка осуществляется по **кодам**

In [8]:
cat_val.sort_values()

[low, low, medium, high, high]
Categories (3, object): [low, medium, high]

Также можно создавать категориальные переменные в объекте _Series_

In [10]:
cat_series = pd.Series(cat_values, dtype='category')
cat_series

0       low
1      high
2      high
3    medium
4       low
dtype: category
Categories (3, object): [high, low, medium]

In [11]:
s = pd.Series(cat_values)
s.astype('category')

0       low
1      high
2      high
3    medium
4       low
dtype: category
Categories (3, object): [high, low, medium]

Чтобы получить категориальную переменную, можно воспользоваться функцией `.cat`

In [12]:
cat_series.cat

<pandas.core.arrays.categorical.CategoricalAccessor object at 0x11770da20>

In [13]:
cat_series.cat.categories

Index(['high', 'low', 'medium'], dtype='object')

В категориальных переменных можно задавать порядок. В таком случае можно сравнивать значения между друг другом

In [16]:
metal_values = ['bronze', 'gold', 'silver', 'gold']
metal_categories = ['bronze', 'silver', 'gold']
metals = pd.Categorical(metal_values, categories = metal_categories, ordered = True)
metals

[bronze, gold, silver, gold]
Categories (3, object): [bronze < silver < gold]

Также стоит отметить, что если в массиве есть элемент, не относящийся ни к одной категории, ему автоматически будет присвоин тип `NaN`

In [17]:
metal_values = ['bronze', 'gold', 'silver', 'gold', 'ferrum']
metal_categories = ['bronze', 'silver', 'gold']
metals = pd.Categorical(metal_values, categories = metal_categories, ordered = True)
metals

[bronze, gold, silver, gold, NaN]
Categories (3, object): [bronze < silver < gold]

# 2. Переименование 

In [18]:
cat = pd.Categorical(['a','b','c','a'], categories = ['a','b','c'])

In [19]:
cat.categories = ['bronze','silver','gold']
cat

[bronze, silver, gold, bronze]
Categories (3, object): [bronze, silver, gold]

# 3. Добавление

In [22]:
with_platinum = metals.add_categories(['platinum'])
with_platinum

[bronze, gold, silver, gold, NaN]
Categories (4, object): [bronze < silver < gold < platinum]

# 4. Удаление категорий

In [23]:
no_bronze = metals.remove_categories(['bronze'])
no_bronze

[NaN, gold, silver, gold, NaN]
Categories (2, object): [silver < gold]

### Удаление ненужных категорий

In [24]:
with_platinum.remove_unused_categories()

[bronze, gold, silver, gold, NaN]
Categories (3, object): [bronze < silver < gold]

# 5. Выставляем оценки студентам

In [26]:
names = ['Tom', 'Norris', 'Jake', 'Polina', 'Nastya', 'Ujin']
scores = np.random.randint(50,101,len(names))
scor = pd.DataFrame({'Name': names, 'Score': scores})
scor

Unnamed: 0,Name,Score
0,Tom,83
1,Norris,87
2,Jake,89
3,Polina,62
4,Nastya,92
5,Ujin,100


In [32]:
cats = [40, 50, 80, 90,100]
letter = ['2','3','4','5']
letter_cats = pd.cut(scor.Score, cats, labels=letter)
scor['Mark'] = letter_cats
scor

Unnamed: 0,Name,Score,Mark
0,Tom,83,4
1,Norris,87,4
2,Jake,89,4
3,Polina,62,3
4,Nastya,92,5
5,Ujin,100,5


In [33]:
# сколько учеников получили каждую оценку
scor.Mark.value_counts()

4    3
5    2
3    1
2    0
Name: Mark, dtype: int64

In [34]:
# сортируем учеников по рейтингу
scor.sort_values(by=['Mark'], ascending=False)

Unnamed: 0,Name,Score,Mark
5,Ujin,100,5
4,Nastya,92,5
2,Jake,89,4
1,Norris,87,4
0,Tom,83,4
3,Polina,62,3
