In [1]:
import pandas as pd
from IPython.display import Image

# Типы данных в pandas. Часть 3

# Тип данных 'category'

# Дискретизация и раскладывание с помощью методов CUT и QCUT

### Методы cut и qcut используются для:

    - сегментации и сортировки значений данных по интервалам,
    - преобразования непрерывных данных в набор дискретных сегментов.

### Дискретизация (биннинг) - преобразование непрерывных данных в набор дискретных сегментов. 

    в документации на английском языке часто используются слова bins / binning или buckets/ bucketing:
    - bin / bucket - корзина, резервуар, ведро, мешок
    - binning/ bucketing - разделение / раскладывание по корзинам
    

In [2]:
# Снова откроем файл 'people' с информацией о 10 людях
df=pd.read_csv('files/people')
# в переменную df1 заберем только часть датафрейма
df1 = df.loc[:,['Имя','Возраст','Тест']]
# тип данных колонок Возраст и Тест - int64
print(df1.dtypes)
df1

Имя        object
Возраст     int64
Тест        int64
dtype: object


Unnamed: 0,Имя,Возраст,Тест
0,Гедеон Леви,14,48
1,Патрик Бреннан,18,72
2,Захар Овчинников,70,65
3,Нкиру Нзегву,45,75
4,Амели Лажуа,26,88
5,Хавьер Мартинес,8,23
6,Том Дэвис,40,80
7,Бакир Кхалед,58,90
8,Джи Чанг,21,85
9,Ахана Джа,89,60


# 1. Метод .cut() - НАРЕЗКА ДАННЫХ НА ИНТЕРВАЛЫ (bins)

### pd.cut(x, bins, right=True, labels=None...)
### x - набор данных
### bins - точки-границы интервалов (может быть одним числом, тогда обозначенное количество интервалов будет иметь одинаковую длину)
### right=True - по умолчанию правый конец диапазона включен 
### labels - названия интервалов в списке (можно вообще не указывать, по умолчанию labels=None), если передать labels=False, то на выходе получим серию с порядковыми номерами интервалов (начиная с нуля), к которым принадлежат элементы нашего набора данных.
### retbins - если равен True, то дополнительно к общему выводу возвращает массив с точками-границами интервалов, по умолчанию равен False
### precision - определяет точность , т.е. устанавливает количество знаков после точки, по умолчанию - 3

# Вариант 1 (когда bins = число)

In [3]:
print('Минимальный возраст:', df1['Возраст'].min())
print('Максимальный возраст:', df1['Возраст'].max())

Минимальный возраст: 8
Максимальный возраст: 89


In [4]:
# Параметр bins может быть выражен одним числом (например, 9)
# В этом случае весь имеющийся диапазон значений будет разделен на это число (макс.89- мин.8 = 81, 81/9 = 9)
# Полученное число становится длиной каждого интервала (длина интервала 9)
# Тип данных вернувшейся серии - category
# Каждый элемент серии представлен в виде объекта Interval
result_one = pd.cut(df1['Возраст'], 9)
result_one

0    (7.919, 17.0]
1     (17.0, 26.0]
2     (62.0, 71.0]
3     (44.0, 53.0]
4     (17.0, 26.0]
5    (7.919, 17.0]
6     (35.0, 44.0]
7     (53.0, 62.0]
8     (17.0, 26.0]
9     (80.0, 89.0]
Name: Возраст, dtype: category
Categories (9, interval[float64, right]): [(7.919, 17.0] < (17.0, 26.0] < (26.0, 35.0] < (35.0, 44.0] ... (53.0, 62.0] < (62.0, 71.0] < (71.0, 80.0] < (80.0, 89.0]]

# если bins = число и retbins=True

In [5]:
# если retbins=True, то возвращается кортеж из 2 элементов - 1 - серия с типом данных 'category' и массив с границами интервалов
pd.cut(df1['Возраст'], 15, retbins=True)

(0     (13.4, 18.8]
 1     (13.4, 18.8]
 2     (67.4, 72.8]
 3     (40.4, 45.8]
 4     (24.2, 29.6]
 5    (7.919, 13.4]
 6     (35.0, 40.4]
 7     (56.6, 62.0]
 8     (18.8, 24.2]
 9     (83.6, 89.0]
 Name: Возраст, dtype: category
 Categories (15, interval[float64, right]): [(7.919, 13.4] < (13.4, 18.8] < (18.8, 24.2] < (24.2, 29.6] ... (67.4, 72.8] < (72.8, 78.2] < (78.2, 83.6] < (83.6, 89.0]],
 array([ 7.919, 13.4  , 18.8  , 24.2  , 29.6  , 35.   , 40.4  , 45.8  ,
        51.2  , 56.6  , 62.   , 67.4  , 72.8  , 78.2  , 83.6  , 89.   ]))

In [6]:
# мы можем сохранить элементы этого кортежа в две переменные: ten_guys и bins_edges
age_interval, bins_edges = pd.cut(df1['Возраст'], 15, retbins=True)
print('Первый элемент кортежа:', age_interval)
print()
print('Второй элемент кортежа:', bins_edges)

Первый элемент кортежа: 0     (13.4, 18.8]
1     (13.4, 18.8]
2     (67.4, 72.8]
3     (40.4, 45.8]
4     (24.2, 29.6]
5    (7.919, 13.4]
6     (35.0, 40.4]
7     (56.6, 62.0]
8     (18.8, 24.2]
9     (83.6, 89.0]
Name: Возраст, dtype: category
Categories (15, interval[float64, right]): [(7.919, 13.4] < (13.4, 18.8] < (18.8, 24.2] < (24.2, 29.6] ... (67.4, 72.8] < (72.8, 78.2] < (78.2, 83.6] < (83.6, 89.0]]

Второй элемент кортежа: [ 7.919 13.4   18.8   24.2   29.6   35.    40.4   45.8   51.2   56.6
 62.    67.4   72.8   78.2   83.6   89.   ]


In [7]:
# мы можем обратиться к переменной со списком интервалов - bins_edges
bins_edges

array([ 7.919, 13.4  , 18.8  , 24.2  , 29.6  , 35.   , 40.4  , 45.8  ,
       51.2  , 56.6  , 62.   , 67.4  , 72.8  , 78.2  , 83.6  , 89.   ])

In [8]:
# мы можем обратиться только к элементу с индексом 1, чтобы в выводе был только массив с границами интервалов
pd.cut(df1['Возраст'], 15, retbins=True)[1]

array([ 7.919, 13.4  , 18.8  , 24.2  , 29.6  , 35.   , 40.4  , 45.8  ,
       51.2  , 56.6  , 62.   , 67.4  , 72.8  , 78.2  , 83.6  , 89.   ])

# если bins = число и labels = [список названий]

In [9]:
# передадим названия интервалов списком
result_two = pd.cut(df1['Возраст'], 9, labels=[ '1-й из 9', '2-й из 9', '3-й из 9',
                                              '4-й из 9', '5-й из 9', '6-й из 9',
                                              '7-й из 9', '8-й из 9', '9-й из 9'])
result_two

0    1-й из 9
1    2-й из 9
2    7-й из 9
3    5-й из 9
4    2-й из 9
5    1-й из 9
6    4-й из 9
7    6-й из 9
8    2-й из 9
9    9-й из 9
Name: Возраст, dtype: category
Categories (9, object): ['1-й из 9' < '2-й из 9' < '3-й из 9' < '4-й из 9' ... '6-й из 9' < '7-й из 9' < '8-й из 9' < '9-й из 9']

In [10]:
# Метод value_counts() подсчитывает количество уникальных элементов серии, к которой его применяют
# Метод value_counts() по умолчанию сортирует результат по частоте
result_two.value_counts()

Возраст
2-й из 9    3
1-й из 9    2
4-й из 9    1
5-й из 9    1
6-й из 9    1
7-й из 9    1
9-й из 9    1
3-й из 9    0
8-й из 9    0
Name: count, dtype: int64

In [11]:
# Чтобы сортировка была по индексу, необходимо параметр sort поставить равным False
result_two.value_counts(sort=False)

Возраст
1-й из 9    2
2-й из 9    3
3-й из 9    0
4-й из 9    1
5-й из 9    1
6-й из 9    1
7-й из 9    1
8-й из 9    0
9-й из 9    1
Name: count, dtype: int64

# если bins = число и labels = False

In [12]:
# если labels=False, возвращается серия с целыми числами - порядковыми числами интервалов (тип данных int64)
result_three = pd.cut(df1['Возраст'], 9, labels=False)
result_three

0    0
1    1
2    6
3    4
4    1
5    0
6    3
7    5
8    1
9    8
Name: Возраст, dtype: int64

# Вариант 2 (когда bins = [список])

- 1 категория - от 0 до 12 лет
- 2 категория - от 12 до 18 лет
- 3 категория - от 18 до 35 лет
- 4 категория - от 35 до 50 лет
- 5 категория - от 50 до 65 лет
- 6 категория - от 65 до 80 лет 
- 7 категория - от 80 до 100 лет

In [13]:
# создадим список с точками-границами возрастных диапазонов
# этот список мы передадим параметром bins
age_points=[0, 12, 18, 35, 50, 65, 80, 100]

In [14]:
# Первым параметром мы передаем данные столбца ВОЗРАСТ, а вторым параметром - список age_points
# на выходе получаем серию c типом данных category (порядковые категории)
result1 = pd.cut(df1['Возраст'], age_points)
result1

0     (12, 18]
1     (12, 18]
2     (65, 80]
3     (35, 50]
4     (18, 35]
5      (0, 12]
6     (35, 50]
7     (50, 65]
8     (18, 35]
9    (80, 100]
Name: Возраст, dtype: category
Categories (7, interval[int64, right]): [(0, 12] < (12, 18] < (18, 35] < (35, 50] < (50, 65] < (65, 80] < (80, 100]]

# если bins = [список] и right = False

In [15]:
# Круглая скобка означает, что соответствующий конец не включается (открыт), а квадратная – что включается (замкнут)
# Чтобы сделать открытым правый конец, мы зададим параметр right равным False
result2 = pd.cut(df1['Возраст'], age_points, right=False)
result2

0     [12, 18)
1     [18, 35)
2     [65, 80)
3     [35, 50)
4     [18, 35)
5      [0, 12)
6     [35, 50)
7     [50, 65)
8     [18, 35)
9    [80, 100)
Name: Возраст, dtype: category
Categories (7, interval[int64, left]): [[0, 12) < [12, 18) < [18, 35) < [35, 50) < [50, 65) < [65, 80) < [80, 100)]

# если bins = [список], right = False, labels = [список с названиями]

In [16]:
result3 = pd.cut(df1['Возраст'], 
                 age_points, 
                 right=False, 
                 labels=['дети','подростки','молодежь','средний возраст','зрелый возраст','пожилой возраст','старость'])
result3

0          подростки
1           молодежь
2    пожилой возраст
3    средний возраст
4           молодежь
5               дети
6    средний возраст
7     зрелый возраст
8           молодежь
9           старость
Name: Возраст, dtype: category
Categories (7, object): ['дети' < 'подростки' < 'молодежь' < 'средний возраст' < 'зрелый возраст' < 'пожилой возраст' < 'старость']

In [17]:
# создадим три новые колонки с тремя результатами разбиения возрастов на группы
df1['Возрастная категория 1']=result1
df1['Возрастная категория 2']=result2
df1['Возрастная группа']=result3
df1

Unnamed: 0,Имя,Возраст,Тест,Возрастная категория 1,Возрастная категория 2,Возрастная группа
0,Гедеон Леви,14,48,"(12, 18]","[12, 18)",подростки
1,Патрик Бреннан,18,72,"(12, 18]","[18, 35)",молодежь
2,Захар Овчинников,70,65,"(65, 80]","[65, 80)",пожилой возраст
3,Нкиру Нзегву,45,75,"(35, 50]","[35, 50)",средний возраст
4,Амели Лажуа,26,88,"(18, 35]","[18, 35)",молодежь
5,Хавьер Мартинес,8,23,"(0, 12]","[0, 12)",дети
6,Том Дэвис,40,80,"(35, 50]","[35, 50)",средний возраст
7,Бакир Кхалед,58,90,"(50, 65]","[50, 65)",зрелый возраст
8,Джи Чанг,21,85,"(18, 35]","[18, 35)",молодежь
9,Ахана Джа,89,60,"(80, 100]","[80, 100)",старость


In [18]:
# посмотрим на типы данных получившихся колонок
df1.dtypes

Имя                         object
Возраст                      int64
Тест                         int64
Возрастная категория 1    category
Возрастная категория 2    category
Возрастная группа         category
dtype: object

In [19]:
# в переменную df2 заберем только часть датафрейма df1
df2 = df1.loc[:,['Имя','Тест']]
# Добавим еще одну строчку в датафрейм df2 с результатами Миюки Такахаси 
# Предположим, что она не явилась на тестирование и за тест система поставила ей 0 баллов
df2.loc[10]=['Миюки Такахаси', 0]
df2

Unnamed: 0,Имя,Тест
0,Гедеон Леви,48
1,Патрик Бреннан,72
2,Захар Овчинников,65
3,Нкиру Нзегву,75
4,Амели Лажуа,88
5,Хавьер Мартинес,23
6,Том Дэвис,80
7,Бакир Кхалед,90
8,Джи Чанг,85
9,Ахана Джа,60


In [20]:
test_points=[0,25,50,70,85,100]
test_result = pd.cut(df2['Тест'], test_points)
df2['Результат в интервале']=test_result
df2

Unnamed: 0,Имя,Тест,Результат в интервале
0,Гедеон Леви,48,"(25.0, 50.0]"
1,Патрик Бреннан,72,"(70.0, 85.0]"
2,Захар Овчинников,65,"(50.0, 70.0]"
3,Нкиру Нзегву,75,"(70.0, 85.0]"
4,Амели Лажуа,88,"(85.0, 100.0]"
5,Хавьер Мартинес,23,"(0.0, 25.0]"
6,Том Дэвис,80,"(70.0, 85.0]"
7,Бакир Кхалед,90,"(85.0, 100.0]"
8,Джи Чанг,85,"(70.0, 85.0]"
9,Ахана Джа,60,"(50.0, 70.0]"


In [21]:
# по умолчанию include_lowest=False
# если у нас есть результат = 0, то в интервал (0, 25] он не попадет
# Чтобы самый низший из возможных результатов попал, нам нужно параметр include_lowest выставить равным True

test_points=[0,25,50,70,85,100]
test_result = pd.cut(df2['Тест'], test_points, include_lowest=True)
df2['Результат в интервале']=test_result
df2

Unnamed: 0,Имя,Тест,Результат в интервале
0,Гедеон Леви,48,"(25.0, 50.0]"
1,Патрик Бреннан,72,"(70.0, 85.0]"
2,Захар Овчинников,65,"(50.0, 70.0]"
3,Нкиру Нзегву,75,"(70.0, 85.0]"
4,Амели Лажуа,88,"(85.0, 100.0]"
5,Хавьер Мартинес,23,"(-0.001, 25.0]"
6,Том Дэвис,80,"(70.0, 85.0]"
7,Бакир Кхалед,90,"(85.0, 100.0]"
8,Джи Чанг,85,"(70.0, 85.0]"
9,Ахана Джа,60,"(50.0, 70.0]"


In [22]:
test_result_2 = pd.cut(df2['Тест'], test_points, 
                       include_lowest=True, 
                       labels=['очень низкий', 'низкий', 'средний','высокий','очень высокий'])
df2['Категория результата']=test_result_2
df2

Unnamed: 0,Имя,Тест,Результат в интервале,Категория результата
0,Гедеон Леви,48,"(25.0, 50.0]",низкий
1,Патрик Бреннан,72,"(70.0, 85.0]",высокий
2,Захар Овчинников,65,"(50.0, 70.0]",средний
3,Нкиру Нзегву,75,"(70.0, 85.0]",высокий
4,Амели Лажуа,88,"(85.0, 100.0]",очень высокий
5,Хавьер Мартинес,23,"(-0.001, 25.0]",очень низкий
6,Том Дэвис,80,"(70.0, 85.0]",высокий
7,Бакир Кхалед,90,"(85.0, 100.0]",очень высокий
8,Джи Чанг,85,"(70.0, 85.0]",высокий
9,Ахана Джа,60,"(50.0, 70.0]",средний


In [23]:
# используем метод value_counts(), чтобы составить общее впечатление о результатах тестирования данной группы людей
df2['Категория результата'].value_counts()

Категория результата
высокий          4
очень низкий     2
средний          2
очень высокий    2
низкий           1
Name: count, dtype: int64

In [24]:
# Используем параметр normalize = True, который покажет процентное распределение результатов группы
df2['Категория результата'].value_counts(normalize=True)

Категория результата
высокий          0.363636
очень низкий     0.181818
средний          0.181818
очень высокий    0.181818
низкий           0.090909
Name: proportion, dtype: float64

In [25]:
# Результат можно отобразить в красивом виде и записать в файл 'результаты тестирования' 
# используем параметр normalize=True, умножаем на 100, округляем до двух десятых, переводим тип данных в str и добавляем '%'
res=df2['Категория результата'].value_counts(normalize=True).mul(100).round(1).astype(str)+ ' %'
res.to_csv('files/результаты тестирования')
res

Категория результата
высокий          36.4 %
очень низкий     18.2 %
средний          18.2 %
очень высокий    18.2 %
низкий            9.1 %
Name: proportion, dtype: object