# Что такое категориальные переменные?

У нас есть следующий набор данных.

In [None]:
# библиотека колаба для работы с файлами и локальным компьютером
from google.colab import files
uploaded = files.upload()

Saving StudentsPerformance (2).csv to StudentsPerformance (2).csv


In [None]:
import pandas as pd

df = pd.read_csv("StudentsPerformance (2).csv")
df.head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75


In [None]:
df.shape

df.info()
# object - str

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 8 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   gender                       1000 non-null   object
 1   race/ethnicity               1000 non-null   object
 2   parental level of education  1000 non-null   object
 3   lunch                        1000 non-null   object
 4   test preparation course      1000 non-null   object
 5   math score                   1000 non-null   int64 
 6   reading score                1000 non-null   int64 
 7   writing score                1000 non-null   int64 
dtypes: int64(3), object(5)
memory usage: 62.6+ KB


У нас есть много разных переменных в данных, а именно **gender, race/ethnicity, parental level of education, lunch, test preparation course, math score, reading score, writing score**.

Мы можем посмотреть типы данных в нашем датасете.

In [None]:
df.dtypes

gender                         object
race/ethnicity                 object
parental level of education    object
lunch                          object
test preparation course        object
math score                      int64
reading score                   int64
writing score                   int64
dtype: object

Исходя из начального анализа, мы видим, что **math score, reading score, writing score** - является числовыми признаками (int).

А что же с остальными переменными? Все остальные переменные называются **категориальными**.

**Категориальные признаки называют по-разному: факторными, номинальными.**

Их значения определяют факт принадлежности к какой-то категории. Примеры таких признаков: пол, страна проживания, номер группы, категория товаров и т.п. Ясно, что для компьютерной обработки вместо «понятного для человека» значения (в случае страны — ‘Russia’, ‘GB’, ‘France’ и т.п.) хранят числа. 

# Обработка категориальных признаков

Попробуем самый простой способ кодирования признаков:
1. Вручную создадим словарь уникальных слов
2. Каждому слову сопоставим число
3. Заменим в столбце слова на число

In [None]:
# Возвращает все уникальные значения в столбце
df['gender'].unique()

array(['female', 'male'], dtype=object)

In [None]:
# знаем что все два уникальных значения
# создадим свой словарь исходя из этого
d = {'female': 0, 'male': 1}

# Заменим категориальные значения в столбце на числа
df['gender'] = df['gender'].map(d)

df.head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,0,group B,bachelor's degree,standard,none,72,72,74
1,0,group C,some college,standard,completed,69,90,88
2,0,group B,master's degree,standard,none,90,95,93
3,1,group A,associate's degree,free/reduced,none,47,57,44
4,1,group C,some college,standard,none,76,78,75


**Категориальные** признаки называют по-разному: **факторными**, **номинальными**. Их значения определяют факт принадлежности к какой-то категории. 

Примеры таких признаков: пол, страна проживания, номер группы, категория товаров и т.п. Ясно, что для компьютерной обработки вместо «понятного для человека» значения (в случае страны — ‘Russia’, ‘GB’, ‘France’ и т.п.) хранят числа. 

Существуют разные способы кодирования категориальных признаков:
1. Простейший кодировщий `sklearn.preprocessing.LabelEncoder`, который каждой категории сопоставляет некоторое целое число (собственно, номер категории).

Например, существует категориальная переменная:

```markdown
   |  Статус вакцинации |
---|--------------------|
1  |    Вакцинирован    |
2  |  Не вакцинирован   |
3  |     Мед отвод      |
4  |     Мед отвод      |
5  |  Не вакцинирован   |
6  |    Вакцинирован    |

```

После применения кодирования с помощью LabelEncoder получаем следущее (собственно он закодировал наши категориальные переменные: Вакцинирован = 0, Не вакцинирован = 1, Мед отвод = 2):

```markdown
   |  Статус вакцинации |
---|--------------------|
1  |         0          |
2  |         1          |
3  |         2          |
4  |         2          |
5  |         1          |
6  |         0          |

```

2. Метод библиотеки Pandas:

`pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)[source]`

Например, существует категориальная переменная:

```markdown
   |  Статус вакцинации |
---|--------------------|
1  |    Вакцинирован    |
2  |  Не вакцинирован   |
3  |     Мед отвод      |
4  |     Мед отвод      |
5  |  Не вакцинирован   |
6  |    Вакцинирован    |

```

Метод принимает категориальную переменную в качестве аргумента. Далее создает новую переменную для каждой категории, так что каждая фиктивная переменная содержит данные 1 или 0. 1 - указывает на наличие определенной категории и 0 - указывает на отсутствие этой категории.

```markdown
   | Статус вакцинации | Вакцинирован | Не вакцинирован | Мед отвод |
---|-------------------|--------------|-----------------|-----------|
1  |   Вакцинирован    |      1       |        0        |     0     |
2  | Не вакцинирован   |      0       |        1        |     0     |
3  |    Мед отвод      |      0       |        0        |     1     |
4  |    Мед отвод      |      0       |        0        |     1     |
5  | Не вакцинирован   |      0       |        1        |     0     |
6  |   Вакцинирован    |      1       |        0        |     0     |

```

3. Кодировщик библиотеки Sklearn `from sklearn.preprocessing import OneHotEncoder`.

По принципу работы действует точно также как get_dummies().

Основное отличие - это кодировщик, т.е. это некоторая модель которая обучилась на данных, запомнила словарь и т.д., дальше может быть с этими параметры применяться к другому набору данных, к новым данным например.

Get_dummies() - это просто метод класса, который по сути вы одноразово используете.

In [None]:
df.head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75


In [None]:
df['lunch'].value_counts()

standard        645
free/reduced    355
Name: lunch, dtype: int64

In [None]:
df['race/ethnicity'].value_counts()

group C    319
group D    262
group B    190
group E    140
group A     89
Name: race/ethnicity, dtype: int64

In [None]:
# преобразуем целевую переменную из категориальной
# в прошлый раз мы делали это с помощью ручной замены
# но в случае если у нас будет 100 категорий? делать словарь для 100 категорий - не рациональная задача

from sklearn import preprocessing

# 1. Создадим модель кодировщика
label_encoder = preprocessing.LabelEncoder() 

# 2. Обучение кодировщика: по сути тут создает словарь уникальных слов из переданного массива, 
# соотносит для каждого слова число (все что делали выше мы, только тут автоматизированно)
label_encoder.fit(df['lunch']) 

# на этом этапе по сути применяет полученный словарь в переданным данных (в данном случае мы передали столбец lunch)
df['lunch'] = label_encoder.transform(df['lunch']) 

df.head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,0,group B,bachelor's degree,1,none,72,72,74
1,0,group C,some college,1,completed,69,90,88
2,0,group B,master's degree,1,none,90,95,93
3,1,group A,associate's degree,0,none,47,57,44
4,1,group C,some college,1,none,76,78,75


In [None]:
# наши изначальные категории храняться в кодировщике
label_encoder.classes_

array(['free/reduced', 'standard'], dtype=object)

In [None]:
# Попробуем другой вариант кодировщика
df = pd.get_dummies(df, columns=['race/ethnicity'])

df.head()

Unnamed: 0,gender,parental level of education,lunch,test preparation course,math score,reading score,writing score,race/ethnicity_group A,race/ethnicity_group B,race/ethnicity_group C,race/ethnicity_group D,race/ethnicity_group E
0,0,bachelor's degree,1,none,72,72,74,0,1,0,0,0
1,0,some college,1,completed,69,90,88,0,0,1,0,0
2,0,master's degree,1,none,90,95,93,0,1,0,0,0
3,1,associate's degree,0,none,47,57,44,1,0,0,0,0
4,1,some college,1,none,76,78,75,0,0,1,0,0
