# Работа с категориальными данными

Наборы категорий без внутреннего упорядочения называются номинальными. Примеры номинальных категорий
включают:

- синий, красный, зеленый;
- мужчина, женщина;
- банан, клубника, яблоко.

С другой стороны, когда набор категорий имеет некое естественное упорядочение,
мы называем его порядковым. Например:
- низкий, средний, высокий;
- молодые, старые;
- согласен, нейтрален, не согласен.

**Кодирование
номинальных категориальных признаков**

Дан признак с номинальными классами, который не имеет внутренней упорядоченности (например, яблоко, груша, банан).

Преобразовать признак в кодировку с одним активным состоянием1 с помощью
класса LabeiBinarizer библиотеки scikit-leam:

In [12]:
# Импортировать библиотеки
import numpy as np
from sklearn.preprocessing import LabelBinarizer, MultiLabelBinarizer
# Создать признак
feature = np.array([["Texas"],
["California"],
["Texas"],
["Delaware"],
["Moscow"]])
# Создать кодировщик одного активного состояния
one_hot = LabelBinarizer()
# Преобразовать признак
# в кодировку с одним активным состоянием
one_hot.fit_transform (feature)

array([[0, 0, 0, 1],
       [1, 0, 0, 0],
       [0, 0, 0, 1],
       [0, 1, 0, 0],
       [0, 0, 1, 0]])

In [15]:
# Импортировать библиотеку
import pandas as pd
# Создать фиктивные переменные из признака
pd.get_dummies(feature[:,0])

Unnamed: 0,California,Delaware,Moscow,Texas
0,False,False,False,True
1,True,False,False,False
2,False,False,False,True
3,False,True,False,False
4,False,False,True,False


Одной из полезных возможностей библиотеки scikit-leam является обработка
ситуации, когда в каждом наблюдении перечисляется несколько классов:

In [19]:
# Создать мультиклассовый признак
multiclass_feature = [("Texas", "Florida"), 
                      ("California", "Alabama"), 
                      ("Texas", "Florida"), 
                      ("Delware", "Florida"), 
                      ("Texas", "Alabama")]
# Создать мультиклассовый кодировщик, преобразующий признак
# в кодировку с одним активным состоянием
one_hot_multiclass = MultiLabelBinarizer()
# Кодировать мультиклассовый признак
# в кодировку с одним активным состоянием
one_hot_multiclass.fit_transform(multiclass_feature)

array([[0, 0, 0, 1, 1],
       [1, 1, 0, 0, 0],
       [0, 0, 0, 1, 1],
       [0, 0, 1, 1, 0],
       [1, 0, 0, 0, 1]])

Можно подумать, что правильная стратегия состоит в том, чтобы назначать каждому классу числовое значение (например, Texas = 1, California = 2). Однако, когда
классы не имеют внутренней упорядоченности (например, Техас не "меньше"
Калифорнии), числовые значения ошибочно создают порядок, которого нет.

**Кодирование
порядковых категориальных признаков**

Дан порядковый категориальный признак (например, высокий, средний, низкий).
Выполнить его кодировку.

Использовать метод replace фрейма данных pandas для преобразования строковых
меток в числовые эквиваленты:

In [23]:
# Загрузить библиотеку
import pandas as pd
# Создать признаки
dataframe = pd.DataFrame({"оценка": ["низкая", "низкая",
"средняя", "средняя", "высокая"]})
#Создать словарь преобразования шкалы
scale_mapper = {"низкая":1,
"средняя":2,
"высокая":3}
#Заменить значения признаков значениями словаря
dataframe["оценка"].replace(scale_mapper)

0    1
1    1
2    2
3    2
4    3
Name: оценка, dtype: int64

**Кодирование словарей признаков**

In [36]:
# Импортировать библиотеку
from sklearn.feature_extraction import DictVectorizer
# Создать словарь
data_dict = [{"красный": 2, "синий": 4},
{"красный": 4, "синий": 3},
{"красный": 1, "желтый": 2},
{"красный": 2, "желтый": 2}]
# Создать векторизатор словаря
dictvectorizer = DictVectorizer(sparse=False)
# Конвертировать словарь в матрицу признаков
features = dictvectorizer.fit_transform(data_dict)
# Взглянуть на матрицу признаков
features

array([[0., 2., 4.],
       [0., 4., 3.],
       [2., 1., 0.],
       [2., 2., 0.]])

По умолчанию Dictvectorizer выводит разреженную матрицу, в которой хранятся
только элементы со значением, отличным от 0. Это может быть очень полезно,
когда имеются массивные матрицы (часто встречающиеся в обработке естественного языка) и требуется минимизировать потребности в оперативной памяти. Мы
можем заставить Dictvectorizer вывести плотную матрицу, используя sparse=False.

In [37]:
#Имена каждого созданного признака можно получить с помощью метода
#get_feature_names:
# Получить имена признаков
feature_names = dictvectorizer.get_feature_names_out()
# Взглянуть на имена признаков
feature_names

array(['желтый', 'красный', 'синий'], dtype=object)

In [38]:
import pandas as pd
# Создать фрейм данных из признаков
pd.DataFrame(features, columns=feature_names)

Unnamed: 0,желтый,красный,синий
0,0.0,2.0,4.0
1,0.0,4.0,3.0
2,2.0,1.0,0.0
3,2.0,2.0,0.0


Словарь является популярной структурой данных, используемой многими языками
программирования; однако машинно-обучающиеся алгоритмы ожидают, что данные будут в виде матрицы. Конвертировать словарь в матрицу можно, используя
объект dictvectorizer библиотеки scikit-leam.
Такая ситуация является обычной во время обработки естественного языка. Например, дана коллекция документов, и для каждого документа имеется словарь, содержащий количество вхождений каждого слова в документ. 

В нашем игрушечном примере имеется всего три уникальных слова (красный, желтый,
синий), поэтому в нашей матрице всего три признака; однако вы можете себе представить, что если бы каждый документ был на самом деле книгой в университетской библиотеке, то наша матрица признаков была бы очень большой (и тогда потребовалось бы установить параметр разреженности sparse в True).

**Импутация пропущенных значений классов**

Дан категориальный признак, содержащий пропущенные значения, которые требуется заменить предсказанными значениями.

Идеальное решение — натренировать машинно-обучающийся классификационный
алгоритм для предсказания пропущенных значений, обычно классификатор к ближайших соседей (KNN):

In [43]:
# Загрузить библиотеки
import numpy as np
from sklearn.neighbors import KNeighborsClassifier
# Создать матрицу признаков с категориальным признаком
X = np.array([[0, 2.10, 1.45],
            [1, 1.18, 1.33],
            [0, 1.22, 1.27],
            [1, -0.21, -1.19]])
# Создать матрицу признаков
# с отсутствующими значениями в категориальном признаке
X_with_nan = np.array([[np.nan, 0.87, 1.31],
[np.nan, -0.67, -0.22]])
# Натренировать ученика KNN
elf = KNeighborsClassifier(3, weights='distance')
trained_model = elf.fit(X[:,1:], X [:,0])
# Предсказать класс пропущенных значений
imputed_values = trained_model.predict(X_with_nan[:, 1:])
imputed_values

array([0., 1.])

In [44]:
# Соединить столбец предсказанного класса с другими признаками
X_with_imputed = np.hstack((imputed_values.reshape(-1,1), X_with_nan[:,1:]))
# Соединить две матрицы признаков
np.vstack((X_with_imputed, X))

array([[ 0.  ,  0.87,  1.31],
       [ 1.  , -0.67, -0.22],
       [ 0.  ,  2.1 ,  1.45],
       [ 1.  ,  1.18,  1.33],
       [ 0.  ,  1.22,  1.27],
       [ 1.  , -0.21, -1.19]])

Альтернативным решением является заполнение пропущенных значений наиболее
частыми значениями признаков:

In [50]:
from sklearn.impute import SimpleImputer
# Соединить две матрицы признаков
X_complete = np.vstack((X_with_nan, X))
imputer = SimpleImputer(strategy='most_frequent')
imputer.fit_transform(X_complete)

array([[ 0.  ,  0.87,  1.31],
       [ 0.  , -0.67, -0.22],
       [ 0.  ,  2.1 ,  1.45],
       [ 1.  ,  1.18,  1.33],
       [ 0.  ,  1.22,  1.27],
       [ 1.  , -0.21, -1.19]])

# Работа с несбалансированными классами

- Собрать больше данных. 
- Если это невозможно, то изменить метрические показатели, используемые для оценивания модели.
- Если это не работает, рассмотреть возможность использования встроенных в модель параметров веса классов (если таковые имеются), делая понижающий или повышающий отбор. 

Для того чтобы продемонстрировать наши решения, нам нужно создать немного
данных с несбалансированными классами. Набор данных ирисов Фишера содержит
три сбалансированных класса по 50 наблюдений, каждый из которых указывает на
вид цветка — ирис щетинистый (Iris setosa), ирис виргинский {Iris virginica) и ирис
разноцветный (Iris versicolor). Для того чтобы разбалансировать набор данных, мы
удаляем 40 из 50 наблюдений ириса щетинистого, а затем объединяем классы ирис
виргинский и ирис разноцветный. Конечным результатом является бинарный вектор целей, указывающий на то, является ли наблюдение цветком ириса щетинистого или нет. Результатом станут 10 наблюдений ирис щетинистый (класс 0) и
100 наблюдений не ирис щетинистый (класс 1):

In [67]:
# Загрузить библиотеки
import numpy as пр
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
# Загрузить данные цветков ириса Фишера
iris = load_iris()
# Создать матрицу признаков
features = iris.data
# Создать вектор целей
target = iris.target
# Удалить первые 40 наблюдений
features = features[40:,:]
target = target[40:]
# Создать бинарный вектор целей, указывающий, является ли класс 0
target = np.where((target == 0), 0, 1)
# Взглянуть на несбалансированный вектор целей
iris

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

**Превышение/Up-Выборка класса меньшинств**
При расширенной выборке выборки из классов меньшинств дублируются случайным образом, чтобы достичь эквивалентности классу большинства. Существует множество методов, используемых для достижения этой цели.

1. Using scikit-learn:

Это можно сделать, импортировав модуль повторной выборки из scikit-learn.
Syntax: sklearn.utils.resample(*arrays, replace=True, n_samples=None, random_state=None, stratify=None)
Параметры:

- *arrays: Замена фрейма данных/списков/массивов

- replace: : реализует повторную выборку с заменой или без нее. Логический тип значения. Значение по умолчанию - True.

- n_samples: количество генерируемых выборок. Значение по умолчанию - None. Если значение равно None, то автоматически берется первое измерение массива. Это значение не будет больше длины массивов, если для параметра replace задано значение False.

- random_state: используется для перетасовки данных. Если задано положительное ненулевое число, то оно перетасовывается, в противном случае нет. Значение по умолчанию - None.

- stratify: данные разбиваются стратифицированным образом, если установлено значение True. Значение по умолчанию - None.

In [76]:
from sklearn.utils import resample
from sklearn.datasets import make_classification
X, y = make_classification(n_classes=2, 
                           weights=[0.8, 0.2],
                           n_features=4, 
                           n_samples=100, 
                           random_state=42)


Вот основные входные параметры для функции make_classification():

- n_samples: Сколько наблюдений вы хотите сгенерировать?
- n_features Количество числовых признаков.
- n_informative: Количество ‘полезных’ функций. Только эти функции передают сигнал, который ваша модель будет использовать для классификации набора данных.
- n_classes: Количество уникальных классов (значений) для целевой метки.
- Divided in 2 classes in a ratio of 80:20 

In [91]:
df = pd.DataFrame(X, columns = [
    "name_1",
    'name_2',
    'name_3',
    'name_4',
])
df['balance']=y
df_major = df[df['balance'] == 0]
df_minor = df[df['balance'] == 1]
len(df_major) #80
len(df_minor)

20

In [92]:
df_minor_sample = resample(df_minor,
                             
                           # Upsample with replacement
                           replace=True,    
                             
                           # Number to match majority class
                           n_samples=80,   
                           random_state=42)
len(df_minor_sample)

80

In [93]:
df_sample = pd.concat([df_major, df_minor_sample])
df_sample['balance'].value_counts()

balance
0    80
1    80
Name: count, dtype: int64

*Объяснение :*

- Во-первых, мы разделим точки данных из каждого класса на отдельные фреймы данных.
- После этого класс меньшинства подвергается повторной выборке с заменой путем установки количества точек данных, эквивалентного количеству точек большинства.
- В конце концов, мы объединим исходный фрейм данных класса majority и фрейм данных класса minority с увеличенной выборкой.

2. Using RandomOverSampler:

Это можно сделать с помощью метода RandomOverSampler, присутствующего в imblearn. Эта функция случайным образом генерирует новые точки данных, принадлежащие классу меньшинства, с заменой (по умолчанию).

Одна проблема со случайной наивной избыточной выборкой заключается в том, что **она просто дублирует уже существующие данные.** Поэтому, хотя алгоритмы классификации подвергаются большему количеству наблюдений из класса меньшинства, они не узнают больше о том, как отличить наблюдения. Новые данные не содержат больше информации о характеристиках, чем старые данные.

Syntax: RandomOverSampler(sampling_strategy=’auto’, random_state=None, shrinkage=None)

Parameters:
    
- sampling_strategy: Выборка информации для набора данных.Некоторые значения - ‘minority’: только класс меньшинства, ‘not minority’: все классы, кроме класса меньшинства, ‘not majority’: все классы, кроме класса большинства, ‘all’: все классы, ‘auto’: аналогично ‘not majority’, значение по умолчанию ‘auto’
- random_state: Используется для перетасовки данных. Если задано положительное ненулевое число, то оно перетасовывается, в противном случае нет. Значение по умолчанию - None.
- shrinkage:: параметр, управляющий усадкой. Значения следующие: float: Коэффициент усадки, применяемый ко всем классам. диктант: Каждый класс будет иметь определенный коэффициент усадки. Нет: Усадка= 0. Значение по умолчанию - None.

In [103]:
from imblearn.over_sampling import RandomOverSampler
from sklearn.datasets import make_classification
import numpy as np
# Making Dataset having 100
# dummy samples with 4 features 
# Divided in 2 classes in a ratio of 80:20 
X, y = make_classification(n_classes=2, 
                           weights=[0.8, 0.2],
                           n_features=4, 
                           n_samples=100, 
                           random_state=42)
  
# Printing number of samples in
# each class before Over-Sampling
np.unique(y, return_counts=True)



(array([0, 1]), array([80, 20]))

In [104]:
# Over Sampling Minority class
OverS = RandomOverSampler(random_state=42)
  
# Fit predictor (x variable)
# and target (y variable) using fit_resample()
X_Over, Y_Over = OverS.fit_resample(X, y)
  
# Printing number of samples in
# each class after Over-Sampling
np.unique(Y_Over, return_counts=True)


(array([0, 1]), array([80, 80]))

**3. Synthetic Minority Oversampling Technique (SMOTE):**

SMOTE используется для генерации искусственных / синтетических сэмплов для класса меньшинств. Этот метод работает путем случайного выбора выборки из класса меньшинства и определения K-ближайших соседей для этой выборки, затем искусственная выборка добавляется между выбранной выборкой и ее соседями. Эта функция присутствует в модуле imblearn.

Syntax: SMOTE(sampling_strategy=’auto’, random_state=None, k_neighbors=5, n_jobs=None)

Parameters:
- sampling_strategy: Выборка информации для набора
данных 
- random_state: Используется для перетасовки данных. Если задано положительное ненулевое число, то оно перетасовывается, в противном случае нет. Значение по умолчанию - None.
- k_neighbors: Количество ближайших соседей, используемых для генерации искусственных/синтетических выборок. Значение по умолчанию - 5
- n_jobs: количество используемых ядер процессора. Значение по умолчанию - None. None здесь означает 1, а не 0.

In [107]:
# Importing imblearn, scikit-learn library
from imblearn.over_sampling import SMOTE
from sklearn.datasets import make_classification

# Создание набора данных, имеющего
# 100 фиктивных образцов с 4 функциями
# Разделить на 2 сорта в соотношении 80:20
X, y = make_classification(n_classes=2,
						weights=[0.8, 0.2],
						n_features=4,
						n_samples=100,
						random_state=42)

# Печать количества образцов в
# каждый класс перед повторной выборкой
np.unique(y, return_counts=True)





(array([0, 1]), array([80, 20]))

In [108]:
# Создание экземпляра класса SMOTE
# Для избыточной выборки класса меньшинств
smote = SMOTE()

# Fit predictor (x variable)
# and target (y variable) using fit_resample()
X_OverSmote, Y_OverSmote = smote.fit_resample(X, y)

# Printing number of samples
# in each class after Over-Sampling
np.unique(Y_Over, return_counts=True)

(array([0, 1]), array([80, 80]))

Класс меньшинства задается в качестве входного вектора.
Определите его K-ближайших соседей
Выберите одного из этих соседей и поместите искусственную точку выборки в любом месте между соседом и рассматриваемой точкой выборки.
Повторяйте до тех пор, пока набор данных не будет сбалансирован.

*Недостатки чрезмерной выборки:
Повышенные шансы на чрезмерную подгонку по мере создания дубликатов класса меньшинства*

**Класс большинства с низкой выборкой**

Понижающая выборка - это процесс случайного отбора выборок класса большинства и удаления их, чтобы предотвратить их доминирование над классом меньшинства в наборе данных.

1. Использование scikit-learn :
Это похоже на повышающую выборку и может быть выполнено путем импорта модуля повторной выборки из scikit-learn.

In [109]:
# Importing scikit-learn, pandas library
from sklearn.utils import resample
from sklearn.datasets import make_classification
import pandas as pd

# Making DataFrame having
# 100 dummy samples with 4 features
# Divided in 2 classes in a ratio of 80:20
X, y = make_classification(n_classes=2,
						weights=[0.8, 0.2],
						n_features=4,
						n_samples=100,
						random_state=42)

df = pd.DataFrame(X, columns=['feature_1',
							'feature_2',
							'feature_3',
							'feature_4'])
df['balance'] = y
print(df)

# Let df represent the dataset
# Dividing majority and minority classes
df_major = df[df.balance==0]
df_minor = df[df.balance==1]

# Down sampling majority class
df_major_sample = resample(df_major,
			replace=False, # Down sample without replacement
			n_samples=20, # Number to match minority class
			random_state=42)

# Combine down sampled majority class and minority class
df_sample = pd.concat([df_major_sample, df_minor])

# Display count of data points in both class
df_sample.balance.value_counts()


    feature_1  feature_2  feature_3  feature_4  balance
0   -1.053839  -1.027544  -0.329294   0.826007        1
1    1.569317   1.306542  -0.239385  -0.331376        0
2   -0.658926  -0.357633   0.723682  -0.628277        0
3   -0.136856   0.460938   1.896911  -2.281386        0
4   -0.048629   0.502301   1.778730  -2.171053        0
..        ...        ...        ...        ...      ...
95  -2.241820  -1.248690   2.357902  -2.009185        0
96   0.573042   0.362054  -0.462814   0.341294        1
97  -0.375121  -0.149518   0.588465  -0.575002        0
98   1.042518   1.058239   0.461945  -0.984846        0
99  -0.121203  -0.043997   0.204211  -0.203119        0

[100 rows x 5 columns]
balance
0    20
1    20
Name: count, dtype: int64


Объяснение :

Во-первых, мы разделим точки данных из каждого класса на отдельные фреймы данных.
После этого производится повторная выборка класса большинства без замены путем установки количества точек данных, эквивалентного количеству точек меньшинства.
В конце мы объединим исходный фрейм данных класса меньшинства и фрейм данных класса большинства с пониженной выборкой.

2. Использование RandomUnderSampler
Это можно сделать с помощью метода RandomUnderSampler, присутствующего в imblearn. Эта функция случайным образом выбирает подмножество данных для класса.

In [114]:
# Importing imblearn library
from imblearn.under_sampling import RandomUnderSampler
from sklearn.datasets import make_classification

# Making Dataset having
# 100 dummy samples with 4 features
# Divided in 2 classes in a ratio of 80:20
X, y = make_classification(n_classes=2,
						weights=[0.8, 0.2],
						n_features=4,
						n_samples=100,
						random_state=42)

# Printing number of samples
# in each class before Under-Sampling
np.unique(y, return_counts=True)


(array([0, 1]), array([80, 20]))

In [115]:

# Down-Sampling majority class
UnderS = RandomUnderSampler(random_state=42, replacement=True)

# Fit predictor (x variable)
# and target (y variable) using fit_resample()
X_Under, Y_Under = UnderS.fit_resample(X, y)

# Printing number of samples in
# each class after Under-Sampling
np.unique(Y_Under, return_counts=True)


(array([0, 1]), array([20, 20]))