# Методы работы с кат признаками и выбор метрик

In [10]:
import pandas as pd
import sklearn 
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import OneHotEncoder, LabelEncoder

In [11]:
data = pd.read_csv('data/orange_small_churn_data.txt')
label = pd.read_csv('data/orange_small_churn_labels.txt', header=None, names=['label'])

df = pd.merge(data, label, left_index=True, right_index=True)


In [15]:
numeric_features = data.columns[:190]
cat_features = data.columns[190:]

Способы обработки категориальных признков

Расмотрим три возможных варианта LabelEncoding, dummyencoding и OneHotEncoding

In [16]:
print(cat_features)
print(len(cat_features))

Index(['Var191', 'Var192', 'Var193', 'Var194', 'Var195', 'Var196', 'Var197',
       'Var198', 'Var199', 'Var200', 'Var201', 'Var202', 'Var203', 'Var204',
       'Var205', 'Var206', 'Var207', 'Var208', 'Var209', 'Var210', 'Var211',
       'Var212', 'Var213', 'Var214', 'Var215', 'Var216', 'Var217', 'Var218',
       'Var219', 'Var220', 'Var221', 'Var222', 'Var223', 'Var224', 'Var225',
       'Var226', 'Var227', 'Var228', 'Var229', 'Var230'],
      dtype='object')
40


In [30]:
#LabelEncoder
label_cat_data = np.array([LabelEncoder().fit_transform(data[name]) for name in cat_features])
np.unique(label_cat_data)

array([    0,     1,     2, ..., 13295, 13296, 13297], dtype=int64)

In [37]:
label_cat_data.T

array([[  1, 159,   5, ...,  29,   4,   0],
       [  1, 168,   0, ...,   2,   1,   0],
       [  1, 114,  17, ...,  25,   1,   0],
       ...,
       [  1,  87,  25, ...,   8,   0,   0],
       [  1, 240,  25, ...,   8,   4,   0],
       [  1, 157,  25, ...,   8,   4,   0]], dtype=int64)

In [41]:
label_cat_data.T.shape

(40000, 40)

Такой подход недостаточно хорош так как можно ввести порядок на значения категорий

In [38]:
#OneHotEncoder
hot_cat_data = OneHotEncoder().fit_transform(data[cat_features])
hot_cat_data

<40000x63515 sparse matrix of type '<class 'numpy.float64'>'
	with 1600000 stored elements in Compressed Sparse Row format>

Один из недостатков такого метода как и dummy кодирования раздувается признаковое пространство

In [39]:
#dummyencoder
pd.get_dummies(data[cat_features], drop_first=True)

Unnamed: 0,Var209,Var230,Var192_0kQTmBU3gb,Var192_0kQqrQsiZt,Var192_0vimfo8zhV,Var192_1GdOj17ejg,Var192_1GdOj1KXzC,Var192_1JGTmBQZiT,Var192_1JGqrQKzJV,Var192_1JGr4RKzJV,...,Var228_b9qbUNk0dML_Mvi2,Var228_d0LtHjWeaXyArdN4sxU_saXqH,Var228_ib5G6X1eUxUn6,Var228_iyHGyLCEkQ,Var228_n1OBWGkV3fbsHR75taC,Var228_r_7E,Var228_xwM2aC7IdeMC0,Var229_mj86,Var229_oJmt,Var229_sk2h
0,,,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,1,0,0,0
1,,,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
2,,,0,0,0,0,0,0,0,0,...,0,0,1,0,0,0,0,1,0,0
3,,,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,,,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
39995,,,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
39996,,,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
39997,,,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
39998,,,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


Возможен еще вариант хэширования признака, тогда признак будет описываться фиксированным набором хэшей, но при этом мб совпадение хэшей

Определение метрик

Основная метрика: f1-мера, так как она учитывает одновременно полноту и точность

Вспомогательные метрики: Отедельно будем смотреть на recall, precision и roc_auc

Можно использовать shuffle split на 5 фолдах так как данных довольно много и 5 фолдов хватит