# [WUM] Praca domowa nr 2
### Mateusz Polakowski

Zbiór, którym poniżej się zająłem, to *dionis*, dostępny na serwisie *OpenML* [w tym miejscu](https://www.openml.org/d/41167). Posiada on, w kolumnie *class*, 355 możliwości klasyfikacji rekordów, czyli wystarczająco, aby móc zająć się rozlegle problemem kodowania zmiennych. Oprócz samego problemu i przedstawienia uzyskanych wyników w raporcie znajduje się również budowa prostego modelu klasyfikacyjnego opartego na algorytmie *K najbliższych sąsiadów* oraz sprawdzenie praktyczności użytych kodowań.

---
## Wgranie potrzebnych pakietów

In [1]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from random import randint
import sklearn.metrics
import openml
import pandas as pd
import numpy as np
    
np.random.seed(997)
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)

## Przygotowanie danych

In [2]:
datasetOpenmlId = 41167
dataset = openml.datasets.get_dataset(datasetOpenmlId)
X, y, categorical, names = dataset.get_data(
    target=dataset.default_target_attribute,
    return_categorical_indicator=True,
    return_attribute_names=True,
    include_ignore_attributes=True
)

vals = {}
for i, name in enumerate(names):
    vals[name] = X[:, i]
vals[dataset.default_target_attribute] = y
df = pd.DataFrame(vals)

X = df.drop('class', axis=1)
y = df.loc[:, 'class']

In [3]:
print("Liczba unikalnych klas:", len(y.unique()))

Liczba unikalnych klas: 355


Ponieważ kolumna zmiennej kategorycznej jest domyślnie już zakodowana na wartości liczbowe, co ułatwia zadanie - utrudnijmy je trochę. Zamiast wartości liczbowych nową zmienną kategoryczną niech będzie kolumna zawierająca wartości 4-znakowych ciągów (losowych). W wektorze *y* posiadamy domyślny podział klas, zatem łatwo możemy zmapować nowe wartosci:

In [4]:
alphabet = 'qwertyuioplkjhgfdsazxcvbnm'
y_new = pd.Series([alphabet[randint(0, len(alphabet)-1)] + 
                   alphabet[randint(0, len(alphabet)-1)] + 
                   alphabet[randint(0, len(alphabet)-1)] +
                   alphabet[randint(0, len(alphabet)-1)] for i in range(355)])
len(y_new.unique())

355

Skoro unikalnych ciągów jest również 355, to możemy mapować i iść dalej:

In [5]:
yy = pd.Series(y_new[y]).reset_index().iloc[:, 1]

Pogląd posiadanych danych już w obiekcie klasy *DataFrame*:

In [6]:
dataset = pd.concat([yy, X], axis=1)
dataset.columns = ["class"] + list(dataset.columns[1:])
dataset.head()

Unnamed: 0,class,V1,V2,V3,V4,V5,V6,V7,V8,V9,V10,V11,V12,V13,V14,V15,V16,V17,V18,V19,V20,V21,V22,V23,V24,V25,V26,V27,V28,V29,V30,V31,V32,V33,V34,V35,V36,V37,V38,V39,V40,V41,V42,V43,V44,V45,V46,V47,V48,V49,V50,V51,V52,V53,V54,V55,V56,V57,V58,V59,V60
0,zhjp,8251.0,450.0,10000.0,-1798.0,128.0,10000.0,-83.0,-4810.0,833.0,-320.0,4405.0,-1113.0,-9340.0,0.0,-5388.0,9657.0,6268.0,327.0,-2798.0,-221.0,694.0,7892.0,4099.0,-117.0,77.0,175.0,0.0,-2083.0,7582.0,-645.0,349.0,9221.0,0.0,2267.0,0.0,1749.0,0.0,3573.0,1637.0,830.0,42.0,1001.0,-1842.0,-513.0,-111.0,860.0,10000.0,-1600.0,-19.0,-728.0,7816.0,702.0,8.0,0.0,10000.0,-46.0,983.0,-126.0,322.0,-58.0
1,yjku,7177.0,894.0,10000.0,-1977.0,-455.0,10000.0,-359.0,5474.0,-99.0,17.0,3522.0,-859.0,-1209.0,0.0,3410.0,4221.0,5440.0,-249.0,535.0,633.0,226.0,7538.0,55.0,-261.0,63.0,65.0,0.0,2955.0,6621.0,352.0,-377.0,9209.0,0.0,-349.0,0.0,2823.0,0.0,9927.0,1161.0,-404.0,8543.0,-261.0,-1719.0,-1667.0,-150.0,5569.0,6909.0,-8450.0,-487.0,5783.0,8643.0,11.0,11.0,0.0,6326.0,15811.0,-2500.0,-187.0,-1058.0,269.0
2,qgtl,7442.0,715.0,10000.0,10057.0,-68.0,10000.0,-273.0,-2564.0,-225.0,319.0,6480.0,-1383.0,-8725.0,0.0,5624.0,10000.0,5923.0,291.0,-2261.0,52.0,329.0,6136.0,-545.0,-534.0,565.0,-486.0,0.0,-868.0,7597.0,-321.0,966.0,9429.0,0.0,2701.0,0.0,2558.0,0.0,4886.0,1797.0,-20.0,18229.0,-5742.0,165.0,-322.0,-79.0,-5441.0,10000.0,-2055.0,-392.0,-3133.0,7707.0,2040.0,8.0,0.0,8400.0,15521.0,-11470.0,-914.0,-537.0,-311.0
3,lyyj,7997.0,680.0,10000.0,6617.0,-50.0,10000.0,-3975.0,43699.0,-525.0,200.0,7221.0,-16914.0,-9835.0,0.0,33120.0,6483.0,6226.0,22373.0,-473.0,461.0,423.0,6811.0,-49806.0,36068.0,87.0,184.0,0.0,-1656.0,7924.0,-83085.0,-1635.0,6841.0,0.0,494.0,0.0,2003.0,0.0,-1810.0,705.0,12428.0,15038.0,11857.0,-16713.0,-739.0,207.0,144.0,6918.0,-16260.0,-77.0,-13782.0,9955.0,1028.0,10.0,0.0,9927.0,5287.0,3470.0,-1005.0,1563.0,76.0
4,djxj,9041.0,-120.0,10000.0,-8858.0,22.0,10000.0,145.0,2145.0,-205.0,-275.0,6588.0,918.0,-6028.0,0.0,-1923.0,7850.0,9979.0,1358.0,-502.0,-320.0,-95.0,10000.0,-3037.0,576.0,130.0,-90.0,0.0,3988.0,9387.0,11655.0,-431.0,6414.0,0.0,-797.0,0.0,959.0,0.0,7979.0,563.0,424.0,1061.0,1352.0,24.0,-123.0,9.0,-1481.0,9793.0,-3837.0,-76.0,324.0,7075.0,-269.0,8.0,0.0,10000.0,-105.0,-254.0,-38.0,-942.0,345.0


## Model i predykcja oryginalnych wartości

In [7]:
# Podział na zbiory treningowe oraz testowe
X_train, X_test, y_train, y_test = train_test_split(dataset.iloc[:, 1:], 
                                                    dataset.iloc[:, 0],
                                                    test_size=0.15, 
                                                    random_state=997)

# Model klasyfikacji na oryginalnych danych
model = KNeighborsClassifier(n_neighbors=6)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print("Accuracy:", sklearn.metrics.accuracy_score(y_test, y_pred))

Accuracy: 0.7677041118710856


Jak widać, model jest nawet skuteczny. Nie jest to oczywiście 99% celności, jednak ~77% nie jest złym wynikiem (dla całkiem podstawowego modelu). Spróbujmy zatem teraz zbadać funkcjonalności pakietu *category_encoders*. 
<br/>

---
## Kodowanie zmiennej kategorycznej

In [8]:
import category_encoders as ec
dataset = dataset.sample(50000) # obcinam liczbe rekordow ze wzgledu na 
                                # bardzo dlugi czas kodowania zmiennej kategotycznej

### One-hot encoding

*One-hot* jest całkiem intuicyjnym podejściem, który polega na stworzeniu kolumny dla każdej klasy z osobna i przypisywanie 1 jeśli klasa się zgadza z kolumną, w przeciwnym przypadku 0. Poniżej wygląd naszej tabeli wyjściowej:

In [9]:
oh_enc = ec.OneHotEncoder(cols=['class']).fit(dataset)
dataset_oh = oh_enc.transform(dataset)
dataset_oh.head()

Unnamed: 0,class_1,class_2,class_3,class_4,class_5,class_6,class_7,class_8,class_9,class_10,class_11,class_12,class_13,class_14,class_15,class_16,class_17,class_18,class_19,class_20,class_21,class_22,class_23,class_24,class_25,class_26,class_27,class_28,class_29,class_30,class_31,class_32,class_33,class_34,class_35,class_36,class_37,class_38,class_39,class_40,class_41,class_42,class_43,class_44,class_45,class_46,class_47,class_48,class_49,class_50,class_51,class_52,class_53,class_54,class_55,class_56,class_57,class_58,class_59,class_60,class_61,class_62,class_63,class_64,class_65,class_66,class_67,class_68,class_69,class_70,class_71,class_72,class_73,class_74,class_75,class_76,class_77,class_78,class_79,class_80,class_81,class_82,class_83,class_84,class_85,class_86,class_87,class_88,class_89,class_90,class_91,class_92,class_93,class_94,class_95,class_96,class_97,class_98,class_99,class_100,class_101,class_102,class_103,class_104,class_105,class_106,class_107,class_108,class_109,class_110,class_111,class_112,class_113,class_114,class_115,class_116,class_117,class_118,class_119,class_120,class_121,class_122,class_123,class_124,class_125,class_126,class_127,class_128,class_129,class_130,class_131,class_132,class_133,class_134,class_135,class_136,class_137,class_138,class_139,class_140,class_141,class_142,class_143,class_144,class_145,class_146,class_147,class_148,class_149,class_150,class_151,class_152,class_153,class_154,class_155,class_156,class_157,class_158,class_159,class_160,class_161,class_162,class_163,class_164,class_165,class_166,class_167,class_168,class_169,class_170,class_171,class_172,class_173,class_174,class_175,class_176,class_177,class_178,class_179,class_180,class_181,class_182,class_183,class_184,class_185,class_186,class_187,class_188,class_189,class_190,class_191,class_192,class_193,class_194,class_195,class_196,class_197,class_198,class_199,class_200,class_201,class_202,class_203,class_204,class_205,class_206,class_207,class_208,class_209,class_210,class_211,class_212,class_213,class_214,class_215,class_216,class_217,class_218,class_219,class_220,class_221,class_222,class_223,class_224,class_225,class_226,class_227,class_228,class_229,class_230,class_231,class_232,class_233,class_234,class_235,class_236,class_237,class_238,class_239,class_240,class_241,class_242,class_243,class_244,class_245,class_246,class_247,class_248,class_249,class_250,class_251,class_252,class_253,class_254,class_255,class_256,class_257,class_258,class_259,class_260,class_261,class_262,class_263,class_264,class_265,class_266,class_267,class_268,class_269,class_270,class_271,class_272,class_273,class_274,class_275,class_276,class_277,class_278,class_279,class_280,class_281,class_282,class_283,class_284,class_285,class_286,class_287,class_288,class_289,class_290,class_291,class_292,class_293,class_294,class_295,class_296,class_297,class_298,class_299,class_300,class_301,class_302,class_303,class_304,class_305,class_306,class_307,class_308,class_309,class_310,class_311,class_312,class_313,class_314,class_315,class_316,class_317,class_318,class_319,class_320,class_321,class_322,class_323,class_324,class_325,class_326,class_327,class_328,class_329,class_330,class_331,class_332,class_333,class_334,class_335,class_336,class_337,class_338,class_339,class_340,class_341,class_342,class_343,class_344,class_345,class_346,class_347,class_348,class_349,class_350,class_351,class_352,class_353,class_354,class_355,class_-1,V1,V2,V3,V4,V5,V6,V7,V8,V9,V10,V11,V12,V13,V14,V15,V16,V17,V18,V19,V20,V21,V22,V23,V24,V25,V26,V27,V28,V29,V30,V31,V32,V33,V34,V35,V36,V37,V38,V39,V40,V41,V42,V43,V44,V45,V46,V47,V48,V49,V50,V51,V52,V53,V54,V55,V56,V57,V58,V59,V60
54558,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,9825.0,245.0,10000.0,-1994.0,-79.0,10000.0,-165.0,5946.0,78.0,39.0,7297.0,477.0,-5706.0,0.0,848.0,9612.0,10000.0,-161.0,-1009.0,456.0,43.0,10000.0,-180.0,-490.0,-67.0,-127.0,0.0,5300.0,5996.0,248.0,267.0,9339.0,0.0,94.0,0.0,175.0,0.0,8212.0,190.0,331.0,12527.0,-529.0,-169.0,-236.0,87.0,-4222.0,10000.0,-3217.0,133.0,2343.0,7139.0,109.0,8.0,0.0,9969.0,1967.0,-2401.0,240.0,-823.0,12.0
379870,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,7863.0,-937.0,10000.0,6023.0,-664.0,10000.0,-1136.0,522.0,-538.0,134.0,5904.0,-2627.0,-5771.0,0.0,331.0,10000.0,6063.0,11829.0,25.0,72.0,480.0,8107.0,-11379.0,6246.0,197.0,-379.0,0.0,-84.0,8681.0,1545.0,838.0,8974.0,0.0,3316.0,0.0,2137.0,0.0,8167.0,1547.0,-1104.0,2433.0,-7267.0,1077.0,-1013.0,-171.0,821.0,10000.0,-3666.0,143.0,5733.0,8527.0,1698.0,8.0,0.0,7150.0,3115.0,-1822.0,117.0,-2466.0,-410.0
37302,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,8119.0,-1695.0,10000.0,3460.0,29.0,10000.0,959.0,-1860.0,-230.0,16.0,5959.0,-4434.0,-9519.0,0.0,5978.0,8401.0,7417.0,-3909.0,-254.0,32.0,213.0,10000.0,92658.0,-6453.0,162.0,-167.0,0.0,372.0,3560.0,2185.0,-329.0,9554.0,0.0,3112.0,0.0,1881.0,0.0,3065.0,2223.0,2219.0,2155.0,-1087.0,-12366.0,-1507.0,212.0,-1623.0,5367.0,4842.0,1.0,-7232.0,5745.0,1611.0,10.0,0.0,9117.0,31.0,214.0,421.0,2084.0,-198.0
346311,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,8433.0,2577.0,10000.0,-41471.0,353.0,10000.0,8636.0,-6066.0,70.0,-96.0,3257.0,13411.0,-9354.0,0.0,-16558.0,2976.0,7345.0,43208.0,-1922.0,215.0,207.0,10000.0,-126412.0,61955.0,16.0,251.0,0.0,1360.0,6307.0,29687.0,-109.0,8226.0,0.0,-2835.0,0.0,1567.0,0.0,3537.0,-1016.0,16462.0,3191.0,-17005.0,-4120.0,-1602.0,46.0,-1915.0,8530.0,-31044.0,40.0,-35235.0,7390.0,409.0,10.0,0.0,10000.0,-522.0,-5497.0,841.0,-567.0,89.0
108702,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,8952.0,-3477.0,10000.0,-10621.0,361.0,10000.0,-580.0,4304.0,393.0,-126.0,4128.0,27.0,-3729.0,0.0,-4151.0,7595.0,8890.0,-6464.0,2047.0,-129.0,-207.0,10000.0,-39928.0,9742.0,11.0,-15.0,0.0,3049.0,6278.0,-411.0,404.0,7367.0,0.0,-287.0,0.0,1048.0,0.0,9279.0,598.0,821.0,-763.0,10002.0,2416.0,-228.0,-183.0,1437.0,8807.0,-5615.0,252.0,12776.0,6814.0,306.0,10.0,0.0,9950.0,-247.0,605.0,96.0,-41.0,19.0


Tak jak można było się tego spodziewać po kodowaniu *one-hot* - algorytm stworzył dla każdej możliwej wartości zmiennej kategorycznej osobną kolumnę i przypisał odpowiednie wartości.
<br/>
Sprawdźmy, czy takie podejście do problemu stanowi ulepszenie używanego modelu:

In [10]:
X_onehot = dataset_oh.iloc[:, -60:]
y_onehot = dataset_oh.iloc[:, :-61]

# Podział na zbiory treningowe oraz testowe
X_onehot_train, X_onehot_test, y_onehot_train, y_onehot_test = train_test_split(
    X_onehot, y_onehot, test_size=0.15, random_state=997
)

# Model klasyfikacji na danych z one-hot encoding
model_onehot = KNeighborsClassifier(n_neighbors=6)
model_onehot.fit(X_onehot_train, y_onehot_train)
y_onehot_pred = model_onehot.predict(X_onehot_test)
print("Accuracy one-hot:", sklearn.metrics.accuracy_score(y_onehot_test, y_onehot_pred))

Accuracy one-hot: 0.4344


Ponieważ zbiór danych jest obcięty pod względem liczby rekordów o około 7/8, to trudno spodziewać się dobrych wyników, podobnych do wyniku modelu z danymi oryginalnymi. Mimo wszystko, 43% na tak zredukowanym zbiorze danych można uznać za wynik zadowalający.
<br/> <br/>
Niestety, ale ze względów sprzętowych dalsze budowanie modeli pomijam, liczą się one bardzo długo. Mimo wszystko każde poruszone przeze mnie niżej kodowanie zawiera kod, który odkomentowany, stworzyłby model na posiadanych danych (w celu dokładnego przetestowania warto nie wybierać próbki rekordów z oryginalnego zbioru).
<br/> <br/>
Poniżej zawarłem jeszcze metody *hashing enconding*, *helmert encoding* oraz *target encoding*. Wszystkie działają bardzo podobnie. Pochodzą z jednego pakietu więc są ujednolicone z perspektywy użytkownika. Dają inny wynik o czym można się przekonać przy listowaniu 5 pierwszych wierszy każdego zakodowanego zbioru danych.

### Hashing encoding

In [11]:
hash_enc = ec.HashingEncoder(cols=["class"]).fit(dataset)
dataset_hash = hash_enc.transform(dataset)
dataset_hash.head()

Unnamed: 0,col_0,col_1,col_2,col_3,col_4,col_5,col_6,col_7,V1,V2,V3,V4,V5,V6,V7,V8,V9,V10,V11,V12,V13,V14,V15,V16,V17,V18,V19,V20,V21,V22,V23,V24,V25,V26,V27,V28,V29,V30,V31,V32,V33,V34,V35,V36,V37,V38,V39,V40,V41,V42,V43,V44,V45,V46,V47,V48,V49,V50,V51,V52,V53,V54,V55,V56,V57,V58,V59,V60
54558,0,0,0,0,0,0,1,0,9825.0,245.0,10000.0,-1994.0,-79.0,10000.0,-165.0,5946.0,78.0,39.0,7297.0,477.0,-5706.0,0.0,848.0,9612.0,10000.0,-161.0,-1009.0,456.0,43.0,10000.0,-180.0,-490.0,-67.0,-127.0,0.0,5300.0,5996.0,248.0,267.0,9339.0,0.0,94.0,0.0,175.0,0.0,8212.0,190.0,331.0,12527.0,-529.0,-169.0,-236.0,87.0,-4222.0,10000.0,-3217.0,133.0,2343.0,7139.0,109.0,8.0,0.0,9969.0,1967.0,-2401.0,240.0,-823.0,12.0
379870,0,0,0,1,0,0,0,0,7863.0,-937.0,10000.0,6023.0,-664.0,10000.0,-1136.0,522.0,-538.0,134.0,5904.0,-2627.0,-5771.0,0.0,331.0,10000.0,6063.0,11829.0,25.0,72.0,480.0,8107.0,-11379.0,6246.0,197.0,-379.0,0.0,-84.0,8681.0,1545.0,838.0,8974.0,0.0,3316.0,0.0,2137.0,0.0,8167.0,1547.0,-1104.0,2433.0,-7267.0,1077.0,-1013.0,-171.0,821.0,10000.0,-3666.0,143.0,5733.0,8527.0,1698.0,8.0,0.0,7150.0,3115.0,-1822.0,117.0,-2466.0,-410.0
37302,0,0,0,0,0,0,0,1,8119.0,-1695.0,10000.0,3460.0,29.0,10000.0,959.0,-1860.0,-230.0,16.0,5959.0,-4434.0,-9519.0,0.0,5978.0,8401.0,7417.0,-3909.0,-254.0,32.0,213.0,10000.0,92658.0,-6453.0,162.0,-167.0,0.0,372.0,3560.0,2185.0,-329.0,9554.0,0.0,3112.0,0.0,1881.0,0.0,3065.0,2223.0,2219.0,2155.0,-1087.0,-12366.0,-1507.0,212.0,-1623.0,5367.0,4842.0,1.0,-7232.0,5745.0,1611.0,10.0,0.0,9117.0,31.0,214.0,421.0,2084.0,-198.0
346311,0,0,0,0,1,0,0,0,8433.0,2577.0,10000.0,-41471.0,353.0,10000.0,8636.0,-6066.0,70.0,-96.0,3257.0,13411.0,-9354.0,0.0,-16558.0,2976.0,7345.0,43208.0,-1922.0,215.0,207.0,10000.0,-126412.0,61955.0,16.0,251.0,0.0,1360.0,6307.0,29687.0,-109.0,8226.0,0.0,-2835.0,0.0,1567.0,0.0,3537.0,-1016.0,16462.0,3191.0,-17005.0,-4120.0,-1602.0,46.0,-1915.0,8530.0,-31044.0,40.0,-35235.0,7390.0,409.0,10.0,0.0,10000.0,-522.0,-5497.0,841.0,-567.0,89.0
108702,0,0,1,0,0,0,0,0,8952.0,-3477.0,10000.0,-10621.0,361.0,10000.0,-580.0,4304.0,393.0,-126.0,4128.0,27.0,-3729.0,0.0,-4151.0,7595.0,8890.0,-6464.0,2047.0,-129.0,-207.0,10000.0,-39928.0,9742.0,11.0,-15.0,0.0,3049.0,6278.0,-411.0,404.0,7367.0,0.0,-287.0,0.0,1048.0,0.0,9279.0,598.0,821.0,-763.0,10002.0,2416.0,-228.0,-183.0,1437.0,8807.0,-5615.0,252.0,12776.0,6814.0,306.0,10.0,0.0,9950.0,-247.0,605.0,96.0,-41.0,19.0


In [12]:
# X_hash = dataset_hash.iloc[:, :8]
# y_hash = dataset_hash.iloc[:, 8:]

# Podział na zbiory treningowe oraz testowe
# X_hash_train, X_hash_test, y_hash_train, y_hash_test = train_test_split(
#     X_hash, y_hash, test_size=0.15, random_state=997
# )

# Model klasyfikacji na danych z hashing encoding
# model_hash = KNeighborsClassifier(n_neighbors=6)
# model_hash.fit(X_hash_train, y_hash_train)
# y_hash_pred = model_hash.predict(X_hash_test)
# print("Accuracy hashing:", sklearn.metrics.accuracy_score(y_hash_test, y_hash_pred))

### Helmert encoding

In [13]:
helm_enc = ec.HelmertEncoder(cols=["class"]).fit(dataset)
dataset_helm = helm_enc.transform(dataset)
dataset_helm.head()

Unnamed: 0,intercept,class_0,class_1,class_2,class_3,class_4,class_5,class_6,class_7,class_8,class_9,class_10,class_11,class_12,class_13,class_14,class_15,class_16,class_17,class_18,class_19,class_20,class_21,class_22,class_23,class_24,class_25,class_26,class_27,class_28,class_29,class_30,class_31,class_32,class_33,class_34,class_35,class_36,class_37,class_38,class_39,class_40,class_41,class_42,class_43,class_44,class_45,class_46,class_47,class_48,class_49,class_50,class_51,class_52,class_53,class_54,class_55,class_56,class_57,class_58,class_59,class_60,class_61,class_62,class_63,class_64,class_65,class_66,class_67,class_68,class_69,class_70,class_71,class_72,class_73,class_74,class_75,class_76,class_77,class_78,class_79,class_80,class_81,class_82,class_83,class_84,class_85,class_86,class_87,class_88,class_89,class_90,class_91,class_92,class_93,class_94,class_95,class_96,class_97,class_98,class_99,class_100,class_101,class_102,class_103,class_104,class_105,class_106,class_107,class_108,class_109,class_110,class_111,class_112,class_113,class_114,class_115,class_116,class_117,class_118,class_119,class_120,class_121,class_122,class_123,class_124,class_125,class_126,class_127,class_128,class_129,class_130,class_131,class_132,class_133,class_134,class_135,class_136,class_137,class_138,class_139,class_140,class_141,class_142,class_143,class_144,class_145,class_146,class_147,class_148,class_149,class_150,class_151,class_152,class_153,class_154,class_155,class_156,class_157,class_158,class_159,class_160,class_161,class_162,class_163,class_164,class_165,class_166,class_167,class_168,class_169,class_170,class_171,class_172,class_173,class_174,class_175,class_176,class_177,class_178,class_179,class_180,class_181,class_182,class_183,class_184,class_185,class_186,class_187,class_188,class_189,class_190,class_191,class_192,class_193,class_194,class_195,class_196,class_197,class_198,class_199,class_200,class_201,class_202,class_203,class_204,class_205,class_206,class_207,class_208,class_209,class_210,class_211,class_212,class_213,class_214,class_215,class_216,class_217,class_218,class_219,class_220,class_221,class_222,class_223,class_224,class_225,class_226,class_227,class_228,class_229,class_230,class_231,class_232,class_233,class_234,class_235,class_236,class_237,class_238,class_239,class_240,class_241,class_242,class_243,class_244,class_245,class_246,class_247,class_248,class_249,class_250,class_251,class_252,class_253,class_254,class_255,class_256,class_257,class_258,class_259,class_260,class_261,class_262,class_263,class_264,class_265,class_266,class_267,class_268,class_269,class_270,class_271,class_272,class_273,class_274,class_275,class_276,class_277,class_278,class_279,class_280,class_281,class_282,class_283,class_284,class_285,class_286,class_287,class_288,class_289,class_290,class_291,class_292,class_293,class_294,class_295,class_296,class_297,class_298,class_299,class_300,class_301,class_302,class_303,class_304,class_305,class_306,class_307,class_308,class_309,class_310,class_311,class_312,class_313,class_314,class_315,class_316,class_317,class_318,class_319,class_320,class_321,class_322,class_323,class_324,class_325,class_326,class_327,class_328,class_329,class_330,class_331,class_332,class_333,class_334,class_335,class_336,class_337,class_338,class_339,class_340,class_341,class_342,class_343,class_344,class_345,class_346,class_347,class_348,class_349,class_350,class_351,class_352,class_353,V1,V2,V3,V4,V5,V6,V7,V8,V9,V10,V11,V12,V13,V14,V15,V16,V17,V18,V19,V20,V21,V22,V23,V24,V25,V26,V27,V28,V29,V30,V31,V32,V33,V34,V35,V36,V37,V38,V39,V40,V41,V42,V43,V44,V45,V46,V47,V48,V49,V50,V51,V52,V53,V54,V55,V56,V57,V58,V59,V60
54558,,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,9825.0,245.0,10000.0,-1994.0,-79.0,10000.0,-165.0,5946.0,78.0,39.0,7297.0,477.0,-5706.0,0.0,848.0,9612.0,10000.0,-161.0,-1009.0,456.0,43.0,10000.0,-180.0,-490.0,-67.0,-127.0,0.0,5300.0,5996.0,248.0,267.0,9339.0,0.0,94.0,0.0,175.0,0.0,8212.0,190.0,331.0,12527.0,-529.0,-169.0,-236.0,87.0,-4222.0,10000.0,-3217.0,133.0,2343.0,7139.0,109.0,8.0,0.0,9969.0,1967.0,-2401.0,240.0,-823.0,12.0
379870,,1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,7863.0,-937.0,10000.0,6023.0,-664.0,10000.0,-1136.0,522.0,-538.0,134.0,5904.0,-2627.0,-5771.0,0.0,331.0,10000.0,6063.0,11829.0,25.0,72.0,480.0,8107.0,-11379.0,6246.0,197.0,-379.0,0.0,-84.0,8681.0,1545.0,838.0,8974.0,0.0,3316.0,0.0,2137.0,0.0,8167.0,1547.0,-1104.0,2433.0,-7267.0,1077.0,-1013.0,-171.0,821.0,10000.0,-3666.0,143.0,5733.0,8527.0,1698.0,8.0,0.0,7150.0,3115.0,-1822.0,117.0,-2466.0,-410.0
37302,1.0,0.0,2.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,8119.0,-1695.0,10000.0,3460.0,29.0,10000.0,959.0,-1860.0,-230.0,16.0,5959.0,-4434.0,-9519.0,0.0,5978.0,8401.0,7417.0,-3909.0,-254.0,32.0,213.0,10000.0,92658.0,-6453.0,162.0,-167.0,0.0,372.0,3560.0,2185.0,-329.0,9554.0,0.0,3112.0,0.0,1881.0,0.0,3065.0,2223.0,2219.0,2155.0,-1087.0,-12366.0,-1507.0,212.0,-1623.0,5367.0,4842.0,1.0,-7232.0,5745.0,1611.0,10.0,0.0,9117.0,31.0,214.0,421.0,2084.0,-198.0
346311,,0.0,0.0,3.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,8433.0,2577.0,10000.0,-41471.0,353.0,10000.0,8636.0,-6066.0,70.0,-96.0,3257.0,13411.0,-9354.0,0.0,-16558.0,2976.0,7345.0,43208.0,-1922.0,215.0,207.0,10000.0,-126412.0,61955.0,16.0,251.0,0.0,1360.0,6307.0,29687.0,-109.0,8226.0,0.0,-2835.0,0.0,1567.0,0.0,3537.0,-1016.0,16462.0,3191.0,-17005.0,-4120.0,-1602.0,46.0,-1915.0,8530.0,-31044.0,40.0,-35235.0,7390.0,409.0,10.0,0.0,10000.0,-522.0,-5497.0,841.0,-567.0,89.0
108702,,0.0,0.0,0.0,4.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,8952.0,-3477.0,10000.0,-10621.0,361.0,10000.0,-580.0,4304.0,393.0,-126.0,4128.0,27.0,-3729.0,0.0,-4151.0,7595.0,8890.0,-6464.0,2047.0,-129.0,-207.0,10000.0,-39928.0,9742.0,11.0,-15.0,0.0,3049.0,6278.0,-411.0,404.0,7367.0,0.0,-287.0,0.0,1048.0,0.0,9279.0,598.0,821.0,-763.0,10002.0,2416.0,-228.0,-183.0,1437.0,8807.0,-5615.0,252.0,12776.0,6814.0,306.0,10.0,0.0,9950.0,-247.0,605.0,96.0,-41.0,19.0


In [14]:
# X_helm = dataset_helm.iloc[:, -60:]
# y_helm = dataset_helm.iloc[:, 1:-60]

# Podział na zbiory treningowe oraz testowe
# X_helm_train, X_helm_test, y_helm_train, y_helm_test = train_test_split(
#     X_helm, y_helm, test_size=0.15, random_state=997
# )

# Model klasyfikacji na danych z helmert encoding
# model_helm = KNeighborsClassifier(n_neighbors=6)
# model_helm.fit(X_helm_train, y_helm_train)
# y_helm_pred = model_helm.predict(X_helm_test)
# print("Accuracy helmert:", sklearn.metrics.accuracy_score(y_helm_test, y_helm_pred))

### Target encoding

In [15]:
# Niestety, nie podołałem..
# targ = ec.TargetEncoder().fit(X, y)
# dataset_targ = targ.transform(dataset.iloc[:, 1:])
# dataset_targ.head()