In [1]:
import category_encoders as ce

In [2]:
# Создадим обучающий набор для кодирования порядковых признаков — ассортимент небольшого магазина с одеждой, где 
# size — буквенное обозначение размера одежды, type — тип изделия.

import pandas as pd
# инициализируем информацию об одежде
clothing_list = [
    ['xxs', 'dress'],
    ['xxs', 'skirt'],
    ['xs', 'dress'],
    ['s', 'skirt'],
    ['m', 'dress'],
    ['l', 'shirt'],
    ['s', 'coat'],
    ['m', 'coat'],
    ['xxl', 'shirt'],
    ['l', 'dress']
]

clothing = pd.DataFrame(clothing_list, columns = ['size',  'type'])
clothing

Unnamed: 0,size,type
0,xxs,dress
1,xxs,skirt
2,xs,dress
3,s,skirt
4,m,dress
5,l,shirt
6,s,coat
7,m,coat
8,xxl,shirt
9,l,dress


In [3]:
# Метод fit_transform устанавливает соответствия для кодирования и преобразовывает данные в соответствие с ними. 
# Затем используем метод concat() для добавления закодированного признака в датафрейм data.

# создаем объект OrdinalEncoder, col - имя столбца, mapping - словарь с описанием кодировки
ord_encoder = ce.OrdinalEncoder(mapping=[{
	'col': 'size',
	'mapping': {'xxs': 1, 'xs': 2, 's': 3, 
                'm': 4, 'l': 5, 'xxl': 6}
}])
# применяем трансформацию к столбцу
data_bin = ord_encoder.fit_transform(clothing[['size']])
# добавляем результат к исходному DataFrame
clothing = pd.concat([clothing, data_bin], axis=1)

clothing

Unnamed: 0,size,type,size.1
0,xxs,dress,1
1,xxs,skirt,1
2,xs,dress,2
3,s,skirt,3
4,m,dress,4
5,l,shirt,5
6,s,coat,3
7,m,coat,4
8,xxl,shirt,6
9,l,dress,5


In [24]:
# Закодируйте признак year в датасете винных обзоров порядковым кодированием.
import pandas as pd
import category_encoders as ce

wine_cleared = pd.read_csv('C:\IDE\Skillfactory\EDA\\files\\data.csv')

ord_encoder = ce.OrdinalEncoder()
year_col = ord_encoder.fit_transform(wine_cleared['year'])
data = pd.concat([wine_cleared, year_col], axis=1)
data

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,taster_name,taster_twitter_handle,...,is_usa,is_france,is_italy,old_wine,locality,population,area,years_diff,year.1,year
0,0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,35.363389,Sicily & Sardinia,Etna,Kerin O’Keefe,@kerinokeefe,...,0,0,1,0,Etna,59097904,301230.0,3298.0,2013-01-01,1
1,1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.000000,Douro,unknown,Roger Voss,@vossroger,...,0,0,0,0,Douro,10347892,92391.0,4029.0,2011-01-01,2
2,2,US,"Tart and snappy, the flavors of lime flesh and...",unknown,87,14.000000,Oregon,Willamette Valley,Paul Gregutt,@paulgwine,...,1,0,0,0,Willamette Valley,333022386,9372610.0,3298.0,2013-01-01,1
3,3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.000000,Michigan,Lake Michigan Shore,Alexander Peartree,unknown,...,1,0,0,0,Lake Michigan Shore,333022386,9372610.0,3298.0,2013-01-01,1
4,4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.000000,Oregon,Willamette Valley,Paul Gregutt,@paulgwine,...,1,0,0,0,Willamette Valley,333022386,9372610.0,3664.0,2012-01-01,3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
129967,129966,Germany,Notes of honeysuckle and cantaloupe sweeten th...,Brauneberger Juffer-Sonnenuhr Spätlese,90,28.000000,Mosel,unknown,Anna Lee C. Iijima,unknown,...,0,0,0,0,Erben Müller-Burggraef,83129285,357022.0,3298.0,2013-01-01,1
129968,129967,US,Citation is given as much as a decade of bottl...,unknown,90,75.000000,Oregon,Oregon,Paul Gregutt,@paulgwine,...,1,0,0,1,Oregon,333022386,9372610.0,6586.0,2004-01-01,11
129969,129968,France,Well-drained gravel soil gives this wine its c...,Kritt,90,30.000000,Alsace,Alsace,Roger Voss,@vossroger,...,0,1,0,0,Alsace,68035000,547030.0,3298.0,2013-01-01,1
129970,129969,France,"A dry style of Pinot Gris, this is crisp with ...",unknown,90,32.000000,Alsace,Alsace,Roger Voss,@vossroger,...,0,1,0,0,Alsace,68035000,547030.0,3664.0,2012-01-01,3


In [15]:
# Закодируем признак type в Python. Используем класс OneHotEncoding библиотеки category_encoders. Укажем в cols 
# наименование признака type для кодировки, иначе будут закодированы все строковые столбцы.

import category_encoders as ce # импорт для работы с кодировщиком

encoder = ce.OneHotEncoder(cols=['type'], use_cat_names=True) # указываем столбец для кодирования
type_bin = encoder.fit_transform(clothing['type'])
clothing = pd.concat([clothing, type_bin], axis=1)

clothing

Unnamed: 0,size,type,size.1,type_dress,type_skirt,type_shirt,type_coat
0,xxs,dress,1,1,0,0,0
1,xxs,skirt,1,0,1,0,0
2,xs,dress,2,1,0,0,0
3,s,skirt,3,0,1,0,0
4,m,dress,4,1,0,0,0
5,l,shirt,5,0,0,1,0
6,s,coat,3,0,0,0,1
7,m,coat,4,0,0,0,1
8,xxl,shirt,6,0,0,1,0
9,l,dress,5,1,0,0,0


In [17]:
# На самом деле метод однократного кодирования реализован в pandas в функции pd.get_dummies(). Для выполнения 
# кодирования достаточно передать в функцию DataFrame и указать столбцы, для которых должно выполняться кодирование. 
# По умолчанию кодирование выполняется для всех столбцов типа object:

clothing_dummies = pd.get_dummies(clothing, columns=['type'])
clothing_dummies

Unnamed: 0,size,size.1,type_dress,type_skirt,type_shirt,type_coat,type_coat.1,type_dress.1,type_shirt.1,type_skirt.1
0,xxs,1,1,0,0,0,False,True,False,False
1,xxs,1,0,1,0,0,False,False,False,True
2,xs,2,1,0,0,0,False,True,False,False
3,s,3,0,1,0,0,False,False,False,True
4,m,4,1,0,0,0,False,True,False,False
5,l,5,0,0,1,0,False,False,True,False
6,s,3,0,0,0,1,True,False,False,False
7,m,4,0,0,0,1,True,False,False,False
8,xxl,6,0,0,1,0,False,False,True,False
9,l,5,1,0,0,0,False,True,False,False


In [25]:
import category_encoders as ce
print(wine_cleared.shape)
encoder = ce.OneHotEncoder(cols=['taster_name'])
type_bin = encoder.fit_transform(wine_cleared['taster_name'])
wine_cleared = pd.concat([wine_cleared, type_bin], axis=1)
print(wine_cleared.shape)


(129972, 24)
(129972, 44)


In [26]:
# Вернёмся к примеру с магазином одежды. Закодируем бинарным способом признак type в Python. Используем класс 
# BinaryEncoder библиотеки category_encoders.

import category_encoders as ce # импорт для работы с кодировщиком
bin_encoder = ce.BinaryEncoder(cols=['type']) # указываем столбец для кодирования
type_bin = bin_encoder.fit_transform(clothing['type'])
clothing = pd.concat([clothing, type_bin], axis=1)

clothing

Unnamed: 0,size,type,size.1,type_dress,type_skirt,type_shirt,type_coat,type_0,type_1,type_2
0,xxs,dress,1,1,0,0,0,0,0,1
1,xxs,skirt,1,0,1,0,0,0,1,0
2,xs,dress,2,1,0,0,0,0,0,1
3,s,skirt,3,0,1,0,0,0,1,0
4,m,dress,4,1,0,0,0,0,0,1
5,l,shirt,5,0,0,1,0,0,1,1
6,s,coat,3,0,0,0,1,1,0,0
7,m,coat,4,0,0,0,1,1,0,0
8,xxl,shirt,6,0,0,1,0,0,1,1
9,l,dress,5,1,0,0,0,0,0,1


In [27]:
import pandas as pd
wine_cleared = pd.read_csv('C:\IDE\Skillfactory\EDA\\files\\wine_cleared.csv')
print(wine_cleared.shape)

import category_encoders as ce # импорт для работы с кодировщиком
bin_encoder = ce.BinaryEncoder(cols=['country']) # указываем столбец для кодирования
type_bin = bin_encoder.fit_transform(wine_cleared['country'])
wine_cleared = pd.concat([wine_cleared, type_bin], axis=1)
print(wine_cleared.shape)

(119988, 12)
(119988, 18)


In [28]:
import pandas as pd
wine_cleared = pd.read_csv('C:\IDE\Skillfactory\EDA\\files\\data.csv')
print(wine_cleared.shape)

import category_encoders as ce # импорт для работы с кодировщиком
bin_encoder = ce.BinaryEncoder(cols=['taster_twitter_handle']) # указываем столбец для кодирования
type_bin = bin_encoder.fit_transform(wine_cleared['taster_twitter_handle'])
wine_cleared = pd.concat([wine_cleared, type_bin], axis=1)
print(wine_cleared.shape)

(129972, 24)
(129972, 29)


In [36]:
list_of_dicts = [
 {'product': 'Product1', 'price': 1200, 'payment_type': 'Mastercard'},
 {'product': 'Product2', 'price': 3600, 'payment_type': 'Visa'},
 {'product': 'Product3', 'price': 7500, 'payment_type': 'Amex'}
]
df = pd.DataFrame(list_of_dicts)
df

Unnamed: 0,product,price,payment_type
0,Product1,1200,Mastercard
1,Product2,3600,Visa
2,Product3,7500,Amex


In [37]:
import category_encoders as ce # импорт для работы с кодировщиком
bin_encoder = ce.OneHotEncoder(cols=['price']) # указываем столбец для кодирования
type_bin = bin_encoder.fit_transform(df['price'])
df = pd.concat([df, type_bin], axis=1)

bin_encoder = ce.OneHotEncoder(cols=['payment_type']) # указываем столбец для кодирования
type_bin = bin_encoder.fit_transform(df['payment_type'])
df = pd.concat([df, type_bin], axis=1)

bin_encoder = ce.OrdinalEncoder()
type_bin = ord_encoder.fit_transform(df['product'])
df = pd.concat([df, type_bin], axis=1)
df

Unnamed: 0,product,price,payment_type,price_1,price_2,price_3,payment_type_1,payment_type_2,payment_type_3,product.1
0,Product1,1200,Mastercard,1,0,0,1,0,0,1
1,Product2,3600,Visa,0,1,0,0,1,0,2
2,Product3,7500,Amex,0,0,1,0,0,1,3
