Цель: Преобразовать признаки и разбить датасет на обучающую и тестовую выборку.

На данном этапе здесь будут подключаться все необходимые библиотеки для работы с датасетом и различными вариантами кодирования, а также нормализация и разделение датасета.

In [25]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import OrdinalEncoder
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import Normalizer
from sklearn.model_selection import train_test_split

С помощью функции read_csv происходит подключение и чтение нового файла с работой "vgsales_20.csv".

In [26]:
df = pd.read_csv('vgsales_20.csv')
df

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
0,13368,Gitaroo Man,PS2,2001.0,Misc,THQ,0.02,0.02,0.00,0.01,0.05
1,11518,Shonen Jump's One Piece: Pirates Carnival,GC,2005.0,Misc,Namco Bandai Games,0.06,0.02,0.00,0.00,0.08
2,14741,Pro Evolution Soccer 2017,XOne,2016.0,Sports,Konami Digital Entertainment,0.00,0.02,0.00,0.00,0.03
3,7072,Naruto Shippuden: Ninja Council 4,DS,2007.0,Action,Nintendo,0.09,0.00,0.13,0.01,0.23
4,7124,The Magic School Bus: Oceans,DS,2011.0,Adventure,Scholastic Inc.,0.21,0.00,0.00,0.01,0.23
...,...,...,...,...,...,...,...,...,...,...,...
548,6186,Hot Wheels: Track Attack,DS,2010.0,Racing,THQ,0.18,0.08,0.00,0.02,0.28
549,10786,Ar tonelico: Melody of Elemia,PS2,2006.0,Role-Playing,505 Games,0.00,0.00,0.10,0.00,0.10
550,7594,"Ni Hao, Kai-lan: New Year's Celebration",DS,2009.0,Misc,Take-Two Interactive,0.19,0.00,0.00,0.01,0.20
551,11237,Petz: Saddle Club,PSP,2009.0,Simulation,Ubisoft,0.08,0.00,0.00,0.01,0.09


1) На данном этапе в придуманную переменную передадим первый тип кодирования - OrdinalEncoder. В следующей строкой указываем двумерный массив с выбранными словесными столбцами. Функция fit вычисляет формулировку для преобразования столбцов на основе стандартного масштабирования, но не применяет фактическое преобразование, поэтому записываем его в переменную.

In [27]:
OE = OrdinalEncoder()
OE.fit(df[['Genre','Publisher']])
df

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
0,13368,Gitaroo Man,PS2,2001.0,Misc,THQ,0.02,0.02,0.00,0.01,0.05
1,11518,Shonen Jump's One Piece: Pirates Carnival,GC,2005.0,Misc,Namco Bandai Games,0.06,0.02,0.00,0.00,0.08
2,14741,Pro Evolution Soccer 2017,XOne,2016.0,Sports,Konami Digital Entertainment,0.00,0.02,0.00,0.00,0.03
3,7072,Naruto Shippuden: Ninja Council 4,DS,2007.0,Action,Nintendo,0.09,0.00,0.13,0.01,0.23
4,7124,The Magic School Bus: Oceans,DS,2011.0,Adventure,Scholastic Inc.,0.21,0.00,0.00,0.01,0.23
...,...,...,...,...,...,...,...,...,...,...,...
548,6186,Hot Wheels: Track Attack,DS,2010.0,Racing,THQ,0.18,0.08,0.00,0.02,0.28
549,10786,Ar tonelico: Melody of Elemia,PS2,2006.0,Role-Playing,505 Games,0.00,0.00,0.10,0.00,0.10
550,7594,"Ni Hao, Kai-lan: New Year's Celebration",DS,2009.0,Misc,Take-Two Interactive,0.19,0.00,0.00,0.01,0.20
551,11237,Petz: Saddle Club,PSP,2009.0,Simulation,Ubisoft,0.08,0.00,0.00,0.01,0.09


с помощью функции "categories_" узнаем, какие именно названия хранятся в переданой переменной. Этот список также может и служить проверкой, ведь данный тип кодирования заменяет на порядковый номер по данному списку. Например, в первой строке столбца Genre стоит слово - Misc, а по нашему только что выведенному списку оно под 4 номером.Необходимо теперь произвести кодирование.

In [28]:
OE.categories_

[array(['Action', 'Adventure', 'Fighting', 'Misc', 'Platform', 'Puzzle',
        'Racing', 'Role-Playing', 'Shooter', 'Simulation', 'Sports',
        'Strategy'], dtype=object),
 array(['1C Company', '3DO', '505 Games', '5pb', 'ASC Games',
        'ASCII Entertainment', 'ASCII Media Works',
        'Acclaim Entertainment', 'Accolade', 'Activision',
        'Activision Value', 'Aksys Games', 'Alchemist', 'Aqua Plus',
        'Atari', 'Avalon Interactive', 'Avanquest', 'BAM! Entertainment',
        'Banpresto', 'Bethesda Softworks', 'Blast! Entertainment Ltd',
        'Broccoli', 'Capcom', 'Cave', 'Cloud Imperium Games Corporation',
        'Codemasters', 'Comfort', 'Compile Heart',
        'Conspiracy Entertainment', 'Crave Entertainment', 'Culture Brain',
        'Cygames', 'D3Publisher', 'Data East', 'Deep Silver',
        'Disney Interactive Studios', 'Eidos Interactive',
        'Electronic Arts', 'Empire Interactive', 'Encore',
        'Enix Corporation', 'Evolved Games', 'Focus Ho

Для самого кодирования обратимся к первоначальным стобцам датасета, к которым, с помощью функции fit_transform, применим замену словесных данных на числовые, как было рассказано в прошлом описании. И всё сходится, элемент Misc находится под 4 номером, но из-за того, что счет начинается с 0, он записал именно 3.

In [29]:
OE = OrdinalEncoder()
df[['Genre','Publisher']] = OE.fit_transform(df[['Genre','Publisher']])
df

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
0,13368,Gitaroo Man,PS2,2001.0,3.0,112.0,0.02,0.02,0.00,0.01,0.05
1,11518,Shonen Jump's One Piece: Pirates Carnival,GC,2005.0,3.0,77.0,0.06,0.02,0.00,0.00,0.08
2,14741,Pro Evolution Soccer 2017,XOne,2016.0,10.0,62.0,0.00,0.02,0.00,0.00,0.03
3,7072,Naruto Shippuden: Ninja Council 4,DS,2007.0,0.0,79.0,0.09,0.00,0.13,0.01,0.23
4,7124,The Magic School Bus: Oceans,DS,2011.0,1.0,98.0,0.21,0.00,0.00,0.01,0.23
...,...,...,...,...,...,...,...,...,...,...,...
548,6186,Hot Wheels: Track Attack,DS,2010.0,6.0,112.0,0.18,0.08,0.00,0.02,0.28
549,10786,Ar tonelico: Melody of Elemia,PS2,2006.0,7.0,2.0,0.00,0.00,0.10,0.00,0.10
550,7594,"Ni Hao, Kai-lan: New Year's Celebration",DS,2009.0,3.0,114.0,0.19,0.00,0.00,0.01,0.20
551,11237,Petz: Saddle Club,PSP,2009.0,9.0,122.0,0.08,0.00,0.00,0.01,0.09


2) Алгоритм работы данного вида кодирования точь-в-точь как OrdinalEncoder. Различием является то, что LabelEncoder предназначен для преобразования целевой переменной(об одномерном массиве), в то время когда в OrdinalEncoder речь идет о "функциях" (о двумерном массиве).

In [30]:
LE = LabelEncoder()
LE.fit(df['Platform'])
df['Platform'] = LE.fit_transform(df['Platform'])
df

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
0,13368,Gitaroo Man,12,2001.0,3.0,112.0,0.02,0.02,0.00,0.01,0.05
1,11518,Shonen Jump's One Piece: Pirates Carnival,6,2005.0,3.0,77.0,0.06,0.02,0.00,0.00,0.08
2,14741,Pro Evolution Soccer 2017,24,2016.0,10.0,62.0,0.00,0.02,0.00,0.00,0.03
3,7072,Naruto Shippuden: Ninja Council 4,3,2007.0,0.0,79.0,0.09,0.00,0.13,0.01,0.23
4,7124,The Magic School Bus: Oceans,3,2011.0,1.0,98.0,0.21,0.00,0.00,0.01,0.23
...,...,...,...,...,...,...,...,...,...,...,...
548,6186,Hot Wheels: Track Attack,3,2010.0,6.0,112.0,0.18,0.08,0.00,0.02,0.28
549,10786,Ar tonelico: Melody of Elemia,12,2006.0,7.0,2.0,0.00,0.00,0.10,0.00,0.10
550,7594,"Ni Hao, Kai-lan: New Year's Celebration",3,2009.0,3.0,114.0,0.19,0.00,0.00,0.01,0.20
551,11237,Petz: Saddle Club,15,2009.0,9.0,122.0,0.08,0.00,0.00,0.01,0.09


И здесь также можно наблюдать, как закодировались данные об платформах в раннее созданную переменную.

In [31]:
LE.classes_

array(['2600', '3DS', 'DC', 'DS', 'GB', 'GBA', 'GC', 'GEN', 'N64', 'NES',
       'PC', 'PS', 'PS2', 'PS3', 'PS4', 'PSP', 'PSV', 'SAT', 'SNES', 'WS',
       'Wii', 'WiiU', 'X360', 'XB', 'XOne'], dtype=object)

3) Перейдем к следующими виду кодирования - OneHotEncode. Использовать его на данном датасете нежелательно, потому что данный способ подходит больше для столбцов с маленьким количеством повторяемых значений. Основная идея горячего кодирования заключается в создании новых переменных, которые принимают значения 0 и 1 для представления исходных категориальных значений, и создает новые столбцы под каждое уникальное значение. Для создание такого кодирования также необхоимо присвоить его в переменную и трансформировать в массив, и следующим шагом уже создавать новые столбцы через трансформацию старого столбца. И чтобы появился новый столбец необходимо удалить старый.

In [33]:
OHE = OneHotEncoder()
OHE.fit_transform(df[['Class']]).toarray()
df[['Class', 'A', 'Б', 'В']] = OHE.fit_transform(df[['Class']]).toarray()
df
df = df.drop(columns='Class')
df

4) Теперь по заданию также необходимо провести нормализацию. Получается вычитаем минимальное значение из каждой записи, а затем делим результат на разница между максимальным значением и минимальным значением. Значения обязательно будут находится в диапозоне от 0 до 1. Здесь все также просто, в переменную передаем нормализацию, дальше указываем столбцы, которые необходимо трансформировать в нормализированный вид. Это необходимо для ускорение получения желаемого результата за счет того, что машине приходится обрабатывать меньший диапазон данных.

In [34]:
N= Normalizer()
df[['Other_Sales', 'Global_Sales']] = N.fit_transform(df[['Other_Sales', 'Global_Sales']])
df

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
0,13368,Gitaroo Man,12,2001.0,3.0,112.0,0.02,0.02,0.00,0.196116,0.980581
1,11518,Shonen Jump's One Piece: Pirates Carnival,6,2005.0,3.0,77.0,0.06,0.02,0.00,0.000000,1.000000
2,14741,Pro Evolution Soccer 2017,24,2016.0,10.0,62.0,0.00,0.02,0.00,0.000000,1.000000
3,7072,Naruto Shippuden: Ninja Council 4,3,2007.0,0.0,79.0,0.09,0.00,0.13,0.043437,0.999056
4,7124,The Magic School Bus: Oceans,3,2011.0,1.0,98.0,0.21,0.00,0.00,0.043437,0.999056
...,...,...,...,...,...,...,...,...,...,...,...
548,6186,Hot Wheels: Track Attack,3,2010.0,6.0,112.0,0.18,0.08,0.00,0.071247,0.997459
549,10786,Ar tonelico: Melody of Elemia,12,2006.0,7.0,2.0,0.00,0.00,0.10,0.000000,1.000000
550,7594,"Ni Hao, Kai-lan: New Year's Celebration",3,2009.0,3.0,114.0,0.19,0.00,0.00,0.049938,0.998752
551,11237,Petz: Saddle Club,15,2009.0,9.0,122.0,0.08,0.00,0.00,0.110432,0.993884


5) Последним пунктом рассмотрим разделение версий. Присваиваем Y - столбец с обучающими данными, а Х - столбец с тестовыми данными. И далле с помощью функции train_test_split разбиваем на выборки. random_state - этот параметр используется для управления перетасовкой, а test_size - это значение с плавающей точкой, значение которого находится в диапазоне от 0 до 1. И теперь каждую отдельную переменную прогоним, чтобы посмотреть, что в ней находится. Но лучше сделать как в последнем оконном коде, где сразу видно сколько теперь элементов относятся к тестовому и обущающему коду.

In [41]:
Y = df['EU_Sales']
X = df['JP_Sales']
x_train, x_test, y_train, y_test = train_test_split(X,Y, test_size=0.2, random_state=42)

In [42]:
x_train

18     0.00
325    0.03
486    0.00
296    0.02
478    0.08
       ... 
71     0.00
106    0.00
270    0.00
435    0.30
102    1.45
Name: JP_Sales, Length: 442, dtype: float64

In [43]:
x_test

548    0.00
82     0.00
523    0.00
332    0.99
132    0.08
       ... 
140    0.00
149    0.27
498    0.00
153    0.00
172    0.00
Name: JP_Sales, Length: 111, dtype: float64

In [44]:
y_train

18     0.00
325    0.00
486    0.01
296    0.00
478    0.00
       ... 
71     0.05
106    0.06
270    0.81
435    0.48
102    1.89
Name: EU_Sales, Length: 442, dtype: float64

In [45]:
y_test

548    0.08
82     0.28
523    0.04
332    0.00
132    0.00
       ... 
140    0.01
149    0.07
498    0.00
153    0.49
172    0.04
Name: EU_Sales, Length: 111, dtype: float64

In [47]:
print('Количестов входных обучающих данных', len(x_train))
print('Количестов проверочных обучающих данных', len(y_train))
print('Количестов входных тестовых данных', len(x_test))
print('Количестов проверочных тестовых данных', len(y_test))

Количестов входных обучающих данных 442
Количестов проверочных обучающих данных 442
Количестов входных тестовых данных 111
Количестов проверочных тестовых данных 111
