# Data Preparation

Готовим данные для использования на моделях. В планах провести масштабирование, замену пропущенных значений, кодирование категорических значений и преобразование текстовых значений в их числовое представление через Bag of Words.

## Import Data

In [1]:
import pandas as pd

In [2]:
anime_dataset = pd.read_csv('./datasets/anime_dataset/anime.csv')

In [3]:
steam_dataset = pd.read_csv('./datasets/games_dataset/steam_clear.csv')

In [4]:
games_dataset = pd.read_csv('./datasets/games_dataset/games_clear.csv')

In [5]:
movies_dataset = pd.read_csv('./datasets/movies_dataset/movies_clear.csv')

## Familiarize with Data

Пройдемся по-подробнее по каждому набору.

### Games

#### Steam

Названия, категории, описания, теги, требования - текстовые столбцы, которые нужно будет преобразовать в вектор признаков. 

Дата выпуска - временной столбец, который по-хорошему лучше преобразовать в числовой.

Разработчик, издатель, жанры - столбцы с категорическими значениями. Будут заменены на числовые значения.

Столбцы наигранного времени, рейтингов и владельцев копий - столбцы, которые нуждаются в масштабировании, так как содержат слишком большие значения. С другой стороны, мы тут не пытаемся предугадать число, нам нужно просто как можно больше признаков. В общем, об этом как-нибудь потом.

In [None]:
steam_dataset.head()

Пропущенные значения у нас есть только в столбцах с требованиями, поэтому можно просто написать No, так как для них не предусмотрены рекомендованные требования, из-за того, что минимальные - максимальные. Да

In [None]:
steam_dataset.info()

#### Game Sales

Столбцы `Total_Shipped` и `Global_Sales` очень похожи, поэтому возьмем только самый свежий.

Название, платформа, разработчик, издатель и жанр - категорические значения. С остальными значениями все в порядке.

In [None]:
games_dataset.head()

Так как в столбце `User_Score` всего 667 значений, его можно удалить. 

В `Critic_Score` достаточно значений для того, чтобы преобразовать пропущенные значения в среднее между ними.

In [None]:
games_dataset.info()

### Movies

Языки, теги, описание и название - столбцы со значениями, в которых есть текст.

Языки и статус - столбцы с категорическими значениями.

Сборы, бюджет и кол-во оценок - столбцы, которые нужно масштабировать.

In [None]:
movies_dataset.head()

Со столбцом `runtime` делаем тоже, что и со столбцом `Critic_Score`.

Проблема с `tagline`. 

Это очень важный столбец и просто удалять его не хочется. 

На среднее значение изменить не получится.

Удалять строки тоже жалко, так как данных и так мало.

In [None]:
movies_dataset.info()

### Anime

Названия, жанры, выпущено, выходило, продюсеры, лицензеры, студии - столбцы с текстом.

Тип, длительность, рейтинг (возрастной) и источник - столбцы с категорическими значениями.

Здесь проще сказать какие значения не надо масштабировать - оценка и кол-во эпизодов.

In [6]:
anime_dataset.head()

Unnamed: 0,MAL_ID,Name,Score,Genres,English name,Japanese name,Type,Episodes,Aired,Premiered,...,Score-10,Score-9,Score-8,Score-7,Score-6,Score-5,Score-4,Score-3,Score-2,Score-1
0,1,Cowboy Bebop,8.78,"Action, Adventure, Comedy, Drama, Sci-Fi, Space",Cowboy Bebop,カウボーイビバップ,TV,26,"Apr 3, 1998 to Apr 24, 1999",Spring 1998,...,229170.0,182126.0,131625.0,62330.0,20688.0,8904.0,3184.0,1357.0,741.0,1580.0
1,5,Cowboy Bebop: Tengoku no Tobira,8.39,"Action, Drama, Mystery, Sci-Fi, Space",Cowboy Bebop:The Movie,カウボーイビバップ 天国の扉,Movie,1,"Sep 1, 2001",Unknown,...,30043.0,49201.0,49505.0,22632.0,5805.0,1877.0,577.0,221.0,109.0,379.0
2,6,Trigun,8.24,"Action, Sci-Fi, Adventure, Comedy, Drama, Shounen",Trigun,トライガン,TV,26,"Apr 1, 1998 to Sep 30, 1998",Spring 1998,...,50229.0,75651.0,86142.0,49432.0,15376.0,5838.0,1965.0,664.0,316.0,533.0
3,7,Witch Hunter Robin,7.27,"Action, Mystery, Police, Supernatural, Drama, ...",Witch Hunter Robin,Witch Hunter ROBIN (ウイッチハンターロビン),TV,26,"Jul 2, 2002 to Dec 24, 2002",Summer 2002,...,2182.0,4806.0,10128.0,11618.0,5709.0,2920.0,1083.0,353.0,164.0,131.0
4,8,Bouken Ou Beet,6.98,"Adventure, Fantasy, Shounen, Supernatural",Beet the Vandel Buster,冒険王ビィト,TV,52,"Sep 30, 2004 to Sep 29, 2005",Fall 2004,...,312.0,529.0,1242.0,1713.0,1068.0,634.0,265.0,83.0,50.0,27.0


Здесь ничего не надо делать, так как пропущенных значений нет. 

Хотелось бы сказать так, но они просто уже заменены на Unknown.

In [7]:
anime_dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17562 entries, 0 to 17561
Data columns (total 35 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   MAL_ID         17562 non-null  int64 
 1   Name           17562 non-null  object
 2   Score          17562 non-null  object
 3   Genres         17562 non-null  object
 4   English name   17562 non-null  object
 5   Japanese name  17562 non-null  object
 6   Type           17562 non-null  object
 7   Episodes       17562 non-null  object
 8   Aired          17562 non-null  object
 9   Premiered      17562 non-null  object
 10  Producers      17562 non-null  object
 11  Licensors      17562 non-null  object
 12  Studios        17562 non-null  object
 13  Source         17562 non-null  object
 14  Duration       17562 non-null  object
 15  Rating         17562 non-null  object
 16  Ranked         17562 non-null  object
 17  Popularity     17562 non-null  int64 
 18  Members        17562 non-n

## Imputing Data

Перед тем, как проводить операции с данными, нужно очистить их от пропущенных значений.

In [None]:
from sklearn.impute import SimpleImputer
import numpy as np

### Games

#### Steam

Напомню, что этот набор содержит пропущенные значения в столбцах с системными требованиями.

In [None]:
steam_dataset = steam_dataset.fillna('No')

#### Game sales

In [None]:
# так как слишком мало, чтобы импутировать 
# и столбец не особо полезный для рекомендаций
del games_dataset['User_Score']

In [None]:
imputer = SimpleImputer()

In [None]:
# выбираем все столбцы с числами, так как если взять только один столбец,
# то sklearn будет кидать ошибку
num_cols = [i for i in games_dataset.columns if games_dataset[i].dtype != 'object']

In [None]:
games_dataset[num_cols] = imputer.fit_transform(games_dataset[num_cols])

In [None]:
# в столбце developer есть всего 2 пропущенных значения
games_dataset = games_dataset.fillna('Unknown')

In [None]:
games_dataset.info()

### Movies

In [None]:
# чтобы показать, что в этих строках есть пропущенные значения
movies_dataset.loc[movies_dataset.tagline.isnull()]

In [None]:
movies_dataset = movies_dataset.fillna(movies_dataset.mode().iloc[0])

In [None]:
# посмотри на столбец tagline
movies_dataset.loc[4802]

### Anime

Пропущенных значений в данном наборе нет.

## Replace Categorical Values

Теперь нужно кодировать категорические значения. 

In [None]:
from sklearn.preprocessing import OrdinalEncoder

In [None]:
# так как нам не важно, каким значением будет число
# лишь бы оно было разное, выбираем самый простой кодировщик
encoder = OrdinalEncoder()

### Games

#### Steam

In [None]:
# все остальные столбцы потом будут преобразованы в сумки слов
cat_cols = ['developer', 'publisher', 'genres']

In [None]:
steam_dataset[cat_cols] = encoder.fit_transform(steam_dataset[cat_cols])

In [None]:
steam_dataset.head()

#### Game sales

In [None]:
# столбец name нам ещё пригодится, да и к тому же его лучше преобразовать в сумку слов
# а не в безликое число
cat_cols = [i for i in games_dataset.columns if games_dataset[i].dtype == 'object' and i != 'Name']

In [None]:
games_dataset[cat_cols] = encoder.fit_transform(games_dataset[cat_cols])

In [None]:
games_dataset.head()

## Movies

In [None]:
# тут тоже, что и с прошлым набором
cat_cols = ['original_language', 'status']

In [None]:
movies_dataset[cat_cols] = encoder.fit_transform(movies_dataset[cat_cols])

In [None]:
movies_dataset.head()

## Anime

In [None]:
# и тут
cat_cols = ['Type', 'Duration', 'Rating', 'Source', 'Premiered']

In [None]:
anime_dataset[cat_cols] = encoder.fit_transform(anime_dataset[cat_cols])

In [None]:
anime_dataset.head()

## Converting Time Data into Different Columns

Все наборы данных содержат в себе необработанные столбцы с выходом того или иного объекта. Со Steam и набором данных по фильмам проблем не возникнет, но вот с аниме нужно делать что-то другое, так как там месяц не числом, а словом.

## Games

Во втором наборе данных нет дат.

In [None]:
# шобы заменить пропущенные значения в наборе данных по аниме
# да, лол, они там есть, но скрытые
from random import randint

In [None]:
# ради того, чтобы быть для всех,
# эта функция усложнилась
def date_to_cols(series, cols):
    new_series = pd.Series(dtype='int64')
    for i in range(len(cols)):
        col = []
        for data in series:
            try:
                # если не получается преобразовать, значит
                # объект - пропущенное значение
                col.append(int(data[i]))
            except:
                # а если объект - пропущенное значение
                # то можно выбрать рандомное значение, просто чтобы все работало
                if i == 0 or i == 3:
                    col.append(randint(0, 12))
                if i == 1 or i == 4:
                    col.append(randint(0, 31))
                if i == 2 or i == 5:
                    col.append(randint(1958, 2021))
        new_series[cols[i]] = col
    return new_series

### Steam

In [None]:
splitted_data = steam_dataset.release_date.str.split('-')

In [None]:
cols=[ 'release_year', 'release_day','release_month']

In [None]:
date_cols = date_to_cols(splitted_data, cols=cols)

In [None]:
steam_dataset[cols] = date_cols

In [None]:
del steam_dataset['release_date']

In [None]:
steam_dataset.head()

## Movies

Делаем тоже самое

In [None]:
splitted_data = movies_dataset.release_date.str.split('-')

In [None]:
date_cols = date_to_cols(splitted_data, cols=cols)

In [None]:
movies_dataset[cols] = date_cols

In [None]:
del movies_dataset['release_date']

In [None]:
movies_dataset.head()

## Anime

In [None]:
# самый простой способ
cleared_date = anime_dataset.Aired.str.replace(',', '')

In [None]:
# regex=false, иначе питончик будет ругаться 
cleared_date = cleared_date.str.replace('?', 'Unknown', regex=False)

In [None]:
# ебаные to, наконец-то, удалены
cleared_date = cleared_date.str.replace('to', '')

In [None]:
# ссаный jupyter ещё не поддерживает 10 версию, поэтому здесь костыли
# вместо нормальных case/switch
replaced_date = []
for date in cleared_date:
    das = date.split()
    # с самого начала задумывалось, что затем строки будут
    # переводиться в числа и так будет проверяться пропущенность значений.
    # Все так и было. Инфа сотка.
    for i in range(len(das)):
        if das[i] == 'Jan':
            date = date.replace(das[i], '01')
        if das[i] == 'Feb':
            date = date.replace(das[i], '02')
        if das[i] == 'Mar':
            date = date.replace(das[i], '03')
        if das[i] == 'Apr':
            date = date.replace(das[i], '04')
        if das[i] == 'May':
            date = date.replace(das[i], '05')
        if das[i] == 'Jun':
            date = date.replace(das[i], '06')
        if das[i] == 'Jul':
            date = date.replace(das[i], '07')
        if das[i] == 'Aug':
            date = date.replace(das[i], '08')
        if das[i] == 'Sep':
            date = date.replace(das[i], '09')
        if das[i] == 'Oct':
            date = date.replace(das[i], '10')
        if das[i] == 'Nov':
            date = date.replace(das[i], '11')
        if das[i] == 'Dec':
            date = date.replace(das[i], '12')
    replaced_date.append(date)

In [None]:
# надо же как-то все это разделить
replaced_date = pd.Series(replaced_date).str.split()

In [None]:
cols = ['release_month', 'release_day', 'release_year', 'end_month', 'end_day', 'end_year']

In [None]:
date_cols = date_to_cols(replaced_date, cols=cols)

In [None]:
anime_dataset[cols] = date_cols

In [None]:
del anime_dataset['Aired']

In [None]:
anime_dataset.head()

да, из-за того, что были добавлены рандомные значения, теперь в наборе шумы,

да, можно было бы на основе вышедших серий просчитать когда аниме вышло,

зато теперь все столбцы с датами обработаны.

## Transform Text into Feature Vector

В планах создать трансформер, который потом будет использоваться в пайплайне.

Трансформер будет использовать подход Bag of Words, внутри которого строки будут очищаться от знаков препинания, а слова подвергаться стеммингу. Черт, внутри описаний в стиме есть ссылки и html-разметка. Придется и это убирать тоже.

Забавно, но класс преобразования емейла в вектор - почти тоже самое, что и у меня здесь, за исключением того, что там это работает на всех и сразу.

In [None]:
import re
from sklearn.base import BaseEstimator, TransformerMixin
from urlextract import URLExtract
from nltk.stem.porter import PorterStemmer
from collections import Counter

In [None]:
def remove_punctuation(str, list):
    for sign in list:
        str = str.replace(sign, '')
    return str

In [None]:
def remove_html_tags(str):
    html_tag = ''
    new_str = str
    start = False
    for i in range(len(str)):
        if str[i] == '<':
            html_tag += str[i]
            start = True
        if start and str[i] != '<':
            html_tag += str[i]
        if str[i] == '>':
            start = False
            new_str = new_str.replace(html_tag, '')
            html_tag = ''
    return new_str

## Design Vectors from All Texts

In [None]:
class TextToVectorCounter(BaseEstimator, TransformerMixin):
    def __init__(self, to_lower=True, remove_punctuation=True, stemming=True, replace_nums=True,
                       replace_urls=True, remove_html_tags=True):
        self.to_lower = to_lower
        self.remove_punctuation = remove_punctuation
        self.replace_nums = replace_nums
        self.replace_urls = replace_urls
        self.stemming = stemming
        self.remove_html_tags = remove_html_tags
    def fit(self, dataset, label=None):
        return self
    def transform(self, dataset, label=None):
        vector = []
        for text in dataset:
            if self.to_lower:
                text = text.lower()
            if self.replace_urls:
                list_of_urls = URLExtract().find_urls(text)
                for url in list_of_urls:
                    text = text.replace(url, 'URL')
            if self.remove_punctuation:
                text = remove_punctuation(text, ['.', ',', '?', ':', ';', '[', ']',
                                                 '!', '(', ')', '-', "'", '}', '{'])
            if self.replace_nums:
                text = re.sub(r'\d+(?:\.\d*)?(?:[eE][+-]?\d+)?', 'NUMBER', text)
            if self.remove_html_tags:
                text = remove_html_tags(text)
            # так будет быстрее, за счет меньшего количества операций
            words_count = Counter(text.split())
            if self.stemming:
                stemmed_words = {}
                for word, count in words_count.items():
                    stemmed_word = PorterStemmer().stem(word)
                    stemmed_words[stemmed_word] = count
                words_count = stemmed_words
            vector.append(words_count)
        return vector

## Create Vector of Words for All Texts in One

Код внизу вдохновлялся (нагло сворован) отсюда: https://github.com/ageron/handson-ml2/blob/master/03_classification.ipynb

In [None]:
from scipy.sparse import csr_matrix
from sklearn.pipeline import Pipeline

In [None]:
class VectorCounterToFeature(BaseEstimator, TransformerMixin):
    def __init__(self, vocabulary_size=1000):
        self.vocab_size = vocabulary_size
    def fit(self, dataset, label=None):
        # все ради сокращения кода и функции most_common
        total_counts = Counter()
        self.vocabulary = {}
        for data in dataset:
            for word, count in data.items():
                # кажется, что бессмысленно
                # но на самом деле мы в одном словаре собираем все словари
                # а минимальное - для того, чтобы не было разброса данных
                total_counts[word] += min(count, 10)
        # так как иначе можно получить бесконечную матрицу признаков.
        # а так у нас установленное значение
        most_common = total_counts.most_common()[:self.vocab_size]
        for index, word in enumerate(most_common):
            self.vocabulary[word[0]] = index
        return self
    def transform(self, dataset, label=None):
        rows = []
        data = []
        cols = []
        # на вход попадает total_counts из метода fit
        # enumerate для того, чтобы содержать количество итераций
        # в общем, равносильно обычному счетчику, но для итерируемого объекта
        for row, word_counts in enumerate(dataset):
            # если что, то за счет именно функции get мы получаем матрицу с нулями
            for word, count in word_counts.items():
                rows.append(row)
                # если ничего не нашлось, то 0
                cols.append(self.vocabulary.get(word, 0))
                # в каждом элементе строки у нас будут числа
                # означающие количество появлений слова
                data.append(count)
        return csr_matrix((data, (rows, cols)), shape=(len(dataset), self.vocab_size+1))

In [None]:
text_to_nums = Pipeline([('TextToCounter', TextToVectorCounter()),
                         ('CounterToFeature', VectorCounterToFeature())], verbose=True)

18 минут на то, чтобы преобразовать полностью один столбец с описаниями. Жепа.

### Implement Bag of Words on Dataset

In [None]:
def implement_vectorizer(dataset):
    list_of_matrices = []
    text_cols = [i for i in dataset.columns if dataset[i].dtype == 'object']
    for col in text_cols:
        list_of_matrices.append(text_to_nums.fit_transform(dataset[col]))
    return list_of_matrices

#### Steam

С помощью данных словарей, мы, после того, как модель выдаст рекомендации, сможем взять айди и найти по этому айди название предмета.

In [None]:
steam_appid = steam_dataset.appid
steam_names = steam_dataset.name

In [None]:
appid_name_dict = dict(zip(steam_appid, steam_names))
name_appid_dict = dict(zip(steam_names, steam_appid))

Как оказалось, у нас есть три похожих столбца с описаниями, поэтому один мы удалим.

In [None]:
del steam_dataset['about_the_game']

Первое значение в столбце - количество слов за пределом словаря. 

Все остальные значения - как много раз слово присутствовало в тексте.

In [None]:
steam_matrices = implement_vectorizer(steam_dataset)

In [None]:
tags_in_num = text_to_nums.fit_transform(steam_dataset.tags)

#### Games sales

Напомню, что здесь нет текстовых столбцов.

In [187]:
games_dataset['Index'] = [i*10 for i in range(len(games_dataset))]

In [None]:
ids = games_dataset.Index
names = games_dataset.Name

In [None]:
gam_id_name_dict = dict(zip(ids, names))
gam_name_id_dict = dict(zip(names, ids))

#### Movies

In [None]:
ids = movies_dataset.id
names = movies_dataset.title

In [None]:
mov_id_name_dict = dict(zip(ids, names))
mov_name_id_dict = dict(zip(names, ids))

In [None]:
movies_matrices = implement_vectorizer(movies_dataset)

#### Anime

Как мне кажется, от японского названия нет толку, поэтому просто удалим его.

In [None]:
del anime_dataset['Japanese name']

Разделение для того, чтобы, ну кто знает этих людей, вдруг кому-то придет в голову кинуть название на английском языке. А шо.

In [8]:
ids = anime_dataset.MAL_ID
jap_names = anime_dataset.Name
en_names = anime_dataset['English name']

In [9]:
an_id_name_dict_jap = dict(zip(ids, jap_names))
an_id_name_dict_en = dict(zip(ids, en_names))
an_name_id_dict_jap = dict(zip(jap_names, ids))
an_name_id_dict_en = dict(zip(en_names, ids))

Почему это здесь - не знаю. Просто все это время я не замечал, что у меня оценки в виде объектов, из-за того, что там были пропущенные значения.

In [None]:
scores = [i for i in anime_dataset.columns if i.split('-')[0] == 'Score']

In [None]:
anime_dataset[scores] = anime_dataset[scores].replace('Unknown', '0')

In [None]:
anime_dataset[scores] = anime_dataset[scores].astype('float64')

In [None]:
anime_matrices = implement_vectorizer(anime_dataset)

## Simple Data Visualization

### Steam

Столбец appid не трогаем потому, что это индексы, они не будут даже использоваться, english уже в диапазоне от 0 до 1.

Все остальные столбцы идут под нормализацию.

In [None]:
steam_dataset.hist(figsize=(25, 25))

### Games

Здесь также все, кроме индекса.

In [None]:
games_dataset.hist(figsize=(25, 25))

### Movies

`vote_average` выглядит так, как будто уже нормально распределен. `id` -  индекс. Все остальное - под нормализацию.

In [None]:
movies_dataset.hist(figsize=(25, 25))

### Anime

Все, кроме индекса, под нормализацию.

In [None]:
anime_dataset.hist(figsize=(25, 25))

А чо вы хотели от того, кто не шарит в статистике?

## Data Normalization

In [None]:
from sklearn.preprocessing import MinMaxScaler

In [182]:
scaler = MinMaxScaler()

In [181]:
def implement_scaler(dataset):
    num_cols = [i for i in dataset.columns if dataset[i].dtype != 'object' and i not in ['Index', 'appid', 'MAL_ID', 'id']]
    scaled_cols = scaler.fit_transform(dataset[num_cols])
    return scaled_cols, num_cols

### Steam

In [None]:
steam_dataset['owners'] = [int(i.split('-')[1]) for i in steam_dataset.owners]

In [183]:
scaled_nums, cols = implement_scaler(steam_dataset)

Я опять не заметил, что данные немного не обработаны.

In [184]:
steam_dataset[cols] = scaled_nums

In [185]:
steam_dataset.head()

Unnamed: 0,appid,name,english,developer,publisher,categories,genres,achievements,positive_ratings,negative_ratings,...,owners,price,detailed_description,short_description,minimum,recommended,tags,release_month,release_day,release_year
0,0.0,Counter-Strike,1.0,0.88355,0.879696,Multi-player;Online Multi-Player;Local Multi-P...,0.00129,0.0,0.047093,0.006855,...,0.09991,0.017038,Play the world's number 1 online action game. ...,Play the world's number 1 online action game. ...,"500 mhz processor, 96mb ram, 16mb video card, ...",No,"{'pvp', 'military', 'shooter', 'team_based', '...",0.136364,0.909091,0.0
1,9e-06,Team Fortress Classic,1.0,0.88355,0.879696,Multi-player;Online Multi-Player;Local Multi-P...,0.00129,0.0,0.001255,0.0013,...,0.049905,0.009455,One of the most popular online action games of...,One of the most popular online action games of...,"500 mhz processor, 96mb ram, 16mb video card, ...",No,"{'first_person', 'fast_paced', 'mod', 'multipl...",0.090909,0.272727,0.0
2,1.9e-05,Day of Defeat,1.0,0.88355,0.879696,Multi-player;Valve Anti-Cheat enabled,0.00129,0.0,0.001292,0.000817,...,0.049905,0.009455,Enlist in an intense brand of Axis vs. Allied ...,Enlist in an intense brand of Axis vs. Allied ...,"500 mhz processor, 96mb ram, 16mb video card, ...",No,"{'tactical', 'historical', 'team_based', 'mult...",0.272727,0.363636,0.0
3,2.8e-05,Deathmatch Classic,1.0,0.88355,0.879696,Multi-player;Online Multi-Player;Local Multi-P...,0.00129,0.0,0.000481,0.000548,...,0.049905,0.009455,Enjoy fast-paced multiplayer gaming with Death...,Enjoy fast-paced multiplayer gaming with Death...,"500 mhz processor, 96mb ram, 16mb video card, ...",No,"{'multiplayer', 'shooter', 'action', 'sci_fi',...",0.181818,0.454545,0.0
4,3.7e-05,Half-Life: Opposing Force,1.0,0.330586,0.879696,Single-player;Multi-player;Valve Anti-Cheat en...,0.00129,0.0,0.001985,0.000591,...,0.049905,0.009455,Return to the Black Mesa Research Facility as ...,Return to the Black Mesa Research Facility as ...,"500 mhz processor, 96mb ram, 16mb video card, ...",No,"{'masterpiece', 'gore', 'silent_protagonist', ...",0.090909,0.909091,0.0


### Games

In [191]:
scaled_nums, cols = implement_scaler(games_dataset)

In [192]:
games_dataset[cols] = scaled_nums

In [193]:
games_dataset.head()

Unnamed: 0,Name,Platform_x,Publisher_x,Developer,Critic_Score,Total_Shipped,Year_x,Genre,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales,Index
0,Wii Sports,0.848485,0.613357,0.602076,0.744444,1.0,0.690476,0.909091,1.0,1.0,0.523611,0.800378,1.0,10
1,Super Mario Bros.,0.333333,0.613357,0.602076,1.0,0.485342,0.190476,0.363636,0.700892,0.123363,0.945833,0.072848,0.486281,11
2,Mario Kart Wii,0.848485,0.613357,0.602076,0.8,0.450115,0.738095,0.545455,0.38202,0.443832,0.526389,0.31315,0.432854,12
3,Minecraft,0.424242,0.565905,0.564014,1.0,0.399807,0.785714,0.272727,0.13449,0.097519,0.002778,0.072848,0.111084,13
4,Wii Sports Resort,0.848485,0.613357,0.602076,0.777778,0.399566,0.761905,0.909091,0.37961,0.379394,0.455556,0.280038,0.398767,14


## Movies

In [194]:
scaled_nums, cols = implement_scaler(movies_dataset)

In [195]:
movies_dataset[cols] = scaled_nums

In [196]:
movies_dataset.head()

Unnamed: 0,budget,genres,id,keywords,original_language,original_title,overview,popularity,production_companies,production_countries,...,runtime,spoken_languages,status,tagline,title,vote_average,vote_count,release_month,release_day,release_year
0,0.623684,"[28, 12, 14, 878]",19995,"[1463, 2964, 3386, 3388, 3679, 3801, 9685, 984...",0.194444,Avatar,"In the 22nd century, a paraplegic Marine is di...",0.171815,"[289, 306, 444, 574]","['us', 'gb']",...,0.47929,"['en', 'es']",0.5,Enter the World of Pandora.,Avatar,0.72,0.858057,0.920792,1.0,0.3
1,0.789474,"[12, 14, 28]",285,"[270, 726, 911, 1319, 2038, 2052, 2580, 2660, ...",0.194444,Pirates of the Caribbean: At World's End,"Captain Barbossa, long believed to be dead, ha...",0.158846,"[2, 130, 19936]",['us'],...,0.5,['en'],0.5,"At the end of the world, the adventure begins.",Pirates of the Caribbean: At World's End,0.69,0.327225,0.90099,0.363636,0.6
2,0.644737,"[28, 12, 80]",206647,"[470, 818, 4289, 9663, 145556, 156095, 158431]",0.194444,Spectre,A cryptic message from Bond’s past sends him o...,0.122635,"[5, 10761, 2469434]","['gb', 'us']",...,0.43787,"['fr', 'en', 'es', 'it', 'de']",0.5,A Plan No One Escapes,Spectre,0.63,0.324753,0.980198,0.818182,0.833333
3,0.657895,"[28, 80, 18, 53]",49026,"[849, 853, 949, 1308, 1437, 3051, 3562, 6969, ...",0.194444,The Dark Knight Rises,Following the death of District Attorney Harve...,0.128272,"[923, 6194, 9993, 9996]",['us'],...,0.488166,['en'],0.5,The Legend Ends,The Dark Knight Rises,0.76,0.662158,0.950495,0.545455,0.5
4,0.684211,"[28, 12, 878]",49529,"[818, 839, 1456, 3801, 7376, 9951, 10028, 1053...",0.194444,John Carter,"John Carter is a war-weary, former military ca...",0.050169,[2],['us'],...,0.390533,['en'],0.5,"Lost in our world, found in another.",John Carter,0.61,0.15445,0.950495,0.181818,0.2


## Anime

В очередной раз ссаные пропущенные значения портят все.

In [206]:
anime_dataset['Episodes'] = anime_dataset.Episodes.replace('Unknown', '0').astype('int64')

In [207]:
scaled_nums, cols = implement_scaler(anime_dataset)

In [208]:
anime_dataset[cols] = scaled_nums

In [209]:
anime_dataset.head()

Unnamed: 0,MAL_ID,Name,Score,Genres,English name,Type,Episodes,Premiered,Producers,Licensors,...,Score-4,Score-3,Score-2,Score-1,release_month,release_day,release_year,end_month,end_day,end_year
0,1,Cowboy Bebop,0.955386,"Action, Adventure, Comedy, Drama, Sci-Fi, Space",Cowboy Bebop,0.833333,0.008505,0.404348,Bandai Visual,"Funimation, Bandai Entertainment",...,0.039234,0.030699,0.029207,0.046815,0.001978,0.001484,0.988125,0.001979,0.011875,0.650794
1,5,Cowboy Bebop: Tengoku no Tobira,0.912949,"Action, Drama, Mystery, Sci-Fi, Space",Cowboy Bebop:The Movie,0.0,0.000327,0.743478,"Sunrise, Bandai Visual",Sony Pictures Entertainment,...,0.00711,0.005,0.004296,0.01123,0.004451,0.000495,0.989609,0.004948,0.015339,0.761905
2,6,Trigun,0.896627,"Action, Sci-Fi, Adventure, Comedy, Drama, Shounen",Trigun,0.833333,0.008505,0.404348,Victor Entertainment,"Funimation, Geneon Entertainment USA",...,0.024213,0.015021,0.012455,0.015793,0.001978,0.000495,0.988125,0.004453,0.014844,0.634921
3,7,Witch Hunter Robin,0.791077,"Action, Mystery, Police, Supernatural, Drama, ...",Witch Hunter Robin,0.833333,0.008505,0.656522,"TV Tokyo, Bandai Visual, Dentsu, Victor Entert...","Funimation, Bandai Entertainment",...,0.013345,0.007986,0.006464,0.003881,0.003462,0.00099,0.990104,0.005938,0.011875,0.698413
4,8,Bouken Ou Beet,0.759521,"Adventure, Fantasy, Shounen, Supernatural",Beet the Vandel Buster,0.833333,0.01701,0.173913,"TV Tokyo, Dentsu",Unknown,...,0.003265,0.001878,0.001971,0.0008,0.004451,0.014844,0.991094,0.004453,0.014349,0.746032
