# Clearing Datasets

Из-за того, что было взято несколько разных наборов по играм, нужно их соединить в один. Ну, или хотя бы те, которые наиболее похожи между собой.

Ещё в данных есть значения, которые могут стать шумом.

## Import data

In [1]:
import pandas as pd

### Games

Здесь сразу несколько наборов, взятых отсюда: 

Video Game Sales Data - https://www.kaggle.com/holmjason2/videogamedata

Video Game Sales - https://www.kaggle.com/gregorut/videogamesales

Steam Store Games - https://www.kaggle.com/nikdavis/steam-store-games

#### Game sales

Данные по играм и их продажам. Для рекомендательных систем, скорее всего, не подойдет.

Соединение между `game_sales` и `vgsales` будет происходить на основе столбца `Name`.

Совсем не нужный, даже, можно сказать, вредный столбец - `Rank` - будет удален. Все остальные останутся.

In [2]:
game_sales = pd.read_csv('./datasets/games_dataset/old_data/game_sales_data.csv')

In [3]:
game_sales.head()

Unnamed: 0,Rank,Name,Platform,Publisher,Developer,Critic_Score,User_Score,Total_Shipped,Year
0,1,Wii Sports,Wii,Nintendo,Nintendo EAD,7.7,8.0,82.9,2006
1,2,Super Mario Bros.,NES,Nintendo,Nintendo EAD,10.0,8.2,40.24,1985
2,3,Counter-Strike: Global Offensive,PC,Valve,Valve Corporation,8.0,7.5,40.0,2012
3,4,Mario Kart Wii,Wii,Nintendo,Nintendo EAD,8.2,9.1,37.32,2008
4,5,PLAYERUNKNOWN'S BATTLEGROUNDS,PC,PUBG Corporation,PUBG Corporation,8.6,4.7,36.6,2017


In [4]:
vgsales = pd.read_csv('./datasets/games_dataset/old_data/vgsales.csv')

In [5]:
vgsales.head()

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
0,1,Wii Sports,Wii,2006.0,Sports,Nintendo,41.49,29.02,3.77,8.46,82.74
1,2,Super Mario Bros.,NES,1985.0,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24
2,3,Mario Kart Wii,Wii,2008.0,Racing,Nintendo,15.85,12.88,3.79,3.31,35.82
3,4,Wii Sports Resort,Wii,2009.0,Sports,Nintendo,15.75,11.01,3.28,2.96,33.0
4,5,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,Nintendo,11.27,8.89,10.22,1.0,31.37


Набор данных по играм из Steam. Наверное, лучший набор по играм, так как содержит много важных признаков. Очень хороший столбец `appid` есть во всех DataFrame, так что их соединение будет самым простым.

In [6]:
steam = pd.read_csv('./datasets/games_dataset/old_data/steam.csv')

In [7]:
steam.head()

Unnamed: 0,appid,name,release_date,english,developer,publisher,platforms,required_age,categories,genres,steamspy_tags,achievements,positive_ratings,negative_ratings,average_playtime,median_playtime,owners,price
0,10,Counter-Strike,2000-11-01,1,Valve,Valve,windows;mac;linux,0,Multi-player;Online Multi-Player;Local Multi-P...,Action,Action;FPS;Multiplayer,0,124534,3339,17612,317,10000000-20000000,7.19
1,20,Team Fortress Classic,1999-04-01,1,Valve,Valve,windows;mac;linux,0,Multi-player;Online Multi-Player;Local Multi-P...,Action,Action;FPS;Multiplayer,0,3318,633,277,62,5000000-10000000,3.99
2,30,Day of Defeat,2003-05-01,1,Valve,Valve,windows;mac;linux,0,Multi-player;Valve Anti-Cheat enabled,Action,FPS;World War II;Multiplayer,0,3416,398,187,34,5000000-10000000,3.99
3,40,Deathmatch Classic,2001-06-01,1,Valve,Valve,windows;mac;linux,0,Multi-player;Online Multi-Player;Local Multi-P...,Action,Action;FPS;Multiplayer,0,1273,267,258,184,5000000-10000000,3.99
4,50,Half-Life: Opposing Force,1999-11-01,1,Gearbox Software,Valve,windows;mac;linux,0,Single-player;Multi-player;Valve Anti-Cheat en...,Action,FPS;Action;Sci-fi,0,5250,288,624,415,5000000-10000000,3.99


Описания, как мне кажется, могут очень сильно повлиять на рекомендации.

In [8]:
steam_desc = pd.read_csv('./datasets/games_dataset/old_data/steam_description_data.csv')

In [9]:
steam_desc.head()

Unnamed: 0,steam_appid,detailed_description,about_the_game,short_description
0,10,Play the world's number 1 online action game. ...,Play the world's number 1 online action game. ...,Play the world's number 1 online action game. ...
1,20,One of the most popular online action games of...,One of the most popular online action games of...,One of the most popular online action games of...
2,30,Enlist in an intense brand of Axis vs. Allied ...,Enlist in an intense brand of Axis vs. Allied ...,Enlist in an intense brand of Axis vs. Allied ...
3,40,Enjoy fast-paced multiplayer gaming with Death...,Enjoy fast-paced multiplayer gaming with Death...,Enjoy fast-paced multiplayer gaming with Death...
4,50,Return to the Black Mesa Research Facility as ...,Return to the Black Mesa Research Facility as ...,Return to the Black Mesa Research Facility as ...


Требования системы тоже могут повлиять. Возможно, из-за этого, придется запрашивать сразу несколько объектов для точной рекомендации. 

Конкретно здесь - берем только minimum и recommended. Так как в других тоже самое, но неочищенное.

In [10]:
steam_req = pd.read_csv('./datasets/games_dataset/old_data/steam_requirements_data.csv')

In [11]:
steam_req.head()

Unnamed: 0,steam_appid,pc_requirements,mac_requirements,linux_requirements,minimum,recommended
0,10,{'minimum': '\r\n\t\t\t<p><strong>Minimum:</st...,{'minimum': 'Minimum: OS X Snow Leopard 10.6....,"{'minimum': 'Minimum: Linux Ubuntu 12.04, Dual...","500 mhz processor, 96mb ram, 16mb video card, ...",
1,20,{'minimum': '\r\n\t\t\t<p><strong>Minimum:</st...,{'minimum': 'Minimum: OS X Snow Leopard 10.6....,"{'minimum': 'Minimum: Linux Ubuntu 12.04, Dual...","500 mhz processor, 96mb ram, 16mb video card, ...",
2,30,{'minimum': '\r\n\t\t\t<p><strong>Minimum:</st...,{'minimum': 'Minimum: OS X Snow Leopard 10.6....,"{'minimum': 'Minimum: Linux Ubuntu 12.04, Dual...","500 mhz processor, 96mb ram, 16mb video card, ...",
3,40,{'minimum': '\r\n\t\t\t<p><strong>Minimum:</st...,{'minimum': 'Minimum: OS X Snow Leopard 10.6....,"{'minimum': 'Minimum: Linux Ubuntu 12.04, Dual...","500 mhz processor, 96mb ram, 16mb video card, ...",
4,50,{'minimum': '\r\n\t\t\t<p><strong>Minimum:</st...,{'minimum': 'Minimum: OS X Snow Leopard 10.6....,"{'minimum': 'Minimum: Linux Ubuntu 12.04, Dual...","500 mhz processor, 96mb ram, 16mb video card, ...",


Здесь у нас содержатся теги в виде столбцов со значениями проголосовавших за тег для каждого объекта. 

Если оставить так, то, скорее всего, модель будет обучаться бесконечно. Я не проверял.

In [12]:
steamspy = pd.read_csv('./datasets/games_dataset/old_data/steamspy_tag_data.csv')

In [13]:
steamspy.head()

Unnamed: 0,appid,1980s,1990s,2.5d,2d,2d_fighter,360_video,3d,3d_platformer,3d_vision,...,warhammer_40k,web_publishing,werewolves,western,word_game,world_war_i,world_war_ii,wrestling,zombies,e_sports
0,10,144,564,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,550
1,20,0,71,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,30,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,5,122,0,0,0
3,40,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,50,0,77,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


### Movies

Мне не особо нравится этот набор данных, так как мало полезных признаков, но что есть то есть.

Взят отсюда: 
TMDB 5000 Movie Dataset - https://www.kaggle.com/tmdb/tmdb-movie-metadata

In [14]:
movies = pd.read_csv('./datasets/movies_dataset/tmdb_5000_movies.csv')

In [15]:
movies.head()

Unnamed: 0,budget,genres,homepage,id,keywords,original_language,original_title,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,vote_average,vote_count
0,237000000,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""nam...",http://www.avatarmovie.com/,19995,"[{""id"": 1463, ""name"": ""culture clash""}, {""id"":...",en,Avatar,"In the 22nd century, a paraplegic Marine is di...",150.437577,"[{""name"": ""Ingenious Film Partners"", ""id"": 289...","[{""iso_3166_1"": ""US"", ""name"": ""United States o...",2009-12-10,2787965087,162.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}, {""iso...",Released,Enter the World of Pandora.,Avatar,7.2,11800
1,300000000,"[{""id"": 12, ""name"": ""Adventure""}, {""id"": 14, ""...",http://disney.go.com/disneypictures/pirates/,285,"[{""id"": 270, ""name"": ""ocean""}, {""id"": 726, ""na...",en,Pirates of the Caribbean: At World's End,"Captain Barbossa, long believed to be dead, ha...",139.082615,"[{""name"": ""Walt Disney Pictures"", ""id"": 2}, {""...","[{""iso_3166_1"": ""US"", ""name"": ""United States o...",2007-05-19,961000000,169.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}]",Released,"At the end of the world, the adventure begins.",Pirates of the Caribbean: At World's End,6.9,4500
2,245000000,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""nam...",http://www.sonypictures.com/movies/spectre/,206647,"[{""id"": 470, ""name"": ""spy""}, {""id"": 818, ""name...",en,Spectre,A cryptic message from Bond’s past sends him o...,107.376788,"[{""name"": ""Columbia Pictures"", ""id"": 5}, {""nam...","[{""iso_3166_1"": ""GB"", ""name"": ""United Kingdom""...",2015-10-26,880674609,148.0,"[{""iso_639_1"": ""fr"", ""name"": ""Fran\u00e7ais""},...",Released,A Plan No One Escapes,Spectre,6.3,4466
3,250000000,"[{""id"": 28, ""name"": ""Action""}, {""id"": 80, ""nam...",http://www.thedarkknightrises.com/,49026,"[{""id"": 849, ""name"": ""dc comics""}, {""id"": 853,...",en,The Dark Knight Rises,Following the death of District Attorney Harve...,112.31295,"[{""name"": ""Legendary Pictures"", ""id"": 923}, {""...","[{""iso_3166_1"": ""US"", ""name"": ""United States o...",2012-07-16,1084939099,165.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}]",Released,The Legend Ends,The Dark Knight Rises,7.6,9106
4,260000000,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""nam...",http://movies.disney.com/john-carter,49529,"[{""id"": 818, ""name"": ""based on novel""}, {""id"":...",en,John Carter,"John Carter is a war-weary, former military ca...",43.926995,"[{""name"": ""Walt Disney Pictures"", ""id"": 2}]","[{""iso_3166_1"": ""US"", ""name"": ""United States o...",2012-03-07,284139100,132.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}]",Released,"Lost in our world, found in another.",John Carter,6.1,2124


### Anime

Взят отсюда: 

Anime Recommendation Database 2020 -  https://www.kaggle.com/hernan4444/anime-recommendation-database-2020

Среди всех наборов данных - самый лучший, так как очень много информации. Наверное, рекомендации по аниме будут самыми точными. Здесь даже делать больше ничего не надо, просто закинул в модель и ждешь рекомендаций.

In [16]:
anime = pd.read_csv('./datasets/anime_dataset/anime.csv')

In [17]:
anime.head()

Unnamed: 0,MAL_ID,Name,Score,Genres,English name,Japanese name,Type,Episodes,Aired,Premiered,...,Score-10,Score-9,Score-8,Score-7,Score-6,Score-5,Score-4,Score-3,Score-2,Score-1
0,1,Cowboy Bebop,8.78,"Action, Adventure, Comedy, Drama, Sci-Fi, Space",Cowboy Bebop,カウボーイビバップ,TV,26,"Apr 3, 1998 to Apr 24, 1999",Spring 1998,...,229170.0,182126.0,131625.0,62330.0,20688.0,8904.0,3184.0,1357.0,741.0,1580.0
1,5,Cowboy Bebop: Tengoku no Tobira,8.39,"Action, Drama, Mystery, Sci-Fi, Space",Cowboy Bebop:The Movie,カウボーイビバップ 天国の扉,Movie,1,"Sep 1, 2001",Unknown,...,30043.0,49201.0,49505.0,22632.0,5805.0,1877.0,577.0,221.0,109.0,379.0
2,6,Trigun,8.24,"Action, Sci-Fi, Adventure, Comedy, Drama, Shounen",Trigun,トライガン,TV,26,"Apr 1, 1998 to Sep 30, 1998",Spring 1998,...,50229.0,75651.0,86142.0,49432.0,15376.0,5838.0,1965.0,664.0,316.0,533.0
3,7,Witch Hunter Robin,7.27,"Action, Mystery, Police, Supernatural, Drama, ...",Witch Hunter Robin,Witch Hunter ROBIN (ウイッチハンターロビン),TV,26,"Jul 2, 2002 to Dec 24, 2002",Summer 2002,...,2182.0,4806.0,10128.0,11618.0,5709.0,2920.0,1083.0,353.0,164.0,131.0
4,8,Bouken Ou Beet,6.98,"Adventure, Fantasy, Shounen, Supernatural",Beet the Vandel Buster,冒険王ビィト,TV,52,"Sep 30, 2004 to Sep 29, 2005",Fall 2004,...,312.0,529.0,1242.0,1713.0,1068.0,634.0,265.0,83.0,50.0,27.0


In [18]:
anime.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17562 entries, 0 to 17561
Data columns (total 35 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   MAL_ID         17562 non-null  int64 
 1   Name           17562 non-null  object
 2   Score          17562 non-null  object
 3   Genres         17562 non-null  object
 4   English name   17562 non-null  object
 5   Japanese name  17562 non-null  object
 6   Type           17562 non-null  object
 7   Episodes       17562 non-null  object
 8   Aired          17562 non-null  object
 9   Premiered      17562 non-null  object
 10  Producers      17562 non-null  object
 11  Licensors      17562 non-null  object
 12  Studios        17562 non-null  object
 13  Source         17562 non-null  object
 14  Duration       17562 non-null  object
 15  Rating         17562 non-null  object
 16  Ranked         17562 non-null  object
 17  Popularity     17562 non-null  int64 
 18  Members        17562 non-n

У меня есть теория, что модель, основанная на предметах, будет лучше работать, если добавить к её признакам описание объекта. Все же, мы делаем свои рекомендации на основе именно содержимого, а не сухих данных.

In [19]:
synopsis = pd.read_csv('./datasets/anime_dataset/anime_with_synopsis.csv')

In [20]:
synopsis.head()

Unnamed: 0,MAL_ID,Name,Score,Genres,sypnopsis
0,1,Cowboy Bebop,8.78,"Action, Adventure, Comedy, Drama, Sci-Fi, Space","In the year 2071, humanity has colonized sever..."
1,5,Cowboy Bebop: Tengoku no Tobira,8.39,"Action, Drama, Mystery, Sci-Fi, Space","other day, another bounty—such is the life of ..."
2,6,Trigun,8.24,"Action, Sci-Fi, Adventure, Comedy, Drama, Shounen","Vash the Stampede is the man with a $$60,000,0..."
3,7,Witch Hunter Robin,7.27,"Action, Mystery, Police, Supernatural, Drama, ...",ches are individuals with special powers like ...
4,8,Bouken Ou Beet,6.98,"Adventure, Fantasy, Shounen, Supernatural",It is the dark century and the people are suff...


In [21]:
synopsis.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16214 entries, 0 to 16213
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   MAL_ID     16214 non-null  int64 
 1   Name       16214 non-null  object
 2   Score      16214 non-null  object
 3   Genres     16214 non-null  object
 4   sypnopsis  16206 non-null  object
dtypes: int64(1), object(4)
memory usage: 633.5+ KB


## Data Preparation before Merging

Перед тем, как соединить данные, нужно отобрать нужные признаки и преобразовать их.

### Steam

Сначала надо что-то сделать с тегами из steamspy. Так как там очень много столбцов, что может привести к недообучению модели.

Первая идея: создать словарь из столбцов и их значений. Если 0, то не добавляем в словарь этот столбец.

In [22]:
all_tags_with_id = []
cols = steamspy.columns
for i in range(len(steamspy)):
    row = steamspy.loc[i]
    tags_with_id = {}
    tags = set()
    for elem in row:
        # так как DataFrame похож на One-Hot Encoding, можно брать только те значения,
        # которые не равны 0.
        if elem != 0:
            index = pd.Index(row).get_loc(elem)
            col = cols[index]
            # из-за того, что появляются списки с несколькими названиями столбцов
            # пришлось отбросить все, кроме первого, так как первым может быть 
            # id приложения.
            if 'pandas.core.indexes.base.Index' in str(type(col)):
                col = str(col[0])
            if col == 'appid':
                tags_with_id[col] = elem
            if col != 'appid':
                tags.add(col)
    tags_with_id['tags'] = tags
    all_tags_with_id.append(tags_with_id)

Значения мы отбросили и оставили только названия.

In [23]:
tags = pd.DataFrame(all_tags_with_id)

In [24]:
tags.head()

Unnamed: 0,appid,tags
0,10,"{pvp, military, shooter, team_based, tactical,..."
1,20,"{first_person, fast_paced, mod, multiplayer, t..."
2,30,"{tactical, historical, team_based, multiplayer..."
3,40,"{multiplayer, shooter, action, sci_fi, classic..."
4,50,"{masterpiece, gore, silent_protagonist, shoote..."


Переименовываем столбцы в `appid`, как в главном наборе, так как иначе просто не получится их соединить.

In [25]:
steam_desc.rename(columns = {'steam_appid': 'appid'}, inplace=True)

In [26]:
steam_req.rename(columns = {'steam_appid': 'appid'}, inplace=True)

## Movies

Из столбцов `genres`, `keywords` и `production_companies` надо вытащить числа из строки с данными.

Из столбцов `production_countries` и `spoken_languages` надо вытащить значение страны.

Столбец `homepage` нужно удалить.

In [27]:
def clear_column_num(dirty_data):
    nums = []
    num = ''
    for i in range(len(dirty_data)):
        try:
            # так как элемент типа словаря заканчивается на такую скобку
            # для того, чтобы отделить все числа друг от друга
            if dirty_data[i] == '}':
                nums.append(int(num))
                num = ''
            int(dirty_data[i])
            num += dirty_data[i]
        except:
            continue
    return nums

In [28]:
def clear_column_str(data):
    # для того, чтобы не зависило от регистра
    data = data.lower()
    cleared_data = []
    # из-за того, что срез состоит из 3 символов вперед, мы удаляем три последние
    for i in range(len(data)-3):
        if data[i] == '\"' and data[i+3] == '\"' and ord(data[i+1]) in range(97, 123):
            cleared_data.append(data[i+1:i+3])
    return cleared_data

In [29]:
clear_genres = [clear_column_num(dirty_data) for dirty_data in movies.genres]

In [30]:
clean_prod_comp = [clear_column_num(dirty_data) for dirty_data in movies.production_companies]

In [31]:
clean_keywords = [clear_column_num(dirty_data) for dirty_data in movies.keywords]

In [32]:
clean_languages = [clear_column_str(dirty_data) for dirty_data in movies.spoken_languages]

In [33]:
clean_country = [clear_column_str(dirty_data) for dirty_data in movies.production_countries]

In [34]:
movies['genres'] = clear_genres
movies['keywords'] = clean_keywords
movies['spoken_languages'] = clean_languages
movies['production_companies'] = clean_prod_comp
movies['production_countries'] = clean_country

In [35]:
del movies['homepage']

# Merging

Теперь, когда все данные готовы, можно спокойно их соединить.

## Games

В итоге, из-за того, что в Steam и Game Sales нет ни одного схожего столбца, было решено оставить два набора данных. Видимо, при создании рекомендации, придется сразу запрашивать тип набора данных, который будет использоваться.

### Steam

In [36]:
all_steam = pd.merge(steam, steam_desc)

In [37]:
all_steam = pd.merge(all_steam, steam_req)

In [38]:
all_steam = pd.merge(all_steam, tags)

In [39]:
# возраст, скорее всего, не повлияет
del all_steam['required_age']
# значения из всех данных столбцов есть в minimum и recommended
del all_steam['pc_requirements']
del all_steam['mac_requirements']
del all_steam['linux_requirements']
# мы создали свои теги из steamspy
del all_steam['steamspy_tags']
# платформа одна
del all_steam['platforms']

In [40]:
all_steam.to_csv('C:/Users/ASDW/Python/Projects/Recosys 2.0/datasets/games_dataset/steam_clear.csv', index=False)

### Game sales

In [41]:
all_games = pd.merge(game_sales, vgsales, on='Name')

In [42]:
# ранги нам не нужны
del all_games['Rank_x']
del all_games['Rank_y']
# эти столбцы дублируются
del all_games['Year_y']
del all_games['Publisher_y']
del all_games['Platform_y']

Возникла проблема с тем, что из-за того, что у нас в двух наборах есть одинаковые значения, появились дубликаты. Благо, для этого в Pandas есть специальная функция, которая может удалить их.

In [43]:
all_games = all_games.drop_duplicates('Name')

In [44]:
all_games.to_csv('C:/Users/ASDW/Python/Projects/Recosys 2.0/datasets/games_dataset/games_clear.csv', index=False)

## Movies

Всё, что осталось - поместить в чистый csv-файл.

In [45]:
movies.to_csv('C:/Users/ASDW/Python/Projects/Recosys 2.0/datasets/movies_dataset/movies_clear.csv', index=False)

## Anime

Пока никаких операций с данным набором проводиться не будет.