# Исследование игровой индустрии за период 2000 - 2013 гг.

- Автор: Михайлов Станислав Владимирович
- Дата: 20.07.2025


### Цели и задачи проекта


В этой тетради анализируется датасет `new_games.csv`, в котором представлена информация об играх на различных платформах, их год выпуска, продажи и рейтинг. Главной целью данного проекта является изучение игровой индустрии за период с 2000 по 2013 год включительно. 

**Основные задачи:**
- Сделать обзор игровых платформ, изучить объёмы продаж игр разных жанров и региональные предпочтения игроков.
- Выделить топ-7 платформ по количеству игр, выпущенных за весь требуемый период.
- Акцент анализа направить на игры жанра RPG.

### Описание данных

В проекте будут использованы данные датасета new_games.csv с таким описанием:

- `Name` — название игры.
- `Platform` — название платформы.
- `Year of Release` — год выпуска игры.
- `Genre` — жанр игры.
- `NA sales` — продажи в Северной Америке (в миллионах проданных копий).
- `EU sales` — продажи в Европе (в миллионах проданных копий).
- `JP sales` — продажи в Японии (в миллионах проданных копий).
- `Other sales` — продажи в других странах (в миллионах проданных копий).
- `Critic Score` — оценка критиков (от 0 до 100).
- `User Score` — оценка пользователей (от 0 до 10).
- `Rating` — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.

### Содержимое проекта
* [2. Загрузка данных и знакомство с ними](#id1)
* [3. Проверка ошибок в данных и их предобработка](#id2)
    * [3.1 Названия, или метки, столбцов датафрейма](#id3)
    * [3.2 Наличие пропусков в данных](#id4)
    * [3.3 Типы данных](#id5)
    * [3.4 Явные и неявные дубликаты в данных](#id6)
    * [3.5 Основные выводы и результаты предобработки данных](#id7)
* [4. Фильтрация данных](#id8)
* [5. Категоризация данных](#id9)
    * [5.1 Категоризация игр по оценкам пользователей и критиков](#id10)
* [6. Проведение анализа данных](#id11)
    * [6.1. Определение топ-7 платформ согласно количеству выпущенных игр](#id12)
    * [6.2. Анализ популярности жанров игр](#id13)
        * [6.2.1. Популярность жанров по количеству вышедших игр](#id14)
        * [6.2.2. Популярность жанров по объему продаж в разрезе регионов](#id15)
        * [6.2.3. Анализ популярности жанров игр в разрезе платформ](#id16)
    * [6.3. Анализ качества выпущенных игр на топ-7 платформах по оценкам пользователей и критиков](#id17)
* [7. Итоговый вывод](#id18)
---

<a id="id1"></a>
## Загрузка данных и знакомство с ними

Загрузим библиотеку `pandas` для анализа данных и данные из датасета `/datasets/new_games.csv`. Затем выведем основную информацию о данных с помощью метода `info()` и первые строки датафрейма.


In [7]:
# Подключаем библиотеку pandas
import pandas as pd

In [8]:
# Выгружаем данные из датасета new_games.csv в датафрейм df
try:
    df = pd.read_csv('/datasets/new_games.csv')
except FileNotFoundError:
    df = pd.read_csv('datasets/new_games.csv')

In [9]:
# Выводим первые пять строк датафрейма
df.head()

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


In [10]:
# Выводим последние пять строк датафрейма
df.tail()

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
16951,Samurai Warriors: Sanada Maru,PS3,2016.0,Action,0.0,0.0,0.01,0.0,,,
16952,LMA Manager 2007,X360,2006.0,Sports,0.0,0.01,0.0,0.0,,,
16953,Haitaka no Psychedelica,PSV,2016.0,Adventure,0.0,0.0,0.01,0.0,,,
16954,Spirits & Spells,GBA,2003.0,Platform,0.01,0.0,0.0,0.0,,,
16955,Winning Post 8 2016,PSV,2016.0,Simulation,0.0,0.0,0.01,0.0,,,


In [11]:
# Выводим пять случайных строк датафрейма
df.sample(5)

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
6009,Scooby-Doo! Night of 100 Frights,GC,2002.0,Platform,0.23,0.06,0.0,0.01,,,
11532,Godzilla Generations,DC,1998.0,Action,0.0,0.0,0.08,0.0,,,
1304,Tom Clancy's Ghost Recon: Future Soldier,X360,2012.0,Shooter,0.93,0.4,0.02,0.12,79.0,7.2,M
5180,Kotoba no Puzzle: Mojipittan DS,DS,2007.0,Puzzle,0.0,0.0,0.37,0.0,,,
7827,Family Guy,PSP,2006.0,Action,0.18,0.0,0.0,0.02,51.0,6.3,M


In [12]:
# Выводим информацию о датафрейме
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


Датасет `new_games.csv` содержит 16956 строк и 11 столбцов.

Названия столбцов имеют неудобный формат для дальнейшей работы с данными, рекомендуется его преобразовать в snake_case. 

Столбец `Rating` не отображает полную суть того, что в нем хранится. Так как он хранит в себе информацию о возрастном рейтинге игры согласно системе ESRB, рекомендуется изменить его имя на `ESRB Rating`. 


Изучим типы данных и их корректность:
- **Числовые значения с плавающей запятой (float64)**.

  Четыре столбца представлены в формате `float64` - это `Year of Release`, `NA sales`, `Other sales`, `Critic Score`.
  
    - В столбце `Year of Release` хранится информация о годе выпуска, выбранный тип данных является некоррентным, потому что год не имеет дробного значения. Рекомендованный тип данных для данного столбца - `int16`.
    - Для столбцов `NA sales`, `Other sales` тип данных указан верно, потому что они содержат информацию о количестве проданных игр в единицах измерения - млн. шт. Однако, для них следует уменьшить разрядность до `float32`, если значения достаточно малы и это не повлияет на точность высчислений.
    - Для столбца `Critic Score` тип данных подобран неверно, он хранит в себе информацию об оценке критиков по шкале от 0 до 100 без использоваиня двобной части. Рекомендуемый формат данных для него - `int8`.
  








- **Строковые данные (object)**.

  Семь столбцов имеют тип данных `object`: `Name`, `Platform`, `Genre`, `EU sales`, `JP sales`, `User Score`, `Rating`.
  
    - В столбцах `Name`, `Platform` и `Genre` хранится информация о названии игры, платформы и виде жарна. Для них тип данных подобран корректно.
    - В столбцах `EU sales` и `JP sales` содержится информация о количестве проданных игр в единицах измерения - млн.шт. Для них тип данных подобран неверено. Рекомендованный тип данных - `float64`. Если данный достаточно малы, то стоит рассмотреть уменьшение разрядности до `float32`.
    - В столбце `User Score` хранится информация об оценке игры пользователями, которая имеет дробную часть. Для данного столбца тип данных подобран неверно. Рекомендованный тип данных - `float32`.
    - В столбце `Rating` хранится информация о рейтинге игры (ESRB). Для данного столбца тип данных подобран верно.

После анализа типов данных следует, что необходимо будет поменять тип данных для столбцов: `Year of Release`, `Critic Score`, `EU sales`, `JP sales`, `User Score`. Для столбцов `NA sales` и `Other sales` следует рассмотреть возможность понижения разрядности с `float64` до `float32`

---
<a id="id2"></a>
## Проверка ошибок в данных и их предобработка




В данном разделе преобразуем наименования столбцов в формат snake_case, обработаем пропуски, выставим правильный формат данных для столбцов и обработам дубликаты.

<a id="id3"></a>
###  Названия, или метки, столбцов датафрейма

Изменим формат имени столбцов датафрейма на snake_case. Переименуем столбец Rating на esrb_rating, указав ему более конкретное название.

In [19]:
# Выведем названия всех столбцов датафрейма
df.columns

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')

In [20]:
# Приведем названия столбцов в формат snake_case, используя регулярные выражения
df.columns = df.columns.str.lower().str.replace(r"\s+", "_", regex=True)

In [21]:
# Переименуем столбец rating в esrb_rating
df = df.rename(columns={'rating':'esrb_rating'})

In [22]:
# Проверим формат вывода столбцов
df.head()

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,esrb_rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


In [23]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16956 non-null  object 
 2   year_of_release  16681 non-null  float64
 3   genre            16954 non-null  object 
 4   na_sales         16956 non-null  float64
 5   eu_sales         16956 non-null  object 
 6   jp_sales         16956 non-null  object 
 7   other_sales      16956 non-null  float64
 8   critic_score     8242 non-null   float64
 9   user_score       10152 non-null  object 
 10  esrb_rating      10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


<a id="id4"></a>
### Наличие пропусков в данных

Рассмотрим наличие пропусков в датафрейме, подсчитаем их абсолютное и относительное количество.

In [26]:
# Произведем расчет количества пропусков по каждому столбцу в абсолютных значениях
# И отсортируем по уменьшению количества пропусков
df.isna().sum().sort_values(ascending=False)

critic_score       8714
esrb_rating        6871
user_score         6804
year_of_release     275
name                  2
genre                 2
platform              0
na_sales              0
eu_sales              0
jp_sales              0
other_sales           0
dtype: int64

In [27]:
# Произведем расчет количества пропусков по каждому столбцу в относительных значениях
df.isna().mean().sort_values(ascending=False) * 100

critic_score       51.391838
esrb_rating        40.522529
user_score         40.127389
year_of_release     1.621845
name                0.011795
genre               0.011795
platform            0.000000
na_sales            0.000000
eu_sales            0.000000
jp_sales            0.000000
other_sales         0.000000
dtype: float64

In [28]:
# Рассмотрим пропуски в столбце name и genre
print('Пропуски в name')
display(df[df['name'].isna()])
print('')
print('Пропуски в genre')
display(df[df['genre'].isna()])

Пропуски в name


Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,esrb_rating
661,,GEN,1993.0,,1.78,0.53,0.0,0.08,,,
14439,,GEN,1993.0,,0.0,0.0,0.03,0.0,,,



Пропуски в genre


Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,esrb_rating
661,,GEN,1993.0,,1.78,0.53,0.0,0.08,,,
14439,,GEN,1993.0,,0.0,0.0,0.03,0.0,,,


В данных наблюдаются пропуски в следующих столбцах:

- `name` и `genre`: в 2 строках (0.01% данных) отсутствует информация о названии игры и жанре. Так как количество пропусков весьма мало и составляет 0.01%, удаление данных строк не повлияет на результаты последующего анализа.
- `year_of_release`: в 275 строках (1.62% данных) отсутствует информация о годе выхода игры. Пропуски в этом столбце не позволят правильно отнести игру в исследуемый временной диапазон. Пропуски в этих строках можно заменить на индикатор `'-1'`. Это позволит сохранить строки в датасете и при необходимости использовать эти данные для общего анализа, например, составления топа игр по рейтингам критиков или пользователей.
- `critic_score` и `user_score`: в 8714 строках (51.39% данных) и в 6804 строках (40.13% данных) соответственно отсутствует информация об оценке игры со стороны критиков и пользователей. Пропуски в этих столбцах не позволят категоризовать игру согласно её оценке. Пропущенные значения необходимо будет заменить на индикатор `'-1'` для того, чтобы в дальнейшем была возможность провести анализ группы игр, не имеющих рейтинг.
- `esrb_rating`: в 6871 строках (40.52% данных) отсутствует информация об возрастном рейтинге. Данный столбец не используется в анализе, поэтому пропущенные значения можно заменить на `'unknown'`.

In [30]:
# Удалим строки с пропущенными значениями столбцов name, genre
df = df.dropna(subset=['name', 'genre'])

In [31]:
# Заполним пропуски в столбцах year_of_release, 
# critic_score и user_score индикатором '-1'
df[['year_of_release', 'critic_score', 'user_score']] = df[['year_of_release', 'critic_score', 'user_score']].fillna('-1')

In [32]:
# Заполним пропуски в столбце esrb_rating индикатором 'unknown'
df['esrb_rating'] = df['esrb_rating'].fillna('unknown')

In [33]:
# Проверим результат проведенных замен в датасете
print('Замена пропусков в critic_score')
display(df[df['critic_score'] == '-1'].sample(3))
print()
print('Замена пропусков в user_score')
display(df[df['user_score'] == '-1'].sample(3))
print()
print('Замена пропусков в esrb_rating')
display(df[df['esrb_rating'] == 'unknown'].sample(3))

Замена пропусков в critic_score


Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,esrb_rating
5568,Battle Dodge Ball,SNES,1991.0,Sports,0.0,0.0,0.33,0.0,-1,-1.0,unknown
6276,Skylanders: Trap Team,3DS,2014.0,Action,0.16,0.1,0.0,0.02,-1,3.4,E10+
12255,San Goku Shi Taisen Ten,DS,2008.0,Strategy,0.0,0.0,0.07,0.0,-1,-1.0,unknown



Замена пропусков в user_score


Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,esrb_rating
9198,Mary-Kate and Ashley: Winners Circle,PS,2001.0,Action,0.08,0.05,0.0,0.01,-1,-1,unknown
3256,Virtua Cop,SAT,1995.0,Shooter,0.0,0.0,0.62,0.0,-1,-1,unknown
8469,Nightmare Creatures II,PS,2000.0,Action,0.09,0.06,0.0,0.01,-1,-1,unknown



Замена пропусков в esrb_rating


Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,esrb_rating
11088,Puyo Pop Fever (JP sales),DS,2004.0,Puzzle,0.0,0.0,0.09,0.0,-1,-1,unknown
15223,TV Anime Idolm@ster: Cinderella Girls G4U! Pac...,PS3,2015.0,Adventure,0.0,0.0,0.02,0.0,-1,-1,unknown
9347,Let's Cheer,X360,2011.0,Misc,0.12,0.0,0.0,0.01,-1,-1,unknown


In [34]:
# Проверим количество пропусков в датасете
df.isna().sum()

name               0
platform           0
year_of_release    0
genre              0
na_sales           0
eu_sales           0
jp_sales           0
other_sales        0
critic_score       0
user_score         0
esrb_rating        0
dtype: int64

Для последующей работы с данными и корректировки типов данных в столбцах исследуемого датасета были удалены строки, содержание пустые значения в столбцах `name` и  `genre` в количестве 2 шт (0.01%). Произведена замена пропусков в столбце `year_of_release` на индикатор `'-1'` в количестве 275 шт. (1.62%)  и в столбцах `critic_score` - 8714 шт. (51.39%), `user_score` - 6804 шт. (40.13%) и `esrb_rating` - 6871 шт. (40.52%) на индикатор `'unknown'`.

<a id="id5"></a>
### Типы данных

- Если встречаются некорректные типы данных, предположите их причины.
- При необходимости проведите преобразование типов данных. Помните, что столбцы с числовыми данными и пропусками нельзя преобразовать к типу `int64`. Сначала вам понадобится обработать пропуски, а затем преобразовать типы данных.

На этапе знакомства с данными было определено, что большинству столбцов необходимо поменять тип данных или уменьшить разрядность, а именно:

- `year_of_release` изменить с `float64` на `int64`, с возможностью понижения разрядности до `int16`;
- `na_sales` расмотреть возможность понижения разрядности до `float32`;
- `eu_sales` изменить с `object` на `float64`, с возможностью понижения разрядности до `float32`;
- `jp_sales` изменить с `object` на `float64`, с возможностью понижения разрядности до `float32`;
- `other_sales` расмотреть возможность понижения разрядности до `float32`;
- `critic_score` изменить c `float64` на `int64`, с возможностью понижения разрядности до `int8`;
- `user_score` изменить с `object` на `float64`, с возможностью понижения разрядности до `float32`.



In [38]:
# Преобразуем тип данных для столбцов year_of_release и critic_score в формат integer
# Преобразуем тип данных для столбцов eu_sales, jp_sales и user_score в формат float
# С помощью параметра downcast установим наименьший разряд указанного типа данных
# В случае нахождения в строках нечисловых значений
# параметр errors='coerce' преобразует их в тип NaN

for column in ['year_of_release', 'critic_score']:
    df[column] = pd.to_numeric(df[column], downcast='integer', errors='coerce')

for column in ['na_sales', 'eu_sales', 'jp_sales', 'other_sales', 'user_score']:
    df[column] = pd.to_numeric(df[column], downcast='float', errors='coerce')

In [39]:
# Проверим результат преобразования типа данных
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 16954 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16954 non-null  object 
 2   year_of_release  16954 non-null  int16  
 3   genre            16954 non-null  object 
 4   na_sales         16954 non-null  float32
 5   eu_sales         16948 non-null  float32
 6   jp_sales         16950 non-null  float32
 7   other_sales      16954 non-null  float32
 8   critic_score     16954 non-null  int8   
 9   user_score       14490 non-null  float32
 10  esrb_rating      16954 non-null  object 
dtypes: float32(5), int16(1), int8(1), object(4)
memory usage: 1.0+ MB


In [40]:
# Рассчитаем количество пропусков по каждому столбцу после преобразования типов 
df.isna().sum()

name                  0
platform              0
year_of_release       0
genre                 0
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score          0
user_score         2464
esrb_rating           0
dtype: int64

In [41]:
# Заменим пустые значения в столбце user_score на индикатор '-1.0'
df['user_score'] = df['user_score'].fillna(-1.0)

In [42]:
# Заменим пустые значения в столбцах eu_sales и jp_sales на среднее расчётное значение.
# Среднее значение будем вычислять на основании года выпуска
# и платформы, на которой вышла игра.

def mean_sales(row, column, field_1='platform', field_2='year_of_release'):
    if pd.isna(row[column]):
        # Фильтруем датасет по полям field_1 и field_2, которые есть в полученной строке
        df_filtered = df[(df[field_1] == row[field_1]) & (df[field_2] == row[field_2])]
        return df_filtered[column].mean()
    else:
        return row[column]

# Укажем столбцы, в которых будем искать пропуски и заменять их на средние значения
columns_to_calculate = ['eu_sales', 'jp_sales']  

for column in columns_to_calculate:
    # Создаем логическую маску для фильтрации датафрейма
    # при использовании её на датафрейме останутся только строки, 
    # имеющие пустые значения в данном столбце
    mask_to_calculate = df[column].isna()
    # Используем функцию apply, которая позволит построчно пройтись по фильтрованному датасету,
    # и на каждой строке применить функцию mean_sales, возвращая исходное значение
    # или в случае его отсутствия - расчётное среднее значение
    df.loc[mask_to_calculate, column] = df[mask_to_calculate].apply(lambda row: mean_sales(row, column), axis=1)

In [43]:
# Проверим датафрейм на правильность типа данных и отсутствие пропусков
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 16954 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16954 non-null  object 
 2   year_of_release  16954 non-null  int16  
 3   genre            16954 non-null  object 
 4   na_sales         16954 non-null  float32
 5   eu_sales         16954 non-null  float32
 6   jp_sales         16954 non-null  float32
 7   other_sales      16954 non-null  float32
 8   critic_score     16954 non-null  int8   
 9   user_score       16954 non-null  float32
 10  esrb_rating      16954 non-null  object 
dtypes: float32(5), int16(1), int8(1), object(4)
memory usage: 1.0+ MB


In [44]:
# Рассмотрим наличие аномальных значений в столбцах, содержащих числовые значения
# Для этого рассмотрим крайние минимальные и максимальные значения,
# исключив индикатор "-1"
for column in ['year_of_release', 'na_sales', 'eu_sales', 'jp_sales', 'other_sales', 'critic_score', 'user_score']:
    mask = df[column] != -1
    print(f'Столбец {column}: минимальное значение - {df[mask][column].min()}, максимальное - {round(df[mask][column].max(), 1)}')

    

Столбец year_of_release: минимальное значение - 1980, максимальное - 2016
Столбец na_sales: минимальное значение - 0.0, максимальное - 41.4
Столбец eu_sales: минимальное значение - 0.0, максимальное - 29.0
Столбец jp_sales: минимальное значение - 0.0, максимальное - 10.2
Столбец other_sales: минимальное значение - 0.0, максимальное - 10.6
Столбец critic_score: минимальное значение - 13, максимальное - 98
Столбец user_score: минимальное значение - 0.0, максимальное - 9.7


Аномальные значения не выявлены.

Для оптимизации работы с данными датафрейма были сделаны следующие операции:
- Изменены типы данных:
    - `year_of_release`: тип данных изменен с `float64` на `int16`;
    - `na_sales`: тип данных изменен с `float64` на `float32`;
    - `eu_sales`: тип данных изменен с `object` на `float32`;
    - `jp_sales`: тип данных изменен с `object` на `float32`;
    - `other_sales`: тип данных изменен с `float64` на `float32`;
    - `critic_score`: тип данных изменен с `float64` на `int8`;
    - `user_score`: тип данных изменен с `object` на `float32`.

После преобразования данных появились пропуски в столбцах: `eu_sales` - 6 шт. (0.03%), `jp_sales` - 4 шт. (0.02%) и `user_score` - 2464 шт. (12.35%). Пропуски в `user_score` были заменены на индикатор `-1.0`. Пропуски в столбцах `eu_sales` и `jp_sales` были заменены на расчетное среднее значение, которое высчитывалось на основании года выпуска и платформы, на которой вышла игра, имеющая пропуск в данных столбцах.


<a id="id6"></a>
### Явные и неявные дубликаты в данных

Приведем к нижнему регистру и удалим пробелы по краям строк для данных, хранящихся в столбцах `name`, `platform`, `genre`, `esrb_rating`. После этого проверим столбцы `platform`, `genre`, `esrb_rating` и `year_of_release` на уникальные значения. Затем найдем и удалим явные и неявные дубликаты.

In [48]:
# Произведем нормализацию данных. 
# Приведем все данные к нижнему регистру
# и удалим знаки пробельного типа на краях строк
list_columns = ['name', 'platform', 'genre', 'esrb_rating']
for column in list_columns:
    df[column] = df[column].str.strip().str.lower()

In [49]:
# Посмотрим на уникальные значения в столбцах типа object
list_columns = ['platform', 'genre', 'esrb_rating']
for column in list_columns:
    print(f"Уникальные значения в столбце '{column}':")
    print(sorted(df[column].unique()))
    print(f"Всего уникальных значений: {df[column].nunique()}\n")

Уникальные значения в столбце 'platform':
['2600', '3do', '3ds', 'dc', 'ds', 'gb', 'gba', 'gc', 'gen', 'gg', 'n64', 'nes', 'ng', 'pc', 'pcfx', 'ps', 'ps2', 'ps3', 'ps4', 'psp', 'psv', 'sat', 'scd', 'snes', 'tg16', 'wii', 'wiiu', 'ws', 'x360', 'xb', 'xone']
Всего уникальных значений: 31

Уникальные значения в столбце 'genre':
['action', 'adventure', 'fighting', 'misc', 'platform', 'puzzle', 'racing', 'role-playing', 'shooter', 'simulation', 'sports', 'strategy']
Всего уникальных значений: 12

Уникальные значения в столбце 'esrb_rating':
['ao', 'e', 'e10+', 'ec', 'k-a', 'm', 'rp', 't', 'unknown']
Всего уникальных значений: 9



In [50]:
print(sorted(df['year_of_release'].unique()))

[-1, 1980, 1981, 1982, 1983, 1984, 1985, 1986, 1987, 1988, 1989, 1990, 1991, 1992, 1993, 1994, 1995, 1996, 1997, 1998, 1999, 2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015, 2016]


После визуального осмотра уникальных значений данных в столбцах `year_of_release`, `platform`, `genre` и `esrb_rating` ошибочных названий или неявных дубликатов найдено не было.

In [52]:
# Подсчитаем количество явных дубликатов (строк одинаковых по всем столбцам)
df.duplicated().sum()

241

In [53]:
# Для подтверждения рассмотрим несколько найденных явных дубликатов
df[df.duplicated(keep=False)].head(6)

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,esrb_rating
267,batman: arkham asylum,ps3,2009,action,2.24,1.31,0.07,0.61,91,8.9,t
268,batman: arkham asylum,ps3,2009,action,2.24,1.31,0.07,0.61,91,8.9,t
367,james bond 007: agent under fire,ps2,2001,shooter,1.9,1.13,0.1,0.41,72,7.9,t
368,james bond 007: agent under fire,ps2,2001,shooter,1.9,1.13,0.1,0.41,72,7.9,t
716,god of war: ascension,ps3,2013,action,1.23,0.63,0.04,0.35,80,7.5,m
717,god of war: ascension,ps3,2013,action,1.23,0.63,0.04,0.35,80,7.5,m


In [54]:
# Удалим из датасета явные дубликаты (строки одинаковые по всем столбцам)
df = df[~(df.duplicated())]

In [55]:
# Подсчитаем количество дубликатов по столбцам name и platform
# Так мы найдем дубликаты игр, которые могут отличаться по году выпуска,
# жанру, продажам и рейтингам, для них name и platform будут совпадать
df.duplicated(subset=['name', 'platform']).sum()

4

In [56]:
# Рассмотрим дубликаты, полученные по столбцам name и platform
df_duplicate = df[df.duplicated(subset=['name', 'platform'], keep=False)]
df_duplicate.sort_values(by='name').head(10)

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,esrb_rating
606,madden nfl 13,ps3,2012,sports,2.11,0.22,0.0,0.23,83,5.5,e
16465,madden nfl 13,ps3,2012,sports,0.0,0.01,0.0,0.0,83,5.5,e
1197,need for speed: most wanted,x360,2012,racing,0.62,0.78,0.01,0.15,83,8.5,t
1605,need for speed: most wanted,x360,2005,racing,1.0,0.13,0.02,0.1,83,8.5,t
6051,need for speed: most wanted,pc,2005,racing,0.02,0.23,0.0,0.04,82,8.5,t
11873,need for speed: most wanted,pc,2012,racing,0.0,0.06,0.0,0.02,82,8.5,t
1760,sonic the hedgehog,ps3,2006,platform,0.41,0.06,0.04,0.66,43,4.1,e10+
4173,sonic the hedgehog,ps3,-1,platform,0.0,0.48,0.0,0.0,43,4.1,e10+


Анализируя выведенную таблицу можно сделать следующие выводы:
- Игра `Madden NFL 13` сохранена на строках с индексами 606 и 16465. Строки имеют одинаковое название игры, платформу, дату выхода, жанр, оценку критиков, оценку пользователей и возрастной рейтинг. Однако, строка 16465 не имеет данных по продажам. Поэтому рекомендуется удалить строку 16465, оставив 606.
- Игра `Need for Speed: Most Wanted` выведена на 4 строках, однако эта игра подразделяется на тип платформы (x360 или pc) и год выпуска (2005 или 2012), здесь дубликатов нет.
- Игра `Sonic the Hedgehog` сохранена на строках с индексами 1760 и 4173. Строка с индексом 4173 не имеет года выхода игры и во всем индентична строке 1760, за исключением продаж по регионам. Рекомендуется удалить строку 4173, оставив 1760.

In [58]:
# Удалим строки с индексами 16465 и 4173 в датасете
df = df.drop(index=[16465, 4173])

In [59]:
# Проверим, корректно ли произошло удаление строк
display(df[(df['name'] == 'sonic the hedgehog') & (df['platform'] == 'ps3')])
display(df[(df['name'] == 'madden nfl 13') & (df['platform'] == 'ps3')])

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,esrb_rating
1760,sonic the hedgehog,ps3,2006,platform,0.41,0.06,0.04,0.66,43,4.1,e10+


Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,esrb_rating
606,madden nfl 13,ps3,2012,sports,2.11,0.22,0.0,0.23,83,5.5,e


In [60]:
# Проверим, что у нас в датасете ничего не поломалось
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 16711 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16711 non-null  object 
 1   platform         16711 non-null  object 
 2   year_of_release  16711 non-null  int16  
 3   genre            16711 non-null  object 
 4   na_sales         16711 non-null  float32
 5   eu_sales         16711 non-null  float32
 6   jp_sales         16711 non-null  float32
 7   other_sales      16711 non-null  float32
 8   critic_score     16711 non-null  int8   
 9   user_score       16711 non-null  float32
 10  esrb_rating      16711 non-null  object 
dtypes: float32(5), int16(1), int8(1), object(4)
memory usage: 1.0+ MB


Для поиска и устранения дубликатов была произведена нормализация данных: данные в столбцах `name`, `platform`, `genre`, `esrb_rating` были приведены в нижний регистр и для них были удалены пробельные символы по краям строк. 

Неявных дубликатов в столбцах: `year_of_release`, `platform`, `genre` и `esrb_rating` найдено не было.

Во время очистки данных всего была удалена `241`строка `(1.42% данных)` с явными дубликатами и `2` `(0.01% данных)` строки с неявными. Неявные дубликаты были обнаружены с помощью определения равенства строк в столбцах `name` и `platform`.

- После проведения предобработки данных напишите общий промежуточный вывод.

<a id="id7"></a>
### Основные выводы и результаты предобработки данных

- Все наименования столбцов были приведены в формат snake_case, переименован столбец `rating` в `esrb_rating`.<br>
- В 6 столбцах (`name`, `genre`, `year_of_release`, `critic_score`, `user_score`, `esrb_rating`) были обнаружены пропущенные значения.
    - Максимальное количество пропущенных данных наблюдается в столбцах: `critic_score`, `user_score` и `esrb_rating`, для них относительное количество пропусков составило: 51.39%, 40.13% и 40.52% соответственно.
    - Пропуски в столбцах `name` и `genre` составили 0.01% и были удалены (2 шт.).
    - Пропуски в столбцах `year_of_release` (1.62%), `critic_score` (51.39%) и `user_score` (40.13%) были заменены на индикатор `-1`.
    - Пропуски в столбце `esrb_rating` (40.52%) были заменены на индикатор `unknown`.<br><br>
      
- Для оптимизации работы с данными в датафрейме были произведены следующие изменения типов данных:
    - `year_of_release`: тип данных изменен с `float64` на `int16`;
    - `na_sales`: тип данных изменен с `float64` на `float32`;
    - `eu_sales`: тип данных изменен с `object` на `float32`;
    - `jp_sales`: тип данных изменен с `object` на `float32`;
    - `other_sales`: тип данных изменен с `float64` на `float32`;
    - `critic_score`: тип данных изменен с `float64` на `int8`;
    - `user_score`: тип данных изменен с `object` на `float32`.<br><br>
      
- После изменения типов данных появились пропуски в столбцах: `eu_sales` - 6 шт (0.03%), `jp_sales` - 4 шт (0.02%) и `user_score` - 2464 шт. (12.35%). Пропуски в столбце `user_score` были заменены на индикатор `-1.0`, а в столбцах `eu_sales` и `jp_sales` на расчетное среднее значение.<br>

- Затем была произведена нормализация данных в столбцах `name`, `platform`, `genre`, `esrb_rating` и удалены явные и неявные дубликаты, количество которых составило 243 строки (1.43% данных)

---

<a id="id8"></a>
## Фильтрация данных

Согласно поставленной задаче требуется проанализировать игры, которые вышли в период с 2000 по 2013 год включительно.

В этом разделе произведем фильтрацию датасета и оставим только игры, которые вышли в данный период времени.

In [67]:
# Произведем фильтрацию датасета, оставим только в нем строки,
# содержащие год выхода игры от 2000 до 2013 включительно
df_actual = df[(df['year_of_release'] >= 2000) & (df['year_of_release'] <= 2013)].copy()

In [68]:
# Проверим, что корректно произвели фильтрацию: 
# в датасете минимальный год должен быть равен 2000, а максимальный - 2013
df_actual.describe()

Unnamed: 0,year_of_release,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score
count,12780.0,12780.0,12780.0,12780.0,12780.0,12780.0,12780.0
mean,2007.106025,0.253955,0.14181,0.056558,0.050586,37.987402,3.147872
std,3.44418,0.740836,0.518849,0.25433,0.20465,36.05188,4.22106
min,2000.0,0.0,0.0,0.0,0.0,-1.0,-1.0
25%,2004.0,0.01,0.0,0.0,0.0,-1.0,-1.0
50%,2008.0,0.09,0.02,0.0,0.01,50.0,2.8
75%,2010.0,0.24,0.11,0.02,0.04,72.0,7.5
max,2013.0,41.360001,28.959999,6.5,10.57,98.0,9.7


In [69]:
# Выведем основную информацию о датасете
df_actual.info()

<class 'pandas.core.frame.DataFrame'>
Index: 12780 entries, 0 to 16954
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             12780 non-null  object 
 1   platform         12780 non-null  object 
 2   year_of_release  12780 non-null  int16  
 3   genre            12780 non-null  object 
 4   na_sales         12780 non-null  float32
 5   eu_sales         12780 non-null  float32
 6   jp_sales         12780 non-null  float32
 7   other_sales      12780 non-null  float32
 8   critic_score     12780 non-null  int8   
 9   user_score       12780 non-null  float32
 10  esrb_rating      12780 non-null  object 
dtypes: float32(5), int16(1), int8(1), object(4)
memory usage: 786.3+ KB


После фильтрации данных была удалена 3931 строка (23.5% данных), не попадающая под целевой исследуемый период.  

---

<a id="id9"></a>
## Категоризация данных

В этом разделе произведем категоризацию данных на основе оценок пользователей и критиков. Создадим 2 дополнительных столбца в датафрейме `df_actual`: `user_score_group` и `critic_score_group`, подразделяющих игры на категории.

Категории будут иметь названия: `оценка неизвестна`, `низкая оценка`, `средняя оценка`, `высокая оценка`.
- подразделение на категории будет осуществляться с той логикой, что левая граница интервала учитываться не будет, а правая будет.
- `оценка неизвестна` будет даваться тем играм, у которых нет оценок. В нашем случае, у таких игр стоит индикатор `-1` или `-1.0`, тогда диапазон оценки для попадания в данную категорию для игр будет от -99 до -0.01.
- `низкая оценка` будет соответствовать интервалу от -0.01 до 2.99.
- `средняя оценка` будет соответствовать интервалу от 2.99 до 7.99.
- `высокая оценка` будет соответствовать интервалу от 7.99 до 10.00.

<a id="id10"></a>
### Категоризация игр по оценкам пользователей и критиков

In [74]:
# Категоризируем игры по оценке пользователей, разбив их на 4 категории:
# оценка неизвестна: оценка ниже 0;
# низкая оценка: оценка от 0 до 3, не включая 3;
# средняя оценка: оценка от 3 до 8, не включая 8;
# высокая оценка: оценка от 8 до 10, включая 8 и 10.
df_actual['user_score_group'] = pd.cut(df_actual['user_score'], bins=[-99, -0.01, 2.99, 7.99, 10.0], labels=['оценка неизвестна', 'низкая оценка', 'средняя оценка', 'высокая оценка'])

In [75]:
# Категоризируем игры по оценке критиков, разбив их на 4 категории:
# оценка неизвестна: оценка ниже 0;
# низкая оценка: оценка от 0 до 30, не включая 30;
# средняя оценка: оценка от 30 до 80, не включая 80;
# высокая оценка: оценка от 80 до 100, включая 80 и 100.
df_actual['critic_score_group'] = pd.cut(df_actual['critic_score'], bins=[-99, -1, 29, 79, 100], labels=['оценка неизвестна', 'низкая оценка', 'средняя оценка', 'высокая оценка'])

In [76]:
# Разобьем все игры на категории по оценкам пользователей и подсчитаем их количество
df_group_user_score = df_actual.groupby('user_score_group', as_index=False, observed=False)['name'].count()

# Разобьем все игры на категории по оценкам критиков и подсчитаем их количество
df_group_critic_score = df_actual.groupby('critic_score_group', as_index=False, observed=False)['name'].count()

# Переименуем столбцы с высчитанным количеством игр с 'name' на 'num_games'
df_group_user_score = df_group_user_score.rename(columns={'name': 'num_games'})
df_group_critic_score = df_group_critic_score.rename(columns={'name': 'num_games'})

# Отобразим полученные результаты
print('Группировка игр по оценкам пользователей:')
display(df_group_user_score)
print()
print('Группировка игр по оценкам критиков:')
display(df_group_critic_score)

print(f'Суммарное количество игр, разбитых на категории по оценкам пользователей, составило: {df_group_user_score['num_games'].sum()}')
print(f'Суммарное количество игр, разбитых на категории по оценкам критиков, составило: {df_group_critic_score['num_games'].sum()}')
print(f'Количество строк датасета, по которому производилась категоризация, составило: {df_actual.shape[0]}')
# Отобразим 


Группировка игр по оценкам пользователей:


Unnamed: 0,user_score_group,num_games
0,оценка неизвестна,6298
1,низкая оценка,116
2,средняя оценка,4080
3,высокая оценка,2286



Группировка игр по оценкам критиков:


Unnamed: 0,critic_score_group,num_games
0,оценка неизвестна,5612
1,низкая оценка,55
2,средняя оценка,5422
3,высокая оценка,1691


Суммарное количество игр, разбитых на категории по оценкам пользователей, составило: 12780
Суммарное количество игр, разбитых на категории по оценкам критиков, составило: 12780
Количество строк датасета, по которому производилась категоризация, составило: 12780


После категоризации данных не было потеряно ни одной строки. Категоризация была выполнена корректно.

<a id="id11"></a>
## Проведение анализа данных 

В данном разделе будет проведен анализ подготовленного датасета по следующим направлениям:
- Определим топ-7 платформ согласно количеству выпущенных игр
- Проведем анализ популярности жанров
    - по количеству вышедших игр
    - по объему продаж в разрезе регионов
    - определим популярность в разрезе платформ
- Проведем анализ качества выпущенных игр по платформам согласно оценкам пользователей и критиков 

<a id="id12"></a>
### Определение топ-7 платформ согласно количеству выпущенных игр

In [81]:
# Рассчитаем для каждой платформы количество игр, которое было выпущено на ней
df_group_platform = df_actual.groupby(['platform'], as_index=False, observed=True)['name'].count()

# Произведем сортировку по количеству игр в порядке убывания
# выведем топ-7 платформ по количеству выпущенных игр
df_group_platform_top7 = df_group_platform.sort_values(by='name', ascending=False)
df_group_platform_top7 = df_group_platform_top7.rename(columns={'name': 'num_games'})

# Подсчитаем долю количества игр, вышедших, на каждой платформе, относительно всех платформ
df_group_platform_top7['ratio_games'] = round((df_group_platform_top7['num_games'] * 100) / df_group_platform_top7['num_games'].sum(), 1)

df_group_platform_top7 = df_group_platform_top7.head(7).reset_index(drop=True)
display(df_group_platform_top7)

Unnamed: 0,platform,num_games,ratio_games
0,ps2,2127,16.6
1,ds,2120,16.6
2,wii,1275,10.0
3,psp,1180,9.2
4,x360,1121,8.8
5,ps3,1086,8.5
6,gba,811,6.3


Наиболее популярными игровыми платформами по количеству выпущенных игр является: Sony Playstation 2, Nintendo DS и Nintendo Wii. Для них количество выпущенных игр и их доля относительно других платформ за исследуемый период составила: 2127 шт. (16.6%), 2120 шт. (16.6%) и 1275 шт. (10.0%) соответственно.


<a id="id13"></a>
### Анализ популярности жанров игр

<a id="id14"></a>
#### Популярность жанров по количеству вышедших игр

Проанализируем популярность жанров со стороны количества вышедших игр, определив, какие жанры предполагалось принесут большую прибыль для компаний.
Так же рассмотрим популярность жанров со стороны продаж.

In [86]:
# Посчитаем какое количество игр было выпущено по каждому жанру
df_group_genre_released_games = df_actual.groupby(['genre'], as_index=False, observed=True)['name'].count()
df_group_genre_released_games = df_group_genre_released_games.rename(columns={'name': 'num_games'})

# Найдем их долю, относительно всех игр
df_group_genre_released_games['ratio_genre'] = round((df_group_genre_released_games['num_games'] * 100) / df_group_genre_released_games['num_games'].sum(), 1)

# Отсортируем данные
df_group_genre_released_games = df_group_genre_released_games.sort_values(by='num_games', ascending=False).reset_index(drop=True)

df_group_genre_released_games.index += 1

display(df_group_genre_released_games)

Unnamed: 0,genre,num_games,ratio_genre
1,action,2460,19.2
2,sports,1817,14.2
3,misc,1484,11.6
4,role-playing,1079,8.4
5,adventure,1009,7.9
6,shooter,1001,7.8
7,racing,966,7.6
8,simulation,724,5.7
9,platform,682,5.3
10,fighting,580,4.5


Анализируя данные видно, что с наибольшим отрывом за рассматриваемый период времени лидируют следующие жанры игр: `action` - 2460 шт. (19.2 %), `sports` - 1817 шт. (14.2%) и `misc` - 1484 шт. (11.6%). Жанр `role-playing` занимает почётное 4 место - 1079 шт. (8.4%).

Наименее популярными жанрами являются: `fighting` - 580 шт. (4.5%), `strategy` - 513 шт. (4.0%) и `puzzle` - 465 шт. (3.6%).

<a id="id15"></a>
#### Популярность жанров по объему продаж в разрезе регионов

Для каждого региона определим топ-3 популярных жанров и антитоп-3 наименее популярных жанров по количествам продаж.

In [90]:
# Посчитаем сколько продаж было совершено по каждому жанру в разрезе регионов
df_group_genre_sales = df_actual.groupby(['genre'], as_index=False, observed=True)[['na_sales', 'eu_sales', 'jp_sales', 'other_sales']].sum()

# Найдем количество продаж по каждому жанру суммарно по всем регионам.
df_group_genre_sales['total_sales'] = df_group_genre_sales['na_sales'] + df_group_genre_sales['eu_sales'] + df_group_genre_sales['jp_sales'] + df_group_genre_sales['other_sales']

# Найдем долю продаж игр по каждому жанру в разрезе регионов, относительно продаж всех жанров в этом регионе.
# Так же рассчитаем долю продаж по каждому жанру в разрезе суммарной продажи по всех регионам.
regions = df_group_genre_sales.columns.tolist()
regions.remove('genre')
for region in regions:
    df_group_genre_sales[f'ratio_{region}'] = round((df_group_genre_sales[region] * 100) / df_group_genre_sales[region].sum(), 2)

df_group_genre_sales

Unnamed: 0,genre,na_sales,eu_sales,jp_sales,other_sales,total_sales,ratio_na_sales,ratio_eu_sales,ratio_jp_sales,ratio_other_sales,ratio_total_sales
0,action,679.73999,390.170715,102.642723,152.509995,1325.063354,20.940001,21.530001,14.2,23.59,20.620001
1,adventure,76.489998,43.009998,33.739998,12.95,166.189987,2.36,2.37,4.67,2.0,2.59
2,fighting,148.339996,67.82,38.531322,29.0,283.691345,4.57,3.74,5.33,4.49,4.41
3,misc,350.220001,183.413879,79.891258,66.909996,680.43512,10.79,10.12,11.05,10.35,10.59
4,platform,250.759995,132.780457,52.583061,39.790001,475.913544,7.73,7.33,7.27,6.15,7.4
5,puzzle,63.5,39.23,23.25,10.01,135.98999,1.96,2.16,3.22,1.55,2.12
6,racing,263.570007,177.889999,25.98,66.099998,533.540039,8.12,9.82,3.59,10.22,8.3
7,role-playing,248.830002,127.519997,210.550003,42.880001,629.780029,7.67,7.04,29.129999,6.63,9.8
8,shooter,416.209991,228.5,18.41,78.639999,741.759949,12.82,12.61,2.55,12.16,11.54
9,simulation,159.539993,97.400002,37.849998,27.49,322.279999,4.92,5.37,5.24,4.25,5.01


Теперь определим наиболее популярные жанры игр по каждому региону по отдельности.

In [92]:
# Для каждого региона выведем топ-3 и антитоп-3 жанров. 
# Для этого сделаем фильтрацию датафрейма по жанру,
# региону продажи и по высчитанной доле продаж в этом регионе.
# Отсортируем полученный датафрейм по продажам в регионе
for region in regions:
    print(f'Наиболее популярные жанры игр по региону {region}')
    display(df_group_genre_sales[['genre', region, f'ratio_{region}']].sort_values(by=region, ascending=False).reset_index(drop=True).head(3))
    print()
    print(f'Наименее популярные жанры игр по региону {region}')
    display(df_group_genre_sales[['genre', region, f'ratio_{region}']].sort_values(by=region, ascending=False).reset_index(drop=True).tail(3))
    print()
    print()

# Выведем на каком месте по каждому региону располагается жанр role-playing
for region in regions:
    sample = df_group_genre_sales[['genre', region, f'ratio_{region}']].sort_values(by=region, ascending=False).reset_index(drop=True)
    sample.index += 1
    sample = sample[sample['genre'] == 'role-playing']
    sample_index = sample.index[0]
    sample_sales = sample.loc[sample_index, region]
    sample_ratio = sample.loc[sample_index, f'ratio_{region}']
    print(f'Жанр игры role-playing в регионе {region} занимает {sample_index} место, количество продаж - {sample_sales:.1f} ({sample_ratio:.1f}%)')

Наиболее популярные жанры игр по региону na_sales


Unnamed: 0,genre,na_sales,ratio_na_sales
0,action,679.73999,20.940001
1,sports,543.26001,16.74
2,shooter,416.209991,12.82



Наименее популярные жанры игр по региону na_sales


Unnamed: 0,genre,na_sales,ratio_na_sales
9,adventure,76.489998,2.36
10,puzzle,63.5,1.96
11,strategy,45.09,1.39




Наиболее популярные жанры игр по региону eu_sales


Unnamed: 0,genre,eu_sales,ratio_eu_sales
0,action,390.170715,21.530001
1,sports,293.839996,16.209999
2,shooter,228.5,12.61



Наименее популярные жанры игр по региону eu_sales


Unnamed: 0,genre,eu_sales,ratio_eu_sales
9,adventure,43.009998,2.37
10,puzzle,39.23,2.16
11,strategy,30.76,1.7




Наиболее популярные жанры игр по региону jp_sales


Unnamed: 0,genre,jp_sales,ratio_jp_sales
0,role-playing,210.550003,29.129999
1,action,102.642723,14.2
2,misc,79.891258,11.05



Наименее популярные жанры игр по региону jp_sales


Unnamed: 0,genre,jp_sales,ratio_jp_sales
9,racing,25.98,3.59
10,puzzle,23.25,3.22
11,shooter,18.41,2.55




Наиболее популярные жанры игр по региону other_sales


Unnamed: 0,genre,other_sales,ratio_other_sales
0,action,152.509995,23.59
1,sports,111.709999,17.280001
2,shooter,78.639999,12.16



Наименее популярные жанры игр по региону other_sales


Unnamed: 0,genre,other_sales,ratio_other_sales
9,adventure,12.95,2.0
10,puzzle,10.01,1.55
11,strategy,8.5,1.31




Наиболее популярные жанры игр по региону total_sales


Unnamed: 0,genre,total_sales,ratio_total_sales
0,action,1325.063354,20.620001
1,sports,1021.429993,15.89
2,shooter,741.759949,11.54



Наименее популярные жанры игр по региону total_sales


Unnamed: 0,genre,total_sales,ratio_total_sales
9,adventure,166.189987,2.59
10,puzzle,135.98999,2.12
11,strategy,111.110001,1.73




Жанр игры role-playing в регионе na_sales занимает 7 место, количество продаж - 248.8 (7.7%)
Жанр игры role-playing в регионе eu_sales занимает 7 место, количество продаж - 127.5 (7.0%)
Жанр игры role-playing в регионе jp_sales занимает 1 место, количество продаж - 210.6 (29.1%)
Жанр игры role-playing в регионе other_sales занимает 6 место, количество продаж - 42.9 (6.6%)
Жанр игры role-playing в регионе total_sales занимает 5 место, количество продаж - 629.8 (9.8%)


Анализируя полученные результаты, можно сделать следующие выводы:
- Во всех регионах, за исключением Японии, самыми непопулярными жанрами являются: `adventure`, `puzzle` и `strategy`. Если рассматривать статистику продаж по всем регионам, то по данным жанрам продажи и доля продаж относительно всех продаж выглядят следующим образом: `adventure` - 166.2 млн. копий (2.59%), `puzzle` - 136.0 млн. копий (2.12%) и `strategy` - 111.1 млн. копий (1.73%). В Японии жанры, не пользующиеся популярностью, это - `racing` - 26.1 млн. копий (3.6%), `puzzle` - 23.3 млн. копий (3.2%) и `shooter` - 18.4 млн. копий (2.6%).

- Самыми популярными жанрами по всем регионам, за исключением Японии, являются: `action`, `sports`, `shooter`. Суммарное количество продаж и доля продаж относительно всех продаж для которых составляет: 1325.1 млн. копий (20.6%), 1021.4 млн. копий (15.9%) и 741.8 млн. копий (11.5%) соответственно. Для региона Японии самыми популярными жанрами являются: `role-playing` - 210.6 млн. копий (29.1%), `action` - 102.6 млн. копий (14.2%) и `misc` - 79.9 млн. копий (11.1%).

-  Жанр игры `role-playing` в Северной Америки и  Европе занимает 7 место среди всех 12 жанров. В Японии он занимает 1 место с явным отрывом от остальных.

-  Из всего выше сказанного следует, что рынок в регионах Северной Америки, Европы и в других странах имеет схожие предпочтения в покупке игр определенных жанров. Рынок Японии полностью отличается от них.

<a id="id16"></a>
#### Анализ популярности жанров игр в разрезе платформ

Для каждой платформы из топ-7 платформ, лидирующих по количеству выпущенных игр, найдем топ-3 популярных жанра игр, которые были выпущены на этой платформе. Отобразим количество вышедших игр данного жанра и их долю, относительно количества игр, вышедших на данной платформе.

In [96]:
# Создадим список с топ-7 платформами по количеству игр
top7_platform = df_group_platform_top7['platform'].tolist()

display(top7_platform)

['ps2', 'ds', 'wii', 'psp', 'x360', 'ps3', 'gba']

In [97]:
# Произведем фильтрацию df_actual, оставив в нем только строки с платформами, попавшими в топ-7
df_actual_platform_top7 = df_actual[df_actual['platform'].isin(top7_platform)]

# Добавим к df_actual_platform_top7 столбец с количеством игр, выпущенных на платформах
df_actual_platform_top7 = df_actual_platform_top7.merge(df_group_platform_top7, on='platform', how='left')

display(df_actual_platform_top7.head())

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,esrb_rating,user_score_group,critic_score_group,num_games,ratio_games
0,wii sports,wii,2006,sports,41.360001,28.959999,3.77,8.45,76,8.0,e,высокая оценка,средняя оценка,1275,10.0
1,mario kart wii,wii,2008,racing,15.68,12.76,3.79,3.29,82,8.3,e,высокая оценка,высокая оценка,1275,10.0
2,wii sports resort,wii,2009,sports,15.61,10.93,3.28,2.95,80,8.0,e,высокая оценка,высокая оценка,1275,10.0
3,new super mario bros.,ds,2006,platform,11.28,9.14,6.5,2.88,89,8.5,e,высокая оценка,высокая оценка,2120,16.6
4,wii play,wii,2006,misc,13.96,9.18,2.93,2.84,58,6.6,e,средняя оценка,средняя оценка,1275,10.0


In [98]:
# Рассчитаем количество игр, которое вышло на платформе в разрезе жанра
df_group_platform_top7_genre = df_actual_platform_top7.groupby(
    ['platform', 'num_games', 'genre'], 
    as_index=False, 
    observed=True
)['name'].count()

# Чтобы избежать путаницы, переименуем столбец, показывающий,
# сколько всего игр вышло на платформе, с 'num_games' на 'total_games_on_platform'.  
# Переименуем столбец, показывающий,
# какое количество игр вышло в разрезе платформы и жанра, с 'name' на 'num_games'.
df_group_platform_top7_genre = df_group_platform_top7_genre.rename(columns={'num_games':'total_games_on_platform', 'name': 'num_games'})

# Произведем расчет доли количества игр в разрезе платформы и жанра,
# относительно количества вышедших игр на платформе.
df_group_platform_top7_genre['ratio_games'] = round((df_group_platform_top7_genre['num_games'] * 100) / df_group_platform_top7_genre['total_games_on_platform'], 1)
display(df_group_platform_top7_genre)


Unnamed: 0,platform,total_games_on_platform,genre,num_games,ratio_games
0,ds,2120,action,332,15.7
1,ds,2120,adventure,236,11.1
2,ds,2120,fighting,36,1.7
3,ds,2120,misc,387,18.3
4,ds,2120,platform,89,4.2
...,...,...,...,...,...
79,x360,1121,role-playing,69,6.2
80,x360,1121,shooter,182,16.2
81,x360,1121,simulation,34,3.0
82,x360,1121,sports,190,16.9


In [99]:
# По каждой платформе оставим только топ-3 жанра по количеству вышедших игр.
# Чтобы оставить только топ-3 жанра по каждой платформе,
# отсортируем датасет по популярности платформы (количество вышедших игры на ней) 
# и по количеству игр, вышедших в разрезе платформы и жанра.
df_group_platform_top7_genre_top3 = df_group_platform_top7_genre.sort_values(['total_games_on_platform', 'num_games'], ascending=[False, False])

# Затем разобьем датасет на группы по столбцу platform
# и выведем только 3 строки внутри созданных групп.
df_group_platform_top7_genre_top3 = df_group_platform_top7_genre_top3.groupby(['platform']).head(3).reset_index(drop=True)

display(df_group_platform_top7_genre_top3)

print()

# Выведем на каком месте по каждой платформе располагается жанр role-playing
for platform in top7_platform:
    # Оставляем только строки с нужной платформой
    sample = df_group_platform_top7_genre[df_group_platform_top7_genre['platform'] == platform]
    sample = sample.sort_values(by='num_games', ascending=False).reset_index(drop=True)
    sample.index += 1
    sample = sample[sample['genre'] == 'role-playing']
    sample_index = sample.index[0]
    sample_num_games = sample.loc[sample_index, 'num_games']
    sample_ratio_games= sample.loc[sample_index, 'ratio_games']
    print(f'Жанр игры role-playing на платформе {platform} занимает {sample_index} место, количество выпущенных игр - {sample_num_games} ({sample_ratio_games}%)')

Unnamed: 0,platform,total_games_on_platform,genre,num_games,ratio_games
0,ps2,2127,sports,391,18.4
1,ps2,2127,action,345,16.2
2,ps2,2127,misc,218,10.2
3,ds,2120,misc,387,18.3
4,ds,2120,action,332,15.7
5,ds,2120,simulation,278,13.1
6,wii,1275,misc,269,21.1
7,wii,1275,sports,254,19.9
8,wii,1275,action,223,17.5
9,psp,1180,action,211,17.9



Жанр игры role-playing на платформе ps2 занимает 6 место, количество выпущенных игр - 183 (8.6%)
Жанр игры role-playing на платформе ds занимает 6 место, количество выпущенных игр - 196 (9.2%)
Жанр игры role-playing на платформе wii занимает 11 место, количество выпущенных игр - 35 (2.7%)
Жанр игры role-playing на платформе psp занимает 3 место, количество выпущенных игр - 191 (16.2%)
Жанр игры role-playing на платформе x360 занимает 6 место, количество выпущенных игр - 69 (6.2%)
Жанр игры role-playing на платформе ps3 занимает 5 место, количество выпущенных игр - 89 (8.2%)
Жанр игры role-playing на платформе gba занимает 5 место, количество выпущенных игр - 73 (9.0%)


Согласно полученным результатам наибольшей популярностью игры жанра `role-playing` пользуются на портативной приставке `psp` - 191 игр (16.2%). Данный жанр имеет среднюю популярностью на остальных платформах и занимает 5-6 место, на платформе wii игры с данным жанром выпускаются меньше - 11 место - 35 игр (2.7%).


Анализирую все платформы, можно сказать, что наиболее популярные жанры, выпущенных игр - это `sports`, `action` и `misc`.


<a id="id17"></a>
### Анализ качества выпущенных игр на топ-7 платформах по оценкам пользователей и критиков

In [102]:
# Произведем группировку топ-7 платформ по оценкам пользователей
# по столбцам 'platform', 'user_score_group', 'num_games'.
# Затем произведем расчет количества игр по категориям.
# После этого отсортируем полученный датафрейм
# в порядке количества вышедших игр на платформах и выставленной оценке.
df_group_top7_user = df_actual_platform_top7.groupby(['platform', 'user_score_group', 'num_games'], as_index=False, observed=True)['name'].count().sort_values(by=['num_games','user_score_group'], ascending=False)

# Переименуем столбец, в котором указывается количество высчитанных игр
# по категорями, с 'name' на 'num_games_user_score'.
# Для последующего правильного объединения датасетов
# переименуем 'user_score_group' в 'score_group'.
df_group_top7_user = df_group_top7_user.rename(columns={'name': 'num_games_user_score', 'user_score_group': 'score_group'})

# Для каждой категории оценок высчитаем долю игр, которая имеет данную категорию
df_group_top7_user['ratio_games_user_score'] = round((df_group_top7_user['num_games_user_score'] * 100) / df_group_top7_user['num_games'], 1)

display(df_group_top7_user)

Unnamed: 0,platform,score_group,num_games,num_games_user_score,ratio_games_user_score
11,ps2,высокая оценка,2127,635,29.9
10,ps2,средняя оценка,2127,578,27.2
9,ps2,низкая оценка,2127,7,0.3
8,ps2,оценка неизвестна,2127,907,42.6
3,ds,высокая оценка,2120,135,6.4
2,ds,средняя оценка,2120,361,17.0
1,ds,низкая оценка,2120,16,0.8
0,ds,оценка неизвестна,2120,1608,75.8
23,wii,высокая оценка,1275,161,12.6
22,wii,средняя оценка,1275,358,28.1


In [103]:
# Произведем группировку топ-7 платформ по оценкам критиков
df_group_top7_critic = df_actual_platform_top7.groupby(['platform', 'critic_score_group', 'num_games'], as_index=False, observed=True)['name'].count().sort_values(by=['num_games','critic_score_group'], ascending=False)

# Переименуем столбец, в котором указывается количество высчитанных игр
# по категорями, с 'name' на 'num_games_critic_score'.
# Для последующего правильного объединения датасетов
# переименуем 'critic_score_group' в 'score_group'.
df_group_top7_critic = df_group_top7_critic.rename(columns={'name': 'num_games_critic_score', 'critic_score_group': 'score_group'})

# Для каждой категории оценок высчитаем долю игр, которая имеет данную категорию
df_group_top7_critic['ratio_games_critic_score'] = round((df_group_top7_critic['num_games_critic_score'] * 100) / df_group_top7_user['num_games'], 1)

display(df_group_top7_critic)

Unnamed: 0,platform,score_group,num_games,num_games_critic_score,ratio_games_critic_score
11,ps2,высокая оценка,2127,278,13.1
10,ps2,средняя оценка,2127,994,46.7
9,ps2,низкая оценка,2127,3,0.1
8,ps2,оценка неизвестна,2127,852,40.1
3,ds,высокая оценка,2120,82,3.9
2,ds,средняя оценка,2120,618,29.2
1,ds,низкая оценка,2120,8,0.4
0,ds,оценка неизвестна,2120,1412,66.6
23,wii,высокая оценка,1275,65,5.1
22,wii,средняя оценка,1275,489,38.4


In [104]:
# Объединяем два датафрейма с группированными играми по оценкам пользователей и критиков
df_merge_top7 = df_group_top7_user.merge(df_group_top7_critic, on=['platform', 'score_group', 'num_games'], how='left')

In [105]:
# Произведет фильтрацию датасета, выведем только оценки пользователей
# Отсортируем платформы по доле игр, имеющих самый высокий рейтинг
df_merge_top7_high_user = df_merge_top7[['platform', 'score_group', 'num_games', 'num_games_user_score', 'ratio_games_user_score']]
df_merge_top7_high_user = df_merge_top7_high_user[df_merge_top7_high_user['score_group'] == 'высокая оценка'].sort_values(by='ratio_games_user_score', ascending=False).reset_index(drop=True)

print('Сортировка по доле игр, имеющих высокий рейтинг, для каждой платформы')
display(df_merge_top7_high_user)
print()

# Рассмотрим так же платформы, на которых было больше всего игр,
# имеющих высокий рейтинг, по мнению пользователей
print('Сортировка по количеству игр, имеющих высокий рейтинг, для каждой платформы')
display(df_merge_top7_high_user.sort_values(by='num_games_user_score', ascending=False))

Сортировка по доле игр, имеющих высокий рейтинг, для каждой платформы


Unnamed: 0,platform,score_group,num_games,num_games_user_score,ratio_games_user_score
0,ps2,высокая оценка,2127,635,29.9
1,gba,высокая оценка,811,131,16.2
2,x360,высокая оценка,1121,168,15.0
3,ps3,высокая оценка,1086,139,12.8
4,wii,высокая оценка,1275,161,12.6
5,psp,высокая оценка,1180,115,9.7
6,ds,высокая оценка,2120,135,6.4



Сортировка по количеству игр, имеющих высокий рейтинг, для каждой платформы


Unnamed: 0,platform,score_group,num_games,num_games_user_score,ratio_games_user_score
0,ps2,высокая оценка,2127,635,29.9
2,x360,высокая оценка,1121,168,15.0
4,wii,высокая оценка,1275,161,12.6
3,ps3,высокая оценка,1086,139,12.8
6,ds,высокая оценка,2120,135,6.4
1,gba,высокая оценка,811,131,16.2
5,psp,высокая оценка,1180,115,9.7


По оценкам пользователей можно сделать следующие выводы:
- Наиболее высокое соотношения выпущенных игр к играм, имеющим высокую оценку, наблюдается на платформах: `ps2` - 635 игр (29.9%), `gba` - 131 игра (16.2%) и `x360` - 168 игр (15.0%).
- Наибольшее количество игр, имеющих высокий рейтинг, было выпущено на платформах: `ps2` - 635 игр (из 2127 игр), `x360` - 168 игр (из 1121 игр) и `wii` - 161 игра (из 1275 игр).

In [107]:
# Произведет фильтрацию датасета, выведем только оценки критиков
# Отсортируем платформы по доле игр, имеющих самый высокий рейтинг
df_merge_top7_high_critic = df_merge_top7[['platform', 'score_group', 'num_games', 'num_games_critic_score', 'ratio_games_critic_score']]
df_merge_top7_high_critic = df_merge_top7_high_critic[df_merge_top7_high_critic['score_group'] == 'высокая оценка'].sort_values(by='ratio_games_critic_score', ascending=False).reset_index(drop=True)

print('Сортировка по доле игр, имеющих высокий рейтинг, для каждой платформы')
display(df_merge_top7_high_critic)
print()

# Рассмотрим так же платформы, на которых было больше всего игр,
# имеющих высокий рейтинг, по мнению критиков
print('Сортировка по количеству игр, имеющих высокий рейтинг, для каждой платформы')
display(df_merge_top7_high_critic.sort_values(by='num_games_critic_score', ascending=False))

Сортировка по доле игр, имеющих высокий рейтинг, для каждой платформы


Unnamed: 0,platform,score_group,num_games,num_games_critic_score,ratio_games_critic_score
0,ps3,высокая оценка,1086,241,22.2
1,x360,высокая оценка,1121,243,21.7
2,ps2,высокая оценка,2127,278,13.1
3,gba,высокая оценка,811,74,9.1
4,psp,высокая оценка,1180,70,5.9
5,wii,высокая оценка,1275,65,5.1
6,ds,высокая оценка,2120,82,3.9



Сортировка по количеству игр, имеющих высокий рейтинг, для каждой платформы


Unnamed: 0,platform,score_group,num_games,num_games_critic_score,ratio_games_critic_score
2,ps2,высокая оценка,2127,278,13.1
1,x360,высокая оценка,1121,243,21.7
0,ps3,высокая оценка,1086,241,22.2
6,ds,высокая оценка,2120,82,3.9
3,gba,высокая оценка,811,74,9.1
4,psp,высокая оценка,1180,70,5.9
5,wii,высокая оценка,1275,65,5.1




По оценкам критиков можно сделать следующие выводы:
- Наиболее высокое соотношения выпущенных игр к играм, имеющим высокую оценку, наблюдается на платформах: `ps3` - 241 игр (22.2%), `x360` - 243 игра (21.7%) и `ps2` - 278 игр (13.1%).
- Наибольшее количество игр, имеющих высокий рейтинг, было выпущено на платформах: `ps2` - 278 игр (из 2127 игр), `x360` - 243 игр (из 1121 игр) и `ps3` - 241 игра (из 1086 игр).

---

<a id="id18"></a>
## Итоговый вывод

В ходе выполнения проекта на этапе предобработки было выполнено:
- Удаление `245` строк, что составило `1.44%` данных. Среди них 2 пропуска, 241 явных дубликата и 2 неявных дубликата.
- Замена пропусков в столбцах `year_of_release`, `critic_score` и `user_score` на индикатор `-1`, в `esrb_rating` на индикатор `unknown`.
- Приведение всех данных к требуемому формату для дальнейшей работы с ними и проведена нормализация данных.

Для последующего анализа датасет был отфильтрован по периоду от `2000` до `2013` включительно и назван `df_actual`. Проведена категоризация игр согласно выставленным оценкам со стороны пользователей и критиков. Оценки были разбиты на `4 категории`: `оценка неизвестна`, `низкая оценка`, `средняя оценка` и `высокая оценка`, в результате чего в датасет `df_actual` было добавлено `2` столбца: `user_score_group` - категория оценки со стороны пользователей и `critic_score_group` - категория оценки со стороны критиков. Затем был проведен анализ полученного датафрейма.

В ходе анализа было определено:
- **Топ-7 платформ, согласно количеству выпущенных игр.**
    -  По количеству выпущенных игр в топ-7 платформ вошли: `ps2` - 2127 игр (16.6% - доля выпущенных игр на данной платформе, относительно всех рассматриваемых платформ), `ds` - 2120 игр (16.6%), `wii` - 1275 игр (10.0%), `psp` - 1180 игр (9.2%), `x360` - 1121 игр (8.8%), `ps3` - 1086 игр (8.5%) и `gba` - 811 игр (6.3%). <br><br>
-  **Определена популярность жанров по количеству вышедших игр.**
    -   Наибольшую популярность жанров среди вышедших игр имеют жанры: `action` - 2460 шт. (19.2 %), `sports` - 1817 шт. (14.2%) и `misc` - 1484 шт. (11.6%). Жанр `role-playing` занимает почётное 4 место - 1079 шт. (8.4%).
    -   Наименее популярными жанрами являются: `fighting` - 580 шт. (4.5%), `strategy` - 513 шт. (4.0%) и `puzzle` - 465 шт. (3.6%).<br><br>
-   **Определена популярность жанров по объему продаж в разрезе регионов.**
    -   Самыми популярными жанрами в регионе `Северной Америки`, `Европе` и `других странах` являются: `action`, `sports`, `shooter`, суммарное количество продаж и доля продаж относительно всех продаж для которых составляет: 1325.1 млн. копий (20.6%), 1021.4 млн. копий (15.9%) и 741.8 млн. копий (11.5%) соответственно.
    -   Для региона `Японии` самыми популярными жанрами являются: `role-playing` - 210.6 млн. копий (29.1%), `action` - 102.6 млн. копий (14.2%) и `misc` - 79.9 млн. копий (11.1%).
    -   Самыми не популярными жанрами в регионе `Северной Америки`, `Европе` и `других странах` являются: `adventure` - 166.2 млн. копий (2.59%), `puzzle` - 136.0 млн. копий (2.12%) и `strategy` - 111.1 млн. копий (1.73%).
    -  В `Японии` жанры, не пользующиеся популярностью, это - `racing` - 26.1 млн. копий (3.6%), `puzzle` - 23.3 млн. копий (3.2%) и `shooter` - 18.4 млн. копий (2.6%).
    -  Жанр игры `role-playing` в `Северной Америке` и  `Европе` занимает `7 место` среди всех 12 жанров. В `Японии` он занимает `1 место` с явным отрывом от остальных.<br><br>
-  **Определена популярность жанров игр в разрезе топ-7 платформ**
    -  Больше всего на различных платформах выпускают игры жанров: `sports`, `action` и `misc`.
    -  Наибольшей популярностью игры жанра `role-playing` пользуются на приставке `psp`.<br><br>
- **Произведен анализ качества выпущенных игр на топ-7 платформах по оценкам пользователей и критиков**
    - По оценкам пользователей можно сделать следующие выводы:
        - Наиболее высокое соотношения выпущенных игр к играм, имеющим высокую оценку, наблюдается на платформах: `ps2` - 635 игр (29.9%), `gba` - 131 игра (16.2%) и `x360` - 168 игр (15.0%).
        - Наибольшее количество игр, имеющих высокий рейтинг, было выпущено на платформах: `ps2` - 635 игр (из 2127 игр), `x360` - 168 игр (из 1121 игр) и `wii` - 161 игра (из 1275 игр).
    - По оценкам критиков можно сделать следующие выводы:
        - Наиболее высокое соотношения выпущенных игр к играм, имеющим высокую оценку, наблюдается на платформах: `ps3` - 241 игр (22.2%), `x360` - 243 игра (21.7%) и `ps2` - 278 игр (13.1%).
        - Наибольшее количество игр, имеющих высокий рейтинг, было выпущено на платформах: `ps2` - 278 игр (из 2127 игр), `x360` - 243 игр (из 1121 игр) и `ps3` - 241 игра (из 1086 игр).
