# Исследование игровой индустрии с 2000 по 2013 год

Автор: Вячеслав Зайко  
Дата: 30.03.2025

### Цели и задачи проекта
Цель проекта: изучить развитие игровой индустрии с 2000 по 2013 год для подготовки статьи, направленной на привлечение новой аудитории в игру «Секреты Темнолесья».

В ходе исследование предстоит сделать обзор игровых платформ, изучить объёмы продаж игр разных жанров с акцентом на RPG и региональные предпочтения игроков. 

### Описание данных

В проекте используются исторические данные из открытых источников. Датасет `/datasets/new_games.csv` содержит информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр:

`Name` — название игры. <br> `Platform` — название платформы.  
`Year of Release` — год выпуска игры.  
`Genre` — жанр игры.  
`NA sales` — продажи в Северной Америке (в миллионах проданных копий).  
`EU sales` — продажи в Европе (в миллионах проданных копий).  
`JP sales` — продажи в Японии (в миллионах проданных копий).  
`Other sales` — продажи в других странах (в миллионах проданных копий).  
`Critic Score` — оценка критиков (от 0 до 100).  
`User Score` — оценка пользователей (от 0 до 10).  
`Rating` — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.

### Оглавление проекта

#### Основные разделы
- [Цели и задачи проекта](#цели-и-задачи-проекта)
- [Описание данных](#описание-данных)

#### Этапы работы
1. [Загрузка данных и знакомство с ними](#1-загрузка-данных-и-знакомство-с-ними)
2. [Проверка ошибок в данных и их предобработка](#2-проверка-ошибок-в-данных-и-их-предобработка)
   - [2.1 Названия столбцов датафрейма](#21-названия-или-метки-столбцов-датафрейма)
   - [2.2 Типы данных](#22-типы-данных)
   - [2.3 Наличие пропусков в данных](#23-наличие-пропусков-в-данных)
   - [2.4 Обработка пропусков](#24-обработка-пропусков)
   - [2.5 Явные и неявные дубликаты в данных](#25-явные-и-неявные-дубликаты-в-данных)
   - [2.6 Общий промежуточный вывод по итогам предобработки данных](#26-общий-промежуточный-вывод-по-итогам-предобработки-данных)
3. [Фильтрация данных](#3-фильтрация-данных)
4. [Категоризация данных](#4-категоризация-данных)
5. [Итоговый вывод](#5-итоговый-вывод)

## Загрузка данных и знакомство с ними
<a id="1-загрузка-данных-и-знакомство-с-ними"></a>
Загружаем необходимые библиотеки Python и данные датасета `/datasets/new_games.csv`.


In [1]:
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

In [2]:
df = pd.DataFrame(pd.read_csv("https://code.s3.yandex.net/datasets/new_games.csv"))

Выводим первые строки и общую информацию о датафрейме.


In [3]:
df.head()

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


In [4]:
df.info()
initial_num_of_rows = df.shape[0]

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


Исследуемый датафрейм состоит из 16956 строк и 11 столбцов, наименование колонок и значения в них соответвуют описанию. В 6 из 11 столбцов встречаются пропуски, больше всего их в колонках с оценками игры и ее рейтингом организации ESRB.

Текстовые данные в столбцах `Name`, `Platform`, `Genre`, `Rating` корректно представлены типом `object`. А данные в столбцах `EU sales`, `JP sales` необходимо преобразовать в числовой тип данных для дальнейшего анализа. Данные в столбце `Year of Release` рекомендуется привести к целочесленному типу для удобства отображения.

---

## Проверка ошибок в данных и их предобработка


### Названия столбцов датафрейма

Выводим на экран названия всех столбцов датафрейма.

In [5]:
print(", ".join(df.columns))

Name, Platform, Year of Release, Genre, NA sales, EU sales, JP sales, Other sales, Critic Score, User Score, Rating


Приводим все столбцы к стилю snake case и выводим новые названия столбцов.

In [6]:
df.columns = df.columns.str.lower()
df.columns = df.columns.str.replace(' ', '_')
print(", ".join(df.columns))

name, platform, year_of_release, genre, na_sales, eu_sales, jp_sales, other_sales, critic_score, user_score, rating


### Типы данных

Преобразуем данные из столбцов `eu_sales`, `jp_sales` в числовой тип. Выводим информацию о типах данных каждого столбца.

In [7]:
df[['eu_sales', 'jp_sales']] = df[['eu_sales', 'jp_sales']].apply(pd.to_numeric, errors='coerce')
df.dtypes

name                object
platform            object
year_of_release    float64
genre               object
na_sales           float64
eu_sales           float64
jp_sales           float64
other_sales        float64
critic_score       float64
user_score          object
rating              object
dtype: object

### Наличие пропусков в данных

Посчитаем количество пропусков в каждом столбце в абсолютных и относительных значениях.


In [8]:
missing_values = pd.DataFrame({
    'number_of_missing_values': df.isnull().sum(),
    'percentage_of_missing_values(%)': (df.isnull().mean() * 100).round(2)
})

missing_values.sort_values(by='percentage_of_missing_values(%)', ascending=False)

Unnamed: 0,number_of_missing_values,percentage_of_missing_values(%)
critic_score,8714,51.39
rating,6871,40.52
user_score,6804,40.13
year_of_release,275,1.62
eu_sales,6,0.04
jp_sales,4,0.02
name,2,0.01
genre,2,0.01
platform,0,0.0
na_sales,0,0.0


Максимальное количество пропусков наблюдается в столбцах `user_score`, `critic_score` и `rating`. Можно предположить, что для игр с пропусками значений в столбцах с пользовательским рейтингом и с рейтингом критиков не был определен достоверный источник данных, либо рейтинг отсутствует в связи с низкой популярностью этих игр.

Предположительные причины пропусков в солбце с рейтингом ESRB: 

- Игра вышла только в цифровом формате либо она распространяется вне официальных платформ, поэтому разработчики могли не подавать её на рейтинг.
- Игра не предназначена для продажи в Северной Америке. ESRB — это американская система рейтингов. Если игра издаётся только в других странах, у неё не будет рейтинга ESRB.
- Игра бесплатная или некоммерческая. Некоторые бесплатные, фанатские или образовательные игры не проходят официальную классификацию, так как не требуют её для распространения.

### Обработка пропусков

Перед обработкой пропусков ознакомимся с уникальными значениями в столбцах `critic_score, user_score, rating`.

In [9]:
df['critic_score'].unique()


array([76., nan, 82., 80., 89., 58., 87., 91., 61., 97., 95., 77., 88.,
       83., 94., 93., 85., 86., 98., 96., 90., 84., 73., 74., 78., 92.,
       71., 72., 68., 62., 49., 67., 81., 66., 56., 79., 70., 59., 64.,
       75., 60., 63., 69., 50., 25., 42., 44., 55., 48., 57., 29., 47.,
       65., 54., 20., 53., 37., 38., 33., 52., 30., 32., 43., 45., 51.,
       40., 46., 39., 34., 35., 41., 36., 28., 31., 27., 26., 19., 23.,
       24., 21., 17., 22., 13.])

In [10]:
df['user_score'].unique()

array(['8', nan, '8.3', '8.5', '6.6', '8.4', '8.6', '7.7', '6.3', '7.4',
       '8.2', '9', '7.9', '8.1', '8.7', '7.1', '3.4', '5.3', '4.8', '3.2',
       '8.9', '6.4', '7.8', '7.5', '2.6', '7.2', '9.2', '7', '7.3', '4.3',
       '7.6', '5.7', '5', '9.1', '6.5', 'tbd', '8.8', '6.9', '9.4', '6.8',
       '6.1', '6.7', '5.4', '4', '4.9', '4.5', '9.3', '6.2', '4.2', '6',
       '3.7', '4.1', '5.8', '5.6', '5.5', '4.4', '4.6', '5.9', '3.9',
       '3.1', '2.9', '5.2', '3.3', '4.7', '5.1', '3.5', '2.5', '1.9', '3',
       '2.7', '2.2', '2', '9.5', '2.1', '3.6', '2.8', '1.8', '3.8', '0',
       '1.6', '9.6', '2.4', '1.7', '1.1', '0.3', '1.5', '0.7', '1.2',
       '2.3', '0.5', '1.3', '0.2', '0.6', '1.4', '0.9', '1', '9.7'],
      dtype=object)

In [11]:
df['rating'].unique()

array(['E', nan, 'M', 'T', 'E10+', 'K-A', 'AO', 'EC', 'RP'], dtype=object)

Помимо пропусков в столбце с оценкой пользователей содержится значение `tbd` (англ. "To Be Determined" — «подлежит уточнению»). Предположим, что это указывает на недостаточное количество отзывов пользователей и эквивалентно пропуску в данном контексте.

Столбцы `user_score` и `critic_score` содержат числовые данные, поэтому пропуки в них заменим числовым значением-индикатором `-1`. А пропуки в столбце `rating` заменим на `TBD`. Для дальнейшей работы с этими столбцами изменим тип данных в них на `float64`.

In [12]:
df[['user_score', 'critic_score']] = df[['user_score', 'critic_score']].fillna(-1).replace('tbd', -1).astype('float64')
df['rating'] = df['rating'].fillna('TBD')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16956 non-null  object 
 2   year_of_release  16681 non-null  float64
 3   genre            16954 non-null  object 
 4   na_sales         16956 non-null  float64
 5   eu_sales         16950 non-null  float64
 6   jp_sales         16952 non-null  float64
 7   other_sales      16956 non-null  float64
 8   critic_score     16956 non-null  float64
 9   user_score       16956 non-null  float64
 10  rating           16956 non-null  object 
dtypes: float64(7), object(4)
memory usage: 1.4+ MB


В колонке `year_of_release` заменим пропуски значением-индикатором `0` и изменим тип данных в столбце на целочисленный.


In [13]:
df['year_of_release'] = df['year_of_release'].fillna(0).astype(int)

Пропуски в данных с количеством проданных копий игры в Европе и Японии из столбцов `eu_sales` и `jp_sales` заменим на среднее значение в зависимости от названия платформы и года выхода игры.

In [14]:
# Создадим функцию, которая проверяет наличие пропуска в данных о продажах.
def mean_group_eu_sales (row): 
    if pd.isna(row['eu_sales']):
        # Если пропуск есть — функция создает группу по названию платформы и году выпуска игр.
        group = df[(df['platform'] == row['platform']) & (df['year_of_release'] == row['year_of_release'])]
        # Затем вместо пропуска функция подставляет среднее по группе значение. 
        return group['eu_sales'].mean()
    else:
        # Если пропуска нет, функция оставляет данные о продажах без изменений.
        return row['eu_sales']
        
def mean_group_jp_sales (row):
    if pd.isna(row['jp_sales']):
        group = df[(df['platform'] == row['platform']) & (df['year_of_release'] == row['year_of_release'])]
        return group['jp_sales'].mean()
    else:
        return row['jp_sales']
        
# Применим функцию к интересующим столбцам в каждой строке датафрейма.
df['eu_sales'] = df.apply(mean_group_eu_sales, axis=1)
df['jp_sales'] = df.apply(mean_group_jp_sales, axis=1)        

In [15]:
# Код ревьюера

df['jp_sales'] = df['jp_sales']\
    .fillna(df.groupby(['platform', 'year_of_release'])['jp_sales'].transform('mean'))

Удалим из датафрейма строки с пропущенными названиями игр и жанрами.

In [16]:
df = df.dropna(subset=['name', 'genre'])

Для проверки результата работы с пропусками выведим информацию об обработанном датафрейме.

In [17]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 16954 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16954 non-null  object 
 2   year_of_release  16954 non-null  int64  
 3   genre            16954 non-null  object 
 4   na_sales         16954 non-null  float64
 5   eu_sales         16954 non-null  float64
 6   jp_sales         16954 non-null  float64
 7   other_sales      16954 non-null  float64
 8   critic_score     16954 non-null  float64
 9   user_score       16954 non-null  float64
 10  rating           16954 non-null  object 
dtypes: float64(6), int64(1), object(4)
memory usage: 1.6+ MB


### Явные и неявные дубликаты в данных

Проверим категориальные данные на наличие неявных дубликатов, связанных с опечатками или разным способом написания. Последовательно выведем уникальные значениия из столбцов с названиями жанра игры, платформы, рейтинга и года выпуска.

In [18]:
df['genre'].unique()

array(['Sports', 'Platform', 'Racing', 'Role-Playing', 'Puzzle', 'Misc',
       'Shooter', 'Simulation', 'Action', 'Fighting', 'Adventure',
       'Strategy', 'MISC', 'ROLE-PLAYING', 'RACING', 'ACTION', 'SHOOTER',
       'FIGHTING', 'SPORTS', 'PLATFORM', 'ADVENTURE', 'SIMULATION',
       'PUZZLE', 'STRATEGY'], dtype=object)

In [19]:
df['platform'].unique()


array(['Wii', 'NES', 'GB', 'DS', 'X360', 'PS3', 'PS2', 'SNES', 'GBA',
       'PS4', '3DS', 'N64', 'PS', 'XB', 'PC', '2600', 'PSP', 'XOne',
       'WiiU', 'GC', 'GEN', 'DC', 'PSV', 'SAT', 'SCD', 'WS', 'NG', 'TG16',
       '3DO', 'GG', 'PCFX'], dtype=object)

In [20]:
df['rating'].unique()

array(['E', 'TBD', 'M', 'T', 'E10+', 'K-A', 'AO', 'EC', 'RP'],
      dtype=object)

In [21]:
 df['year_of_release'].unique()


array([2006, 1985, 2008, 2009, 1996, 1989, 1984, 2005, 1999, 2007, 2010,
       2013, 2004, 1990, 1988, 2002, 2001, 2011, 1998, 2015, 2012, 2014,
       1992, 1997, 1993, 1994, 1982, 2016, 2003, 1986, 2000,    0, 1995,
       1991, 1981, 1987, 1980, 1983])

Анализ показал наличие дубликатов в столбце `genre`, связанных с использованием разного регистра в названии жанра игры. Записи, которые означают одно и тоже, но представлены в разной форме — это неявные дубликаты.

Проведем нормализацию данных с текстовыми значениями. Названия и жанры игр приведем к нижнему регистру, а названия рейтинга — к верхнему. Удалим лишние пробелы из названий игр. Эти шаги нужны, чтобы преобразовать неявные дубликаты в явные для их дальнейшего устранения.

In [22]:
df['name'] = df['name'].str.lower()
df['genre'] = df['genre'].str.lower()
df['rating'] = df['rating'].str.upper()
df['name'] = df['name'].str.strip()


Проверим наличие явных дубликатов, то есть строк с одинаковыми данными во всех столбцах. Выведем количество таких строк, а затем удалим их из датасета.

In [23]:
explicit_duplicates = df.duplicated(subset=None, keep='first').sum()
explicit_duplicates

241

In [24]:
df = df.drop_duplicates(subset=None, keep='first')

Предположим, что строки с одинаковым названием игры и платформы также являются неявными дубликатами. Проверим их количество и удалим из датасета.

In [25]:
implicit_duplicates = df.duplicated(['name', 'platform']).sum()
implicit_duplicates

4

In [26]:
df = df.drop_duplicates(subset=['name', 'platform'], keep='first')

В ходе работы с дубликатами мы привели к единому формату названия игр, жанры и рейтинг ESRB. Обнаружили 241 строку с явными дубликатами и 4 строки с неявными.

В процессе подготовки данных были удалены пропуски и дубликаты. Рассчитаем количество удалённых строк в абсолютном и относительном значениях.

In [27]:
final_num_of_rows = df.shape[0]
rows_delta = initial_num_of_rows - final_num_of_rows
final_num_of_rows_share = round((rows_delta / initial_num_of_rows) * 100, 2)
print(f'Общее количество удаленных строк: {rows_delta}')
print(f'Доля удаленных строк от первоначального количества: {final_num_of_rows_share}%')


Общее количество удаленных строк: 247
Доля удаленных строк от первоначального количества: 1.46%


### Общий промежуточный вывод по итогам предобработки данных

- Заполнены пропуски в столбцах `rating`, `user_score` и `critic_score` значением-индикатором `tbd` (для категориальных данных).
Пропуски в year_of_release заменены на `0` с приведением типа к целочисленному.
Пропуски в продажах (`eu_sales`, `jp_sales`) заполнены средними значениями по группам (платформа + год выпуска).
Удалены строки с пропусками в названиях игр (name) и жанрах (genre), что составило 1.46% от исходного датасета.

- Устранены 241 явный и 4 неявных дубликата (по парам `name` + `platform`).
Проведена нормализация текстовых данных: приведение к нижнему регистру для `name` и `genre`, к верхнему — для `rating`.

- Столбцы `eu_sales` и `jp_sales` преобразованы в числовой тип `float`.

- Датафрейм подготовлен для дальнейшего анализа. Из 16 956 изначальных строк сохранено 16 954 строки.

---

## Фильтрация данных

Отфильтруем данные за интересующий период с 2000 по 2013 год включительно и сохраним новый срез данных в отдельном датафрейме `df_actual`. Выведем информацию о новом датафрейме.

In [28]:
df_actual = df[(df['year_of_release'] >= 2000) & (df['year_of_release'] <= 2013)]
df_actual.info()

<class 'pandas.core.frame.DataFrame'>
Index: 12778 entries, 0 to 16954
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             12778 non-null  object 
 1   platform         12778 non-null  object 
 2   year_of_release  12778 non-null  int64  
 3   genre            12778 non-null  object 
 4   na_sales         12778 non-null  float64
 5   eu_sales         12778 non-null  float64
 6   jp_sales         12778 non-null  float64
 7   other_sales      12778 non-null  float64
 8   critic_score     12778 non-null  float64
 9   user_score       12778 non-null  float64
 10  rating           12778 non-null  object 
dtypes: float64(6), int64(1), object(4)
memory usage: 1.2+ MB


---

## Категоризация данных
    
Разделим все игры по оценкам пользователей и выделим такие категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).

In [29]:
def categorize_user_score(score):
    if 0 <= score < 3:
        return "low score"
    elif 3 <= score < 8:
        return "medium score"
    elif 8 <= score <= 10:
        return "high score"
    else:
        return "unknown score"
# Создаем новый столбец с категориями
df_actual.loc[:, 'user_score_category'] = df_actual.loc[:, 'user_score'].apply(categorize_user_score)

Разделим все игры по оценкам критиков и выделим такие категории: высокая оценка (от 80 до 100 включительно), средняя оценка (от 30 до 80, не включая правую границу интервала) и низкая оценка (от 0 до 30, не включая правую границу интервала).

In [30]:
def categorize_critic_score(score):
    if 0 <= score < 30:
        return "low score"
    elif 30 <= score < 80:
        return "medium score"
    elif 80 <= score <= 100:
        return "high score"
    else:
       return "unknown score"
# Создаем новый столбец с категориями
df_actual.loc[:, 'critic_score_category'] = df_actual.loc[:, 'critic_score'].apply(categorize_critic_score)

Проверим результат добавления столбцов с категориями выводом 5 строк датафрейма.

In [31]:
df_actual.head()

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,user_score_category,critic_score_category
0,wii sports,Wii,2006,sports,41.36,28.96,3.77,8.45,76.0,8.0,E,high score,medium score
2,mario kart wii,Wii,2008,racing,15.68,12.76,3.79,3.29,82.0,8.3,E,high score,high score
3,wii sports resort,Wii,2009,sports,15.61,10.93,3.28,2.95,80.0,8.0,E,high score,high score
6,new super mario bros.,DS,2006,platform,11.28,9.14,6.5,2.88,89.0,8.5,E,high score,high score
7,wii play,Wii,2006,misc,13.96,9.18,2.93,2.84,58.0,6.6,E,medium score,medium score


Сгруппируем данные по выделенным категориям и посчитаем количество игр в каждой категории.

In [32]:
df_actual.groupby(['user_score_category', 'critic_score_category'])['name'].count().reset_index().rename(columns={'name': 'game_count'})

Unnamed: 0,user_score_category,critic_score_category,game_count
0,high score,high score,1015
1,high score,low score,1
2,high score,medium score,1167
3,high score,unknown score,101
4,low score,high score,1
5,low score,low score,17
6,low score,medium score,77
7,low score,unknown score,21
8,medium score,high score,640
9,medium score,low score,30


Рассчитаем процент игр, которые не имеют оценку пользователей или критиков.

In [33]:
unknown_score_count = df_actual[(df_actual['user_score_category'] == 'unknown score') | 
          (df_actual['critic_score_category'] == 'unknown score')]['user_score_category'].count()
unknown_score_perc = round (unknown_score_count / df_actual.shape[0] * 100, 1)
print(unknown_score_perc)

52.2


Выделим Топ-7 платформ по количеству игр, выпущенных за весь актуальный период.

In [34]:
top_platforms = (df_actual
                 .groupby('platform')['name']
                 .count().sort_values(ascending=False)
                 .reset_index()
                 .rename(columns={'name': 'game_count'}))
top_platforms.head(7)


Unnamed: 0,platform,game_count
0,PS2,2127
1,DS,2120
2,Wii,1275
3,PSP,1180
4,X360,1120
5,PS3,1086
6,GBA,811


---

## Итоговый вывод

В рамках проекта был проведен анализ данных о продажах игр с 2000 по 2013 год. Основные этапы работы:

**Загрузка и предобработка:**
- Исправлены названия столбцов (приведены к snake_case).
- Преобразованы типы данных: `eu_sales`, `eu_sales`, `user_score`, `critic_score` переведены в числовой формат.
- Обработаны пропуски:
    - В столбце `rating` пропуски заменены значением-индикатором `TBD`.
    - В столбцах `user_score` и `critic_score` пропуски заменены значением-индикатором `-1`.
    - Пропуски в `year_of_release` заменены на `0` с приведением типа к целочисленному.
    - Пропуски в продажах (`eu_sales`, `eu_sales`) заполнены средними значениями по группам (платформа + год выпуска).
- Удалены дубликаты: 241 явный и 4 неявных (по парам `name` + `platform`), что составило **1.46%** от исходного датасета.
- Проведена нормализация текстовых данных (регистр, пробелы).

**Категоризация и анализ данных:**
- Создан срез данных за период 2000–2013 год (`df_actual`), содержащий **12 778 игр.**
- Оценки пользователей и критиков разделены на категории:
    - **Высокие** (8–10 для пользователей, 80–100 для критиков).
    - **Средние** (3–8 и 30–80).
    - **Низкие** (0–3 и 0–30).
- Проанализировано распределение игр по категориям оценок:
**52.2%** игр не имеют оценок критиков или пользователей (`unknown score`).
Среди оцененных игр преобладают **средние оценки** (`medium score`).
- Определены топ-7 платформ по количеству выпущенных игр: **PS2, DS, Wii, PSP, X360, PS3, GBA.**

**Результаты:**
- Данные очищены, структурированы и подготовлены для анализа.
- Выявлены ключевые платформы и категории оценок, что позволит провести детальное исследование рыночных тенденций, предпочтений игроков и успешности жанров.

Полученный датасет может быть использован для дальнейшего изучения динамики продаж, влияния оценок на популярность игр, а также для формирования рекомендаций по продвижению RPG-проекта «Секреты Темнолесья» с учетом региональных особенностей и актуальных трендов.