# Обзор индустрии компьютерных игр. Предобработка и фильтрация данных.

- Автор: Сакович Мария
- Дата: 09.09.2025

### Цели и задачи проекта

Целью настоящего проекта является изучение развитие игровой индустрии с 2000 по 2013 год, основываясь на исторических данных из открытых источников о продажах игр, сделанных в разных жанрах и выпущенных на разных платформах, а также пользовательских и экспертных оценках игр.

### Описание данных

Данные `/datasets/new_games.csv` содержат информацию о продажах игр разных жанров и платформ, а также 
пользовательские и экспертные оценки игр:

- Name — название игры.
- Platform — название платформы.
- Year of Release — год выпуска игры.
- Genre — жанр игры.
- NA sales — продажи в Северной Америке (в миллионах проданных копий).
- EU sales — продажи в Европе (в миллионах проданных копий).
- JP sales — продажи в Японии (в миллионах проданных копий).
- Other sales — продажи в других странах (в миллионах проданных копий).
- Critic Score — оценка критиков (от 0 до 100).
- User Score — оценка пользователей (от 0 до 10).
- Rating — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.

### Содержимое проекта

1. [Загрузка данных и знакомство с ними](#hello)
2. [Проверка ошибок в данных и их предобработка](#clean)
3. [Фильтрация данных](#filter)
4. [Категоризация данных](#categories)
5. [Итоговый вывод](#conclusion)

---

## Загрузка и знакомство с данными<a id='hello'></a>

Загрузим библиотеку pandas и данные исходного датасета:


In [None]:
import pandas as pd
data = pd.read_csv('')
data.head()

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


Создадим копию датафрейма и дальнейшие действия будем производить в нем.

In [2]:
df=data

Выведем информацию о датафрейме в исходном состоянии:

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


В выгружаемом csv-файле содержатся данные объемом 16956 строк на 11 столбцов.




Типы данных в некоторых столбцах присвоены некорректно, и их необходимо изменить:
- **Year_of_Release**  (год выпуска игры) - изменить с `float64` на целочисленный тип
- **EU_sales** (продажи в Европе), **JP_sales** (продажи в Японии) и **User_Score** (оценка пользователей) - изменить с `object` на вещественный тип - `float64`


Также 
В 6 столбцах содержатся пропуски, необходимо определить, к какому типу пропусков они относятся и принять решение о том, как с ними поступить в рамках настоящей задачи.

---

## Проверка ошибок в данных и их предобработка <a id='clean'></a>


### Названия, или метки, столбцов датафрейма

Выведем на экран названия всех столбцов датафрейма:

In [4]:
df.columns

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')

 Для удобства работы с названиями столбцов приведём их к *змеиному регистру* путем замены пробелов на знак `_` и перевода знаков в нижний регистр.

In [5]:
df.columns = df.columns.str.replace(' ', '_')
df.columns = df.columns.str.lower()

### Типы данных
В датафрейме содержатся данные типов `float64` и `object`. Однако некоторые столбцы, которые по смыслу содержат числовые значения, имеют тип `object`- `eu_sales`, `jp_sales`, `user_score` - это необходимо исправить. Также год выпуска имеет вещественный тип данных - его необходимо исправить на целочисленный. 

Столбец с данными о годе выпуска игр имеет вещественный тип данных из-за наличия в нем пропусков. Для преобразования типа в целочисленный необходимо принять решение о том, как поступить с пропусками. Поскольку в дальнейшем анализе мы будем делать срез по годам (будет рассмотрен период с 2000 по 2013 год включительно), то пропуски в столбце с годом выпуска можно заменить индикатором, например, `-1`.

In [6]:
df['year_of_release'] = df['year_of_release'].fillna(-1)

Теперь можно изменить тип данных столбца на целочисленный, а также можно понизить разрядность.

In [7]:
df['year_of_release']=pd.to_numeric(df['year_of_release'], downcast='integer')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16956 non-null  object 
 2   year_of_release  16956 non-null  int16  
 3   genre            16954 non-null  object 
 4   na_sales         16956 non-null  float64
 5   eu_sales         16956 non-null  object 
 6   jp_sales         16956 non-null  object 
 7   other_sales      16956 non-null  float64
 8   critic_score     8242 non-null   float64
 9   user_score       10152 non-null  object 
 10  rating           10085 non-null  object 
dtypes: float64(3), int16(1), object(7)
memory usage: 1.3+ MB


При попытке перевести столбцы `eu_sales`, `jp_sales` и `user_score` к числовому типу появляется ошибка ValueError. Разберемся, почему это происходит. 

Проверим нечисловые значения в столбцах `eu_sales`,`jp_sales`,`user_score`: напишем функцию, которая будет определять, на каких значениях в столбце возникает ошибка при попытке перевести данные в числовой формат методом `to_numeric()` - для этого выберем для аргумента  `errors` значение `coerce` и затем выведем уникальные значения полученной серии с помощью метода `.unique()`. Полученную функцию применим к интересующим нас
столбцам. 

In [8]:
def non_numeric_values(column):
    """
    Функция, выводящая уникальные нечисловые значения из столбца

    Параметры:
        - столбец
    Вернет:
        -уникальные нечисловые значения в столбце
    
    """
    non_numeric = column[pd.to_numeric(column, errors='coerce').isna()].unique()
    return non_numeric

all_non_numeric_values = df[['eu_sales', 'jp_sales', 'user_score']].apply(non_numeric_values)

print("Уникальные нечисловые значения:")
print(all_non_numeric_values)

Уникальные нечисловые значения:
eu_sales       [unknown]
jp_sales       [unknown]
user_score    [nan, tbd]
dtype: object


Среди уникальных значений в столбцах `eu_sales` и `jp_sales` присутствует строковое значение `unknown`, а в столбце `user_score` - значения `tbd` и `nan`(пропуск). Заменим эти значения на пропуски. 

In [9]:
df[['eu_sales','jp_sales']] = df[['eu_sales','jp_sales']].replace('unknown', None)
df['user_score'] = df['user_score'].replace({'tbd':None})

Теперь изменим тип данных на числовой и снова выведем информацию о датафрейме.

In [10]:
df[['eu_sales','jp_sales','user_score']]=df[['eu_sales','jp_sales','user_score']].astype(float)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16956 non-null  object 
 2   year_of_release  16956 non-null  int16  
 3   genre            16954 non-null  object 
 4   na_sales         16956 non-null  float64
 5   eu_sales         16950 non-null  float64
 6   jp_sales         16952 non-null  float64
 7   other_sales      16956 non-null  float64
 8   critic_score     8242 non-null   float64
 9   user_score       7688 non-null   float64
 10  rating           10085 non-null  object 
dtypes: float64(6), int16(1), object(4)
memory usage: 1.3+ MB


Теперь все данные - в подходящем формате. 

**Промежуточные выводы**

Исправлены типы данных в соответствии с содержимым ячеек.


### Наличие пропусков в данных


#### Поиск пропусков в данных

Рассчитаем количество пропусков по столбцам:

In [11]:
empty=df.isna().sum() 
empty

name                  2
platform              0
year_of_release       0
genre                 2
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8714
user_score         9268
rating             6871
dtype: int64

И их количество в процентах, с округлением до 2 знаков после запятой.

In [12]:
empty_share=round(df.isna().sum() / len(df) * 100,2)
empty_share

name                0.01
platform            0.00
year_of_release     0.00
genre               0.01
na_sales            0.00
eu_sales            0.04
jp_sales            0.02
other_sales         0.00
critic_score       51.39
user_score         54.66
rating             40.52
dtype: float64

Теперь необходимо предположить, почему в данных содержатся пропуски.

В столбцах `eu_sales`,`jp_sales` пропуски появились на этапе смены типа данных. Поскольку в исходных данных вместо пропусков были значения `unknown`, то считаем, что отсутствует информация о продажах соответствующих игр в регионах, поэтому **пропуски в этих столбцах будем заменять на среднее значение продаж этой платформы в этом регионе**. Также можно удалить эти строки, поскольку их количество невелико.

Выведем строки, в которых есть пропуски в столбцах `name` и `genre`:

In [13]:
empty_name_or_genre_df=df[df[['name','genre']].isna().any(axis=1)]
empty_name_or_genre_df

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
661,,GEN,1993,,1.78,0.53,0.0,0.08,,,
14439,,GEN,1993,,0.0,0.0,0.03,0.0,,,


Пропуски в столбцах с названием игры и жанром, скорее всего, полностью случайны (MCAR), к тому же, год выпуска игр находится за пределами диапазона, который мы будем рассматривать, и количество пропусков очень маленькое (2 или 0.012%) - их **можно удалить из датафрейма** и не учитывать в дальнейшей работе.

Есть еще 3 столбца, где содержатся пропуски, но их уже существенное количество - 40-55%: `critic_score`, `user_score` и `rating`

Столбцы `critic_score` и `user_score` содержат информацию об оценке критиками и пользователями соответственно, а `rating` - рейтинг организации ESRB по возрастным категориям. Наличие пропусков оценок может быть обусловлено тем, что эти данные отсутствуют в открытых источниках или оценивание не проводилось, а в столбце с рейтингом - также тем, что организация ESRB присваивала рейтинг не всем существующим играм. В дальнейшей работе планируется провести категоризацию данных, а именно разделить игры по оценкам критиков и пользователей. Поскольку наличие пропусков в данных столбцах не повлияет на результат этой категоризации, **можно оставить их в датафрейме** (опционально - можно будет присвоить им отдельную категорию "нет данных")

**Промежуточные выводы**

Пропуски содержатся в следующих столбцах:
- `name`, `genre` - скорее всего, полностью случайны, количество незначительное, можно удалить
- `eu_sales`, `jp_sales` - появились на этапе изменения типов данных, нет информации о продажах в регионах, количество незначительное, можно удалить или заменить средним значением продаж игр соответствующей платформы в регионе
- `critic_score`, `user_score`, `rating`-отсутствует информация об оценках и рейтинге ESRB, количество существенное (40-55%), можно оставить в датафрейме, опционально присвоить отдельную категорию "нет данных"

#### Обрабатываем пропущенные значения

Заменяем пропуски в столбцах `eu_sales`,`jp_sales`:

In [14]:
def mean_platform_year_sales(row):
    """
    Функция, заполняющая пропуски в значениях продаж игр средними значениями по платформе и году выпуска

    Параметры: 
        - продажи по региону
        - платформа 
        - год выпуска игры
        
    Вернет: 
        - датафрейм, в котором пропуски были заполнены средними значениями по платформе и году выпуска
    """
    if pd.isna(row['eu_sales']):
        group = df[(df['platform'] == row['platform']) & 
                   (df['year_of_release'] == row['year_of_release'])]
        return group['eu_sales'].mean()
    else:
        return row['eu_sales']

df['eu_sales'] = df.apply(mean_platform_year_sales, axis=1)
df['jp_sales'] = df.apply(mean_platform_year_sales, axis=1)

Удаляем пропуски по столбцу `name`:

In [15]:
#поскольку название и жанр отсутствуют в одних и тех же строках, достаточно удалить по одному признаку
df=df.dropna(subset=['name'])

Пропуски в `critic_score`, `user_score`, `rating` оставляем. Выводим на экран информацию о датафрейме для проверки.

In [16]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 16954 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16954 non-null  object 
 2   year_of_release  16954 non-null  int16  
 3   genre            16954 non-null  object 
 4   na_sales         16954 non-null  float64
 5   eu_sales         16954 non-null  float64
 6   jp_sales         16954 non-null  float64
 7   other_sales      16954 non-null  float64
 8   critic_score     8242 non-null   float64
 9   user_score       7688 non-null   float64
 10  rating           10085 non-null  object 
dtypes: float64(6), int16(1), object(4)
memory usage: 1.5+ MB


**Промежуточные выводы:**

Обработаны пропуски - часть заполнена, часть удалена, часть оставлена.
В обработанном датафрейме осталось 16954 строки по 11 столбцам. 

### Явные и неявные дубликаты в данных


Выведем уникальные значениях в столбцах с жанром, платформой, годом выпуска, рейтингом для оценки наличия в них неявных дубликатов:

In [17]:
def unique(column):
    """
    Функция, которая выводит уникальные значения в столбце

    Параметр: столбце

    Вернет: уникальные значения в столбце
    """
    unique_values=df[column].unique()
    return (f"Уникальные в столбце {column}:{unique_values}")
    
print(unique('genre'))
print()
print(unique('platform'))
print()
print(unique('year_of_release'))
print()
print(unique('rating'))


Уникальные в столбце genre:['Sports' 'Platform' 'Racing' 'Role-Playing' 'Puzzle' 'Misc' 'Shooter'
 'Simulation' 'Action' 'Fighting' 'Adventure' 'Strategy' 'MISC'
 'ROLE-PLAYING' 'RACING' 'ACTION' 'SHOOTER' 'FIGHTING' 'SPORTS' 'PLATFORM'
 'ADVENTURE' 'SIMULATION' 'PUZZLE' 'STRATEGY']

Уникальные в столбце platform:['Wii' 'NES' 'GB' 'DS' 'X360' 'PS3' 'PS2' 'SNES' 'GBA' 'PS4' '3DS' 'N64'
 'PS' 'XB' 'PC' '2600' 'PSP' 'XOne' 'WiiU' 'GC' 'GEN' 'DC' 'PSV' 'SAT'
 'SCD' 'WS' 'NG' 'TG16' '3DO' 'GG' 'PCFX']

Уникальные в столбце year_of_release:[2006 1985 2008 2009 1996 1989 1984 2005 1999 2007 2010 2013 2004 1990
 1988 2002 2001 2011 1998 2015 2012 2014 1992 1997 1993 1994 1982 2016
 2003 1986 2000   -1 1995 1991 1981 1987 1980 1983]

Уникальные в столбце rating:['E' nan 'M' 'T' 'E10+' 'K-A' 'AO' 'EC' 'RP']


В столбце с жанрами значения записаны в разном регистре. Для дальнейшего анализа дубликатов нормализуем данные - переведем значения в нижний регистр. 

In [18]:
df['genre']=df['genre'].str.lower()
print(unique('genre'))

Уникальные в столбце genre:['sports' 'platform' 'racing' 'role-playing' 'puzzle' 'misc' 'shooter'
 'simulation' 'action' 'fighting' 'adventure' 'strategy']


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['genre']=df['genre'].str.lower()


Теперь неявные дубликаты по столбцу с жанрами устранены. 

В столбце `rating` присутствует значение `K-A` (действовал до 1998 года) - заменим его на `E` (аналогичная современная возрастная категория):

In [19]:
df=df.replace({'rating': {'K-A': 'E'}}) 

Посчитаем количество явных дубликатов, принимая, что уникальное значение определяется по названию и платформе:

In [20]:
sum(df.duplicated(subset=['name', 'platform']))

245

**Промежуточный вывод:**

Найдено 246 дубликатов, их необходимо удалить.

Удалим явные дубликаты методом `.drop_duplicates()`:

In [21]:
df=df.drop_duplicates(subset=['name', 'platform'], keep='first', inplace=False) 

Рассчитаем количество и долю строк, которые были удалены из исходного датафрейма при обработке:

In [22]:
len(data)-len(df)

247

In [23]:
round((1-len(df)/len(data)),4)

0.0146

В ходе предобработки было удалено 247 строк, или около 1,5%.

In [24]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 16709 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16709 non-null  object 
 1   platform         16709 non-null  object 
 2   year_of_release  16709 non-null  int16  
 3   genre            16709 non-null  object 
 4   na_sales         16709 non-null  float64
 5   eu_sales         16709 non-null  float64
 6   jp_sales         16709 non-null  float64
 7   other_sales      16709 non-null  float64
 8   critic_score     8133 non-null   float64
 9   user_score       7586 non-null   float64
 10  rating           9945 non-null   object 
dtypes: float64(6), int16(1), object(4)
memory usage: 1.4+ MB


**Общие промежуточные выводы**

- Исправлены типы данных для корректного дальнейшего анализа.
- Обработаны пропуски.
- Обработаны дубликаты.
- В ходе предобработки было удалено 247 строк, или около 1,5%. В обработанном датафрейме осталось 16709 строк.

---

## Фильтрация данных<a id='filter'></a>

Отфильтруем строки по году выпуска игр - от 2000 до 2013 включительно и сохраним в новый датафрейм `df_actual`:

In [25]:
df_actual = df[(df['year_of_release'] >= 2000) & (df['year_of_release'] <= 2013)].copy()
df_actual.info()

<class 'pandas.core.frame.DataFrame'>
Index: 12778 entries, 0 to 16954
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             12778 non-null  object 
 1   platform         12778 non-null  object 
 2   year_of_release  12778 non-null  int16  
 3   genre            12778 non-null  object 
 4   na_sales         12778 non-null  float64
 5   eu_sales         12778 non-null  float64
 6   jp_sales         12778 non-null  float64
 7   other_sales      12778 non-null  float64
 8   critic_score     7166 non-null   float64
 9   user_score       6480 non-null   float64
 10  rating           8720 non-null   object 
dtypes: float64(6), int16(1), object(4)
memory usage: 1.1+ MB


Срез данных содержит 12778 строк по 11 столбцам.

---

## Категоризация данных<a id='categories'></a>


Разделим игры на категории по оценкам пользователей и критиков:

In [26]:
user_score_groups = []
critic_score_groups = []

for score in df_actual['user_score']:
    if score < 3:
        user_score_groups.append("низкая оценка")
    elif score <8:
        user_score_groups.append("средняя оценка")
    elif score <= 10:
        user_score_groups.append("высокая оценка")
    else:
        user_score_groups.append("нет данных")

for score in df_actual['critic_score']:
    if score < 30:
        critic_score_groups.append("низкая оценка")
    elif score <80:
        critic_score_groups.append("средняя оценка")
    elif score <= 100:
        critic_score_groups.append("высокая оценка")
    else:
        critic_score_groups.append("нет данных") 

df_actual['user_score_groups'] = user_score_groups
df_actual['critic_score_groups']=critic_score_groups

Сгруппируем данные по полученным категориям и вычислим количество игр в каждой из них:

In [27]:
user_score_count=df_actual.groupby('user_score_groups',as_index=True)['name'].count()
user_score_count_share=round(user_score_count/len(df_actual)*100,1)
user_score_count,user_score_count_share

(user_score_groups
 высокая оценка    2284
 нет данных        6298
 низкая оценка      116
 средняя оценка    4080
 Name: name, dtype: int64,
 user_score_groups
 высокая оценка    17.9
 нет данных        49.3
 низкая оценка      0.9
 средняя оценка    31.9
 Name: name, dtype: float64)

In [28]:
critic_score_count=df_actual.groupby('critic_score_groups',as_index=True)['name'].count()
critic_score_count_share=round(critic_score_count/len(df_actual)*100,1)

In [29]:
score_comparison = pd.DataFrame({
    'user_score_count': user_score_count,
    'critic_score_count': critic_score_count,
    'user_score_count_share':user_score_count_share,
    'critic_score_count_share':critic_score_count_share
})

score_comparison

Unnamed: 0,user_score_count,critic_score_count,user_score_count_share,critic_score_count_share
высокая оценка,2284,1689,17.9,13.2
нет данных,6298,5612,49.3,43.9
низкая оценка,116,55,0.9,0.4
средняя оценка,4080,5422,31.9,42.4


Мы получили распределение категорий игр по оценкам пользователей и экспертов и можем их сравнить. По полученным данным можно заметить, что пользователи чаще критиков оставляют высокие и низкие оценки, а среди оценок критиков больше доля "средних".
Среди оценок пользователей высокая оценка встречается почти в 2 раза реже, чем средняя, а среди оценок экспертов высокая - в 3 раза реже средней.
Доля низких оценок по обоим столбцам невысокая, но при этом пользователи в 2 раза чаще экспертов присваивали играм низкий рейтинг.

Сгруппируем данные по платформе и выделим ТОП-7 платформ по количеству игр, выпущенных за период с 2000 по 2013 годы включительно:

In [30]:
platform_game_count=df_actual.groupby('platform',as_index=True)['name'].count()
platform_game_count.sort_values(ascending=False).head(7)

platform
PS2     2127
DS      2120
Wii     1275
PSP     1180
X360    1120
PS3     1086
GBA      811
Name: name, dtype: int64

Дополнительно рассчитаем долю от всех выпущенных в этот период игр:

In [31]:
round(platform_game_count.sort_values(ascending=False).head(7)/len(df_actual)*100,2)

platform
PS2     16.65
DS      16.59
Wii      9.98
PSP      9.23
X360     8.77
PS3      8.50
GBA      6.35
Name: name, dtype: float64

---

## Итоговый вывод<a id='conclusion'></a>


Проведена обработка исходных данных - исправлены типы данных, пропуски удалены/заменены/оставлены - в зависимости от их нахождения, происхождения и количества, обработаны дубликаты: неявные (различный регистр, разное отображение идентичных значений) приведены к явным и вместе с явными удалены из датафрейма.

In [32]:
df_actual.info()

<class 'pandas.core.frame.DataFrame'>
Index: 12778 entries, 0 to 16954
Data columns (total 13 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   name                 12778 non-null  object 
 1   platform             12778 non-null  object 
 2   year_of_release      12778 non-null  int16  
 3   genre                12778 non-null  object 
 4   na_sales             12778 non-null  float64
 5   eu_sales             12778 non-null  float64
 6   jp_sales             12778 non-null  float64
 7   other_sales          12778 non-null  float64
 8   critic_score         7166 non-null   float64
 9   user_score           6480 non-null   float64
 10  rating               8720 non-null   object 
 11  user_score_groups    12778 non-null  object 
 12  critic_score_groups  12778 non-null  object 
dtypes: float64(6), int16(1), object(6)
memory usage: 1.3+ MB


Сделан срез по годам (с 2000 по 2013 включительно), в нем проведена категоризация значений по оценкам пользователей и экспертов - при этом добавлены новые столбцы `user_score_groups` и `critic_score_groups` со строковыми данными. Результирующий датасет имеет размер 12778 строк на 13 столбцов.

В срезе выделены ТОП-7 платформ по количеству выпущенных игр. Самые высокие показатели у PS2 - 2127 игр (16,65%) и Nintendo DS - 2120 игр (16,59%). У остальных платформ из ТОП-а - от 811 до 1275 игр (в относительных значениях 6,35-9,98%).