# Игровая индустрия XXI века: Анализ развития жанров и платформ

- Автор: Лаптева Диана Дмитриевна
- Дата: 24.11.2024

### Цели и задачи проекта

<font color='#777778'>В данном проекте используется датасет /datasets/new_games.csv, который содержит информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр. На основе датасета изучим развитие игровой индустрии в период с 2000 по 2013 год, выявим ключевые тенденции: популярность жанров, динамику развития игровых платформ и региональные предпочтения,- проведем анализ ролевых игр (RPG) как одного из популярных жанров, чтобы подчеркнуть связь с игрой «Секреты Темнолесья», узнаем как привлечь аудиторию, заинтересованную в истории видеоигр, и повысить узнаваемость бренда игры. Также подготовим данные, проанализируем игровые платформы, изучим жанры, категоризации оценок, проведем обзор культурного влияния. </font>

### Описание данных

<font color='#777778'>В проекте будут использованы данные датасета `new_games.csv` с таким описанием:
    
- `Name` — название игры;
- `Platform` — название платформы;
- `Year of Release` — год выпуска игры;
- `Genre` — жанр игры;
- `NA sales` — продажи в Северной Америке (в миллионах проданных копий);
- `EU sales` — продажи в Европе (в миллионах проданных копий);
- `JP sales` — продажи в Японии (в миллионах проданных копий);
- `Other sales` — продажи в других странах (в миллионах проданных копий);
- `Critic Score` — оценка критиков (от 0 до 100);
- `User Score` — оценка пользователей (от 0 до 10);
- `Rating` — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.</font>

### Содержимое проекта

<font color='#777778'> 

1. [Загрузка и знакомство с данными.](#1-bullet)   
2. [Проверка ошибок в данных и их предобработка.](#2-bullet)
3. [Фильтрация данных.](#3-bullet)
4. [Категоризация данных.](#4-bullet)
5. [Вывод.](#5-bullet)
</font>

---

<a class="anchor" id="1-bullet"></a>
## 1. Загрузка и знакомство с данными
Загрузим необходимые библиотеки для анализа данных и данные из датасета `/datasets/new_games.csv`. Затем выведем основную информацию о данных с помощью метода `info()` и первые строки датафрейма.

In [1]:
# Импотируем библиотку pandas
import pandas as pd

In [2]:
# Выгружаем данные из датасета new_games.csv в датафрейм games
games = pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv')

In [3]:
# Выводим информацию о датафрейме
games.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


Изучим первые 15 строчек датафрейма

In [4]:
games.head(15)

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,
5,Tetris,GB,1989.0,Puzzle,23.2,2.26,4.22,0.58,,,
6,New Super Mario Bros.,DS,2006.0,Platform,11.28,9.14,6.5,2.88,89.0,8.5,E
7,Wii Play,Wii,2006.0,Misc,13.96,9.18,2.93,2.84,58.0,6.6,E
8,New Super Mario Bros. Wii,Wii,2009.0,Platform,14.44,6.94,4.7,2.24,87.0,8.4,E
9,Duck Hunt,NES,1984.0,Shooter,26.93,0.63,0.28,0.47,,,


Пропуски обнаружены в 6 столбцах из 11. Особенно критичны пропуски в оценках (Critic Score, User Score) и рейтинге (Rating), поскольку отсутствие данных в этих столбцах усложняет оценку качества игр.

Обнаружены несоответствия типов данных:
Year of Release представлен как float64, а должен быть int64.
EU sales, JP sales и User Score имеют тип object, хотя должны быть числовыми, это может означать наличие некорректных данных (например, текстовых значений).

Некоторые названия столбцов не приведены к единому стилю. Например, в Year of Release используются пробелы вместо подчёркиваний, а другие столбцы, такие как NA sales, имеют сокращения. Это может затруднить работу с данными.

Исходя из первых 15 строк датафрейма, можно заметить, что игры с высокими пользовательскими оценками, как правило, коррелируют с хорошими продажами; некоторые игры продаются хорошо, но имеют низкие оценки, что может указывать на маркетинговую успешность, несмотря на слабую репутацию.

---
<a class="anchor" id="2-bullet"></a>

## 2.  Проверка ошибок в данных и их предобработка


### 2.1. Названия, или метки, столбцов датафрейма: 

Проанализируем названия всех столбцов датафрейма и приведем их к единому стилю.

In [5]:
# выведем названия столбцов
games.columns

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')

In [6]:
# приведем к единому стилю
games.columns = games.columns.str.lower().str.replace(' ', '_')

In [8]:
# выведем обновленные названия столбцов
games.columns

Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')

Названия столбцов приведены к единому стилю, что повышает читаемость и удобство работы.

### 2.2. Типы данных: 

В следующих столбцах обнаружены некорректные типы данных:

- year_of_release — тип float64, хотя для года логичнее использовать int64. Причина: пропуски (NaN) в данных.


- eu_sales, jp_sales, user_score — тип object, хотя должны быть числовыми (float64). Причина: наличие строковых значений, например, unknown или пустых строк.

Преобразуем типы данных.

Ознакомимся с типами данных датафрейма при помощи метода df.dtypes

In [9]:
# Выведем типы данных
games.dtypes

name                object
platform            object
year_of_release    float64
genre               object
na_sales           float64
eu_sales            object
jp_sales            object
other_sales        float64
critic_score       float64
user_score          object
rating              object
dtype: object

Некоторые столбцы имеют нехарактерный тип данных для информации, которую они хранят.

Изучим с чем это может быть связано. Выведем уникальные значения по таким столбцам.

In [10]:
# Проверим уникальные значения
unique_eu_sales = games['eu_sales'].unique() 
print(unique_eu_sales) 
unique_jp_sales = games['jp_sales'].unique() 
print(unique_jp_sales) 
unique_user_score = games['user_score'].unique() 
print(unique_user_score) 
unique_year_of_release = games['year_of_release'].unique() 
print(unique_year_of_release) 

['28.96' '3.58' '12.76' '10.93' '8.89' '2.26' '9.14' '9.18' '6.94' '0.63'
 '10.95' '7.47' '6.18' '8.03' '4.89' '8.49' '9.09' '0.4' '3.75' '9.2'
 '4.46' '2.71' '3.44' '5.14' '5.49' '3.9' '5.35' '3.17' '5.09' '4.24'
 '5.04' '5.86' '3.68' '4.19' '5.73' '3.59' '4.51' '2.55' '4.02' '4.37'
 '6.31' '3.45' '2.81' '2.85' '3.49' '0.01' '3.35' '2.04' '3.07' '3.87'
 '3.0' '4.82' '3.64' '2.15' '3.69' '2.65' '2.56' '3.11' '3.14' '1.94'
 '1.95' '2.47' '2.28' '3.42' '3.63' '2.36' '1.71' '1.85' '2.79' '1.24'
 '6.12' '1.53' '3.47' '2.24' '5.01' '2.01' '1.72' '2.07' '6.42' '3.86'
 '0.45' '3.48' '1.89' '5.75' '2.17' '1.37' '2.35' '1.18' '2.11' '1.88'
 '2.83' '2.99' '2.89' '3.27' '2.22' '2.14' '1.45' '1.75' '1.04' '1.77'
 '3.02' '2.75' '2.16' '1.9' '2.59' '2.2' '4.3' '0.93' '2.53' '2.52' '1.79'
 '1.3' '2.6' '1.58' '1.2' '1.56' '1.34' '1.26' '0.83' '6.21' '2.8' '1.59'
 '1.73' '4.33' '1.83' '0.0' '2.18' '1.98' '1.47' '0.67' '1.55' '1.91'
 '0.69' '0.6' '1.93' '1.64' '0.55' '2.19' '1.11' '2.29' '2.5' '0.96'
 '

В столбцах eu_sales, jp_sales, user_score присутствуют такие значения, как "unknown" и "tbd", что и повлияло на тип данных столбцов.

В столбце year_of_release есть пропущенные значения, что делает его тип данных нецелочисленным

In [11]:
#Заменим текстовые значения на NaN, приведем к типу float64.
games['eu_sales'] = pd.to_numeric(games['eu_sales'], errors='coerce')
games['jp_sales'] = pd.to_numeric(games['jp_sales'], errors='coerce')
games['user_score'] = pd.to_numeric(games['user_score'], errors='coerce')

In [12]:
# Преобразуем тип year_of_release
games['year_of_release'] = games['year_of_release'].astype('Int64')

In [13]:
# Проверка результатов преобразования типов
print(games.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16956 non-null  object 
 2   year_of_release  16681 non-null  Int64  
 3   genre            16954 non-null  object 
 4   na_sales         16956 non-null  float64
 5   eu_sales         16950 non-null  float64
 6   jp_sales         16952 non-null  float64
 7   other_sales      16956 non-null  float64
 8   critic_score     8242 non-null   float64
 9   user_score       7688 non-null   float64
 10  rating           10085 non-null  object 
dtypes: Int64(1), float64(6), object(4)
memory usage: 1.4+ MB
None


Эти преобразования обеспечат корректность и удобство работы с данными, уменьшат вероятность ошибок и позволят использовать методы анализа, которые требуют числовых типов данных.

### 2.3. Наличие пропусков в данных: 

- Посчитаем количество пропусков в каждом столбце в абсолютных и относительных значениях.
- Изучим данные с пропущенными значениями.
- Обработаем пропущенные значения. 

In [14]:
print(games.isna().sum()) # количество пропусков
print(games.isna().sum() / len(games)) # доля пропусков

name                  2
platform              0
year_of_release     275
genre                 2
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8714
user_score         9268
rating             6871
dtype: int64
name               0.000118
platform           0.000000
year_of_release    0.016218
genre              0.000118
na_sales           0.000000
eu_sales           0.000354
jp_sales           0.000236
other_sales        0.000000
critic_score       0.513918
user_score         0.546591
rating             0.405225
dtype: float64


- В столбцах name и genre незначительное количество пропусков, следовательно пропуски можно удалить.

- В столбце year_of_release 1.62% пропусков, они могли возникнуть из-за отсутствия информации об играх. Количество пропусков умеренное, можно удалить, на анализ критично не повлияет.

- В столбцах eu_sales и jp_sales пропуски могут быть связаны с отсутствием данных о продажах в этих регионах. Можно заполнить их средним значением, сгруппированным по платформе и году выпуска игры.

- В столбцах critic_score и user_score значительное число пропусков (51.36% и 54.66% соответственно). Не все игры получили оценки. Учитывая их объем, можно заменить на индикаторное значение, чтобы не исказить данные.

- В столбце rating 40.52% пропусков — они связаны с отсутствием присвоенного рейтинга ESRB. Можно заменить их на индикаторное значение.

In [15]:
# Удалим строки с пропусками
games = games.dropna(subset=['name', 'genre', 'year_of_release'])

In [18]:
# Заменим пропуски на средние значения по платформе и году выпуска
for col in ['eu_sales', 'jp_sales']:
    games[col] = games[col].fillna(
        games.groupby(['platform', 'year_of_release'])[col].transform('mean')
    )

In [19]:
# Заменим пропуски на индикаторное значение
games['critic_score'] = games['critic_score'].fillna(-1)
games['user_score'] = games['user_score'].fillna(-1)

In [20]:
# Заменим пропуски на 'unknown'
games['rating'] = games['rating'].fillna('unknown')

In [21]:
# Проверяем результат
print(games.isna().sum())

name               0
platform           0
year_of_release    0
genre              0
na_sales           0
eu_sales           0
jp_sales           0
other_sales        0
critic_score       0
user_score         0
rating             0
dtype: int64


Причины возникновения пропусков могут быть следующими:

- name и genre: некорректно заполненные данные при ручном вводе или ошибка выгрузки данных.
  
- year_of_release: Пропуски могли возникнуть из-за отсутствия информации о выпуске старых игр или при сборе данных.

  
- eu_sales и jp_sales: Пропуски могут быть связаны с отсутствием продаж в определенных регионах.


- critic_score и user_score: Пропуски объясняются отсутствием оценок критиков и пользователей для некоторых игр.

- rating: Пропуски могли возникнуть из-за отсутствия классификации для некоторых игр, особенно для игр, выпущенных до введения современных стандартов рейтинга.

После выполнения всех шагов количество пропусков в данных уменьшилось до нуля.

Обработка данных была выполнена с целью сохранить целостность информации, минимизировать потери данных и обеспечить возможность дальнейшего анализа.

### 2.4. Явные и неявные дубликаты в данных: 

- Изучим уникальные значения в категориальных данных. Проверим, встречаются ли среди данных неявные дубликаты, связанные с опечатками или разным способом написания.
- Проведем нормализацию данных с текстовыми значениями. 
- Устраним неявные дубликаты, проверим наличие явных дубликатов в данных.

In [22]:
# Проверим уникальные значения
unique_genre = games['genre'].unique() # жанры
print(f'уникальные жанры: {unique_genre}') 
unique_platform = games['platform'].unique() # платформы
print(f'уникальные платформы: {unique_platform}') 
unique_rating = games['rating'].unique()  # рэйтинги
print(f'уникальный рейтинг: {unique_rating}')
unique_year_of_release = games['year_of_release'].unique() # годы
print(f'уникальные года выпуска: {unique_year_of_release}')

уникальные жанры: ['Sports' 'Platform' 'Racing' 'Role-Playing' 'Puzzle' 'Misc' 'Shooter'
 'Simulation' 'Action' 'Fighting' 'Adventure' 'Strategy' 'MISC'
 'ROLE-PLAYING' 'RACING' 'ACTION' 'SHOOTER' 'FIGHTING' 'SPORTS' 'PLATFORM'
 'ADVENTURE' 'SIMULATION' 'PUZZLE' 'STRATEGY']
уникальные платформы: ['Wii' 'NES' 'GB' 'DS' 'X360' 'PS3' 'PS2' 'SNES' 'GBA' 'PS4' '3DS' 'N64'
 'PS' 'XB' 'PC' '2600' 'PSP' 'XOne' 'WiiU' 'GC' 'GEN' 'DC' 'PSV' 'SAT'
 'SCD' 'WS' 'NG' 'TG16' '3DO' 'GG' 'PCFX']
уникальный рейтинг: ['E' 'unknown' 'M' 'T' 'E10+' 'K-A' 'AO' 'EC' 'RP']
уникальные года выпуска: <IntegerArray>
[2006, 1985, 2008, 2009, 1996, 1989, 1984, 2005, 1999, 2007, 2010, 2013, 2004,
 1990, 1988, 2002, 2001, 2011, 1998, 2015, 2012, 2014, 1992, 1997, 1993, 1994,
 1982, 2016, 2003, 1986, 2000, 1995, 1991, 1981, 1987, 1980, 1983]
Length: 37, dtype: Int64


In [23]:
# Приведем жанры и платформы к нижнему регистру
games['genre'] = games['genre'].str.lower()
games['platform'] = games['platform'].str.lower()

# Приведем рейтинги к верхнему регистру
games['rating'] = games['rating'].str.upper()

In [24]:
# сравним обработанные уникальные значения
print(games['genre'].unique())  # Проверяем жанры после нормализации
print(games['platform'].unique())  # Проверяем платформы после нормализации
print(games['rating'].unique())  # Проверяем рейтинги после нормализации

['sports' 'platform' 'racing' 'role-playing' 'puzzle' 'misc' 'shooter'
 'simulation' 'action' 'fighting' 'adventure' 'strategy']
['wii' 'nes' 'gb' 'ds' 'x360' 'ps3' 'ps2' 'snes' 'gba' 'ps4' '3ds' 'n64'
 'ps' 'xb' 'pc' '2600' 'psp' 'xone' 'wiiu' 'gc' 'gen' 'dc' 'psv' 'sat'
 'scd' 'ws' 'ng' 'tg16' '3do' 'gg' 'pcfx']
['E' 'UNKNOWN' 'M' 'T' 'E10+' 'K-A' 'AO' 'EC' 'RP']


In [25]:
# Проверим количество дубликатов
duplicates_count = games.duplicated().sum()
print(f'Количество явных дубликатов: {duplicates_count}')

# Удалим дубликаты
games = games.drop_duplicates()

Количество явных дубликатов: 235


In [26]:
# Посчитаем количество удаленных строк
# Первоначальное количество строк
initial_row_count = 16956

# Текущее количество строк
current_row_count = len(games)

# Разница
deleted_rows = initial_row_count - current_row_count
deleted_percentage = (deleted_rows / initial_row_count) * 100

print(f'Удалено строк: {deleted_rows} ({deleted_percentage:.2f}%)')


Удалено строк: 512 (3.02%)


Было обнаружено 235 строк явных дубликатов. В ходе обработки удалено 512 строки, что составило 3.02% всех данных.

В результате всех этих шагов данные были очищены и подготовлены для дальнейшего анализа.

In [27]:
# Комментарий ревьюера
temp = games.copy()
temp.loc[(temp[['name','platform','year_of_release']].duplicated(keep=False))]  

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
606,Madden NFL 13,ps3,2012,sports,2.11,0.22,0.0,0.23,83.0,5.5,E
16465,Madden NFL 13,ps3,2012,sports,0.0,0.01,0.0,0.0,83.0,5.5,E


---
<a class="anchor" id="3-bullet"></a>

## 3. Фильтрация данных

Отберем период с 2000 по 2013 год включительно. Сохраним новый срез данных в отдельном датафрейме `games_actual`.

In [28]:
# Фильтруем данные по периоду 2000–2013 год
games_actual = games[(games['year_of_release'] >= 2000) & 
                     (games['year_of_release'] <= 2013)]

In [29]:
# Выведем актуальный датафрейм
games_actual

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,Wii Sports,wii,2006,sports,41.36,28.96,3.77,8.45,76.0,8.0,E
2,Mario Kart Wii,wii,2008,racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,wii,2009,sports,15.61,10.93,3.28,2.95,80.0,8.0,E
6,New Super Mario Bros.,ds,2006,platform,11.28,9.14,6.50,2.88,89.0,8.5,E
7,Wii Play,wii,2006,misc,13.96,9.18,2.93,2.84,58.0,6.6,E
...,...,...,...,...,...,...,...,...,...,...,...
16947,Men in Black II: Alien Escape,gc,2003,shooter,0.01,0.00,0.00,0.00,-1.0,-1.0,T
16949,Woody Woodpecker in Crazy Castle 5,gba,2002,platform,0.01,0.00,0.00,0.00,-1.0,-1.0,UNKNOWN
16950,SCORE International Baja 1000: The Official Game,ps2,2008,racing,0.00,0.00,0.00,0.00,-1.0,-1.0,UNKNOWN
16952,LMA Manager 2007,x360,2006,sports,0.00,0.01,0.00,0.00,-1.0,-1.0,UNKNOWN


Получили диапозон годов с 2000 по 2013, всего выявлено 12781 запись.

---
<a class="anchor" id="4-bullet"></a>

## 4. Категоризация данных
    
Проведите категоризацию данных:
- Разделим все игры по оценкам пользователей, выделем категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).
- Разделим все игры по оценкам критиков и выделим категории: высокая оценка (от 80 до 100 включительно), средняя оценка (от 30 до 80, не включая правую границу интервала) и низкая оценка (от 0 до 30, не включая правую границу интервала).
- Выделим топ-7 платформ по количеству игр, выпущенных за весь актуальный период.

In [31]:
# Создаем копию среза данных
games_actual = games_actual.copy()

# Функция для категоризации оценки пользователей
def categorize_user_score(score):
    if 8 <= score <= 10:
        return 'Высокая оценка'
    elif 3 <= score < 8:
        return 'Средняя оценка'
    else:
        return 'Низкая оценка'

games_actual['user_score_category'] = games_actual['user_score'].apply(categorize_user_score)

user_score_group = games_actual.groupby('user_score_category').size().reset_index(name='game_count')

print(user_score_group)

  user_score_category  game_count
0      Высокая оценка        2286
1       Низкая оценка        6414
2      Средняя оценка        4081


In [32]:
# Создаем копию среза данных
games_actual = games_actual.copy()

# Категории по оценкам критиков
def categorize_critic_score(score):
    if 80 <= score <= 100:
        return 'Высокая оценка'
    elif 30 <= score < 80:
        return 'Средняя оценка'
    else:
        return 'Низкая оценка'
    
games_actual['critic_score_category'] = games_actual['critic_score'].apply(categorize_critic_score)

critic_score_group = games_actual.groupby('critic_score_category').size().reset_index(name='game_count')

print(critic_score_group)

  critic_score_category  game_count
0        Высокая оценка        1692
1         Низкая оценка        5667
2        Средняя оценка        5422


In [33]:
# Группируем по платформам и подсчитываем количество игр
platform_counts = games_actual['platform'].value_counts()

# Выведем топ-7 платформ
print(platform_counts.head(7))

ps2     2127
ds      2120
wii     1275
psp     1180
x360    1121
ps3     1087
gba      811
Name: platform, dtype: int64


Исходя из полученных данных можно заметить, что в период с 2000 по 2013 год в основном были выпущены игры с низкой оценкой как от пользователей, так и от критиков. Наиболее популярные платформы - ps2, ds, wii.

---
<a class="anchor" id="5-bullet"></a>

## 5. Итоговый вывод

Был проведен обзор данных, в ходе чего стало ясно, что исходный датафрейм содержит 16956 строк и 11 столбцов. Также выявлены пропуски в нескольких столбцах: максимальное количество пропусков наблюдается в столбцах critic_score (51.39%), user_score (54.66%) и rating (40.52%) и обнаружены пропуски в данных по продажам, году выпуска и жанру.

Далее данные были обработаны. Удалены строки с незначительным количеством пропусков в полях name, genre, year_of_release. Пропуски в столбцах eu_sales и jp_sales заполнены средними значениями, рассчитанными по платформе и году выпуска. Пропуски в столбцах critic_score, user_score и rating были заменены. Пропуски полностью устранены, что позволило сохранить целостность данных. Проведена нормализация строковых данных. Удалено 512 строк, из них 235 явных дубликатов.

В ходе анализа данных о видеоиграх за период с 2000 по 2013 год был отфильтрован исходный датасет, в ходе чего оставлены записи с играми, выпущенными в период с 2000 по 2013 год. В результате был получен новый датафрейм games_actual, содержащий 12781 запись. Данный период охватывает пик активности разработки игр на популярных платформах (PS2, DS, Wii).

В период с 2000 по 2013 год наблюдается преобладание игр с низкими оценками как от пользователей, так и от критиков, что может указывать на определенные проблемы с качеством игр в этот период. Несмотря на это, наблюдается высокая активность в разработке игр, особенно на таких популярных платформах как ps2, ds и wii. Большинство игр, по оценкам критиков и пользователей, оказались в среднем и низком диапазоне, что, возможно, связано с ограничениями платформ, интересами пользователей, геймдизайне, функционале платформ  или тенденциями в разработке игр в этот период.