# Индустрия игр в начале XXI века

- Автор: Шепелев А.Д.
- Дата: 20.03.2025

### Цели и задачи проекта
Ознакомление с данными, проверка корректности и их предобработка. Подготовка необходимого среза данных.
Используем данные `datasets/new_games.csv`.

### Описание данных
В проекте будут использованы данные датасета `datasets/new_games.csv` с таким описанием:
- `Name` — название игры;
- `Platform` — название платформы;
- `Year of Release` — год выпуска игры;
- `Genre` — жанр игры;
- `NA sales` — продажи в Северной Америке (в миллионах проданных копий);
- `EU sales` — продажи в Европе (в миллионах проданных копий);
- `JP sales` — продажи в Японии (в миллионах проданных копий);
- `Other sales` — продажи в других странах (в миллионах проданных копий);
- `Critic Score` — оценка критиков (от 0 до 100);
- `User Score` — оценка пользователей (от 0 до 10);
- `Rating` — рейтинг организации ESRB;

## Загрузка и знакомство с данными

Загрузим необходимые библиотеки для анализа данных и данные из датасета `datasets/new_games.csv` Затем выведем основную информацию о данных с помощью метода info() и первые строки датафрейма.

In [1]:
# Импортируем библиотеку pandas
import pandas as pd
import warnings

warnings.filterwarnings('ignore')

In [2]:
# Выгружаем данные из датасета datasets/new_games.csv в датафрейм df
main_df = pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv')
df = main_df.copy()

In [3]:
# Выводим информацию о датафрейме
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


In [4]:
# Выводим первые строки датафрейма на экран
df.head()

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


Предоставлены данные размером в 16956 строк и 11 столбцов с используемой оперативной памятью 1.4 МВ. Столбцы соответствуют описанию. В 6 стобцах присутствуют пропуски, подробный анализ будет проведён ниже. Присутствуют некорректные типы данных.

При дальнейшей предобработке планируется привести названия столбцов и их содержимое к удобному для работы формату.

## Проверка ошибок в данных и их предобработка


### Названия, или метки, столбцов датафрейма

In [5]:
# Выводим названия столбцов
df.columns

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')

- Приведём названия к удобному для работы формату

In [6]:
# Приводим названия столбоцов к стилю snake case
df.columns = df.columns.str.lower().str.replace(' ', '_')
df.columns


Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')

### Типы данных

- Столбец `year_of_release` имеет тип данных `float64` это обусловлено пропусками в данных, т.к. более удобный для этого  столбца формат `int64` не поддерживает данные типа `NaN`. После работы с пропусками стоит привести его к типу `int64` для более удобного отображения данных.
- У `eu_sales`, `jp_sales` и `user_score` тип данных `object` это говорит о наличии строк в столбцах.

In [7]:
# Приводим данные к нужному типу и выведем получившийся результат
# Использует команду to_numeric чтобы заменить имеющиеся стороковые данные на пропуски
df['eu_sales'] = pd.to_numeric(df['eu_sales'], errors = 'coerce')
df['jp_sales'] = pd.to_numeric(df['jp_sales'], errors = 'coerce')
df['user_score'] = pd.to_numeric(df['user_score'], errors = 'coerce')

df.dtypes

name                object
platform            object
year_of_release    float64
genre               object
na_sales           float64
eu_sales           float64
jp_sales           float64
other_sales        float64
critic_score       float64
user_score         float64
rating              object
dtype: object

### Наличие пропусков в данных

In [8]:
# Выводим на экран количество пропусков в каждом столбце и их долю
print('Количество пропусков в каждом столбце:')
print(df.isna().sum())
print()
print('Доля пропусков в каждом столбце:')
print(df.isna().sum() / len(df))

Количество пропусков в каждом столбце:
name                  2
platform              0
year_of_release     275
genre                 2
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8714
user_score         9268
rating             6871
dtype: int64

Доля пропусков в каждом столбце:
name               0.000118
platform           0.000000
year_of_release    0.016218
genre              0.000118
na_sales           0.000000
eu_sales           0.000354
jp_sales           0.000236
other_sales        0.000000
critic_score       0.513918
user_score         0.546591
rating             0.405225
dtype: float64


- `name` и `genre` имеют по 2 пропуска. Возможно эти данные забыли указать. Эти данные не критичны для анализа, поэтому дадим пропускам название 'Без названия'
- `year_of_release` 275 пропусков, что составляет 1,6% от всего объёма данных. Очень вероятно что это старые, малоизвестные игры по которым не было информации о годе выпуска. Доля пропусков небольшая, их можно удалить.
- `eu_sales` и `jp_sales` 6 и 4 пропуска. Скорее всего игры не имели продаж в регионах с пропусками или в источниках не было информации о продажах. Проставим для пропусков медианные значение по году выпуска и платформе.
- `critic_score`, `user_score`, `rating` имеют самую большую долю пропусков ~50%. Большая чать пропусков может быть в данных до 2000 года, т.к. в это время индустрия имела характер развлечения для детей и не была масштабной. Для оценок поставим вместо пропусков значение -1, это нам поможет в дальнейшем анализе. Для рейтинга дадим пропускам название 'Не указан'

In [9]:
# Удаляем пропуски года выпуска и сразу меняем тип данных столбца
df = df.dropna(subset=['year_of_release'])
df['year_of_release'] = df['year_of_release'].astype('int64')

# Сразу проверим тип данных столбца
df['year_of_release'].dtypes

dtype('int64')

In [10]:
# Даём пропускам название в name
def new_names(row):
    if pd.isna(row['name']):
        return 'Без названия'
    else:
        return row['name']
df['name'] = df.copy().apply(new_names, axis=1)

In [11]:
# Даём пропускам название в genre
def new_genre(row):
    if pd.isna(row['genre']):
        return 'Не указан'
    else:
        return row['genre']
df['genre'] = df.apply(new_genre, axis=1)

In [12]:
# Даём пропускам название в rating
def new_rating(row):
    if pd.isna(row['rating']):
        return 'Не указан'
    else:
        return row['rating']
    
df['rating'] = df.apply(new_rating, axis=1)

In [13]:
# Заменяем пропуски продаж в Европе на медианное значение в разрезе года выпуска и платформы
def mean_eu_sales (row):
    if pd.isna(row['eu_sales']):
        sale = df[(df['platform'] == row['platform'])
                 & (df['year_of_release'] == row['year_of_release'])]
        return sale['eu_sales'].median()
    else:
        return row['eu_sales']
df['eu_sales'] = df.apply(mean_eu_sales, axis=1)

In [14]:
# Заменяем пропуски продаж в Японии на медианное значение в разрезе года выпуска и платформы
def mean_jp_sales (row):
    if pd.isna(row['jp_sales']):
        sale = df[(df['platform'] == row['platform'])
                 & (df['year_of_release'] == row['year_of_release'])]
        return sale['jp_sales'].median()
    else:
        return row['jp_sales']
df['jp_sales'] = df.apply(mean_jp_sales, axis=1)

In [15]:
# Для оценок подставляем в пропуски значение "-1"
df['critic_score'] = df['critic_score'].fillna(-1)
df['user_score'] = df['user_score'].fillna(-1)

In [16]:
# Выводим результат после работы с пропусками
print('Количество пропусков в каждом столбце:')
print(df.isna().sum())
print()
print('Доля пропусков в каждом столбце:')
print(df.isna().sum() / len(df))

Количество пропусков в каждом столбце:
name               0
platform           0
year_of_release    0
genre              0
na_sales           0
eu_sales           0
jp_sales           0
other_sales        0
critic_score       0
user_score         0
rating             0
dtype: int64

Доля пропусков в каждом столбце:
name               0.0
platform           0.0
year_of_release    0.0
genre              0.0
na_sales           0.0
eu_sales           0.0
jp_sales           0.0
other_sales        0.0
critic_score       0.0
user_score         0.0
rating             0.0
dtype: float64


### Явные и неявные дубликаты в данных

- Выведем и изучим информацию о дубликатах

In [17]:
df['platform'].unique()

array(['Wii', 'NES', 'GB', 'DS', 'X360', 'PS3', 'PS2', 'SNES', 'GBA',
       'PS4', '3DS', 'N64', 'PS', 'XB', 'PC', '2600', 'PSP', 'XOne',
       'WiiU', 'GC', 'GEN', 'DC', 'PSV', 'SAT', 'SCD', 'WS', 'NG', 'TG16',
       '3DO', 'GG', 'PCFX'], dtype=object)

In [18]:
df['year_of_release'].unique()

array([2006, 1985, 2008, 2009, 1996, 1989, 1984, 2005, 1999, 2007, 2010,
       2013, 2004, 1990, 1988, 2002, 2001, 2011, 1998, 2015, 2012, 2014,
       1992, 1997, 1993, 1994, 1982, 2016, 2003, 1986, 2000, 1995, 1991,
       1981, 1987, 1980, 1983])

In [19]:
df['genre'].unique()

array(['Sports', 'Platform', 'Racing', 'Role-Playing', 'Puzzle', 'Misc',
       'Shooter', 'Simulation', 'Action', 'Fighting', 'Adventure',
       'Strategy', 'Не указан', 'MISC', 'ROLE-PLAYING', 'RACING',
       'ACTION', 'SHOOTER', 'FIGHTING', 'SPORTS', 'PLATFORM', 'ADVENTURE',
       'SIMULATION', 'PUZZLE', 'STRATEGY'], dtype=object)

In [20]:
df['rating'].unique()

array(['E', 'Не указан', 'M', 'T', 'E10+', 'K-A', 'AO', 'EC', 'RP'],
      dtype=object)

- Кроме `genre` остальные столбцы не имеют неявных дубликатов. Для их устранения будет достаточно привести значения в столбце к нижнему регистру.

In [21]:
# Приводим данные в столбце genre к нижнему регистру
# Проделываем эту же манипуляцию с name для удобства работы с данными
df['name'] = df['name'].str.lower()
df['genre'] = df['genre'].str.lower()

In [22]:
# Проверяем результат
df['genre'].unique()

array(['sports', 'platform', 'racing', 'role-playing', 'puzzle', 'misc',
       'shooter', 'simulation', 'action', 'fighting', 'adventure',
       'strategy', 'не указан'], dtype=object)

При работе с явными дубликатами стоит уделить внимание что одна игра могла выходить для нескольких платформ, поэтому искать дубликаты стоит учитывая платформы. Дублирование данных искажает результаты, поэтому мы их удаляем.

In [23]:
# Находим явные дубликаты в комбинации название игры - платформа
df.duplicated(subset=['name', 'platform']).sum()

239

In [24]:
# Удаляем дубликаты, оставляя первую строку
df.drop_duplicates(subset=['name', 'platform'], keep = 'first')

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,wii sports,Wii,2006,sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,super mario bros.,NES,1985,platform,29.08,3.58,6.81,0.77,-1.0,-1.0,Не указан
2,mario kart wii,Wii,2008,racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,wii sports resort,Wii,2009,sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,pokemon red/pokemon blue,GB,1996,role-playing,11.27,8.89,10.22,1.00,-1.0,-1.0,Не указан
...,...,...,...,...,...,...,...,...,...,...,...
16951,samurai warriors: sanada maru,PS3,2016,action,0.00,0.00,0.01,0.00,-1.0,-1.0,Не указан
16952,lma manager 2007,X360,2006,sports,0.00,0.01,0.00,0.00,-1.0,-1.0,Не указан
16953,haitaka no psychedelica,PSV,2016,adventure,0.00,0.00,0.01,0.00,-1.0,-1.0,Не указан
16954,spirits & spells,GBA,2003,platform,0.01,0.00,0.00,0.00,-1.0,-1.0,Не указан


После обработки данных мы получили срез в 16442 строк, это 97% от изначального набора данных. Данные отчищенны от пропусков и дубликатов, столбцам присвоены правильные типы данных и их содержание приведено к удобному формату для анализа.

## Фильтрация данных

Коллеги хотят изучить историю продаж игр в начале XXI века, и их интересует период с 2000 по 2013 год включительно. Отберём данные по этому показателю. Так же присвоим категории играм по оценкам пользователей и критиков.

In [25]:
# Фильтруем данные по годам и сохраняем новый срез данных в отдельном датафрейме.
df_actual = df[(df['year_of_release'] >= 2000) & (df['year_of_release'] <= 2013)]
df_actual.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 12980 entries, 0 to 16954
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             12980 non-null  object 
 1   platform         12980 non-null  object 
 2   year_of_release  12980 non-null  int64  
 3   genre            12980 non-null  object 
 4   na_sales         12980 non-null  float64
 5   eu_sales         12980 non-null  float64
 6   jp_sales         12980 non-null  float64
 7   other_sales      12980 non-null  float64
 8   critic_score     12980 non-null  float64
 9   user_score       12980 non-null  float64
 10  rating           12980 non-null  object 
dtypes: float64(6), int64(1), object(4)
memory usage: 1.2+ MB


После фильтрации получен срез в 12980 строк, это 77% от изначального набора данных.

## Категоризация данных
Согласно заданию разделим все игры по оценкам пользователей: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).

In [26]:
# Присваиваем категории играм в соответствии оценкам игроков
# Сохраняем данные в новый столбец
def cat_us(row):
    if 0 <= row['user_score'] < 3:
        return "низкая оценка"
    elif 3 <= row['user_score'] < 8:
        return "средняя оценка"
    elif 8 <= row['user_score'] <= 10:
        return "высокая оценка"
    else:
        return "нет данных"
df_actual['cat_user'] = df_actual.apply(cat_us, axis=1)

In [27]:
# Присваиваем категории играм в соответствии оценкам критиков
# Сохраняем данные в новый столбец
def cat_cr(row):
    if 0 <= row['critic_score'] < 30:
        return "низкая оценка"
    elif 30 <= row['critic_score'] < 80:
        return "средняя оценка"
    elif 80 <= row['critic_score'] <= 100:
        return "высокая оценка"
    else:
        return "нет данных"
df_actual['cat_critic'] = df_actual.apply(cat_cr, axis=1)

In [28]:
# Сгруппируем данные по категориям и посчитаем количество игр в каждой
# Выведем результат на экран
group_user = df_actual.groupby('cat_user')['name'].count()
group_critic = df_actual.groupby('cat_critic')['name'].count()
print(f'Кол-во игр по категориям оценок пользователей: {group_user}')
print()
print(f'Кол-во игр по категориям оценок критиков: {group_critic}')

Кол-во игр по категориям оценок пользователей: cat_user
высокая оценка    2307
нет данных        6408
низкая оценка      117
средняя оценка    4148
Name: name, dtype: int64

Кол-во игр по категориям оценок критиков: cat_critic
высокая оценка    1712
нет данных        5713
низкая оценка       55
средняя оценка    5500
Name: name, dtype: int64


In [29]:
# Выведем ТОП-7 платформ по количеству игр, выпущенных за весь актуальный период
count_games = df_actual.groupby('platform')['name'].count()
count_games.sort_values(ascending=False).head(7)

platform
PS2     2154
DS      2146
Wii     1294
PSP     1199
X360    1138
PS3     1107
GBA      826
Name: name, dtype: int64

## Итоговый вывод

Проведена выгрузка и анализ данных с последующей предобработкой. Датасет приведён к рабочему виду и отчищен от ненужных данных. Отфильтрован по времени необходимому для анализа с 2000 по 2013 года. Каждой игре присвоены 2 категории в зависимости от оценок игроков и критиков данные добавлены новые столбцы `cat_user`, `cat_critic`. Для каждой платформы посчитано кол-во выпущеных игр и выведены 7 платформ с наибольшим кол-вом.