# Развитие индустрии игр в начале XXI

- Автор: Владимиров Николай Александрович
- Дата: 13.10.2025

### Цели и задачи проекта

- Цель - провести анализ развития игровой индустрии с 2000 по 2013 год для подготовки статьи, привлекающей любителей старых игр и продвигающей игру «Секреты Темнолесья» на известном IT-ресурсе.
- Задача - познакомиться с данными, проверить их корректность и провести предобработку, получив необходимый срез данных.


### Описание данных

- `Name` — название игры.
- `Platform` — название платформы.
- `Year of Release` — год выпуска игры.
- `Genre` — жанр игры.
- `NA sales` — продажи в Северной Америке (в миллионах проданных копий).
- `EU sales` — продажи в Европе (в миллионах проданных копий).
- `JP sales` — продажи в Японии (в миллионах проданных копий).
- `Other sales` — продажи в других странах (в миллионах проданных копий).
- `Critic Score` — оценка критиков (от 0 до 100).
- `User Score` — оценка пользователей (от 0 до 10).
- `Rating` — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.

### Содержимое проекта


1.  Загрузка данных и знакомство с ними
2.  Проверка ошибок в данных и их предобработка
    - 2.1. Названия, или метки, столбцов датафрейма
    - 2.2. Типы данных
    - 2.3. Наличие пропусков в данных
    - 2.4. Явные и неявные дубликаты в данных
3.  Фильтрация данных
4.  Категоризация данных
5.  Итоговый вывод
---

## 1. Загрузка данных и знакомство с ними


In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv')

In [27]:
# применил метод info для знакомства с данными
display(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


None

In [28]:
display(df.columns)

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')

In [29]:
display(df.head(10))

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,
5,Tetris,GB,1989.0,Puzzle,23.2,2.26,4.22,0.58,,,
6,New Super Mario Bros.,DS,2006.0,Platform,11.28,9.14,6.5,2.88,89.0,8.5,E
7,Wii Play,Wii,2006.0,Misc,13.96,9.18,2.93,2.84,58.0,6.6,E
8,New Super Mario Bros. Wii,Wii,2009.0,Platform,14.44,6.94,4.7,2.24,87.0,8.4,E
9,Duck Hunt,NES,1984.0,Shooter,26.93,0.63,0.28,0.47,,,


In [30]:
display(df.tail(10))

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
16946,15 Days,PC,2009.0,Adventure,0.0,0.01,0.0,0.0,63.0,5.8,
16947,Men in Black II: Alien Escape,GC,2003.0,Shooter,0.01,0.0,0.0,0.0,,tbd,T
16948,Aiyoku no Eustia,PSV,2014.0,Misc,0.0,0.0,0.01,0.0,,,
16949,Woody Woodpecker in Crazy Castle 5,GBA,2002.0,Platform,0.01,0.0,0.0,0.0,,,
16950,SCORE International Baja 1000: The Official Game,PS2,2008.0,Racing,0.0,0.0,0.0,0.0,,,
16951,Samurai Warriors: Sanada Maru,PS3,2016.0,Action,0.0,0.0,0.01,0.0,,,
16952,LMA Manager 2007,X360,2006.0,Sports,0.0,0.01,0.0,0.0,,,
16953,Haitaka no Psychedelica,PSV,2016.0,Adventure,0.0,0.0,0.01,0.0,,,
16954,Spirits & Spells,GBA,2003.0,Platform,0.01,0.0,0.0,0.0,,,
16955,Winning Post 8 2016,PSV,2016.0,Simulation,0.0,0.0,0.01,0.0,,,


- Данные представлены 11 столбцами и 16956 строками
- Описание данных и выгруженная таблица совпадают
- Видно, что имеются пропуски, особенно много пропусков в колонках "Critic Score" и "User Score"
- Неправильные типы данных у колонок:
    - "Year of Release"- float не подходит для даты(так же есть пропуски, что нужно будет учитывать при обработке), можно              перевести в int, что подойдет выбора диапозона и обработки данных
    - "EU sales", "JP sales" - лучше поменять на float как у "NA sales"
    - "User Score" - тоже лучше поменять на float, но по выгруженным последним 10 строчкам, заметно что в данной колонке присутствуют не только пропуски, а строчные данные, например "tbd"  
- Данные о количестве продаж целые, без пропусков

---

## 2.  Проверка ошибок в данных и их предобработка


### 2.1. Названия, или метки, столбцов датафрейма


In [31]:
# привел названия столбцов к удобному стилю
df.columns = df.columns.str.lower().str.replace(' ', '_')
    
display(df.columns)

Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')

### 2.2. Типы данных

In [32]:
# привел пропуски в 'year_of_release' к числовому типу
df['year_of_release'] = pd.to_numeric(df['year_of_release'], errors = 'coerce').astype('Int64')
year_min = df['year_of_release'].min()
year_max = df['year_of_release'].max()
print(year_min, year_max)

1980 2016


В таблице данные представлены с 1980 по 2016 год.


In [33]:
# привожу колонки 'eu_sales', 'jp_sales', 'user_score' к числовому типу данных
df['eu_sales'] = pd.to_numeric(df['eu_sales'], errors = 'coerce')
df['jp_sales'] = pd.to_numeric(df['jp_sales'], errors = 'coerce')
df['user_score'] = pd.to_numeric(df['user_score'], errors = 'coerce')
display(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16956 non-null  object 
 2   year_of_release  16681 non-null  Int64  
 3   genre            16954 non-null  object 
 4   na_sales         16956 non-null  float64
 5   eu_sales         16950 non-null  float64
 6   jp_sales         16952 non-null  float64
 7   other_sales      16956 non-null  float64
 8   critic_score     8242 non-null   float64
 9   user_score       7688 non-null   float64
 10  rating           10085 non-null  object 
dtypes: Int64(1), float64(6), object(4)
memory usage: 1.4+ MB


None

### 2.3. Наличие пропусков в данных


In [34]:
print(round(df['year_of_release'].isna().mean()*100, 2))

1.62


In [35]:
na_count = df['year_of_release'].isna().sum()
print(na_count)

275


'year_of_release' имеет 275 пропусков - это 1,62% от всех данных в данном столбце. Нам нужны данные с 2000 по 2013 года - процент потерянных данных может быть еще ниже. Пропуски нечем заменить. Так что данные с пропусками можно удалить, что не особо повлияет на обработку данных.

In [36]:
# удаляю строки 'year_of_release' с пропусками и после удаления можно уменьшить Int64 в int16
df.dropna(subset=['year_of_release'], inplace=True)
df['year_of_release'] = df['year_of_release'].astype('int16')

In [37]:
# проверяю пропуски после обработки дат
display(df.isna().sum())

name                  2
platform              0
year_of_release       0
genre                 2
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8596
user_score         9123
rating             6780
dtype: int64

In [38]:
display(round(df.isna().mean()*100, 2))

name                0.01
platform            0.00
year_of_release     0.00
genre               0.01
na_sales            0.00
eu_sales            0.04
jp_sales            0.02
other_sales         0.00
critic_score       51.53
user_score         54.69
rating             40.65
dtype: float64

После удаления пропусков с датой релиза, в данных остаются некретичные пропуски:
- в `name` и `genre` по 2 пропуска или 0,01% данных - можно удалить
- в `eu_sales` 6 пропусков или 0.04% процент незначительный можно заменить пропуски на 0
- в `jp_sales` 4 пропуска или 0,02% заменим на 0
В данных так же имеются значительное количество пропусков:
- в `critic_score` 8596 или 51.53% 
- в `user_score` 9123 или 54.69% 
- в `rating` 6780 или 40.65%

In [39]:
# удаляю пропуски в `name`
df.dropna(subset = ['name'], inplace=True)

In [40]:
# заменяю пропуски в `eu_sales` и `jp_sales` на 0 
df['eu_sales'] = df['eu_sales'].fillna(0)
df['jp_sales'] = df['jp_sales'].fillna(0)

- в `critic_score` и `user_score` много промущенных значений, вероятно часть игр не была оценена критиками и игроками из-за даты выхода(старые) или были низкие продажи, что не заинтересовало критиков принимать участие в оценке. Такие данные заменю на значение индикатор : -1.

In [41]:
# Замена пропусков на -1
df['critic_score'] = df['critic_score'].fillna(-1)
df['user_score'] = df['user_score'].fillna(-1)

In [42]:
# проверка пропусков после исправлений
display(df.isna().sum())

name                  0
platform              0
year_of_release       0
genre                 0
na_sales              0
eu_sales              0
jp_sales              0
other_sales           0
critic_score          0
user_score            0
rating             6778
dtype: int64

Заменил все пропуски в оценках критиков и пользователей

### 2.4. Явные и неявные дубликаты в данных


In [43]:
for column in ['platform','year_of_release','genre','rating']:
    print(f'Уникальные значения в столбце {column}:')
    print(df[column].sort_values().unique())
    print(f'Количество уникальных значений: {df[column].nunique()}')
    print()
    print()

Уникальные значения в столбце platform:
['2600' '3DO' '3DS' 'DC' 'DS' 'GB' 'GBA' 'GC' 'GEN' 'GG' 'N64' 'NES' 'NG'
 'PC' 'PCFX' 'PS' 'PS2' 'PS3' 'PS4' 'PSP' 'PSV' 'SAT' 'SCD' 'SNES' 'TG16'
 'WS' 'Wii' 'WiiU' 'X360' 'XB' 'XOne']
Количество уникальных значений: 31


Уникальные значения в столбце year_of_release:
[1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993
 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
 2008 2009 2010 2011 2012 2013 2014 2015 2016]
Количество уникальных значений: 37


Уникальные значения в столбце genre:
['ACTION' 'ADVENTURE' 'Action' 'Adventure' 'FIGHTING' 'Fighting' 'MISC'
 'Misc' 'PLATFORM' 'PUZZLE' 'Platform' 'Puzzle' 'RACING' 'ROLE-PLAYING'
 'Racing' 'Role-Playing' 'SHOOTER' 'SIMULATION' 'SPORTS' 'STRATEGY'
 'Shooter' 'Simulation' 'Sports' 'Strategy']
Количество уникальных значений: 24


Уникальные значения в столбце rating:
['AO' 'E' 'E10+' 'EC' 'K-A' 'M' 'RP' 'T' nan]
Количество уникальных значений: 8




Столбец `genre` имеет неявные дубликаты, нужно привести данные к одному регистру.

In [44]:
# привел в столбце все к одному регистру чтобы убрать дубликаты
df['genre'] = df['genre'].str.lower()
unique_genre = df['genre'].unique()
print(unique_genre)
print(df['genre'].nunique())

['sports' 'platform' 'racing' 'role-playing' 'puzzle' 'misc' 'shooter'
 'simulation' 'action' 'fighting' 'adventure' 'strategy']
12


In [45]:
print(df['name'].nunique())

11426


In [46]:
df['name'] = df['name'].str.lower()
print(df['name'].nunique())

11426


- Неявные дубликаты были обнаружены в `genre`, в названии жанров использовали разный регистр. Очистилась половина названий.

In [47]:
df = df.drop_duplicates()

In [49]:
end_row_count = df.shape[0]
print(end_row_count)
print(16956 - end_row_count)
print(round((16956 - end_row_count) / 16956,2)*100)

16444
512
3.0


Явных дубликатов и пропусков было 512 строчек или 3%. Дубликаты и пропуски успешно удалены.

Изначально было 16956 строк, после удаления дубликатов и пропусков осталось 16444 строчек в таблице данных.

---

## 3. Фильтрация данных

Коллеги хотят изучить историю продаж игр в начале XXI века, и их интересует период с 2000 по 2013 год включительно. Отберите данные по этому показателю. Сохраните новый срез данных в отдельном датафрейме, например `df_actual`.

In [50]:
# оставляю данные нужного диапозона дат
df_actual = df[(df['year_of_release'].between(2000, 2013))].copy()

In [51]:
display(df_actual.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 12781 entries, 0 to 16954
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             12781 non-null  object 
 1   platform         12781 non-null  object 
 2   year_of_release  12781 non-null  int16  
 3   genre            12781 non-null  object 
 4   na_sales         12781 non-null  float64
 5   eu_sales         12781 non-null  float64
 6   jp_sales         12781 non-null  float64
 7   other_sales      12781 non-null  float64
 8   critic_score     12781 non-null  float64
 9   user_score       12781 non-null  float64
 10  rating           8723 non-null   object 
dtypes: float64(6), int16(1), object(4)
memory usage: 1.1+ MB


None

После фильтрации осталось 12781 строк из 16956.

---

## 4. Категоризация данных

In [52]:
df_actual['user_new_score'] = pd.cut(df_actual['user_score'], bins = [0, 3, 8, 10.01], labels =["низкая оценка", "средняя оценка", "высокая оценка"], right=False)

In [53]:
display(df_actual[['name', 'user_new_score', 'user_score']])

Unnamed: 0,name,user_new_score,user_score
0,wii sports,высокая оценка,8.0
2,mario kart wii,высокая оценка,8.3
3,wii sports resort,высокая оценка,8.0
6,new super mario bros.,высокая оценка,8.5
7,wii play,средняя оценка,6.6
...,...,...,...
16947,men in black ii: alien escape,,-1.0
16949,woody woodpecker in crazy castle 5,,-1.0
16950,score international baja 1000: the official game,,-1.0
16952,lma manager 2007,,-1.0


In [54]:
df_actual['critic_score_new'] = pd.cut(df_actual['critic_score'], bins = [0, 30, 80, 100.01], labels = ["низкая оценка", "средняя оценка", "высокая оценка"], right=False)

In [55]:
display(df_actual[['name', 'critic_score_new', 'critic_score']])

Unnamed: 0,name,critic_score_new,critic_score
0,wii sports,средняя оценка,76.0
2,mario kart wii,высокая оценка,82.0
3,wii sports resort,высокая оценка,80.0
6,new super mario bros.,высокая оценка,89.0
7,wii play,средняя оценка,58.0
...,...,...,...
16947,men in black ii: alien escape,,-1.0
16949,woody woodpecker in crazy castle 5,,-1.0
16950,score international baja 1000: the official game,,-1.0
16952,lma manager 2007,,-1.0


In [56]:
print(df_actual.groupby('critic_score_new').size())

critic_score_new
низкая оценка       55
средняя оценка    5422
высокая оценка    1692
dtype: int64


In [57]:
print(df_actual.groupby('user_new_score').size())

user_new_score
низкая оценка      116
средняя оценка    4081
высокая оценка    2286
dtype: int64


Игр с низкими оценками мало 55 от критиков и 116 от пользователей. С средней оценкой 5422 от критиков и 4081 от пользователей. И с высокой оценкой 1692 от критиков и 2286 от пользователей. Видно, что оценки в большинстве случаев у критиков и польхователей совпадают. 

In [58]:
# выделяю топ 7 платформ по выпуску игр
top_platform = df_actual.groupby('platform')['name'].nunique()
top_platform = top_platform.sort_values(ascending=False)
display(top_platform.head(7))

platform
PS2     2127
DS      2120
Wii     1275
PSP     1180
X360    1120
PS3     1086
GBA      811
Name: name, dtype: int64

Был добавлен новый срез данных df_actual отражающий данные с 2000 по 2013 годы. И новые столбцы `user_new_score` и `critic_score_new` с информацией о категоризации оценок пользователей или критиков. 
Самыми популярными платформами по выпуску игр за переиод 2000-2013г являются PS2 с 2127 играми и DS с 2120 выпущенными играми.
На третьем месте расположилась платформа Wii с 1275 играми - это неудивительно ведь PS2 вышла в 2000 году, а Wii 6 годами позже в конце 2006 года. 

---

## 5. Итоговый вывод


Выполненная работа:

- Данные загрузил из `new_games.csv`, содержащего 16956 строк и 11 столбцов. 
- Проведёл первичный анализ
- Все столбцы привел к стилю snake_case
- Привел данные к нужным типам
- Обработал пропуски и дубликаты
- Отфильтровал в нужный диапозон дат
- Провел категоризацию оценок
- Выделил топ 7 платформ по выпущенным играм

Выводы:

Категоризация оценок показывает, что большинство игр имеют средние и высокие оценки, и оценки критиков и пользователей часто совпадают.
PS2 и DS находятся в топе по количеству выпущенных игр, что доказывает их популярность на рынке в начале 21 века. Несмотря на более поздний выход (2006) wii, занимает третье место, что указывает на стремительный рост популярности данной платформы в те года.
Выгруженные и обработанные данные помогут в написании статьи. Можно использовать популярноть некоторых платформ и сделать дальнейший анализ на определенном жанре, который может относится к игре `Секреты Темнолесья`. Статья должна заинтерисовать ретро игроков и любителей жанра игры `Секреты Темнолесья`.