# Развитие игровой индустрии

- Автор: Шрайер Людмила
- Дата: 01.11.2025

### Цели и задачи проекта

Цель: помочь коллегам из «Секретов Темнолесья» изучить развитие игровой индустрии.

Задачи: 
* Познакомиться с данными, проверить их корректность и провести предобработку, получив необходимый срез данных;
* Отобрать данные по времени выхода игры;
* Категоризовать игры по оценкам пользователей и экспертов;
* Выделить топ-7 платформ по количеству игр, выпущенных за весь требуемый период

### Описание данных

* Name — название игры.
* Platform — название платформы.
* Year of Release — год выпуска игры.
* Genre — жанр игры.
* NA sales — продажи в Северной Америке (в миллионах проданных копий).
* EU sales — продажи в Европе (в миллионах проданных копий).
* JP sales — продажи в Японии (в миллионах проданных копий).
* Other sales — продажи в других странах (в миллионах проданных копий).
* Critic Score — оценка критиков (от 0 до 100).
* User Score — оценка пользователей (от 0 до 10).
* Rating — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.

### Содержимое проекта

1. Загрузка данных и знакомство с ними
2. Проверка ошибок в данных и их предобработка

2.1. Названия, или метки, столбцов датафрейма

2.2. Типы данных

2.3. Наличие пропусков в данных

2.4. Явные и неявные дубликаты в данных 

3. Фильтрация данных
4. Категоризация данных
5. Итоговый вывод


---

## 1. Загрузка данных и знакомство с ними




In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('/datasets/new_games.csv')
display(df.head())
import warnings
warnings.filterwarnings("ignore")


Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


* информация о данных

In [4]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB
None


Промежуточный вывод: представленные данные соответствуют описанию. В столбцах "Year of Release", "EU sales", "JP sales", "User Score" тип данных определён неверно. Также большое количество пропусков представенно в столбцах с оценкой игр. 
Некорректный формат названий столбцов тоже нужно исправить.

---

## 2. Проверка ошибок в данных и их предобработка


### 2.1 Названия или метки, столбцов датафрейма

In [5]:
print(df.columns)

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')


In [6]:
df.columns = df.columns.str.lower()
df.columns = df.columns.str.replace(' ', '_')
display(df.columns)


Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')

### 2.2 Типы данных

In [8]:
# ищем ошибку в столбцах, которые имают неверный тип данных
print(df['eu_sales'].unique())
print(df['jp_sales'].unique())
print(df['user_score'].unique())

['28.96' '3.58' '12.76' '10.93' '8.89' '2.26' '9.14' '9.18' '6.94' '0.63'
 '10.95' '7.47' '6.18' '8.03' '4.89' '8.49' '9.09' '0.4' '3.75' '9.2'
 '4.46' '2.71' '3.44' '5.14' '5.49' '3.9' '5.35' '3.17' '5.09' '4.24'
 '5.04' '5.86' '3.68' '4.19' '5.73' '3.59' '4.51' '2.55' '4.02' '4.37'
 '6.31' '3.45' '2.81' '2.85' '3.49' '0.01' '3.35' '2.04' '3.07' '3.87'
 '3.0' '4.82' '3.64' '2.15' '3.69' '2.65' '2.56' '3.11' '3.14' '1.94'
 '1.95' '2.47' '2.28' '3.42' '3.63' '2.36' '1.71' '1.85' '2.79' '1.24'
 '6.12' '1.53' '3.47' '2.24' '5.01' '2.01' '1.72' '2.07' '6.42' '3.86'
 '0.45' '3.48' '1.89' '5.75' '2.17' '1.37' '2.35' '1.18' '2.11' '1.88'
 '2.83' '2.99' '2.89' '3.27' '2.22' '2.14' '1.45' '1.75' '1.04' '1.77'
 '3.02' '2.75' '2.16' '1.9' '2.59' '2.2' '4.3' '0.93' '2.53' '2.52' '1.79'
 '1.3' '2.6' '1.58' '1.2' '1.56' '1.34' '1.26' '0.83' '6.21' '2.8' '1.59'
 '1.73' '4.33' '1.83' '0.0' '2.18' '1.98' '1.47' '0.67' '1.55' '1.91'
 '0.69' '0.6' '1.93' '1.64' '0.55' '2.19' '1.11' '2.29' '2.5' '0.96'
 '

Сделав небольшой анализ, мы замечаем, что числа представлены в виде строковых значений, также в столбцах присутствуют такие слова, как 'unknown' и 'tbd'.
Для дальнейшей работы необходимо присвоить им верный тип данных и заменить слова 'unknown' и 'tbd' на nan.

In [9]:
df['eu_sales'] = pd.to_numeric(df['eu_sales'], errors = 'coerce').astype('float64')
df['jp_sales'] = pd.to_numeric(df['jp_sales'], errors = 'coerce').astype('float64')
df['user_score'] = pd.to_numeric(df['user_score'], errors = 'coerce').astype('float64')

print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16956 non-null  object 
 2   year_of_release  16681 non-null  float64
 3   genre            16954 non-null  object 
 4   na_sales         16956 non-null  float64
 5   eu_sales         16950 non-null  float64
 6   jp_sales         16952 non-null  float64
 7   other_sales      16956 non-null  float64
 8   critic_score     8242 non-null   float64
 9   user_score       7688 non-null   float64
 10  rating           10085 non-null  object 
dtypes: float64(7), object(4)
memory usage: 1.4+ MB
None


### 2.3. Наличие пропусков в данных

In [10]:
print(f'Количество пропусков в абсолютном значении: \n{df.isna().sum()}')
      
print(f'Количество пропусков в относительном значении: \n{df.isna().mean() * 100}')
prom_itog = df # + сохраним переменную до предобработки
print(len(prom_itog))

Количество пропусков в абсолютном значении: 
name                  2
platform              0
year_of_release     275
genre                 2
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8714
user_score         9268
rating             6871
dtype: int64
Количество пропусков в относительном значении: 
name                0.011795
platform            0.000000
year_of_release     1.621845
genre               0.011795
na_sales            0.000000
eu_sales            0.035386
jp_sales            0.023590
other_sales         0.000000
critic_score       51.391838
user_score         54.659118
rating             40.522529
dtype: float64
16956


Промежуточный вывод: проверив данные на наличие пропусков, мы сразу видим, что поти половина значений отсутствует в столбцах "critic_score" (51.4 %) с оценкой критиков и 
"user_score" (54.7 %) с оценкой пользователей. Это может говорить о непопулярности игр. Для некоторых даже не был назначен рейтинг организации ESRB (количество пропусков 40.5 %). Также присутствует 275 пропусков в столбце с годом выпуска игры

Столбцы critic_score, user_score и rating имеют большое количество пропусков, поэтому удалять строки с их отсутствием будет неправильно. Лучше заменить их нейтральным (отрицательным) числом.

In [12]:
# удалим игры с отсутствием названия и года 
df = df.dropna(subset = ['year_of_release', 'name'])
print(df.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16679 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16679 non-null  object 
 1   platform         16679 non-null  object 
 2   year_of_release  16679 non-null  float64
 3   genre            16679 non-null  object 
 4   na_sales         16679 non-null  float64
 5   eu_sales         16673 non-null  float64
 6   jp_sales         16675 non-null  float64
 7   other_sales      16679 non-null  float64
 8   critic_score     8085 non-null   float64
 9   user_score       7558 non-null   float64
 10  rating           9901 non-null   object 
dtypes: float64(7), object(4)
memory usage: 1.5+ MB
None


In [13]:
# заменяем пропущенные значения в eu_sales и jp_sales на среднее значение в зависимости от названия платформы и года выхода
sales_null = ['eu_sales', 'jp_sales']
for pr in sales_null:
    if pr in df.columns:
        df[pr] = df[pr].fillna(
            df.groupby(['platform', 'year_of_release'])[pr].transform('mean'))
print(df.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16679 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16679 non-null  object 
 1   platform         16679 non-null  object 
 2   year_of_release  16679 non-null  float64
 3   genre            16679 non-null  object 
 4   na_sales         16679 non-null  float64
 5   eu_sales         16679 non-null  float64
 6   jp_sales         16679 non-null  float64
 7   other_sales      16679 non-null  float64
 8   critic_score     8085 non-null   float64
 9   user_score       7558 non-null   float64
 10  rating           9901 non-null   object 
dtypes: float64(7), object(4)
memory usage: 1.5+ MB
None


Заполняем пропуски в столбцах с оценкой:

In [14]:
df['critic_score'] = df['critic_score'].fillna(-1)
df['user_score'] = df['user_score'].fillna(-1)
df['rating'] = df['rating'].fillna('-1') 
print(df.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16679 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16679 non-null  object 
 1   platform         16679 non-null  object 
 2   year_of_release  16679 non-null  float64
 3   genre            16679 non-null  object 
 4   na_sales         16679 non-null  float64
 5   eu_sales         16679 non-null  float64
 6   jp_sales         16679 non-null  float64
 7   other_sales      16679 non-null  float64
 8   critic_score     16679 non-null  float64
 9   user_score       16679 non-null  float64
 10  rating           16679 non-null  object 
dtypes: float64(7), object(4)
memory usage: 1.5+ MB
None


### 2.4 Явные и неявные дубликаты в данных

In [16]:
genres_unique = df['genre'].unique()
print(genres_unique)
print(f'Количество уникальных названий: {len(genres_unique)}')
platform_unique = df['platform'].unique()
print(platform_unique)
rating_unique = df['rating'].unique()
print(rating_unique)
year_of_release_unique = df['year_of_release'].unique()
print(year_of_release_unique)

['Sports' 'Platform' 'Racing' 'Role-Playing' 'Puzzle' 'Misc' 'Shooter'
 'Simulation' 'Action' 'Fighting' 'Adventure' 'Strategy' 'MISC'
 'ROLE-PLAYING' 'RACING' 'ACTION' 'SHOOTER' 'FIGHTING' 'SPORTS' 'PLATFORM'
 'ADVENTURE' 'SIMULATION' 'PUZZLE' 'STRATEGY']
Количество уникальных названий: 24
['Wii' 'NES' 'GB' 'DS' 'X360' 'PS3' 'PS2' 'SNES' 'GBA' 'PS4' '3DS' 'N64'
 'PS' 'XB' 'PC' '2600' 'PSP' 'XOne' 'WiiU' 'GC' 'GEN' 'DC' 'PSV' 'SAT'
 'SCD' 'WS' 'NG' 'TG16' '3DO' 'GG' 'PCFX']
['E' '-1' 'M' 'T' 'E10+' 'K-A' 'AO' 'EC' 'RP']
[2006. 1985. 2008. 2009. 1996. 1989. 1984. 2005. 1999. 2007. 2010. 2013.
 2004. 1990. 1988. 2002. 2001. 2011. 1998. 2015. 2012. 2014. 1992. 1997.
 1993. 1994. 1982. 2016. 2003. 1986. 2000. 1995. 1991. 1981. 1987. 1980.
 1983.]


В столбце с жанрами мы видим наличие неявных дубликатов. Приведем все названия к нижнему регистру

In [17]:
df['genre'] = df['genre'].str.lower()
genres_unique = df['genre'].unique()

print(f"Теперь количество уникальных названий: {len(genres_unique)}") 
print(df.info())


Теперь количество уникальных названий: 12
<class 'pandas.core.frame.DataFrame'>
Int64Index: 16679 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16679 non-null  object 
 1   platform         16679 non-null  object 
 2   year_of_release  16679 non-null  float64
 3   genre            16679 non-null  object 
 4   na_sales         16679 non-null  float64
 5   eu_sales         16679 non-null  float64
 6   jp_sales         16679 non-null  float64
 7   other_sales      16679 non-null  float64
 8   critic_score     16679 non-null  float64
 9   user_score       16679 non-null  float64
 10  rating           16679 non-null  object 
dtypes: float64(7), object(4)
memory usage: 1.5+ MB
None


In [18]:
print(f'Количество строк до удаления дубликатов: {len(df)}')
df_duplicat = df.drop_duplicates()
print(f'Количество строк после удаления дубликатов: {len(df_duplicat)}')


Количество строк до удаления дубликатов: 16679
Количество строк после удаления дубликатов: 16444


Мы обнаружили 235 явных дубликатов. В столбце с названиями жанров неявных дубликатов была половина (12 названий). 
В итоге мы дошли до 16444 полностью уникальных строк

In [19]:
absolut = len(prom_itog) - len(df_duplicat)
print(f'Количество удалённых строк в абсолютном значении: {absolut}') 

Количество удалённых строк в абсолютном значении: 512


In [20]:
otnosit = absolut/len(prom_itog)
print(f'Количество удалённых строк в относительном значении: {round(otnosit, 2)}')

Количество удалённых строк в относительном значении: 0.03


Промежуточный вывод: в ходе выполнения предобработки данных мы:
* привели название столбцов к верному и удобному стилю; 
* исправили тип данных со строчного на вещественных в столбцах eu_sales, jp_sales и user_score; 
* избавились от ошибок, дубликатов и пропусков, удалив 512 строк, что составляет 0.03. Из них 235 являлись явными дубликатами. 275 строк были без даты.

Столбцы с большим количеством пропусков (оценка критиков, пользователей и рейтинг) были заменены отрицательным значением.

Данные готовы для работы.

---

## 3. Фильтрация данных

Коллеги хотят изучить историю продаж игр в начале XXI века, и их интересует период с 2000 по 2013 год включительно. 

In [22]:
# меняем тип данных на целочисленный с понижением размерности данных
df['year_of_release'] = pd.to_numeric(df['year_of_release'], downcast='integer') 
print(df.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16679 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16679 non-null  object 
 1   platform         16679 non-null  object 
 2   year_of_release  16679 non-null  int16  
 3   genre            16679 non-null  object 
 4   na_sales         16679 non-null  float64
 5   eu_sales         16679 non-null  float64
 6   jp_sales         16679 non-null  float64
 7   other_sales      16679 non-null  float64
 8   critic_score     16679 non-null  float64
 9   user_score       16679 non-null  float64
 10  rating           16679 non-null  object 
dtypes: float64(6), int16(1), object(4)
memory usage: 1.4+ MB
None


In [23]:
df_actual = df_duplicat[(df_duplicat['year_of_release'] >= 2000) & (df_duplicat['year_of_release'] <= 2013)]
print(df_actual)

                                                   name platform  \
0                                            Wii Sports      Wii   
2                                        Mario Kart Wii      Wii   
3                                     Wii Sports Resort      Wii   
6                                 New Super Mario Bros.       DS   
7                                              Wii Play      Wii   
...                                                 ...      ...   
16947                     Men in Black II: Alien Escape       GC   
16949                Woody Woodpecker in Crazy Castle 5      GBA   
16950  SCORE International Baja 1000: The Official Game      PS2   
16952                                  LMA Manager 2007     X360   
16954                                  Spirits & Spells      GBA   

       year_of_release     genre  na_sales  eu_sales  jp_sales  other_sales  \
0               2006.0    sports     41.36     28.96      3.77         8.45   
2               2008.0   

---

## 4. Категоризация данных
    
Задания:

- Разделите все игры по оценкам пользователей и выделите такие категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).

In [25]:
df_actual.loc[:, 'categore_user'] = pd.cut(df_actual['user_score'], bins = [0, 3, 8, 10], labels = ['низкая оценка', 'средняя оценка', 'высокая оценка'], right=False, include_lowest=True)
print(df_actual['categore_user'])

0        высокая оценка
2        высокая оценка
3        высокая оценка
6        высокая оценка
7        средняя оценка
              ...      
16947               NaN
16949               NaN
16950               NaN
16952               NaN
16954               NaN
Name: categore_user, Length: 12781, dtype: category
Categories (3, object): ['низкая оценка' < 'средняя оценка' < 'высокая оценка']


- Разделите все игры по оценкам критиков и выделите такие категории: высокая оценка (от 80 до 100 включительно), средняя оценка (от 30 до 80, не включая правую границу интервала) и низкая оценка (от 0 до 30, не включая правую границу интервала).

In [26]:
df_actual.loc[:, 'categore_critic'] = pd.cut(df_actual['critic_score'], bins = [0, 30, 80, 100], labels = ['низкая оценка', 'средняя оценка', 'высокая оценка'], right=False, include_lowest=True)
print(df_actual['categore_critic'])

0        средняя оценка
2        высокая оценка
3        высокая оценка
6        высокая оценка
7        средняя оценка
              ...      
16947               NaN
16949               NaN
16950               NaN
16952               NaN
16954               NaN
Name: categore_critic, Length: 12781, dtype: category
Categories (3, object): ['низкая оценка' < 'средняя оценка' < 'высокая оценка']


In [27]:
group_user = df_actual.groupby('categore_user')['name'].count()
print(f'Категоризация игр по оценке пользователей: {group_user}')

Категоризация игр по оценке пользователей: categore_user
низкая оценка      116
средняя оценка    4081
высокая оценка    2286
Name: name, dtype: int64


In [28]:
group_critic = df_actual.groupby('categore_critic')['name'].count()
print(f'Категоризация игр по оценке критиков: {group_critic}')

Категоризация игр по оценке критиков: categore_critic
низкая оценка       55
средняя оценка    5422
высокая оценка    1692
Name: name, dtype: int64


- Выделите топ-7 платформ по количеству игр, выпущенных за весь актуальный период.

In [29]:
top_platform = df_actual['platform'].value_counts()
print(top_platform.head(7))

PS2     2127
DS      2120
Wii     1275
PSP     1180
X360    1121
PS3     1087
GBA      811
Name: platform, dtype: int64


---

## 5. Итоговый вывод

**Вывод:** PS2 (2127 игр) и DS (2120 игр) выходят с большим отрывом по количеству игр, выпущенных за весь актуальный период. Это говорит о популярности платформ.
    Мы видем, что потом популярность PlayStation пошла на спад. Возможно, разработчикам стало сложней конкурировать с выходом других интересных и качественных платформ.
    
   Коллеги из игры "Секреты Темнолесья" имеют все шансы выйти на мировой уровень и конкурировать с крупными платформами.

**Для достижения поставленной цели мы выполнили следующее:**
   * Проверили корректность данных, исправили неверный тип данных в столбцах eu_sales, jp_sales и user_score;
   * Избавились от 512 пропусков;
   * Заменили поти половину пропущенных значений на нейтральное число в столбцах с оценкой критиков, пользователей и рейтинга организации ESRB;
   * Отобрали данные с 2000 по 2013 год включительно;
   * Категоризовали игры по оценкам пользователей и экспертов. Присвоенные категории:;
   * Выделили топ-7 платформ по количеству игр: ***PS2, DS, Wii, PSP, X360, PS3, GBA.***

**В ходе выполнения работы были добавлены следующие столбцы:**

**categore_user** - категоризация оценок пользователей

**categore_critic** - категоризация оценок критиков