In [1]:
# Импортируем библиотеки
import pandas as pd

# Подготовка данных для исследования рынка видеоигр (2000–2013 гг.)

### Цели и задачи проекта

<font color='#777778'>В этой тетрадке используем датасет `/datasets/new_games.csv`, который содержит информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр. Эта информация основана на данных, собранных из открытых источников.
Цель работы заключается в формировании и предобработке данных, необходимых для углубленного исследования динамики и особенностей развития рынка видеоигр в период с 2000 по 2013 годы.</font>

### Описание данных

<font color='#777778'>В проекте будут использованы данные датасета `/datasets/new_games.csv` с таким описанием:
- `Name` — название игры;
- `Platform` — название платформы;
- `Year of Release` — год выпуска игры;
- `Genre` — жанр игры;
- `NA sales` — продажи в Северной Америке (в миллионах проданных копий);
- `EU sales` — продажи в Европе (в миллионах проданных копий);
- `JP sales` — продажи в Японии (в миллионах проданных копий);
- `Other sales` — продажи в других странах (в миллионах проданных копий);
- `Critic Score` — оценка критиков (от 0 до 100);
- `User Score` — оценка пользователей (от 0 до 10);
- `Rating` — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.</font>

### Содержимое проекта

* [1. Загрузка данных и знакомство с ними](#1-loading-data)
* [2. Проверка ошибок в данных и их предобработка](#2-data-cleaning)
* [2.1. Названия, или метки, столбцов датафрейма](#21-column-names)
* [2.2. Типы данных](#22-data-types)
* [2.3. Наличие пропусков в данных](#23-missing-values)
* [2.4. Явные и неявные дубликаты в данных](#24-duplicates)
* [3. Фильтрация данных](#3-filtering)
* [4. Категоризация данных](#4-categorization)
* [5. Итоговый вывод](#5-summary)


<a class = "anchor" id = "1-loading-data" ><a/>
## 1. Загрузка данных и знакомство с ними

In [2]:
# Выгружаем данные из датасета new_games.csv в датафрейм new_games
new_games = pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv')

In [3]:
# Выводим информацию о датафрейме
new_games.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


In [4]:
# Выводим первые строки датафрейма на экран
new_games.head(10)

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,
5,Tetris,GB,1989.0,Puzzle,23.2,2.26,4.22,0.58,,,
6,New Super Mario Bros.,DS,2006.0,Platform,11.28,9.14,6.5,2.88,89.0,8.5,E
7,Wii Play,Wii,2006.0,Misc,13.96,9.18,2.93,2.84,58.0,6.6,E
8,New Super Mario Bros. Wii,Wii,2009.0,Platform,14.44,6.94,4.7,2.24,87.0,8.4,E
9,Duck Hunt,NES,1984.0,Shooter,26.93,0.63,0.28,0.47,,,


Датасет `new_games.csv` содержит **11 столбцов и 16956 строк**, в которых представлена информация о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр, что соотвествует тематики.

Изучим типы данных и их корректность:

- **Числовые значения с плавающей запятой (float64).** Четыре столбца имеют тип данных`float64`:
    - `NA sales`, `Other sales` содержат информацию о продажах игр (млн. копий) - здесь тип данных `float64` подходит.
    - `Year of Release` хранит информацию о годе выпуска игры. Использование `float64` возможно, но при необходимости для таких данных можно использовать и целочисленный тип `int64`.
    - `Critic Score` хранит информацию об оценки игры критиками (целочисленные значения от 0 до 100). Использование `float64` возможно, но при необходимости для таких данных можно использовать и целочисленный тип `int64`.
- **Строковые данные (object).** Семь столбцов имеют тип данных `object`:
    - `Name` содержит строковую информацию (название игры), что логично для текстовых данных. Здесь тип данных `object` подходит.
    - `EU sales` и `JP sales` хранят информацию о продажах игр (млн. копий). Для таких данных рекомендуется использовать тип `float32`.
    - `Platform`, `Genre`, `Rating` хранят текстовые данные, но их можно рассматривать как категориальные признаки. В этом случае можно использовать тип `category`для экономии памяти и упрощения группировок.
    - `User Score` хранит информацию об оценки игры пользователями (дробные значения от 0 до 10) - для таких данных рекомендуется использовать тип `float32`.

**После анализа типов данных видно, что часть столбцов требует корректировки и оптимизации.**

In [5]:
# Используя метод unique() определим уникальные значения в столбцe `Platform`:
display(new_games['Platform'].unique())

array(['Wii', 'NES', 'GB', 'DS', 'X360', 'PS3', 'PS2', 'SNES', 'GBA',
       'PS4', '3DS', 'N64', 'PS', 'XB', 'PC', '2600', 'PSP', 'XOne',
       'WiiU', 'GC', 'GEN', 'DC', 'PSV', 'SAT', 'SCD', 'WS', 'NG', 'TG16',
       '3DO', 'GG', 'PCFX'], dtype=object)

In [6]:
# Используя методы unique() определим уникальные значения в столбцe `Genre`:
display(new_games['Genre'].unique())

array(['Sports', 'Platform', 'Racing', 'Role-Playing', 'Puzzle', 'Misc',
       'Shooter', 'Simulation', 'Action', 'Fighting', 'Adventure',
       'Strategy', nan, 'MISC', 'ROLE-PLAYING', 'RACING', 'ACTION',
       'SHOOTER', 'FIGHTING', 'SPORTS', 'PLATFORM', 'ADVENTURE',
       'SIMULATION', 'PUZZLE', 'STRATEGY'], dtype=object)

In [7]:
# Используя методы unique() определим уникальные значения в столбцe `Rating`:
display(new_games['Rating'].unique())

array(['E', nan, 'M', 'T', 'E10+', 'K-A', 'AO', 'EC', 'RP'], dtype=object)

In [8]:
# Используя методы unique() определим уникальные значения в столбцe `Critic Score`:
display(new_games['Critic Score'].unique())

array([76., nan, 82., 80., 89., 58., 87., 91., 61., 97., 95., 77., 88.,
       83., 94., 93., 85., 86., 98., 96., 90., 84., 73., 74., 78., 92.,
       71., 72., 68., 62., 49., 67., 81., 66., 56., 79., 70., 59., 64.,
       75., 60., 63., 69., 50., 25., 42., 44., 55., 48., 57., 29., 47.,
       65., 54., 20., 53., 37., 38., 33., 52., 30., 32., 43., 45., 51.,
       40., 46., 39., 34., 35., 41., 36., 28., 31., 27., 26., 19., 23.,
       24., 21., 17., 22., 13.])

In [9]:
# Используя методы unique() определим уникальные значения в столбцe `User Score`:
display(new_games['User Score'].unique())

array(['8', nan, '8.3', '8.5', '6.6', '8.4', '8.6', '7.7', '6.3', '7.4',
       '8.2', '9', '7.9', '8.1', '8.7', '7.1', '3.4', '5.3', '4.8', '3.2',
       '8.9', '6.4', '7.8', '7.5', '2.6', '7.2', '9.2', '7', '7.3', '4.3',
       '7.6', '5.7', '5', '9.1', '6.5', 'tbd', '8.8', '6.9', '9.4', '6.8',
       '6.1', '6.7', '5.4', '4', '4.9', '4.5', '9.3', '6.2', '4.2', '6',
       '3.7', '4.1', '5.8', '5.6', '5.5', '4.4', '4.6', '5.9', '3.9',
       '3.1', '2.9', '5.2', '3.3', '4.7', '5.1', '3.5', '2.5', '1.9', '3',
       '2.7', '2.2', '2', '9.5', '2.1', '3.6', '2.8', '1.8', '3.8', '0',
       '1.6', '9.6', '2.4', '1.7', '1.1', '0.3', '1.5', '0.7', '1.2',
       '2.3', '0.5', '1.3', '0.2', '0.6', '1.4', '0.9', '1', '9.7'],
      dtype=object)

**Особенности, на которые стоит обратить внимание:**
 - Столбец `User Score` содержит текстовые маркеры вроде 'tbd', которые нужно обработать или исключить перед переводом в `float32`.
 - Столбец `Genre` содержит неоднородности - разные форматы записи (например, Misc и MISC)
 - В столбце `Rating` находятся данные - `'K-A'`, не относящиеся к категориям рейтинга ESRB.
 - Названия столбцов содержат пробелы и заглавные буквы, что неудобно при работе с Pandas. Рекомендуется привести их к snake_case.

In [10]:
# Считаем количество строк, где Rating == 'K-A':
unknown_count = new_games[new_games['Rating'] == 'K-A'].shape[0]
display(f"Количество строк с категорией 'K-A': {unknown_count}")

"Количество строк с категорией 'K-A': 3"

In [11]:
# Заменим неизвестный рейтинг на специальный маркер 'Unknown' с помошью метода replace():
new_games['Rating'] = new_games['Rating'].replace('K-A', 'Unknown')

In [12]:
# Выведем количество пропущенных строк в датафрейме
display(new_games.isna().sum())

Name                  2
Platform              0
Year of Release     275
Genre                 2
NA sales              0
EU sales              0
JP sales              0
Other sales           0
Critic Score       8714
User Score         6804
Rating             6871
dtype: int64

In [13]:
# Подсчитаем долю строк с пропусками
print(new_games.isna().sum() / len(new_games)) 

Name               0.000118
Platform           0.000000
Year of Release    0.016218
Genre              0.000118
NA sales           0.000000
EU sales           0.000000
JP sales           0.000000
Other sales        0.000000
Critic Score       0.513918
User Score         0.401274
Rating             0.405225
dtype: float64


**Присутствуют пропущенные значения:**
- `Name`, `Genre`: по 2 пропуска.
- `Year of Release`: 275 пропусков.
- `Critic Score`: отсутствует более 50% значений.
- `User Score`: пропущено около 40%.
- `Rating`: отсутствует почти 40%.

In [14]:
# Считаем исходное количество строк
row_count = new_games.shape[0]
display(f"Исходное количество строк: {row_count}")

'Исходное количество строк: 16956'

---
<a class = "anchor" id = "2-data-cleaning" ><a/>
## 2.  Проверка ошибок в данных и их предобработка

<a class = "anchor" id = "21-column-names" ><a/>
### 2.1. Названия, или метки, столбцов датафрейма

In [15]:
# Выводим названия всех столбцов датафрейма на экран
display(new_games.columns)

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')

Названия столбцов содержат пробелы и заглавные буквы, что неудобно при работе с Pandas.
Рекомендуется привести их к `snake_case`.
Это облегчит доступ к столбцам и уменьшит вероятность синтаксических ошибок.

In [16]:
# Приведем названия всех столбцов к стилю snake case
new_games.columns = new_games.columns.str.strip().str.lower().str.replace(' ', '_')

In [17]:
# Проверяем результат после корректировки названий
display(new_games.columns)

Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')

<a class = "anchor" id = "22-data-types" ><a/>
### 2.2. Типы данных

В исследуемом датасете встречаются некорректные типы данных. Вот основные причины почему так получается:
 - Смешанные типы данных в столбце. Например, в столбце `user_score` значение 'tbd' — это строка. Из-за этого весь столбец будет считаться строковым (object), а не числовым (float64).
 - Ошибки при выгрузке: CSV-файл не всегда хранит типы данных — они определяются при чтении.
 - Локализация и формат записи чисел
 - Ошибки пользователя

Далее произведем корректировку типов данных.

In [18]:
# Приводим тип данных столбцов `platform`, `genre` и `rating` к category с помощью метода astype()
new_games[['platform', 'genre', 'rating']] = new_games[['platform', 'genre', 'rating']].astype('category')

In [19]:
# Приводим тип данных столбцов `eu_sales`, `jp_sales` и `user_score` к float32 с помощью метода to_numeric(), заменив строковые значения на пропуски
new_games['eu_sales'] = pd.to_numeric(new_games['eu_sales'], errors = 'coerce', downcast = 'float')
new_games['jp_sales'] = pd.to_numeric(new_games['jp_sales'], errors = 'coerce', downcast = 'float')
new_games['user_score'] = pd.to_numeric(new_games['user_score'], errors = 'coerce', downcast = 'float')

Столбец `year_of_release` нужно привести к типу данных int64. Для этого необходимо предварительно обработать пропуски в данных. Пропусков в этом столбце 275 (около 1,6%). С учетом того, что данные критичны по году, предлагается удалить строки с пропуском с помощью метода dropna().

Столбец `critic_score` нужно привести к типу данных int64. Для этого необходимо предварительно обработать пропуски в данных. Не все игры получают оценки (особенно малопопулярные игры), поэтому в столбце critic_score возможны пропуски. Пропусков много и важно сохранить строки с ними, т.к. планируется анализ и по другим данным, не связанным с оценками критиков. Предлагается заменить пропуски на значение-индикатор, чтобы в дальнейшем учитывать отсутствие оценки.

In [23]:
# Проверяем результат после корректировки типов данных
display(new_games.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype   
---  ------           --------------  -----   
 0   name             16954 non-null  object  
 1   platform         16956 non-null  category
 2   year_of_release  16681 non-null  float64 
 3   genre            16954 non-null  category
 4   na_sales         16956 non-null  float64 
 5   eu_sales         16950 non-null  float32 
 6   jp_sales         16952 non-null  float32 
 7   other_sales      16956 non-null  float64 
 8   critic_score     8242 non-null   float64 
 9   user_score       7688 non-null   float32 
 10  rating           10085 non-null  category
dtypes: category(3), float32(3), float64(4), object(1)
memory usage: 913.2+ KB


None

Типы данных успешно скорректированы.

<a class = "anchor" id = "23-missing-values" ><a/>
### 2.3. Наличие пропусков в данных

Посчитаем количество пропусков в каждом столбце в абсолютных и относительных значениях.


In [24]:
# Выведем количество пропущенных строк в датафрейме
display(new_games.isna().sum())

name                  2
platform              0
year_of_release     275
genre                 2
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8714
user_score         9268
rating             6871
dtype: int64

In [25]:
# Подсчитаем долю строк с пропусками
display(new_games.isna().sum() / len(new_games)) 

name               0.000118
platform           0.000000
year_of_release    0.016218
genre              0.000118
na_sales           0.000000
eu_sales           0.000354
jp_sales           0.000236
other_sales        0.000000
critic_score       0.513918
user_score         0.546591
rating             0.405225
dtype: float64

Комментарии по пропускам:

1. `name` (2 пропуска) 
Возможные причины: ошибки при сборе данных или неполные записи в открытом источнике.  

2. `genre` (2 пропуска) 
Возможные причины: отсутствующая классификация жанра для отдельных игр, особенно для редких или экспериментальных проектов.  

3. `year_of_release` (275 пропусков) 
Возможные причины: нет точной информации о дате релиза в открытых источниках, особенно для старых или региональных проектов с разными датами выхода. 

4. `critic_score` (пропущено более 50% значений) 
Возможные причины: оценки критиков есть только у достаточно популярных игр, у нишевых или локальных проектов рецензий могло не быть.  

5. `user_score` (пропущено более 50% значений) 
Возможные причины: для некоторых игр пользователи не оставляли отзывов. Также оценки могли отсутствовать у новинок на момент сбора данных.  

6. `rating` (около 40% пропусков) 
Возможные причины: не для всех игр проводится возрастная классификация ESRB. Многие игры могли не проходить международную сертификацию.  

**Общая гипотеза:**  
Большинство пропусков связано с ограниченной доступностью информации в открытых источниках, региональными различиями в процедурах оценки и классификации игр, а также с неполнотой и неточностью данных при их автоматической интеграции.



Произведем обработку пропусков

Столбцы `name` и `genre` содержат всего по 2 пропуска, эти строки можно удалить, так как:
- Без названия или жанра игру нельзя анализировать содержательно.
- Доля очень мала: менее 0,01%.

In [26]:
# Удалим пустые значения  столбцов `name` и `genre` с помощью метода dropna()
new_games = new_games.dropna(subset=['name', 'genre'])

В столбцах `eu_sales` и `jp_sales` встречаются пропуски. Предлагается заменить их на среднее значение в зависимости от названия платформы и года выхода игры.

In [27]:
# Создадим функцию mean_group_eu_sales
def mean_group_eu_sales(row):
    if pd.isna(row['eu_sales']):
        group = new_games[(new_games['platform'] == row['platform']) & (new_games['year_of_release'] == row['year_of_release'])]
        return group['eu_sales'].mean()
    else:
        return row['eu_sales']

In [28]:
# С помощью функции mean_group_eu_sales заменим пропуска в столбце `eu_sales`
new_games['eu_sales'] = new_games.apply(mean_group_eu_sales, axis = 1)

In [29]:
# Создадим функцию mean_group_jp_sales
def mean_group_jp_sales(row):
    if pd.isna(row['jp_sales']):
        group = new_games[(new_games['platform'] == row['platform']) & (new_games['year_of_release'] == row['year_of_release'])]
        return group['jp_sales'].mean()
    else:
        return row['jp_sales']

In [30]:
# С помощью функции mean_group_jp_sales заменим пропуска в столбце `jp_sales`
new_games['jp_sales'] = new_games.apply(mean_group_jp_sales, axis = 1)

Не все игры получают оценки (особенно малопопулярные игры), поэтому в столбце `user_score` возможны пропуски. Пропусков много и важно сохранить строки с ними, т.к. планируется анализ и по другим данным, не связанным с оценками пользователей.
Предлагается заменить пропуски на значение-индикатор (-1.0), чтобы в дальнейшем учитывать отсутствие оценки.

In [31]:
# Заменим пропуски в столбце на значение-индикатор с помощью метода fillna()
new_games['user_score'] = new_games['user_score'].fillna(-1.0)                                                                      

В столбце `rating` пропуски можно заменить на специальный маркер, например 'Unknown', т.к. 'NaN' неинформативен. Здесь пропуски ожидаемы, т.к. не все игры проходят ESRB-рейтинг.

In [32]:
# Заменим пропуски в столбцах на маркер  'Unknown' с помощью метода fillna()
new_games['rating'] = new_games['rating'].fillna('Unknown')

Столбец `year_of_release` содержит 275 пропусков (около 1,6%). С учетом того, что данные критичны по году, предлагается удалить строки с пропуском с помощью метода dropna(). Так как столбец содержит только целочисленные значения, то после обработки пропусков переведем тип данных в int64.

In [33]:
# Удалим пустые значения с помощью метода dropna()
new_games = new_games.dropna(subset='year_of_release')
# Приводим тип данных столбца `year_of_release` к int64 с помощью метода astype()
new_games['year_of_release'] = new_games['year_of_release'].astype('int64')

Не все игры получают оценки (особенно малопопулярные игры), поэтому в столбце `critic_score` возможны пропуски. Пропусков много и важно сохранить строки с ними, т.к. планируется анализ и по другим данным, не связанным с оценками критиков. Предлагается заменить пропуски на значение-индикатор (-1), чтобы в дальнейшем учитывать отсутствие оценки. Так как столбец содержит только целочисленные значения, то после обработки пропусков переведем тип данных в int64.

In [34]:
# Заменим пропуски в столбцах на значение-индикатор с помощью метода fillna()
new_games['critic_score'] = new_games['critic_score'].fillna(-1)
# Приводим тип данных столбцов `critic_score` к int64 с помощью метода astype()
new_games['critic_score'] = new_games['critic_score'].astype('int64')

In [35]:
# Проверим количество пропущенных строк в датафрейме после обработки пропусков
display(new_games.isna().sum())

name               0
platform           0
year_of_release    0
genre              0
na_sales           0
eu_sales           0
jp_sales           0
other_sales        0
critic_score       0
user_score         0
rating             0
dtype: int64

In [36]:
# Считаем общее количество строк после обработки пропусков
row_count_pr = new_games.shape[0]
display(f"Исходное количество строк: {row_count}")
display(f"Количество строк после обработки пропусков: {row_count_pr}")
display(f"Удалено всего: {row_count-row_count_pr} строк или {round((row_count-row_count_pr) * 100 / row_count,1)} % от общего количества")

'Исходное количество строк: 16956'

'Количество строк после обработки пропусков: 16679'

'Удалено всего: 277 строк или 1.6 % от общего количества'

<a class = "anchor" id = "24-duplicates" ><a/>
### 2.4. Явные и неявные дубликаты в данных

Изучим уникальные значения в категориальных данных - названиями жанра, платформы, рейтинга и года выпуска.

In [37]:
# Используя метод unique() определим уникальные значения в столбцe `platform`
display(sorted(new_games['platform'].unique()))

['2600',
 '3DO',
 '3DS',
 'DC',
 'DS',
 'GB',
 'GBA',
 'GC',
 'GEN',
 'GG',
 'N64',
 'NES',
 'NG',
 'PC',
 'PCFX',
 'PS',
 'PS2',
 'PS3',
 'PS4',
 'PSP',
 'PSV',
 'SAT',
 'SCD',
 'SNES',
 'TG16',
 'WS',
 'Wii',
 'WiiU',
 'X360',
 'XB',
 'XOne']

In [38]:
# Используя методы unique() определим уникальные значения в столбцe `genre`
display(sorted(new_games['genre'].unique()))

['ACTION',
 'ADVENTURE',
 'Action',
 'Adventure',
 'FIGHTING',
 'Fighting',
 'MISC',
 'Misc',
 'PLATFORM',
 'PUZZLE',
 'Platform',
 'Puzzle',
 'RACING',
 'ROLE-PLAYING',
 'Racing',
 'Role-Playing',
 'SHOOTER',
 'SIMULATION',
 'SPORTS',
 'STRATEGY',
 'Shooter',
 'Simulation',
 'Sports',
 'Strategy']

Разные форматы присутствуют в названиях жанров - для нормализации данные столбца `genre` приведем к нижнему регистру. Такая предобработка позволяет избежать дублирования категорий из-за различий в написании (например, "Action" и "action").

In [39]:
# Используя метод str.lower() устраним необнородности в названиях жанра
new_games['genre'] = new_games['genre'].str.lower()

In [40]:
# Проверим уникальные значения в столбцe `genre`
display(sorted(new_games['genre'].unique()))

['action',
 'adventure',
 'fighting',
 'misc',
 'platform',
 'puzzle',
 'racing',
 'role-playing',
 'shooter',
 'simulation',
 'sports',
 'strategy']

In [41]:
# Используя методы unique() определим уникальные значения в столбцe `rating`
display(sorted(new_games['rating'].unique()))

['AO', 'E', 'E10+', 'EC', 'M', 'RP', 'T', 'Unknown']

Столбец `rating` содержит 8 уникальных значений:
 - 'E', 'E10+', 'T', 'M', 'AO', 'EC', 'RP' — стандартные метки рейтинга ESRB;
 - 'Unknown' — было добавлено вручную при замене пропусков и нестандартных значений

In [42]:
# Используя методы unique() определим уникальные значения в столбцe `year_of_release`
display(sorted(new_games['year_of_release'].unique()))

[np.int64(1980),
 np.int64(1981),
 np.int64(1982),
 np.int64(1983),
 np.int64(1984),
 np.int64(1985),
 np.int64(1986),
 np.int64(1987),
 np.int64(1988),
 np.int64(1989),
 np.int64(1990),
 np.int64(1991),
 np.int64(1992),
 np.int64(1993),
 np.int64(1994),
 np.int64(1995),
 np.int64(1996),
 np.int64(1997),
 np.int64(1998),
 np.int64(1999),
 np.int64(2000),
 np.int64(2001),
 np.int64(2002),
 np.int64(2003),
 np.int64(2004),
 np.int64(2005),
 np.int64(2006),
 np.int64(2007),
 np.int64(2008),
 np.int64(2009),
 np.int64(2010),
 np.int64(2011),
 np.int64(2012),
 np.int64(2013),
 np.int64(2014),
 np.int64(2015),
 np.int64(2016)]

Столбец `year_of_release` охватывает период с 1980 г. по 2016 г. Поскольку статья фокусируется на периоде 2000–2013 гг., на этапе фильтрации данных в дальнейшем стоит ограничить анализ только этими годами.

In [43]:
# Удалим лишние пробелы, которые часто встречается в необработанных данных с помощью метода str.strip
new_games['name'] = new_games['name'].str.strip()
new_games['genre'] = new_games['genre'].str.strip()
new_games['platform'] = new_games['platform'].str.strip()
new_games['rating'] = new_games['rating'].str.strip()

In [44]:
# Данные столбца `name` переведем в нижний регистр используя метод str.lower() для выявления неявных дубликатов
new_games['name'] = new_games['name'].str.lower()

**Найдем явные дубликаты в данных датафрейма.**

In [46]:
# Отсортируем датафрейм по всем столбцам в порядке возрастания с помощью метода sort_values()
new_games_sorted = new_games.sort_values(by = new_games.columns.tolist())

In [47]:
# Найдем дубликаты с помощью метода duplicated() и выведем их на экран
duplicates = new_games_sorted[new_games_sorted.duplicated(keep = False)]
display(duplicates)

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
15301,11eyes: crossover,X360,2009,adventure,0.00,0.00,0.02,0.00,-1,-1.0,Unknown
15302,11eyes: crossover,X360,2009,adventure,0.00,0.00,0.02,0.00,-1,-1.0,Unknown
4860,18 wheeler: american pro trucker,PS2,2001,racing,0.20,0.15,0.00,0.05,61,5.7,E
4861,18 wheeler: american pro trucker,PS2,2001,racing,0.20,0.15,0.00,0.05,61,5.7,E
13098,4 elements,PC,2009,puzzle,0.00,0.04,0.00,0.01,-1,7.4,E
...,...,...,...,...,...,...,...,...,...,...,...
2909,yu-gi-oh! the falsebound kingdom,GC,2002,strategy,0.49,0.13,0.07,0.02,-1,-1.0,Unknown
6695,zoo resort 3d,3DS,2011,simulation,0.11,0.09,0.03,0.02,-1,-1.0,E
6696,zoo resort 3d,3DS,2011,simulation,0.11,0.09,0.03,0.02,-1,-1.0,E
8156,zumba fitness rush,X360,2012,sports,0.00,0.16,0.00,0.02,73,6.2,E10+


In [48]:
# Удалим дубликаты с помощью метода drop_duplicates()
new_games_no_dupl = new_games_sorted.drop_duplicates()

In [49]:
# Рассчитаем количество удаленных повторов с помощью методов duplicated().sum() 
display(new_games_sorted.duplicated(keep = 'last').sum())

np.int64(235)

В датасете было обнаружено **470 полных дубликатов строк**. Метод drop_duplicates() позволил избавиться от повторяющихся записей без потери информации - было удалено 235 повторов.

In [50]:
# Считаем общее количество строк после удаления дубликатов
row_count_no_dubl = new_games_no_dupl.shape[0]
display(f"Исходное количество строк: {row_count}")
display(f"Количество строк после обработки пропусков: {row_count_pr}")
display(f"Количество строк после удаления дубликатов: {row_count_no_dubl}")
display(f"Количество удаленных повторов: {row_count_pr - row_count_no_dubl}")
display(f"Удалено всего: {row_count-row_count_no_dubl} строк или {round((row_count-row_count_no_dubl) * 100 / row_count,1)} % от общего количества")

'Исходное количество строк: 16956'

'Количество строк после обработки пропусков: 16679'

'Количество строк после удаления дубликатов: 16444'

'Количество удаленных повторов: 235'

'Удалено всего: 512 строк или 3.0 % от общего количества'

В ходе проверки датасета были выполнены следующие шаги:  

1. Названия столбцов датафрейма приведены к формату `snake_case`.

2. Скорректированы типы данных.

3. Обработка пропусков:
     - удалены строки, имеющие пропуски в столцах `name`, `genre`, `year_of_release`
     - пропуски в столбцах `eu_sales` и `jp_sales` запонены средними значениями в зависимости от названия платформы и года выхода игры
     - пропуски в столбцах `user_score` и `critic_score` заменены на значение-индикатор
     - пропуски в столбце `rating` заменены на маркер 'Unknown'

5. Проверка дубликатов: в исходных данных было найдено 470 полных дубликатов строк, из которых 235 повторяющиеся записи были удалены.  

**Общий результат очистки данных**  
Датасет очищен от пропусков и полных дубликатов. Удаление составило лишь **3%** от общего объёма данных, что не окажет существенного влияния на репрезентативность выборки. Данные готовы для дальнейшей предобработки и фильтрации по целевому периоду анализа.

---
<a class = "anchor" id = "3-filtering" ><a/>
## 3. Фильтрация данных

Для проведения анализа необходимо выделить данные, отражающие историю продаж видеоигр, охватывающие период с 2000 по 2013 годы включительно. Отобранные записи сохраним в отдельном датафрейме - `df_actual`, для последующего исследования.

In [51]:
# Отбираем данные за период с 2000 по 2013 год включительно
df_actual = new_games_no_dupl[
    (new_games_no_dupl['year_of_release'] >= 2000) &
    (new_games_no_dupl['year_of_release'] <= 2013)
]

In [52]:
# Проверяем размерность нового датафрейма df_actual
display(f"Количество строк в срезе df_actual: {df_actual.shape[0]}")

'Количество строк в срезе df_actual: 12781'

In [53]:
# Определяем минимальный и максимальный годы в актуальном срезе данных
min_year = df_actual['year_of_release'].min()
max_year = df_actual['year_of_release'].max()

display(f"Минимальный год в актуальном срезе: {min_year}")
display(f"Максимальный год в актуальном срезе: {max_year}")

'Минимальный год в актуальном срезе: 2000'

'Максимальный год в актуальном срезе: 2013'

---
<a class = "anchor" id = "4-categorization" ><a/>
## 4. Категоризация данных
    
Проведём категоризацию данных:
- Разделим все игры по оценкам пользователей и выделим такие категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала). В случае отсутствия пользовательской оценки (индикатор -1.0), будет присвоена категория 'unknown'.

In [54]:
# Создаём полную копию датафрейма df_actual, чтобы избежать возможных изменений исходных данных при последующей обработке
df_actual = df_actual.copy()

In [55]:
# Создаём функцию categorize_user_score() для классификации игр по пользовательским оценкам
def categorize_user_score(row):
    if 8 <= row['user_score'] <= 10:
        return 'high'
    elif 3 <= row['user_score'] < 8:
        return 'medium'
    elif 0 <= row['user_score'] < 3:
        return 'low'
    else:
        return 'unknown'

In [56]:
# Применяем эту функцию построчно (axis=1) к датафрейму df_actual и сохраняем результат в новый столбец user_score_group
df_actual['user_score_group'] = df_actual.apply(categorize_user_score, axis = 1)

In [57]:
# Выводим первые строки датафрейма на экран
display(df_actual.head(10))

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,user_score_group
8460,.hack//g.u. vol.1//rebirth,PS2,2006,role-playing,0.0,0.0,0.17,0.0,-1,-1.0,Unknown,unknown
7182,.hack//g.u. vol.2//reminisce,PS2,2006,role-playing,0.11,0.09,0.0,0.03,-1,-1.0,Unknown,unknown
8719,.hack//g.u. vol.2//reminisce (jp sales),PS2,2006,role-playing,0.0,0.0,0.16,0.0,-1,-1.0,Unknown,unknown
8410,.hack//g.u. vol.3//redemption,PS2,2007,role-playing,0.0,0.0,0.17,0.0,-1,-1.0,Unknown,unknown
1575,.hack//infection part 1,PS2,2002,role-playing,0.49,0.38,0.26,0.13,75,8.5,T,high
9189,.hack//link,PSP,2010,role-playing,0.0,0.0,0.14,0.0,-1,-1.0,Unknown,unknown
3023,.hack//mutation part 2,PS2,2002,role-playing,0.23,0.18,0.2,0.06,76,8.9,T,high
4313,.hack//outbreak part 3,PS2,2002,role-playing,0.14,0.11,0.17,0.04,70,8.7,T,high
8098,.hack//quarantine part 4: the final chapter,PS2,2003,role-playing,0.09,0.07,0.0,0.02,-1,-1.0,Unknown,unknown
14525,.hack: sekai no mukou ni + versus,PS3,2012,action,0.0,0.0,0.03,0.0,-1,-1.0,Unknown,unknown


- Разделим все игры по оценкам критиков и выделим такие категории: высокая оценка (от 80 до 100 включительно), средняя оценка (от 30 до 80, не включая правую границу интервала) и низкая оценка (от 0 до 30, не включая правую границу интервала). В случае отсутствия оценки критиков (индикатор -1), будет присвоена категория 'unknown'.

In [58]:
# Создаём функцию categorize_critic_score() для классификации игр по оценкам критиков
def categorize_critic_score(row):
    if 80 <= row['critic_score'] <= 100:
        return 'high'
    elif 30 <= row['critic_score'] < 80:
        return 'medium'
    elif 0 <= row['critic_score'] < 30:
        return 'low'
    else:
        return 'unknown'

In [59]:
# Применяем эту функцию построчно (axis=1) к датафрейму df_actual и сохраняем результат в новый столбец critic_score_group
df_actual['critic_score_group'] = df_actual.apply(categorize_critic_score, axis = 1)

In [60]:
# Выводим первые строки датафрейма на экран
display(df_actual.head(10))

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,user_score_group,critic_score_group
8460,.hack//g.u. vol.1//rebirth,PS2,2006,role-playing,0.0,0.0,0.17,0.0,-1,-1.0,Unknown,unknown,unknown
7182,.hack//g.u. vol.2//reminisce,PS2,2006,role-playing,0.11,0.09,0.0,0.03,-1,-1.0,Unknown,unknown,unknown
8719,.hack//g.u. vol.2//reminisce (jp sales),PS2,2006,role-playing,0.0,0.0,0.16,0.0,-1,-1.0,Unknown,unknown,unknown
8410,.hack//g.u. vol.3//redemption,PS2,2007,role-playing,0.0,0.0,0.17,0.0,-1,-1.0,Unknown,unknown,unknown
1575,.hack//infection part 1,PS2,2002,role-playing,0.49,0.38,0.26,0.13,75,8.5,T,high,medium
9189,.hack//link,PSP,2010,role-playing,0.0,0.0,0.14,0.0,-1,-1.0,Unknown,unknown,unknown
3023,.hack//mutation part 2,PS2,2002,role-playing,0.23,0.18,0.2,0.06,76,8.9,T,high,medium
4313,.hack//outbreak part 3,PS2,2002,role-playing,0.14,0.11,0.17,0.04,70,8.7,T,high,medium
8098,.hack//quarantine part 4: the final chapter,PS2,2003,role-playing,0.09,0.07,0.0,0.02,-1,-1.0,Unknown,unknown,unknown
14525,.hack: sekai no mukou ni + versus,PS3,2012,action,0.0,0.0,0.03,0.0,-1,-1.0,Unknown,unknown,unknown


- После категоризации сгруппируем данные по выделенным категориям и посчитаем количество игр в каждой категории.

In [61]:
# Количество игр по оценкам пользователей
display('Распределение по оценкам пользователей:')
display(df_actual['user_score_group'].value_counts())

'Распределение по оценкам пользователей:'

user_score_group
unknown    6298
medium     4081
high       2286
low         116
Name: count, dtype: int64

In [62]:
# Количество игр по оценкам критиков
display('Распределение по оценкам критиков:')
display(df_actual['critic_score_group'].value_counts())

'Распределение по оценкам критиков:'

critic_score_group
unknown    5612
medium     5422
high       1692
low          55
Name: count, dtype: int64

- Выделим топ-7 платформ по количеству игр, выпущенных за весь актуальный период.

In [63]:
# Определяем топ-7 платформ по количеству выпущенных игр за период 2000–2013 гг.
top_platforms = (df_actual.groupby('platform').size().sort_values(ascending=False).head(7))

In [64]:
# Выведем топ-7 на экран
display('Топ-7 платформ по количеству игр (2000–2013):')
display(top_platforms)

'Топ-7 платформ по количеству игр (2000–2013):'

platform
PS2     2127
DS      2120
Wii     1275
PSP     1180
X360    1121
PS3     1087
GBA      811
dtype: int64

---
<a class = "anchor" id = "5-summary" ><a/>
## 5. Итоговый вывод

В ходе работы с датасетом игр `/datasets/new_games.csv` был выполнен следующий комплекс действий:
 - Загрузка данных и знакомство с ними: выявлены первые особенности в данных, на которые стоит обратить внимание.

 - Проверка ошибок в данных и их преобработка:
     - названия столбцов приведены к формату `snake_case`
     - скорректированы типы данных
     - удалены строки, имеющие пропуски в столцах `name`, `genre`, `year_of_release`
     - пропуски в столбцах `eu_sales` и `jp_sales` запонены средними значениями в зависимости от названия платформы и года выхода игры
     - пропуски в столбцах `user_score` и `critic_score` заменены на значение-индикатор
     - пропуски в столбце `rating` заменены на маркер 'Unknown'
     - произведен поиск явных и неявных дубликатов в данных, по результата которого было удалено 235 повторов

После внесённых изменений в данных отсутствуют критические ошибки и некорректные значения. Было удалено 512 строк, что составляет 3% от исходных данных.

 - Фильтрация данных: отобран срез данных df_actual по годам выпуска игр с 2000 по 2013 включительно, представляющий интерес для анализа (содержит 12 781 строк).

 - Обработка и категоризация оценок пользователей:
создана новая категориальная переменная `user_score_group` с 4 категориями:
высокая оценка (от 8 до 10 включительно),
средняя оценка (от 3 до 8, не включая 8),
низкая оценка (от 0 до 3, не включая 3),
категория unknown для отсутствующих значений.
Это позволяет удобнее анализировать восприятие игр игроками в группах по уровню популярности и качества.

 - Обработка и категоризация оценок критиков:
создана новая категориальная переменная `critic_score_group` с 4 категориями:
высокая оценка (от 80 до 100 включительно),
средняя оценка (от 30 до 80, не включая 80),
низкая оценка (от 0 до 30, не включая 30),
категория unknown для отсутствующих значений. 
Это помогает учитывать мнение профессиональных критиков.

 - Анализ категорий: выполнена проверка распределения игр по новым категориям оценок, что выявило основные группы по качеству восприятия игры и помогает фокусироваться на интересующих сегментах.

 - Выделение ключевых платформ: определён топ-7 платформ по количеству выпущенных игр за исследуемый период, что важно для последующего анализа рынка и предпочтений пользователей.

Таким образом, в результате проделанной работы получен отфильтрованный датафрейм df_actual, в котором добавлены новые категориальные признаки для удобства анализа по уровням пользовательских и критических оценок, а также выделены ключевые платформы. Это создаёт базу для дальнейших подробных исследований тенденций на рынке видеоигр начала XXI века.