# Подготовка датасета `new_games.csv` к проведению анализа

- Автор: Гончарова Кристина
- Дата: 21.05.2025

## Цели и задачи проекта
Команда игры "Секреты Темнолесья" хочет подготовить статью о развитии индустрии игр в начале XXI века. Для этого им необходимо сделать обзор игровых платформ, изучить объемы продаж игр разных жанров и региональные предпочтения игроков с 2000 по 2013 год.

В основные задачи настоящего проекта входит подготовить данные к дальнейшему анализу, а именно:
 - познакомиться с данными,
 - проверить их корректность,
 - провести предобработку, получив необходимый срез данных.
   
Перед началом проведения анализа также необходимо дополнительно сделать следующее:
 - отобрать данные по времени выхода игры (с 2000 по 2013 год включительно);
 - категоризовать игры по оценкам пользователей и экспертов, и выделить три категории:
   - *высокая оценка* — с оценкой от 8 до 10 и от 80 до 100, включая правые границы интервалов,
   - *средняя оценка* — с оценкой от 3 до 8 и от 30 до 80, не включая правые границы интервалов,
   - *низкая оценка* — с оценкой от 0 до 3 и от 0 до 30, не включая правые границы интервалов;
- выделить топ-7 платформ по количеству игр, выпущенных за весь требуемый период.


## Описание данных
Коллеги предоставили собранные из открытых источников исторические данные в датасете `new_games.csv`. В нем содержится информация о продажах игр, сделанных в разных жанрах и выпущенных на разных платформах, а также пользовательские и экспертные оценки игр. 

Столбцы датасета:

`Name` — название игры

`Platform` — название платформы

`Year of Release` — год выпуска игры

`Genre` — жанр игры

`NA sales` — продажи в Северной Америке (в миллионах проданных копий)

`EU sales` — продажи в Европе (в миллионах проданных копий)

`JP sales` — продажи в Японии (в миллионах проданных копий)

`Other sales` — продажи в других странах (в миллионах проданных копий)

`Critic Score` — оценка критиков (от 0 до 100)

`User Score` — оценка пользователей (от 0 до 10)

`Rating` — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию

## Содержание проекта

- [1. Загрузка данных и знакомство с ними](#1.-Загрузка-данных-и-знакомство-с-ними)

- [2. Проверка ошибок в данных и их предобработка](#2.-Проверка-ошибок-в-данных-и-их-предобработка)
    - [2.1. Названия столбцов датафрейма](#21-Названия-столбцов-датафрейма)
    - [2.2. Типы данных](#22-Типы-данных)
    - [2.3. Наличие пропусков в данных](#23-Наличие-пропусков-в-данных)
    - [2.4. Явные и неявные дубликаты](#24-Явные-и-неявные-дубликаты)

- [3. Фильтрация данных](#3.-Фильтрация-данных)

- [4. Категоризация данных](#4.-Категоризация-данных)

- [5. Итоговый вывод](#5.-Итоговый-вывод)

## 1. Загрузка данных и знакомство с ними

In [1]:
# Импортируем библиотеку pandas
import pandas as pd

In [2]:
# Выгрузим данные в датафрейм
games_df = pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv')

In [3]:
# Выведем первые 5 строк датафрейма
games_df.head()

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


In [4]:
# Выведем общую информацию о данных в датафрейме
games_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


Датасет `new_games.csv` содержит 16956 строк и 11 столбцов, в которых представлена информация об играх.

***Изучим типы данных и их корректность:***

В датасете присутствуют данные двух типов - вещественного **float64** и строкового **object**.

Столбцы `Name`, `Platform`, `Genre`, `Rating` содержат название игры, название платформы, жанр игры и нечисловой рейтинг организации ESRB соответственно и задаются подходящим строковым типом данных **object**.

Столбцы `EU sales`, `JP sales` содержат информацию о количестве продаж, но представлены строковым типом **object** и требуют преобразования в подходящий для этого тип данных **float64**.

Столбец `User Score` хранит информацию об оценках игр пользователей в строковом типе **object**, преобразуем его в **float64**, так как оценка может быть вещественным числом от 0 до 10.

Для столбца `Year of Release` с годом выпуска игры наиболее подходящим будет тип **int16**, а не **float64**, которым он представлен сейчас.

Столбец `Critic Score` с оценкой критиков также преобразуем к **int8**, так как **float64** не подходит для целых чисел от 0 до 100.

Остальные столбцы `NA sales` и `Other sales` с информацией о продажах заданы подходящих типом данных **float64**.


***Изучим названия столбцов датасета:***

В написании названий столбцов не прослеживается единого стиля. Приведем все названия столбцов к общепринятому стилю написания snake_case.

***Оценим датасет на наличие пропусков:***

6 из 11 столбцов содержат пропуски: `Name`, `Year of Release`, `Genre`, `Critic Score`, `User Score`, `Rating`.

***Посмотрим на уникальные значения некоторых столбцов для дальнейшего преобразования типов:***

In [5]:
games_df['EU sales'].unique()

array(['28.96', '3.58', '12.76', '10.93', '8.89', '2.26', '9.14', '9.18',
       '6.94', '0.63', '10.95', '7.47', '6.18', '8.03', '4.89', '8.49',
       '9.09', '0.4', '3.75', '9.2', '4.46', '2.71', '3.44', '5.14',
       '5.49', '3.9', '5.35', '3.17', '5.09', '4.24', '5.04', '5.86',
       '3.68', '4.19', '5.73', '3.59', '4.51', '2.55', '4.02', '4.37',
       '6.31', '3.45', '2.81', '2.85', '3.49', '0.01', '3.35', '2.04',
       '3.07', '3.87', '3.0', '4.82', '3.64', '2.15', '3.69', '2.65',
       '2.56', '3.11', '3.14', '1.94', '1.95', '2.47', '2.28', '3.42',
       '3.63', '2.36', '1.71', '1.85', '2.79', '1.24', '6.12', '1.53',
       '3.47', '2.24', '5.01', '2.01', '1.72', '2.07', '6.42', '3.86',
       '0.45', '3.48', '1.89', '5.75', '2.17', '1.37', '2.35', '1.18',
       '2.11', '1.88', '2.83', '2.99', '2.89', '3.27', '2.22', '2.14',
       '1.45', '1.75', '1.04', '1.77', '3.02', '2.75', '2.16', '1.9',
       '2.59', '2.2', '4.3', '0.93', '2.53', '2.52', '1.79', '1.3', '2.6',
   

In [6]:
games_df['JP sales'].unique()

array(['3.77', '6.81', '3.79', '3.28', '10.22', '4.22', '6.5', '2.93',
       '4.7', '0.28', '1.93', '4.13', '7.2', '3.6', '0.24', '2.53',
       '0.98', '0.41', '3.54', '4.16', '6.04', '4.18', '3.84', '0.06',
       '0.47', '5.38', '5.32', '5.65', '1.87', '0.13', '3.12', '0.36',
       '0.11', '4.35', '0.65', '0.07', '0.08', '0.49', '0.3', '2.66',
       '2.69', '0.48', '0.38', '5.33', '1.91', '3.96', '3.1', '1.1',
       '1.2', '0.14', '2.54', '2.14', '0.81', '2.12', '0.44', '3.15',
       '1.25', '0.04', '0.0', '2.47', '2.23', '1.69', '0.01', '3.0',
       '0.02', '4.39', '1.98', '0.1', '3.81', '0.05', '2.49', '1.58',
       '3.14', '2.73', '0.66', '0.22', '3.63', '1.45', '1.31', '2.43',
       '0.7', '0.35', '1.4', '0.6', '2.26', '1.42', '1.28', '1.39',
       '0.87', '0.17', '0.94', '0.19', '0.21', '1.6', '0.16', '1.03',
       '0.25', '2.06', '1.49', '1.29', '0.09', '2.87', '0.03', '0.78',
       '0.83', '2.33', '2.02', '1.36', '1.81', '1.97', '0.91', '0.99',
       '0.95', '2.0'

In [7]:
games_df['User Score'].unique()

array(['8', nan, '8.3', '8.5', '6.6', '8.4', '8.6', '7.7', '6.3', '7.4',
       '8.2', '9', '7.9', '8.1', '8.7', '7.1', '3.4', '5.3', '4.8', '3.2',
       '8.9', '6.4', '7.8', '7.5', '2.6', '7.2', '9.2', '7', '7.3', '4.3',
       '7.6', '5.7', '5', '9.1', '6.5', 'tbd', '8.8', '6.9', '9.4', '6.8',
       '6.1', '6.7', '5.4', '4', '4.9', '4.5', '9.3', '6.2', '4.2', '6',
       '3.7', '4.1', '5.8', '5.6', '5.5', '4.4', '4.6', '5.9', '3.9',
       '3.1', '2.9', '5.2', '3.3', '4.7', '5.1', '3.5', '2.5', '1.9', '3',
       '2.7', '2.2', '2', '9.5', '2.1', '3.6', '2.8', '1.8', '3.8', '0',
       '1.6', '9.6', '2.4', '1.7', '1.1', '0.3', '1.5', '0.7', '1.2',
       '2.3', '0.5', '1.3', '0.2', '0.6', '1.4', '0.9', '1', '9.7'],
      dtype=object)

Cтолбцы `EU sales`, `JP sales` содержат строковые значения 'unknown', а столбец `User Score` - 'tbd'. Это необходимо учесть при приведении типов.

## 2. Проверка ошибок в данных и их предобработка

### 2.1. Названия, или метки, столбцов датафрейма

Приведем названия столбцов датафрейма к единому общепринятому стилю.

In [8]:
# Выведем названия всех столбцов датафрейма и проверим их стиль написания
games_df.columns

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')

In [9]:
# Приведем названия всех столбцов к стилю snake case
games_df.columns = games_df.columns.str.lower().str.replace(' ', '_')

In [10]:
games_df.columns

Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')

### 2.2. Типы данных

Проведем преобразование типов данных.


In [11]:
# Столбец year_of_release имеет тип float64, вероятно, по причине наличия пропусков в нем. 
# Преобразуем его тип к int16, обрабатывая при этом пропуски путем присвоения значения-индикатора = -1.
games_df['year_of_release'] = games_df['year_of_release'].fillna(-1).astype('int16')

In [12]:
# Столбцы eu_sales, jp_sales изначально имеют строковый тип данных из-за наличия строковых значений 'unknown'.
# Приводим данные этих столбцов к типу float64, присваивая содержащимся в них строковым значениям 'unknown' пропуски:
games_df['eu_sales'] = pd.to_numeric(games_df['eu_sales'], errors='coerce')
games_df['jp_sales'] = pd.to_numeric(games_df['jp_sales'], errors='coerce')

In [13]:
# Столбец critic_score приводим к int8, задавая пропускам на данном этапе значение-индикатор = -1.
games_df['critic_score'] = games_df['critic_score'].fillna(-1).astype('int8')

In [14]:
# Столбец user_score приводим к float64, присваивая содержащимся в нем строковым значениям 'tbd' пропуски:
games_df['user_score'] = pd.to_numeric(games_df['user_score'], errors='coerce')

In [15]:
# Выведем общую информацию о датасете после проведения всех преобразований:
games_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16956 non-null  object 
 2   year_of_release  16956 non-null  int16  
 3   genre            16954 non-null  object 
 4   na_sales         16956 non-null  float64
 5   eu_sales         16950 non-null  float64
 6   jp_sales         16952 non-null  float64
 7   other_sales      16956 non-null  float64
 8   critic_score     16956 non-null  int8   
 9   user_score       7688 non-null   float64
 10  rating           10085 non-null  object 
dtypes: float64(5), int16(1), int8(1), object(4)
memory usage: 1.2+ MB


Теперь наши данные имеют подходящие для проведения анализа типы.

Но необходимо помнить о пропусках и присвоенных им значениях-индикаторах (-1 в столбцах year_of_release и critic_score).

### 2.3. Наличие пропусков в данных

In [16]:
# Посчитаем количество пропусков в столбцах name, platform, genre, na_sales, eu_sales, jp_sales, other_sales, user_score, rating 
# в абсолютных значениях и относительных
print('Абсолютное число пропусков:\n', games_df[['name', 'platform', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'user_score', 'rating']].isna().sum(), sep='')

print('\nОтносительное число пропусков:\n', games_df[['name', 'platform', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'user_score', 'rating']].isna().sum() / len(games_df) * 100, sep='')

Абсолютное число пропусков:
name              2
platform          0
genre             2
na_sales          0
eu_sales          6
jp_sales          4
other_sales       0
user_score     9268
rating         6871
dtype: int64

Относительное число пропусков:
name            0.011795
platform        0.000000
genre           0.011795
na_sales        0.000000
eu_sales        0.035386
jp_sales        0.023590
other_sales     0.000000
user_score     54.659118
rating         40.522529
dtype: float64


In [17]:
# В столбцах year_of_release, critic_score пропуски заменены на -1, посчитаем, сколько строк содержат -1:
print('Абсолютное число пропусков:')
print(f"year_of_release    {len(games_df[games_df['year_of_release'] < 0])}")
print(f"critic_score       {len(games_df[games_df['critic_score'] < 0])}")
print('\nОтносительное число пропусков:')
print(f"year_of_release    {len(games_df[games_df['year_of_release'] < 0]) / len(games_df) * 100}")
print(f"critic_score       {len(games_df[games_df['critic_score'] < 0]) / len(games_df) * 100}")

Абсолютное число пропусков:
year_of_release    275
critic_score       8714

Относительное число пропусков:
year_of_release    1.6218447747110165
critic_score       51.39183769757019


Пропуски содержатся в столбцах `name`, `genre`, `eu_sales`, `jp_sales`, `user_score`, `rating`, `year_of_release`, `critic_score`. 

Процент пропусков в столбцах `name`, `genre`, `eu_sales`, `jp_sales` невелик, и составляет менее 1% данных, пропуски в этих столбцах можно удалить. 

Процент пропущенных значений в столбцах `user_score`, `rating`, `year_of_release`, `critic_score` очень значительный,  более 50, и просто удалить эти данные из датасета без искажения результатов исследования нельзя.

Выявить закономерности распределения пропусков в данных от присутсвующих столбцов не удается. Можно только заметить, что в большинстве случаев (6772 строки), если отсутствует какая-либо оценка, то они отсутствуют все - `user_score`, `rating`, `critic_score`. Возможно, данные собирались из источника, где информации об оценках могло не быть. 

Заменим в таком случае пропуски расчетными усредненными значениями:

- для года выпуска для замены пропусков примем наиболее богатый на выпуски игр год,

- для оценок - медиану в зависимости от жанра игры,

- для рейтинга - моду в зависимости от жанра игры.

In [18]:
# Удалим строки с пропусками в столбцах name, genre, eu_sales, jp_sales:
games_df = games_df.dropna(subset=['name', 'genre', 'eu_sales', 'jp_sales']) 

In [19]:
# Заменим пропуски в столбце year_of_release модой, учитывая, что -1 обозначает пропуск для данного столбца:
games_df['year_of_release'] = games_df['year_of_release'].replace(-1, int(games_df['year_of_release'].mode()[0]))

In [20]:
# Для заполнения пропусков в столбцах user_score, critic_score будем использовать группировку данных по жанру,
# поэтому необходимо сначала нормализовать названия жанров и тем самым избавиться от дубликатов, если таковые имеются:
print('Названия жанров до нормализации - присутствуют повторяющиеся в различных стилях написания:')
games_df['genre'].unique()

Названия жанров до нормализации - присутствуют повторяющиеся в различных стилях написания:


array(['Sports', 'Platform', 'Racing', 'Role-Playing', 'Puzzle', 'Misc',
       'Shooter', 'Simulation', 'Action', 'Fighting', 'Adventure',
       'Strategy', 'MISC', 'ROLE-PLAYING', 'RACING', 'ACTION', 'SHOOTER',
       'FIGHTING', 'SPORTS', 'PLATFORM', 'ADVENTURE', 'SIMULATION',
       'PUZZLE', 'STRATEGY'], dtype=object)

In [21]:
# Приводим названия жанров к нижнему регистру:
games_df['genre'] = games_df['genre'].str.lower()
games_df['genre'].unique()

array(['sports', 'platform', 'racing', 'role-playing', 'puzzle', 'misc',
       'shooter', 'simulation', 'action', 'fighting', 'adventure',
       'strategy'], dtype=object)

In [22]:
# Заменим пропуски в столбцах user_score медианной оценкой по жанру:
games_df['user_score'] = games_df['user_score'].fillna(games_df.groupby('genre')['user_score'].transform('median'))

In [23]:
# Заменим пропуски в столбцах critic_score медианной оценкой по жанру (пропуск здесь = -1):
temp = games_df[games_df['critic_score'] > 0]
def med_group_critic_score(row):  
    if row['critic_score'] == -1:
        group = temp[(temp['genre'] == row['genre'])]
        return int(group['critic_score'].median())
    else:
        return row['critic_score']
        
games_df['critic_score'] = games_df.apply(med_group_critic_score, axis=1)

In [24]:
# Заменим пропуски в столбце rating модой в зависимости от жанра игры:
games_df['rating'] = games_df['rating'].fillna(games_df.groupby('genre')['rating'].transform(lambda x: x.mode()[0]))

In [25]:
# Проверим, что пропусков в датасете не осталось:
games_df.isna().sum()

name               0
platform           0
year_of_release    0
genre              0
na_sales           0
eu_sales           0
jp_sales           0
other_sales        0
critic_score       0
user_score         0
rating             0
dtype: int64

### 2.4. Явные и неявные дубликаты в данных

In [26]:
# Изучим уникальные значения в столбцах с категориальными данными на предмет неявных дубликатов:
games_df['platform'].unique()

array(['Wii', 'NES', 'GB', 'DS', 'X360', 'PS3', 'PS2', 'SNES', 'GBA',
       'PS4', '3DS', 'N64', 'PS', 'XB', 'PC', '2600', 'PSP', 'XOne',
       'WiiU', 'GC', 'GEN', 'DC', 'PSV', 'SAT', 'SCD', 'WS', 'NG', 'TG16',
       '3DO', 'GG', 'PCFX'], dtype=object)

In [27]:
games_df['genre'].unique()

array(['sports', 'platform', 'racing', 'role-playing', 'puzzle', 'misc',
       'shooter', 'simulation', 'action', 'fighting', 'adventure',
       'strategy'], dtype=object)

In [28]:
games_df['rating'].unique()

array(['E', 'T', 'M', 'E10+', 'K-A', 'AO', 'EC', 'RP'], dtype=object)

Названия платформ, жанров, рейтинга имеют одинаковый стиль написания, нет необходимости в обработке.

Проверим датасет на наличие явных дубликатов.

In [29]:
games_df.duplicated().sum() 

241

Нашелся 241 явный дубликат. Удалим их.

In [30]:
games_df = games_df.drop_duplicates() 

In [31]:
games_df

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,Wii Sports,Wii,2006,sports,41.36,28.96,3.77,8.45,76,8.0,E
1,Super Mario Bros.,NES,1985,platform,29.08,3.58,6.81,0.77,69,7.7,E
2,Mario Kart Wii,Wii,2008,racing,15.68,12.76,3.79,3.29,82,8.3,E
3,Wii Sports Resort,Wii,2009,sports,15.61,10.93,3.28,2.95,80,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996,role-playing,11.27,8.89,10.22,1.00,74,7.8,T
...,...,...,...,...,...,...,...,...,...,...,...
16951,Samurai Warriors: Sanada Maru,PS3,2016,action,0.00,0.00,0.01,0.00,68,7.3,T
16952,LMA Manager 2007,X360,2006,sports,0.00,0.01,0.00,0.00,75,7.4,E
16953,Haitaka no Psychedelica,PSV,2016,adventure,0.00,0.00,0.01,0.00,66,7.6,E
16954,Spirits & Spells,GBA,2003,platform,0.01,0.00,0.00,0.00,69,7.7,E


Теперь проверим датасет на неявные дубликаты, которые могли появиться в случаях, когда данные собирались из разных источников или в системе были какие-то сбои при логировании.

In [32]:
games_df[games_df.duplicated(subset=['name', 'platform', 'year_of_release', 'genre'], keep=False)]

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
606,Madden NFL 13,PS3,2012,sports,2.11,0.22,0.0,0.23,83,5.5,E
16465,Madden NFL 13,PS3,2012,sports,0.0,0.01,0.0,0.0,83,5.5,E


Найдены две строки для игры 'Madden NFL 13' 2012 года для PS3 в жанре sports с сильно разными данными по продажам. Причин появления данных строк может быть много. Например, данные собирались из разных источников или в системе были какие-то сбои при логировании. Так как мы не знаем, причину дублирования строк и данные сильно разнятся, исключим из анализа обе строки.

In [33]:
games_df = games_df.drop_duplicates(subset=['name', 'platform', 'year_of_release', 'genre'], keep=False) 

In [34]:
games_df.shape

(16701, 11)

После всех выполненных преобразований в датасете осталось 16701 строка. Изначально датасет содержал 16956 строк. Таким образом, было удалено 255 строк с данными (~1.5%).

--------------

Предобработка данных датасета `games_df` завершена. 

В ходе подготовки данных датасета к анализу: 
- преобразованы типы данных к оптимальным;
- обработаны все пропущенные значения, лишь незначительное число пропусков (~2%) было удалено, остальные отсутствующие значения восстановлены из данных датасета по усредненным значениям;
- удалены явные и неявные дубликаты.

---

## 3. Фильтрация данных

Коллеги хотят изучить историю продаж игр в начале XXI века, и их интересует период с 2000 по 2013 год включительно. Отберем данные по этому показателю. Сохраним новый срез данных в отдельном датафрейме `games_df_actual`.

In [35]:
games_df_actual = games_df[(games_df['year_of_release'] >= 2000) & (games_df['year_of_release'] <= 2013)]

In [36]:
games_df_actual = games_df_actual.copy()

In [37]:
games_df_actual

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,Wii Sports,Wii,2006,sports,41.36,28.96,3.77,8.45,76,8.0,E
2,Mario Kart Wii,Wii,2008,racing,15.68,12.76,3.79,3.29,82,8.3,E
3,Wii Sports Resort,Wii,2009,sports,15.61,10.93,3.28,2.95,80,8.0,E
6,New Super Mario Bros.,DS,2006,platform,11.28,9.14,6.50,2.88,89,8.5,E
7,Wii Play,Wii,2006,misc,13.96,9.18,2.93,2.84,58,6.6,E
...,...,...,...,...,...,...,...,...,...,...,...
16947,Men in Black II: Alien Escape,GC,2003,shooter,0.01,0.00,0.00,0.00,73,7.4,T
16949,Woody Woodpecker in Crazy Castle 5,GBA,2002,platform,0.01,0.00,0.00,0.00,69,7.7,E
16950,SCORE International Baja 1000: The Official Game,PS2,2008,racing,0.00,0.00,0.00,0.00,69,7.4,E
16952,LMA Manager 2007,X360,2006,sports,0.00,0.01,0.00,0.00,75,7.4,E


---

## 4. Категоризация данных
    
Проведем категоризацию данных:
- Разделим все игры по оценкам пользователей и выделим такие категории: **высокая оценка** (от 8 до 10 включительно), **средняя оценка** (от 3 до 8, не включая правую границу интервала) и **низкая оценка** (от 0 до 3, не включая правую границу интервала).

In [38]:
games_df_actual['user_score_cat'] = pd.cut(games_df_actual['user_score'], bins=[0, 3, 8, 10], labels=['низкая оценка', 'средняя оценка', 'высокая оценка'], right=False)

In [39]:
games_df_actual

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,user_score_cat
0,Wii Sports,Wii,2006,sports,41.36,28.96,3.77,8.45,76,8.0,E,высокая оценка
2,Mario Kart Wii,Wii,2008,racing,15.68,12.76,3.79,3.29,82,8.3,E,высокая оценка
3,Wii Sports Resort,Wii,2009,sports,15.61,10.93,3.28,2.95,80,8.0,E,высокая оценка
6,New Super Mario Bros.,DS,2006,platform,11.28,9.14,6.50,2.88,89,8.5,E,высокая оценка
7,Wii Play,Wii,2006,misc,13.96,9.18,2.93,2.84,58,6.6,E,средняя оценка
...,...,...,...,...,...,...,...,...,...,...,...,...
16947,Men in Black II: Alien Escape,GC,2003,shooter,0.01,0.00,0.00,0.00,73,7.4,T,средняя оценка
16949,Woody Woodpecker in Crazy Castle 5,GBA,2002,platform,0.01,0.00,0.00,0.00,69,7.7,E,средняя оценка
16950,SCORE International Baja 1000: The Official Game,PS2,2008,racing,0.00,0.00,0.00,0.00,69,7.4,E,средняя оценка
16952,LMA Manager 2007,X360,2006,sports,0.00,0.01,0.00,0.00,75,7.4,E,средняя оценка


- Разделим все игры по оценкам критиков и выделим такие категории: **высокая оценка** (от 80 до 100 включительно), **средняя оценка** (от 30 до 80, не включая правую границу интервала) и **низкая оценка** (от 0 до 30, не включая правую границу интервала).

In [40]:
games_df_actual['critic_score_cat'] = pd.cut(games_df_actual['critic_score'], bins=[0, 30, 80, 100], labels=['низкая оценка', 'средняя оценка', 'высокая оценка'], right=False)

In [41]:
games_df_actual

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,user_score_cat,critic_score_cat
0,Wii Sports,Wii,2006,sports,41.36,28.96,3.77,8.45,76,8.0,E,высокая оценка,средняя оценка
2,Mario Kart Wii,Wii,2008,racing,15.68,12.76,3.79,3.29,82,8.3,E,высокая оценка,высокая оценка
3,Wii Sports Resort,Wii,2009,sports,15.61,10.93,3.28,2.95,80,8.0,E,высокая оценка,высокая оценка
6,New Super Mario Bros.,DS,2006,platform,11.28,9.14,6.50,2.88,89,8.5,E,высокая оценка,высокая оценка
7,Wii Play,Wii,2006,misc,13.96,9.18,2.93,2.84,58,6.6,E,средняя оценка,средняя оценка
...,...,...,...,...,...,...,...,...,...,...,...,...,...
16947,Men in Black II: Alien Escape,GC,2003,shooter,0.01,0.00,0.00,0.00,73,7.4,T,средняя оценка,средняя оценка
16949,Woody Woodpecker in Crazy Castle 5,GBA,2002,platform,0.01,0.00,0.00,0.00,69,7.7,E,средняя оценка,средняя оценка
16950,SCORE International Baja 1000: The Official Game,PS2,2008,racing,0.00,0.00,0.00,0.00,69,7.4,E,средняя оценка,средняя оценка
16952,LMA Manager 2007,X360,2006,sports,0.00,0.01,0.00,0.00,75,7.4,E,средняя оценка,средняя оценка


In [42]:
# После категоризации данных проверим результат: сгруппируем данные по выделенным категориям и посчитаем количество игр в каждой категории

In [43]:
games_df_actual.groupby('user_score_cat', observed=False)['name'].count()

user_score_cat
низкая оценка       119
средняя оценка    10594
высокая оценка     2326
Name: name, dtype: int64

In [44]:
games_df_actual.groupby('critic_score_cat', observed=False)['name'].count()

critic_score_cat
низкая оценка        58
средняя оценка    11264
высокая оценка     1717
Name: name, dtype: int64

In [45]:
# В сумме должно быть 13039
(games_df_actual.groupby('user_score_cat', observed=False)['name'].count().sum(), games_df_actual.groupby('critic_score_cat', observed=False)['name'].count().sum())

(13039, 13039)

- Выделим топ-7 платформ по количеству игр, выпущенных за весь актуальный период.

In [46]:
games_df_actual.groupby('platform')['name'].count().sort_values(ascending=False).head(7)

platform
PS2     2160
DS      2147
Wii     1309
PSP     1195
X360    1148
PS3     1110
XB       824
Name: name, dtype: int64

Игры на приставках PlayStation2 и Nintendo DS были самыми популярными в этот период.

---

## 5. Итоговый вывод

В ходе проекта была проведена подготовка датасета `new_games.csv` для дальнейшего анализа индустрии игр в период с 2000 по 2013 год. 

Были выполнены следующие этапы:

- Загрузка и знакомство с данными:

  Изучены структура и типы данных, выявлены проблемы с некорректными форматами и пропусками.

- Предобработка данных:

  Исправлены названия столбцов (приведены к snake_case).

- Преобразованы типы данных:

  `eu_sales`, `jp_sales` — из строкового в вещественный тип (float64).

  `user_score` — из строкового в вещественный тип (float64).

  `year_of_release` — из вещественного в целочисленный (int16).

  `critic_score` — приведен к int8.

- Обработаны пропуски:

  Удалены пропуски в столбцах `name`, `genre`, `eu_sales`, `jp_sales` (незначительное количество).

  Пропуски в `user_score`, `critic_score`, `rating` заполнены медианой/модой по жанру.

  Удалены явные (241 строка) и неявные дубликаты (2 строки).

- Фильтрация данных:

  Отобраны игры, выпущенные с 2000 по 2013 год включительно (13039 строк).

- Категоризация данных:

  Добавлены новые столбцы:

  `user_score_cat` — категория оценки пользователей (низкая, средняя, высокая).

  `critic_score_cat` — категория оценки критиков (низкая, средняя, высокая).

  Выделены топ-7 платформ по количеству выпущенных игр:

  PS2, DS, Wii, PSP, X360, PS3, XB.

  Итоговый срез данных `games_df_actual` включает:

  13039 игр за 2000–2013 гг.

  11 исходных столбцов + 2 новых (`user_score_cat`, `critic_score_cat`).


Датасет успешно подготовлен для дальнейшего исследования. Обработаны аномалии, устранены пропуски, добавлены категории оценок и выделены ключевые платформы. Это позволит команде "Секреты Темнолесья" провести детальный анализ игрового рынка и выявить значимые закономерности.
