# Предобработка данных. 

- Автор: Чезганов Алексей
- Дата: 20.01.26

### Цели и задачи проекта

**Основная цель проекта:** Исследование игровой индустрии (2000-2013) годы.

**Задачи:**
- Анализ игровых платформ — изучение распространения основных консолей и систем
- Исследование жанров — сравнение объёмов продаж по различным категориям игр
- Региональный анализ — выявление предпочтений игроков в разных странах
- Особый акцент на RPG — детальное изучение компьютерных ролевых игр

### Описание данных

Источник данных
Файл: `/datasets/new_games.csv`

### Структура датасета

| Поле | Описание |
|------|----------|
|`Name`|Название игры|
| `Platform` | Платформа выпуска |
| `Year of Release` | Год выпуска |
| `Genre` | Жанр игры |
| `NA sales` | Продажи в Северной Америке (млн копий) |
| `EU sales` | Продажи в Европе (млн копий) |
| `JP sales` | Продажи в Японии (млн копий) |
| `Other sales` | Продажи в остальных странах (млн копий) |
| `Critic Score` | Оценка критиков (0-100) |
| `User Score` | Оценка пользователей (0-10) |
| `Rating` | Рейтинг ESRB |

### Содержимое проекта

Предобработка данных
1. Цели и задачи проекта
2. Структура датасета
3. Содержимое проекта
4. Загрузка данных и знакомство с ними
5. Проверка ошибок в данных и их преобработка
   - Название или метки столбцов датафрейма
   - Типы данных
   - Наличие пропусков в данных
   - Явные и неявные дубликаты в данных
6. Фильтрация данных
7. Категоризация данных
8. Итоговый вовод

---

## 1. Загрузка данных и знакомство с ними

- Загружаем необходимые библиотеки и сам датасет.


In [1013]:
import pandas as pd

In [1014]:
# Загрузка датасета
df = pd.read_csv('datasets/new_games.csv')

### Знакомство с данными

- Выведем начало и конец датасета:

In [1015]:
display(df.head(), df.tail())

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
16951,Samurai Warriors: Sanada Maru,PS3,2016.0,Action,0.0,0.0,0.01,0.0,,,
16952,LMA Manager 2007,X360,2006.0,Sports,0.0,0.01,0.0,0.0,,,
16953,Haitaka no Psychedelica,PSV,2016.0,Adventure,0.0,0.0,0.01,0.0,,,
16954,Spirits & Spells,GBA,2003.0,Platform,0.01,0.0,0.0,0.0,,,
16955,Winning Post 8 2016,PSV,2016.0,Simulation,0.0,0.0,0.01,0.0,,,


- Выедем общую информацию о датасете:

In [1016]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


Промежуточный вывод:

_Название столбцов соответствует описанию. По данным видно, что датасет содержит `16956` записей, что составляет 1.4+ MB памяти. Большинство полей содержат пропуски. Наибольшее количество пропусков сосредоточено в полях, связанных с оценками игры. У некоторых полей неверно выбран тип данных._


---

## 2.  Проверка ошибок в данных и их предобработка


### 2.1. Названия, или метки, столбцов датафрейма

- Выведем на экран названия всех столбцов датафрейма и проверим их стиль написания.
- Приведем все столбцы к стилю snake case.

In [1017]:
#Выводим список с названиями столбцов
df.columns

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')

In [1018]:
#Приводим написание столбцов к стилю snake_case
df.columns = df.columns.str.replace(' ', '_').str.lower()
df.columns

Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')

### 2.2. Типы данных

- Предположим причины некорректных типов данных.
- При необходимости проведем преобразование типов данных. Сначала обработаем пропуски, а затем преобразуем типы данных.

У некоторых полей неверно выбран тип данных:

- `year_of_release` (float64 --> int16). Так как вещественная часть равна 0 у всех ячеек, можно без потери данных выполнить преобразование к целочисленному типу. Такой тип был присвоен из-за наличия пропусков в данных.
- `eu_sales`, `jp_sales`, `user_score` (object --> float32). Такой тип был присвоен из-за наличия данных типа `str`
- `na_sales`, `other_sales` (float64 --> float32). float64 присваивается по умолчанию при выгрузке, если явно не указан другой.
- `critic_score` (float64 --> int8). Такой тип был присвоен из-за наличия пропусков в данных.

In [1019]:
cols = ['year_of_release', 'na_sales', 'eu_sales', 'jp_sales', 'other_sales', 'critic_score', 'user_score']

# Вспомогательная небольшая функция, которая выявляет уникальные строки
def unique_str(col):
    return sorted(col.astype(str).unique(), reverse=True)

df[cols].apply(unique_str)

year_of_release    [nan, 2016.0, 2015.0, 2014.0, 2013.0, 2012.0, ...
na_sales           [9.71, 9.7, 9.66, 9.54, 9.43, 9.05, 9.04, 9.01...
eu_sales           [unknown, 9.2, 9.18, 9.14, 9.09, 8.89, 8.49, 8...
jp_sales           [unknown, 7.2, 6.81, 6.5, 6.04, 5.65, 5.38, 5....
other_sales        [8.45, 7.53, 3.96, 3.29, 2.95, 2.93, 2.88, 2.8...
critic_score       [nan, 98.0, 97.0, 96.0, 95.0, 94.0, 93.0, 92.0...
user_score         [tbd, nan, 9.7, 9.6, 9.5, 9.4, 9.3, 9.2, 9.1, ...
dtype: object

Вывод: На первых позициях явно видны некорректные данные. unknown и tbd по смыслу сравнимы с пропусками, поэтому мы можем выполнить следующий код:

In [1020]:
# Переводим строковые некорректные типы к вещественным
df[cols] = df[cols].apply(pd.to_numeric, errors='coerce', downcast='float')

# Выводим получившийся результат
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16956 non-null  object 
 2   year_of_release  16681 non-null  float32
 3   genre            16954 non-null  object 
 4   na_sales         16956 non-null  float32
 5   eu_sales         16950 non-null  float32
 6   jp_sales         16952 non-null  float32
 7   other_sales      16956 non-null  float32
 8   critic_score     8242 non-null   float32
 9   user_score       7688 non-null   float32
 10  rating           10085 non-null  object 
dtypes: float32(7), object(4)
memory usage: 993.6+ KB


Мы избавились от строковых значений, однако проводить дальнейшую компрессию из `float32` в `integer` станет возможно после заполнения пропусков. Также были обработаны аномальные строковые значения, мешавшие переходу.

### 2.3. Наличие пропусков в данных

- Посчитаем количество пропусков в каждом столбце в абсолютных и относительных значениях.


In [1021]:
# Абсолютные значения пропусков
counts_of_na = df.isna().sum()
counts_of_na

name                  2
platform              0
year_of_release     275
genre                 2
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8714
user_score         9268
rating             6871
dtype: int64

In [1022]:
# Относительные значение пропусков
round(counts_of_na / df.shape[0] * 100, 2)

name                0.01
platform            0.00
year_of_release     1.62
genre               0.01
na_sales            0.00
eu_sales            0.04
jp_sales            0.02
other_sales         0.00
critic_score       51.39
user_score         54.66
rating             40.52
dtype: float64

In [1023]:
#Проверим строки с пропусками в жанрах
df[df['genre'].isna()]

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
661,,GEN,1993.0,,1.78,0.53,0.0,0.08,,,
14439,,GEN,1993.0,,0.0,0.0,0.03,0.0,,,


Промежуточный вывод: Видим, что `8` из `11` полей содержат пропуски.

| Поле            | Кол-во пропусков | % пропусков |
|-----------------|------------------|-------------|
| name            | 2                | 0.01        |
| year_of_release | 275              | 1.62        |
| genre           | 2                | 0.01        |
| eu_sales        | 6                | 0.04        |
| jp_sales        | 4                | 0.02        |
| critic_score    | 8714             | 51.39       |
| user_score      | 9268             | 54.66       |
| rating          | 6871             | 40.52       |

Нам немного повезло, пропуски в `name` и `genre` содержатся в одной строке. Скорее всего пропуски появились по ошибке. От этих строк можно избавиться.
От данных не содержащих информацию о дате релиза, продажах в европе и японии также можно избавиться, т.к. суммарная доля пропусков составляет <5%.
Что касается `critic_score`, `user_score` и `rating` - требуются дополнительные исследования для заполнения.

Пропуски можно заполнить средним по `genre` и `year_of_release` - это что касается оценок.
Пропуски в `rating` предлагаю заполнять **RP (Rating Pending)** его используют для игры, которым возрастной рейтинг еще не присвоен.

Такое количество пропусков скорее всего является не "исключением", а "атрибутом" датасета.

In [1024]:
# Поля по которым будет производиться удаление строк с пропусками
cols = ['name', 'year_of_release']

# Фиксируем значение размерности датасета
default_df_len = df.shape[0]

# Удаляем строки с пропусками
df = df.dropna(subset=cols).reset_index(drop=True)

# Фиксируем значение размерности датасета после удаления, количество удаленных строк
na_dropped_df_len = df.shape[0]

# Выводим количество оставшихся пропусков
df.isna().sum()

name                  0
platform              0
year_of_release       0
genre                 0
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8594
user_score         9121
rating             6778
dtype: int64

- Заполняем пропуски значениями

In [1025]:
# Поля по которым будет выполняться заполнение
sales_cols = ['eu_sales', 'jp_sales']
group_cols = ['platform', 'year_of_release']
feedback_cols = ['user_score', 'critic_score']

# Заполнение пропусков средним по группе
df[sales_cols] = df[sales_cols].fillna(
    df.groupby(group_cols)[sales_cols].transform('mean')
)

# Заполняем feedback_cols "затычками", так как это не случайные данные
df[feedback_cols] = df[feedback_cols].fillna(-1)

# Заполнение пропусков в рейтингах
df['rating'] = df['rating'].fillna('RP')

# Выводим результат
df.isna().sum()

name               0
platform           0
year_of_release    0
genre              0
na_sales           0
eu_sales           0
jp_sales           0
other_sales        0
critic_score       0
user_score         0
rating             0
dtype: int64

In [1026]:
# Доделываем приведение типов
df['year_of_release'] = df['year_of_release'].astype('int16')
df['critic_score'] = df['critic_score'].astype('int8')

In [1027]:
# Нормализуем user_score относительно critic_score (Оптимизационное решение)
df['user_score'] = df['user_score'] * 10
df['user_score'] = df['user_score'].astype('int8')

# Выводим промежуточный резульат
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16679 entries, 0 to 16678
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16679 non-null  object 
 1   platform         16679 non-null  object 
 2   year_of_release  16679 non-null  int16  
 3   genre            16679 non-null  object 
 4   na_sales         16679 non-null  float32
 5   eu_sales         16679 non-null  float32
 6   jp_sales         16679 non-null  float32
 7   other_sales      16679 non-null  float32
 8   critic_score     16679 non-null  int8   
 9   user_score       16679 non-null  int8   
 10  rating           16679 non-null  object 
dtypes: float32(4), int16(1), int8(2), object(4)
memory usage: 847.1+ KB


In [1028]:
# Проверяем диапазоны значений продаж
cols = ['eu_sales', 'jp_sales', 'na_sales', 'other_sales']
df[cols].agg(['min', 'max'])

Unnamed: 0,eu_sales,jp_sales,na_sales,other_sales
min,0.0,0.0,0.0,0.0
max,28.959999,10.22,41.360001,10.57


Мы видим, что значения продаж варьируются в диапазоне от 0 до 42 млн копий. Это значит, что мы можем домножить на значения на `p=100` и объявить, что продажи измеряются в десятках тысяч. Для повышения точности (при необходимости) достаточно увеличить значение `phi` ( диапазон округления при вызове функции `round()`.

In [1029]:
# Изменяем значение продаж
phi = 2
p = 10 ** phi

df[cols] = round(df[cols], phi) * p
df[cols] = df[cols].astype('int16') # float16 будет хуже из-за отсутствия нативной поддержки в CPU

# Выводим финальный резульат
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16679 entries, 0 to 16678
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   name             16679 non-null  object
 1   platform         16679 non-null  object
 2   year_of_release  16679 non-null  int16 
 3   genre            16679 non-null  object
 4   na_sales         16679 non-null  int16 
 5   eu_sales         16679 non-null  int16 
 6   jp_sales         16679 non-null  int16 
 7   other_sales      16679 non-null  int16 
 8   critic_score     16679 non-null  int8  
 9   user_score       16679 non-null  int8  
 10  rating           16679 non-null  object
dtypes: int16(5), int8(2), object(4)
memory usage: 716.8+ KB


Промежуточный вывод:

_Некоторые вещи мы описали в предыдущем выводе. На этом этапе мы уже выполнили приведение типов, при этом нам удалось сжать датасет с 1.4 mb до 716.8 kb, что составляет 40-50% без потери объема данных._

### 2.4. Явные и неявные дубликаты в данных

- Изучим уникальные значения в категориальных данных.
- Проверим, встречаются ли среди данных неявные дубликаты, связанные с опечатками или разным способом написания.
- При необходимости проведем нормализацию данных с текстовыми значениями. Названия или жанры игр приведем к нижнему регистру, а названия рейтинга — к верхнему.

C 2005 года рейтинг K-A (kids to adults) заменили на E10+, в датасете есть данные содержащие рейтинг K-A, от него требуется избавиться, заменив на Е10+

In [1030]:
# Ликвидируем ошибку
display(df['rating'].value_counts()['K-A'])
df['rating'] = df['rating'].str.replace('K-A', 'E10+')

# Выводим результат
display(df['rating'].value_counts())

np.int64(3)

rating
RP      6779
E       3968
T       2948
M       1558
E10+    1417
EC         8
AO         1
Name: count, dtype: int64

In [1031]:
# Перед нормализацией проверим уникальные значения в столбцах:
for col in ['genre', 'platform', 'rating']:
    display(df[col].unique())

array(['Sports', 'Platform', 'Racing', 'Role-Playing', 'Puzzle', 'Misc',
       'Shooter', 'Simulation', 'Action', 'Fighting', 'Adventure',
       'Strategy', 'MISC', 'ROLE-PLAYING', 'RACING', 'ACTION', 'SHOOTER',
       'FIGHTING', 'SPORTS', 'PLATFORM', 'ADVENTURE', 'SIMULATION',
       'PUZZLE', 'STRATEGY'], dtype=object)

array(['Wii', 'NES', 'GB', 'DS', 'X360', 'PS3', 'PS2', 'SNES', 'GBA',
       'PS4', '3DS', 'N64', 'PS', 'XB', 'PC', '2600', 'PSP', 'XOne',
       'WiiU', 'GC', 'GEN', 'DC', 'PSV', 'SAT', 'SCD', 'WS', 'NG', 'TG16',
       '3DO', 'GG', 'PCFX'], dtype=object)

array(['E', 'RP', 'M', 'T', 'E10+', 'AO', 'EC'], dtype=object)

In [1032]:
# Небольшая функция нормализации
def normalize_col(col, to_lower=True):
    return (
        (col.str.lower() if to_lower else col.str.upper())
        .str.replace("'", "")
        .str.replace("//", " ")
        .str.replace(".", " ")
        .str.strip()
    )

# Нормализуем названия и жанры
low_cols = ['name', 'genre']
df[low_cols] = df[low_cols].apply(normalize_col)

# Нормализуем платформы и рейтинги
up_cols = ['platform', 'rating']
df[up_cols] = df[up_cols].apply(lambda col: normalize_col(col, to_lower=False))

In [1033]:
# Проверим как изменились уникальные значения после нормализации:
for col in ['genre', 'platform', 'rating']:
    display(df[col].unique())

array(['sports', 'platform', 'racing', 'role-playing', 'puzzle', 'misc',
       'shooter', 'simulation', 'action', 'fighting', 'adventure',
       'strategy'], dtype=object)

array(['WII', 'NES', 'GB', 'DS', 'X360', 'PS3', 'PS2', 'SNES', 'GBA',
       'PS4', '3DS', 'N64', 'PS', 'XB', 'PC', '2600', 'PSP', 'XONE',
       'WIIU', 'GC', 'GEN', 'DC', 'PSV', 'SAT', 'SCD', 'WS', 'NG', 'TG16',
       '3DO', 'GG', 'PCFX'], dtype=object)

array(['E', 'RP', 'M', 'T', 'E10+', 'AO', 'EC'], dtype=object)

In [1034]:
# Сортируем
cols = low_cols + up_cols
df = df.sort_values(by=cols, ascending=True)

# Выводим промежуточный результат
df.head()

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
3747,007 racing,PS,2000,racing,30,20,0,3,51,46,T
9488,007: quantum of solace,DS,2008,action,11,1,0,1,65,-10,T
14623,007: quantum of solace,PC,2008,action,1,1,0,0,70,63,T
4460,007: quantum of solace,PS2,2008,action,17,0,0,26,-1,-10,RP
1782,007: quantum of solace,PS3,2008,action,43,51,2,19,65,66,T


In [1035]:
# Убедимся, что в категориальных данных нет дубликатов
display(df['platform']
        .value_counts()
        .sort_values())

display(df['genre']
        .value_counts()
        .sort_values())

platform
GG         1
PCFX       1
TG16       2
3DO        3
SCD        6
WS         6
NG        12
GEN       27
DC        52
GB        97
NES      100
2600     118
WIIU     147
SAT      174
SNES     241
XONE     251
N64      320
PS4      395
PSV      434
3DS      522
GC       549
XB       818
GBA      826
PC       972
PS      1208
PSP     1212
X360    1249
WII     1305
PS3     1330
DS      2147
PS2     2154
Name: count, dtype: int64

genre
puzzle           579
strategy         680
fighting         850
simulation       867
platform         894
racing          1250
adventure       1313
shooter         1319
role-playing    1499
misc            1743
sports          2332
action          3353
Name: count, dtype: int64

Действительно, мы можем увидеть, в категориальных данных нет пропусков или дубликатов.

In [1036]:
# Зафиксируем количество явных дубликатов, до обработки неявных.
obvious_dups = df.duplicated().sum()
obvious_dups

np.int64(235)

Идентифицируем и пометим дубликаты видеоигр в датасете, сравниваем `name` внутри каждой комбинации `platform`, `genre` и `year_of_release` с использованием нечеткого сопоставления строк (85% схожесть).
Более подробно, почему именно эти категориальные признаки:
1. `platform` будем считать, что игры на разных платформах - разные игры, так как в дальнейшем мы будем сравнивать платформы.
2. `genre` и `year_of_release` совпадение этих признаков явный маркер дубликата на фоне нечеткого сопоставления строк `name`. Более того, благодаря `year_of_release` мы можем не обрабатывать серии игр. (Издательства редко выпускают вторую и следующие части в этом же году.)

In [1037]:
from rapidfuzz import fuzz

def find_and_remove_duplicates(df, threshold=90):
    """
    Поиск и удаление дубликатов в датасете видеоигр.
    """

    # Группируем по точным совпадениям
    group_cols = ['platform', 'genre', 'year_of_release']
    grouped = df.groupby(group_cols)

    # Список с дубликатами
    duplicates = []

    # Срез продаж
    sales = ['na_sales','eu_sales','jp_sales','other_sales']

    # Проходим по каждой группе
    for group_key, group_df in grouped:

        # Пропускаем группы с одной записью
        if len(group_df) <= 1:
            continue

        # Получаем названия игр в группе
        group_names = group_df['name'].values
        group_indices = group_df.index.values

        # Ищем дубликаты внутри группы
        removed = set()

        for i in range(len(group_names)):
            if i in removed:
                continue

            for j in range(i + 1, len(group_names)):
                if j in removed:
                    continue

                # Сравниваем названия по similarity
                similarity = fuzz.token_sort_ratio(
                    group_names[i],
                    group_names[j]
                )

                # Если совпадение >= threshold, помечаем как дубликат
                if similarity >= threshold:
                    # оставляем запись с бОльшими продажами
                    sales_i = df.iloc[i][sales].sum()
                    sales_j = df.iloc[j][sales].sum()

                    if sales_i >= sales_j:
                        removed.add(j)
                    else:
                        removed.add(i)
                        break

        # Добавляем индексы дубликатов в список на удаление
        for idx in removed:
            duplicates.append(group_indices[idx])

    # Удаляем дубликаты из датафрейма
    df_clean = df.drop(duplicates).reset_index(drop=True)

    # Выводим результаты
    print(f"Удалено дубликатов: {len(duplicates)}")
    print(f"Осталось записей: {len(df_clean)}")
    return df_clean, len(duplicates) - obvious_dups


# Применяем функцию
df, implicit_dups = find_and_remove_duplicates(df, threshold=85)


# Фиксируем размер датафрема после дедупликации
after_dedup_df_len = df.shape[0]

# Выводим результат
df.info()

Удалено дубликатов: 437
Осталось записей: 16242
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16242 entries, 0 to 16241
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   name             16242 non-null  object
 1   platform         16242 non-null  object
 2   year_of_release  16242 non-null  int16 
 3   genre            16242 non-null  object
 4   na_sales         16242 non-null  int16 
 5   eu_sales         16242 non-null  int16 
 6   jp_sales         16242 non-null  int16 
 7   other_sales      16242 non-null  int16 
 8   critic_score     16242 non-null  int8  
 9   user_score       16242 non-null  int8  
 10  rating           16242 non-null  object
dtypes: int16(5), int8(2), object(4)
memory usage: 698.0+ KB


Промежуточный вывод:
С помощью функции `find_and_remove_duplicates()` мы нашли 437 дубликата, 235 из которых были явными.
Мы использовали `fuzz.token_sort_ratio` — это метрика строкового сходства, устойчивая к перестановке слов, основанная на расстоянии Левенштейна.

Сложность $O(n^2)$

Улучшим качество последующего анализа и моделей машинного обучения за счёт удаления низкоинформативных наблюдений.

In [1038]:
# Считаем суммарное количество продаж во всех регионах
sales_cols = ['na_sales','eu_sales','jp_sales','other_sales']
df['sum_sales'] = df[sales_cols].sum(axis=1)

# Выведем пороговое значение
q = df['sum_sales'].quantile(0.1)
display(q)

# Избавляемся от сильно не популярных игр
df = df[df['sum_sales'] > q]
display((after_dedup_df_len - df.shape[0]) / after_dedup_df_len)

# Удалим вспомогательный столбец
df.drop(columns=['sum_sales'], inplace=True)
df.reset_index(drop=True, inplace=True)

np.float64(2.0)

0.1084841768255141

In [1039]:
# Подведем итоги очистки
print(f'Изначальное количество строк в датафреме: {default_df_len}')
print(f'Количество строк в датафреме после удаления строк с пропусками: {na_dropped_df_len}')
print(f'Количество удаленных строк с пропусками: {default_df_len - na_dropped_df_len}, что составляет {(default_df_len - na_dropped_df_len) / default_df_len * 100:.2f}% от исходного размера.')
print(f'Количество явных дубликатов: {obvious_dups}, что составляет {obvious_dups / default_df_len * 100:.2f}% от исходного размера.')
print(f'Количество неявных дубликатов: {implicit_dups}, что составляет {implicit_dups / default_df_len * 100:.2f}% от исходного размера.')
print(f'Помимо всего прочего были удалены записи об играх (10%) от {after_dedup_df_len}, суммарные продажи которых не превышали отметку в {(q + 1) * 10000} копий. ')
print(f'Итоговое количество строк: {df.shape[0]}, что составляет {df.shape[0] / default_df_len * 100:.2f}% от исходного размера.')

Изначальное количество строк в датафреме: 16956
Количество строк в датафреме после удаления строк с пропусками: 16679
Количество удаленных строк с пропусками: 277, что составляет 1.63% от исходного размера.
Количество явных дубликатов: 235, что составляет 1.39% от исходного размера.
Количество неявных дубликатов: 202, что составляет 1.19% от исходного размера.
Помимо всего прочего были удалены записи об играх (10%) от 16242, суммарные продажи которых не превышали отметку в 30000.0 копий. 
Итоговое количество строк: 14480, что составляет 85.40% от исходного размера.


In [1040]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14480 entries, 0 to 14479
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   name             14480 non-null  object
 1   platform         14480 non-null  object
 2   year_of_release  14480 non-null  int16 
 3   genre            14480 non-null  object
 4   na_sales         14480 non-null  int16 
 5   eu_sales         14480 non-null  int16 
 6   jp_sales         14480 non-null  int16 
 7   other_sales      14480 non-null  int16 
 8   critic_score     14480 non-null  int8  
 9   user_score       14480 non-null  int8  
 10  rating           14480 non-null  object
dtypes: int16(5), int8(2), object(4)
memory usage: 622.3+ KB


В ходе предобработки данных мы выполнили следующие этапы:
1. **Загрузка данных**: изучили структуру датасета, выявили типы данных и пропуски
2. **Корректировка столбцов**: привели названия к snake_case для единообразия
3. **Исправление типов данных**: исправили некорректные типы, выполнили оптимизацию хранения
4. **Обработка пропусков**: удалили строки с критическими пропусками, остальные заполнили осмысленными значениями
5. **Устранение дубликатов**: удалили 437 дубликата (235 явных и 202 неявных)
6. **Фильтрация данных**: удалили игры с суммарными продажами ниже 10-го перцентиля

Акцентируем внимание:
1. `user_score` теперь имеет диапазон от 0 до 100. (пропорционально исходнику). Для удобства сравнения с `critic_score` и оптимизации хранения.
2. Все поля отражающие продажи хранят значения суть единицы десятки тысяч, а не миллионы.

В результате датасет сократился с 16956 до 14480 записей (85.4% от исходного размера) при сохранении информативности. Объем данных уменьшился с 1.4+ MB до 622.3+ KB (более чем в 2 раза).

---

## 3. Фильтрация данных

Выделяем период с 2000 по 2013 год включительно. Отберем данные по этому показателю. Сохраним новый срез данных в отдельном датафрейме, `df_actual`.

In [1041]:
df_actual = df[df['year_of_release'].between(2000, 2013)].copy()

# Выведем информацию о новом датасете
df_actual.info()

<class 'pandas.core.frame.DataFrame'>
Index: 11242 entries, 0 to 14479
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   name             11242 non-null  object
 1   platform         11242 non-null  object
 2   year_of_release  11242 non-null  int16 
 3   genre            11242 non-null  object
 4   na_sales         11242 non-null  int16 
 5   eu_sales         11242 non-null  int16 
 6   jp_sales         11242 non-null  int16 
 7   other_sales      11242 non-null  int16 
 8   critic_score     11242 non-null  int8  
 9   user_score       11242 non-null  int8  
 10  rating           11242 non-null  object
dtypes: int16(5), int8(2), object(4)
memory usage: 570.9+ KB


---

## 4. Категоризация данных
    
Проведем категоризацию данных:
- Разделим все игры по оценкам пользователей и выделим такие категории:

        - высокая оценка (от 80 до 100 включительно),
        - средняя оценка (от 30 до 80, не включая правую границу интервала)
        - низкая оценка (от 0 до 30, не включая правую границу интервала).

In [1042]:
df_actual['user_category'] = pd.cut(df_actual['user_score'],
                                    bins=[0, 30, 80, 100],
                                    labels=["Низкая", "Средняя", "Высокая"])

- Разделим все игры по оценкам критиков и выделим такие категории:

        - высокая оценка (от 80 до 100 включительно)
        - средняя оценка (от 30 до 80, не включая правую границу интервала)
        - низкая оценка (от 0 до 30, не включая правую границу интервала).

In [1043]:
df_actual['critic_category'] = pd.cut(df_actual['critic_score'],
                                      bins=[0, 30, 80, 100],
                                      labels=["Низкая", "Средняя", "Высокая"])

- После категоризации данных проверим результат: Сгруппируем данные по выделенным категориям и посчитаем количество игр в каждой категории.

In [1044]:
df_actual.groupby(['user_category', 'critic_category'],
                  observed=False)['name'].count()

user_category  critic_category
Низкая         Низкая               18
               Средняя              81
               Высокая               0
Средняя        Низкая               34
               Средняя            3207
               Высокая             577
Высокая        Низкая                1
               Средняя            1040
               Высокая             811
Name: name, dtype: int64

- Выделим топ-7 платформ по количеству игр, выпущенных за весь актуальный период.

In [1045]:
result = (df_actual.groupby('platform')['name']
          .count()
          .sort_values(ascending=False)
          .head(7)
          .reset_index())
result

Unnamed: 0,platform,name
0,PS2,1895
1,DS,1826
2,WII,1167
3,X360,1050
4,PS3,1029
5,PSP,936
6,XB,736


---

## 5. Итоговый вывод

В ходе проекта мы провели комплексную предобработку данных о видеоиграх за 2000-2013 годы:

### Выполненные работы:
1. **Предобработка данных**: нормализовали названия столбцов, исправили типы данных, обработали пропуски, устранили дубликаты
2. **Оптимизация хранения**: датасет сжат с 1.4+ MB до 622.3+ KB (уменьшение на ~55%) без потери объема информации
3. **Фильтрация**: выделили актуальный период 2000-2013 гг., содержащий 11241 запись
4. **Категоризация**: добавили категории оценок пользователей и критиков
5. **Анализ**: выявили топ-7 платформ по количеству игр

### Полученные результаты:
- **Очищенный датасет**: 14480 записей с 11 признаками, без пропусков и дубликатов
- **Актуальный срез (`df_actual`)**: 11241 игра за 2000-2013 гг.
- **Новые поля**: `user_category` и `critic_category` для категоризации оценок
- **Топ-7 платформ**: PS2, DS, WII, X360, PS3, PSP, XB