# Анализ игровой индустрии с 2000 по 2013 год

- Автор: Добров Владимир
- Дата: 2025-04-09

### Цели и задачи проекта

<font color='#777778'>Перечислите цель проекта и задачи, которые вы решаете. Для этого можно использовать описание проекта, но полезнее будет сформулировать основную цель проекта самостоятельно.</font>

Создатели игры «Секреты Темнолесья» хотят привлечь новую аудиторию и подготовить статью о развитии индустрии игр в начале XXI века. Выпустить статью хотят на одном известном IT-ресурсе. Статья должна привлечь внимание людей, которые любят старые игры, и заодно заинтересовать их «Секретами Темнолесья».

В статье-исследовании необходимо сделать обзор игровых платформ, изучить объёмы продаж игр разных жанров и региональные предпочтения игроков. Акцент в статье надо сделать на играх жанра RPG — так называют компьютерные ролевые игры, в которых игроки управляют персонажами.

Для статьи необходимо изучить развитие игровой индустрии с 2000 по 2013 год. 


### Описание данных

<font color='#777778'>Здесь приведите описание данных.</font>

Историческими данные были собраны из открытых источников.  
В проекте будут использованы данные датасета `/datasets/new_games.csv` с таким описанием: 
- `Name` — название игры;
- `Platform` — название платформы;
- `Year of Release` — год выпуска игры;
- `Genre` — жанр игры;
- `NA sales` — продажи в Северной Америке (в миллионах проданных копий);
- `EU sales` — продажи в Европе (в миллионах проданных копий);
- `JP sales` — продажи в Японии (в миллионах проданных копий);
- `Other sales` — продажи в других странах (в миллионах проданных копий);
- `Critic Score` — оценка критиков (от 0 до 100);
- `User Score` — оценка пользователей (от 0 до 10);
- `Rating` — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию

### Содержимое проекта

<font color='#777778'>Перечислите основные шаги проекта или напишите оглавление. Используйте описание проекта, чтобы зафиксировать основные шаги.</font>

1. Загрузка данных и знакомство с ними
2. Проверка ошибок в данных и их предобработка
3. Фильтрация данных
4. Категоризация данных
5. Итоговый вывод
---

## 1. Загрузка данных и знакомство с ними

- Загрузка необходимых библиотек Python и данные датасета `/datasets/new_games.csv`.


In [1]:
# Импортируем библиотеку pandas
import pandas as pd

In [2]:
# Выгружаем данные из датасета /datasets/new_games.csv в датафрейм hotels
df = pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv')

In [3]:
# Выводим информацию о датафрейме
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


- Знакомство с данными: выводим первые строки и результат метода `info()`.


In [4]:
# Выводим первые строки датафрейма на экран
df.head(10)

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,
5,Tetris,GB,1989.0,Puzzle,23.2,2.26,4.22,0.58,,,
6,New Super Mario Bros.,DS,2006.0,Platform,11.28,9.14,6.5,2.88,89.0,8.5,E
7,Wii Play,Wii,2006.0,Misc,13.96,9.18,2.93,2.84,58.0,6.6,E
8,New Super Mario Bros. Wii,Wii,2009.0,Platform,14.44,6.94,4.7,2.24,87.0,8.4,E
9,Duck Hunt,NES,1984.0,Shooter,26.93,0.63,0.28,0.47,,,


Датасет `new_games.csv` содержит 11 столбцов и 16956 строк, в которых представлена информация о игровых платформах и объёмах продаж игр разных жанров в различных регионах.

Типы данных и их корректность:
- **Числовые значения с плавающей запятой (float64).** Четыре столбца имеют тип данных `float64`:  
    - `Year of Release` содержит информацию о годе выпуска игры. Лучшим решением для данной колонки будет тип данных `int16`
    - `NA sales` и `Other sales` содержат объемы продаж, а `Critic Score` это оценка критиков могут включать дробные значения по этому использование типа  `float64` является правильным решением  
- **Строковые данные (object).** Семь столбцов имеют тип данных `object`:
    - `Name` содержат строковую информацию (название игры), что логично для текстовых данных. Здесь тип данных `object` подходит.
   - `Platform`, `Genre` и `Rating` также хранят текстовые данные (название платформы, жанр игры и рейтинг), но их можно рассматривать как категориальные признаки. В этом случае можно использовать тип `category`, чтобы улучшить производительность и оптимизировать память, если набор значений ограничен и заведомо известен.
    - `EU sales`, `JP sales` и `User Score`  имеют не корректный тип данных так как хранят числовую информацию о объемах продаж и оценке пользователей. Для таких данных рекомендуется использовать тип `float64`  

После анализа типов данных видно, что для корректного представления данных для 3-х столбцов требуется преобразовать строковые данные в тип `float64` и один в `int16`.

Полнота данных:
- в шести из одинадцать колонок таблицы присутствуют пустые значения
Названия столбцов правильно отражают содержание, но содержат пробелы которые лучше заменить на `_` в соответсвии с стилем snake case

---

## 2.  Проверка ошибок в данных и их предобработка


### 2.1. Названия, или метки, столбцов датафрейма

- Выведите на экран названия всех столбцов датафрейма и проверьте их стиль написания.
- Приведите все столбцы к стилю snake case. Названия должны быть в нижнем регистре, а вместо пробелов — подчёркивания.

In [5]:
# Выведем на экран названия всех столбцов датафрейма
list(df)

['Name',
 'Platform',
 'Year of Release',
 'Genre',
 'NA sales',
 'EU sales',
 'JP sales',
 'Other sales',
 'Critic Score',
 'User Score',
 'Rating']

In [6]:
# Приводим названия в нижний регистр
df.columns = df.columns.str.lower()
list(df)

['name',
 'platform',
 'year of release',
 'genre',
 'na sales',
 'eu sales',
 'jp sales',
 'other sales',
 'critic score',
 'user score',
 'rating']

In [7]:
# Приведём все столбцы к стилю snake case. Вместо пробелов — подчёркивания.
df.columns = df.columns.str.replace(' ', '_')
list(df)

['name',
 'platform',
 'year_of_release',
 'genre',
 'na_sales',
 'eu_sales',
 'jp_sales',
 'other_sales',
 'critic_score',
 'user_score',
 'rating']

### 2.2. Типы данных


Проанализируем типы данных и количество пропущенных значений по столбцам:
- Формат `object` колонок `year_of_release`, `na_sales`, `eu_sales`, `jp_sales`, `user_score` не соответствует числовому типу данных. Возможные причины - наличии в данных строковой информации или пустых значений.

In [8]:
# Выводим информацию о датафрейме
df.info()

print()

# Посчитаем количество пропусков значений
print('Количество пропусков')
display(df.isna().sum())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16956 non-null  object 
 2   year_of_release  16681 non-null  float64
 3   genre            16954 non-null  object 
 4   na_sales         16956 non-null  float64
 5   eu_sales         16956 non-null  object 
 6   jp_sales         16956 non-null  object 
 7   other_sales      16956 non-null  float64
 8   critic_score     8242 non-null   float64
 9   user_score       10152 non-null  object 
 10  rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB

Количество пропусков


name                  2
platform              0
year_of_release     275
genre                 2
na_sales              0
eu_sales              0
jp_sales              0
other_sales           0
critic_score       8714
user_score         6804
rating             6871
dtype: int64

- Преобразуем тип данных колонки `year_of_release_int` (год выхода игры) в числовой формат `integer`  
- Заменяем строковые значения на пропуски в колонках с числовыми данными и приводим к числовому типу

In [9]:
# Заменим пропущенные значения на 0
df['year_of_release'] = df['year_of_release'].fillna(0)

# Меняем тип данных на числовой
df['year_of_release'] = df['year_of_release'].astype('float64').astype('int64')
df.info()

# Определяем список столбцов с числовыми данными
num_data = ['na_sales', 'eu_sales','jp_sales', 'user_score']

# Заменяем строковые и пустые значения на пропуски
for column in num_data:
    df[column] = df[column].replace(['unknown', 'tbd', ''], None)
    
#   Приводим данные в столбцах к числовому типу
    df[column] = pd.to_numeric(df[column], errors='coerce')
#     df[column] = df[column].astype('float64')

# Заменяем пустые значения для Рейтинга на 'no_available'    
df['rating'] = df['rating'].fillna('no_available')    
    
# Определяем список столбцов с котигориальными данными
category_data = ['platform', 'genre', 'rating']  

# Приводим данные в столбцах к типу 'category'
for column in category_data:
    df[column] = df[column].astype('category')     

# Выводим результат преобразования типов столбцов
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16956 non-null  object 
 2   year_of_release  16956 non-null  int64  
 3   genre            16954 non-null  object 
 4   na_sales         16956 non-null  float64
 5   eu_sales         16956 non-null  object 
 6   jp_sales         16956 non-null  object 
 7   other_sales      16956 non-null  float64
 8   critic_score     8242 non-null   float64
 9   user_score       10152 non-null  object 
 10  rating           10085 non-null  object 
dtypes: float64(3), int64(1), object(7)
memory usage: 1.4+ MB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype   
---  ------           --------------  -----   
 0   name             16954 

### 2.3. Наличие пропусков в данных

- Посчитаем количество пропусков в каждом столбце в абсолютных и относительных значениях.


In [10]:
# Посчитаем абсолютное количество пропусков в каждом столбце
df.isna().sum()

name                  2
platform              0
year_of_release       0
genre                 2
na_sales              0
eu_sales              0
jp_sales              0
other_sales           0
critic_score       8714
user_score         8080
rating                0
dtype: int64

In [11]:
# Подсчитываем процент строк с пропусками
df.isna().mean()*100

name                0.011795
platform            0.000000
year_of_release     0.000000
genre               0.011795
na_sales            0.000000
eu_sales            0.000000
jp_sales            0.000000
other_sales         0.000000
critic_score       51.391838
user_score         47.652748
rating              0.000000
dtype: float64

Промежуточные выводы по пропускам:
- Количество пропусков в столбцах с названием игры (`name`) и жанр (`genre`) одинаково 2, что составляет всего 0.1%. Данные строки можно удалить, т.к. <span style='color: blue;'>данные игры вышли в 1993 году и не входят в рассматриваемый интервал времени 2000-2013.</span>
- Для количества продаж в Европу и Японию 6 и 4 соответственно, что составляет 0,3 и 0,2 %. Здесь пропуски можно заменить на средние значение продаж по Году выпуска и Жанру.
- Существенная доля пропусков в Оценке критиков (`critic_score`) 8714 (51 %), Оценки пользователей (`user_score`) 8080 (47%). <span style='color: blue;'>Одна из причин отсутствия данных - игры вышедшие до момента появления рейтингов в 1994. Так же можно исключить из рассмотрения игры вышедшие после 2013.</span> В данных колонках можно оставить без изменений, т.к. в случае замены на 0 при агрегации и поиске среднего значения получатся неверные результаты.
- В Рейтинге организации (`rating`) 6871 (40 %) заменены на `no_available`.<span style='color: blue;'> Пропуски из за отсутствия рейтингов до 1994</span>

- Обработаем пропущенные значения. 
- В данных с количеством проданных копий игры в том или ином регионе, заменяем на среднее значение в зависимости от названия платформы и года выхода игры.

In [12]:
# Определяем список колонок для замещения пропусков средними значениями по Году выпуска и Названию платформы
sales_region = ['eu_sales', 'jp_sales']

# Функция для заполнения пропусков средними значениями
def mean_gr_sales(row):
    if pd.isna(row[region]):
        group = df[(df['platform'] == row['platform']) & 
                   (df['year_of_release'] == row['year_of_release'])]
        return group[region].mean()    
    else:
        return row[region]
    
# Заполняем пропуски, используя функцию mean_gr_sales()    
for region in sales_region:
    df[region] = df.apply(mean_gr_sales, axis = 1)
    

In [13]:
# Проверяем результат замены на наличие пропущенных значений
df[['eu_sales', 'jp_sales']].isna().sum()

eu_sales    0
jp_sales    0
dtype: int64

- Удалим строки с пропусками в колонках с Названием игры и жанра, т.к. их количество менее 1% и не повлияет на результат исследования

In [14]:
# Удаляем строки с пропусками
df = df.dropna(subset = ['name'])

# Проверяем результат удаления на наличие пропущенных значений
df[df['name'].isna()]

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating


In [15]:
# Проверим результат
display(df.isna().sum())
df[df['name'].isna()]

name                  0
platform              0
year_of_release       0
genre                 0
na_sales              0
eu_sales              0
jp_sales              0
other_sales           0
critic_score       8712
user_score         8078
rating                0
dtype: int64

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating


### 2.4. Явные и неявные дубликаты в данных


- Проведем нормализацию данных с текстовыми значениями. Названия или жанры игр приведем к нижнему регистру, а названия рейтинга — к верхнему.

In [16]:
# Определяем колонку для анализа
col = 'name'

# Сортируем данные колонки
sorted_df = df[col].sort_values()

# Приводим данные к нижнему регистру
df[col] = sorted_df.str.lower()

# Проверим результат
print(df[col])

0                           wii sports
1                    super mario bros.
2                       mario kart wii
3                    wii sports resort
4             pokemon red/pokemon blue
                     ...              
16951    samurai warriors: sanada maru
16952                 lma manager 2007
16953          haitaka no psychedelica
16954                 spirits & spells
16955              winning post 8 2016
Name: name, Length: 16954, dtype: object


In [17]:
# Определяем колонку для анализа
col = 'genre'

# Сортируем и выадим уникальные значения исходных данных
sorted_uniq = df[col].sort_values().unique()
print(f'Исходные данные: {col}')
print('\n'.join(sorted_uniq))

# Приводим данные в колонке Жанр к нижнему регистру
df[col] = df[col].str.lower()

print()
# Вывадим уникальные значения нормализованных данных
uniq_value = df[col].sort_values().unique()
print(f'Нормализованные данные: {col}')
print ('\n'.join(uniq_value))

Исходные данные: genre
ACTION
ADVENTURE
Action
Adventure
FIGHTING
Fighting
MISC
Misc
PLATFORM
PUZZLE
Platform
Puzzle
RACING
ROLE-PLAYING
Racing
Role-Playing
SHOOTER
SIMULATION
SPORTS
STRATEGY
Shooter
Simulation
Sports
Strategy

Нормализованные данные: genre
action
adventure
fighting
misc
platform
puzzle
racing
role-playing
shooter
simulation
sports
strategy


In [18]:
# Определяем колонку для анализа
col = 'platform'

# Сортируем и выадим уникальные значения исходных данных
sorted_uniq = df[col].sort_values().unique()

print(f'Исходные данные: {col}')
print('\n'.join(sorted_uniq))

Исходные данные: platform
2600
3DO
3DS
DC
DS
GB
GBA
GC
GEN
GG
N64
NES
NG
PC
PCFX
PS
PS2
PS3
PS4
PSP
PSV
SAT
SCD
SNES
TG16
WS
Wii
WiiU
X360
XB
XOne


In [19]:
# Определяем колонку для анализа
col = 'rating'

# Сортируем и выадим уникальные значения исходных данных
sorted_uniq = df[col].sort_values().unique()

print(f'Исходные данные: {col}')
print('\n'.join(sorted_uniq))

# Приводим данные к верхнему регистру
df[col] = df[col].str.upper()

# Заменим рейтинг 'K-A' на 'E', так как 'K-A' это старое название 'E'
df[col] = df[col].str.replace('K-A', 'E')

print()

# Сортируем и вывадим уникальные значения нормализованных данных
uniq_value = df[col].sort_values().unique()

print(f'Нормализованные данные: {col}')
print ('\n'.join(uniq_value))

Исходные данные: rating
AO
E
E10+
EC
K-A
M
RP
T
no_available

Нормализованные данные: rating
AO
E
E10+
EC
M
NO_AVAILABLE
RP
T


- Проверим наличие явных дубликатов в данных.

In [20]:
# Определяем количество строк в датафрейме до удаления дубликатов
base_row_count = len(df)
print(f'Количество строк до удаления дубликатов: {base_row_count}')

# Сортируем датафрейм по всем столбцам
df_sorted = df.sort_values(by=df.columns.tolist())

# Находим количество дубликатов
count_duplicates = df_sorted.duplicated(keep=False).sum()
print(f'Количество явных дубликатов: {count_duplicates}')


share_duplicate = round(count_duplicates / base_row_count * 100, 1)
print(f'Доля явных дубликатов: {share_duplicate} %')

# Удалите дублирующиеся строки
df_cleaned = df.drop_duplicates() # subset=None, keep='first', inplace=False

# Определяем количество строк в датафрейме после удаления дубликатов
final_row_count = len(df_cleaned)
print(f'Количество строк после удаления дубликатов: {final_row_count}')

share_delited_rows = round((1 -  final_row_count / base_row_count)*100, 2)
print(f'Доля  удаленных предобработкой данных: {share_delited_rows} %')

Количество строк до удаления дубликатов: 16954
Количество явных дубликатов: 482
Доля явных дубликатов: 2.8 %
Количество строк после удаления дубликатов: 16713
Доля  удаленных предобработкой данных: 1.42 %


Промежуточный вывод:  
- В данных было найдено и удалено <span style='color: blue;'> 482 </span> явных дубликатов, что составдяет несущественную долю 2.1% от всех данных.  
- <span style='color: blue;'>Доля  удаленных предобработкой данных: 1.42 % </span>

- После проведения предобработки данных напишите общий промежуточный вывод.

---

## 3. Фильтрация данных

- Для изучения истории продаж игр с 2000 по 2013 год включительно. Отберем данные и охраним новый срез в отдельном датафрейме `df_actual`.

In [21]:
# Отберём данные период с 2000 по 2013 год включительно
df_actual = df[df['year_of_release'].between(2000, 2013)]

# Проверим результат
print(f" Min {df_actual['year_of_release'].min()}")
print(f" Max {df_actual['year_of_release'].max()}")

 Min 2000
 Max 2013


---

## 4. Категоризация данных
    
Проведите категоризацию данных:
- Разделим все игры по оценкам пользователей и выделим такие категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).

In [23]:
# Создадим колонку с категориями оценки пользователей
df['group_user_score'] = pd.cut(df['user_score'], bins=[0, 3, 8, 11], labels=["низкая оценка", "средняя оценка", "высокая оценка"], right=False)

# Проверим результат
df[['user_score','group_user_score']][(df['user_score'].isna() == False)] 

Unnamed: 0,user_score,group_user_score
0,8.0,высокая оценка
2,8.3,высокая оценка
3,8.0,высокая оценка
6,8.5,высокая оценка
7,6.6,средняя оценка
...,...,...
16937,5.8,средняя оценка
16938,5.8,средняя оценка
16943,7.2,средняя оценка
16946,5.8,средняя оценка


- Разделим все игры по оценкам критиков и выделим такие категории: высокая оценка (от 80 до 100 включительно), средняя оценка (от 30 до 80, не включая правую границу интервала) и низкая оценка (от 0 до 30, не включая правую границу интервала).

In [24]:
# Создадим колонку с категориями оценки критиков
df['group_critic_score'] = pd.cut(df['critic_score'], bins = [0, 30, 80, 101], labels = ['low', 'middle', 'high'], right=False)

# Проверим результат
df[['critic_score','group_critic_score']][(df['critic_score'].isna() == False)]  

Unnamed: 0,critic_score,group_critic_score
0,76.0,middle
2,82.0,high
3,80.0,high
6,89.0,high
7,58.0,middle
...,...,...
16936,61.0,middle
16937,53.0,middle
16938,48.0,middle
16943,60.0,middle


- Проверим результат: сгруппируем данные по выделенным категориям и посчитаем количество игр в каждой категории.

In [25]:
# Определим колонки для группировки
gr_score = ['group_user_score', 'group_critic_score']

# Cгруппируем данные по выделенным категориям и посчитаем количество игр по регионам
for group in gr_score:
    grouped_data = df.groupby(group).agg({'na_sales': 'sum', 
                                          'eu_sales': 'sum',
                                          'jp_sales': 'sum',
                                          'other_sales': 'sum'})
    # Просуммируем продажи в регионах в каждой категории
    grouped_data = grouped_data[['na_sales', 'eu_sales', 'jp_sales', 'other_sales']].sum(axis=1)
    
    # Выведем результат
    print(f'Количество игр для {grouped_data}')


Количество игр для group_user_score
низкая оценка       60.06
средняя оценка    3276.54
высокая оценка    2591.89
dtype: float64
Количество игр для group_critic_score
low         13.08
middle    2624.65
high      3008.03
dtype: float64


- Выделите топ-7 платформ по количеству проданных игр, выпущенных за весь актуальный период.

In [26]:
# Определим колонки для группировки
gr_platform = ['platform']

# Cгруппируем данные по выделенным категориям и посчитаем количество игр по регионам
count_name = df_actual.groupby(gr_platform).agg({'name': 'count'})

# Сортируем данные по продажам по убыванию и выводим первые 7 строк
sorted_count_name = count_name[['name']].sort_values('name', ascending=False).head(7)

# Выводим результат
sorted_count_name

Unnamed: 0_level_0,name
platform,Unnamed: 1_level_1
PS2,2154
DS,2146
Wii,1294
PSP,1199
X360,1138
PS3,1107
GBA,826


---

## 5. Итоговый вывод

В конце напишите основной вывод и отразите, какую работу проделали. Не забудьте указать описание среза данных и новых полей, которые добавили в исходный датасет.

Были загружены данные `/datasets/new_games.csv`. Датасет new_games.csv содержит 11 столбцов и 16956 строк, в которых представлена информация о игровых платформах и объёмах продаж игр разных жанров в различных регионах. При первичном знакомстве с данными и их предобработкой получили такие результаты:
Предобработка данных включала в себя:
- Названия столбцов датафрейма
    - все названия столбцов были приведены к стилю snake caseю, то есть в нижнем регистре, а вместо пробелов — подчёркивания.
- Преобразование типов данных в колонках датафрейма включали:
    - `na_sales`, `eu_sales`, `jp_sales`, `user_score`:  тип данных изменён с `object` на `float64`.
    - `year_of_release_int` (год выхода игры):  тип данных изменён с `float64` на  `int64`
    - `platform`, `genre`, `rating`:  тип данных изменён с `object` на  `category`
    - Формат object колонок year_of_release, na_sales, eu_sales, jp_sales, user_score, rating не соответствует числовому типу данных. Возможные причины - наличии в данных строковой информации или пустых значений.
- Наличие пропусков в данных
    - `na_sales`, `eu_sales`, `jp_sales`, `user_score`:  строковые данные заменены на пропуски.
    - `name`, `genre`: количество пропусков 2 (0.1%) Были удалены.
    - `eu_sales`, `jp_sales`: пропуски замещены средними значениями по Году выпуска и Названию платформы
    - `critic_score`, `user_score`: количество пропусков 8714 (51 %),  8080 (47%). Оставлены без изменений
    - `rating`: количество пропусков 6871 (40 %). Заменены на `no_available`
- Явные и неявные дубликаты в данных
    - проведена нормализация данных с текстовыми значениями. Названия или жанры игр приведены к нижнему регистру, а названия рейтинга — к верхнему.
 
Фильтрация данных:  
    - подготовлен срез данных `df_actual` в отдельном датафрейме за период с 2000 по 2013 год включительно. 
    
Категоризация данных. Для дополнительной работы с данными были созданы дополнительные столбцы:  
    - `group_user_score` категории по оценкам критиков: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).   
    - `group_critic_score` категории по оценкам критиков: высокая оценка (от 80 до 100 включительно), средняя оценка (от 30 до 80, не включая правую границу интервала) и низкая оценка (от 0 до 30, не включая правую границу интервала).

Создан отчет топ-7 платформ по количеству игр, выпущенных за весь актуальный период