# Изучение развития игровой индустрии (с 2000 по 2013 год)

- Автор: Логинов Павел Александрович
- Дата: 02.02.2025

### Цели и задачи проекта


**Цель проекта**: изучить объёмы продаж игр разных жанров и региональные предпочтения игроков с 2000 по 2013 год

**Задачи проекта**:

- Изучить данные
- Проверить корректность данных
- Провести преобработку данных
- Провести фильтрацию данных
- Провести категоризацию данных:
    - Категоризовать игры по оценкам пользователей
    - Категоризовать игры по оценкам экспертов
    - Выделить топ-7 платформ по количеству игр, выпущенных за весь требуемый период

### Описание данных

Данные `/datasets/new_games.csv` содержат информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр:
- `Name` — название игры.
- `Platform` — название платформы.
- `Year of Release` — год выпуска игры.
- `Genre` — жанр игры.
- `NA sales` — продажи в Северной Америке (в миллионах проданных копий).
- `EU sales` — продажи в Европе (в миллионах проданных копий).
- `JP sales` — продажи в Японии (в миллионах проданных копий).
- `Other sales` — продажи в других странах (в миллионах проданных копий).
- `Critic Score` — оценка критиков (от 0 до 100).
- `User Score` — оценка пользователей (от 0 до 10).
- `Rating` — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.

### Содержимое проекта

1. Загрузка данных и знакомство с ними 
2. Проверка ошибок в данных и их предобработка
- 2.1. Названия, или метки, столбцов датафрейма
- 2.2. Типы данных
- 2.3. Наличие пропусков в данных
- 2.4. Явные и неявные дубликаты в данных
3. Фильтрация данных
4. Категоризация данных
5. Итоговый вывод

### Краткое описание проекта

Суть проекта заключается в том, чтобы изучить развитие игровой индустрии с 2000 по 2013 год включительно. Предварительно необходимо загрузить и обработать имеющиеся данные, а затем отфильтровать их в соответствии с условием об анализе конкретного временного промежутка. Под анализом проекта понимается категоризация данных в зависимости от оценок пользователей и критиков, а также составление рейтинга самых популярных платформ, на которых выпускались различные игры в период с 2000 по 2013 год включительно

## 1. Загрузка данных и знакомство с ними

In [1]:
# Импортируем библиотеку pandas

import pandas as pd

In [2]:
# Выгружаем данные из датасета new_games.csv в датафрейм games

games = pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv')

Познакомимся с данными: выведем первые строки и результат метода `info()`


In [3]:
# Выводим первые строки датафрейма на экран

print(games.head())

                       Name Platform  Year of Release         Genre  NA sales  \
0                Wii Sports      Wii           2006.0        Sports     41.36   
1         Super Mario Bros.      NES           1985.0      Platform     29.08   
2            Mario Kart Wii      Wii           2008.0        Racing     15.68   
3         Wii Sports Resort      Wii           2009.0        Sports     15.61   
4  Pokemon Red/Pokemon Blue       GB           1996.0  Role-Playing     11.27   

  EU sales JP sales  Other sales  Critic Score User Score Rating  
0    28.96     3.77         8.45          76.0          8      E  
1     3.58     6.81         0.77           NaN        NaN    NaN  
2    12.76     3.79         3.29          82.0        8.3      E  
3    10.93     3.28         2.95          80.0          8      E  
4     8.89    10.22         1.00           NaN        NaN    NaN  


In [4]:
# Код ревьюера

print('Выводим с помощью print')
print(games.head())

print()

print('Выводим с помощью display')
display(games.head())

print()

print('Можно просто переменную оставить в последней строке ячейки и она отобразится, как display')
games.head()

Выводим с помощью print
                       Name Platform  Year of Release         Genre  NA sales  \
0                Wii Sports      Wii           2006.0        Sports     41.36   
1         Super Mario Bros.      NES           1985.0      Platform     29.08   
2            Mario Kart Wii      Wii           2008.0        Racing     15.68   
3         Wii Sports Resort      Wii           2009.0        Sports     15.61   
4  Pokemon Red/Pokemon Blue       GB           1996.0  Role-Playing     11.27   

  EU sales JP sales  Other sales  Critic Score User Score Rating  
0    28.96     3.77         8.45          76.0          8      E  
1     3.58     6.81         0.77           NaN        NaN    NaN  
2    12.76     3.79         3.29          82.0        8.3      E  
3    10.93     3.28         2.95          80.0          8      E  
4     8.89    10.22         1.00           NaN        NaN    NaN  

Выводим с помощью display


Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,



Можно просто переменную оставить в последней строке ячейки и она отобразится, как display


Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


In [5]:
# Выводим информацию о датафрейме

print(games.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB
None


In [6]:
# Выводим информацию о количестве строк и столбцов

len_row = games.shape[0]
print(f'Количество строк: {len_row}')
len_column = games.shape[1]
print(f'Количество столбцов: {len_column}')

Количество строк: 16956
Количество столбцов: 11


In [7]:
# Выводим информацию о количество пропусков в каждом столбце датафрейма

print(games.isna().sum())

Name                  2
Platform              0
Year of Release     275
Genre                 2
NA sales              0
EU sales              0
JP sales              0
Other sales           0
Critic Score       8714
User Score         6804
Rating             6871
dtype: int64


In [8]:
# Вычисляем долю пропусков от общего количество значений всего датафрейма (в %)

prop = (games.isna().sum()/len(games))*100
print(round(prop, 2))

Name                0.01
Platform            0.00
Year of Release     1.62
Genre               0.01
NA sales            0.00
EU sales            0.00
JP sales            0.00
Other sales         0.00
Critic Score       51.39
User Score         40.13
Rating             40.52
dtype: float64


Датасет `new_games.csv` содержит 11 столбцов и 16956 строк, в которых представлена информация о продаже игр разных жанров и платформ, а также пользовательские и экспертные оценки игр.

Изучим типы данных и их корректность:

- **Строковые данные (object).** 7 столбцов имеют тип данных `object`:
    - `name`, `platform`, `genre` содержат строковую информацию о названии игры, названии платформы и жанре игры, что логично для текстовых данных. Здесь тип данных object подходит.
    - `EU sales`, `JP sales` содержат информацию о продажах игр в Европе и Японии соответственно. Так как информация о продажах передана в миллионах проданных копий, будет логичнее преобразовать данные столбцы к типу данных `float64`, как это сделано в случае с информацией о продажах игр в Северной Америке.
    - `User Score` содержат информацию об оценке пользователей. Так как оценка пользователей производится по шкале от 0 до 10 и может представлять из себя число с плавающей точкой, будет логичнее преобразовать данный стобец к типу данных `float64`, как это сделано в случае с информацией об оценках критиков.
    - `Rating` содержит информацию о рейтинге организации ESRB. Шкала оценок данной организации состоит из буквенных и численных обозначений. Поэтому будет логичнее оставить имеющийся тип данных `object` и обрабатывать информацию как строковую.

- **Числовые значения с плавающей точкой (float64).** 4 столбца имеют тип данных `float64`:
    - `Year of Release` содержит информацию о годе выпуска игры. Поскольку год - это дата, то будет логичнее преобразовать данный столбец к типу данных `datetime64`, который хранит информацию о дате и времени.
    - `NA sales`, `Other sales` содержит информацию о продажах игр в Северной Америке и других странах. Поскольку информация о продажах передана в миллионах проданных копий, будет логично оставить имеющийся тип данных `float64` и обрабатывать информацию как числовые значения с плавающей точкой.
    - `Critic Score` содержит информацию об оценке критиков. Так как оценка критиков производится по шкале от 0 до 100 и может представлять из себя число с плавающей точкой, будет логичнее оставить имеющийся тип данных `float64` и обрабатывать информацию как числовые значения с плавающей точкой.
    
После анализа типов данных видно, что большинство столбцов представлены корректно. Однако для дальнейшего анализа данных необходимо изменить типы данных для некоторых столбцов:

- `EU sales`, `JP sales`, `User Score` - преобразовать к типу данных `float64` (числовые значения с плавающей точкой).
- `Year of Release` - преобразовать к `datetime64` (информация о дате и времени).

Все названия столбцов корректно отображают содержимое данных. Однако 6 из 11 столбцов имеют пропуски:

- `Name`: 2 пропуска (меньше 1% от всех значений датафрейма)
- `Year of Release`: 275 пропусков (1,62% от всех значений датафрейма)
- `Genre`: 2 пропуска (меньше 1% от всех значений датафрейма)
- `Critic Score`: 8714 пропусков (51,39% от всех значений датафрейма)
- `User Score`: 6804 пропуска (40,13% от всех значений датафрейма)
- `Rating`: 6871 пропуск (40,52% от всех значений датафрейма)

Все названия столбцов начинаются с заглавной буквы, однако далее регистр - отличается. Для того, чтобы избежать частых ошибок при анализе, на этапе предобработки данных можно перевести все значения в нижний регистр. В таком формате будет удобнее обращаться к названиям столбцов датафрейма

---

## 2.  Проверка ошибок в данных и их предобработка


### 2.1. Названия, или метки, столбцов датафрейма

Выведем на экран названия всех столбцов датафрейма и проверим их стиль написания.

In [9]:
# Выводим информацию о названия всех столбцов датафрейма

print(games.columns)

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')


Как и говорилось ранее, для удобной работы со всеми столбцами датафрейма необходимо привести их к стилю snake case. Для этого названия столбцов переведём в нижний регистр, а вместо пробелов добавим подчёркивания

In [10]:
# Приводим названия столбцов к стилю snake case и проверяем, что в исходном датафрейме названия столбцов измениилсь

games.columns = games.columns.str.lower()
games.columns = games.columns.str.replace(' ', '_')

print(games.columns)
print()
print(games.head())

Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')

                       name platform  year_of_release         genre  na_sales  \
0                Wii Sports      Wii           2006.0        Sports     41.36   
1         Super Mario Bros.      NES           1985.0      Platform     29.08   
2            Mario Kart Wii      Wii           2008.0        Racing     15.68   
3         Wii Sports Resort      Wii           2009.0        Sports     15.61   
4  Pokemon Red/Pokemon Blue       GB           1996.0  Role-Playing     11.27   

  eu_sales jp_sales  other_sales  critic_score user_score rating  
0    28.96     3.77         8.45          76.0          8      E  
1     3.58     6.81         0.77           NaN        NaN    NaN  
2    12.76     3.79         3.29          82.0        8.3      E  
3    10.93     3.28         2.95          80.0          8      E  
4

### 2.2. Типы данных

Ранее было обнаружено, что 4 столбца имеют неподходящий тип данных:

- `eu_sales`
- `jp_sales`
- `user_score`
- `year_of_release`

Разделим эти столбцы на две группы в зависимости от того, к какому типу данных необходимо их преобразовать:

- `eu_sales`,`jp_sales`, `user_score`. Причина некорректного типа этих данных кроется в том, что некоторые данные представлены не в виде чисел, а в виде строковых значений. Именно поэтому текущие данные представлены типом данных `object`
- `year_of_release`. Возможно некорректность типа этих данных связана с неверной кодировкой датасета, представленном в формате `.csv`. Также проблема может заключаться в отличающихся разделителях или форматах.

Поэтому необходимо преобразовать тип данных 4 столбцов:

- `eu_sales`, `jp_sales`, `user_score` - преобразовать к типу данных float64 (числовые значения с плавающей точкой).
- `year_of_release` - преобразовать к datetime64 (информация о дате и времени).

Сначала произведём преобразование типа данных первых трёх столбцов - `eu_sales`, `jp_sales`, `user_score`

Но перед этим необходимо заменить все нечисловые значения на пропуски. Для этого мы воспользуемся методом `pd.to_numeric()`, с помощью которого сможем заменить все нечисловые значения на пропуски

In [11]:
# Изменяем нечисловые значения на корректный формат пропусков

games[['eu_sales', 'jp_sales', 'user_score']] = games[['eu_sales', 'jp_sales', 'user_score']].apply(pd.to_numeric, errors='coerce')

Далее необходимо преобразовать тип данных столбцов `eu_sales`, `jp_sales`, `user_score` к типу данных float64 (числовые значения с плавающей точкой)

In [12]:
# Преобразовываем тип данных столбцов `eu_sales`, `jp_sales`, `user_score` к типу данных float64

games[['eu_sales', 'jp_sales', 'user_score']] = games[['eu_sales', 'jp_sales', 'user_score']].astype('float64')

In [13]:
# Проверяем, что преобразование типа данных столбцов `eu_sales`, `jp_sales`, `user_score` к типу данных float64 прошло успешно

print(games.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16956 non-null  object 
 2   year_of_release  16681 non-null  float64
 3   genre            16954 non-null  object 
 4   na_sales         16956 non-null  float64
 5   eu_sales         16950 non-null  float64
 6   jp_sales         16952 non-null  float64
 7   other_sales      16956 non-null  float64
 8   critic_score     8242 non-null   float64
 9   user_score       7688 non-null   float64
 10  rating           10085 non-null  object 
dtypes: float64(7), object(4)
memory usage: 1.4+ MB
None


Таким образом, мы преобразовали тип данных столбцов `eu_sales`, `jp_sales`, `user_score`к типу данных `float64` (числовые значения с плавающей точкой)

Далее необходимо изменить тип последнего столбца с некорректным типом данных - `year_of_release`. Поскольку тип данного столбца необходимо преобразовать к типу данных `datetime64` (информация о дате и времени), мы воспользуемся методом `pd.to_datetime`

In [14]:
# Преобразовываем тип данных столбца 'year_of_release' к типу данных datetime64

games['year_of_release'] = pd.to_datetime(games['year_of_release'], format = '%Y')

In [15]:
# Проверяем, что преобразование типа данных столбца 'year_of_release' к типу данных datetime64 прошло успешно

print(games.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   name             16954 non-null  object        
 1   platform         16956 non-null  object        
 2   year_of_release  16681 non-null  datetime64[ns]
 3   genre            16954 non-null  object        
 4   na_sales         16956 non-null  float64       
 5   eu_sales         16950 non-null  float64       
 6   jp_sales         16952 non-null  float64       
 7   other_sales      16956 non-null  float64       
 8   critic_score     8242 non-null   float64       
 9   user_score       7688 non-null   float64       
 10  rating           10085 non-null  object        
dtypes: datetime64[ns](1), float64(6), object(4)
memory usage: 1.4+ MB
None


Таким образом, мы преобразовали тип данных столбца `year_of_release` к типу данных `datetime64` (информация о дате и времени)

Проверим, что все типы данных были преобразованы корректно

In [16]:
# Выводим первые строки датафрейма на экран и информацию о датафрейме

print(games.head())
print()
print(games.info())

                       name platform year_of_release         genre  na_sales  \
0                Wii Sports      Wii      2006-01-01        Sports     41.36   
1         Super Mario Bros.      NES      1985-01-01      Platform     29.08   
2            Mario Kart Wii      Wii      2008-01-01        Racing     15.68   
3         Wii Sports Resort      Wii      2009-01-01        Sports     15.61   
4  Pokemon Red/Pokemon Blue       GB      1996-01-01  Role-Playing     11.27   

   eu_sales  jp_sales  other_sales  critic_score  user_score rating  
0     28.96      3.77         8.45          76.0         8.0      E  
1      3.58      6.81         0.77           NaN         NaN    NaN  
2     12.76      3.79         3.29          82.0         8.3      E  
3     10.93      3.28         2.95          80.0         8.0      E  
4      8.89     10.22         1.00           NaN         NaN    NaN  

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11

Таким образом, мы преобразовали типы данных в соответствии с содержанием датафрейма. На данный момент датафрейм включает в себя данные трёх типов:
    
- **object** - `name`, `platform`, `genre`, `rating`
- **datetime64** - `year_of_release`
- **float64** - `na_sales`, `eu_sales`, `jp_sales`, `other_sales`, `critic_score`, `user_score`

### 2.3. Наличие пропусков в данных

Посчитаем количество пропусков в каждом столбце в абсолютных и относительных значениях


In [17]:
# Выводим информацию о количество пропусков в каждом столбце датафрейма

abs_nan = games.isna().sum()
print('Количество пропусков в абсолютных значениях:')
print()
print(abs_nan)

Количество пропусков в абсолютных значениях:

name                  2
platform              0
year_of_release     275
genre                 2
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8714
user_score         9268
rating             6871
dtype: int64


In [18]:
# Вычисляем долю пропусков от общего количество значений всего датафрейма

prop_nan = (games.isna().sum()/len(games))
print('Количество пропусков в относительных значениях:')
print()
print(prop_nan)

Количество пропусков в относительных значениях:

name               0.000118
platform           0.000000
year_of_release    0.016218
genre              0.000118
na_sales           0.000000
eu_sales           0.000354
jp_sales           0.000236
other_sales        0.000000
critic_score       0.513918
user_score         0.546591
rating             0.405225
dtype: float64


Изучим данные с пропущенными значениями


После замены строковых значений и преобразования типа данных нескольких столбцов, мы можем увидеть, что количество столбцов с пропусками значений сменилось с 6 на 8. То есть, теперь 8 из 11 стобцов имеют пропуски:

- `name`: 2 пропуска (меньше 1% от всех значений датафрейма)
- `year_of_release`: 275 пропусков (1,62% от всех значений датафрейма)
- `Genre`: 2 пропуска (меньше 1% от всех значений датафрейма)
- `eu_sales`: 6 пропусков (меньше 1% от всех значений датафрейма)
- `jp_sales`: 4 пропуска (меньше 1% от всех значений датафрейма)
- `critic_score`: 8714 пропусков (51,39% от всех значений датафрейма)
- `user_score`: 9268 пропуска (54,66% от всех значений датафрейма)
- `rating`: 6871 пропуск (40,52% от всех значений датафрейма)

Столбцы `name`, `genre`, `eu_sales`, `jp_sales` имеют крайне малое количество пропусков (меньше 1%). 

Столбец `year_of_release` также имеет малое количество пропусков (меньше 2%).

Для того, чтобы понять, как обрабатывать строки с пропущенными значениями, необходимо понять, как распределены пропуски

In [19]:
# Проверяем строки с пропущенными значениями в столбце name

print(games[games['name'].isna()])
print()

      name platform year_of_release genre  na_sales  eu_sales  jp_sales  \
661    NaN      GEN      1993-01-01   NaN      1.78      0.53      0.00   
14439  NaN      GEN      1993-01-01   NaN      0.00      0.00      0.03   

       other_sales  critic_score  user_score rating  
661           0.08           NaN         NaN    NaN  
14439         0.00           NaN         NaN    NaN  



In [20]:
# Проверяем строки с пропущенными значениями в столбце genre

print(games[games['genre'].isna()])
print()

      name platform year_of_release genre  na_sales  eu_sales  jp_sales  \
661    NaN      GEN      1993-01-01   NaN      1.78      0.53      0.00   
14439  NaN      GEN      1993-01-01   NaN      0.00      0.00      0.03   

       other_sales  critic_score  user_score rating  
661           0.08           NaN         NaN    NaN  
14439         0.00           NaN         NaN    NaN  



In [21]:
# Проверяем строки с пропущенными значениями в столбце eu_sales

print(games[games['eu_sales'].isna()])
print()

                                  name platform year_of_release     genre  \
446                      Rhythm Heaven       DS      2008-01-01      Misc   
802                        Dead Rising     X360      2006-01-01    Action   
1131  Prince of Persia: Warrior Within      PS2      2004-01-01    Action   
1132                         Far Cry 4     XOne      2014-01-01   Shooter   
1394                   Sonic Advance 3      GBA      2004-01-01  Platform   
1612                       Ratatouille       DS      2007-01-01    Action   

      na_sales  eu_sales  jp_sales  other_sales  critic_score  user_score  \
446       0.55       NaN      1.93         0.13          83.0         9.0   
802       1.16       NaN      0.08         0.20          85.0         7.6   
1131      0.54       NaN      0.00         0.22          83.0         8.5   
1132      0.80       NaN      0.01         0.14          82.0         7.5   
1394      0.74       NaN      0.08         0.06          79.0         8.4  

In [22]:
# Проверяем строки с пропущенными значениями в столбце jp_sales

print(games[games['jp_sales'].isna()])
print()

                                       name platform year_of_release  \
467                            Saints Row 2     X360      2008-01-01   
819                     UFC 2009 Undisputed     X360      2009-01-01   
1379                      Hello Kitty Party       DS      2007-01-01   
4732  Castlevania: The Dracula X Chronicles      PSP      2007-01-01   

         genre  na_sales  eu_sales  jp_sales  other_sales  critic_score  \
467     Action      1.94      0.79       NaN         0.28          81.0   
819   Fighting      1.48      0.39       NaN         0.19          83.0   
1379      Misc      0.78      0.51       NaN         0.12           NaN   
4732  Platform      0.22      0.09       NaN         0.07          80.0   

      user_score rating  
467          8.1      M  
819          7.9      T  
1379         NaN      E  
4732         7.8      T  



In [23]:
# Проверяем строки с пропущенными значениями в столбце year_of_release

print(games[games['year_of_release'].isna()])
print()

                                    name platform year_of_release  \
183                      Madden NFL 2004      PS2             NaT   
379                     FIFA Soccer 2004      PS2             NaT   
458           LEGO Batman: The Videogame      Wii             NaT   
477           wwe Smackdown vs. Raw 2006      PS2             NaT   
611                       Space Invaders     2600             NaT   
...                                  ...      ...             ...   
16609  PDC World Championship Darts 2008      PSP             NaT   
16641                      Freaky Flyers       GC             NaT   
16685                          Inversion       PC             NaT   
16695        Hakuouki: Shinsengumi Kitan      PS3             NaT   
16760                       Virtua Quest       GC             NaT   

              genre  na_sales  eu_sales  jp_sales  other_sales  critic_score  \
183          Sports      4.26      0.26      0.01         0.71          94.0   
379        

В данном случае наиболее правильным решением будет заменить значения в столбцах `eu_sales` и `jp_sales` на медианные значения. Сделаем это с помощью метода `apply()`, предварительно написав пользовательскую функцию, которая будет применять к столбцам `eu_sales` и `jp_sales`

In [24]:
# Формируем пользовательскую функцию и заменяем пропуски в столбцах `eu_sales` и `jp_sales` на медианные значения

def value_median(value):
    value['eu_sales'].fillna(value['eu_sales'].median(), inplace=True)
    value['jp_sales'].fillna(value['jp_sales'].median(), inplace=True)
    return value

games = games.groupby(['platform', 'year_of_release']).apply(value_median)

In [25]:
# Код ревьюера

games['jp_sales'] = games['jp_sales']\
    .fillna(games.groupby(['platform', 'year_of_release'])['jp_sales'].transform('mean'))

In [26]:
# Выводим информацию о количество пропусков в каждом столбце датафрейма

abs_nan = games.isna().sum()
print('Количество пропусков в абсолютных значениях:')
print()
print(abs_nan)

Количество пропусков в абсолютных значениях:

name                  2
platform              0
year_of_release       0
genre                 2
na_sales              0
eu_sales              0
jp_sales              0
other_sales           0
critic_score       8596
user_score         9123
rating             6780
dtype: int64


Пропуски в столбцах `eu_sales`, `jp_sales` были успешно заменены медианными значениями

Однако столбцы `critic_score`, `user_score`, `rating` имеют существенное количество пропусков (около 50%). Получается, что больше половины игр не получили оценки критиков и пользователей, и чуть меньше половины игры не получили оценки согласно рейтингу организации ESRB. Поэтому мы можем заменить пропуски в столбцах `critic_score`, `user_score` только на значение-заглушку. Пропуски в столбце `rating` заменить не получится, поскольку тип данных столбца - `object`, то есть, строковый

Прежде чем заменять пропуски в столбцах `critic_score`, `user_score` на значение-заглушку, необходимо выбрать значение, которое не входит в список значений в столбцах `critic_score`, `user_score`. Для этого с помощью метода `unique()` выведем список уникальных значений в столбцах `critic_score`, `user_score`

In [27]:
# Выводим список уникальных значений в столбце `critic_score`, а также минимальное и максимальное значение этого списка

uniq_critic_score = games['critic_score'].unique()
print(uniq_critic_score)
print()
print(f'Минимальное значение списка: {min(uniq_critic_score)}')
print()
print(f'Максимальное значение списка: {max(uniq_critic_score)}')

[76. nan 82. 80. 89. 58. 87. 91. 61. 97. 95. 77. 88. 83. 94. 93. 85. 86.
 98. 96. 90. 84. 73. 74. 78. 92. 71. 72. 68. 62. 49. 67. 81. 66. 56. 79.
 70. 59. 64. 75. 60. 63. 69. 50. 25. 42. 44. 55. 48. 57. 29. 47. 65. 54.
 20. 53. 37. 38. 33. 52. 30. 32. 43. 45. 51. 40. 46. 39. 34. 41. 36. 31.
 27. 35. 26. 19. 28. 23. 24. 21. 17. 13.]

Минимальное значение списка: 13.0

Максимальное значение списка: 98.0


In [28]:
# Выводим список уникальных значений в столбце `user_score`, а также минимальное и максимальное значение этого списка

uniq_user_score = games['user_score'].unique()
print(uniq_user_score)
print()
print(f'Минимальное значение списка: {min(uniq_user_score)}')
print()
print(f'Максимальное значение списка: {max(uniq_user_score)}')

[8.  nan 8.3 8.5 6.6 8.4 8.6 7.7 6.3 7.4 8.2 9.  7.9 8.1 8.7 7.1 3.4 5.3
 4.8 3.2 8.9 6.4 7.8 7.5 2.6 7.2 9.2 7.  7.3 4.3 7.6 5.7 5.  9.1 6.5 8.8
 6.9 9.4 6.8 6.1 6.7 5.4 4.  4.9 4.5 9.3 6.2 4.2 6.  3.7 4.1 5.8 5.6 5.5
 4.4 4.6 5.9 3.9 3.1 2.9 5.2 3.3 4.7 5.1 3.5 2.5 1.9 3.  2.7 2.2 2.  9.5
 2.1 3.6 2.8 1.8 3.8 0.  1.6 9.6 2.4 1.7 1.1 0.3 1.5 0.7 1.2 2.3 0.5 1.3
 0.2 0.6 1.4 0.9 1.  9.7]

Минимальное значение списка: 0.0

Максимальное значение списка: 9.7


Исходя из минимального и максимального значений обоих списков, логичнее всего в качестве заглушки использовать отрицательное значение, например, -1, поскольку обе шкалы оценивания включают в себя только положительные значения. Поэтому заменяем пропуски в столбцах `critic_score`, `user_score` с помощью метода `fillna()`

In [29]:
# Заменяем пропуски в столбцах critic_score и user_score значением-заглушкой

games['critic_score'] = games['critic_score'].fillna(-1)
games['user_score'] = games['user_score'].fillna(-1)

In [30]:
# Выводим информацию о количество пропусков в каждом столбце датафрейма

abs_nan = games.isna().sum()
print('Количество пропусков в абсолютных значениях:')
print()
print(abs_nan)

Количество пропусков в абсолютных значениях:

name                  2
platform              0
year_of_release       0
genre                 2
na_sales              0
eu_sales              0
jp_sales              0
other_sales           0
critic_score          0
user_score            0
rating             6780
dtype: int64


### 2.4. Явные и неявные дубликаты в данных

Изучим уникальные значения в следующих столбцах с категориальными данными:
- `name`
- `genre`
- `platform`
- `rating`
- `year_of_release`

In [31]:
# Выводим информацию об уникальных значениях в столбце name

uniq_name = games['name'].unique()
print(uniq_name)

['Wii Sports' 'Super Mario Bros.' 'Mario Kart Wii' ...
 'Woody Woodpecker in Crazy Castle 5' 'LMA Manager 2007'
 'Haitaka no Psychedelica']


In [32]:
# Выводим информацию об уникальных значениях в столбце genre

uniq_genre = games['genre'].unique()
print(uniq_genre)

['Sports' 'Platform' 'Racing' 'Role-Playing' 'Puzzle' 'Misc' 'Shooter'
 'Simulation' 'Action' 'Fighting' 'Adventure' 'Strategy' nan 'MISC'
 'ROLE-PLAYING' 'RACING' 'ACTION' 'SHOOTER' 'FIGHTING' 'SPORTS' 'PLATFORM'
 'ADVENTURE' 'SIMULATION' 'PUZZLE' 'STRATEGY']


In [33]:
# Выводим информацию об уникальных значениях в столбце platform

uniq_platform = games['platform'].unique()
print(uniq_platform)

['Wii' 'NES' 'GB' 'DS' 'X360' 'PS3' 'PS2' 'SNES' 'GBA' 'PS4' '3DS' 'N64'
 'PS' 'XB' 'PC' '2600' 'PSP' 'XOne' 'WiiU' 'GC' 'GEN' 'DC' 'PSV' 'SAT'
 'SCD' 'WS' 'NG' 'TG16' '3DO' 'GG' 'PCFX']


In [34]:
# Выводим информацию об уникальных значениях в столбце rating

uniq_rating = games['rating'].unique()
print(uniq_rating)

['E' nan 'M' 'T' 'E10+' 'K-A' 'AO' 'EC' 'RP']


In [35]:
# Выводим информацию об уникальных значениях в столбце year_of_release

uniq_year_of_release = games['year_of_release'].unique()
print(uniq_year_of_release)

['2006-01-01T00:00:00.000000000' '1985-01-01T00:00:00.000000000'
 '2008-01-01T00:00:00.000000000' '2009-01-01T00:00:00.000000000'
 '1996-01-01T00:00:00.000000000' '1989-01-01T00:00:00.000000000'
 '1984-01-01T00:00:00.000000000' '2005-01-01T00:00:00.000000000'
 '1999-01-01T00:00:00.000000000' '2007-01-01T00:00:00.000000000'
 '2010-01-01T00:00:00.000000000' '2013-01-01T00:00:00.000000000'
 '2004-01-01T00:00:00.000000000' '1990-01-01T00:00:00.000000000'
 '1988-01-01T00:00:00.000000000' '2002-01-01T00:00:00.000000000'
 '2001-01-01T00:00:00.000000000' '2011-01-01T00:00:00.000000000'
 '1998-01-01T00:00:00.000000000' '2015-01-01T00:00:00.000000000'
 '2012-01-01T00:00:00.000000000' '2014-01-01T00:00:00.000000000'
 '1992-01-01T00:00:00.000000000' '1997-01-01T00:00:00.000000000'
 '1993-01-01T00:00:00.000000000' '1994-01-01T00:00:00.000000000'
 '1982-01-01T00:00:00.000000000' '2016-01-01T00:00:00.000000000'
 '2003-01-01T00:00:00.000000000' '1986-01-01T00:00:00.000000000'
 '2000-01-01T00:00:00.000

Среди изученных уникальных значений в столбцах `name`, `genre`, `platform`, `rating`, `year_of_release` мы видим, что неявные дубликаты наблюдаются только в столбце `genre`. Это связано с тем, что названия жанров написаны в разном регистре. Поэтому все названия жанров мы переведём в нижний регистр

In [36]:
# Переводим все названия жанров в нижний регистр и проверяем, что дубликаты были устранены

games['genre'] = games['genre'].str.lower()
uniq_genre_new = games['genre'].unique()
print(uniq_genre_new)

['sports' 'platform' 'racing' 'role-playing' 'puzzle' 'misc' 'shooter'
 'simulation' 'action' 'fighting' 'adventure' 'strategy' nan]


Все названия жанров были переведены в нижний регистр. Вследствие этого действия все неявные дубликаты были удалены

После нормализации данных и устранения неявных дубликатов, необходимо проверить наличие явных дубликатов в данных. Исходя из логики датасета, только столбец с названием игры `name` может включать в себя явные дубликаты. Но одна и та же игра не может быть выпущена несколько раз (в разные года на нескольких платформах). В этом мы можем убедиться, если сравним количество уникальных значений в столбце `name` и общем количестве игр. Сначала выведем количество уникальных значений в столбце `name`

In [37]:
# Выведем количество уникальных значений в столбце name

nuniq_name = games['name'].nunique()
print(f'Количество уникальных значений в столбце name: {nuniq_name}')

Количество уникальных значений в столбце name: 11426


Затем выведем общее количество игр

In [38]:
# Выведем общее количество игр

len_name = len(games['name'])
print(f'Количество игр: {len_name}')

Количество игр: 16681


Применим метод `duplicated`, чтобы точно убедиться в том, что в столбце `name` содержатся одинаковые названия игр

In [39]:
# Количество одинаковых названий игр в столбце name

names_duplicated = games.duplicated(subset = 'name', keep = 'first').sum()
print(f'Количество одинаковых названий игр в столбце name: {names_duplicated}')

Количество одинаковых названий игр в столбце name: 5254


Исходя из этого, можно сделать вывод, что столбец с названием игры `name` не включает в себя явные дубликаты

Выведем общую информацию о датафрейме после внесённых изменений

In [40]:
# Выводим информацию о датафрейме

print(games.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16681 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   name             16679 non-null  object        
 1   platform         16681 non-null  object        
 2   year_of_release  16681 non-null  datetime64[ns]
 3   genre            16679 non-null  object        
 4   na_sales         16681 non-null  float64       
 5   eu_sales         16681 non-null  float64       
 6   jp_sales         16681 non-null  float64       
 7   other_sales      16681 non-null  float64       
 8   critic_score     16681 non-null  float64       
 9   user_score       16681 non-null  float64       
 10  rating           9901 non-null   object        
dtypes: datetime64[ns](1), float64(6), object(4)
memory usage: 2.0+ MB
None


Для обработки неявных дубликатов мы изучили столбцы с категориальными данными и выяснили, что жанры игр были записаны в разных регистрах. Поэтому названия всех жанров игр были переведены в нижний регистр.

In [41]:
# Текущие названия жанров игр после обработки неявных дубликатов

print(uniq_genre_new)

['sports' 'platform' 'racing' 'role-playing' 'puzzle' 'misc' 'shooter'
 'simulation' 'action' 'fighting' 'adventure' 'strategy' nan]


In [42]:
# Количество удалённых дубликатов в столбце genre

count_no_uniq_genre = len(uniq_genre) - len(uniq_genre_new)
print(f'Количество удалённых дубликатов в столбце genre: {count_no_uniq_genre}')

Количество удалённых дубликатов в столбце genre: 12


После обработки пропусков, ошибок и дубликатов, подсчитаем количество удалённых строк в абсолютном и относительном значениях

In [43]:
# Подсчитываем количество удалённых строк в абсолютном и относительном значениях

count_delete = len_row - games.shape[0]
print(f'Количество удалённых строк в абсолютном значении: {count_delete}')
count_delete_prop = 1 - (games.shape[0]/len_row)
print(f'Количество удалённых строк в относительном значении: {count_delete_prop}')

Количество удалённых строк в абсолютном значении: 275
Количество удалённых строк в относительном значении: 0.01621844774711012


Всего было удалено 275 строк, что составляет меньше 2% от исходного объёма данных. Данный показатель говорит о том, что потери - незначительные, а значит, они не сильно повлияют на дальнейшее исследование

Преобработка данных завершена. Для наглядности ещё раз выведем общую информацию о датафрейме после его предобработки

In [44]:
# Выводим информацию о датафрейме

print(games.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16681 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   name             16679 non-null  object        
 1   platform         16681 non-null  object        
 2   year_of_release  16681 non-null  datetime64[ns]
 3   genre            16679 non-null  object        
 4   na_sales         16681 non-null  float64       
 5   eu_sales         16681 non-null  float64       
 6   jp_sales         16681 non-null  float64       
 7   other_sales      16681 non-null  float64       
 8   critic_score     16681 non-null  float64       
 9   user_score       16681 non-null  float64       
 10  rating           9901 non-null   object        
dtypes: datetime64[ns](1), float64(6), object(4)
memory usage: 2.0+ MB
None


После проведения предообработки данных мы можем сделать следующие выводы:
- Обновлённый датафрейм содержит 16681 строку и 11 столбцов
- Обновлённый датафрейм включает в себя столбцы со следующими типами данных:
    - **object**: `name`, `platform`, `genre`, `rating`
    - **float64**: `na_sales`, `eu_sales`, `jp_sales`, `other_sales`, `critic_score`, `user_score`
    - **datetime64**: `year_of_release`
- Пропуски данных имеются только в столбце `rating`, поскольку данный столбец имеет тип данных `object`, а значит, найти среднее значение - не получится
- Все значения в столбце `genre` были приведены к нижнему регистру для обработки неявных дубликатов
- После предобработки данных было удалено 275 строк, что составляет меньше 2% от изначального количества строк в исходном датасете

---

## 3. Фильтрация данных

Нас интересует развитие игровой индустрии, начиная с 2000 и заканчивая 2013 годом (включительно). Поэтому мы проведём фильтрацию данных с помощью атрибута `loc` и сохраним новый срез в отдельном датафрейме `games_actual`

In [45]:
# Отбираем данные по времени выхода игры (с 2000 по 2013 год включительно) и сохраняем их в отдельный датафрейм

games_actual = games.loc[(games['year_of_release'] > '2000-01-01') & (games['year_of_release'] <= '2013-12-31')].copy()

In [46]:
# Выводим информацию об уникальных значениях в столбце year_of_release в новом датафрейме

uniq_year_of_release_new = games_actual['year_of_release'].unique()

print(uniq_year_of_release_new)

['2006-01-01T00:00:00.000000000' '2008-01-01T00:00:00.000000000'
 '2009-01-01T00:00:00.000000000' '2005-01-01T00:00:00.000000000'
 '2007-01-01T00:00:00.000000000' '2010-01-01T00:00:00.000000000'
 '2013-01-01T00:00:00.000000000' '2004-01-01T00:00:00.000000000'
 '2002-01-01T00:00:00.000000000' '2001-01-01T00:00:00.000000000'
 '2011-01-01T00:00:00.000000000' '2012-01-01T00:00:00.000000000'
 '2003-01-01T00:00:00.000000000']


Таким образом, мы отфильтровали данные по времени выхода игры и сохранили в новый датафрейм информацию о тех играх, которые были выпущены в период с 2000 по 2013 год включительно

---

## 4. Категоризация данных
    
Проведём категоризацию данных: разделим игры по оценкам пользователей и по оценкам критиков

Для разделения игр по оценкам пользователей воспользуемся методом `apply()`, который позволит разделить игры по трём категориям:
- высокая оценка (от 8 до 10 включительно)
- средняя оценка (от 3 до 8, не включая правую границу интервала)
- низкая оценка (от 0 до 3, не включая правую границу интервала)

In [47]:
# Разделяем игры по трём кагегориям в засимости от оценки пользователей

def user_score_category(value):
    if 8 <= value < 10:
        return 'высокая оценка'
    elif 3 <= value < 8:
        return 'средняя оценка'
    elif 0 <= value < 3:
        return 'низкая оценка'
    else:
        return 'нет данных'

games_actual['category_user_score'] = games['user_score'].apply(user_score_category)
print(games_actual)

                                                   name platform  \
0                                            Wii Sports      Wii   
2                                        Mario Kart Wii      Wii   
3                                     Wii Sports Resort      Wii   
6                                 New Super Mario Bros.       DS   
7                                              Wii Play      Wii   
...                                                 ...      ...   
16947                     Men in Black II: Alien Escape       GC   
16949                Woody Woodpecker in Crazy Castle 5      GBA   
16950  SCORE International Baja 1000: The Official Game      PS2   
16952                                  LMA Manager 2007     X360   
16954                                  Spirits & Spells      GBA   

      year_of_release     genre  na_sales  eu_sales  jp_sales  other_sales  \
0          2006-01-01    sports     41.36     28.96      3.77         8.45   
2          2008-01-01    ra

Для разделения игр по оценкам критиков воспользуемся функцией `pd.cut`, которая позволит разделить игры по трём категориям:

- высокая оценка (от 80 до 100 включительно)
- средняя оценка (от 30 до 80, не включая правую границу интервала)
- низкая оценка (от 0 до 30, не включая правую границу интервала)

In [48]:
# Разделяем игры по трём кагегориям в засимости от оценки критиков

games_actual['category_critic_score'] = pd.cut(games_actual['critic_score'], bins = [-1, 0, 30, 80, 101], labels = ["нет данных", "низкая оценка", "средняя оценка", "высокая оценка"], right=False)
print(games_actual)

                                                   name platform  \
0                                            Wii Sports      Wii   
2                                        Mario Kart Wii      Wii   
3                                     Wii Sports Resort      Wii   
6                                 New Super Mario Bros.       DS   
7                                              Wii Play      Wii   
...                                                 ...      ...   
16947                     Men in Black II: Alien Escape       GC   
16949                Woody Woodpecker in Crazy Castle 5      GBA   
16950  SCORE International Baja 1000: The Official Game      PS2   
16952                                  LMA Manager 2007     X360   
16954                                  Spirits & Spells      GBA   

      year_of_release     genre  na_sales  eu_sales  jp_sales  other_sales  \
0          2006-01-01    sports     41.36     28.96      3.77         8.45   
2          2008-01-01    ra

После категоризации данных проверим результат: сгруппируем данные по выделенным категориям в зависимости от оценки пользователей и посчитаем количество игр в каждой категории c помощью функции `value_counts()`

In [49]:
# Группируем данные по выделенным категориям и подсчитываем количество игр в каждой категории

category_user_score_count = games_actual['category_user_score'].value_counts()
print('Количество игр в каждой категории исходя из категоризации данных по оценкам пользователей:')
print()
print(category_user_score_count)

Количество игр в каждой категории исходя из категоризации данных по оценкам пользователей:

нет данных        6158
средняя оценка    4094
высокая оценка    2256
низкая оценка      115
Name: category_user_score, dtype: int64


По аналогии сгруппируем данные по выделенным категориям в зависимости от оценки критиков и посчитаем количество игр в каждой категории c помощью функции `value_counts()`

In [50]:
# Группируем данные по выделенным категориям и подсчитываем количество игр в каждой категории

category_critic_score_count = games_actual['category_critic_score'].value_counts()
print('Количество игр в каждой категории исходя из категоризации данных по оценкам критиков:')
print()
print(category_critic_score_count)

Количество игр в каждой категории исходя из категоризации данных по оценкам критиков:

нет данных        5500
средняя оценка    5397
высокая оценка    1674
низкая оценка       52
Name: category_critic_score, dtype: int64


Выделим топ-7 платформ по количеству игр, выпущенных за весь актуальный период, c помощью функции `value_counts()`

In [51]:
# Группируем платформы по количеству игр, выпущенных за весь актуальный период

top7_platform = games_actual['platform'].value_counts()
print('Топ-7 платформ по количеству игр, выпущенных за весь актуальный период:')
print()
print(top7_platform.head(7))

Топ-7 платформ по количеству игр, выпущенных за весь актуальный период:

DS      2146
PS2     2072
Wii     1294
PSP     1199
X360    1138
PS3     1107
GBA      825
Name: platform, dtype: int64


Выведем информацию о новом датафрейме (срезе данных)

In [52]:
# Выводим информацию о датафрейме

print(games_actual.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 12623 entries, 0 to 16954
Data columns (total 13 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   name                   12623 non-null  object        
 1   platform               12623 non-null  object        
 2   year_of_release        12623 non-null  datetime64[ns]
 3   genre                  12623 non-null  object        
 4   na_sales               12623 non-null  float64       
 5   eu_sales               12623 non-null  float64       
 6   jp_sales               12623 non-null  float64       
 7   other_sales            12623 non-null  float64       
 8   critic_score           12623 non-null  float64       
 9   user_score             12623 non-null  float64       
 10  rating                 8697 non-null   object        
 11  category_user_score    12623 non-null  object        
 12  category_critic_score  12623 non-null  category      
dtypes

---

## 5. Итоговый вывод

Были загружены данные `/datasets/new_games.csv`. Они содержат 11 столбцов и 16956 строк, в которых представлена информация о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр. При первичном знакомстве с данными и их преобработке мы получили такие результаты:

- Пропущенные данные были обработаны в 5 столбцах:
    - `year_of_release`: 275 пропусков (1,62% от всех значений датафрейма)
    - `eu_sales`: 6 пропусков (меньше 1% от всех значений датафрейма)
    - `jp_sales`: 4 пропуска (меньше 1% от всех значений датафрейма)
    - `critic_score`: 8714 пропусков (51,39% от всех значений датафрейма)
    - `user_score`: 9268 пропуска (54,66% от всех значений датафрейма)

В столбце `rating`: 6871 пропуск (40,52% от всех значений датафрейма) был оставлен без изменения, поскольку оценки рейтинга организации ESRB представлены в виде строковых значений, а значит, заменить пропуски средним значением - не получится. Таким образом, в датафрейме содержится всего один столбец с пропусками

Для оптимизации работы с данными в датафрейме были произведены следующие изменения:

- `name` - преобразование названия столбца (изменение регистра и разделителя)
- `platform` - преобразование названия столбца (изменение регистра и разделителя)
- `year_of_release` - изменение типа данных столбца на datetime64, преобразование названия столбца (изменение регистра и разделителя)
- `genre` - обработка неявных дубликатов (изменение регистра), преобразование названия столбца (изменение регистра и разделителя)
- `na_sales` - замена строковых значений на пропуски, преобразование названия столбца (изменение регистра и разделителя)
- `eu_sales` - замена строковых значений на пропуски, замена пропусков на медианные значения, изменение типа данных столбца на float64, преобразование названия столбца (изменение регистра и разделителя)
- `jp_sales` - замена строковых значений на пропуски, замена пропусков на медианные значения, изменение типа данных столбца на float64, преобразование названия столбца (изменение регистра и разделителя)
- `other_sales` - преобразование названия столбца (изменение регистра и разделителя)
- `critic_score` - произведена замена пропусков на значение-заглушку, преобразование названия столбца (изменение регистра и разделителя)
- `user_score` - произведена замена пропусков на значение-заглушку, преобразование названия столбца (изменение регистра и разделителя)

Фильтрация данных была проведена с учётом условия о том, что необходимо изучить развитие игровой индустрии, начиная с 2000 и заканчивая 2013 годом включительно. Результаты среза данных были сохранены в новый датафрейм `games_actual`

Категоризация данных была проведена в разрезе двух столбцов:

- Категоризация игр по оценкам пользователей (столбец `category_user_score`)
- Категоризация игр по оценкам критиков (столбец `category_critic_score`)

Результаты категоризации игр были добавлены в виде столбцов `category_user_score` и `category_critic_score` в новый датафрейм `games_actual`

Также был составлен топ-7 платформ по количеству игр, выпущенных за весь актуальный период. Результаты составления этого рейтинга были добавлены в виде столбца `top7_platform` в новый датафрейм `games_actual`

По результатам этого рейтинга, мы определили топ-7 платформ по количеству игр, выпущенных за весь актуальный период. К ним относятся:
 
- `DS` - 2146 игр
- `PS2` - 2072 игры
- `Wii` - 1294 игры
- `PSP` - 1199 игр
- `X360` - 1138 игр
- `PS3` - 1107 игр
- `GBA` - 825 игр

Новый датафрейм `games_actual` содержит 13 столбцов и 12623 строки, в которых представлена информация о продажах игр разных жанров и платформ, пользовательские и экспертные оценки игр, категоризация игр в зависимости от оценок пользователей и критиков во временном периоде с 2000 по 2013 год включительно

Типы данных нового датафрейма `games_actual`:

- **object** (cтроковые данные): `name`, `platform`, `genre`, `rating`
- **float64** (числовые значения с плавающей точкой): `na_sales`, `eu_sales`, `jp_sales`, `other_sales`, `critic_score`, `user_score`
- **datetime64** (информация о дате и времени): `year_of_release`
- **category** (информации о категории данных): `category_user_score`, `category_critic_score`

Пропуски содержатся только в столбце `rating`, так как оценки рейтинга организации ESRB представлены в виде строковых значений, а значит, заменить пропуски средним значением - не получится

В исходный датасет новые столбцы - не добавлены, поскольку вся необходимая информация о категоризации данных и составлении рейтинга топ-7 платформ по количеству игр, выпущенных за весь актуальный период, находится в новом датафрейме `games_actual`, в котором произведена фильтрация данных по играм, которые были выпущены в период с 2000 по 2013 год включительно