# Предобработка данных датасета `new_games.csv`

- Автор: Шагитова Камила
- Дата: 31.01.2025

### Краткое описание проекта
Проект посвящён изучению игровой индустрии с 2000 по 2013 год для подготовки аналитической статьи, которая поможет привлечь аудиторию к игре «Секреты Темнолесья». 

### Цели и задачи проекта
В этом проекте используем датасет `new_games.csv`, который содержит информацию содержат информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр.

Цель проекта: провести предобработку данных о продажах видеоигр, пользовательских и экспертных оценках, а также жанрах и платформах для получения чистого и структурированного среза информации. 

Задачи проекта, которые предстоит решить - познакомиться с данными, проверить их корректность и провести предобработку, получив необходимый срез данных.

### Описание данных
Данные `/datasets/new_games.csv` содержат информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр:
- `Name` — название игры.
- `Platform` — название платформы.
- `Year of Release` — год выпуска игры.
- `Genre` — жанр игры.
- `NA sales` — продажи в Северной Америке (в миллионах проданных копий).
- `EU sales` — продажи в Европе (в миллионах проданных копий).
- `JP sales` — продажи в Японии (в миллионах проданных копий).
- `Other sales` — продажи в других странах (в миллионах проданных копий).
- `Critic Score` — оценка критиков (от 0 до 100).
- `User Score` — оценка пользователей (от 0 до 10).
- `Rating` — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.


### Содержимое проекта
1. Загрузка и знакомство с данными
2. Проверка ошибок в данных и их предобработка:
   * Корректировка названий столбцов датафрейма
   * Корректировка типа данных
   * Поиск пропущенных значений
   * Работа с дубликатами
4. Фильтрация данных
5. Категоризация данных
6. Итоговый вывод
---

## 1. Загрузка данных и знакомство с ними


In [1]:
# Импортируем библиотеку pandas
import pandas as pd

In [2]:
# Выгружаем данные из датасета new_games.csv в датафрейм df
df = pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv')

In [3]:
# Выводим первые строки датафрейма
df.head()

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


In [4]:
# Выводим информацию о датафрейме
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


In [5]:
# Размерность датафрейма
df.shape

(16956, 11)

In [6]:
# Кол-во строк до обработки сохраняем в переменную
count_rows = df.shape[0]

Датасет `new_games.csv` содержит 11 столбцов и 16956 строк с информацией о продажах видеоигр, платформах, жанрах, а также пользовательских и экспертных оценках.

**Изучим типы данных и их корректность**:
- **Числовые значения с плавающей запятой (float64)**:
    - Три столбца (`NA sales`, `Other sales`, `Critic Score`) содержат данные о продажах игр в различных регионах и оценку критиков. Выбранный тип данных корректен, так как значения могут быть дробными.
    - Столбец `Year of Release` содержит год выпуска игры, следовательно стоит преобразовать тип данного столбца в `int64`.
- **Строковые данные (object)**:
    - Четыре столбца (`Name`, `Platform`, `Genre`, `Rating`) содержат текстовую информацию и логично представлены типом `object`.
    - Столбцы `EU sales` и `JP sales` содержат данные о продажах игр в различных регионах. Для таких данных рекомендуется использовать тип `float64`, чтобы облегчить вычисления с данными столбцами.
    - Столбец `User score` предоставляет информацию об оценках пользователей и содержит дробные значения. Следует поменять тип данных на `float64`.
 
**Пропуски данных**:
    Присутствуют пропущенные значения в столбцах `Name`, `Genre`, `Year of Release`, `Critic Score`, `User Score`, и `Rating`. Это потребует либо заполнения, либо удаления строк в зависимости от дальнейшего анализа.

 Названия столбцов следует привести к стилю snake case для удобства дальнейшего анализа.

---

## 2.  Проверка ошибок в данных и их предобработка


### 2.1. Названия, или метки, столбцов датафрейма


In [7]:
# Выводим названия столбцов
df.columns

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')

In [8]:
# Переименовываем столбцы
column_new_name = df.columns.str.replace(' ', '_')
df.columns = column_new_name.str.lower()
df.columns

Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')

### 2.2. Типы данных


Тип данных `float64` в столбце `year_of_release` обусловен тем, что в столбце присутствуют пропуски.  Для того, чтобы привести столбец к типу `int64`, нужно сначала заменить пропущенные значения.

In [9]:
# Считаем кол-во пропусков в столбце 'year of release'
df['year_of_release'].isna().sum()

275

In [10]:
# Заменяем пропуски в столбце year_of_release на 0
df['year_of_release'] = df['year_of_release'].fillna(0)

In [11]:
# Меняем тип данных в столбце year_of_release на int64
df['year_of_release'] = df['year_of_release'].astype('int64')

In [12]:
# Проверяем какие значения содержит столбец eu_sales
df['eu_sales'].unique()

array(['28.96', '3.58', '12.76', '10.93', '8.89', '2.26', '9.14', '9.18',
       '6.94', '0.63', '10.95', '7.47', '6.18', '8.03', '4.89', '8.49',
       '9.09', '0.4', '3.75', '9.2', '4.46', '2.71', '3.44', '5.14',
       '5.49', '3.9', '5.35', '3.17', '5.09', '4.24', '5.04', '5.86',
       '3.68', '4.19', '5.73', '3.59', '4.51', '2.55', '4.02', '4.37',
       '6.31', '3.45', '2.81', '2.85', '3.49', '0.01', '3.35', '2.04',
       '3.07', '3.87', '3.0', '4.82', '3.64', '2.15', '3.69', '2.65',
       '2.56', '3.11', '3.14', '1.94', '1.95', '2.47', '2.28', '3.42',
       '3.63', '2.36', '1.71', '1.85', '2.79', '1.24', '6.12', '1.53',
       '3.47', '2.24', '5.01', '2.01', '1.72', '2.07', '6.42', '3.86',
       '0.45', '3.48', '1.89', '5.75', '2.17', '1.37', '2.35', '1.18',
       '2.11', '1.88', '2.83', '2.99', '2.89', '3.27', '2.22', '2.14',
       '1.45', '1.75', '1.04', '1.77', '3.02', '2.75', '2.16', '1.9',
       '2.59', '2.2', '4.3', '0.93', '2.53', '2.52', '1.79', '1.3', '2.6',
   

In [13]:
# Проверяем какие значения содержит столбец jp_sales
df['jp_sales'].unique()

array(['3.77', '6.81', '3.79', '3.28', '10.22', '4.22', '6.5', '2.93',
       '4.7', '0.28', '1.93', '4.13', '7.2', '3.6', '0.24', '2.53',
       '0.98', '0.41', '3.54', '4.16', '6.04', '4.18', '3.84', '0.06',
       '0.47', '5.38', '5.32', '5.65', '1.87', '0.13', '3.12', '0.36',
       '0.11', '4.35', '0.65', '0.07', '0.08', '0.49', '0.3', '2.66',
       '2.69', '0.48', '0.38', '5.33', '1.91', '3.96', '3.1', '1.1',
       '1.2', '0.14', '2.54', '2.14', '0.81', '2.12', '0.44', '3.15',
       '1.25', '0.04', '0.0', '2.47', '2.23', '1.69', '0.01', '3.0',
       '0.02', '4.39', '1.98', '0.1', '3.81', '0.05', '2.49', '1.58',
       '3.14', '2.73', '0.66', '0.22', '3.63', '1.45', '1.31', '2.43',
       '0.7', '0.35', '1.4', '0.6', '2.26', '1.42', '1.28', '1.39',
       '0.87', '0.17', '0.94', '0.19', '0.21', '1.6', '0.16', '1.03',
       '0.25', '2.06', '1.49', '1.29', '0.09', '2.87', '0.03', '0.78',
       '0.83', '2.33', '2.02', '1.36', '1.81', '1.97', '0.91', '0.99',
       '0.95', '2.0'

* Так как в столбцах есть строковые значения, то заменяем их на пропуски и приводим к числовому типу данных.

In [14]:
# Преобразовываем столбцы 'eu_sales' 'jp_sales' к числовому типу, заменяя строковые значение на NaN
df['eu_sales'] = pd.to_numeric(df['eu_sales'], errors = 'coerce')
df['jp_sales'] = pd.to_numeric(df['jp_sales'], errors = 'coerce')
df['user_score'] = pd.to_numeric(df['user_score'], errors = 'coerce')

In [15]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16956 non-null  object 
 2   year_of_release  16956 non-null  int64  
 3   genre            16954 non-null  object 
 4   na_sales         16956 non-null  float64
 5   eu_sales         16950 non-null  float64
 6   jp_sales         16952 non-null  float64
 7   other_sales      16956 non-null  float64
 8   critic_score     8242 non-null   float64
 9   user_score       7688 non-null   float64
 10  rating           10085 non-null  object 
dtypes: float64(6), int64(1), object(4)
memory usage: 1.4+ MB


In [16]:
df.head()

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,Wii Sports,Wii,2006,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996,Role-Playing,11.27,8.89,10.22,1.0,,,


### 2.3. Наличие пропусков в данных


In [17]:
# Считаем пропуски в данных
df.isna().sum()

name                  2
platform              0
year_of_release       0
genre                 2
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8714
user_score         9268
rating             6871
dtype: int64

In [18]:
# Считаем процент пропущенных строк в каждом столбце
df.isna().sum() / len(df) * 100

name                0.011795
platform            0.000000
year_of_release     0.000000
genre               0.011795
na_sales            0.000000
eu_sales            0.035386
jp_sales            0.023590
other_sales         0.000000
critic_score       51.391838
user_score         54.659118
rating             40.522529
dtype: float64

В данных наблюдаются пропущенные значения в след. столбцах:

- `name`: отсутствуют данные в 2 строках (0.01% данных). Так как пропуски составляют менее 1%, их можно удалить.
- `year_of_release`: пропуски были заменены в пункте 2.2., перед изменением типа данных столбца.
- `genre`: пропуски обнаружены в 2 строках (0.01% данных). Пропуски составляют менее 1% - можно удалить.
- `ea_sales`: отсутствуют данные в 6 строках (0.035% данных). Пропуски заменим на среднее значение в зависимости от названия платформы и года выхода игры.
- `jp_sales`: отсутствуют данные в 4 строках (0.023% данных). Пропуски заменим на среднее значение в зависимости от названия платформы и года выхода игры.
- `critic_score`: пропущены данные в 8714 строках (51.39% данных). Пропуски затрудняют анализ влияния оценок критиков на продажи и популярность игр. Так как пропуски составляют значительную долю, заменим их на значение -1.
- `user_score`: отсутствуют данные в 9268 строках (54.65% данных). Это ограничивает возможности оценки пользовательского восприятия игр. Так как пропуски составляют значительную долю, заменим их на значение -1.
- `rating`: пропущены данные в 6871 строке (40.52% данных). Это затрудняет исследование возрастных ограничений и предпочтений игроков. Заменим пропуски на значение 'unknown'.

In [19]:
# Удаляем строки с пропущенными значениями в столбцах name и genre
df = df.dropna(subset = ['name', 'genre'])
df.shape

(16954, 11)

In [20]:
# Заполняем пропуски в столбцах eu_sales медианой в зависимости от названия платформы и года выхода игры
def eu_sales_by_platform_and_year(row):
    if pd.isna(row['eu_sales']):
        group = df[(df['platform'] == row['platform']) & (df['year_of_release'] == row['year_of_release'])]
        return group['eu_sales'].mean()
    else:
        return row['eu_sales']

df['eu_sales'] = df.apply(eu_sales_by_platform_and_year, axis = 1)

In [21]:
# Заполняем пропуски в столбцах jp_sales медианой в зависимости от названия платформы и года выхода игры
def jp_sales_by_platform_and_year(row):
    if pd.isna(row['jp_sales']):
        group = df[(df['platform'] == row['platform']) & (df['year_of_release'] == row['year_of_release'])]
        return group['jp_sales'].mean()
    else:
        return row['jp_sales']

df['jp_sales'] = df.apply(eu_sales_by_platform_and_year, axis = 1)

In [22]:
# Код ревьюера

df['jp_sales'] = df['jp_sales']\
    .fillna(df.groupby(['platform', 'year_of_release'])['jp_sales'].transform('mean'))

In [23]:
# Заменяем значения в столбцах critic_score, user_score на значение -1
df[['critic_score', 'user_score']] = df[['critic_score', 'user_score']].fillna(-1)

In [24]:
# Заменяем значения в столбце rating на значение 'unknown'
df['rating'] = df['rating'].fillna('unknown')

In [25]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16954 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16954 non-null  object 
 1   platform         16954 non-null  object 
 2   year_of_release  16954 non-null  int64  
 3   genre            16954 non-null  object 
 4   na_sales         16954 non-null  float64
 5   eu_sales         16954 non-null  float64
 6   jp_sales         16954 non-null  float64
 7   other_sales      16954 non-null  float64
 8   critic_score     16954 non-null  float64
 9   user_score       16954 non-null  float64
 10  rating           16954 non-null  object 
dtypes: float64(6), int64(1), object(4)
memory usage: 1.6+ MB


In [26]:
df.head()

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,Wii Sports,Wii,2006,Sports,41.36,28.96,28.96,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985,Platform,29.08,3.58,3.58,0.77,-1.0,-1.0,unknown
2,Mario Kart Wii,Wii,2008,Racing,15.68,12.76,12.76,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009,Sports,15.61,10.93,10.93,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996,Role-Playing,11.27,8.89,8.89,1.0,-1.0,-1.0,unknown


### 2.4. Явные и неявные дубликаты в данных

In [27]:
# Выводим уникальные значения столбца platform
df['platform'].unique()

array(['Wii', 'NES', 'GB', 'DS', 'X360', 'PS3', 'PS2', 'SNES', 'GBA',
       'PS4', '3DS', 'N64', 'PS', 'XB', 'PC', '2600', 'PSP', 'XOne',
       'WiiU', 'GC', 'GEN', 'DC', 'PSV', 'SAT', 'SCD', 'WS', 'NG', 'TG16',
       '3DO', 'GG', 'PCFX'], dtype=object)

In [28]:
# Выводим уникальные значения столбца rating
df['rating'].unique()

array(['E', 'unknown', 'M', 'T', 'E10+', 'K-A', 'AO', 'EC', 'RP'],
      dtype=object)

In [29]:
# Выводим уникальные значения столбца name
names = df['name'].sort_values().unique()
names = list(names)
names[:20]

[' Beyblade Burst',
 ' Fire Emblem Fates',
 " Frozen: Olaf's Quest",
 ' Haikyu!! Cross Team Match!',
 ' Tales of Xillia 2',
 "'98 Koshien",
 '.hack//G.U. Vol.1//Rebirth',
 '.hack//G.U. Vol.2//Reminisce',
 '.hack//G.U. Vol.2//Reminisce (jp sales)',
 '.hack//G.U. Vol.3//Redemption',
 '.hack//Infection Part 1',
 '.hack//Link',
 '.hack//Mutation Part 2',
 '.hack//Outbreak Part 3',
 '.hack//Quarantine Part 4: The Final Chapter',
 '.hack: Sekai no Mukou ni + Versus',
 '007 Racing',
 '007: Quantum of Solace',
 '007: The World is not Enough',
 '007: Tomorrow Never Dies']

In [30]:
# Выводим уникальные значения столбца genre
df['genre'].unique()

array(['Sports', 'Platform', 'Racing', 'Role-Playing', 'Puzzle', 'Misc',
       'Shooter', 'Simulation', 'Action', 'Fighting', 'Adventure',
       'Strategy', 'MISC', 'ROLE-PLAYING', 'RACING', 'ACTION', 'SHOOTER',
       'FIGHTING', 'SPORTS', 'PLATFORM', 'ADVENTURE', 'SIMULATION',
       'PUZZLE', 'STRATEGY'], dtype=object)

In [31]:
# Приводим значения в столбце 'genre' к нижнему регистру
df['genre'] = df['genre'].str.lower()

In [32]:
# Считаем количество дубликатов в датафрейме
df.duplicated().sum()

241

In [33]:
# Удаляем дубликаты
df = df.drop_duplicates()
df.shape[0]

16713

* В столбцах 'platform', 'rating', 'name' неявных дубликатов не обнаружено.
В столбце 'genre' неявные дубликаты есть. Для их устранения все значения в столбце 'genre' были приведены к нижнему регистру.
Всего был обнаружен 241 дубликат, с помощью метода drop_duplicates() дубликаты были удалены.

In [34]:
print(f'Количество строк до предобработки данных: {count_rows}')
deleted_rows = count_rows - df.shape[0]
print(f'Количество удаленных строк: {deleted_rows}')
deleted_rows_share = deleted_rows / count_rows
print(f'Количество удаленных строк в относительном значении: {deleted_rows_share}')
print(f'Количество строк после предобработки данных: {df.shape[0]}')

Количество строк до предобработки данных: 16956
Количество удаленных строк: 243
Количество удаленных строк в относительном значении: 0.014331210191082803
Количество строк после предобработки данных: 16713


В ходе предобработки данных:
1. названия столбцов приведены к стилю snake case
2. преобразованы некорректные типы данных столбцов `year_of_release`, `eu_sales`, `'jp_sale`, `user_score`
3. обработаны пропуски в столбцах `name`, `genre`, `year_of_release`, `eu_sales`, `jp_sales`, `critic_score`, `user_score`, и `rating`
4. удалены неявные и явные дубликаты'

---

## 3. Фильтрация данных

Отбираем данные по периоду с 2000 по 2013 год включительно.

In [35]:
df_actual = df[(df['year_of_release'] >= 2000) & (df['year_of_release']<=2013)]
df_actual.head()

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,Wii Sports,Wii,2006,sports,41.36,28.96,28.96,8.45,76.0,8.0,E
2,Mario Kart Wii,Wii,2008,racing,15.68,12.76,12.76,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009,sports,15.61,10.93,10.93,2.95,80.0,8.0,E
6,New Super Mario Bros.,DS,2006,platform,11.28,9.14,9.14,2.88,89.0,8.5,E
7,Wii Play,Wii,2006,misc,13.96,9.18,9.18,2.84,58.0,6.6,E


In [36]:
# Считаем кол-во строк в срезе
df_actual.shape[0]

12781

---

## 4. Категоризация данных


- Разделим все игры по оценкам пользователей и выделим такие категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).

In [37]:
# Проводим категоризацию данных по столбцу user_score
df['user_score_ctgr'] = pd.cut(df['user_score'], bins = [-1, 0, 3, 8, 10], labels = ['Нет данных', 'Низкая оценка', 'Средняя оценка', 'Высокая оценка'], right=False)

- Разделим все игры по оценкам критиков и выделим такие категории: высокая оценка (от 80 до 100 включительно), средняя оценка (от 30 до 80, не включая правую границу интервала) и низкая оценка (от 0 до 30, не включая правую границу интервала).

In [38]:
# Проводим категоризацию данных по столбцу сritic_score
def category_score(row):
    if row['critic_score']>=0 and row['critic_score']<30:
        return 'Низкая оценка'
    elif row['critic_score']>=30 and row['critic_score']<80:
        return 'Средняя оценка'
    elif row['critic_score']>=80 and row['critic_score']<=100:
        return 'Высокая оценка'
    else:
        return 'Нет данных'
df['critic_score_ctgr'] = df.apply(category_score, axis = 1)

In [39]:

df.head()

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,user_score_ctgr,critic_score_ctgr
0,Wii Sports,Wii,2006,sports,41.36,28.96,28.96,8.45,76.0,8.0,E,Высокая оценка,Средняя оценка
1,Super Mario Bros.,NES,1985,platform,29.08,3.58,3.58,0.77,-1.0,-1.0,unknown,Нет данных,Нет данных
2,Mario Kart Wii,Wii,2008,racing,15.68,12.76,12.76,3.29,82.0,8.3,E,Высокая оценка,Высокая оценка
3,Wii Sports Resort,Wii,2009,sports,15.61,10.93,10.93,2.95,80.0,8.0,E,Высокая оценка,Высокая оценка
4,Pokemon Red/Pokemon Blue,GB,1996,role-playing,11.27,8.89,8.89,1.0,-1.0,-1.0,unknown,Нет данных,Нет данных


После категоризации данных сгруппируем данные по выделенным категориям и посчитаем количество игр в каждой категории.

In [40]:
# Группируем данные по столбцу critic_score_ctgr
df.groupby( 'critic_score_ctgr', observed=True)['name'].count().sort_values(ascending = False)

critic_score_ctgr
Нет данных        8576
Средняя оценка    6063
Высокая оценка    2012
Низкая оценка       62
Name: name, dtype: int64

In [41]:
# Группируем данные по столбцу user_score_ctgr
df.groupby('user_score_ctgr', observed=True)['name'].count().sort_values(ascending = False)

user_score_ctgr
Нет данных        9123
Средняя оценка    4857
Высокая оценка    2588
Низкая оценка      145
Name: name, dtype: int64

Выделим топ-7 платформ по количеству игр, выпущенных за весь актуальный период.

In [42]:
df_platform2 = df['platform'].value_counts()
df_platform2.head(7)

PS2     2161
DS      2151
PS3     1331
Wii     1320
X360    1262
PSP     1209
PS      1197
Name: platform, dtype: int64

# Итоговый вывод
В результате работы была проведена предобработка данных о продажах видеоигр, пользовательских и экспертных оценках, а также жанрах и платформах и  получен чистый и структурированный срез информации. 
Было сделано:
1. Корректировка названий столбцов датафрейма
2. Корректировка типа данных
3. Поиск и работа с пропусками
4. Удаление дубликатов
5. Фильтрация данных (отобраны данные за период с 2000 по 2013 год включительно)
6. Категоризация данных (в датафрейм были добавлены новые столбцы `critic_score_ctgr` и `user_score_ctgr`, которые разделили все игры по оценкам пользователей и критиков на такие категории: высокая оценка, средняя оценка и низкая оценка.
7. Посчитаны количество игр в каждой категории по столбцам `critic_score_ctgr` и `user_score_ctgr`
8. Выделены топ-7 платформ по количеству игр, выпущенных за весь актуальный период.