# Развитие индустрии игр в начале XXI века
    
- Автор: Новикова Полина
- Дата: 21.02.2025

### Цели и задачи проекта

В этой статье используем данные `/datasets/new_games.csv`, которые содержат информацию об играх, выпущенных в XXI веке. Основные задачи — познакомиться с данными, проверить их корректность и провести предобработку, получив необходимый срез данных.

### Описание данных

Данные `/datasets/new_games.csv` содержат информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр:
* `Name` — название игры.
* `Platform` — название платформы.
* `Year of Release` — год выпуска игры.
* `Genre` — жанр игры.
* `NA sales` — продажи в Северной Америке (в миллионах проданных копий).
* `EU sales` — продажи в Европе (в миллионах проданных копий).
* `JP sales` — продажи в Японии (в миллионах проданных копий).
* `Other sales` — продажи в других странах (в миллионах проданных копий).
* `Critic Score` — оценка критиков (от 0 до 100).
* `User Score` — оценка пользователей (от 0 до 10).
* `Rating` — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.

### Содержимое проекта 
1. Загрузка и знакомство с данными. 
2. Проверка ошибок в данных и их предобработка.
3. Фильтрация данных.
4. Категоризация данных.
5. Итоговый вывод.

---

## 1. Загрузка данных и знакомство с ними

- Загрузим необходимые библиотеки Python и данные датасета `/datasets/new_games.csv`.


In [1]:
# Импортируем библиотеку pandas
import pandas as pd

In [2]:
# Выгружаем данные из датасета /datasets/new_games.csv в датафрейм hotels
games = pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv')

In [3]:
# Выводим информацию о датафрейме
games.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


In [4]:
# Выводим первые 10 строк датафрейма на экран
games.head(10)

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,
5,Tetris,GB,1989.0,Puzzle,23.2,2.26,4.22,0.58,,,
6,New Super Mario Bros.,DS,2006.0,Platform,11.28,9.14,6.5,2.88,89.0,8.5,E
7,Wii Play,Wii,2006.0,Misc,13.96,9.18,2.93,2.84,58.0,6.6,E
8,New Super Mario Bros. Wii,Wii,2009.0,Platform,14.44,6.94,4.7,2.24,87.0,8.4,E
9,Duck Hunt,NES,1984.0,Shooter,26.93,0.63,0.28,0.47,,,


Датасет `/datasets/new_games.csv` содержит 11 столбцов и 16956 строк, в которых представлена информация об играх.
Изучим типы данных и их корректность:
- **Числовые значения с плавающей запятой (float64).** Четыре столбца имеют тип `float64`, по ним можно сделать следующие выводы: 
    - `Year of Release`, скорее в данном столбце ошибка и нужно привести значения к типу `datetime64`.
    - Также ошибка в столбце `Critic Score`, данные должны быть записаны в типе `int64`.
    - `NA sales`, `Other sales`, содержат числовые значения с плавающей точкой , что логично для таких данных. Здесь тип данных `float64` подходит. 
- **Строковые данные (object).** Семь столбцов имеют тип данных `object`:
    - `Name`, `Platform`,`Genre` и `Rating` содержат строковую информацию, что логично для текстовых данных. Выбранный тип данных является корректным, так как эти столбцы содержат текстовую информацию.
    - `EU sales`, `JP sales` содержат данные о продажах, а в столбце `User Score` хранятся данные об оценках пользлвателей. Данные значения следует преобразовать их в тип `float64`.

После анализа типов данных видно, что около половины значений в столбце представлены в неподходящем для них типе данных.

---

## 2.  Проверка ошибок в данных и их предобработка


### 2.1. Названия, или метки, столбцов датафрейма

- Выведем на экран названия всех столбцов датафрейма и проверьте их стиль написания.
- Приведем все столбцы к стилю snake case. Названия должны быть в нижнем регистре, а вместо пробелов — подчёркивания.

In [5]:
# Выводим на экран название столбцов
games.columns

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')

In [6]:
# Меняем все столбцы к стилю snake case. Для этого сначала приведем в нижний регистр
games.columns = games.columns.str.lower()

In [7]:
# Вместо пробелов вставим подчёркивания
games.columns = games.columns.str.replace(' ', '_')

### 2.2. Типы данных


In [8]:
# Преобразовываем данные к float64
games['eu_sales'] = pd.to_numeric(games['eu_sales'], errors='coerce')
games['jp_sales'] = pd.to_numeric(games['jp_sales'], errors='coerce')
games['user_score'] = pd.to_numeric(games['user_score'], errors='coerce')

Преобразовываем данные к int64. Удаляем пропуски в year_of_release (данный метод можно использовать, тк пропуски составляют менее 2% от всех данных.

In [9]:
# Удаляем пропуски
games=games[~games['year_of_release'].isna()] 

In [10]:
# Меняем тип данных в столбце year_of_release
games['year_of_release'] = games['year_of_release'].astype('int64')

In [11]:
# Проверем полученные типы
games.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16681 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16679 non-null  object 
 1   platform         16681 non-null  object 
 2   year_of_release  16681 non-null  int64  
 3   genre            16679 non-null  object 
 4   na_sales         16681 non-null  float64
 5   eu_sales         16675 non-null  float64
 6   jp_sales         16677 non-null  float64
 7   other_sales      16681 non-null  float64
 8   critic_score     8085 non-null   float64
 9   user_score       7558 non-null   float64
 10  rating           9901 non-null   object 
dtypes: float64(6), int64(1), object(4)
memory usage: 1.5+ MB


### 2.3. Наличие пропусков в данных


С помощью метода `info()` определили,что есть пропуски. Поэтому стоит проанализировать процент пустых значений со всеми остальными значениями.

In [12]:
# Выводим количество пропущенных строк в датафрейме
games.isna().sum().sort_values(ascending = False)

user_score         9123
critic_score       8596
rating             6780
eu_sales              6
jp_sales              4
name                  2
genre                 2
platform              0
year_of_release       0
na_sales              0
other_sales           0
dtype: int64

In [13]:
# Подсчитываем процент строк с пропусками
round((games.isna().sum() / len(games) * 100).sort_values(ascending = False),3)

user_score         54.691
critic_score       51.532
rating             40.645
eu_sales            0.036
jp_sales            0.024
name                0.012
genre               0.012
platform            0.000
year_of_release     0.000
na_sales            0.000
other_sales         0.000
dtype: float64

В данных наблюдаются пропуски в следующих столбцах:
- `user_score`: в 9268 строках (54,7% данных) отсутсвует информация об оценках пользователей. Это могло случится, потому что многие пользователи игнорируют просьбу оценить игру. В данном случае лучше использовать значение-индикатор.
- `critic_score`: в 8714 строках (51,4% данных) отсутсвует информация об оценках критиков. Аналогичная ситуация как и в случае с `user_score`.
- `rating`: в 6871 строках (40,5% данных) отсутсвует информация об возрастном рейтинге. Это может быть связано с тем, что одни и те же элементы контента в разных странах могут оцениваться по-разному. В данном случае лучше использовать значение-индикатор.
- `eu_sales`: в 6 строках (0,035% данных) отсутвют данные о продажах в Европе. В данном случае лучше заменить пропуски на среднее значение.
- `jp_sales`: в 4 строках (0,024% данных) отсутвют данные о продажах в Японии. В данном случае лучше заменить пропуски на среднее значение.
- `name` и `genre`: в каждом по 2 строки (0,012% данных). В данном случае лучше удалить пропуски.

Работа с пропусками. Для дальнейшего анализа посчитаем количество строк до обработки и после.

In [14]:
# Количество строк до обработки
games_before = games.shape[0]
print(games_before)

16681


In [15]:
# Замена с помощью значения-индикатора, в данном случае -1
games[['user_score','critic_score']] = games[['user_score','critic_score']].fillna(-1)

In [16]:
# Замена с помощью значения-индикатора, в данном случае 'UNKNOWN'
games['rating'] = games['rating'].fillna('UNKNOWN')

In [17]:
# Удаление пропусков
games = games.dropna(subset = ['name','genre'])

In [18]:
# Замена с помощью среднего значения 
games['eu_sales'] = games['eu_sales'].fillna(games.groupby(['platform','year_of_release'])['eu_sales'].transform('mean'))
games['jp_sales'] = games['jp_sales'].fillna(games.groupby(['platform','year_of_release'])['jp_sales'].transform('mean'))

In [19]:
# Количество строк после обработки
games_after = games.shape[0]
print(games_after)

16679


In [20]:
# Проверем пропуски
games.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16679 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16679 non-null  object 
 1   platform         16679 non-null  object 
 2   year_of_release  16679 non-null  int64  
 3   genre            16679 non-null  object 
 4   na_sales         16679 non-null  float64
 5   eu_sales         16679 non-null  float64
 6   jp_sales         16679 non-null  float64
 7   other_sales      16679 non-null  float64
 8   critic_score     16679 non-null  float64
 9   user_score       16679 non-null  float64
 10  rating           16679 non-null  object 
dtypes: float64(6), int64(1), object(4)
memory usage: 1.5+ MB


### 2.4. Явные и неявные дубликаты в данных


In [21]:
# Проверяем наличие неявных дубликатов с названиями жанра игры
unique_genre = games['genre'].unique()
print(unique_genre)

['Sports' 'Platform' 'Racing' 'Role-Playing' 'Puzzle' 'Misc' 'Shooter'
 'Simulation' 'Action' 'Fighting' 'Adventure' 'Strategy' 'MISC'
 'ROLE-PLAYING' 'RACING' 'ACTION' 'SHOOTER' 'FIGHTING' 'SPORTS' 'PLATFORM'
 'ADVENTURE' 'SIMULATION' 'PUZZLE' 'STRATEGY']


In [22]:
# Проверяем наличие неявных дубликатов с названиями платформ
unique_platform = games['platform'].unique()
print(unique_platform)

['Wii' 'NES' 'GB' 'DS' 'X360' 'PS3' 'PS2' 'SNES' 'GBA' 'PS4' '3DS' 'N64'
 'PS' 'XB' 'PC' '2600' 'PSP' 'XOne' 'WiiU' 'GC' 'GEN' 'DC' 'PSV' 'SAT'
 'SCD' 'WS' 'NG' 'TG16' '3DO' 'GG' 'PCFX']


In [23]:
# Проверяем наличие неявных дубликатов с названиями игр
unique_name = games['name'].unique()
print(unique_name)

['Wii Sports' 'Super Mario Bros.' 'Mario Kart Wii' ...
 'Woody Woodpecker in Crazy Castle 5' 'LMA Manager 2007'
 'Haitaka no Psychedelica']


In [24]:
# Проверяем наличие неявных дубликатов в рейтинге
unique_rating = games['rating'].unique()
print(unique_rating)

['E' 'UNKNOWN' 'M' 'T' 'E10+' 'K-A' 'AO' 'EC' 'RP']


Было выяснено, что в некоторых проверенных столбцах есть неявные дубликаты. Проведем нормолизацию.

In [25]:
# Названия или жанры игр можно привести к нижнему регистру
games['name'] = games['name'].str.lower()
games['genre'] = games['genre'].str.lower()

In [26]:
# Название платформ привести к верхнему регистру
games['platform'] = games['platform'].str.upper()

In [27]:
# Обновляем данные в столбце рейтинг
games['rating'] = games['rating'].str.replace('K-A', 'E')

In [28]:
# Проверем и выведем первые 10 строк
games.head(10)

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,wii sports,WII,2006,sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,super mario bros.,NES,1985,platform,29.08,3.58,6.81,0.77,-1.0,-1.0,UNKNOWN
2,mario kart wii,WII,2008,racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,wii sports resort,WII,2009,sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,pokemon red/pokemon blue,GB,1996,role-playing,11.27,8.89,10.22,1.0,-1.0,-1.0,UNKNOWN
5,tetris,GB,1989,puzzle,23.2,2.26,4.22,0.58,-1.0,-1.0,UNKNOWN
6,new super mario bros.,DS,2006,platform,11.28,9.14,6.5,2.88,89.0,8.5,E
7,wii play,WII,2006,misc,13.96,9.18,2.93,2.84,58.0,6.6,E
8,new super mario bros. wii,WII,2009,platform,14.44,6.94,4.7,2.24,87.0,8.4,E
9,duck hunt,NES,1984,shooter,26.93,0.63,0.28,0.47,-1.0,-1.0,UNKNOWN


Проверем наличие явных дубликатов в данных и посчитаем их количество.

In [29]:
# Находим дубликаты
duplicates = games[games.duplicated()]

In [30]:
# Выводим дубликаты
display(duplicates)

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
268,batman: arkham asylum,PS3,2009,action,2.24,1.31,0.07,0.61,91.0,8.9,T
368,james bond 007: agent under fire,PS2,2001,shooter,1.90,1.13,0.10,0.41,72.0,7.9,T
717,god of war: ascension,PS3,2013,action,1.23,0.63,0.04,0.35,80.0,7.5,M
823,wipeout: the game,WII,2009,misc,1.94,0.00,0.00,0.12,-1.0,-1.0,UNKNOWN
848,rayman raving rabbids: tv party,WII,2008,misc,0.72,1.08,0.00,0.23,73.0,7.7,E10+
...,...,...,...,...,...,...,...,...,...,...,...
16671,fullmetal alchemist: prince of the dawn,WII,2009,adventure,0.00,0.00,0.01,0.00,-1.0,-1.0,UNKNOWN
16753,routes pe,PS2,2007,adventure,0.00,0.00,0.01,0.00,-1.0,-1.0,UNKNOWN
16799,transformers: prime,WII,2012,action,0.00,0.01,0.00,0.00,-1.0,-1.0,UNKNOWN
16912,metal gear solid v: the definitive experience,XONE,2016,action,0.01,0.00,0.00,0.00,-1.0,-1.0,M


После проведения анализа на явные дубликаты, можно выявить, что в датасете 235 дубликатов. Следующим шагом будет их удаление.

Воспользуемся методом `drop_duplicates()` для удаления дубликатов. Подсчитаем количество строк до и после удаления дубликатов.

In [31]:
# Сохраняем количество строк до удаления дубликатов
initial_row_count = games.shape[0]

In [32]:
# Удаляем дубликаты
games = games.drop_duplicates()

In [33]:
# Сохраняем количество строк после удаления дубликатов
final_row_count = games.shape[0]

In [34]:
# Выводим результаты
print(f"Количество строк до удаления дубликатов: {initial_row_count}")
print(f"Количество строк после удаления дубликатов: {final_row_count}")

Количество строк до удаления дубликатов: 16679
Количество строк после удаления дубликатов: 16444


In [35]:
# Узнаем в процентном соотношении изменения данных, после преобразования пропусков
round(((games_before-games_after)/games_before) * 100,2)

0.01

In [36]:
# Узнаем в процентном соотношении изменения данных, после удаления дубликатов
round(((initial_row_count-final_row_count)/initial_row_count) * 100,2)

1.41

In [37]:
# Проведем проверку
games.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16444 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16444 non-null  object 
 1   platform         16444 non-null  object 
 2   year_of_release  16444 non-null  int64  
 3   genre            16444 non-null  object 
 4   na_sales         16444 non-null  float64
 5   eu_sales         16444 non-null  float64
 6   jp_sales         16444 non-null  float64
 7   other_sales      16444 non-null  float64
 8   critic_score     16444 non-null  float64
 9   user_score       16444 non-null  float64
 10  rating           16444 non-null  object 
dtypes: float64(6), int64(1), object(4)
memory usage: 1.5+ MB


После проведения предобработки данных можно сделать следующик выводы.
1. Названия столбцов были изменены на snake case.
2. Для оптимизации работы с данными в датафрейме были сделаны такие изменения типов данных:
    - `eu_sales`, `jp_sales`, `user_score`: тип данных изменён с object на float64.
    - `year_of_release`: тип данных изменён с float64 на int64.
3. Определили пропуски, нашли способ их исправить.После анализа выяснилось, что исправление пропусков уменьшило данные лишь на 2 строки (0,01%). Данное отклонение является допустимым.
4. В столбцах названия и жанра игр, в названии платформ были неявные дубликаты. В столбце рейтинга, значение 'K-A' устарено, было решено заменить его на 'E'.
5. Также датасет был очищен от явных дубликатов, таким образом осталось по 16444 строк, что меньше 1,4%.

---

## 3. Фильтрация данных

Коллеги хотят изучить историю продаж игр в начале XXI века, и их интересует период с 2000 по 2013 год включительно. Отберем данные по этому показателю. Сохраним новый срез данных в отдельном датафрейме - `games_actual`.

In [38]:
# Создаем датафрейм games_actual на актуальный  период
games_actual = games.loc[(games['year_of_release'] >= 2000 ) & (games['year_of_release']<=2013)]

In [39]:
# Выводим информацию про games_actual
games_actual.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 12781 entries, 0 to 16954
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             12781 non-null  object 
 1   platform         12781 non-null  object 
 2   year_of_release  12781 non-null  int64  
 3   genre            12781 non-null  object 
 4   na_sales         12781 non-null  float64
 5   eu_sales         12781 non-null  float64
 6   jp_sales         12781 non-null  float64
 7   other_sales      12781 non-null  float64
 8   critic_score     12781 non-null  float64
 9   user_score       12781 non-null  float64
 10  rating           12781 non-null  object 
dtypes: float64(6), int64(1), object(4)
memory usage: 1.2+ MB


---

## 4. Категоризация данных
    
Проведем категоризацию данных:
- Разделим все игры по оценкам пользователей и выделите такие категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).

In [40]:
# Чтобы избежать предупреждения от програмы, напишем следующий код
import warnings
warnings.filterwarnings('ignore')

In [41]:
# Пользовательская функция для категоризации
def category_user(score):
    if (score >=8) & (score <=10):
        return 'Высокая оценка'
    elif (score >=3) & (score < 8):
        return 'Средняя оценка'
    elif (score >=0) & (score < 3):
        return 'Низкая оценка'
    else:
        return 'Нет оценки'
# Применение функции к games_actual
games_actual['user_category'] = games_actual['user_score'].apply(category_user)

Разделим все игры по оценкам критиков и выделите такие категории: высокая оценка (от 80 до 100 включительно), средняя оценка (от 30 до 80, не включая правую границу интервала) и низкая оценка (от 0 до 30, не включая правую границу интервала).

In [42]:
# Пользовательская функция для категоризации
def category_critic(score):
    if (score >=80) & (score <=100):
        return 'Высокая оценка'
    elif (score >=30) & (score < 80):
        return 'Средняя оценка'
    elif (score >=0) & (score < 30):
        return 'Низкая оценка'
    else:
        return 'Нет оценки'
# Применение функции к games_actual
games_actual['critic_category'] = games_actual['critic_score'].apply(category_critic)

In [43]:
# Проведем проверку
games_actual.head(10)

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,user_category,critic_category
0,wii sports,WII,2006,sports,41.36,28.96,3.77,8.45,76.0,8.0,E,Высокая оценка,Средняя оценка
2,mario kart wii,WII,2008,racing,15.68,12.76,3.79,3.29,82.0,8.3,E,Высокая оценка,Высокая оценка
3,wii sports resort,WII,2009,sports,15.61,10.93,3.28,2.95,80.0,8.0,E,Высокая оценка,Высокая оценка
6,new super mario bros.,DS,2006,platform,11.28,9.14,6.5,2.88,89.0,8.5,E,Высокая оценка,Высокая оценка
7,wii play,WII,2006,misc,13.96,9.18,2.93,2.84,58.0,6.6,E,Средняя оценка,Средняя оценка
8,new super mario bros. wii,WII,2009,platform,14.44,6.94,4.7,2.24,87.0,8.4,E,Высокая оценка,Высокая оценка
10,nintendogs,DS,2005,simulation,9.05,10.95,1.93,2.74,-1.0,-1.0,UNKNOWN,Нет оценки,Нет оценки
11,mario kart ds,DS,2005,racing,9.71,7.47,4.13,1.9,91.0,8.6,E,Высокая оценка,Высокая оценка
13,wii fit,WII,2007,sports,8.92,8.03,3.6,2.15,80.0,7.7,E,Средняя оценка,Высокая оценка
14,kinect adventures!,X360,2010,misc,15.0,4.89,0.24,1.69,61.0,6.3,E,Средняя оценка,Средняя оценка


Сгруппируем данные по выделенным категориям и посчитаем количество игр в каждой категории.

In [44]:
# Группировка по оценкам пользователей
grouped_user_category = games_actual.groupby('user_category')['name'].count()
print(grouped_user_category)

user_category
Высокая оценка    2286
Нет оценки        6298
Низкая оценка      116
Средняя оценка    4081
Name: name, dtype: int64


In [45]:
# Группировка по оценкам экспертов
grouped_critic_category = games_actual.groupby('critic_category')['name'].count()
print(grouped_critic_category)

critic_category
Высокая оценка    1692
Нет оценки        5612
Низкая оценка       55
Средняя оценка    5422
Name: name, dtype: int64


In [46]:
# Подсчет количества игр в зависимости от оценки пользователей и экспертов одновременно
grouped_all = games_actual.groupby(['user_category','critic_category'])['name'].count()
print(grouped_all)

user_category   critic_category
Высокая оценка  Высокая оценка     1017
                Нет оценки          101
                Низкая оценка         1
                Средняя оценка     1167
Нет оценки      Высокая оценка       33
                Нет оценки         5237
                Низкая оценка         7
                Средняя оценка     1021
Низкая оценка   Высокая оценка        1
                Нет оценки           21
                Низкая оценка        17
                Средняя оценка       77
Средняя оценка  Высокая оценка      641
                Нет оценки          253
                Низкая оценка        30
                Средняя оценка     3157
Name: name, dtype: int64


Выделим топ-7 платформ по количеству игр, выпущенных за весь актуальный период.

In [47]:
# Группируем количество игр по столбцу названий платформ
grouped_platform = games_actual.groupby('platform')['name'].count()

In [48]:
# Сортируем
sorted_platform = grouped_platform.sort_values(ascending=False)

In [49]:
# Выводим топ-7 платформ
sorted_platform.head(7)

platform
PS2     2127
DS      2120
WII     1275
PSP     1180
X360    1121
PS3     1087
GBA      811
Name: name, dtype: int64

---

## 5. Итоговый вывод


Были загружены данные `/datasets/new_games.csv` содержит 11 столбцов и 16956 строк, в которых представлена информация об играх. 
* При первичном знакомстве с данными и их предобработке получили такие результаты:
В семи столбцах (`user_score`, `critic_score`, `rating`, `eu_sales`, `jp_sales`, `name`, `genre`) были обнаружены пропущенные значения. Максимальное значение пропущенных данных в столбце `user_score` — 50%.
* Для оптимизации работы с данными в датафрейме были произведены следующие изменения типов данных:
    - `eu_sales`, `jp_sales`, `user_score`: тип данных изменён с object на float64;
    - `year_of_release`: тип данных изменён с float64 на int64.
* Для дополнительной работы с данными был создан датафрейм `games_actual` с периодом с 2000 по 2013 и дополнительные столбцы:
    - `user_category`: столбец с оценкой пользователей в формате: "Высокая оценка", "Средняя оценка", "Низкая оценка", "Нет оценки";
    - `critic_category`: столбец с оценкой экспертов в формате: "Высокая оценка", "Средняя оценка", "Низкая оценка", "Нет оценки".
* Был составлен топ-7 платформ по количеству игр, выпущенных за весь актуальный период. Анализ показал, что самой покупаемой платформой является `PS2` с продажей 2127 копий игр.