# Секреты темнолесья

- Автор: Сумарокова Елизавета Сергеевна
- Дата: 10.03.2025

### Цели и задачи проекта
Изучить и проанализировать данные, чтобы помочь команде игры "Секреты Темнолесья" привлечь новую аудиторию и подготовить статью о развитии индустрии игр в начале XXI века.

### Описание данных
В проекте будут использованы данные датасета `/datasets/new_games.csv` с таким описанием:
- `Name` — название игры.
- `Platform` — название платформы.
- `Year of Release` — год выпуска игры.
- `Genre` — жанр игры.
- `NA sales` — продажи в Северной Америке (в миллионах проданных копий).
- `EU sales` — продажи в Европе (в миллионах проданных копий).
- `JP sales` — продажи в Японии (в миллионах проданных копий).
- `Other sales` — продажи в других странах (в миллионах проданных копий).
- `Critic Score` — оценка критиков (от 0 до 100).
- `User Scor`e — оценка пользователей (от 0 до 10).
- `Rating` — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию.

### Содержимое проекта
1. Загрузка и знакомство с данными
2. Проверка ошибок в данных и их предобработка
    * Названия столбцов датафрейма
    * Корректировка типа данных
    * Поиск пропущенных значений
    * Работа с дубликатами
3. Фильтрация данных
4. Категоризация данных
5. Итоговые выводы

## Загрузка и знакомство с данными:

Загрузим необходимые библиотеки для анализа данных и данные из датасета `/datasets/new_games.csv`. Затем выведем основную информацию о данных с помощью метода `info()` и первые строки датафрейма.

In [1]:
# Импортируем библиотеку pandas
import pandas as pd

In [2]:
# Выгружаем данные из датасета hotel_dataset.csv в датафрейм hotels
dataset = 'https://code.s3.yandex.net//datasets/new_games.csv'
games = pd.read_csv(dataset)

In [3]:
# Выводим информацию о датафрейме
games.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


In [4]:
# Выводим первые строки датафрейма на экран
games.head()

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


Датасет `/datasets/new_games.csv` содержит 11 столбцов и 1695 строк, в которых представлена информация о компьютерных играх.

Изучим типыфданных и их корректность:

- **Числовые значения с плавающей запятой (float64).** Четыре столбца имеют тип данных `float64`:
    - `Year of Release` содержит информацию о годе выпуска игры, здесь тип данных можно заменить на `int`.
    - `NA sales`, `Other sales` содержит информацию о количестве продаж в Севернной Америке (в миллионах копий), здесь тип данных `float64` подходит.
    - `Critic Score` содержит информацию об оценке критиков. Здесь тип данных `float64` подходит.

- **Строковые данные (object).** Семь столбцов имеют тип данных `object`:
    - `Name`, `Platform`, `Genre`, `Rating` содержат строковую информацию (название игры, платформы, жанр, рейтинг организации ESRB), что логично для текстовых данных. Здесь тип данных `object` подходит.
    - `EU sales`, `JP sales`, `User Score` хранят информацию о количестве продаж в Европе и Японии и о пользовательском рейтинге игры. Для этих данных лучше подопйдёт тип данных `float64`.

После анализа типов данных видно, что часть столбцов представлены некорректно, и для оптимизации работы необходимо преобразовать строковые данные, содержащие численную нформацию, к типу `float64`.


## Проверка ошибок в данных и их предобработка

#### Названия столбцов датафрейма

In [5]:
# Выводим названия столбцов датафрейма
display(games.columns)

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')

In [6]:
# Переводим названия столбцов к стилю snake_case
# Переводим названия в нижний регистр
games.columns = games.columns.str.lower()
# Заменяем пробелы на знак нижнего подчёркивания
games.columns = games.columns.str.replace(' ', '_')
# Выводим результат для проверки
display(games.columns)

Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')

#### Корректировка типа данных

In [7]:
# Преобразовываем типы данных столбцов 'EU sales','JP sales', 'User Score'
# к типу float64
for column in ['eu_sales','jp_sales', 'user_score']:
    games[column] = pd.to_numeric(games[column], errors='coerce')
#Заменяем пропуски в колонке 'Year of Release' на 9999
games['year_of_release'] = games['year_of_release'].fillna(9999)
#Преобразовываем тип данных столбца 'Year of Release' к типу данных int64
games['year_of_release'] = games['year_of_release'].astype('int64')

In [8]:
games[['eu_sales','jp_sales', 'user_score', 'year_of_release']].dtypes

eu_sales           float64
jp_sales           float64
user_score         float64
year_of_release      int64
dtype: object

Для оптимизации работы с данными в датафрейме были сделаны такие изменения типов данных:
- `year_of_release`: тип данных изменён с `float64` на `int64`. Для этого в начале в столбце все пропуски были заменены на нули. Изначально тип данных для столбца определялся как `float64`, вероятнее всего, из-за наличия пропусков.
- `eu_sales`,`jp_sales`, `user_score`: тип данных изменён с `object` на `float64`. Изначально тип данных для этих столбцов определялся как `object`, вероятнее всего, из-за наличия и, возможно, различного обозначения внутри данных пропусков.

In [9]:
# Проверим гипотезу
# создадим новый датафрейм, так как в рабочем данные уже изменены
df = pd.read_csv(dataset)
# выведем уникальные значения столбцов EU sales, JP sales и User Score
display(df['EU sales'].unique())
display(df['JP sales'].unique())
display(df['User Score'].unique())

array(['28.96', '3.58', '12.76', '10.93', '8.89', '2.26', '9.14', '9.18',
       '6.94', '0.63', '10.95', '7.47', '6.18', '8.03', '4.89', '8.49',
       '9.09', '0.4', '3.75', '9.2', '4.46', '2.71', '3.44', '5.14',
       '5.49', '3.9', '5.35', '3.17', '5.09', '4.24', '5.04', '5.86',
       '3.68', '4.19', '5.73', '3.59', '4.51', '2.55', '4.02', '4.37',
       '6.31', '3.45', '2.81', '2.85', '3.49', '0.01', '3.35', '2.04',
       '3.07', '3.87', '3.0', '4.82', '3.64', '2.15', '3.69', '2.65',
       '2.56', '3.11', '3.14', '1.94', '1.95', '2.47', '2.28', '3.42',
       '3.63', '2.36', '1.71', '1.85', '2.79', '1.24', '6.12', '1.53',
       '3.47', '2.24', '5.01', '2.01', '1.72', '2.07', '6.42', '3.86',
       '0.45', '3.48', '1.89', '5.75', '2.17', '1.37', '2.35', '1.18',
       '2.11', '1.88', '2.83', '2.99', '2.89', '3.27', '2.22', '2.14',
       '1.45', '1.75', '1.04', '1.77', '3.02', '2.75', '2.16', '1.9',
       '2.59', '2.2', '4.3', '0.93', '2.53', '2.52', '1.79', '1.3', '2.6',
   

array(['3.77', '6.81', '3.79', '3.28', '10.22', '4.22', '6.5', '2.93',
       '4.7', '0.28', '1.93', '4.13', '7.2', '3.6', '0.24', '2.53',
       '0.98', '0.41', '3.54', '4.16', '6.04', '4.18', '3.84', '0.06',
       '0.47', '5.38', '5.32', '5.65', '1.87', '0.13', '3.12', '0.36',
       '0.11', '4.35', '0.65', '0.07', '0.08', '0.49', '0.3', '2.66',
       '2.69', '0.48', '0.38', '5.33', '1.91', '3.96', '3.1', '1.1',
       '1.2', '0.14', '2.54', '2.14', '0.81', '2.12', '0.44', '3.15',
       '1.25', '0.04', '0.0', '2.47', '2.23', '1.69', '0.01', '3.0',
       '0.02', '4.39', '1.98', '0.1', '3.81', '0.05', '2.49', '1.58',
       '3.14', '2.73', '0.66', '0.22', '3.63', '1.45', '1.31', '2.43',
       '0.7', '0.35', '1.4', '0.6', '2.26', '1.42', '1.28', '1.39',
       '0.87', '0.17', '0.94', '0.19', '0.21', '1.6', '0.16', '1.03',
       '0.25', '2.06', '1.49', '1.29', '0.09', '2.87', '0.03', '0.78',
       '0.83', '2.33', '2.02', '1.36', '1.81', '1.97', '0.91', '0.99',
       '0.95', '2.0'

array(['8', nan, '8.3', '8.5', '6.6', '8.4', '8.6', '7.7', '6.3', '7.4',
       '8.2', '9', '7.9', '8.1', '8.7', '7.1', '3.4', '5.3', '4.8', '3.2',
       '8.9', '6.4', '7.8', '7.5', '2.6', '7.2', '9.2', '7', '7.3', '4.3',
       '7.6', '5.7', '5', '9.1', '6.5', 'tbd', '8.8', '6.9', '9.4', '6.8',
       '6.1', '6.7', '5.4', '4', '4.9', '4.5', '9.3', '6.2', '4.2', '6',
       '3.7', '4.1', '5.8', '5.6', '5.5', '4.4', '4.6', '5.9', '3.9',
       '3.1', '2.9', '5.2', '3.3', '4.7', '5.1', '3.5', '2.5', '1.9', '3',
       '2.7', '2.2', '2', '9.5', '2.1', '3.6', '2.8', '1.8', '3.8', '0',
       '1.6', '9.6', '2.4', '1.7', '1.1', '0.3', '1.5', '0.7', '1.2',
       '2.3', '0.5', '1.3', '0.2', '0.6', '1.4', '0.9', '1', '9.7'],
      dtype=object)

Действительно видно, что в столбцах `eu_sales`,`jp_sales` пропущенные значения обозначались как 'unknown', а в столбце `user_score` как 'nan, а также присутствуют значения 'tbd', которые, вероятно, являются аббревиатурой от английского "To Be Determined" и, по сути, тоже являются пропуском.

#### Поиск пропущенных значений

In [10]:
# Выводим количество пропущенных строк в датафрейме
games.isna().sum()

name                  2
platform              0
year_of_release       0
genre                 2
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8714
user_score         9268
rating             6871
dtype: int64

In [11]:
# Подсчитываем процент строк с пропусками
games.isna().sum() / len(games) * 100

name                0.011795
platform            0.000000
year_of_release     0.000000
genre               0.011795
na_sales            0.000000
eu_sales            0.035386
jp_sales            0.023590
other_sales         0.000000
critic_score       51.391838
user_score         54.659118
rating             40.522529
dtype: float64

In [12]:
# Вспомним, что раннее мы заменили пропуски на нули в столбце year_of_release
display(games[games['year_of_release']==9999]['year_of_release'].count())
display(games[games['year_of_release']==9999]['year_of_release'].count()/len(games)*100)

275

1.6218447747110165

Пропуски данных имеются в столбцах `name` (2 или 0,01%), `genre` (2 или 0,01%), eu_sales (6 или 0.04%),`jp_sales` (4 или 0.03%), `critic_score` (8714 или 51,40%), `user_score` (9268 или 54,66%), `Rating` (6871 или 40,52%).

Строки с пропусками в столбцах `name`, `genre`, `eu_sales` и `jp_sales` можно удалить, так как их очень мало и они не будут оказывать влияние на результаты анализа. Но даже их наличие не будет влиять на результаты анализа, поскольку нас интересуют другие столбцы.

Также пропуски есть в столбце `year_of_release` (275 или 1,62%). Их не так много и их можно удалить из датафрейма.

In [13]:
# Изучим данные с пропусками и их взаимосвзяь с другими полями датафрейма
missing_bool_idx = games.isna().any(axis=1)
games_missings = games[missing_bool_idx]
display(games_missings)

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
1,Super Mario Bros.,NES,1985,Platform,29.08,3.58,6.81,0.77,,,
4,Pokemon Red/Pokemon Blue,GB,1996,Role-Playing,11.27,8.89,10.22,1.00,,,
5,Tetris,GB,1989,Puzzle,23.20,2.26,4.22,0.58,,,
9,Duck Hunt,NES,1984,Shooter,26.93,0.63,0.28,0.47,,,
10,Nintendogs,DS,2005,Simulation,9.05,10.95,1.93,2.74,,,
...,...,...,...,...,...,...,...,...,...,...,...
16951,Samurai Warriors: Sanada Maru,PS3,2016,Action,0.00,0.00,0.01,0.00,,,
16952,LMA Manager 2007,X360,2006,Sports,0.00,0.01,0.00,0.00,,,
16953,Haitaka no Psychedelica,PSV,2016,Adventure,0.00,0.00,0.01,0.00,,,
16954,Spirits & Spells,GBA,2003,Platform,0.01,0.00,0.00,0.00,,,


**Промеужточный итог:** похоже, что пропуски в столбцах `critic_score`, `user_score` и `rating` в большинстве случаев совпадают. К сожалению, мы не можем заменить значения в этих столбцах на средние, поскольку это коренным образом повлияет на результаты анализа. Проверим, есть ли взаимосвязь между пропусками в данных столбцах и годом выпуска игры.

In [14]:
#Посмотрим в какие годы выходили игры, данных по которым не хватает
games_missings['year_of_release'].unique()

array([1985, 1996, 1989, 1984, 2005, 1999, 1990, 2006, 1988, 2002, 2010,
       1998, 2015, 2013, 2009, 2014, 1992, 1993, 2004, 1994, 1997, 2012,
       2007, 1982, 2016, 2003, 2011, 1986, 2000, 2001, 1995, 2008, 1991,
       1981, 1987, 1980, 1983, 9999])

In [15]:
display(games_missings.groupby('year_of_release')['name'].count())

year_of_release
1980      9
1981     46
1982     37
1983     18
1984     14
1985     13
1986     22
1987     17
1988     14
1989     17
1990     16
1991     42
1992     42
1993     60
1994    120
1995    220
1996    260
1997    280
1998    359
1999    310
2000    255
2001    229
2002    379
2003    282
2004    293
2005    381
2006    489
2007    618
2008    846
2009    895
2010    842
2011    692
2012    353
2013    281
2014    331
2015    399
2016    295
9999    151
Name: name, dtype: int64

Гипотеза не подтвердилась, наличие пропусков не зависит от года выпуска игры. Как уже говорилось раннее, заменить эти пропуски мы не можем, поэтому на данный момент оставим их без изменений.

Для оптимизации дальнейшей работы заменим пропуски в текстовых столбцах на значение `no data`, а в числовых на `-1`. Таким образом пропущенные значения не будут влиять на результаты анализа

In [16]:
for column in ['name', 'platform', 'genre', 'rating']:
    games[column] = games[column].fillna('no data')
for column in ['critic_score', 'user_score']:
    games[column] = games[column].fillna(-1)

#### Работа с дубликатами

In [17]:
# Ищем явные дупликаты
df = games[games.duplicated()==True]
display(df.sort_values('name'))

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
15192,Beyblade Burst,3DS,2016,Role-Playing,0.00,0.00,0.03,0.00,-1.0,-1.0,no data
15302,11eyes: CrossOver,X360,2009,Adventure,0.00,0.00,0.02,0.00,-1.0,-1.0,no data
13099,4 Elements,PC,2009,Puzzle,0.00,0.04,0.00,0.01,-1.0,7.4,E
4959,Alpha Protocol,X360,2010,Role-Playing,0.23,0.12,0.00,0.04,63.0,7.2,M
13496,American Chopper 2: Full Throttle,XB,2005,Racing,0.04,0.01,0.00,0.00,-1.0,-1.0,T
...,...,...,...,...,...,...,...,...,...,...,...
12324,Xbox Live Arcade Unplugged Volume 1,X360,2006,Misc,0.05,0.01,0.00,0.01,-1.0,-1.0,no data
16104,Yoake Yori Ruriiro na Portable,PSP,2010,Adventure,0.00,0.00,0.02,0.00,-1.0,-1.0,no data
10662,Yu-Gi-Oh! 5D's Wheelie Breakers,Wii,2009,Racing,0.09,0.01,0.00,0.01,-1.0,-1.0,no data
2909,Yu-Gi-Oh! The Falsebound Kingdom,GC,2002,Strategy,0.49,0.13,0.07,0.02,-1.0,-1.0,no data


Обнаружено 182 дублирующие строки, которые можно удалить

In [18]:
# Удаляем дупликаты
games_cleaned = games.drop_duplicates()
games_cleaned.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16774 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16774 non-null  object 
 1   platform         16774 non-null  object 
 2   year_of_release  16774 non-null  int64  
 3   genre            16774 non-null  object 
 4   na_sales         16774 non-null  float64
 5   eu_sales         16768 non-null  float64
 6   jp_sales         16770 non-null  float64
 7   other_sales      16774 non-null  float64
 8   critic_score     16774 non-null  float64
 9   user_score       16774 non-null  float64
 10  rating           16774 non-null  object 
dtypes: float64(6), int64(1), object(4)
memory usage: 1.5+ MB


После удаления дубликатов в датафрейме осталось 16774 строк
Поищем теперь неявные дубликаты данных. Приведём текстовые значения к единому стилю:

**Ответ:** если честно, я не очень понимаю целесообразность этого подсчета. Даже если дубликатов будет значительное количество (например, 50 и более процентов из-за того, что где-то что-то задвоилось или затроилось), их всё равно надо будет удалять, чтобы они не влияли на анализ данных.
Причины возникновения дубликатов, в данном случае, мне кажется в том, что информация об играх собиралась из разных источников, и одна и та же игра могла быть в нескольких из них. Либо же какая-то техническая ошибка на этапе загрузки/выгрузки данных.

In [19]:
# Здесь и далее создается копия датафрейма, чтобы Пайтон не ругался на меня
games_cleaned = games_cleaned.copy()
for column in ['name', 'platform', 'genre']:
    games_cleaned[column] = games_cleaned[column].str.lower()
games_cleaned['rating']=games_cleaned['rating'].str.upper()
display(games_cleaned)

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,wii sports,wii,2006,sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,super mario bros.,nes,1985,platform,29.08,3.58,6.81,0.77,-1.0,-1.0,NO DATA
2,mario kart wii,wii,2008,racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,wii sports resort,wii,2009,sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,pokemon red/pokemon blue,gb,1996,role-playing,11.27,8.89,10.22,1.00,-1.0,-1.0,NO DATA
...,...,...,...,...,...,...,...,...,...,...,...
16951,samurai warriors: sanada maru,ps3,2016,action,0.00,0.00,0.01,0.00,-1.0,-1.0,NO DATA
16952,lma manager 2007,x360,2006,sports,0.00,0.01,0.00,0.00,-1.0,-1.0,NO DATA
16953,haitaka no psychedelica,psv,2016,adventure,0.00,0.00,0.01,0.00,-1.0,-1.0,NO DATA
16954,spirits & spells,gba,2003,platform,0.01,0.00,0.00,0.00,-1.0,-1.0,NO DATA


Теперь снова поищем дубликаты

In [20]:
df = games_cleaned[games_cleaned.duplicated()==True]
display(df.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 59 entries, 823 to 16753
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             59 non-null     object 
 1   platform         59 non-null     object 
 2   year_of_release  59 non-null     int64  
 3   genre            59 non-null     object 
 4   na_sales         59 non-null     float64
 5   eu_sales         59 non-null     float64
 6   jp_sales         59 non-null     float64
 7   other_sales      59 non-null     float64
 8   critic_score     59 non-null     float64
 9   user_score       59 non-null     float64
 10  rating           59 non-null     object 
dtypes: float64(6), int64(1), object(4)
memory usage: 5.5+ KB


None

Найдено еще 59 строк-дубликатов. Удаляем их.

In [21]:
# Удаляем дубликаты
games_cleaned = games_cleaned.drop_duplicates()
games_cleaned.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16715 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16715 non-null  object 
 1   platform         16715 non-null  object 
 2   year_of_release  16715 non-null  int64  
 3   genre            16715 non-null  object 
 4   na_sales         16715 non-null  float64
 5   eu_sales         16709 non-null  float64
 6   jp_sales         16711 non-null  float64
 7   other_sales      16715 non-null  float64
 8   critic_score     16715 non-null  float64
 9   user_score       16715 non-null  float64
 10  rating           16715 non-null  object 
dtypes: float64(6), int64(1), object(4)
memory usage: 1.5+ MB


В итоге после работы с дубликатами в датафрейме осталось 16715 строк.

**Промежуточный итог:** в изначальном датафрейме было 16956 строк, после предобработки данных осталось 16715. Итого было удалено 241 строка или 1,42% исходных данных. В некоторых столбцах был изменён тип данных со строкового на числовой, найдены пропуски неясной природы.

## Фильтрация данных

Необходимо из полученного после предобработки данных датафрейма отфильтровать необходимые для анализа данные. 
В данном случае нас интересуют игры, выпущенные в пирод с 2000 по 2013 годы.

In [22]:
# Создаём фильтр и сохраняем новый датафрейм
games_actual = games_cleaned[(games_cleaned['year_of_release']>1999) 
                            &(games_cleaned['year_of_release']<2014)]
# Проверим, что сохранились нужные данные
display(games_actual['year_of_release'].unique())

array([2006, 2008, 2009, 2005, 2007, 2010, 2013, 2004, 2002, 2001, 2011,
       2012, 2003, 2000])

## Категоризация данных

Разделим все игры по оценкам пользователей и выделите такие категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).

In [23]:
games_actual = games_actual.copy()
games_actual['user_rating'] = pd.cut(games_actual['user_score'], 
                                    bins = [0, 3, 8, 10], 
                                    labels = ['низкая оценка', 'средняя оценка', 'высокая оценка'])
display(games_actual.head())

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,user_rating
0,wii sports,wii,2006,sports,41.36,28.96,3.77,8.45,76.0,8.0,E,средняя оценка
2,mario kart wii,wii,2008,racing,15.68,12.76,3.79,3.29,82.0,8.3,E,высокая оценка
3,wii sports resort,wii,2009,sports,15.61,10.93,3.28,2.95,80.0,8.0,E,средняя оценка
6,new super mario bros.,ds,2006,platform,11.28,9.14,6.5,2.88,89.0,8.5,E,высокая оценка
7,wii play,wii,2006,misc,13.96,9.18,2.93,2.84,58.0,6.6,E,средняя оценка


Разделим все игры по оценкам критиков и выделите такие категории: высокая оценка (от 80 до 100 включительно), средняя оценка (от 30 до 80, не включая правую границу интервала) и низкая оценка (от 0 до 30, не включая правую границу интервала).

In [24]:
games_actual = games_actual.copy()
games_actual['critic_rating'] = pd.cut(games_actual['critic_score'], 
                                    bins = [0, 30, 80, 100], 
                                    labels = ['низкая оценка', 'средняя оценка', 'высокая оценка'])

display(games_actual.head())

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,user_rating,critic_rating
0,wii sports,wii,2006,sports,41.36,28.96,3.77,8.45,76.0,8.0,E,средняя оценка,средняя оценка
2,mario kart wii,wii,2008,racing,15.68,12.76,3.79,3.29,82.0,8.3,E,высокая оценка,высокая оценка
3,wii sports resort,wii,2009,sports,15.61,10.93,3.28,2.95,80.0,8.0,E,средняя оценка,средняя оценка
6,new super mario bros.,ds,2006,platform,11.28,9.14,6.5,2.88,89.0,8.5,E,высокая оценка,высокая оценка
7,wii play,wii,2006,misc,13.96,9.18,2.93,2.84,58.0,6.6,E,средняя оценка,средняя оценка


После категоризации данных проверим результат: сгруппируем данные по выделенным категориям и посчитаем количество игр в каждой категории.

In [25]:
# Категоризация по пользовательскому рейтингу
user_categories = games_actual.groupby('user_rating')['name'].count()
display(user_categories)

# Категоризация по экспертному рейтингу 
critic_categories = games_actual.groupby('critic_rating')['name'].count()
display(critic_categories)

user_rating
низкая оценка      132
средняя оценка    4317
высокая оценка    2033
Name: name, dtype: int64

critic_rating
низкая оценка       67
средняя оценка    5613
высокая оценка    1489
Name: name, dtype: int64

In [26]:
# Для научного интереса изучим рейтинг игр в жанре role-playing
df = games_actual[games_actual['genre']=='role-playing']
# Пользовательский рейтинг игр в жанре РПГ
user_rpg_cat = df.groupby(['genre', 'user_rating'])['name'].count()
display(user_rpg_cat)
# экспертный рейтинг игр в жанре РПГ
critic_rpg_cat = df.groupby(['genre', 'critic_rating'])['name'].count()
display(critic_rpg_cat)

genre         user_rating   
role-playing  низкая оценка       1
              средняя оценка    359
              высокая оценка    251
Name: name, dtype: int64

genre         critic_rating 
role-playing  низкая оценка       0
              средняя оценка    455
              высокая оценка    158
Name: name, dtype: int64

Выделим топ-7 платформ по количеству игр, выпущенных за весь актуальный период.

In [27]:
top_platform = games_actual.groupby('platform')['name'].count()
display(top_platform.sort_values(ascending=False).head(7))

platform
ps2     2127
ds      2120
wii     1275
psp     1180
x360    1121
ps3     1087
gba      811
Name: name, dtype: int64

## Итоговый вывод

Полученные данные были приведены в удобный для анализа вид:
- исправлены названия столбцов;
- скорректированы типы данных там, где это было необходимо;
- найдены и изучены пропуски;
- найдены и удалены дубликаты данных;
- проведена фильтрация данных;
- проведена категоризация данных по рейтингам: пользовательскому и экспертному.

В ходе работы были добавлены два новых поля в датафрейм:
- `user_rating` — категория оценки игры пользователями;
- `critic_rating` — категория оценки игры экспертами.

Датафрейм `games_actual` полностью подготовлен для дальнейшего анализа, кроме того, некоторые выводы уже сделаны в результате категоризации данных:
- Большинство игр, выпущенных в период с 2000 по 2013 год получили среднюю оценку как от пользователей, так и от экспертов. Также большой процент пользователей и экспертов поставили новым играм высокую оценку, а вот низкий рейтинг у небольшого числа игр.
- В жанре РПГ всего одна игра получила низкую оценку среди пользователей, а среди экспертов игр в этом жанре с низкой оценкой вообще нет.