# Исследование развития индустрии игр в начале XXI века

- Автор:  Юрий Кузнецов
- Дата: 15.02.2025

### Цели и задачи проекта

В начале XXI века индустрия игр активно росла: развивались игровые платформы и появлялись мощные консоли (PlayStation 2, Xbox, Nintendo Wii). Возникало множество игровых жанров, а также росло количество многопользовательских онлайн-игр и сообществ. Видеоигры стали считаться важной частью массовой культуры и объединили миллионы людей по всему миру. Исторические данные собраны командой игры "Секреты Темнолесья" из открытых источников. В них есть информация о продажах игр, сделанных в разных жанрах и выпущенных на разных платформах, а также пользовательские и экспертные оценки игр.


#### Цели
- Изучить развитие игровой индустрии с 2000 по 2013 год,
- Провести обзор игровых платформ,
- Изучить объёмы продаж игр разных жанров и
региональные предпочтения игроков с акцентом на играх жанра RPG — в которых игроки управляют персонажами.


####  Задачи
- Познакомиться с данными'https://code.s3.yandex.net/datasets/new_games.csv',
- Проверить их корректность
- Провести предобработку, получив необходимый срез данных.
- Перед анализом необходимо дополнительно сделать следующее:

- Отобрать данные по времени выхода игры.Нужен период с 2000 по 2013 год включительно.
- Категоризовать игры по оценкам пользователей и экспертов. 
- Выделить три категории:
высокая оценка — с оценкой от 8 до 10 и от 80 до 100, включая правые границы интервалов.
средняя оценка — с оценкой от 3 до 8 и от 30 до 80, не включая правые границы интервалов.
низкая оценка — с оценкой от 0 до 3 и от 0 до 30, не включая правые границы интервалов.
- Выделить топ-7 платформ по количеству игр, выпущенных за весь требуемый период.</font>

### Описание данных

Датасет представлен историческими данными, которые коллеги собрали из открытых источников.
Данные /datasets/new_games.csv содержат информацию о продажах игр разных жанров и платформ, 
а также пользовательские и экспертные оценки игр:
- Name — название игры.
- Platform — название платформы.
- Year of Release — год выпуска игры.
- Genre — жанр игры.
- NA sales — продажи в Северной Америке (в миллионах проданных копий).
- EU sales — продажи в Европе (в миллионах проданных копий).
- JP sales — продажи в Японии (в миллионах проданных копий).
- Other sales — продажи в других странах (в миллионах проданных копий).
- Critic Score — оценка критиков (от 0 до 100).
- User Score — оценка пользователей (от 0 до 10).
- Rating — рейтинг организации ESRB (англ. Entertainment Software Rating Board
Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию..</font>

### Содержание

1 Загрузка данных и знакомство с ними

2  Проверка ошибок в данных и их предобработка

2.1 Названия, или метки, столбцов датафрейма

2.2 Типы данных

2.3 Наличие пропусков в данных

2.4 Явные и неявные дубликаты в данных

3  Фильтрация данных

4 Категоризация данных

5 Итоговый вывод




---

## Загрузка данных и знакомство с ними

-Загрузим необходимые библиотеки для анализа данных датасета `new_games.csv`


In [1]:
# Импортируем библиотеку Pandas
import pandas as pd

In [2]:
# Выгружаем данные из файла new_games.csv и создаем датасет
games = pd.read_csv('https://code.s3.yandex.net/datasets/new_games.csv')
dataframe = pd.DataFrame(games)

In [3]:
#создаем копию 
df = dataframe.copy()

- Познакомимся с данными: выведем первые строки и результат метода `info()`.


In [4]:
#Выводим первые строки дадафрейма
display(df.head())

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


In [5]:
# Выводим информацию о датафрейме
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


In [6]:
#Выводим последние строки дадафрейма
display(df.tail())

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
16951,Samurai Warriors: Sanada Maru,PS3,2016.0,Action,0.0,0.0,0.01,0.0,,,
16952,LMA Manager 2007,X360,2006.0,Sports,0.0,0.01,0.0,0.0,,,
16953,Haitaka no Psychedelica,PSV,2016.0,Adventure,0.0,0.0,0.01,0.0,,,
16954,Spirits & Spells,GBA,2003.0,Platform,0.01,0.0,0.0,0.0,,,
16955,Winning Post 8 2016,PSV,2016.0,Simulation,0.0,0.0,0.01,0.0,,,


In [7]:
#Выводим статистические данные датафрейма
df.describe()

Unnamed: 0,Year of Release,NA sales,Other sales,Critic Score
count,16681.0,16956.0,16956.0,8242.0
mean,2006.485522,0.262023,0.047087,68.926717
std,5.873102,0.808654,0.185577,13.944565
min,1980.0,0.0,0.0,13.0
25%,2003.0,0.0,0.0,60.0
50%,2007.0,0.08,0.01,71.0
75%,2010.0,0.24,0.03,79.0
max,2016.0,41.36,10.57,98.0


В представленном датасете обьем данных составляет 16956 строк в 11 столбцах. Период с 1980 по 2016 г.
В столбцах:
`Name`,
`Year of Release`,
`Genre`, `Critic Score`,
`User Score`,
`Rating` встречаются пропуски. В некоторых значительные, что вероятно также может быть связано с тем что не все игры попали в область внимания пользователей и критиков.

---

## Проверка ошибок в данных и их предобработка


###  Названия, или метки, столбцов датафрейма

- Выведем названия всех столбцов датафрейма и проверим их стиль написания.
- Приведем все столбцы к стилю snake_case.

In [8]:
tmp = df.copy() # создаем копию датасета до преобразования
len(tmp)

16956

In [9]:
#  выводим список названий столбцов
list(tmp.columns)

['Name',
 'Platform',
 'Year of Release',
 'Genre',
 'NA sales',
 'EU sales',
 'JP sales',
 'Other sales',
 'Critic Score',
 'User Score',
 'Rating']

In [10]:
# Преобразуем к стилю snake_case
tmp.columns = tmp.columns.str.lower().str.replace(' ', '_')
list(tmp.columns)

['name',
 'platform',
 'year_of_release',
 'genre',
 'na_sales',
 'eu_sales',
 'jp_sales',
 'other_sales',
 'critic_score',
 'user_score',
 'rating']

### Типы данных


In [11]:
#Выводим исходные типы данных
tmp.dtypes

name                object
platform            object
year_of_release    float64
genre               object
na_sales           float64
eu_sales            object
jp_sales            object
other_sales        float64
critic_score       float64
user_score          object
rating              object
dtype: object

Типы в столбцах `na_sales`, `eu_sales`, `jp_sales`, `other_sales` необходимо привести к одному числовому типу, поскольку это миллионы прорданных копий Тип столбца user_score' следует привести к типу `float` так как это дробные числа. Столбцы `platform`, `genre`, `rating` ограниченный повторяющийся набор значений, а значит их следует привести к типу `category`

In [12]:
tmp['eu_sales'].unique()

array(['28.96', '3.58', '12.76', '10.93', '8.89', '2.26', '9.14', '9.18',
       '6.94', '0.63', '10.95', '7.47', '6.18', '8.03', '4.89', '8.49',
       '9.09', '0.4', '3.75', '9.2', '4.46', '2.71', '3.44', '5.14',
       '5.49', '3.9', '5.35', '3.17', '5.09', '4.24', '5.04', '5.86',
       '3.68', '4.19', '5.73', '3.59', '4.51', '2.55', '4.02', '4.37',
       '6.31', '3.45', '2.81', '2.85', '3.49', '0.01', '3.35', '2.04',
       '3.07', '3.87', '3.0', '4.82', '3.64', '2.15', '3.69', '2.65',
       '2.56', '3.11', '3.14', '1.94', '1.95', '2.47', '2.28', '3.42',
       '3.63', '2.36', '1.71', '1.85', '2.79', '1.24', '6.12', '1.53',
       '3.47', '2.24', '5.01', '2.01', '1.72', '2.07', '6.42', '3.86',
       '0.45', '3.48', '1.89', '5.75', '2.17', '1.37', '2.35', '1.18',
       '2.11', '1.88', '2.83', '2.99', '2.89', '3.27', '2.22', '2.14',
       '1.45', '1.75', '1.04', '1.77', '3.02', '2.75', '2.16', '1.9',
       '2.59', '2.2', '4.3', '0.93', '2.53', '2.52', '1.79', '1.3', '2.6',
   

видим строковое значение 'unknown'

In [13]:
#заменяем его на пропуск
tmp['eu_sales'] = tmp['eu_sales'].replace('unknown', '')
tmp['eu_sales'].unique()

array(['28.96', '3.58', '12.76', '10.93', '8.89', '2.26', '9.14', '9.18',
       '6.94', '0.63', '10.95', '7.47', '6.18', '8.03', '4.89', '8.49',
       '9.09', '0.4', '3.75', '9.2', '4.46', '2.71', '3.44', '5.14',
       '5.49', '3.9', '5.35', '3.17', '5.09', '4.24', '5.04', '5.86',
       '3.68', '4.19', '5.73', '3.59', '4.51', '2.55', '4.02', '4.37',
       '6.31', '3.45', '2.81', '2.85', '3.49', '0.01', '3.35', '2.04',
       '3.07', '3.87', '3.0', '4.82', '3.64', '2.15', '3.69', '2.65',
       '2.56', '3.11', '3.14', '1.94', '1.95', '2.47', '2.28', '3.42',
       '3.63', '2.36', '1.71', '1.85', '2.79', '1.24', '6.12', '1.53',
       '3.47', '2.24', '5.01', '2.01', '1.72', '2.07', '6.42', '3.86',
       '0.45', '3.48', '1.89', '5.75', '2.17', '1.37', '2.35', '1.18',
       '2.11', '1.88', '2.83', '2.99', '2.89', '3.27', '2.22', '2.14',
       '1.45', '1.75', '1.04', '1.77', '3.02', '2.75', '2.16', '1.9',
       '2.59', '2.2', '4.3', '0.93', '2.53', '2.52', '1.79', '1.3', '2.6',
   

In [14]:
tmp['jp_sales'].unique()

array(['3.77', '6.81', '3.79', '3.28', '10.22', '4.22', '6.5', '2.93',
       '4.7', '0.28', '1.93', '4.13', '7.2', '3.6', '0.24', '2.53',
       '0.98', '0.41', '3.54', '4.16', '6.04', '4.18', '3.84', '0.06',
       '0.47', '5.38', '5.32', '5.65', '1.87', '0.13', '3.12', '0.36',
       '0.11', '4.35', '0.65', '0.07', '0.08', '0.49', '0.3', '2.66',
       '2.69', '0.48', '0.38', '5.33', '1.91', '3.96', '3.1', '1.1',
       '1.2', '0.14', '2.54', '2.14', '0.81', '2.12', '0.44', '3.15',
       '1.25', '0.04', '0.0', '2.47', '2.23', '1.69', '0.01', '3.0',
       '0.02', '4.39', '1.98', '0.1', '3.81', '0.05', '2.49', '1.58',
       '3.14', '2.73', '0.66', '0.22', '3.63', '1.45', '1.31', '2.43',
       '0.7', '0.35', '1.4', '0.6', '2.26', '1.42', '1.28', '1.39',
       '0.87', '0.17', '0.94', '0.19', '0.21', '1.6', '0.16', '1.03',
       '0.25', '2.06', '1.49', '1.29', '0.09', '2.87', '0.03', '0.78',
       '0.83', '2.33', '2.02', '1.36', '1.81', '1.97', '0.91', '0.99',
       '0.95', '2.0'

In [15]:
#также заменяем 'unknown' на пропуск
tmp['jp_sales'] = tmp['jp_sales'].replace('unknown', '')
tmp['jp_sales'].unique()

array(['3.77', '6.81', '3.79', '3.28', '10.22', '4.22', '6.5', '2.93',
       '4.7', '0.28', '1.93', '4.13', '7.2', '3.6', '0.24', '2.53',
       '0.98', '0.41', '3.54', '4.16', '6.04', '4.18', '3.84', '0.06',
       '0.47', '5.38', '5.32', '5.65', '1.87', '0.13', '3.12', '0.36',
       '0.11', '4.35', '0.65', '0.07', '0.08', '0.49', '0.3', '2.66',
       '2.69', '0.48', '0.38', '5.33', '1.91', '3.96', '3.1', '1.1',
       '1.2', '0.14', '2.54', '2.14', '0.81', '2.12', '0.44', '3.15',
       '1.25', '0.04', '0.0', '2.47', '2.23', '1.69', '0.01', '3.0',
       '0.02', '4.39', '1.98', '0.1', '3.81', '0.05', '2.49', '1.58',
       '3.14', '2.73', '0.66', '0.22', '3.63', '1.45', '1.31', '2.43',
       '0.7', '0.35', '1.4', '0.6', '2.26', '1.42', '1.28', '1.39',
       '0.87', '0.17', '0.94', '0.19', '0.21', '1.6', '0.16', '1.03',
       '0.25', '2.06', '1.49', '1.29', '0.09', '2.87', '0.03', '0.78',
       '0.83', '2.33', '2.02', '1.36', '1.81', '1.97', '0.91', '0.99',
       '0.95', '2.0'

In [16]:
tmp['user_score'].unique()

array(['8', nan, '8.3', '8.5', '6.6', '8.4', '8.6', '7.7', '6.3', '7.4',
       '8.2', '9', '7.9', '8.1', '8.7', '7.1', '3.4', '5.3', '4.8', '3.2',
       '8.9', '6.4', '7.8', '7.5', '2.6', '7.2', '9.2', '7', '7.3', '4.3',
       '7.6', '5.7', '5', '9.1', '6.5', 'tbd', '8.8', '6.9', '9.4', '6.8',
       '6.1', '6.7', '5.4', '4', '4.9', '4.5', '9.3', '6.2', '4.2', '6',
       '3.7', '4.1', '5.8', '5.6', '5.5', '4.4', '4.6', '5.9', '3.9',
       '3.1', '2.9', '5.2', '3.3', '4.7', '5.1', '3.5', '2.5', '1.9', '3',
       '2.7', '2.2', '2', '9.5', '2.1', '3.6', '2.8', '1.8', '3.8', '0',
       '1.6', '9.6', '2.4', '1.7', '1.1', '0.3', '1.5', '0.7', '1.2',
       '2.3', '0.5', '1.3', '0.2', '0.6', '1.4', '0.9', '1', '9.7'],
      dtype=object)

видим строковые значения 'nan' и 'tbd' (to be detected, предположительно)

In [17]:
#также заменяем на пропуск
tmp['user_score'] = tmp['user_score'].replace('tbd', '')
tmp['user_score'].unique()

array(['8', nan, '8.3', '8.5', '6.6', '8.4', '8.6', '7.7', '6.3', '7.4',
       '8.2', '9', '7.9', '8.1', '8.7', '7.1', '3.4', '5.3', '4.8', '3.2',
       '8.9', '6.4', '7.8', '7.5', '2.6', '7.2', '9.2', '7', '7.3', '4.3',
       '7.6', '5.7', '5', '9.1', '6.5', '', '8.8', '6.9', '9.4', '6.8',
       '6.1', '6.7', '5.4', '4', '4.9', '4.5', '9.3', '6.2', '4.2', '6',
       '3.7', '4.1', '5.8', '5.6', '5.5', '4.4', '4.6', '5.9', '3.9',
       '3.1', '2.9', '5.2', '3.3', '4.7', '5.1', '3.5', '2.5', '1.9', '3',
       '2.7', '2.2', '2', '9.5', '2.1', '3.6', '2.8', '1.8', '3.8', '0',
       '1.6', '9.6', '2.4', '1.7', '1.1', '0.3', '1.5', '0.7', '1.2',
       '2.3', '0.5', '1.3', '0.2', '0.6', '1.4', '0.9', '1', '9.7'],
      dtype=object)

In [18]:
# Создаём словарь с новыми типами данных для нужных столбцов
types_dict = {'year_of_release': 'Int64', 'platform':'category', 'genre':'category', 'rating':'category',
             'eu_sales':'float64', 'jp_sales':'float64'}
# Меняем типы данных на 'category'
tmp = tmp.astype(types_dict, errors = 'ignore')
#Меняем тип данных о продажах на 'float'
tmp['jp_sales'] =  pd.to_numeric(tmp['jp_sales'])
tmp['eu_sales'] =  pd.to_numeric(tmp['eu_sales'])
tmp['user_score'] =  pd.to_numeric(tmp['user_score'])
tmp['critic_score'] = tmp['critic_score'].astype('Int64')
display(tmp.dtypes)

name                 object
platform           category
year_of_release       Int64
genre              category
na_sales            float64
eu_sales            float64
jp_sales            float64
other_sales         float64
critic_score          Int64
user_score          float64
rating             category
dtype: object

Все цифровые нецелочисленные данные приведены к типу 'float64', при этом строковые значения в этих столбцах были заменены на пропуски.
Значения поля 'year_of_release' приведены к типу 'Int64'
Столбцы 'rating', 'platform', 'genre' имеют ограниченный набор значений и приведены к соответствующему типу 'category'                              

### Наличие пропусков в данных

- Посчитаем количество пропусков в каждом столбце в абсолютных и относительных значениях.


In [19]:
temp = tmp.copy()           # Делаем копию текущего датасета
missing = (pd.DataFrame({'Кол-во пропусков': temp.isnull().sum(), 'Доля пропусков': temp.isnull().mean().round(4)})
           .sort_values(by = 'Кол-во пропусков', ascending = False).style.background_gradient(cmap='coolwarm'))
missing

Unnamed: 0,Кол-во пропусков,Доля пропусков
user_score,9268,0.5466
critic_score,8714,0.5139
rating,6871,0.4052
year_of_release,275,0.0162
eu_sales,6,0.0004
jp_sales,4,0.0002
name,2,0.0001
genre,2,0.0001
platform,0,0.0
na_sales,0,0.0


Пропуски в полях 'name', 'genre', 'year_of_release' незначительны (не более 1,6 %), предположительно MCAR. Но сами эти поля имеют ключевое значение для исследования. Поэтому принято решение удалить строки с этими пропусками

* Пропуски в полях 'eu_sales', 'jp_sales' можно заменить на средние значения для данной платформы и года выпуска

* столбцы 'critic_score', 'user_score', 'rating'с оценками пользователей, критиков и рейтингом имеют высокую, около половины, долю пропусков, и коррелируют между собой, что может указывать на непопулярность этих игр и не привлечении внимания. Их можно занести в категорию "Нет оценки" 

In [20]:
#Удаляем строки с пропусками в полях 'name', 'genre', 'year_of_release'
temp = temp.dropna(subset = ['name', 'genre', 'year_of_release'])

In [22]:
#в столбцах 'eu_sales' и 'jp_sales' имеются несколько пропущенных значений
#посмотрим на них
temp[temp['eu_sales'].isna()]  

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
446,Rhythm Heaven,DS,2008,Misc,0.55,,1.93,0.13,83.0,9.0,E
802,Dead Rising,X360,2006,Action,1.16,,0.08,0.2,85.0,7.6,M
1131,Prince of Persia: Warrior Within,PS2,2004,Action,0.54,,0.0,0.22,83.0,8.5,M
1132,Far Cry 4,XOne,2014,Shooter,0.8,,0.01,0.14,82.0,7.5,M
1394,Sonic Advance 3,GBA,2004,Platform,0.74,,0.08,0.06,79.0,8.4,E
1612,Ratatouille,DS,2007,Action,0.49,,0.0,0.14,,,


In [23]:
temp[temp['jp_sales'].isna()]

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
467,Saints Row 2,X360,2008,Action,1.94,0.79,,0.28,81.0,8.1,M
819,UFC 2009 Undisputed,X360,2009,Fighting,1.48,0.39,,0.19,83.0,7.9,T
1379,Hello Kitty Party,DS,2007,Misc,0.78,0.51,,0.12,,,E
4732,Castlevania: The Dracula X Chronicles,PSP,2007,Platform,0.22,0.09,,0.07,80.0,7.8,T


In [24]:
#заменяем пропуски в столбцах 'jp_sales' и 'eu_sales' на средние значения для данной платформы и года выпуска
grouped = temp.groupby(['platform', 'year_of_release'])
mean_eu_sales = grouped['eu_sales'].transform('mean')
mean_jp_sales = grouped['jp_sales'].transform('mean')
temp['eu_sales'] = temp['eu_sales'].fillna(mean_eu_sales)
temp['jp_sales'] = temp['jp_sales'].fillna(mean_jp_sales)

  grouped = temp.groupby(['platform', 'year_of_release'])


In [25]:
#проверяем
missing = (pd.DataFrame({'Кол-во пропусков': temp.isnull().sum(), 'Доля пропусков': temp.isnull().mean().round(4)})
           .style.background_gradient(cmap='coolwarm'))
missing

Unnamed: 0,Кол-во пропусков,Доля пропусков
name,0,0.0
platform,0,0.0
year_of_release,0,0.0
genre,0,0.0
na_sales,0,0.0
eu_sales,0,0.0
jp_sales,0,0.0
other_sales,0,0.0
critic_score,8594,0.5153
user_score,9121,0.5469


In [26]:
#выводим строки датафрейма с пропущенными значениями в поле 'critic_score'
temp[temp['critic_score'].isna()]

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
1,Super Mario Bros.,NES,1985,Platform,29.08,3.58,6.81,0.77,,,
4,Pokemon Red/Pokemon Blue,GB,1996,Role-Playing,11.27,8.89,10.22,1.00,,,
5,Tetris,GB,1989,Puzzle,23.20,2.26,4.22,0.58,,,
9,Duck Hunt,NES,1984,Shooter,26.93,0.63,0.28,0.47,,,
10,Nintendogs,DS,2005,Simulation,9.05,10.95,1.93,2.74,,,
...,...,...,...,...,...,...,...,...,...,...,...
16951,Samurai Warriors: Sanada Maru,PS3,2016,Action,0.00,0.00,0.01,0.00,,,
16952,LMA Manager 2007,X360,2006,Sports,0.00,0.01,0.00,0.00,,,
16953,Haitaka no Psychedelica,PSV,2016,Adventure,0.00,0.00,0.01,0.00,,,
16954,Spirits & Spells,GBA,2003,Platform,0.01,0.00,0.00,0.00,,,


Об оценке критиков и пользователей, а также рейтинге игр мы ничего не можем судить, поэтому заменим их индикатораими 

In [27]:

temp['critic_score'] = temp['critic_score'].fillna(-1)
temp['user_score'] = temp['user_score'].fillna(-1)
temp['rating'] = temp['rating'].cat.add_categories('нет данных')
temp['rating'] = temp['rating'].fillna('нет данных')
temp

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
0,Wii Sports,Wii,2006,Sports,41.36,28.96,3.77,8.45,76,8.0,E
1,Super Mario Bros.,NES,1985,Platform,29.08,3.58,6.81,0.77,-1,-1.0,нет данных
2,Mario Kart Wii,Wii,2008,Racing,15.68,12.76,3.79,3.29,82,8.3,E
3,Wii Sports Resort,Wii,2009,Sports,15.61,10.93,3.28,2.95,80,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996,Role-Playing,11.27,8.89,10.22,1.00,-1,-1.0,нет данных
...,...,...,...,...,...,...,...,...,...,...,...
16951,Samurai Warriors: Sanada Maru,PS3,2016,Action,0.00,0.00,0.01,0.00,-1,-1.0,нет данных
16952,LMA Manager 2007,X360,2006,Sports,0.00,0.01,0.00,0.00,-1,-1.0,нет данных
16953,Haitaka no Psychedelica,PSV,2016,Adventure,0.00,0.00,0.01,0.00,-1,-1.0,нет данных
16954,Spirits & Spells,GBA,2003,Platform,0.01,0.00,0.00,0.00,-1,-1.0,нет данных


In [28]:
#проверяем
missing = (pd.DataFrame({'Кол-во пропусков': temp.isnull().sum(), 'Доля пропусков': temp.isnull().mean().round(4)})
           .style.background_gradient(cmap='coolwarm'))
missing

Unnamed: 0,Кол-во пропусков,Доля пропусков
name,0,0.0
platform,0,0.0
year_of_release,0,0.0
genre,0,0.0
na_sales,0,0.0
eu_sales,0,0.0
jp_sales,0,0.0
other_sales,0,0.0
critic_score,0,0.0
user_score,0,0.0


Пропусков нет.
- пропуски в столбцах `critic_scorу`, `user_score`,`rating` заменены индикаторами, так как мы не можем судить о субьективных оценочных характеристиках игр, при это число строк с такими пропусками было весьма велико, порядка половины.

- В столбцах `critic_score`, `user_score` заменено на -1, в поле `rating` заменено на `нет данных`,

- Все столбцы с данными о продажах в разных регионах приведены к числовому типу, 

- Пропущенные значения заменены на средние для той же платформы и того же года выпуска игры

- В `eu_sales`, `jp_sales` пропущенные значения заменены на средние


In [29]:
print('количество строк в исходном датасете:', len(dataframe),'\n' 'после обработки пропусков:', len(temp),'\n' 'число удаленных строк:', len(dataframe) - len(temp))

количество строк в исходном датасете: 16956 
после обработки пропусков: 16679 
число удаленных строк: 277


### Явные и неявные дубликаты в данных

In [30]:
#делаем копию датафрейма перед обработкой дудликатов
tmp_dbl = temp.copy()

In [31]:
#Выведет число уникальных значений по каждому столбцу датафрейма
tmp_dbl.nunique(), len(tmp_dbl)

(name               11426
 platform              31
 year_of_release       37
 genre                 24
 na_sales             401
 eu_sales             313
 jp_sales             248
 other_sales          155
 critic_score          82
 user_score            96
 rating                 9
 dtype: int64,
 16679)

Прежде всего необходимо проверить уникальность значений в категориальных столбцах

In [32]:
#смотрим есть ли неявные дубликаты в категориальном столбце 'platform'
platform_uniques = (pd.DataFrame({'Unique_values_plalform': tmp_dbl['platform'].unique()}))

print(platform_uniques, '\n', 'число уникальных значений:', tmp_dbl['platform'].nunique())

   Unique_values_plalform
0                     Wii
1                     NES
2                      GB
3                      DS
4                    X360
5                     PS3
6                     PS2
7                    SNES
8                     GBA
9                     PS4
10                    3DS
11                    N64
12                     PS
13                     XB
14                     PC
15                   2600
16                    PSP
17                   XOne
18                   WiiU
19                     GC
20                    GEN
21                     DC
22                    PSV
23                    SAT
24                    SCD
25                     WS
26                     NG
27                   TG16
28                    3DO
29                     GG
30                   PCFX 
 число уникальных значений: 31


Все значения в верхнем регистре и соответствуют сокращенным аббревиатурам известных консолей, дубликатов нет

In [33]:
#смотрим есть ли неявные дубликаты в категориальном столбце 'genre'
genre_uniques = (pd.DataFrame({'Unique_values_genre': tmp_dbl['genre'].unique()}))

print(genre_uniques, '\n', 'число уникальных значений:', tmp_dbl['genre'].nunique())

   Unique_values_genre
0               Sports
1             Platform
2               Racing
3         Role-Playing
4               Puzzle
5                 Misc
6              Shooter
7           Simulation
8               Action
9             Fighting
10           Adventure
11            Strategy
12                MISC
13        ROLE-PLAYING
14              RACING
15              ACTION
16             SHOOTER
17            FIGHTING
18              SPORTS
19            PLATFORM
20           ADVENTURE
21          SIMULATION
22              PUZZLE
23            STRATEGY 
 число уникальных значений: 24


Видим дубликаты значений в разных регистрах

Следовательно есть необходимость нормализации, приведем все значения в строковых столбцах к единым регистрам

In [34]:
#Приведем значения в строковых столбцах к единым регистрам
tmp_dbl['name']=tmp_dbl['name'].str.upper()
tmp_dbl['genre']=tmp_dbl['genre'].str.lower()
tmp_dbl['platform']=tmp_dbl['platform'].str.upper()
tmp_dbl['rating']=tmp_dbl['rating'].str.upper()

In [35]:
#Вычисляем количество явных дубликатов
tmp_dbl.duplicated().sum()

235

In [36]:
# Удаляем явные
df_cleaned = tmp_dbl.drop_duplicates(subset=None, keep='first', inplace=False)
tmp_dbl = df_cleaned

In [37]:
#проверяем
tmp_dbl.nunique(), len(tmp_dbl)

(name               11426
 platform              31
 year_of_release       37
 genre                 12
 na_sales             401
 eu_sales             313
 jp_sales             248
 other_sales          155
 critic_score          82
 user_score            96
 rating                 9
 dtype: int64,
 16444)

In [38]:
#считаем совпадения в столбцах 'name', 'year_of_release' и 'platform'  которые характеризует уникальность каждой игры
tmp_dbl.duplicated(subset=['name', 'year_of_release', 'platform']).sum()

1

In [39]:
#имеем один неявный дубликат
tmp_dbl[tmp_dbl.duplicated(subset=['name', 'year_of_release', 'platform'])]

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating
16465,MADDEN NFL 13,PS3,2012,sports,0.0,0.01,0.0,0.0,83,5.5,E


In [40]:
#удаляем его
tmp_dbl = tmp_dbl.drop_duplicates(subset=['name','year_of_release', 'platform'] , keep='first', inplace=False)

In [41]:
#Проверяем
tmp_dbl.nunique(), len(tmp_dbl)

(name               11426
 platform              31
 year_of_release       37
 genre                 12
 na_sales             401
 eu_sales             313
 jp_sales             248
 other_sales          155
 critic_score          82
 user_score            96
 rating                 9
 dtype: int64,
 16443)

In [42]:
print('количество строк до обработки дубликатов:', len(temp),'\n' 'после обработки:', len(tmp_dbl),'\n' 'число удаленных строк:', len(temp) - len(tmp_dbl))

количество строк до обработки дубликатов: 16679 
после обработки: 16443 
число удаленных строк: 236


In [43]:
#Сохраняем обработанный датасет со всеми данными в переменную
df = tmp_dbl

## Фильтрация данных

Для данного исследования нам нужен период с 2000 по 2013 годы, поэтому сделаем нужный срез

In [44]:
#Создаем копию датасета до фильтрации
df_actual = df.copy()

In [45]:
#отбираем требуемый для анализа диапазон от 2000г. до 2013г.включительно
df_actual = df_actual[df_actual['year_of_release'].between(2000.0, 2013.0, inclusive = 'both')]

In [46]:
#выводим информацию датафрейма ограниченного заданным диапазоном
df_actual.info()

<class 'pandas.core.frame.DataFrame'>
Index: 12780 entries, 0 to 16954
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             12780 non-null  object 
 1   platform         12780 non-null  object 
 2   year_of_release  12780 non-null  Int64  
 3   genre            12780 non-null  object 
 4   na_sales         12780 non-null  float64
 5   eu_sales         12780 non-null  float64
 6   jp_sales         12780 non-null  float64
 7   other_sales      12780 non-null  float64
 8   critic_score     12780 non-null  Int64  
 9   user_score       12780 non-null  float64
 10  rating           12780 non-null  object 
dtypes: Int64(2), float64(5), object(4)
memory usage: 1.2+ MB


In [47]:
df_actual.describe()

Unnamed: 0,year_of_release,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score
count,12780.0,12780.0,12780.0,12780.0,12780.0,12780.0,12780.0
mean,2007.106025,0.253955,0.14181,0.056558,0.050586,37.987402,3.147872
std,3.44418,0.74085,0.518887,0.25436,0.204652,36.05188,4.221147
min,2000.0,0.0,0.0,0.0,0.0,-1.0,-1.0
25%,2004.0,0.01,0.0,0.0,0.0,-1.0,-1.0
50%,2008.0,0.09,0.02,0.0,0.01,50.0,2.8
75%,2010.0,0.24,0.11,0.02,0.04,72.0,7.5
max,2013.0,41.36,28.96,6.5,10.57,98.0,9.7


In [48]:
print('В результате обработки и фильтрации датасета получили следующие показатели:', '\n'
    'Было строк в исходном датасете:', len(dataframe),'\n'
      'Осталось строк в датасете после отбаботки:', len(df_actual), '\n'
      'Удалено строк в датасете после обработки:', len(dataframe)-len(df_actual), '\n'
      'Процент потерь:', round(100 - (len(df_actual)/len(dataframe))*100,2)
     )

В результате обработки и фильтрации датасета получили следующие показатели: 
Было строк в исходном датасете: 16956 
Осталось строк в датасете после отбаботки: 12780 
Удалено строк в датасете после обработки: 4176 
Процент потерь: 24.63


В результате обработки имеем 2 датасета:

Датасет df - все данные обработанные на пропуски и дубликаты

Датасет df_actual - данные обработанные на пропуски и дубликаты и отфильтрованные по временному периоду с 2000 по 2013 г.

---

## Категоризация данных

### Категоризируем все игры по оценкам пользователей: 

высокая оценка (от 8 до 10 включительно), 

средняя оценка (от 3 до 8, не включая правую границу интервала) и 

низкая оценка (от 0 до 3, не включая правую границу интервала).

In [49]:
#добавляем категорию "нет оценки" в столбец 'user_score_category'
df_actual['user_score_category'] = pd.cut(df_actual['user_score'], 
       bins = [-1, 0, 3, 8, 11], 
       labels = ['нет оценки', 'низкая оценка', 'средняя оценка', 'высокая оценка'], right = False)

df_actual


Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,user_score_category
0,WII SPORTS,WII,2006,sports,41.36,28.96,3.77,8.45,76,8.0,E,высокая оценка
2,MARIO KART WII,WII,2008,racing,15.68,12.76,3.79,3.29,82,8.3,E,высокая оценка
3,WII SPORTS RESORT,WII,2009,sports,15.61,10.93,3.28,2.95,80,8.0,E,высокая оценка
6,NEW SUPER MARIO BROS.,DS,2006,platform,11.28,9.14,6.50,2.88,89,8.5,E,высокая оценка
7,WII PLAY,WII,2006,misc,13.96,9.18,2.93,2.84,58,6.6,E,средняя оценка
...,...,...,...,...,...,...,...,...,...,...,...,...
16947,MEN IN BLACK II: ALIEN ESCAPE,GC,2003,shooter,0.01,0.00,0.00,0.00,-1,-1.0,T,нет оценки
16949,WOODY WOODPECKER IN CRAZY CASTLE 5,GBA,2002,platform,0.01,0.00,0.00,0.00,-1,-1.0,НЕТ ДАННЫХ,нет оценки
16950,SCORE INTERNATIONAL BAJA 1000: THE OFFICIAL GAME,PS2,2008,racing,0.00,0.00,0.00,0.00,-1,-1.0,НЕТ ДАННЫХ,нет оценки
16952,LMA MANAGER 2007,X360,2006,sports,0.00,0.01,0.00,0.00,-1,-1.0,НЕТ ДАННЫХ,нет оценки


#### Выводим распределение числа игр по оценкам пользователей

In [50]:
(df_actual.groupby(['user_score_category'])['name'].count()).sort_values(ascending = False)

  (df_actual.groupby(['user_score_category'])['name'].count()).sort_values(ascending = False)


user_score_category
нет оценки        6298
средняя оценка    4080
высокая оценка    2286
низкая оценка      116
Name: name, dtype: int64

### Категоризируем все игры по оценкам критиков

высокая оценка (от 80 до 100 включительно),

средняя оценка (от 30 до 80, не включая правую границу интервала) и

низкая оценка (от 0 до 30, не включая правую границу интервала).

In [51]:
df_actual['crityc_score_category'] = pd.cut(df_actual['critic_score'], 
        bins = [-1, 0, 30, 80, 101], 
        labels = ['нет оценки', 'низкая оценка', 'средняя оценка', 'высокая оценка'], right = False)
df_actual



Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,user_score_category,crityc_score_category
0,WII SPORTS,WII,2006,sports,41.36,28.96,3.77,8.45,76,8.0,E,высокая оценка,средняя оценка
2,MARIO KART WII,WII,2008,racing,15.68,12.76,3.79,3.29,82,8.3,E,высокая оценка,высокая оценка
3,WII SPORTS RESORT,WII,2009,sports,15.61,10.93,3.28,2.95,80,8.0,E,высокая оценка,высокая оценка
6,NEW SUPER MARIO BROS.,DS,2006,platform,11.28,9.14,6.50,2.88,89,8.5,E,высокая оценка,высокая оценка
7,WII PLAY,WII,2006,misc,13.96,9.18,2.93,2.84,58,6.6,E,средняя оценка,средняя оценка
...,...,...,...,...,...,...,...,...,...,...,...,...,...
16947,MEN IN BLACK II: ALIEN ESCAPE,GC,2003,shooter,0.01,0.00,0.00,0.00,-1,-1.0,T,нет оценки,нет оценки
16949,WOODY WOODPECKER IN CRAZY CASTLE 5,GBA,2002,platform,0.01,0.00,0.00,0.00,-1,-1.0,НЕТ ДАННЫХ,нет оценки,нет оценки
16950,SCORE INTERNATIONAL BAJA 1000: THE OFFICIAL GAME,PS2,2008,racing,0.00,0.00,0.00,0.00,-1,-1.0,НЕТ ДАННЫХ,нет оценки,нет оценки
16952,LMA MANAGER 2007,X360,2006,sports,0.00,0.01,0.00,0.00,-1,-1.0,НЕТ ДАННЫХ,нет оценки,нет оценки


#### Выводим распределение числа игр по оценкам критиков

In [52]:
(df_actual.groupby(['crityc_score_category'])['name'].count()).sort_values(ascending = False)

  (df_actual.groupby(['crityc_score_category'])['name'].count()).sort_values(ascending = False)


crityc_score_category
нет оценки        5612
средняя оценка    5422
высокая оценка    1691
низкая оценка       55
Name: name, dtype: int64

### Выделяем топ-7 платформ по количеству игр, выпущенных за весь актуальный период.


In [53]:
(df_actual.groupby(['platform'])['name'].count()).sort_values(ascending = False).head(7)

platform
PS2     2127
DS      2120
WII     1275
PSP     1180
X360    1121
PS3     1086
GBA      811
Name: name, dtype: int64

## Выводы

Данный анализ проводился для статьи-исследования команды разработчиков "Секреты темнолесья" с целью изучить объёмы продаж игр разных жанров и региональные предпочтения игроков.

- Начальный обьем данных составлял 16956 строк в 11 столбцах.
- Для данного исследования был сделан срез по периоду с 2000 до 2013 год, датасет уменьшился до 12980 строк
- Все поля с данными были приведены к соответствующим типам.
- В датасете были обработаны и заполнены пропуски в количестве 199, удален 1 дубликат. 
- Число строк в обработанном датафрейме составило 12780 строк 
- Эти данные позволяют сделать более детальный анализ развития игровой индустрии за указанный период.
- Была проведена категоризация по оценкам пользователей и критиков и добавлены соответствующие поля в актуальный датасет.
- Например выделен топ -7 наиболее популярных платформ
- Распределение числа игр по категориям оценок пользователей и критиков