# Изучение развития игровой индустрии с 2000 по 2013 год

- Автор: Нарыжный В.В.
- Дата: 22.03.2025

### Цели и задачи проекта

 В данном блокноте Jupiter Notebook мы будем работать с датасетом new_games.csv, содержащим информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр. На основе этого датасета мы изучим объёмы продаж игр разных жанров и региональные предпочтения игроков c 2000 по 2013 год. Мы будем работать с данными которые собрали из открытых источников. Наша задача познакомиться с данными, проверить их корректность и провести предобработку, получив необходимый срез данных.

### Описание данных

В проекте будут использованы данные датасета `new_games.csv` с таким описанием:
- `Name` — название игры;
- `Platform` — название платформы;
- `Year of Release` — год выпуска игры;
- `Genre` — жанр игры;
- `NA sales` — продажи в Северной Америке (в миллионах проданных копий);
- `EU sales` — продажи в Европе (в миллионах проданных копий);
- `JP sales` — продажи в Японии (в миллионах проданных копий);
- `Other sales` — продажи в других странах (в миллионах проданных копий);
- `Critic Score` — оценка критиков (от 0 до 100);
- `User Score` — оценка пользователей (от 0 до 10);
- `Rating` — рейтинг организации ESRB (англ. Entertainment Software Rating Board). Эта ассоциация определяет рейтинг компьютерных игр и присваивает им подходящую возрастную категорию;

### Содержимое проекта

1. Загрузка и знакомство с данными
2. Проверка ошибок в данных и их предобработка
3. Фильтрация данных
4. Категоризация данных
5. Итоговый вывод


---

## 1. Загрузка данных и знакомство с ними

- Загружаем необходимые библиотеки Python и данные датасета `/datasets/new_games.csv`.


In [1]:
# Импортируем библиотеку pandas
import pandas as pd

In [2]:
# Выгружаем данные из датасета new_games.csv в датафрейм games
games = pd.read_csv('https://code.s3.yandex.net//datasets/new_games.csv')

- Знакомимся с данными: выведим первые строки и результат метода `info()`.


In [3]:
# Выводим информацию о датафрейме
games.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


In [4]:
# Выводим первые строки датафрейма на экран
games.head()

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


Датасет `new_games.csv` содержит 11 столбцов и 16956 строк, в которых представлена информация о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр.
Изучим типы данных и их корректность:
- **Числовые значения с плавающей запятой (float64).** Четыре столбца имеют тип данных `float64`:
   - Один столбец, `Year of Release`, содержит год выпуска и представлен типом `float64`. Логичнее было бы использовать целочисленный тип (int).
- **Строковые данные (object).** Семь столбцов имеют тип данных `object`:
   - Столбцы `EU sales` и `JP sales` имеют тип `object`, хотя это должны быть числовые данные c типом `float64` (продажи в Европе и Японии)
   - `User Score` (оценка пользователей) также имеет тип `object`, хотя это должна быть с числовым типом данных
   - В столбце `Rating` могут быть категориальные данные , которые нужно будет преобразовать в категориальный тип `category`.
- **Пропуски в данных.** 
   - В столбце `Name` пропущено 2 значения,в столбце `Year of Release` пропущено 275 значений,в столбце `Genre` пропущено 2 значения,в столбце `Critic Score` пропущено 8714 значений (более половины данных),в столбце `User Score` пропущено 6804 значения,в столбце `Rating` пропущено 6871 значение. Так как пропуски могут повлиять на анализ, их нужно будет обработать.
- **Названия столбцов.**    
   - После анализа типов данных видно, что большинство столбцов корректно представлены. Названия столбцов в целом отражают содержимое данных, но их можно сделать более удобным для работы(привести к нижнему регистру, пробелы заменить на нижние подчеркивания)

---

## 2.  Проверка ошибок в данных и их предобработка


### 2.1. Названия, или метки, столбцов датафрейма

- Внимательно изучим данные и проведем предобработку

In [5]:
# Выведем на экран названия всех столбцов датафрейма
for game in games:
    print(game)

Name
Platform
Year of Release
Genre
NA sales
EU sales
JP sales
Other sales
Critic Score
User Score
Rating


- Названия столбцов содержат пробелы. Это не соответствует стилю snake_case.

In [6]:
# Приведем названия к нижнему регистру
games.columns = games.columns.str.lower()

In [7]:
# Приведем названия столбцов к стилю snake_case
games.columns = games.columns.str.replace(' ', '_')

In [8]:
# Выведем результат 
for game in games:
    print(game)

name
platform
year_of_release
genre
na_sales
eu_sales
jp_sales
other_sales
critic_score
user_score
rating


### 2.2. Типы данных

- Из описания видно что в данных встречаются некорректные типы данных:
   - `eu_sales` и `jp_sales` имеют тип `object` хотя должны быть числовыми `float64`.
   - `user_score` имеет тип `object` хотя должен быть числовым `float64`.
   - `year_of_release` имеет тип `float64`, хотя должен быть `int64`.
- Возможно в столбцах могут быть нечисловые значения, пропуски в данных не позволяют преобразовать к типу `int64`, в числовых столбцах могут встречаться строковые значения например `unknown` или другие.

In [9]:
# Преобразуем eu_sales и jp_sales в числовой тип заменив строковые значения на пропуски
games['eu_sales'] = pd.to_numeric(games['eu_sales'], errors='coerce')
games['jp_sales'] = pd.to_numeric(games['jp_sales'], errors='coerce')

In [10]:
# Преобразуем user_score в числовой тип заменив строковые значения на пропуски
games['user_score'] = pd.to_numeric(games['user_score'], errors='coerce')

  - Столбец `year_of_release` с числовыми данными и пропусками нельзя преобразовать к типу `int64`. Сначала нам понадобится обработать пропуски а затем преобразовать тип данных в `int64`.

In [11]:
# Удалим пропуски в year_of_release
games = games.dropna(subset=['year_of_release'])

In [12]:
# Преобразуем в тип int64
games['year_of_release'] = games['year_of_release'].astype(int)

  - Проверим результат по типам данных

In [13]:
games.dtypes

name                object
platform            object
year_of_release      int64
genre               object
na_sales           float64
eu_sales           float64
jp_sales           float64
other_sales        float64
critic_score       float64
user_score         float64
rating              object
dtype: object

   - Проверим результат по пропускам

In [14]:
games.isna().sum()

name                  2
platform              0
year_of_release       0
genre                 2
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8596
user_score         9123
rating             6780
dtype: int64

### 2.3. Наличие пропусков в данных

- Посчитаем количество пропусков в каждом столбце в абсолютных и относительных значениях.


In [15]:
# Считаем количество пропусков
missing_count = games.isna().sum()

In [16]:
# Выводим результат
missing_count

name                  2
platform              0
year_of_release       0
genre                 2
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8596
user_score         9123
rating             6780
dtype: int64

In [17]:
# Считаем количество пропусков в процентах
missing_percent = round((games.isna().sum() / len(games)) * 100,2)

In [18]:
# Выводим результат
missing_percent

name                0.01
platform            0.00
year_of_release     0.00
genre               0.01
na_sales            0.00
eu_sales            0.04
jp_sales            0.02
other_sales         0.00
critic_score       51.53
user_score         54.69
rating             40.65
dtype: float64

- **Столбцы с пропусками.**
  - `name`2 пропуска (0.01%).

  - `genre`2 пропуска (0.01%).

  - `eu_sales` 6 пропусков (0.04%).

  - `jp_sales` 4 пропуска (0.02%).

  - `critic_score` 8596 пропусков (51.53%).

  - `user_score` 9123 пропусков (54.69%).

  - `rating` 6780 пропусков (40.65%).

  - Пропуски могут быть связаны с отсутствием данных или ошибками при их сборе.
  - Для маленьких показателей применим удаление пропусков так как их количество незначительно повлияет на анализ.Пропуски в данных с количеством проданных копий игры замнеим на среднее значение.Для остальных заменим на индикатор 

In [19]:
# Удаляем пропуски в name и genre
games = games.dropna(subset=['name', 'genre'])

In [20]:
# Заменяем пропуски на среднее значение в eu_sales и jp_sales
games['eu_sales'] = games['eu_sales'].fillna(games['eu_sales'].mean())
games['jp_sales'] = games['jp_sales'].fillna(games['jp_sales'].mean())

In [21]:
# Заменяем пропуски на индикатор в critic_score и user_score
games['critic_score'] = games['critic_score'].fillna(-1)
games['user_score'] = games['user_score'].fillna(-1)

In [22]:
# Заменим пропуски в rating на значение "unknown"
games['rating'] = games['rating'].fillna('unknown')

 - Проверяем результат

In [23]:
games.isna().sum()

name               0
platform           0
year_of_release    0
genre              0
na_sales           0
eu_sales           0
jp_sales           0
other_sales        0
critic_score       0
user_score         0
rating             0
dtype: int64

### 2.4. Явные и неявные дубликаты в данных

- Изучим уникальные значения в категориальных данных, например с названиями жанра игры, платформы, рейтинга и года выпуска. Проверим, встречаются ли среди данных неявные дубликаты, связанные с опечатками или разным способом написания.
- При необходимости проведем нормализацию данных с текстовыми значениями. Названия или жанры игр можно привести к нижнему регистру, а названия рейтинга — к верхнему.

  - Для начала изучим уникальные значения в столбцах с категориальными данными year_of_release, genre, platform, rating.

In [24]:
print('Год выпуска', games['year_of_release'].unique())
print('Жанры', games['genre'].unique())
print('Платформы', games['platform'].unique())
print('Рейтинг', games['rating'].unique())

Год выпуска [2006 1985 2008 2009 1996 1989 1984 2005 1999 2007 2010 2013 2004 1990
 1988 2002 2001 2011 1998 2015 2012 2014 1992 1997 1993 1994 1982 2016
 2003 1986 2000 1995 1991 1981 1987 1980 1983]
Жанры ['Sports' 'Platform' 'Racing' 'Role-Playing' 'Puzzle' 'Misc' 'Shooter'
 'Simulation' 'Action' 'Fighting' 'Adventure' 'Strategy' 'MISC'
 'ROLE-PLAYING' 'RACING' 'ACTION' 'SHOOTER' 'FIGHTING' 'SPORTS' 'PLATFORM'
 'ADVENTURE' 'SIMULATION' 'PUZZLE' 'STRATEGY']
Платформы ['Wii' 'NES' 'GB' 'DS' 'X360' 'PS3' 'PS2' 'SNES' 'GBA' 'PS4' '3DS' 'N64'
 'PS' 'XB' 'PC' '2600' 'PSP' 'XOne' 'WiiU' 'GC' 'GEN' 'DC' 'PSV' 'SAT'
 'SCD' 'WS' 'NG' 'TG16' '3DO' 'GG' 'PCFX']
Рейтинг ['E' 'unknown' 'M' 'T' 'E10+' 'K-A' 'AO' 'EC' 'RP']


 - Видим наличие дубликатов в данных. Например `ROLE-PLAYING` и `Role-Playing`, `ACTION` и `Action`

  - Проведем нормализацию данных. Названия платформ и жанров приведем к нижнему регистру а названия рейтинга к верхнему.

In [25]:
games['genre'] = games['genre'].str.lower()
games['platform'] = games['platform'].str.lower()
games['rating'] = games['rating'].str.upper()

In [26]:
# Проверим результат
print('Жанры', games['genre'].unique())
print('Платформы', games['platform'].unique())
print('Рейтинг', games['rating'].unique())

Жанры ['sports' 'platform' 'racing' 'role-playing' 'puzzle' 'misc' 'shooter'
 'simulation' 'action' 'fighting' 'adventure' 'strategy']
Платформы ['wii' 'nes' 'gb' 'ds' 'x360' 'ps3' 'ps2' 'snes' 'gba' 'ps4' '3ds' 'n64'
 'ps' 'xb' 'pc' '2600' 'psp' 'xone' 'wiiu' 'gc' 'gen' 'dc' 'psv' 'sat'
 'scd' 'ws' 'ng' 'tg16' '3do' 'gg' 'pcfx']
Рейтинг ['E' 'UNKNOWN' 'M' 'T' 'E10+' 'K-A' 'AO' 'EC' 'RP']


- После того как нормализуем данные и устраним неявные дубликаты, проверим наличие явных дубликатов в данных.

In [27]:
# Проверяем наличие явных дубликатов
duplicates = games.duplicated()
duplicates.sum()

235

 - 235 строк

In [28]:
# Удаляем дубликаты
games = games.drop_duplicates()

- Напишем промежуточный вывод: укажем количество найденных дубликатов и действия по их обработке.

- **Неявные дубликаты.** 
  - Устранили. Привели к нижнему и верхнему регистру
- **Явные дубликаты.** 
  - Найшли и удалили 235 строк
  
- Данные нормализовали.Текстовые значения привели к общему формату,неявные дубликаты устранили,явные дубликаты удалили.

- В процессе подготовки данных мы могли что-либо удалять, например строки с пропусками или ошибками, дубликаты и прочее. В этом случае посчитаем количество удалённых строк в абсолютном и относительном значениях.

In [29]:
# Изначальное количество строк 
original = 16956

In [30]:
# Количество строк после нормализации
final = len(games)

In [31]:
# Считаем количество удаленных строк 
deleted = original - final

In [32]:
# Считаем в относительном значении
deleted_percent = round((deleted / original) * 100,2)

In [33]:
# Выводим результат
deleted,deleted_percent

(512, 3.02)

- После проведения предобработки данных напишем общий промежуточный вывод.

- ***Данные нормализовали.Текстовые значения привели к общему формату,неявные дубликаты устранили,явные дубликаты удалили.***
- ***Удалено строк с пропусками 277, удалено дубликатов 235. Общее количество 512 строк, что составляет 3,02% от изначального количества строк***

---

## 3. Фильтрация данных

Коллеги хотят изучить историю продаж игр в начале XXI века, и их интересует период с 2000 по 2013 год включительно. Отберем данные по этому показателю. Сохраним новый срез данных в отдельном датафрейме, например `df_actual`.

In [34]:
# Отбираем данные за период с 2000 по 2013 год 
df_actual = pd.DataFrame(games[(games['year_of_release'] >= 2000) & (games['year_of_release'] <= 2013)])

In [35]:
# Выводим результат
print(df_actual['year_of_release'].unique())

[2006 2008 2009 2005 2007 2010 2013 2004 2002 2001 2011 2012 2003 2000]


---

## 4. Категоризация данных
    
Проведем категоризацию данных:
- Разделим все игры по оценкам пользователей и выделим такие категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).

In [36]:
# Выделяем категории
df_actual['user_category'] = pd.cut(
df_actual['user_score'],
bins = [0, 3, 8, 10],
labels = ['низкая оценка','средняя оценка','высокая оценка'],
right = False)

In [37]:
# Проверяем результат
df_actual[['user_category','user_score']].head()

Unnamed: 0,user_category,user_score
0,высокая оценка,8.0
2,высокая оценка,8.3
3,высокая оценка,8.0
6,высокая оценка,8.5
7,средняя оценка,6.6


- Разделим все игры по оценкам критиков и выделим такие категории: высокая оценка (от 80 до 100 включительно), средняя оценка (от 30 до 80, не включая правую границу интервала) и низкая оценка (от 0 до 30, не включая правую границу интервала).

In [38]:
# Выделяем категории
df_actual['critic_category'] = pd.cut(
df_actual['critic_score'],
bins = [0, 30, 80, 100],
labels = ['низкая оценка','средняя оценка','высокая оценка'],
right = False)

In [39]:
# Проверяем результат
df_actual[['critic_category','critic_score']].head()

Unnamed: 0,critic_category,critic_score
0,средняя оценка,76.0
2,высокая оценка,82.0
3,высокая оценка,80.0
6,высокая оценка,89.0
7,средняя оценка,58.0


- После категоризации данных проверим результат: сгруппируем данные по выделенным категориям и посчитаем количество игр в каждой категории.

In [40]:
# Группируем данные по двум категориям и считаем количество строк в каждой группе
games_categories = df_actual[['user_category', 'critic_category']].value_counts()

In [41]:
# Проверяем результат
games_categories

user_category   critic_category
средняя оценка  средняя оценка     3157
высокая оценка  средняя оценка     1167
                высокая оценка     1017
средняя оценка  высокая оценка      641
низкая оценка   средняя оценка       77
средняя оценка  низкая оценка        30
низкая оценка   низкая оценка        17
                высокая оценка        1
высокая оценка  низкая оценка         1
dtype: int64

- Выделим топ-7 платформ по количеству игр, выпущенных за весь актуальный период.

In [42]:
# Сгруппируем данные по платформе и посчитаем количество игр
platforms = df_actual.groupby('platform')['name'].count()

In [43]:
# Отсортируем по убыванию 
platforms = platforms.sort_values(ascending=False)

In [44]:
# Проверяем результат
platforms.head(7)

platform
ps2     2127
ds      2120
wii     1275
psp     1180
x360    1121
ps3     1087
gba      811
Name: name, dtype: int64

---

## 5. Итоговый вывод


  - В данной работе мы изучили историю продаж игр в начале XXI века за период с 2000 по 2013 год включительно.Были выполнены задачи:
- **Предобработка данных.** Удалили пропуски в столбцах `name`, `year_of_release`, `genre`, привели названия столбцов к нижнему регистру и стилю snake_case, преобразовали типы данных, заменили пропуски на индикаторы в столбцах `critic_score` и`user_score`,устранили дубликаты.
- **Фильтрация данных.** Отфильтровали данные по годам. Сохранили новый срез данных в отдельном датафрейме `df_actual`
- **Категоризация данных.** Разделили все игры по оценкам пользователей и выделили такие категории: `высокая оценка` (от 8 до 10 включительно), `средняя оценка` (от 3 до 8, не включая правую границу интервала) и `низкая оценка` (от 0 до 3, не включая правую границу интервала).Также Разделили все игры по оценкам критиков и выделили такие категории: `высокая оценка` (от 80 до 100 включительно), `средняя оценка` (от 30 до 80, не включая правую границу интервала) и `низкая оценка` (от 0 до 30, не включая правую границу интервала).
- **Анализ данных.** Выделили топ-7 платформ по количеству игр, выпущенных за весь актуальный период.Добавлены новые столбцы `user_category`: оценки пользователей и `critic_category`: оценки критиков в срез данных `df_actual` 

- ***Основной вывод***
   - Большее число игр получают средние оценки как от критиков так и от пользователей. Игр с высокими оценками меньше.Самыми популярными платформами за 2000-2013 годы являются `ps2`,`ds` 