# Предобработка данных для исследования игровой индустрии 2000-2013г.

- Автор: Андриив Ирина
- Дата: 15.05.2025

### Цели и задачи проекта

<font color='#777778'>**Цель проекта:** Подготовить данные для написания аналитической статьи о развитии игровой индустрии начала XXI века.  

**Задачи проекта:**    

1. Выявить возможные ошибки и неточности в полученных данных   
2. Исправить найденные в данных ошибки и неточности  
3. Отфильтровать данные по времени выхода игры в период с 2000 по 2013 год включительно  
4. Выделить категории игр на основе оценок пользователей и экспертов   
4. Выделить топ-7 платформ по количеству игр, выпущенных за весь требуемый период</font>

### Описание данных

<font color='#777778'>Данные датасета содержат информацию о продажах игр разных жанров и платформ, а также пользовательские и экспертные оценки игр

### Содержимое проекта

<font color='#777778'>1. [Загрузка данных и знакомство с ними](#1-bullet)    
2. [Проверка ошибок в данных и их предобработка](#2-bullet)  
3. [Фильтрация данных](#3-bullet)  
4. [Категоризация данных](#4-bullet)  
5. [Итоговый вывод](#5-bullet)  </font>

---

<a class ="anchor" id="1-bullet"></a> 
## 1. Загрузка данных и знакомство с ними


In [1]:
import pandas as pd 

In [2]:
df = pd.read_csv(...)

In [3]:
# Первые 5 строк датасета
df.head()

Unnamed: 0,Name,Platform,Year of Release,Genre,NA sales,EU sales,JP sales,Other sales,Critic Score,User Score,Rating
0,Wii Sports,Wii,2006.0,Sports,41.36,28.96,3.77,8.45,76.0,8.0,E
1,Super Mario Bros.,NES,1985.0,Platform,29.08,3.58,6.81,0.77,,,
2,Mario Kart Wii,Wii,2008.0,Racing,15.68,12.76,3.79,3.29,82.0,8.3,E
3,Wii Sports Resort,Wii,2009.0,Sports,15.61,10.93,3.28,2.95,80.0,8.0,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,11.27,8.89,10.22,1.0,,,


In [4]:
# Информация о данных
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16956 entries, 0 to 16955
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16954 non-null  object 
 1   Platform         16956 non-null  object 
 2   Year of Release  16681 non-null  float64
 3   Genre            16954 non-null  object 
 4   NA sales         16956 non-null  float64
 5   EU sales         16956 non-null  object 
 6   JP sales         16956 non-null  object 
 7   Other sales      16956 non-null  float64
 8   Critic Score     8242 non-null   float64
 9   User Score       10152 non-null  object 
 10  Rating           10085 non-null  object 
dtypes: float64(4), object(7)
memory usage: 1.4+ MB


In [5]:
# Сохраним начальное число строк датафрейма в переменную
df_lines = df.shape[0]                  

**Первичный анализ данных** 

1.Представленный датасет содержит 16956 строк и 11 столбцов.  
2.Содержание столбцов соответствует описанию данных и названиям столбцов.   
3.В некоторых столбцах встречаются пропуски: Name, Year of Release, Genre, Critic Score, User Score, Rating.    
4.В столбцах датасета представлены данные следующих типов: float64(4 столбца), object(7 столбцов). Однако в ряде столбцов тип данных определен некорректно и требует замены для дальнейшей работы с данными:   
тип данных float64 в столбце Year of Release необходимо заменить на int64,  
тип данных object в столбцах EU sales, JP sales, User Score,  Critic Score необходимо заменить на float64.  
5.Названия столбцов требуется привести к единому стилю написания (предпочтительно snake case) и единому регистру.

---
<a class ="anchor" id="2-bullet"></a> 
## 2.  Проверка ошибок в данных и их предобработка


### 2.1. Названия, или метки, столбцов датафрейма

- Выведите на экран названия всех столбцов датафрейма и проверьте их стиль написания.
- Приведите все столбцы к стилю snake case. Названия должны быть в нижнем регистре, а вместо пробелов — подчёркивания.

In [6]:
# Выводим на экран названия всех столбцов датасета
df.columns

Index(['Name', 'Platform', 'Year of Release', 'Genre', 'NA sales', 'EU sales',
       'JP sales', 'Other sales', 'Critic Score', 'User Score', 'Rating'],
      dtype='object')

Некоторые названия столбцов не соответствуют рекомендуемому стилю (snake case). Также все названия следует записать в ниженем регистре.

In [7]:
# Создаем словарь со скорректированными названиями столбцов для замены названий
new_names = {'Name':'name', 
'Platform':'platform',
'Year of Release':'year_of_release', 
'Genre':'genre', 
'NA sales':'na_sales', 
'EU sales':'eu_sales',
'JP sales':'jp_sales', 
'Other sales':'other_sales', 
'Critic Score':'critic_score', 
'User Score':'user_score', 
'Rating':'rating'}

In [8]:
# Присваиваем новые названия столбцов датафрейму
df = df.rename(columns = new_names)
df.columns

Index(['name', 'platform', 'year_of_release', 'genre', 'na_sales', 'eu_sales',
       'jp_sales', 'other_sales', 'critic_score', 'user_score', 'rating'],
      dtype='object')

### 2.2. Типы данных

- Если встречаются некорректные типы данных, предположите их причины.
- При необходимости проведите преобразование типов данных. Помните, что столбцы с числовыми данными и пропусками нельзя преобразовать к типу `int64`. Сначала вам понадобится обработать пропуски, а затем преобразовать типы данных.

В следующих столбцах тип данных определен некорректно и требует замены:   
**year_of_release** (тип данных float64 необходимо заменить на int64, в столбце присутствуют пропуски в виде нечисловых значений, в связи с этим pandas выбрал тип float64, тип данных будет преобразован после обработки пропусков),  
**eu_sales, jp_sales, user_score** (тип данных object необходимо заменить на float64, вероятнее всего, столбце присутствуют нечисловые значения, в связи с чем pandas преобразовал столбцы к типу object).

In [9]:
# Выведем уникальные значения столбца year_of_release для проверки типа данных
df['year_of_release'].unique()

array([2006., 1985., 2008., 2009., 1996., 1989., 1984., 2005., 1999.,
       2007., 2010., 2013., 2004., 1990., 1988., 2002., 2001., 2011.,
       1998., 2015., 2012., 2014., 1992., 1997., 1993., 1994., 1982.,
       2016., 2003., 1986., 2000.,   nan, 1995., 1991., 1981., 1987.,
       1980., 1983.])

In [10]:
# Выведем уникальные значения столбца eu_sales для проверки типа данных
df['eu_sales'].unique()

array(['28.96', '3.58', '12.76', '10.93', '8.89', '2.26', '9.14', '9.18',
       '6.94', '0.63', '10.95', '7.47', '6.18', '8.03', '4.89', '8.49',
       '9.09', '0.4', '3.75', '9.2', '4.46', '2.71', '3.44', '5.14',
       '5.49', '3.9', '5.35', '3.17', '5.09', '4.24', '5.04', '5.86',
       '3.68', '4.19', '5.73', '3.59', '4.51', '2.55', '4.02', '4.37',
       '6.31', '3.45', '2.81', '2.85', '3.49', '0.01', '3.35', '2.04',
       '3.07', '3.87', '3.0', '4.82', '3.64', '2.15', '3.69', '2.65',
       '2.56', '3.11', '3.14', '1.94', '1.95', '2.47', '2.28', '3.42',
       '3.63', '2.36', '1.71', '1.85', '2.79', '1.24', '6.12', '1.53',
       '3.47', '2.24', '5.01', '2.01', '1.72', '2.07', '6.42', '3.86',
       '0.45', '3.48', '1.89', '5.75', '2.17', '1.37', '2.35', '1.18',
       '2.11', '1.88', '2.83', '2.99', '2.89', '3.27', '2.22', '2.14',
       '1.45', '1.75', '1.04', '1.77', '3.02', '2.75', '2.16', '1.9',
       '2.59', '2.2', '4.3', '0.93', '2.53', '2.52', '1.79', '1.3', '2.6',
   

In [11]:
# Выведем уникальные значения столбца jp_sales для проверки типа данных
df['jp_sales'].unique()

array(['3.77', '6.81', '3.79', '3.28', '10.22', '4.22', '6.5', '2.93',
       '4.7', '0.28', '1.93', '4.13', '7.2', '3.6', '0.24', '2.53',
       '0.98', '0.41', '3.54', '4.16', '6.04', '4.18', '3.84', '0.06',
       '0.47', '5.38', '5.32', '5.65', '1.87', '0.13', '3.12', '0.36',
       '0.11', '4.35', '0.65', '0.07', '0.08', '0.49', '0.3', '2.66',
       '2.69', '0.48', '0.38', '5.33', '1.91', '3.96', '3.1', '1.1',
       '1.2', '0.14', '2.54', '2.14', '0.81', '2.12', '0.44', '3.15',
       '1.25', '0.04', '0.0', '2.47', '2.23', '1.69', '0.01', '3.0',
       '0.02', '4.39', '1.98', '0.1', '3.81', '0.05', '2.49', '1.58',
       '3.14', '2.73', '0.66', '0.22', '3.63', '1.45', '1.31', '2.43',
       '0.7', '0.35', '1.4', '0.6', '2.26', '1.42', '1.28', '1.39',
       '0.87', '0.17', '0.94', '0.19', '0.21', '1.6', '0.16', '1.03',
       '0.25', '2.06', '1.49', '1.29', '0.09', '2.87', '0.03', '0.78',
       '0.83', '2.33', '2.02', '1.36', '1.81', '1.97', '0.91', '0.99',
       '0.95', '2.0'

In [12]:
# Выведем уникальные значения столбца user_score для проверки типа данных
df['user_score'].unique()

array(['8', nan, '8.3', '8.5', '6.6', '8.4', '8.6', '7.7', '6.3', '7.4',
       '8.2', '9', '7.9', '8.1', '8.7', '7.1', '3.4', '5.3', '4.8', '3.2',
       '8.9', '6.4', '7.8', '7.5', '2.6', '7.2', '9.2', '7', '7.3', '4.3',
       '7.6', '5.7', '5', '9.1', '6.5', 'tbd', '8.8', '6.9', '9.4', '6.8',
       '6.1', '6.7', '5.4', '4', '4.9', '4.5', '9.3', '6.2', '4.2', '6',
       '3.7', '4.1', '5.8', '5.6', '5.5', '4.4', '4.6', '5.9', '3.9',
       '3.1', '2.9', '5.2', '3.3', '4.7', '5.1', '3.5', '2.5', '1.9', '3',
       '2.7', '2.2', '2', '9.5', '2.1', '3.6', '2.8', '1.8', '3.8', '0',
       '1.6', '9.6', '2.4', '1.7', '1.1', '0.3', '1.5', '0.7', '1.2',
       '2.3', '0.5', '1.3', '0.2', '0.6', '1.4', '0.9', '1', '9.7'],
      dtype=object)

In [13]:
# Выведем уникальные значения столбца user_score для проверки типа данных
df['critic_score'].unique()

array([76., nan, 82., 80., 89., 58., 87., 91., 61., 97., 95., 77., 88.,
       83., 94., 93., 85., 86., 98., 96., 90., 84., 73., 74., 78., 92.,
       71., 72., 68., 62., 49., 67., 81., 66., 56., 79., 70., 59., 64.,
       75., 60., 63., 69., 50., 25., 42., 44., 55., 48., 57., 29., 47.,
       65., 54., 20., 53., 37., 38., 33., 52., 30., 32., 43., 45., 51.,
       40., 46., 39., 34., 35., 41., 36., 28., 31., 27., 26., 19., 23.,
       24., 21., 17., 22., 13.])

In [14]:
# Преобразуем столбец eu_sales к типу данных float64
df['eu_sales'] = pd.to_numeric(df['eu_sales'], errors='coerce')

In [15]:
# Преобразуем столбец jp_sales к типу данных float64
df['jp_sales'] = pd.to_numeric(df['jp_sales'], errors='coerce')

In [16]:
# Преобразуем столбец user_score к типу данных float64
df['user_score'] = pd.to_numeric(df['user_score'], errors='coerce') 

In [17]:
# Преобразуем столбец critec_score к типу данных float64
df['critic_score'] = pd.to_numeric(df['critic_score'], errors='coerce') 

In [18]:
# Выведем типы данных преобразованных столбцов
df[['eu_sales', 'jp_sales', 'user_score', 'critic_score']].dtypes

eu_sales        float64
jp_sales        float64
user_score      float64
critic_score    float64
dtype: object

Столбец year_of_release будут преобразованы к соответствующим форматам ниже после удаления пропущенных значений

### 2.3. Наличие пропусков в данных

- Посчитайте количество пропусков в каждом столбце в абсолютных и относительных значениях.


In [19]:
# Количество пропусков в каждом столбце в абсолютных значениях
df.isna().sum()

name                  2
platform              0
year_of_release     275
genre                 2
na_sales              0
eu_sales              6
jp_sales              4
other_sales           0
critic_score       8714
user_score         9268
rating             6871
dtype: int64

In [20]:
# Количество пропусков в каждом столбце в относительных значениях
df.isna().mean()*100

name                0.011795
platform            0.000000
year_of_release     1.621845
genre               0.011795
na_sales            0.000000
eu_sales            0.035386
jp_sales            0.023590
other_sales         0.000000
critic_score       51.391838
user_score         54.659118
rating             40.522529
dtype: float64

- Изучите данные с пропущенными значениями. Напишите промежуточный вывод: для каких столбцов характерны пропуски и сколько их. Предположите, почему пропуски могли возникнуть. Укажите, какие действия с этими данными можно сделать и почему.


В следующих столбцах встречаются пропуски: *name, year_of_release, genre, critic_score, user_score, rating.* Также после изменения типа данных пропуски были обнаружены в столбцах *eu_sales, jp_sales*.  

Для столбцов ***name, genre, eu_sales, jp_sales*** количество пропусков в абсолютном и относительном выражении незначительно (менее 1% от общего количества записей). Скорее всего, пропуски вызваны случйными техническими ошибками в данных. В датасете есть данные, которые можно использовать для расчет средних значений по продажам в зависимости от года продажи и платформы. Рассчитанными значениями заполненим пропуски.   

Для столбца ***year_of_release*** количество пропусков так же не является критическим (275 пропусков, что составляет 1,6% от общего количества записей). Эти пропуски можно удалить, так как их количество незначительно относительно всего массива данных, а год может быть важным показателем для дальнейшего анализа данных. Скорее всего, такие пропуски также вызваны случйными техническими ошибками в данных, восстановить пропущенные занчения не удастся.  

Для столбцов ***critic_score, user_score, rating*** количество пропусков является критическим (51%, 55%, 40% от общего количества записей соответственно). Значения в столбцах critic_score, user_score являются числовыми, однако расчет среднего показателя на основе имеющихся в датасете данных может быть ошибочным ввиду большого количества пропусков. Отсутствующие значения в столбце rating явлюятся нечисловыми, применить расчет значния также не представляется возможным. При этом столбцы могут быть полезны в качестве источников дополнительной информации о развитии игровой индутстрии. В связи с этим, отсутствующие значения в столбцах возможно изменить на строковый индикатор, показывающий отсутствие данных (например, "Данные отсутствуют").

- Обработайте пропущенные значения. Для каждого случая вы можете выбрать оптимальный, на ваш взгляд, вариант: заменить на определённое значение, оставить как есть или удалить.
- Если вы решите заменить пропуски на значение-индикатор, то убедитесь, что предложенное значение не может быть использовано в данных.
- Если вы нашли пропуски в данных с количеством проданных копий игры в том или ином регионе, их можно заменить на среднее значение в зависимости от названия платформы и года выхода игры.

In [21]:
# Заменяем пропуски в столбце rating на индикатор "-1" 
df['rating'] = df['rating'].fillna(-1)

In [22]:
# Заменяем пропуски в столбце critic_score на индикатор "-1"
df['critic_score'] = df['critic_score'].fillna(-1)

In [23]:
# Заменяем пропуски в столбце user_score на индикатор "-1"
df['user_score'] = df['user_score'].fillna(-1)

In [24]:
# Удаляем пропущенные значения в столбце 'year_of_release'
df = df.dropna(subset=['year_of_release'])

In [25]:
# Удаляем пропущенные значения в столбце 'name'
df = df.dropna(subset=['name'])

In [26]:
# Удаляем пропущенные значения в столбце 'genre'
df = df.dropna(subset=['genre'])

In [27]:
# Преобразуем формат данных столбца 'year_of_release' к целочисленному
df['year_of_release'] = df['year_of_release'].astype('int64')
df['year_of_release'].dtypes

dtype('int64')

In [28]:
# Напишем функцию для вычисления средних значний продаж для столбца eu_sales
def eu_sales_mean(row):
    if pd.isna(row['eu_sales']):
        sales = df[(df['year_of_release'] == row['year_of_release']) & 
                   (df['platform'] == row['platform'])]
        return sales['eu_sales'].mean()
    else:
        return row['eu_sales']

In [29]:
# Применим функцию для заполнения пропущенных значений
df['eu_sales'] = df.apply(eu_sales_mean, axis=1)

In [30]:
# Напишем функцию для вычисления средних значний продаж для столбца jp_sales
def jp_sales_mean(row):
    if pd.isna(row['jp_sales']):
        sales = df[(df['year_of_release'] == row['year_of_release']) & 
                   (df['platform'] == row['platform'])]
        return sales['jp_sales'].mean()
    else:
        return row['jp_sales']

In [31]:
# Применим функцию для заполнения пропущенных значений
df['jp_sales'] = df.apply(jp_sales_mean, axis=1)

In [32]:
# Количество пропусков в каждом столбце в абсолютных значениях после обработки данных
df.isna().sum()

name               0
platform           0
year_of_release    0
genre              0
na_sales           0
eu_sales           0
jp_sales           0
other_sales        0
critic_score       0
user_score         0
rating             0
dtype: int64

Таким образом, пропуски в столбцах name, genre удалены, пропуски в столбцах eu_sales, jp_sales восстановлены на основе рассчитанных средних значений, строки с пропусками в столбце year_of_release удалены, а пропуски в столбцх critic_score, user_score, rating заменены на индикатор, сообщающий об отсутствии данных ввиду невозможности их восстановления.

### 2.4. Явные и неявные дубликаты в данных

- Изучите уникальные значения в категориальных данных, например с названиями жанра игры, платформы, рейтинга и года выпуска. Проверьте, встречаются ли среди данных неявные дубликаты, связанные с опечатками или разным способом написания.
- При необходимости проведите нормализацию данных с текстовыми значениями. Названия или жанры игр можно привести к нижнему регистру, а названия рейтинга — к верхнему.

In [33]:
# Проверяем уникальные значения в столбце platform
platform_uniq_values = df['platform'].unique()
print(platform_uniq_values)

['Wii' 'NES' 'GB' 'DS' 'X360' 'PS3' 'PS2' 'SNES' 'GBA' 'PS4' '3DS' 'N64'
 'PS' 'XB' 'PC' '2600' 'PSP' 'XOne' 'WiiU' 'GC' 'GEN' 'DC' 'PSV' 'SAT'
 'SCD' 'WS' 'NG' 'TG16' '3DO' 'GG' 'PCFX']


Среди значений дубликаты не найдены

In [34]:
# Проверяем уникальные значения в столбце genre
genre_uniq_values = df['genre'].unique()
print(genre_uniq_values)

['Sports' 'Platform' 'Racing' 'Role-Playing' 'Puzzle' 'Misc' 'Shooter'
 'Simulation' 'Action' 'Fighting' 'Adventure' 'Strategy' 'MISC'
 'ROLE-PLAYING' 'RACING' 'ACTION' 'SHOOTER' 'FIGHTING' 'SPORTS' 'PLATFORM'
 'ADVENTURE' 'SIMULATION' 'PUZZLE' 'STRATEGY']


Найдены дубликаты, названия жарнов необходимо привести к единому регистру

In [35]:
# Прриведем названия жанров к единому регистру
df['genre'] = df['genre'].str.lower()

In [36]:
# Проверяем уникальные значения в столбце genre
genre_uniq_values = df['genre'].unique()
print(genre_uniq_values)

['sports' 'platform' 'racing' 'role-playing' 'puzzle' 'misc' 'shooter'
 'simulation' 'action' 'fighting' 'adventure' 'strategy']


In [37]:
# Проверяем уникальные значения в столбце rating
rating_uniq_values = df['rating'].unique()
print(rating_uniq_values)

['E' -1 'M' 'T' 'E10+' 'K-A' 'AO' 'EC' 'RP']


Среди значений дубликаты не найдены

In [38]:
# Проверяем уникальные значения в столбце year_of_release
year_uniq_values = df['year_of_release'].unique()
year_uniq_values = sorted(year_uniq_values)
print(year_uniq_values)

[1980, 1981, 1982, 1983, 1984, 1985, 1986, 1987, 1988, 1989, 1990, 1991, 1992, 1993, 1994, 1995, 1996, 1997, 1998, 1999, 2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015, 2016]


Среди значений года опечаток и дублей не обнаружено

- После того как нормализуете данные и устраните неявные дубликаты, проверьте наличие явных дубликатов в данных.

In [39]:
# Проверим количество дубликатов в датасете
dupl_values = df.duplicated().sum()
print(f'Количество явных дубликатов в столбцах: {dupl_values}')

Количество явных дубликатов в столбцах: 235


In [40]:
# Удалим все явные дубликаты
new_df = df.drop_duplicates(inplace = False)

Анализ данных на предмет дубликатов показал наличие неявних дубликатов в столбце названий жанров. Такие дубликаты устранены путем изменения регистра наваний. Также было выявлено 235 явных дубликатов по всем строкам, была создана копия датасета без дублировния названий, к которой рекомендуется обращаться в дальнейшей работе.

- В процессе подготовки данных вы могли что-либо удалять, например строки с пропусками или ошибками, дубликаты и прочее. В этом случае посчитайте количество удалённых строк в абсолютном и относительном значениях.

In [41]:
# Выведем количество удалённых строк
deleted_lines = df_lines - new_df.shape[0]
print(f'Всего удалено строк: {deleted_lines}')

Всего удалено строк: 512


In [42]:
# Сохраняем процент удалённых строк
deleted_percent = round(deleted_lines / df_lines * 100, 2)
print(f'В процентном соотношении удалено {deleted_percent}%')

В процентном соотношении удалено 3.02%


В ходе проведенной предобработки данных:  
1. Был оценен объем данных: датасет состоял из 16956 строк и 11 столбцов.  
2. Был проанализирован тип данных: в некоторых столбцах было выявлено и исправлено несоответствие типа данных (столбцы eu_sales, jp_sales, user_score, year_of_release).  
3. Был проведен анализ пропущенных данных: в некоторых столбцах были обнаружены пропущенные данные. Для столбцов eu_sales, jp_sales данные удалось восстановить средними значениями, строки с пропусками в столбце year_of_release были удалены, пропуски в столбцах critic_score, user_score, rating были заменены индикаторами.  
4. Был проведен анализ дубликатов: были выявлены неявные дубликаты в столбце genre, исправлены путем приведения данных к единому регистру, а также были выявлены явные дубликаты по названию игры (столбец name). Явные дубликаты были удалены.  

По итогам предобработки сформирован новый датасет, включающий 16444 строк и 11 столбцов. В новый датасет не вошли 512 строк, что составило 3.02% от общего объема данных.

---
<a class ="anchor" id="3-bullet"></a> 
## 3. Фильтрация данных

Коллеги хотят изучить историю продаж игр в начале XXI века, и их интересует период с 2000 по 2013 год включительно. Отберите данные по этому показателю. Сохраните новый срез данных в отдельном датафрейме, например `df_actual`.

In [43]:
# Фильтруем данные по годам, сохраняем копию в новый датафрейм
df_actual = new_df[(new_df['year_of_release'] >= 2000) & (new_df['year_of_release'] <= 2013)].copy()

In [44]:
# Проверим уникальные значения года в новом датафрейме
year = df_actual['year_of_release'].unique()
year = sorted(year)
print(year)

[2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013]


In [45]:
# Выведем инфо о новом датасете
df_actual.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 12781 entries, 0 to 16954
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             12781 non-null  object 
 1   platform         12781 non-null  object 
 2   year_of_release  12781 non-null  int64  
 3   genre            12781 non-null  object 
 4   na_sales         12781 non-null  float64
 5   eu_sales         12781 non-null  float64
 6   jp_sales         12781 non-null  float64
 7   other_sales      12781 non-null  float64
 8   critic_score     12781 non-null  float64
 9   user_score       12781 non-null  float64
 10  rating           12781 non-null  object 
dtypes: float64(6), int64(1), object(4)
memory usage: 1.2+ MB


In [46]:
# Расчитаем количество игр по годам
df_actual.groupby('year_of_release')['name'].count()

year_of_release
2000     350
2001     482
2002     829
2003     775
2004     762
2005     939
2006    1006
2007    1197
2008    1427
2009    1426
2010    1255
2011    1136
2012     653
2013     544
Name: name, dtype: int64

Анализ количества выпускаемых игр по года позволяет определить развитие игровой индустрии за рассмотренный период как волнообразное: представляется возможным выявить периоды роста и спада активности в игровой индустрии. Так, периоды роста количества выпускаемых игр отмечаются с 2000 по 2002, с 2004 по 2008 годы. Периоды спада отмечаются с 2002 по 2004, с 2008 по 2013 годы.

---
<a class ="anchor" id="4-bullet"></a> 
## 4. Категоризация данных
    
Проведите категоризацию данных:
- Разделите все игры по оценкам пользователей и выделите такие категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала).

In [47]:
# Создаем новый столбец с классификацией
df_actual['user_category'] = pd.cut(df_actual['user_score'], bins=[-1, 0, 3, 8, 10], 
                                    labels = ['Без оценки', 'Низкая оценка', 'Средняя оценка', 'Высокая оценка'], right = False)

- Разделите все игры по оценкам критиков и выделите такие категории: высокая оценка (от 80 до 100 включительно), средняя оценка (от 30 до 80, не включая правую границу интервала) и низкая оценка (от 0 до 30, не включая правую границу интервала).

In [48]:
# Создаем новый столбец с классификацией
df_actual['critic_category'] = pd.cut(df_actual['critic_score'], bins=[-1, 0, 30, 80, 100],
                               labels = ['Без оценки', 'Низкая оценка', 'Средняя оценка', 'Высокая оценка'], right = False)

In [49]:
# Выведем датафрейм с новыми столбцами
df_actual.head()

Unnamed: 0,name,platform,year_of_release,genre,na_sales,eu_sales,jp_sales,other_sales,critic_score,user_score,rating,user_category,critic_category
0,Wii Sports,Wii,2006,sports,41.36,28.96,3.77,8.45,76.0,8.0,E,Высокая оценка,Средняя оценка
2,Mario Kart Wii,Wii,2008,racing,15.68,12.76,3.79,3.29,82.0,8.3,E,Высокая оценка,Высокая оценка
3,Wii Sports Resort,Wii,2009,sports,15.61,10.93,3.28,2.95,80.0,8.0,E,Высокая оценка,Высокая оценка
6,New Super Mario Bros.,DS,2006,platform,11.28,9.14,6.5,2.88,89.0,8.5,E,Высокая оценка,Высокая оценка
7,Wii Play,Wii,2006,misc,13.96,9.18,2.93,2.84,58.0,6.6,E,Средняя оценка,Средняя оценка


- После категоризации данных проверьте результат: сгруппируйте данные по выделенным категориям и посчитайте количество игр в каждой категории.

In [50]:
# Количество игр в категориях по пользовательским оценкам 
df_actual.groupby('user_category')['name'].count()

user_category
Без оценки        6298
Низкая оценка      116
Средняя оценка    4081
Высокая оценка    2286
Name: name, dtype: int64

In [51]:
# Количество игр в категориях по оценкам критиков
df_actual.groupby('critic_category')['name'].count()

critic_category
Без оценки        5612
Низкая оценка       55
Средняя оценка    5422
Высокая оценка    1692
Name: name, dtype: int64

- Выделите топ-7 платформ по количеству игр, выпущенных за весь актуальный период.

In [52]:
# Выведем топ-7 платформ по количеству игр
df_actual.groupby('platform')['name'].count().sort_values(ascending = False).head(7)

platform
PS2     2127
DS      2120
Wii     1275
PSP     1180
X360    1121
PS3     1087
GBA      811
Name: name, dtype: int64

---
<a class ="anchor" id="5-bullet"></a> 
## 5. Итоговый вывод



В ходе работы был оценен объем данных: полученный в работу датасет состоял из 16956 строк и 11 столбцов. Данные датасета были проверены на предмет наличия пропущенных значений, явных и неявных дублей, соответствия типов данных содержимому столбцов. Пропущенные значения были заменены расчетными значениями, индикторами или удалены. Явные и неявные дубликаты были выявлены и удалены. Типы данных были изменены в соответствии с данными, содержащимися в столбце. По итогам предобработки был сфорирован датафрейм, включающий 16444 строк и 11 столбцов. В новый датасет не вошли 512 строк, что составило 3.02% от общего объема данных.

После проведенной предобработки данных был сформирован новый датасет df_actual, содержащий данные с 2000 по 2013 годы. Всего в новом датасете осталось 12781 строка. Также в новый датасет были добавлены 2 новых столбца: user_category, critic_category с классификацией игр в соответствии с пользовтельской оценкой и оценкой критиков. В столбце user_category были выделены следующие категории: высокая оценка (от 8 до 10 включительно), средняя оценка (от 3 до 8, не включая правую границу интервала) и низкая оценка (от 0 до 3, не включая правую границу интервала). В столбце critic_category были выделены следующие категории: высокая оценка (от 80 до 100 включительно), средняя оценка (от 30 до 80, не включая правую границу интервала) и низкая оценка (от 0 до 30, не включая правую границу интервала). Всего в новом датасете 13 столбцов.  

В ходе анализа также был выведен топ-7 платформ по количеству выпущенных игр за рассматриваемый период:  
***PS2***     2127  
***DS***      2120  
***Wii***     1275  
***PSP***     1180  
***X360***    1121  
***PS3***     1087  
***GBA***      811   

А также в ходе исследования были определены основные этапы роста и спада количества выпускаемых игр:  
периоды роста количества выпускаемых игр отмечаются с 2000 по 2002, с 2004 по 2008 годы. Периоды спада отмечаются с 2002 по 2004, с 2008 по 2013 годы.